Без cookies никак!
Они помогают улучшить сервис для вас. Продолжая использо­вать сайт, вы даете свое согласие на работу с этими файлами. Политика обработки персональных данных
Блог

Как работает визуализация. Коммуникация с помощью данных

26 ноября 2024
7 мин. 1559
image
image
image
Виктория Денис арт-директор
image
Елена Андреева редактор-копирайтер
Как работает визуализация. Коммуникация с помощью данных

Таблицы — великое изобретение человечества, но сегодня они уступают место графикам и диаграммам. Ведь мы пришли в эпоху описательной статистики и визуализации. В этой статье вспомним, как общество оказалось в этой точке, а также поговорим:

  • о визуализационных решениях;

  • о коммуникации при помощи данных.

А если вы только знакомитесь с data science, предлагаем сначала прочитать первую статью цикла: она посвящена основам и базовым определениям.

Как мы взаимодействуем с информацией

Наше взаимодействие с данными, то есть восприятие в информационном смысле, строится в основном с помощью двух чувств: зрения и слуха. Каждый день в нашем поле зрения появляются тысячи сигналов, а наша система восприятия стремится распознать закономерности, на которые нужно обратить наше осознанное внимание.

О том, что такое «шум» и «сигнал» в данных, мы подробно писали в  одной из статей нашего блога.

У восприятия числовой информации есть свои особенности. С большим количеством цифр и категорий нам сложно работать, особенно если речь идёт об обобщениях и выводах. Также нашему мозгу сложно длительное время концентрироваться на цифрах. Поэтому сейчас, когда поток знаний стал гораздо интенсивнее, наука о данных переходит от числового и табличного её представления к визуализациям.

Путь к визуализации

Таблицы стали одним из полезных изобретений цивилизации. Они и сегодня играют роль компактной формы представления значений: в них можно быстро находить нужные цифры; она позволяет проводить сравнения и взаимодействовать с разными категориями данных.

  • Плохо справляются с передачей большого количества информации.
  • На основе таблицы сложно сделать обобщения и выводы.
  • На таблице тяжело удерживать внимание, что создаёт сложности не только для работы с ней, но и при демонстрации её аудитории.

Статистические методы в работе с данными — следующая ступень эволюции после таблиц. Это набор инструментов и техник, которые дата-сайентисты используют для анализа, интерпретации и извлечения информации.

Коротко перечислим примеры таких методов и ситуации их использования:

  • Описание данных. Расчеты средних, медиан, стандартных отклонений, построение гистограмм и box plots.
  • Проверка гипотез. T-тест, ANOVA, хи-квадрат тест.
  • Построение моделей. Линейная регрессия, логистическая регрессия, деревья решений, кластеризация, факторный анализ.
  • Оценка неопределенности. Доверительные интервалы, p-значения.

Квартет Энскомба — интересный парадокс, представленный английским математиком Ф. Дж. Энскомбом. Это комбинация из четырех наборов значений. Каждый из них имеет практически идентичные описательные статистики (средние, стандартные отклонения, корреляции), но при визуализации на графиках демонстрирует совершенно разные распределения и взаимосвязи между переменными. Квадрат показывает важность визуализации в дополнение к использованию только систематизации значений.

Квартет Энскомба. Источник: Wikipedia.

Наконец, визуализации — графики, схемы, диаграммы — можно назвать новой вехой в изучении данных. Они позволяют быстро замечать закономерности и делать выводы.

История визуализации

Визуализация позволяет увидеть закономерности. Сегодня графики и диаграммы никого не удивляют, но история помнит случаи, когда их роль была буквально революционной. Собрали для вас главные даты и имена в истории визуализации.

Уильфм Плэйфэр. Шотландский инженер и политический экономист, «отец» инфографики: изобрёл линейную и столбцовую диаграммы, а также круговую диаграмму-«пирог». Книга Плэйфэра «Коммерческий и политический атлас» 1786 года издания проиллюстрирована диаграммами и графиками его собственного изобретения.

Флоренс Найтингейл.Медсестра, участвовавшая в Крымской войне начала XX века, также известна как одна из первых дата-журналисток. Она вела учёт причин смертей среди раненых британских солдат и визуализировала данные в виде диаграммы с полярной системой координат.

Джон Сноу. В 1854 году в Лондоне свирепствовала эпидемия холеры. Доктор Джон Сноу нанес на городской план Лондона очаги распространения болезни, указав количество смертей в каждом из домов. По его диаграмме видно, что самая большая концентрация погибших находится на Броуд Стрит, вблизи уличной колонки. Визуализация помогла найти причину распространения болезни: колонку отключили, и локальная вспышка холеры закончилась.

Шарль Минар, французский гражданский инженер, знаменит своей визуализацией числовых данных на картах. Самая знаменитая из его работ — карты наполеоновской кампании в России 1812 года, показывающая тяжёлые потери французской армии во время наступления на Москву и отступления.

Эдмонд Галлей, английский астроном и геофизик Известен тем, что вычислил орбиту кометы Галлея. Именно он впервые нанёс на карты линии, которые показывают разницу в состоянии атмосферы в разных точках планеты. Сейчас такие визуализации используются на метеорологических картах.

Шарль де Фуркруа, французский гражданский инженер, знаменит своей визуализацией числовых значений на картах. Самая знаменитая из его работ — карты наполеоновской кампании в России 1812 года, показывающая тяжёлые потери французской армии во время наступления на Москву и отступления.

Луиджи Пероццо, итальянский математик. Первым представил 3D-инфографику, которая показывала взаимоотношения между тремя переменными на одном графике.

Многие из типов визуализаций, разработанных в прошлых веках, мы успешно применяем до сих пор.

Как работает визуализация

Каждая визуализация состоит из базовых элементов, формирующих ее структуру и содержание. К ним относятся: оси и шкалы, определяющие размерность и внешний вид визуализации; заголовок и подписи, обеспечивающие контекст; и визуальная кодировка — непосредственно наполнение диаграммы, визуальное представление данных.

Эффективность графического представления данных напрямую зависит от грамотного использования визуальных кодировок. Именно они помогают преобразовать числа в знания, создавая быстрые графические ассоциации, которые привлекают внимание и способствуют пониманию поведения показателей, а также формированию выводов.

Во второй половине XX века учёные много изучали визуальное восприятие и пришли к интересным выводам.

Одно из открытий — феномен «предвнимания» (на английском «pre-attentive processing»).

Это начальная стадия обработки визуальной информации, которая происходит бессознательно и автоматически, без фокусировки внимания на конкретном объекте. Оно позволяет нам быстро и эффективно извлекать основные характеристики сцены, такие как цвет, форма, движение и ориентация объектов.

Предвнимание обрабатывает всё увиденное одновременно, без необходимости последовательного сканирования. Оно фокусируется на базовых признаках, которые легко обнаружить, например, резкие изменения яркости, цвета или ориентации. Предвнимание отсеивает ненужное и передает только самые важные сигналы в дальнейшие этапы обработки.

Пример: Представьте, что вы смотрите на поле с цветами. Предвнимание позволяет вам быстро заметить, что среди синих васильков есть один красный мак. Вы не задумывались об этом, ваш мозг автоматически выделил этот объект, потому что он отличается по цвету.

Исследования также позволили выделить несколько основных визуальных каналов. Именно на этих каналах основаны различные виды визуальных кодировок, используемых для представления данных. Каждый канал визуального представления данных эффективен для своих целей. Например, положение объекта на оси (высота от условного нуля) и его размер обычно передают величину значений.

Различные визуальные каналы, а значит, и кодировки, удобны для решения различных задач. На схеме методы представления данных разделены на две группы: передача величины значений и передача различий между значениями.

Различные методы визуализации.

Если мы невнимательны в использовании визуальных кодировок, мы можем столкнуться с тем, что наши данные воспринимают неправильно. На примерах ниже для 
показа одной и той же визуализации использованы разные визуальные каналы для кодирования страны. Рассмотрев все три, вы наверняка согласитесь, что первая иллюстрация, с объектами разной формы, наиболее удачна. На второй схеме цвета легко спутать, а на третьей кажется, что объекты показывают разницу в размерах, хотя такого значения и нет.

Как читать визуализации

Если вам нужно рассмотреть и считать данные на графике и диаграмме, этот список вопросов поможет ничего не упустить. Также он будет полезен, если вы хотите сделать презентацию или доклад.

  1. Какие данные представлены? Достаточно ли их для ответа на мой вопрос?
  2. Какие визуальные элементы (кодировки) используются для отображения?
  3. Какие шкалы применяются на диаграмме? Какова размерность и диапазон осей? Начинаются ли они с нуля?
  4. Если диаграмма показывает части целого: Суммируются ли все части в единое целое? Есть ли исключения?
  5. Если диаграмма отображает изменение показателя во времени: Как организована временная ось?
  6. Если диаграмма показывает изменение показателя: Что указывает на его увеличение/уменьшение?
  7. Какая агрегация использована? Подходит ли мне этот способ?
  8. Какие новые вопросы возникают после первого взгляда на диаграмму? Достаточно ли мне представленных значений?
  9. Есть ли выбросы данных? Если да, то какова их причина? Являются ли они следствием ошибок или отражают значимые аномалии?
  10. Внимательно изучите легенду (описания) диаграммы. Не содержат ли они дополнительную информацию?
  11. Обратите внимание на любые дополнительные элементы диаграммы.

Подготовлено по материалам сайта dataliteracy.ru.

Современные инструменты визуализации: что выбрать под задачу

Что есть на рынке

Доступные инструменты визуализации можно условно поделить на три класса решений, каждый класс имеет свои особенности.
02
Облачные сервисы быстрого сторителлинга/медиавизуализации — быстрое изготовление публикабельных графиков и карт.

  • Looker Studio — бесплатный веб-конструктор отчётов с сотнями встроенных/партнёрских коннекторов. Уместен для маркетинга и продуктовых дашбордов без тяжёлой модели данных.
  • Visiology — это российская аналитическая платформа для сбора, анализа и визуализации данных (Business Intelligence), которая помогает компаниям принимать управленческие решения. Сервис позволяет создавать наглядные дашборды и отчеты без навыков программирования, а также настраивать сложные рабочие процессы. Он используется в госорганах, крупных корпорациях и промышленных отраслях, включая энергетику и финансы.
  • AlmazBI — российская система для бизнес-аналитики (BI) и визуализации данных, которая позволяет пользователям самостоятельно анализировать и представлять данные в виде отчетов, графиков и дашбордов. Сервис относится к классу self-service BI и предназначен для эффективного управления, анализа эффективности, планирования и поддержки принятия решений в компаниях.
03
Open-source/самостоятельное развёртывание и наблюдаемость — контроль, кастомизация, white-label/встраивание

  • Apache Superset — современная opensource-платформа с no-code-визуализациями, SQL-IDE, гибкой конфигурацией и REST API; хорошо ложится в стэк с DWH/лаками и SSO.
  • Metabase — простой вход, OSS/Cloud-версии, фильтры/модели/встраивание и white-label; быстрый старт для продуктовых команд и SMB, есть AI-функции в облаке.
Корпоративные BI-платформы — максимально широкий функционал, безопасность и управляемость данных.

  • Modus BI — российская enterprise-BI для on-prem и гибридных сценариев. Подходит компаниям, которым критичны развёртывание в своём контуре, гибкая настройка прав и встраивание дашбордов в корпоративные системы. Поддерживает подключение к разным источникам через API/веб-сервисы, интерактивные чарт-библиотеки, прогнозирование и публикацию с сохранением интерактивности и стилей. Архитектура front (React) + back (Go), есть REST-API для интеграций и встраивания.
  • Yandex DataLens — облачная BI-платформа в Yandex Cloud. Быстрый старт, работа с датасетами, графиками и дашбордами прямо в браузере, совместное редактирование и встраивание (в т.ч. непубличное — с обновляемыми токенами). В 2025 добавлены фичи вроде «Нейроаналитика» и фонового экспорта; тарификация — по активным пользователям в месяц; действуют документированные лимиты сервиса. Уместен для маркетинговых/продуктовых отчётов и сценариев с преимущественно облачной инфраструктурой.
  • 1С:Аналитика — BI в экосистеме «1С:Предприятие 8». Cильна там, где основной учёт — в 1С: обеспечивает единые учётные записи и права, быстрый переход из учётной базы к аналитике, просмотр отчётов в браузере и на мобильных устройствах; умеет тянуть данные из разных источников и подходит для управленческого учёта и операционной отчётности.
01
Чтобы показать особенности каждого типа решений, собрали их в таблицу.

Как выбирать

Если нужны управление доступом, единая модель, публикация для тысяч пользователей — смотрим на корпоративные BI-платформы (1).
Если задача — быстро публиковать полученные визуализации без знания кода, то подойдут сервисы быстрого сторителлинга (2).
Если важны контроль, безопасность, интеграция с другими системами и встраивание — Superset/Metabase (плюс Grafana для потоковых метрик).
Мы в Uplab при разработке цифровых решений используем дашборды, созданные «с нуля», без готовых инструментов и решений для визуализации. Но как мы это делаем и почему выбрали такой путь, мы расскажем в следующей статье.

Расскажите
о вашем проекте