О том, что такое «шум» и «сигнал» в данных, мы подробно писали в одной из статей нашего блога.
Таблицы — великое изобретение человечества, но сегодня они уступают место графикам и диаграммам. Ведь мы пришли в эпоху описательной статистики и визуализации. В этой статье вспомним, как общество оказалось в этой точке, а также поговорим:
о визуализационных решениях;
о коммуникации при помощи данных.
А если вы только знакомитесь с data science, предлагаем сначала прочитать первую статью цикла: она посвящена основам и базовым определениям.
Наше взаимодействие с данными, то есть восприятие в информационном смысле, строится в основном с помощью двух чувств: зрения и слуха. Каждый день в нашем поле зрения появляются тысячи сигналов, а наша система восприятия стремится распознать закономерности, на которые нужно обратить наше осознанное внимание.
О том, что такое «шум» и «сигнал» в данных, мы подробно писали в одной из статей нашего блога.
У восприятия числовой информации есть свои особенности. С большим количеством цифр и категорий нам сложно работать, особенно если речь идёт об обобщениях и выводах. Также нашему мозгу сложно длительное время концентрироваться на цифрах. Поэтому сейчас, когда поток знаний стал гораздо интенсивнее, наука о данных переходит от числового и табличного её представления к визуализациям.
Таблицы стали одним из полезных изобретений цивилизации. Они и сегодня играют роль компактной формы представления значений: в них можно быстро находить нужные цифры; она позволяет проводить сравнения и взаимодействовать с разными категориями данных.
Статистические методы в работе с данными — следующая ступень эволюции после таблиц. Это набор инструментов и техник, которые дата-сайентисты используют для анализа, интерпретации и извлечения информации.
Коротко перечислим примеры таких методов и ситуации их использования:
Квартет Энскомба — интересный парадокс, представленный английским математиком Ф. Дж. Энскомбом. Это комбинация из четырех наборов значений. Каждый из них имеет практически идентичные описательные статистики (средние, стандартные отклонения, корреляции), но при визуализации на графиках демонстрирует совершенно разные распределения и взаимосвязи между переменными. Квадрат показывает важность визуализации в дополнение к использованию только систематизации значений.
Наконец, визуализации — графики, схемы, диаграммы — можно назвать новой вехой в изучении данных. Они позволяют быстро замечать закономерности и делать выводы.
Визуализация позволяет увидеть закономерности. Сегодня графики и диаграммы никого не удивляют, но история помнит случаи, когда их роль была буквально революционной. Собрали для вас главные даты и имена в истории визуализации.
Уильфм Плэйфэр. Шотландский инженер и политический экономист, «отец» инфографики: изобрёл линейную и столбцовую диаграммы, а также круговую диаграмму-«пирог». Книга Плэйфэра «Коммерческий и политический атлас» 1786 года издания проиллюстрирована диаграммами и графиками его собственного изобретения.
Флоренс Найтингейл.Медсестра, участвовавшая в Крымской войне начала XX века, также известна как одна из первых дата-журналисток. Она вела учёт причин смертей среди раненых британских солдат и визуализировала данные в виде диаграммы с полярной системой координат.
Джон Сноу. В 1854 году в Лондоне свирепствовала эпидемия холеры. Доктор Джон Сноу нанес на городской план Лондона очаги распространения болезни, указав количество смертей в каждом из домов. По его диаграмме видно, что самая большая концентрация погибших находится на Броуд Стрит, вблизи уличной колонки. Визуализация помогла найти причину распространения болезни: колонку отключили, и локальная вспышка холеры закончилась.
Шарль Минар, французский гражданский инженер, знаменит своей визуализацией числовых данных на картах. Самая знаменитая из его работ — карты наполеоновской кампании в России 1812 года, показывающая тяжёлые потери французской армии во время наступления на Москву и отступления.
Эдмонд Галлей, английский астроном и геофизик Известен тем, что вычислил орбиту кометы Галлея. Именно он впервые нанёс на карты линии, которые показывают разницу в состоянии атмосферы в разных точках планеты. Сейчас такие визуализации используются на метеорологических картах.
Шарль де Фуркруа, французский гражданский инженер, знаменит своей визуализацией числовых значений на картах. Самая знаменитая из его работ — карты наполеоновской кампании в России 1812 года, показывающая тяжёлые потери французской армии во время наступления на Москву и отступления.
Луиджи Пероццо, итальянский математик. Первым представил 3D-инфографику, которая показывала взаимоотношения между тремя переменными на одном графике.
Многие из типов визуализаций, разработанных в прошлых веках, мы успешно применяем до сих пор.
Каждая визуализация состоит из базовых элементов, формирующих ее структуру и содержание. К ним относятся: оси и шкалы, определяющие размерность и внешний вид визуализации; заголовок и подписи, обеспечивающие контекст; и визуальная кодировка — непосредственно наполнение диаграммы, визуальное представление данных.
Эффективность графического представления данных напрямую зависит от грамотного использования визуальных кодировок. Именно они помогают преобразовать числа в знания, создавая быстрые графические ассоциации, которые привлекают внимание и способствуют пониманию поведения показателей, а также формированию выводов.
Во второй половине XX века учёные много изучали визуальное восприятие и пришли к интересным выводам.
Одно из открытий — феномен «предвнимания» (на английском «pre-attentive processing»).
Это начальная стадия обработки визуальной информации, которая происходит бессознательно и автоматически, без фокусировки внимания на конкретном объекте. Оно позволяет нам быстро и эффективно извлекать основные характеристики сцены, такие как цвет, форма, движение и ориентация объектов.
Предвнимание обрабатывает всё увиденное одновременно, без необходимости последовательного сканирования. Оно фокусируется на базовых признаках, которые легко обнаружить, например, резкие изменения яркости, цвета или ориентации. Предвнимание отсеивает ненужное и передает только самые важные сигналы в дальнейшие этапы обработки.
Пример: Представьте, что вы смотрите на поле с цветами. Предвнимание позволяет вам быстро заметить, что среди синих васильков есть один красный мак. Вы не задумывались об этом, ваш мозг автоматически выделил этот объект, потому что он отличается по цвету.
Исследования также позволили выделить несколько основных визуальных каналов. Именно на этих каналах основаны различные виды визуальных кодировок, используемых для представления данных. Каждый канал визуального представления данных эффективен для своих целей. Например, положение объекта на оси (высота от условного нуля) и его размер обычно передают величину значений.
Различные визуальные каналы, а значит, и кодировки, удобны для решения различных задач. На схеме методы представления данных разделены на две группы: передача величины значений и передача различий между значениями.
Если мы невнимательны в использовании визуальных кодировок, мы можем столкнуться с тем, что наши данные воспринимают неправильно. На примерах ниже для показа одной и той же визуализации использованы разные визуальные каналы для кодирования страны. Рассмотрев все три, вы наверняка согласитесь, что первая иллюстрация, с объектами разной формы, наиболее удачна. На второй схеме цвета легко спутать, а на третьей кажется, что объекты показывают разницу в размерах, хотя такого значения и нет.
Если вам нужно рассмотреть и считать данные на графике и диаграмме, этот список вопросов поможет ничего не упустить. Также он будет полезен, если вы хотите сделать презентацию или доклад.
Подготовлено по материалам сайта dataliteracy.ru.
Комментарии к статье
Комментарии: 0