53 заметки с тегом

визуализация

Влияние школ на распространение вируса

Поднимаю ссылку на недавнее исследование, где наглядно показано, насколько сильно закрытие школ влияет на скорость распространения вируса.

https://www.thelancet.com/journals/laninf/article/PIIS1473-3099(20)30785-4/fulltext

Красным показаны диапазоны коэффициента воспроизведения (R) без ограничений, синим — при действующих ограничениях. По горизонтали — количество дней с момента начала действия ограничений.

Отправлять детей в школу опаснее, чем пользоваться общественным транспортом, посещать общественные мероприятия, путешествовать, ходить на работу и т. д. Контакты в школах это не только много людей в одном месте. Дети не хотят выглядеть не круто, и поэтому многие избегают ношения масок. Друзья, которые обнимались при встречах до пандемии, продолжают обниматься. В классах вентиляция, практически, на совести учителей. Проветривают на переменах, но 45 минут урока хватает, чтобы поделиться вирусом.

Дети активно двигаются, движение повышает интенсивность дыхания — обмен частицами в обе стороны. Дети не молчат — при громкой речи многократно увеличивается выделение аэрозольных частиц.

Графики показывают коэффиценты по стране в целом. Включена 131 страна. Но важная деталь: на первом из восьми графиков аудитория меньше: школьники и учителя. Остальные семь — без ограничения аудитории.

Школьники, которые без ограничений ходят в школу, пользуются, в том числе, и транспортом. Но не все, кто пользуется транспортом, едут в школу.

Получается, что относительно небольшая выборка населения — ученики и сотрудники школ — генерят более высокое ускорение распространения, чем остальные виды собраний людей. Таким образом, вероятность того, что человек пойдет в школу и заразится, очень высокая.

* * *

Пара слов о показателе R.

Это относительное изменение количества инфицированных за небольшой промежуток времени. Например, в России считают за 4 дня и сравнивают с предыдущими 4 днями.

R = 1 показывает, что скорость не меняется, заражение происходит линейно:
100 + 100 + 100...

R > 1 показывает, что скорость увеличивается, это ускорение.
100 + 110 + 120...

R < 1 показывает снижение скорости.
100 + 90 + 80...

Аналогия с управлением автомобилем:
R — это не скорость, это насколько сильно мы давим на педаль газа или тормоза.

Для победы над инфекцией комплекс всех мер должен привести к показателю R ниже единицы. И не просто достигнуть один раз, а долго удерживать его ниже единицы. В конце будет некому заражать других. По аналогии это нажатие педали тормоза.

По той же аналогии удержание R близко к единице не помогает: не ускоряемся, но и катимся с прежней скоростью.

Вот здесь показываю R с помощью цвета в столбцах:
https://www.cashin.ru/virus/

Страны, где «нажата педаль газа» — краснее.

Понимаю, что график уже выглядит мелковато. Я его сделал, когда еще не нужно было подписывать годы, а числа ещё были шестизначными...

Но общая картинка видна. Россия сейчас аккуратненько притормаживает, но рано радоваться: это слегка притормаживающий быстро несущийся поезд:
https://www.cashin.ru/virus/russia/

Нужен именно комплекс мер, а не какая-то одна:
Вакцины — классно, конечно, но существует проблема производства, распространения, и далее всей цепочки от записи пациента до проведения последнего укола. Это произойдет не быстро, если вы не Израиль. Не все доверяют вакцинам. Не всем её можно ставить.

Можно сказать, но вот в Израиле же смогли? И мы сможем. Но тогда можно сказать, ведь в Сингапуре смогли надеть на всех маски, так чего мы не можем? Это на порядки проще и дешевле! Это история про то, что в реальном мире «хороший дизайн» не всегда приводит к хорошему результату. Вследствие разных сложных обстоятельств.

Маски — тоже классно, не нужно ничего колоть, никаких непроверенных на длительном промежутке времени чужеродных веществ в организме, никаких побочных эффектов. Но людям пока не удалось заставить всех одновременно носить маски. Кто-то носит, а кто-то нет.

Быстрое и недорогое тестирование — тоже хорошо, даже при низкой точности за счет массового применения быстро выявляются инфицированные и их можно изолировать. Но быстрое тестирование у нас, например, почему-то не развивают.

Локдауны — пока самая мощная мера, но и крайне дорогостоящая и тяжелая в воплощении.

Нужно комбинировать меры.

12 января   визуализация   Коронавирус   школы

Вероятность — не вероятность

Главная проблема в индустрии визуализации данных: качество графики повышается, а понимание лежащих в основе процессов и их свойств — не особо.

Предыдущие заметки на эту тему:

Миф о криминальных иммигрантах
https://www.cashin.ru/blog/all/vis-fault-1/

Бессмысленные данные
https://www.cashin.ru/blog/all/times-zero/

* * *

Сегодня посмотрим на графику к чемпионату мира по футболу 2018 года.
https://projects.fivethirtyeight.com/2018-world-cup-predictions/matches/

Авторы ведут блог fivethirtyeight.com и периодически строят прогнозы разных событий.

Вот так выглядела оценка вероятностей в матчах по дням:

Вот такая графика появилась к финалу:

Такие вещи сходу нравятся. Как вписаны варианты исхода вничью. Как подобраны цвета. Разделительные линии между таймами. Перетекание команд в финале. В общем, техника визуализации. При забивании гола меняется график, это наводит на мысли о том, что прогноз учитывает ход игры.

Поначалу это внушает доверие. Чаще всего люди примерно с таким впечатлением и уходят, не вникая глубже. А если не уходят, появляются вопросы.

Что произошло вот здесь, в кружочке?

Испанцы забили гол. В самом начале матча. Прогноз стал показывать, что вероятность победы (WIN PROB.) команды Испании резко увеличилась примерно в два раза: с 25% до 48%.

Ладно. Матч только начался и продолжается. В середине тайма снова что-то происходит:

Теперь гол забивает Португалия. Вероятность победы Испании резко снижается более чем в два раза. Вероятность победы Португалии теперь в два раза выше.

Такое происходит еще 4 раза в течение матча — забили всего 6 мячей. Прогноз вероятности прыгает то в одну, то в другую сторону.

В конце происходит совершенно дикая вещь: незадолго до конца матча система показывала вероятность исхода «Португалия победит» как максимальную, на глаз более 80 %. Внезапно (!) испанцы забивают шестой гол. Прогноз вероятности победы Португалии рушится в ноль.

Внимание, вопрос. Почему «вероятность» так сильно прыгает при забивании голов? Вероятность ли это вообще? Авторы явно пишут — да, WIN PROB.

Как на самом деле ведёт себя вероятность? И чем вероятность отличается от текущего счета в игре?

* * *

Давайте так. Представим, начинается чемпионат, и на поле выходят две команды. На трибунах десятки тысяч зрителей, у экранов — миллионы.

Почему команды состязаются друг с другом? Потому что неизвестно, кто победит. Именно в этом интерес.

Иногда одна команда сильнее другой. И, типа, видно, кто победит наиболее вероятно. Но тогда зачем команды выходят на поле? Да потому что всё равно неизвестно! А что если кто-то выложится получше? Потому и состязаются. Шансы есть. Забивай на последней минуте, атакуй, даже проигрывая, никогда не сдавайся, и т. п. Неопределенность заложена в саму суть игры.

Рассмотрим процесс.
Для простоты исключаем ничью, как в финале.
Вот две команды, с какой-то оценкой относительного уровня.
Команда А оценивается как чуть более сильная, чем Б.
Вероятность победы А чуть выше:

Но когда начинается матч, мы не знаем наверняка результат «точно победит команда А». Результат этой игры зависит сейчас от действий конкретных людей на поле. Если хорошая команда будет плохо работать, она не победит. Быть сильной командой недостаточно.

Начинается матч, и менее сильная команда Б забивает гол. Как авторы нашего прогноза в такой ситуации корректируют прогноз? Они показывают резкое увеличение вероятности победы в матче забившей команды:

Вероятность резко повышается... Чувствуете, что здесь что-то не то?
Может ли команда забить гол? Ну, а зачем ей ещё выходить на поле, а-ха-ха! Конечно, может.

Окей. Может ли команда Б забить не один, а несколько голов? Вот так:

Опять же, почему нет? У них что, ноги отвалились после первого гола? Ноги есть, мяч по-прежнему круглый, всё зависит от действий людей. Напомню, что изначально мы рассматриваем ситуацию, когда командам действительно имеет смысл играть, их шансы изначально близки.

Рассмотрим теперь, что происходит с командой А. Проходит несколько минут, и они... тоже забивают гол.

Сколько голов ещё забьет команда А? Ну как сколько. Это неизвестно. Матч же только начался. Исходная картинка наглядно показывает вполне возможный разброс количества голов за игру: 1, 1, 6:

Потому, вполне может быть так:

Итого, возможности забивать есть у обеих команд:

А может забивать.
Б может забивать.
Как распределяются шансы?

Мы полагаем, что более сильная команда имеет больше шансов. Поэтому смещаем прогноз 50 на 50 (обе могут победить) в сторону сильных. 45 на 55, например.

Но смещаем не слишком далеко, потому что у менее сильной команды тоже есть шанс победить, мы не знаем исхода и поэтому наблюдаем за игрой.

И вот самая интересная деталь, ради которой вся история.
Прогноз вероятности исхода матча — это не то же самое, что счёт игры. Вероятность не прыгает по ходу игры так, как показывают авторы визуализации. Это разные процессы.

Природа счёта известна и проста. Это случайные дискретные события на оси времени:

Какая, в данном случае, природа вероятности победы в матче? Чем она обусловлена?

Начало матча: прогноз вероятности основан только на состоянии команд на момент начала. Игра команд не началась и не влияет на начальный прогноз:

Конец матча: один из пунктов достигает вероятности 100%.
Победа А, Победа Б, Ничья.
Например, победила команда Б:

Что происходило с вероятностью в процессе? Как она менялась? Вряд ли как-то так:

Вероятность менялась как-то нелинейно. Какова природа нелинейности?

В конце матча появляется больше определенности, потому что проигрывающей команде остается все меньше времени на проведение атаки. Возникают физические ограничения, которых не было в середине матча.

Вот тут в конце матча у Аргентины оставалось настолько мало времени, что люди просто не успели бы физически провести мяч в ворота три раза. В конце игры вероятность победы противника при таком счёте стремится к 100%.

В середине и в начале всё по-другому.

Прогноз должен меняться нелинейно. Но авторы предлагают вот такую странную нелинейность: прогноз скачет и в начале, и в середине, и в конце матча чуть ли не от нуля до ста процентов. На большинстве графиков. Их там 64 штуки, гляньте, повторяю ссылку:
https://projects.fivethirtyeight.com/2018-world-cup-predictions/matches/

За примером снова не нужно далеко ходить, всё та же картинка Португалии-Испании показывает, как резко меняется прогноз даже в конце матча:

Вероятность отражает неопределенность. Если даже в конце матча такая неопределенность, и прогноз настолько шумный, то какая же тогда неопределенность в середине матча?

Все эти прыжки «вероятности» говорят ровно следующее и о прогнозе, и о методике: мы не знаем, кто победит.

При такой высокой дисперсии данных ситуация «мы не знаем, кто победит» в числовом выражении сходится к 50 на 50. Или, точнее, с поправкой на оценку навыков команд. В нашем примере, 45 к 55.

Какой прогноз вероятности заслуживал бы больше доверия? Прогноз с корректировкой на неопределенность и высокий шум данных. Данные о забитых мячах — очень шумные случайные переменные.

Данные о пропущенных мячах важны, потому что влияют на моральное состояние команд, и на тактику. Победители часто встают в глухую оборону. Но это слова. Цифры матчей говорят о том, что оборону можно взломать, и именно в этом заключается работа другой команды. И поэтому сохраняется неопределенность, идет борьба, появляются новые победители.

К концу матча остается мало времени на взлом обороны. Когда ты физически не успеешь добежать до ворот три раза. Включается фактор времени. Но это ограничение появляется ближе к концу:

Накладываются другие факторы. Усталость, моральная нагрузка и т. д. Какие-то исзчезают позже других (время: добраться до ворот можно и на 87 минуте матча, поэтому красный график такой крутой в конце), какие-то раньше.

Но в целом история такая, как мы говорили в начале: у обеих команд есть шансы. Обе команды свежие и бодрые в начале матча. Поэтому более корректным будет прогноз с корректировкой по функции оставшихся возможностей. Любой забитый гол не должен приводить к сильным колебаниям вероятности в начале матча.

Если показатель высокодисперсный — вероятности на начальных этапах сходится к 50%. Проще говоря, данные содержат много шума, и вы не знаете, кто победит.

Такой прогноз показывает шум и текущий счёт, а не вероятность:

Более адекватный прогноз учитывает неопределенность и дисперсию входных данных. Первые голы меньше влияют на оценку вероятности. Определенность значительно увеличивается ближе к концу, когда отпадают варианты что-то исправить. Чем ближе к концу, тем сильнее прогноз отклоняется от середины:

Конечно, это проблема для авторов прогноза, которые рассчитывают на массовую популярность. Потому что более адекватный прогноз 1) выглядит не так драматично, 2) все прогнозы окажутся очень похожими друг на друга. А значит, люди не будут охать и пересылать ссылки. Проклятие медиа: нужно поддерживать волну!

Медиа закономерно чаще выбирают первый вариант, к сожалению.

* * *

Итоги

Показанная метрика больше похожа на входные данные, чем на функцию, которая должна строиться на основе этих данных.
x ≠ f(x)

Счет в игре — это x, а не f(x). Если вероятность так трясет в самом начале матча, это признак шума данных и высокой неопределенности. Высокая неопределенность в числовом выражении означает шансы 50 на 50. Графика не учитывает этого свойства вероятности.

Вероятность оказалась не вероятностью. Это какой-то другой показатель, но не вероятность.

* * *

У блога fivethirtyeight.com миллионы читателей. Популярность не означает правоту.

Умножение на ноль: хорошие навыки графического дизайна, аккуратная работа с цветом и типографикой, остроумный способ отображения пространства вариантов во времени матчей — всё это умножается на ноль понимания природы вероятности.

Хочется отдать должное тем, кто непосредственно руками создавал эти графики. Визуально графики так хороши, что их приятно скриншотить и комментировать. Но умножение на ноль даёт ноль.

2020   вероятности   визуализация   ошибки   умножение на ноль

Умножение на ноль

Сегодня встретил такое:

https://twitter.com/nytimes/status/1331277675869200389

Сложно придумать более бессмысленную тему для инфографики. А когда-то я следовал рекомендациям Тафти и смотрел Нью-Йорк Таймс. Наверное, ребятам сложно держать ритм. Проклятие медиа: каждый день нужно что-то говорить, а сказать нечего.

Умножение на ноль:
Хорошие графические навыки × громкое имя × ноль смысла = ноль.

f(x) = 0

Всё, что ты умножаешь на ноль, превращается в ноль.

(а эта заметка получает прикольный адрес: times-zero ;-)

2020   визуализация   данные   инфографика   умножение на ноль

В жизни измерений больше, чем кажется

Я уже начитался мнений про эту визуализацию в духе «классная графика, показывающая, что маски почти не помогают». Графика говорит о диаметрально противоположном. Выходит, графика таки не настолько хороша, раз люди понимают главные идеи наоборот.

https://english.elpais.com/society/2020-10-28/a-room-a-bar-and-a-class-how-the-coronavirus-is-spread-through-the-air.html?fbclid=IwAR1dVlRklL3DYNXGlBGe3qj5ylHikR2og3OmRpWcZ2r4o97qR7xsluCuqbY

Важные моменты:
— Защита — штука многоуровневая и многомерная, работает лучше в комплексе.
— Маски необходимы, но не всегда достаточны. И это не означает, что они не помогают.

Важно понимать, что происходит какой-то сложный процесс с множеством скрытых параметров. При создании визуализации часто ставят многомерность как один из критериев качества: чем больше измерений показано, тем лучше. Опять же, не настолько буквально, но как один из критериев в составе других.

Но самое интересное — что в жизни измерений всегда больше, чем в визуализации. Визуализация — примитивная модель реальности. Жизнь всегда сложнее любой графики. Например, совершенно пальцем в небо: графика никак не затрагивает действия защиты на масштабе и на раундах заражения. Мультиплицирование свойств. Вследствие которого даже малейшая польза масок (или любого другого воздействия вроде проветривания) приводит к снижению передачи вируса по цепи к следующим людям — возникает каскадный эффект умножения свойств на большом масштабе с ходом времени.

2020   визуализация   исследование   многомерность

Главная проблема в индустрии визуализации данных

Растущее качество графики в современной визуализации данных всё чаще скрывает сомнительные подходы работы с данными, неправильное понимание природы данных, а иногда и грубые математические ошибки.

Бывает, смотришь на историю и сразу веришь показанному, потому что история выглядит уверенно. Видно, что люди плотно поработали. Хочется доверять. Но…

С данными всегда есть проблемы: они многомерные, неоднородные, из разных источников. Они то полные, то неполные. Иногда кажется, что их много, а их мало. И наоборот. Их надо собирать, дополнять, искать в них порядок. Надо решать, как показывать историю. Надо решать, какую именно историю вообще стоит показывать и зачем.

Наименее вероятны проблемы с визуализацией в следующих ситуациях:

— Отображаемый процесс — установившийся. Например, доля бракованного товара в производстве.
— Процесс находится в прошлом, распределения известны. Результаты спортивных состязаний. Состоявшиеся продажи автомобилей по маркам и моделям.
— Распределение данных находится в классе гауссовых. Например, вес и рост людей.

Но всё усложняется, если система — открытая, нелинейная и многомерная (распределение богатства), если распределение процесса степенное, с толстым хвостом (эпидемии и войны), если в деле замешано прогнозирование (результаты будущих выборов).

Такие ситуации требуют критического мышления, логики, математики, понимания свойств. «Визуализировать» недостаточно. Увы, в реальном мире именно такие ситуации как раз наиболее интересны.

Часто в убедительной с виду истории можно найти провал в самом главном. В основном сообщении, в сути. Хочу разобрать пару примеров на эту тему.

В качестве первого примера — статья «Миф о криминальных иммигрантах»,

о связи между нелегальной иммиграцией и преступностью в США.

* * *

https://www.themarshallproject.org/2018/03/30/the-myth-of-the-criminal-immigrant

В статье автор делает вывод, вроде бы основанный на данных. Если копнуть глубже, выясняется, что статья говорит совсем о другом.

О чем говорит статья? Разберем по шагам.

Начинаем прямо с хэдера страницы:
Do immigrants lead to crime? A recent study says no. «Приводит ли иммиграция к преступности? Недавнее исследование говорит, что нет.»

Давайте посмотрим, о чем на самом деле говорит исследование.

Количество иммигрантов (в процентах 2016 г относительно 1980) увеличилось. Уровень преступности (тяжкие) за те же годы уменьшился.

Сходу бросается в глаза небольшое количество точек измерения. Меряли десятилетиями. Тут всего по 4 точки на график на огромный диапазон времени. Это мало для такого масштабного процесса. Просто технически, еще до того как пролистаем страницу ниже.

Непонятно, как собирались данные. Накапливались по 10 лет, или это точечные данные. Если накапливались, почему не показать промежуточные? Автор ссылается на исследование, доступное на платной основе:

https://tandfonline.com/doi/full/10.1080/15377938.2016.1261057?needAccess=true

Как я понимаю парный график: «смотрите, иммигрантов всё больше, а преступности становится меньше». Типа, корреляция.

Но тут проблема: обе переменные многофакторные и нелинейные, значит для выявления корреляции (если она вообще может быть) нужно гораздо больше данных, чтобы подтвердить гипотезу на исторических данных. Супер-мало данных!

Следующий сомнительный момент: статья критикует Трампа на тему «Стены» и нелегальной иммиграции (бандитов, буквально). Но статья разбирает просто иммиграцию, без выделения нелегальной. Не ясно, какая доля преступлений на правом графике совершена именно нелегальными иммигрантами.

Да и более того, справа вообще нет речи об иммигрантах, это общее количество тяжких преступлений.

Трамп в 2018 качал тему именно нелегальной иммиграции: https://twitter.com/realDonaldTrump/status/1086091478168993792

In 2018 alone, 20,000 illegal aliens with criminal records were apprehended trying to cross the Border, and there was a 122% increase in fentanyl being smuggled between ports of entry.

Из того, что снижается некий коэффициент преступности, не следует, что иммигранты совершают меньше преступлений. Технически автор статьи жонглирует множествами иммигрантов вообще, и нелегальных, совершивших тяжкие преступления.

Внизу стоит ссылка на данные ФБР. Но само ФБР предупреждает, что не стоит полагаться только на данные, и приводит список множества факторов, которые нужно учитывать. Только в этом списке 13 пунктов: https://ucr.fbi.gov/ucr-statistics-their-proper-use

В принципе, уже достаточно причин, чтобы забыть про статью:
множества не бьются, многофакторность не учитывается, корреляция ложная, никакой связи между исходными данными и выводами не показано. Но ниже тоже есть интересные моменты )

* * *

Изменение уровней преступности, 1986-2016 годы:

Мозг сразу рисует какую-то такую картинку. Но не торопитесь с выводами )

На графике куча проблем.
Слишком высокий уровень шума данных, чтобы нарисовать себе такой тренд.
Не видно абсолютных значений: в городах разная численность населения.
Графический ход вызывает вопросы: кружочки наслаиваются друг на друга, не видно что под ними.

Хорошо, что кружочки сделаны в векторе в СВГ. Ищем в инспекторе, гасим обводки и цвет, включаем альфу:

И тренд уже не такой явный, и по-прежнему не видно абсолютной численности.

Похожая штука про наслоение кружочков:
http://cashin.ru/blog/all/vizualizaciya-dannyh-na-yandeks-karte/

Ниже — графики по городам, но снова не показана связь между наборами данных. Что показывают, фактически: иммигрантов становится больше, а тяжких преступлений — меньше, и одно не связано с другим.

Данные разорваны больше, чем кажется. Не связаны атрибуты времени и места: преступления не обязательно совершаются сразу по прибытию и в том же месте, где зарегистрирован иммигрант. Ну и ни слова про нелегальных.

К многофакторности добавляется и то, что преступления не только совершаются, их еще и предотвращают. Это еще целая пачка процессов. В большинстве городов стали регистрировать меньше преступлений: лучше борются? Хуже регистрируют? Эти факторы не упоминаются.

Важно, какие города попали в выборку и по какому принципу эта выборка составлялась. В городах ситуация с преступностью может отличаться от пригородов. Городская полиция работает в высокой плотности, на более коротких расстояниях, с новыми техническими средствами, автоматизированным наблюдением и поиском. Такое быстрее внедряется в крупных городах. А на графике мы видим относительно мало мелких городов. Выборка вызывает вопросы.

Если все иммигранты реально оказались классными, графика этого не показывает.

One of the largest decreases in crime occured in MIAMI, where immigration increased:

График слева: «В Майами стало больше иммигрантов».
График справа: «В Майами совершается меньше тяжких преступлений».

Вообще-то, Майами одно из самых богатых мест в США. Полиция в самом богатом регионе поработала успешно? Причин может быть масса. И это ничего не говорит ни о доле участия иммигрантов в общем количестве преступлений, ни о доле нелегальных среди них.

В конце автор утверждает, что данное исследование показало, что иммиграция не приводит к увеличению преступности:

This is not the only study showing that immigration does not increase crime.

Но статья не показала связи между этими двумя явлениями.

2020   визуализация   иммиграция   США   умножение на ноль

Избыточная смертность

Небольшая выписка из статьи об «избыточной смертности» во время пандемии коронавируса,
https://ourworldindata.org/excess-mortality-covid
(Excess mortality from the Coronavirus pandemic COVID-19)

Избыточная смертность (далее пишу без кавычек) = фактически фиксируемое количество смертей — (минус) ожидаемое количество в нормальных условиях в прежние годы.

Например, чтобы узнать количество избыточных смертей в мае, берем сумму всех смертей, зарегистрированных в мае и вычитаем среднее количество смертей в мае за предыдущие 5 лет.

Простыми словами: насколько чаще или реже стали умирать, по сравнению с предыдущими годами. Независимо от причин.

Почему в период пандемии имеет смысл смотреть на показатели избыточной смертности?

— Некоторые страны считают причиной вирус только у тех, кто скончался в больнице.
— Бывает, считают причиной вирус только в том случае, если получен результат теста на вирус. Если результата нет, то не протестированные пациенты не считаются.
— Могут быть проблемы с точностью подсчета смертей, в особенности, в бедных странах.
— Пандемия может приводить к увеличению смертности в сочетании с другими причинами, вследствие ослабления систем здравоохранения, недостатка внимания пациентам с другими болезнями, нехваткой финансовых ресурсов и др.
— Пандемия также может приводить к снижению смертности по определенным статьям.

Расчет избыточной смертности независимо от причины летальных случаев помогает посмотреть под новым углом на эффекты, оказываемые пандемией.

Данные по избыточной смертности доступны лишь для небольшого ряда стран. Эти данные доступны не везде, для сбора требуется точность подсчета и сбора данных в предыдущие годы.

Далее приводятся ссылки на несколько публикаций по избыточной смертности по разным источникам.

Файненшиал Таймс (Financial Times)

https://www.ft.com/content/a26fbf7e-48f8-11ea-aeb3-955839e06441
Статическая визуализация.
Более 10 стран, Европа, США, Израиль, Южная Африка. 10 городов.

* * *

Экономист (The Economist)

https://www.economist.com/graphic-detail/2020/04/16/tracking-covid-19-excess-deaths-across-countries
Интерактивная визуализация.
Европейские страны, несколько городов.
Европейские данные разбиты по возрастам.

* * *

Евромомо (Euromomo)

https://euromomo.eu/graphs-and-maps
Интерактивная визуализация.
Европейские страны.
с разбивкой по возрастам.

* * *

Нью-Йорк Таймс (New York Times)

https://www.nytimes.com/interactive/2020/04/21/world/coronavirus-missing-deaths.html
New York Times’ work
Статическая визуализация.
Более 10 стран, Европа, США, Эквадор, некоторые города.

«Очень плавный, медленный темп прироста»

На картинке количество стран, в которых ежедневный процент прироста инфицированных КОВИД-19 выше, чем в России, за неделю 10-16 апреля 2020, среди всех стран с 20000+ инфицированных.

Если вдруг не загрузилась картинка: 0 (ноль).

Визуализация иллюстрирует заявление главы Роспотребнадзора Анны Поповой: «Я бы хотела сказать, что РФ сохраняет очень плавный, медленный темп прироста, не уходя за 20% ежедневного прироста, и сохраняя его от 14% до 17% в день».

https://www.interfax.ru/russia/704740

Здесь на скриншоте страны, отсортированные только по общему количеству. Столбцы — дни слева направо. Последняя неделя — последние 7 столбцов.
https://www.cashin.ru/virus/confirmedgrowth/

Страны, отсортированные по индексу общего количества * процента роста:

Я, кажется, даже недооценил собственную находку: если проследить сглаженные по двум соседним дням траектории процентного роста, то у России не было конкурентов еще с 31 марта. Более двух недель, каждый день, если подвигать дату. Кажется, есть о чем подумать, даже если полагать, что существуют «стадии», которые другие страны уже «прошли»:
https://www.cashin.ru/virus/timingrate/
Графики показывают не поведение инфекции и не стадии инфекции.
Графики показывают поведение людей.

В статье еще такое:

https://www.interfax.ru/russia/704740
«Попова напомнила, что в эпидемиологии принято считать не абсолютным количеством случаев инфицированных, а относительными показателями в расчете на 100 тыс. населения.

Согласно приведенным ею данным, в РФ показатель на 100 тыс. населения составляет около 17. Это в пять раз ниже, чем в Канаде, в 10 раз ниже, чем в Германии. По словам Поповой, такое сравнение является более корректным.»

Почему я не показываю данные по пандемии из расчета на душу населения:
http://www.cashin.ru/blog/all/no-per-capita/

2020   визуализация   Коронавирус   Роспотребнадзор

Изолинии массы × ускорения

Я начал делать свой набор визуализаций о вирусе вот с этой таблицы, сочетающей количество заболевших и процент прироста по дням. Это было 19 марта. Сейчас она работает по адресу:
https://cashin.ru/virus/confirmedgrowth/

В на этой странице самое интересное — третий метод сортировки. Там всего 5 вариантов сортировки, третий называется Confirmed and growth %.

Что это? Технически это процент увеличения за день относительно вчерашнего, умноженный на общее количество на текущий день.

Я как-то об этом писал, но, наверное, не сделал достаточного акцента и не разъяснил. У этого метода сортировки есть физический смысл. Это сила: масса, умноженная на ускорение. Аналоги этих величин — общее количество заболевших и процент роста.

Почему количество играет роль массы: чем больше количество заболевших, тем большей нагрузкой приходится управлять, это инертность. Масса — мера инертности. Чем выше инертность, тем тяжелее менять ход процесса.

Процент как ускорение: почему не просто скорость? Скорость — это абсолютная величина прироста. Если к 1000 человек добавляется каждый день по 100, то 100 — это скорость. Но если прирост не 10 человек, а 10%, то следующие приросты будут увеличиваться. Если процент роста остается неизменным — это ускорение роста. Каждый день прирост больше предыдущего. Постоянный процент роста говорит об ускорении процесса.

Чтобы определить порядок стран при этом режиме сортировки (он сразу выбран по умолчанию), я перемножаю общее количество и проценты. Когда я придумал этот индекс, я называл его «индексом хреновости». Где ситуация хреновее всего.

Индекс хреновости = индекс силы, действующей на страну. Эта сила двигает страну в нехорошую сторону. В списке более 180 стран. Посмотрим на топ силы прямо сейчас. 8 место — Россия. Выше только Германия, Италия (!), Франция, Великобритания, Турция и США.

Геометрическое представление «индекса силы» — диаграмма процента роста к общему количеству, вот она:
https://cashin.ru/virus/timingrate/
Вертикаль — ежедневный процент, горизонталь — общая сумма.

* * *

Как сопоставить эти две визуализации? Они же показывают одинаковые данные (не считая того, что круги и линии на второй показывают больше данных). В таблице мы видим, что Россия на 8 месте по произведению двух показателей, ускорение × масса. А как сравнить произведения на плоскости в логарифмических шкалах?

Вот топ 8 стран в таблице и те же страны в тех же показателях на плоскости:

Да, мы залетели в эту группу страшных кругов. Наш круг пока небольшой и ещё есть шанс оттуда «упасть». Иран уже, как видите, не попадает — он на 9 месте. На плоскости можно провести линии, которые показывают, насколько далеко зашла страна. Процент роста может быть высоким, но при этом снижаться — скорость еще есть, но ускорение снижается, и точка пойдет вниз.

Если провести изолинии силы по точкам постоянного произведения, получается вот такая история. Несколько линий для примера. Страны, где это сочетание показателей снижается, ныряют вниз и не доходят до следующих изолиний. Здесь видно, что Россия залетела чуть дальше Ирана. И если с набранной массой уже ничего не поделаешь, то ускорение и скорость надо гасить.

Не показываю данные по пандемии из расчета на душу населения

https://www.cashin.ru/virus/
Не показываю данные по пандемии из расчета на душу населения, потому что эта метрика может ввести в заблуждение. Имеет значение, сколько людей находится в непосредственном контакте со вспышкой эпидемии. Отображение числа случаев на единицу населения создаст ложное ощущение безопасности для больших стран, ситуация будет казаться лучше, чем на самом деле. Никто в здравом уме не скажет, что ситуация в Нью-Йорке сейчас лучше, чем в каком-нибудь итальянском городке, где вирус выкосил половину жителей.

Основной риск заключен в высокой скорости распространения инфекции. Для отображения скорости распространения знать общую численность населения не нужно.

Еще одна важная деталь: распространяющийся, растущий процесс с содержанием риска некорректно рассматривать так же, как установившийся процесс. Некорректно, например, сравнивать процесс распространения нового вируса с установившимися значениями риска от гриппа или автомобильных аварий.

Частотные распределения уже установившихся процессов известны и стабильны. Распределение нового процесса неизвестно. Но известно, что до принятия странами жестких мер по удержанию вируса распределение укладывалось в класс Парето, статистически демонстрируя «толстый хвост» и экспоненциальный рост с нелинейными эффектами: взрывной характер распространения, перегрузку систем (здравоохранения, в частности), неизвестное влияние на здоровье у выживших. Поэтому не важно, какая численность населения страны, когда мы смотрим на развивающийся, не устоявшийся процесс и хотим понять создаваемый им риск.

Имело бы смысл какое-то отображение числа случаев относительно медицинских ресурсов: как количество случаев соотносится со способностью страны переварить это количество. Но в реальности это было бы сочетанием разных групп данных, каждая из которых очень шумная и крайне ненадежная. Это уже «пережаренные» данные.

По той же причине не показываю ничего, связанного с плотностями населения по городам или как-то еще. Эти данные также были бы «пережаренными». Плотности можно считать и мерять по-разному, и потом будет непонятно, как сравнивать места, где разные формы распределения плотностей. Всё это — ненужное закапывание в болото данных.

Не нужно тонуть в числовой аналитике, когда ситуация очевидна и решения просты:
— вирус крайне заразный,
— заражение приводит к непредсказуемым эффектам второго порядка,
— нужно включить полную паранойю: избегать социальных контактов, носить маску, мыть руки и никого не слушать про то что «ничего страшного». Асимметрия риска: риск от паранойи несоразмерен риску отсутствия паранойи.

2020   per capita   визуализация   данные   Коронавирус   риск

Разрешаю использовать свою сборку данных по России

1) Разрешаю использовать свою сборку данных о вирусе по России для визуализации и анализа.
2) Нужна помощь по автоматизации сбора данных.

По пункту 1.
Я собираю данные по России и визуализирую здесь:
https://cashin.ru/virus/russia/
Меня спрашивают, можно ли использовать мою сборку данных — да, можно. Если кто-то хочет подключиться к этому источнику, подключайтесь. Спрашивать у меня отдельного разрешения не нужно. Но будет хорошо, если вы предупредите меня об использовании, чтобы я понимал, на что влияет источник. Напишите мне: cashin@yandex.ru.

Пункт 2.
Нужна помощь по автоматизации сбора данных.
Из того что я нашел, наиболее удобный и быстрый источник по России сейчас — телеграм-канал опер-штаба Москвы: https://t.me/COVID2019_official

Изначально я собирал по отчетам Роспотребнадзора, а сейчас захожу в телеграм-канал штаба. Вручную беру последнюю сводку. Прогоняю через нехитрые скрипты. Пара минут работы с контролем сумм — и данные попадают в общую таблицу:
https://docs.google.com/spreadsheets/d/e/2PACX-1vQxbLiOGzM5mC_lBFk3t3XWp_3ZMsoEObxiQErZAfEqx_DAu9l6Qe2FMdggwD3EVIIcB6m3VwUOH33Y/pub?gid=1542861087&single=true&output=csv

Ручной этап надо выпиливать из процесса.
Поэтому,
— если вы знаете полноценный табличный источник по России, или
— если вы можете помочь автоматизировать сам сбор, построить или раскопать какой-то способ делать это лучше — напишите мне: cashin@yandex.ru.

Пошарьте пост, пожалуйста.

Тем временем, у России траектория не очень, нужно усиливать карантин. Чем плотнее карантин, тем быстрее разберемся.

2020   визуализация   данные   Коронавирус   Россия

Группы риска не существует: мы все в одной лодке

Часть 8.

Читаю такое: в связи с риском заболевания вирусом предприятие переводится на удаленную работу. Или, в Москве 300 заболевших, мы считаем риск заболеть низким.

Это полная хрень. Риск не в заболевании кого-то на предприятии. Риск не в том, что лично вы подхватите вирус — это вообще не риск. 30-50 человек у нас каждый день гибнут в ДТП, но дороги никто не перекрывает. ДТП — ваш индивидуальный риск. Если кто-то попал в ДТП, это не вызывает еще тысячу ДТП в районе.

Вирус — риск не индивидуальный, а коллективный и нелинейный. Это значит, что произойдет что-то более масштабное, чем просто вы заболеете. Во-первых, не только вы, во-вторых, не только заболеете.

Посмотрим на процесс в США:
изначально было известно, что в медицинских учреждениях в наличии примерно 40 тысяч аппаратов искусственного дыхания. Казалось, что это много. Но, поскольку увеличивается сама скорость роста инфицированных, количество людей, которым требуются аппараты, растет нелинейно, взрывным образом.

http://www.cashin.ru/virus/confirmedgrowth/

В результате даже в США при такой экономической мощи появляются десятки оупен-сорсных проектов по самостоятельному изготовлению аппаратов искусственного дыхания. Гляньте хотя-бы сюда:

https://medium.com/@RobertLeeRead/analysis-of-open-source-covid-19-pandemic-ventilator-projects-27acf9075f7e

Это только один из примеров нелинейных эффектов второго порядка. На что это повлияет далее — нельзя предсказать. Но точно можно предсказать, что последствия будут невероятно плохими, если нелинейный рост продолжится.

Риск в том, что по мере распространения вируса масштаб увеличивается и это приводит к непредсказуемым последствиям. Вирус уже распространяется, и что люди полагают, что риска нет — больше ничего и не нужно. Этих двух составляющих достаточно.

Обычно, когда говорят про риск, имеют в виду нечто из будущего. А у нас это не будущее, а уже сработавший риск. Теперь это не риск, а реальный процесс.

Есть посев, есть высокий коэффициент передачи. Нужно снижать, иначе...

https://meltingasphalt.com/interactive/outbreak/

* * *
P. S.
С симуляторами нынче есть хорошая и плохая новости.

Хорошая — они наглядно показывают распространение инфекции в зависимости от коэффициента передачи и количества социальных контактов.

Плохая — все симуляторы, которые я видел, после достижения пика за каким-то хреном выводят все случаи в состояние «выздоровевших». Этот ход мне кажется безответственным — складывается впечатление, что если просто немного подождать, все станут выздоровевшими сами собой. Это глупость — никак не отображаются последствия. И их в принципе невозможно показать, потому что это непредсказуемые эффекты второго порядка.

Увы, хорошо «визуализировать» сегодня уже недостаточно.

Возможным решением для авторов таких симуляторов было бы вообще не показывать исход. Показывать только стадию роста. Потому что мы не знаем, что за ней последует.

* * *
Ранее:
Часть 1.
Мы путаем локальный риск с системным.
http://www.cashin.ru/blog/all/virus/

Часть 2.
Мы не понимаем сдвига во времени между причиной и следствием.
http://www.cashin.ru/blog/all/virus-2/

Часть 3.
Откуда данные?
http://www.cashin.ru/blog/all/virus-3/

Часть 4.
Ищи то, чего нет на виду.
http://www.cashin.ru/blog/all/virus-4/

Часть 5.
Риск срабатывает моментально
http://www.cashin.ru/blog/all/virus-5/

Часть 6.
Вирус распространяется по Москве
http://www.cashin.ru/blog/all/virus6/

Часть 7.
Действия каждого для общей безопасности
http://www.cashin.ru/blog/all/virus-7/

Часть 8.
Группы риска не существует: мы все в одной лодке
http://www.cashin.ru/blog/all/virus-8/

Все заметки на тему коронавируса
http://www.cashin.ru/blog/tags/koronavirus/

2020   визуализация   данные   Коронавирус   риск   симулятор

Симулятор Монте-Карло к задаче про дополнительные стрелы

Разминка выходного дня: дизайн + программирование + теория вероятностей.

Сын решает задачу по теории вероятностей:
«Есть 14 стрел. Вероятность попадания одной стрелы — 0,1. За каждое попадание стрелок получает ещё 3 стрелы. Нужно определить математическое ожидание количества выстрелов.»

Даня решил задачу на бумаге, а я взял себе на разминку — найти решение численным методом, наглядно показать задачу с процессом решения и результатом, параметризировать для возможности попробовать другие настройки.

Решение численным методом — симулятор Монте-Карло с настройкой параметров задачи:
https://observablehq.com/@realsergeykashin/monte-carlo-arrows-v1-0

График показывает результаты каждой серии выстрелов. Красные штрихи — отдельные выстрелы. Чем чаще стрелок попадает, тем больше дополнительных стрел получает и так же их выпускает:

Интересно наблюдать, как меняется результат при изменении входных параметров задачи:

Редактируется
— вместительность графика. При определенных настройках получается очень много стрел, осторожно!
— начальное количество стрел;
— вероятность попадания стрелы;
— сколько новых стрел выдают за каждое попадание.

Так что вот вам еще один симулятор.
https://observablehq.com/@realsergeykashin/monte-carlo-arrows-v1-0

2019   визуализация   дартс   Монте-Карло   симулятор   Талеб

Способ визуализации интервалов в R

Исходный код интервальных операторов на гитхабе автора, Питера Солимоса:
https://github.com/psolymos/intrval

Исходный дизайн представления интервалов:
https://twitter.com/psolymos/status/803628398954381312

Мой вариант визуального представления:
https://twitter.com/sergeykashin/status/805501566123966464

Лайк и ретвит Тафти — все ок.

Улучшения

Поставил моноширинный шрифт в интервалах.
Отсортировал по типам — общий принцип становится нагляднее.

А теперь еще поменял порядок расположения символов в неравенствах: всегда по возрастанию слева направо. Расположение символа (х) в неравенстве соответствует его расположению относительно границ интервалов. Использую операторы < и <= вместо > и >=.

Например,
хуже: x <= a | x >= b
лучше: x <= a | b <= x

2019   R   визуализация   дизайн   интервал   Солимос   Тафти

Диаграмма распределения выбросов в атмосферу

Чуть не забыл рассказать, как переделал диаграмму распределения выбросов в атмосферу.

Исходная статья:
http://science.sciencemag.org/content/360/6396/eaas9793

Исходная диаграмма, автор Глен Питерс (Glen Peters):

Обсуждение в Твитере:
https://twitter.com/sergeykashin/status/1036544638151208960

Авторы хотели подчеркнуть, какие виды выбросов сложно устранить.
Но у исходной диаграммы несколько проблем.

— Слева данные показаны в процентах, а справа — в абсолютных величинах (гигатонны). Это сбивает с толку, например, когда сравниваешь слева красное “Load-following electricity” 12 (процентов) с красным справа 4.0 (тут уже гигатонны). Читатель не понимает, как одно красное соотносится с другим, что во что входит. А ничего никуда не входит: это одно и то же, выраженное разными способами:

— Сам факт разделения данных на две диаграммы путает читателя: возникает ощущение, что это два разных набора данных. На самом деле один.
— Способ отображения с помощью круговой диаграммы неэффективен. Плохо расходуется пространство. Круговая не стыкуется с линейной справа. Не помогает сопоставлять числа. Нельзя нормально подписать мелкие значения.
— Далее к деталям. Странно удлинили подсвеченные сектора. Это плохой способ подсвечивания: человек воспринимает соотношение площадей, а удлинение секторов увеличивает их площадь.
— Не хватает заголовка.
— Шумит вертикальная ось, пользы не приносит.

Как переделать:

  1. Устранить разнобой единиц измерения.
  2. Не делить один набор данных на две диаграммы без необходимости.
  3. Перейти от кругового представления к линейному.
  4. Найти более подходящий способ подсветить выбросы, которые сложно устранить.
  5. Показать и проценты, и абсолютные числа.
  6. Добавить заголовок.
  7. Аккуратно сверстать. Не забыть указать источник.

Получилось так:

Перенес в заголовок общий абсолютный объем выбросов.
Подписал все составляющие в одном стиле, несмотря на сильные различия в масштабах чисел — всё помещается и читается.
Основные значения по категориям подписал в процентах, абсолютные в гигатоннах — «сложные» — дополнительно дописал к категориям.
«Сложные» обвел линией.

2018   визуализация   выбросы   дизайн

Визуализация миграции птиц

Великолепная статья Нэшнл Географик с картографической визуализацией миграции птиц в Северной и Южной Америках:

https://www.nationalgeographic.com/magazine/2018/03/bird-migration-interactive-maps/?beta=true

Сложно даже представить, какие данные и как надо было собрать и обработать, чтобы сделать статью с подобным уровнем детализации.

Плюсы: в статье интегрированы текст, звук пения птиц, координаты на картах, перемещения птиц, изменения окружающей среды во времени. Совмещены маршруты птиц, места проживания людей, насыщенность растительности. Красивые фотографии птиц, интересные факты. Например, птицы рискуют, прокладывая прямые маршруты над опасными местами.

Вызывает вопросы верстка. Хочется поставить тексты и мини-выноски про птиц с фотками параллельно картам. Сейчас тексты и фотографии отдалены от карт по вертикали. Мешает заигрывание с визуальными эффектами при скроллинге: хочется сказать «да дайте уже, наконец, спокойно посмотреть».

Там же: сбивает с толку, что в листалке периодов первый период — вовсе не период, а анимация всех периодов. Для бета-версии норм, но вообще вот это надо сделать получше:

2018   National Geographic   верстка   визуализация   дизайн   карты

Рассчитывают и показывают вероятности исхода матчей

https://projects.fivethirtyeight.com/2018-world-cup-predictions/matches/

Методология:
https://fivethirtyeight.com/features/how-our-2018-world-cup-predictions-work/

<Дополнение>

Оказалось, что данные в основе этой визуализации — полная шляпа.
Получился антипример.
Напишу отдельно про эту историю.

2018   вероятности   визуализация   дизайн

Как изучать трехмерные данные МРТ-сканирования

Планшет с определением положения в пространстве (по описанию я не уверен, что они используют акселерометр) помогает изучать трехмерные данные МРТ-сканирования:

Хорошо, что экранов два:
на одном — текущее сечение,
на другом — общий вид с отображением плоскости сечения.

2018   визуализация   дизайн   МРТ
2018   визуализация   дизайн   решение

Интересная визуализация футбольных голов на чемпионатах в «Экономисте»

https://www.economist.com/graphic-detail/2018/06/18/every-world-cup-goal-ever-scored

Опубликована в рубрике Daily Chart. Хорошо сделано для повседневной графики. Но если закрыть глаза на оперативность подготовки, можно немного покритиковать интерфейс.

При наведении курсора подсказка всплывает не у кружочка гола, а где-то непонятно в стороне:

Нужно ближе к выбранному элементу.
Всплывающая рамка часто перекрывает один из голов в игре, соединенных линией.

Если на отфильтрованной диаграмме кликнуть на гол, фиксируется вся игра. Чтобы снять фиксацию, нужно попасть курсором в один из немногих мелких кружочков. Можно было сделать отмену фиксации кликом на всей площади:

2018   визуализация   график   дизайн   футбол

Симуляция и визуализация человеческого тела

Суперкомпьютерный центр в Барселоне выпустил короткий фильм о программной симуляции и визуализации человеческого тела:
http://www.bsc.es/viz/virtualhumans/

Видео:

О фильме:
https://www.bsc.es/news/bsc-news/release-virtual-humans-film

Говорят о том, как симуляция не абстрактного, а конкретного человека поможет подбирать для него лекарства, тестировать варианты хирургического вмешательства, тестировать повышение нагрузки на суставы и мышцы.

Фантастика и рядом не стояла.

2018   визуализация   дизайн   симуляция   фантастика   фильм

Выбор школы в Чикаго

Про выбор школы для детей в Чикаго. Визуализация и интерфейс — без чудес, но интересно представлена история в целом. В самом начале нужно наугад кликнуть в кучу точек. Сайт пишет, какой выбран ребенок, и дальше строит историю именно про него.

https://gabriellelamarrlemee.github.io/thesis-simulation/

Если ребенок «белый», то у него могут быть сложности со сверстниками в школе: только 17 % детей в Чикаго — белые, 35 % темнокожие, и 43 % — латиноамериканцы.

2018   визуализация   дизайн   интерфейс   Чикаго

Визуализация головного мозга для исследований

Инструмент для визуализации головного мозга для исследований:
http://andrewgelman.com/2018/05/18/awesome-data-visualization-tool-brain-research/

Обалденно. Трехмерная схема нервных волокон с подсветкой групп и настройкой прозрачности, и еще куча крутых штук:
https://yeatmanlab.github.io/AFQBrowser-demo/

2018   визуализация   дизайн   мозг   нейроны

Тач-интерфейс и временные ряды

Несколько подходов для организации пользовательского взаимодействия с графиками на тач-интерфейсе опубликовали на сайте Университета Баухауза в Веймаре.

Страница:
https://www.uni-weimar.de/de/medien/professuren/medieninformatik/vr/research/infovis/touch-the-time/

Видео:
https://www.uni-weimar.de/projekte/vr-scratch/videos/TTT.mp4

Подходы не новые, но хуже они от этого не становятся.

Синхронизация разных панелей. при уточнении времени на одной из панелей выбранное время подсвечивается и на остальных:

Скоординированный выбор временного диапазона. Выбираем диапазон на одной панели, отображается на всех:

А вот кое-что поинтереснее.
Выделение диапазона для просмотра на отдельной панели:

В видеоролике перетаскивают кусок графика с одной панели на другую, круто:

Пересечение строк данных и диапазона:

Еще несколько технически интересных штук, но сомнительных с точки зрения визуализации.

Растягивание панели. Бывает полезно при сборке панели, но для пользователей сомнительно — искажает привычный масштаб:

Ну ладно, это же про принципы тач-взаимодействия, а не про конкретные графики.
Растяжение части диапазона четырьмя пальцами:

Не очень универсальная штука, есть же нормальный зум. Но выглядит интересно.
Гляньте там видео:
https://www.uni-weimar.de/projekte/vr-scratch/videos/TTT.mp4

2018   визуализация   график   дизайн   интерфейс   тач
2018   визуализация   дизайн   Лондон   мониторинг

Графический интерфейс для задач марсохода

В Лаборатории интерактивных данных (Interactive Data Lab) рассказали, как делали графический интерфейс для марсохода для определения оптимальных условий передачи данных по радиосвязи. Заказчик — Лаборатория реактивного движения НАСА (NASA Jet Propulsion Laboratory).

https://idl.cs.washington.edu/papers/meridian/

ПДФ публикации:
https://idl.cs.washington.edu/files/2018-Meridian-CHI.pdf

В публикации перечислили несколько полезных принципов представления данных в визуальной аналитике и мониторинге:

— Показывать данные в контексте.
— Показывать взаимосвязи, а не просто данные.
— Предоставлять пользователям возможность перемещать точку обзора в наиболее важных данных.
— Обеспечивать гибкость интерфейса.
— В первую очередь показывать проблемные места, сохраняя возможность посмотреть детали в случае необходимости.
— Не терять данные из виду, не удалять их, даже если кажется, что они не нужны.
— Предоставлять данные в разрешении, соответствующем задаче.

Было бы интересно посмотреть кликабельный прототип, но опубликовали только пару скриншотов.

Редкий случай, когда оправдано применение круговой диаграммы, полярных координат:

Из телеграм-канала https://t.me/sergeykashin
19 апреля 2018

2018   визуализация   дизайн   круговая диаграмма   марсоход   НАСА
2018   визуализация   дизайн   иллюстратор данных

Повернули систему координат

Интересный способ применения прямоугольной системы координат. На одной оси — насколько люди довольны жизнью, на другой — валовый внутренний продукт на душу населения.

Но плоскость показана под углом, и автор обращает внимание на еще одно значимое направление: снизу вверх на повернутой плоскости.

В таком ракурсе наверху оказываются «бедные, но счастливые»:

Источник:
http://www.visualcapitalist.com/relationship-money-happiness/#comment-3830619155

В конце страницы смешной комментарий:

ag303 • 12 hours ago
I find the angled presentation of this graphic confusing. It implies that the variables represented on the x and y axes are not the usual vertical and horizontal, but in fact they are, right? X is wealth and Y is happiness? Seems to me the More satisfied arrow should really point up, and the Richer arrow should point to the right.

Люди думают, что нужно показывать данные так как они думают, а не как-то иначе. На самом деле данные можно показывать как угодно. Вообще всё можно показывать как угодно. Исходя из цели и кучи разных причин. Автор исходит из того, какая у него цель. Это может быть просто желание.

2018   визуализация   дизайн   цель

Параллельное отображение относительно одной даты

Интересный подход к параллельному отображению. При наведении мыши график показывает изменения относительно выбранной даты. Плюс не так часто встречающийся ступенчатый прием отображения финансовых данных.

Перейдите по ссылке и подвигайте мышью над графиком:
https://beta.observablehq.com/@mbostock/d3-index-chart

2018   D3   Observable   визуализация   дизайн

Визуализация бросков в баскетболе

Веб-виар (Web VR):
https://bball.surge.sh/golden-state-warriors/anderson-varejao

С технической точки зрения круто. А с точки зрения представления данных — добавить бы даты и время. Мячи летят, но непонятно, как это распределено во времени.

Сходу непонятно значение цвета. Красные — мимо, синие — попали, но в начале сбивает с толку плавное повышение яркости от белого.

На полу поверх (или вместо) деревяшек можно разместить в виде текстуры точки, откуда бросали мяч.

Ну, так себе.

Двухмерное отображение мест бросков, количества попыток и успешности давно хорошо сделали в Нью-Йорк Таймс:
http://www.nytimes.com/interactive/2012/06/11/sports/basketball/nba-shot-analysis.html

Но на этой прекрасной графике не отражалось время броска.
Забивали равномерно?
Отжигали в конце игры?

Анимация в веб-виаре могла как раз показывать в такой истории время бросков. Но в 3д это выглядело бы, наверное, странно. Мяч ведь один. Не очень понятно, что в данном случае дает трехмерность.

Из телеграм-канала https://t.me/sergeykashin
17 марта 2018

2018   3d   баскетбол   виар   визуализация   дизайн
Ctrl + ↓ Ранее
Коронавирус