Разоблачение Google Flu Trends: значат ли ошибки модели Google, что «большим данным» нельзя верить

Один из знаменитых примеров эффективности «больших данных» — сервис Google Flu Trends, который замечает эпидемии гриппа быстрее медиков, анализируя статистику запросов в поисковой системе Google. Статья, опубликованная в свежем номере научного журнала Science, подвергает сомнению эффективность такого подхода.

О том, как работает Google Flu Trends, «Компьютерра» не так давно расскзаывала в заметке «Поисковики и социальные сети помогают раньше замечать эпидемии»:

Около десяти лет назад специалисты Google обратили внимание, что вспышке эпидемий гриппа предшествует всплеск запросов, связанных со здоровьем. Чтобы проверить свои наблюдения, они взяли 50 миллионов наиболее популярных в США запросов и сопоставили частоту их появления с данными об эпидемиях гриппа, которые наблюдались между 2003 и 2008 годами. Им удалось идентифицировать сочетание 45 запросов, частота использования которых коррелирует со вспышками эпидемий.

Особенно интересен тот факт, что всплеск наблюдается по меньшей мере за две недели до того, как медикам удаётся зафиксировать начало эпидемии. В некоторых случаях задержка ещё дольше. Например, первые признаки эпидемии атипичной пневмонии появились в интернете за два с лишним месяца до того, как её заметила ВОЗ.

Механизм действия Google Flu Trends прост: многие из тех, кто уже заболел или боится заболеть, ищут в поисковике лекарства, описание симптомов и прочую информацию, связанную с гриппом. Разумеется, так делают не все, но это не играет роли. Главное, что во время эпидемий число подобных запросов подскакивает. Алгоритмы Google Flu Trends замечают это и экстраполируют общее число заболевших при помощи статистической модели, которая составлена на основе исторических данных, собираемых эпидемиологами.

В 2009 году разработчики Google Flu Trends описали полученные результаты в авторитетном научном журнале Nature. Кроме того, существование корреляции между популярностью некоторых запросов в поисковых системах со вспышками эпидемий успели подтвердить другие исследователи.

Свежая статья в Science указывает на существенные неточности в прогнозах Google Flu Trends. Сервис более чем на 50 процентов преувеличил размах эпидемии гриппа в сезоны 2012—2013 годов и 2011—2012 годов. Согласно оценке Google Flu Trends, в разгар прошлогодней эпидемии около 11 процентов жителей США заразились гриппом. Это почти вдвое выше цифр Центра по контролю и профилактике заболеваний США, который не оценивает количество больных по косвенным признакам, а просто пересчитывает их. Кроме того, алгоритмы Google совершенно прозевали вспышку эпидемии вируса H1N1-A («свиной грипп») в 2009 году.

Авторы публикации в Science представили это как довод против применения «больших данных». «Она была обречена на провал», — говорит один из них о статистической модели Google. Эти слова цитирует журнал Time в статье с соответствующим названием: "Проект Gooogle Flu демонстрирует слабости «больших данных».

В действительности разоблачение было не столь неожиданным, как хотелось бы его авторам. Перечисление просчётов Google Flu Trends можно найти на самом сайте сервиса. Разработчики не только не скрывают их, но даже предлагают для скачивания исторические прогнозы, среди которых немало ошибочных. Модель постоянно дорабатывается, чтобы исключить повторение ошибок:

Каждый сезон мы сопоставляем оценки нашей статистической модели с данными, полученными при помощи традиционных систем наблюдения за гриппом. Мы смотрим на три показателя точности: правильность оценки времени начала сезона гриппа, правильность оценки пика эпидемии и правильность оценки тяжести эпидемии. Затем мы модифицируем модель, чтобы улучшить её качество.

Нам пришлось обновить модель и опубликовать обзор нашего анализа и сопутствующих изменений после эпидемии вируса H1N1 в 2009 году. То же самое произошло, когда во время сезона 2012—2013 годов оценки нашей модели недостаточно точно соответствовали реальной распространённости гриппа в США. Мы обновили её в августе 2013 года.

Выходит, что публикация Science — сюрприз лишь для тех, кто считал оценки Google Flu Trends истиной в последней инстанции. Разработчики сервиса к этим людям явно не относятся. Наоборот, они лучше других понимают, что даже очень хорошие результаты, показанные их алгоритмами в прошлом, не гарантируют стопроцентной точности в будущем. Любой прогноз подразумевает определённую вероятность ошибки, и можно лишь стремиться к тому, чтобы она стала меньше.

Один из путей увеличения точности предлагают сами критики из Science: они обнаружили, что прогноз, учитывающий не только статистику запросов Google, но и цифры Центра по контролю и профилактике заболеваний США, точнее, чем прогноз, использующих лишь один из этих источников. Иными словами, чем больше данных, тем лучше. Какое же это разоблачение Big Data?

Олег Парамонов, Компьютерра