Разоблачение Google Flu Trends: значат ли ошибки модели Google, что «большим данным» нельзя верить
Один из знаменитых примеров эффективности «больших данных» — сервис Google Flu Trends, который замечает эпидемии гриппа быстрее медиков, анализируя статистику запросов в поисковой системе Google.
О том, как работает Google Flu Trends, «Компьютерра» не так давно расскзаывала в заметке «Поисковики и социальные сети помогают раньше замечать эпидемии»:
Около десяти лет назад специалисты Google обратили внимание, что вспышке эпидемий гриппа предшествует всплеск запросов, связанных со здоровьем. Чтобы проверить свои наблюдения, они взяли 50 миллионов наиболее популярных в США запросов и сопоставили частоту их появления с данными об эпидемиях гриппа, которые наблюдались между 2003 и 2008 годами. Им удалось идентифицировать сочетание 45 запросов, частота использования которых коррелирует со вспышками эпидемий.
Особенно интересен тот факт, что всплеск наблюдается по меньшей мере за две недели до того, как медикам удаётся зафиксировать начало эпидемии. В некоторых случаях задержка ещё дольше. Например, первые признаки эпидемии атипичной пневмонии появились в интернете за два с лишним месяца до того, как её заметила ВОЗ.
Механизм действия Google Flu Trends прост: многие из тех, кто уже заболел или боится заболеть, ищут в поисковике лекарства, описание симптомов и прочую информацию, связанную с гриппом. Разумеется, так делают не все, но это не играет роли. Главное, что во время эпидемий число подобных запросов подскакивает. Алгоритмы Google Flu Trends замечают это и экстраполируют общее число заболевших при помощи статистической модели, которая составлена на основе исторических данных, собираемых эпидемиологами.
В 2009 году разработчики Google Flu Trends
Свежая статья в Science
Авторы публикации в Science представили это как довод против применения «больших данных». «Она была обречена на провал», — говорит один из них о статистической модели Google. Эти слова
В действительности разоблачение было не столь неожиданным, как хотелось бы его авторам. Перечисление просчётов Google Flu Trends
Каждый сезон мы сопоставляем оценки нашей статистической модели с данными, полученными при помощи традиционных систем наблюдения за гриппом. Мы смотрим на три показателя точности: правильность оценки времени начала сезона гриппа, правильность оценки пика эпидемии и правильность оценки тяжести эпидемии. Затем мы модифицируем модель, чтобы улучшить её качество.
Нам пришлось обновить модель и опубликовать обзор нашего анализа и сопутствующих изменений после эпидемии вируса H1N1 в 2009 году. То же самое произошло, когда во время сезона 2012—2013 годов оценки нашей модели недостаточно точно соответствовали реальной распространённости гриппа в США. Мы обновили её в августе 2013 года.
Выходит, что публикация Science — сюрприз лишь для тех, кто считал оценки Google Flu Trends истиной в последней инстанции. Разработчики сервиса к этим людям явно не относятся. Наоборот, они лучше других понимают, что даже очень хорошие результаты, показанные их алгоритмами в прошлом, не гарантируют стопроцентной точности в будущем. Любой прогноз подразумевает определённую вероятность ошибки, и можно лишь стремиться к тому, чтобы она стала меньше.
Один из путей увеличения точности предлагают сами критики из Science: они обнаружили, что прогноз, учитывающий не только статистику запросов Google, но и цифры Центра по контролю и профилактике заболеваний США, точнее, чем прогноз, использующих лишь один из этих источников. Иными словами, чем больше данных, тем лучше. Какое же это разоблачение Big Data?