Большие данные убьют или улучшат современную журналистику

Если «большие данные» подарят миру еще немного новинок, подобных той, о которой сейчас пойдет речь, равнодушных к ней журналистов просто не останется. Одни начнут стенать, что отныне статьи сможет писать всякий дурак. Другие, наоборот, запрыгают от радости, получив в руки инструмент, который сэкономит им много сил и нервов. Кто обрадуется по-настоящему — так это редакторы. Им не придется долго и мучительно проводить фактчекинг — разбираться, много ли глупостей поведал миру журналист в очередных своих новостях или статьях.

В общем, сегодня речь пойдет о примечательном проекте , благодаря которому журналисты получают возможность автоматически отделить зерна от плевел, пересмотрев тонны материалов — фейки и действительные новости, информационные утечки и разбушевавшиеся фантазии блоггеров, официальные документы и посты в социальных сетях. Более того, они смогут легко и точно структурировать полученную информацию, визуально выстроить источники по заданной тематике и увидеть связи между ними. Крайне полезная вещь, оберегающая автора от тупиковых блужданий по просторам Сети. Алгоритмы Overview используют обработку естественного языка и «больших данных», что позволяет действительно «разложить тему по полочкам», определить какие материалы важны в большей степени, а какие в меньшей. Overview «научили» отмечать при обработке те слова, которые важны пользователю и отметать неважное.

Overview — бесплатный инструмент с открытым исходным кодом. Для примера в него можно перенести собственные данные из облачного хранилища DocumentCloud, загрузить информацию в виде готового CSV-файла или же воспользоваться постами из социальных сетей. После этого система запускает уникальный алгоритм категоризации документов, отдавая пользователю на выходе стройное иерархическое «дерево». Все документы в нем представлены в виде связной структуры, которую довольно удобно рассматривать, планируя будущий материал.

Зародился проект, как это нередко бывает, отнюдь не на пустом месте, а из решения собственных проблем его авторов. В 2010 году они работали в качестве привлеченных журналистов над материалами одной из крупнейших в истории информационных утечек — Iraq War Logs. Труды были не очень продуктивными, что неудивительно — ведь нужно было разобрать ни много ни мало 391 832 документа и собрать из них единую картину событий. Тогда и родилась идея применить к этим документам классические методы информационно-поисковой обработки. Довольно скоро — всего через несколько месяцев — была представлена первая версия, написанная на Ruby и использующая Gephi — open-source платформу для интерактивной визуализации. Это ПО группировала документы по принципу их схожести друг с другом, а также раскрашивала в разные цвета в соответствии с ключевым содержанием текста. Журналисты воочию увидели кластеры событий, происходивших вокруг отдельных сражений, похищений, взрывов и т.д. На этом этапе, речи, естественно, еще не шло об обработке естественного языка — только о примитивной визуализации структуры. Но создатели софта все равно были довольны. Некоторое время.

Всего через год к вопросу пришлось подойти с более реалистичной точки зрения. На руках было 4500 недавно рассекреченных докладов. И из них необходимо было сделать настоящую журналистскую историю. Тут-то и проявилась разница между алгоритмами и их реальным приложением. «Просмотрщик документов» пришлось улучшить — понадобилось четко сформулировать методологию построения журналистского обзора. И это удалось. Разработчики научились находить закономерности в данных, подытожить содержание каждого информационного кластера и подводить итоги. Технология оправдала себя и показала, что система действительно практически составляет историю вместо журналиста. Разработчики праздновали победу.

После чего оказалось, что все это совершенно не работает. То есть, работает для данного конкретного случая. А вот среди добровольцев, установивших прототип новинки, желаемый результат получили 3 из 20. Последовала долгая доработка, смена алгоритмов, дизайна, языка программирования. А главное — смена концепции. Система, которая вначале пыталась жестко и правильно структурировать информацию, начала принимать в расчет человека. То, что изначально попытались сделать авторы — систему, которая подводила итоги и суммировала обработанные материалы — оказалось нужным всего лишь в 25% случаев. Во всех остальных журналист искал в грудах информационного мусора что-то свое — возможно, доказательство гипотезы или подтверждение идеи. Для этого не нужно сверхточное представление — наоборот, машина должна уметь улавливать слабые и малочисленные связи, которые могли бы оказаться ценными и уникальными. Фантазии технологов в некоторой степени были опровергнуты практикой. Материалы не всегда были идеальными, как в научных статьях или правительственных документах, на которых тестировали систему.

При всем том на сегодняшний день результаты из Overview легли в основу ряда успешных журналистских исследований. Ее использовали для поиска закономерностей в инцидентах, связанных с частными военными подрядчиками в Ираке, для расследования недобросовестных действий полицейского департамента в Талсе, и даже для оценки истинных действий и намерений политических деятелей, публично критикующих те самые программы, которые поддерживали на деле. Ну что тут скажешь. Overview действительно претендует на то, что журналистами смогут стать многие. Ведь умение перебрать сотни документов, вычленить оттуда самое важное и достоверное, понять взаимосвязи — это и есть одно из важнейших отличительных черт приличного автора. А написать связно и грамотно может каждый, кто не прогуливал лекции в филологическом институте. Хороший слог и грамотность отнюдь не гарантирует наличия аналитического мышления. Но теперь вся аналитика может остаться на совести проектов, подобных Overview. Машина прочтет тексты, машина выстроит их в связный граф, машина фактически сама предоставит план обзора чуть ли не по любой теме. Остается только пересмотреть в заданном порядке...

Ирина Парошина, Компьютерра