Скрытое богатство Twitter
Несколько дней назад социальная сеть Twitter

Кто покупает ваши 140 знаков
Создатели сервиса микроблогов давно осознали, что сидят на золотой жиле. Они видят, что волнует сотни миллионов пользователей в разных частях света прямо сейчас. Они видят, как сообщения волнами расходятся по социальному графу. Они видят, как колеблется амплитуда этих волн, реагируя на внешние события.
Twitter представляет собой уникальный источник информации о том, что происходит в мире, обновляющийся в реальном времени. То же самое можно было бы сказать и о других социальных сетях, но у Twitter есть особенность, которая даёт огромное преимущество именно в этой области: подавляющее большинство постов в микроблогах публичны, общедоступны и анонимны. Их можно анализировать, не вторгаясь в частную жизнь пользователей и не вызывая недовольства.
Социальная сеть уже несколько лет предоставляет платный доступ к полному потоку публикуемых в ней сообщений. Многие из них имеют легкомысленное содержание, но это не играет роли: тех, кто просеивает данные из Twitter, как правило, интересует не смысл постов, а настроения, которые они отражают.
Ценность данных, получаемых таким образом, давно не нуждается в доказательствах. С их помощью не без успеха прогнозируют колебания биржевых показателей, следят за распространением

Twitter предсказывает, что будет дальше

Вряд ли стоит удивляться тому, что изрядная доля попыток извлечь смысл из потока сообщений в Twitter непосредственно связана с биржевой торговлей. Трейдеры изобретали модели, позволяющие прогнозировать колебания курсов, задолго до появления первых социальных сетей. Они экспериментировали с самыми различными источниками данных и, разумеется, не могли проигнорировать Twitter.
Пару лет назад специалисты из Мюнхенского технического университета
Похожее исследование опубликовали в 2010 году учёные из университетов Манчестера и Индианы, но они не отбирали сообщения биржевой тематики, а просеивали все твиты подряд. Кроме того, при семантическом анализе их интересовал не столько позитивный или негативный настрой твита, сколько чувства, которые он передаёт. Такой подход оказался не менее эффективным. Исследователи сумели выделить в анализируемых сообщениях факторы, которые верно предсказывали, куда направится индекс Dow Jones через несколько дней, в 87,6% случаев.
В 2011 году хедж-фонд Derwent Capital

Twitter угадывает, кто победит

Другая известная публикация в этой области принадлежит исследователям из HP Labs. В 2010 году им удалось выработать математические модели, позволяющие с поразительной точностью предсказывать кассовый успех фильмов на основании упоминаний в Twitter. Исходными данными для анализа послужили 2,9 млн сообщений, оставленных 1,2 млн пользователей Twitter в течение трёх месяцев.
Первая модель, разработанная в HP Labs, учитывала количество кинотеатров, где прокатывается фильм, и частоту, с которой название фильма встречалось в Twitter перед премьерой. Этих данных оказалось достаточно для того, чтобы оценить потенциальные кассовые сборы каждого фильма за первую неделю проката. Точность прогноза составила 97,3%.
Другая модель предсказывала результаты второй недели проката. Если успех премьеры в значительной степени объясняется рекламой, то затем начинает работать «сарафанное радио». Это значит, что на вторую неделю важно знать не только количество упоминаний, но и контекст, в котором они появляются. Чтобы предсказать кассу второй недели с точностью в 94%, модель принимала во внимание количество положительных и отрицательных твитов.
Этот метод годится и для других целей. В начале 2012 года компания Globalpoint Research подсчитала количество упоминаний американских политиков в Twitter и обнаружила, что эта информация позволяет с высокой точностью предсказывать результаты праймериз, на которых Республиканская партия США выбирала кандидата в президенты.
Работа, опубликованная специалистами из Университета Индианы несколько месяцев назад,

Twitter сообщает, что происходит сейчас

Пользователи Twitter вечно на что-нибудь жалуются, но из этого, как ни странно, можно извлечь пользу. Почти все корпоративные средства для работы с социальными сетями содержат встроенные инструменты, позволяющие вылавливать негативные отзывы о компании и её продуктах. Это помогает куда быстрее и точнее определять реакцию людей на действия компании.
Для жалоб есть и другие применения. Исследователи из Университета Рочестера проанализировали 3,8 млн твитов, оставленных 94 тысячами пользователей из Нью-Йорка, а затем отметили на карте города рестораны, фастфуды и забегаловки, от которых, судя по жалобам в Twitter, лучше держаться подальше. Любопытный момент: их результаты оказались близки к данным, которые городские власти получают более традиционными методами.
В Японии сходный проект был
Другой японский проект — под названием XRAIN — использует алгоритмы машинного обучения для того, чтобы скомбиниовать информацию из социальных сетей и данные об атмосферных явлениях, полученные с помощью радара. Компьютерная система постоянно ищет в интернете свежие посты с упоминанием стихийных бедствий, а затем изучает учётные записи их авторов для того, чтобы определить возможные координаты бедствия и оценить достоверность сообщения. Испытания показали правильность такого подхода: система сигнализировала о бедствиях на три часа раньше, чем аналоги, не учитывающие активности в социальных сетях.