Как Hadoop и машинное обучение помогают найти жену

Все сайты знакомств так или иначе используют «большие данные»: их пользователи заполняют анкеты из множества пунктов и подключают профили социальных сетей, а хитроумные алгоритмы стараются показывать им релевантные анкеты пользователей противоположного пола или совместимой сексуальной ориентации. Создатели американского сайта eHarmony раньше других осознали, что чем больше сведений они будут использовать и чем более замысловатые алгоритмы напишут, тем больше будет шанс подбирать людям подходящую пару, а не просто знакомить их и оставлять им самим решение вопроса о совместимости характеров.

eHarmony

eHarmony даже рекламируется не как простой сайт знакомств, а как средство поиска постоянных спутников жизни. Свой успех разработчики измеряют в количестве браков, заключённых людьми, встретившимися через их сервис. Соответственно, знакомства на одну ночь достижением не считаются, и в eHarmony даже подсчитывают статистику разрывов отношений и разводов: она на два процента меньше, чем на других аналогичных сайтах. Опросы супружеских пар, сложившихся благодаря сайтам знакомств, говорят о том, что в каждом четвёртом браке такого рода повинна именно eHarmony. Авторы сервиса с гордостью отчитываются о том, что в 2005 году число браков, ежедневно заключаемых их пользователями, составляло 90, к 2007 году эта цифра выросла уже до 236, а к 2009 — аж до 542. Пять сотен свадеб в день — это, несомненно, успех!

Как удалось достичь таких показателей? Не обошлось без анализа «больших данных» и машинного обучения. Первым делом каждому пользователю предлагается заполнить анкету из 150 пунктов. В 2000 году, когда сервис только открылся, в анкете было 500 вопросов, но с каждым годом разработчики изыскивали способы сокращать опросник, при этом не теряя возможности получить ценную информацию о привычках, предпочтениях и складе ума пользователей.

Установлено, например, что любителям фастфуда сложнее найти любовь, чем людям, выбирающим другие виды пищи. Двое поедателей гамбургеров вовсе не составляют счастливую толстую пару, а лишь испытывают взаимную неприязнь вдвое сильнее. Зато поклонники сыроедения замечательно сходятся между собой.

Слайд из презентации eHarmony

И это далеко не единственный пример неочевидной на первый взгляд статистики, полученной из анализа «больших данных». Никто не будет сомневаться в том, что чем ближе живут люди, тем больше шансов, что из их знакомства что-нибудь получится. Но после определённого расстояния на графике виден скачок: необходимость в дальнем путешествии может не только разъединять, но и сближать.

Слайд из презентации eHarmony

Понятно, что люди всегда стараются выставлять себя в анкетах с лучшей стороны, но разработчики отлично об этом осведомлены. Секрет в том, чтобы составлять вопросы таким образом, чтобы выявлять психологические черты, а не следовать тому образу, который человек выбирает для себя.

Анализу подвергаются не только анкеты, но и поведение на сайте. Обычно болтливые пользователи без труда находят друг друга, но в eHarmony пытаются разбить эту тенденцию и добиваются баланса. Сервис учитывает количество отправляемых сообщений и знает, кто насколько общителен. eHarmony старается знакомить болтунов с молчунами: пусть друг с другом стеснительным персонам бывает непросто найти общий язык, зато в беседе с болтунами они раскрывают себя намного быстрее.

Слайд из презентации eHarmony

Все эти манипуляции с данными требуют серьёзных вычислительных ресурсов и соответствующей инфраструктуры. Данные eHarmony хранятся в собственном дата-центре. На серверы установлен фреймворк Hadoop, работающий с отказоустойчивой файловой системой HDFS. Apache Hive применяется для того, чтобы иметь возможность делать запросы к Hadoop при помощи языка запросов, напоминающего SQL, и формировать модели для алгоритмов машинного обучения. И, наконец, для веб-фронтенда в компании применяют MongoDB.

Слайд из презентации eHarmony

Искусственный интеллект, который даёт eHarmony возможность извлекать пользу из статистики за последние десять лет, основан на опенсорсной библиотеке Vowpal Wabbit. Это крайне гибкое и легко расширяемое средство, отличающееся к тому же почти бесконечной масштабируемостью. Автор Vorpal Wabbit Джон Лэнгфорд, сперва работавший над VW в Yahoo, а затем перешедший в Microsoft Research, придумал, реализовал и оптимизировал алгоритм машинного обучения, не требующий загружать данные в память целиком. Vorpal Wabbit способен за час обработать набор данных из 1012 записей, разнесённый на тысяче серверов. Помимо машинного обучения, в eHarmony используются и генетические алгоритмы.

На данный момент у eHarmony 640 серверов с примерно 5000 процессорными ядрами и 2 петабайта данных.








Интересные новости
Перша українська криптобіржа Kuna закрила депозити та оголосила дату припинення роботиПерша українська криптобіржа Kuna закрила депозити та оголосила дату припинення роботи
Блок рекламы


Похожие новости

В США признали, что помогают Украине хакерскими атакамиВ США признали, что помогают Украине хакерскими атаками
СНБО запустил обучение по программе для "белых хакеров"
Илон Маск пожаловался, что в Google сложно найти солнечные панели Tesla
Google Lens поможет найти подходящую по стилю одежду
Карты Google помогли найти тело мужчины, пропавшего 22 года назад
Google хочет найти компромисс между защитой приватности и персонализацией рекламы
Prozorro предлагает найти уязвимости в своей платформе. Награда — $7000
Google поможет найти лучшие цены на отели и авиабилеты
Google News готовит обновление для тех издателей, которые не могут найти свой контент
Google Analytics: как найти трафик из Image Search после смены URL перехода
Последние новости

Подгружаем последние новости