Открыт код Vespa — движка Yahoo! для обработки Big Data и выдачи результатов
В минувший вторник американская компания Oath Inc., являющаяся подразделением Verizon Communications и владеющая AOL и Yahoo!, объявила об открытии исходного кода проекта Vespa.
Vespa — это движок для обработки и отдачи больших данных (Big Data), используемый в поисковой системе Yahoo!. Как поясняют авторы, «хотя разработчики могут использовать стек Hadoop для хранения и обработки Big Data, а Storm — для поточной обработки данных, эти технологии не помогают с предоставлением результатов конечным пользователям [..], а в больших масштабах эта задача становится трудной, особенно когда необходимо быстро производить вычисления над данными, которых ожидает пользователь, как в случае приложений, предлагающих поиск, рекомендации, персонализацию». Именно эту задачу и призван решать движок Vespa.
В анонсе проекта сообщается, что Vespa поможет в создании приложений, которые отбирают элементы с помощью текстового поиска и SQL-подобных запросов, выдают результаты для страниц, создаваемых по модели data-driven, ранжируют результаты по различным моделям релевантности (написанным вручную или на базе машинного обучения), выдают результаты со скоростью ответа в миллисекундах, пишут данные в реальном времени (тысячи раз в секунду на каждом узле), изменяют размеры кластеров во время отдачи результатов и записи данных.
Основной исходный код движка Vespa написан на языке C++, а его модули — на Java. Проект опубликовал на GitHub под свободной лицензией Apache License 2.0. Предусмотрена возможность запуска Vespa в облаке, для чего у проекта предусмотрены образы Docker-контейнеров.
Дмитрий Шурупов по материалам Vespa blog.