Представлены новые решения для ускорения работы кластерной платформы Hadoop
Две молодые компании ScaleOut Software и GridGain
Среди множества решений для Big Data и высокопроизводительных вычислений отмечается устойчивый интерес к развитию методов обработки данных в распределённой оперативной памяти.
Крупные разработчики программного обеспечения для бизнес-аналитики – американская компания SAS и немецкая SAP недавно объединили свои усилия по созданию новых инструментов, использующих In-Memory архитектуру.
Свой вариант подобного ускорения работы реляционной системы управления базами данных DB2 разрабатывает и IBM, но куда интереснее сейчас наблюдать за успехами менее крупных игроков.
Типичный объём оперативной памяти в кластерах под управлением hServer V2 от ScaleOut Software и GridGain 5.2 составляет терабайт и более, а их дисковая подсистема максимально редуцирована и служит в основном для хранения системных данных.
Ведущий аналитик консалтинговой фирмы Ovum Мэдан Шеина (Madan Sheina) так оценивает перспективы обоих продуктов:
Я вижу технологии GridGain и ScaleOut как ускорители для Hadoop. Обе позволяют использовать обработку больших объёмов данных по алгоритму MapReduce в распределённой оперативной памяти без предварительного считывания их из файловой системы HDFS. Это ускоряет обновление данных и превращает Hadoop в платформу анализа в реальном времени.
Представленная недавно обновленная версия hServer V2 уже содержит дистрибутив Hadoop и тем самым экономит время развёртывания.
Генеральный директор ScaleOut Билл Бэйн (Bill Bain) поясняет некоторые детали:
Можно ускорить выполнение MapReduce, используя вместо встроенного планировщика Hadoop нашу платформу параллельных вычислений. С ней задания MapReduce формируются буквально за секунду вместо обычных тридцати.
Альтернативная платформа облачных вычислений с открытым исходным кодом GridGain также реализует выполнение MapReduce для данных в распределённой оперативной памяти.
Если сравнивать GridGain с чистым Apache Hadoop, то он эффективнее работает с меньшим объёмом данных, но оптимизирован для более интенсивных вычислений. Сегодня GridGain – это зрелый программный комплекс, в котором широко представлены различные утилиты. Среди них инструменты мониторинга, балансировки, автоматического восстановления и другие.
Новый продукт GridGain’s In-Memory Database 5.2 предназначен для обработки большого количества одновременных транзакций (до миллиарда в секунду) в режиме реального времени. В основном, речь идёт о статистической финансовой информации, такой как динамика продаж и текущие банковские операции.
Экономическая целесообразность хранения данных в оперативной памяти вместо дисковых массивов обусловлена постепенным снижением цен на модули RAM. Даже после пожара на заводе SK Hynix Semiconductor они остаются весьма демократичными.
Другим стимулирующим фактором разработчики указывают желание иметь максимально унифицированную архитектуру ИТ-инфраструктуры без необходимости учитывать ограничения различных файловых систем и пропускной способности дисковых интерфейсов.