Новое поколение Hadoop позволит обойтись без MapReduce и станет надёжнее

Организация Apache Foundation объявила о релизе Apache Hadoop 2.2.0 — первой общедоступной версии нового поколения фреймворка параллельной обработки данных. Главное отличие Hadoop 2 — это его универсальность. Теперь модель MapReduce, которая была основой Hadoop в прошлом, — лишь одна из множества. При необходимости её можно заменить на другие, лучше подходящие решаемой задаче.

За десять лет существования проект Hadoop стал одним из важнейших средств обработки «больших данных». Его используют сотни компаний, работающих в самых разных отраслях; такие корпорации, как Oracle, IBM или SAP, предлагают своим клиентам продукты, основанные на Hadoop. По данным EMC, он является самой популярной технологией Big Data в России.

Первоначально Hadoop представлял собой альтернативную реализацию модели MapReduce, которую изобрели в Google для обновления поискового индекса. Слова «Map» и «Reduce» намекают на одноимённые функции, которые имеются в функциональных языках программирования. Map применяет заданную функцию к каждому элементу множества. Reduce при помощи заданной функции «складывает» полученное на входе множество в единый результат.

Интересная особенность Map заключается в том, что каждый шаг обработки множества совершенно независим. Функция не видит всё множество целиком и не обладает информацией о результатах обработки других элементов. Это делает её идеальным кандидатом для параллельного исполнения. Поскольку процесс обработки одного элемента не влияет на процесс обработки другого, их можно поместить на разные компьютеры и запустить одновременно.

В MapReduce задача делится между серверами-работниками, каждый из которых обрабатывает отдельный элемент множества. Распределением и координацией работников занят главный сервер кластера — мастер. Когда исполнение Map завершено, мастер собирает промежуточные результаты у работников и затем комбинирует их в итоговый результат на стадии Reduce.

Hadoop 1
Hadoop 1

В прошлых версиях Hadoop роль мастера выполнял демон JobTracker, распределявший ресурсы между узлами кластера, а также планировавший и мониторивший выполнение вычислений. С одной стороны, такая реализация делала его самой уязвимой точкой всей системы. Если JobTracker «падает», то останавливается весь кластер. С другой стороны, модель вычислений, заложенная в JobTracker, подходила только для MapReduce.

Отказ от JobTracker и жёсткой привязки к MapReduce — главное отличие Hadoop 2. Из основной модели обработки данных MapReduce превратился в приложение YARN — более универсального и высокоуровневого средства параллелизации. Кроме него, есть и другие приложения: например, Spark, обрабатывающий данные в оперативной памяти, Apache HAMA, Apache Giraph и Open MPI. 

Среди прочего, это означает, что Hadoop теперь может использоваться не только для пакетной, но и для интерактивной обработки — всё зависит от используемого приложения. Кроме того, разные приложения YARN могут работать на одном и том же кластере.

Hadoop 2
Hadoop 2

Роль JobTracker поделили два других демона. Демону ResourceManager досталась обязанность распределение ресурсов между узлами кластера. Демоны ApplicationManager договариваются с ResourceManager о получении необходимых ресурсов, а затем взаимодействуют с демонами NodeManager, управляющими отдельными узлами, следя за выполнением задач. У каждого приложения YARN свой ApplicationManager, и именно на этом уровне реализованы особенности каждой модели обработки данных.

На фоне таких значительных перемен другие особенности новой версии Hadoop несколько меркнут, но они всё же есть. В пресс-релизе, в частности, сообщается о повышении уровня доступности распределённой файловой системы HDFS, возможности сохранения образов хранилища HDFS и доступа к данным по протоколу NFSv3. Кроме того, Hadoop 2 поддерживает Windows.








Интересные новости
Українські хакери вразили російські підприємства до Дня РЕБ РФУкраїнські хакери вразили російські підприємства до Дня РЕБ РФ
Ілон Маск хоче брати гроші з нових користувачів XІлон Маск хоче брати гроші з нових користувачів X
Блок рекламы


Похожие новости

Компания Марка Цукерберга позволит зарабатывать в метавселеннойКомпания Марка Цукерберга позволит зарабатывать в метавселенной
Что-то новое добавить ума не хватило: в РоSSии представили отечественный аналог Instagram, фотоЧто-то новое добавить ума не хватило: в РоSSии представили отечественный аналог Instagram, фото
Meta считает, что смешанная реальность станет широко доступной в течение нескольких летMeta считает, что смешанная реальность станет широко доступной в течение нескольких лет
Twitter позволит закреплять диалоги всем пользователям, но с ограничениямиTwitter позволит закреплять диалоги всем пользователям, но с ограничениями
Twitter позволит вешать ярлыки на ботов, чтобы люди могли отличать их от живых пользователейTwitter позволит вешать ярлыки на ботов, чтобы люди могли отличать их от живых пользователей
Платформа Pinterest позволит «примерять» с помощью дополненной реальности мебель из популярных магазиновПлатформа Pinterest позволит «примерять» с помощью дополненной реальности мебель из популярных магазинов
Instagram запустила функцию Playback — она позволит поделиться своими лучшими историями за 2021 год
YouTube перестанет монетизировать низкокачественные видео для детей
Google не позволит монетизировать контент, отрицающий изменение климата
Twitter позволит выплачивать вознаграждения авторам в биткоинах
Последние новости

Подгружаем последние новости