Microsoft открыла инструменты для распределённого машинного обучения — Distributed Machine Learning Toolkit
Исследователи из азиатского подразделения Microsoft Research объявили об открытии исходного кода инструментов для распределённого машинного обучения — Distributed Machine Learning Toolkit (DMTK).
Утилиты DMTK предназначены для параллельного выполнения трудоемких задач, связанных с машинным обучением. В инструментарии используется программный фреймворк на основе Parameter Server (написан на C++), который позволяет легко и эффективно масштабировать задания по обработке больших данных (Big Data). В DMTK также доступны два алгоритма распределенного машинного обучения и простые в использовании API. В качестве алгоритма для обучения тематическому моделированию используется LightLDA, а для векторного представления слов — алгоритмы Word2vec и multi-sense.
Исходный код Distributed Machine Learning Toolkit (DMTK) опубликован на GitHub и распространяется на условиях свободной лицензии MIT.
Дмитрий Шурупов по материалам TechNet Blogs.