META представила универсальную нейросеть, самостоятельно распознающую фото, аудио и видео: новая веха в истории ИИ

Достижения в области ИИ появляются постоянно, но они, как правило, ограничиваются одной областью: например, если программа умеет генерировать искусственную речь, она при этом не может так же эффективно распознавать выражения на человеческих лицах. Но в будущем такой подход может уступить место более продвинутым технологиям.

Исследователи Meta (aka бывший Facebook) работают на универсальным ИИ, способным самостоятельно учиться с помощью устных, письменных или визуальных материалов

Традиционный способ научить модель нейросети правильно интерпретировать какие-либо данные — дать ей очень много примеров с правильной маркировкой. Изображение кошки с помеченной «кошачьей» частью, разговор с расшифровкой слов и так далее. Но этот подход больше не в моде, поскольку исследователи обнаружили, что больше невозможно вручную создавать базы данных размеров, необходимых для обучения следующего поколения ИИ. Кто захочет тратить время, чтобы безошибочно промаркировать 50 000 000 фотографий кошек? Ну хорошо, фанатов котиков в Сети много, но кто решится подписывать, скажем, 100 миллионов изображений обычных фруктов и овощей?

Самообучающаяся система

В настоящее время некоторые из наиболее многообещающих систем искусственного интеллекта — это так называемые самоконтролируемые нейросети: модели, которые могут работать с большими объемами неразмеченных данных, таких как книги или видео со множеством взаимодействующих людей, и строить собственное структурированное понимание правил системы. Например, прочитав тысячу книг, сеть выучит взаимное расположение слов и идей в грамматической структуре, причем никто не скажет ей, что такое объекты, артикли или запятые — он сама распознает их, сделав выводы из множества примеров.

Интуитивно это больше похоже на то, как люди учатся в реальном мире, что частично нравится исследователям. Но модели по-прежнему имеют тенденцию быть одномодальными, и вся работа, которую вы проделываете, чтобы настроить полууправляемую систему обучения для распознавания речи, будет совершенно неприменима к анализу изображений — это просто слишком разный тип данных. Вот где на помощь приходит последнее исследование Facebook/Meta с броским названием data2vec.

Идея data2vec заключалась в том, чтобы создать структуру ИИ, которая обучалась бы более абстрактным образом. Это означает, что вы могли бы дать ей книги для чтения, изображения для сканирования или речь для озвучивания, и после небольшого обучения сеть научится любой из этих техник. Тестирование data2vec после его обучения на различных корпусах данных показало, что такой подход конкурентоспособен и даже превосходит специализированные модели аналогичного размера для этой модальности. Говоря проще, если бы все модели были ограничены, допустим, 100 мегабайтами, data2vec работала бы лучше — но специализированные модели, вероятно, по-прежнему превосходили бы ее по мере роста поступающих данных.

Почему это так важно

«Основная идея этого подхода заключается в более общем обучении: ИИ должен быть в состоянии научиться выполнять множество различных задач, в том числе совершенно незнакомых», — пишет команда в своем блоге. «Мы также надеемся, что data2vec приблизит нас к миру, в котором компьютерам требуется очень мало размеченных данных для выполнения задач».

«Люди познают мир с помощью комбинации зрения, звука и слов, и подобные системы однажды смогут понять мир так же, как это делаем мы», — прокомментировал исследование генеральный директор компании Марк Цукерберг.

Сейчас исследование находится еще на ранней стадии, поэтому не стоит ждать, что легендарный «общий ИИ» внезапно войдет в нашу жизнь в ближайшее время — но наличие ИИ с обобщенной структурой обучения, которая работает с различными предметными областями и типами данных, кажется более элегантным решением, чем разрозненный набор «микроразумов», с которым мы сегодня обходимся.

Влад Кулиев, Supreme2.Ru