Когда компьютеры станут умнее людей?
В июле прошлого года американский изобретатель и футуролог
Г-н Пейдж согласился сотрудничать, но заметил, что маленькая компания не справится с такой задачей. Намёк был понят, и в январе с. г. знаменитый Рэй Курцвейл, который всю жизнь работал только на себя, стал техническим директором Google. «Это кульминация моего полувекового интереса к ИИ», — считает изобретатель.
По его признанию, он соблазнился не только вычислительной мощностью корпорации, но и поразительным прогрессом, которого она достигла в области так называемого
В июне прошлого года система глубокого обучения «Гугла», которой продемонстрировали 10 млн кадров YouTube-видео, вдвое эффективнее
Всё это окончательно развеяло сомнения в том, что умные машины уже покинули страницы фантастических книг. Вскоре они изменят всё, от вычислительных систем и связи до медицины, производства и транспорта. Например, компьютер Watson корпорации IBM,
Вопрос сейчас в том, как вывести глубокое обучение за пределы распознавания речи и изображений. Для этого нужны совершенно иные концептуальные и программные решения, не говоря уже о вычислительной мощи. Возможно, мы никогда не увидим машин, которые будут действительно мыслить, но сегодняшние прорывы в этой области, как говорит
Писать программы, рассказывающие машине о том, что такое край изображения или звук, бесперспективно: они ограничены узконаправленными приложениями, выполняющими определённые команды. Наш мозг работает иначе, и это было ясно ещё в 1950-х, когда создание ИИ только начиналось. В сильно упрощённом виде нейронные сети пытались имитировать уже тогда. Программа составляет план набора виртуальных нейронов и затем присваивает их соединениям случайные цифровые значения от нуля до единицы. Последние определяют отклик каждого нейрона на тот или иной выраженный в «цифре» объект реального мира — оттенок синего на изображении, уровень энергии на определённой частоте звука и пр.
Программисты обучают виртуальные нейронные сети распознавать предмет или звук на примере множества оцифрованных изображений или звуковых волн. Если система неэффективна, значения корректируются, пока она не научится всегда узнавать собаку или звук «д». Так же учатся дети: собакой принято называть объект с характерным внешним видом и поведением.
Самые ранние нейронные сети могли имитировать лишь очень небольшое количество нейронов, поэтому к 1970-м интерес к ним почти угас. Но в середине 1980-х благодаря усилиям г-на Хинтона и других исследователей появились более глубокие модели с многочисленными слоями нейронов. От программиста, впрочем, по-прежнему зависело многое: например, приходилось вручную присваивать значения каждой порции загружаемых данных, а для распознавания речи или изображений не хватало вычислительной мощности.
Фундаментального прорыва удалось добиться лишь сравнительно недавно. В 2006 году г-н Хинтон разработал более эффективный способ обучать слои нейронов. Первый учится самым простым вещам — например, понятию края изображения или мельчайшему элементу звука речи. Иными словами, он просто распознаёт комбинации пикселов или звуковых волн, которые встречаются слишком часто, чтобы быть случайными. Как только этот слой выполнил свою задачу, они передаёт собранную информацию другому, который на этом основании может научиться распознаванию более сложных вещей — например, угла или сочетания звуков. Процесс продолжается, вовлекая всё больше слоёв, пока не будет узнана конкретная фонема или найден искомый объект.
Таким объектом могут стать, к примеру, кошки. В июне прошлого года Google продемонстрировала одну из крупнейших современных нейронных сетей, которая насчитывает более миллиарда соединений. Группа во главе с профессором компьютерных наук из Стэнфорда
Больше всего ИИ-специалистов поразил масштаб прогресса в распознавании изображений. Система правильно распределяла по категориям объекты и темы YouTube-кадров в 16% случаев, что на 70% эффективнее прежних методов. При этом, как отмечает г-н Дин, надо было выбрать из 22 тыс. категорий. И различия между ними порой были очень тонкими, как между двумя видами ската, то есть даже человек не всегда смог бы верно справиться с этой классификацией. Когда же системе предложили тысячу более общих категорий, доля правильных ответов превысила 50%.
Обучение многочисленных слоёв виртуальных нейронов потребовало 16 тыс. процессоров, что сопоставимо с размахом той инфраструктуры, которой Google обзавелась для поддержки своей поисковой системы и прочих интернет-сервисов. По меньшей мере на 80% недавний прогресс в области ИИ обязан новой вычислительной мощности, отмечает
Но одного вычислительного центра мало. Эксперимент удался благодаря успехам «Гугла» в разработке методов распределения задач между машинами для максимально быстрого решения. Г-н Дин трудился над этим 14 лет. Поэтому процесс глубокого обучения удалось ускорить, а нейронную сеть и наборы данных — увеличить.
Глубокое обучение улучшило также голосовой поиск на смартфонах. Раньше приложение для Android не понимало многих слов, но при подготовке к выпуску новой версии ОС (она увидела свет в июле прошлого года) группа г-на Дина заменила один блок ПО тем, который был основан на глубоком обучении. Поскольку многочисленные слои нейронов помогают выучить различные варианты одного и того же звука, система стала более надёжной, особенно в шумных местах (например, в метро). Буквально в одночасье количество ошибок упало на четверть, и многие наблюдатели после этого сочли данное ПО более умным, чем знаменитое приложение
Джефф Хокинс (фото Palm Computing).
Один из таких критиков — основатель компании Palm Computing
Тем не менее вычислительные ресурсы, которые компания Google бросила в эту прорубь, невозможно игнорировать, парируют сторонники глубокого обучения. Они в любом случае важны, потому что мозг намного сложнее любой искусственной нейронной сети. Каким бы ни был подход, без своры мощных компьютеров не обойтись, полагает г-н Хинтон.
Хотя сама корпорация не спешит рассказать, зачем ей всё это нужно, придумать возможные приложения нетрудно. Например, поиск по изображениям очень пригодился бы YouTube, а распознавание звуков — в создании систем голосового управления на самых разных языках. Кроме того, есть автомобили без водителя, интернет-поиск и реклама.
Этими вещами как раз и очарован г-н Курцвейл. Ещё в 1965 году он написал программу для создания классической музыки в разных стилях, после чего первым разработал машину для чтения текста вслух, ПО для сканирования и оцифровки текста безотносительно шрифта, музыкальный синтезатор для воссоздания оркестровых инструментов и систему распознавания речи с богатым словарём.
Сейчас ему 65, и он мечтает о кибердруге, который подслушивает ваши телефонные разговоры, читает вашу электронную переписку и следит за каждым вашим шагом (если вы ему позволяете), чтобы встретить вас ответом ещё до того, как вы сформулируете вопрос. Никто в Google не говорит напрямую о том, что чем-то подобным может стать интернет-поиск, но в первые дни существования компании Сергей Брин признался, что ему хотелось бы создать человеколюбивый аналог компьютера HAL 9000 из фильма «Космическая одиссея 2001 года».
Пока г-н Курцвейл ломает голову над тем, как научить компьютеры понимать естественный язык и даже говорить на нём, чтобы лучше искать данные и отвечать на вопросы. Ему хочется переплюнуть Watson, который понимал самые заковыристые вопросы телевикторины. У него уже есть мыслишка о том, как графическим образом представить всю семантическую сложность языка, чтобы никакие двусмысленности не смущали компьютер.
Что-то подобное уже разработано на нижних палубах гуглогалер для корректировки синтаксиса и грамматики машинных переводов. Кроме того, компания располагает каталогом «
Наконец, г-н Курцвейл планирует с помощью алгоритмов глубокого обучения позволить компьютерам разобраться с «тонкими границами и двусмысленностями языка». Хотите сказать, это страшно сложная задача? Так оно и есть. «Понимание естественного языка не та цель, которую в какой-то момент можно достичь, — говорит он. — Не думаю, что мне суждено завершить этот проект».
Тем не менее попытка приблизиться к этой цели, несомненно, породит самые разные приложения, а не только системы распознавания речи и изображений. Вспомним викторию группы г-на Хинтона в области фармацевтики. А Питер Ли из Microsoft сообщает о первых успехах глубокого обучения в области машинного зрения, то есть технологий, связанных с производственным контролем и автопилотом. Возможно, появятся индивидуальные датчики, способные предсказать надвигающиеся проблемы со здоровьем, а сенсоры, установленные по всему городу, будут предвидеть пробки на дорогах.
Там, где решается настолько сложная задача, как моделирование работы человеческого мозга, не следует ждать того, что какая-то одна технология справится со всеми проблемами. «Глубокое обучение — это лишь на редкость удачная метафора познания мира», — говорит г-н Дин.
Подготовлено по материалам