Когда компьютеры станут умнее людей?

В июле прошлого года американский изобретатель и футуролог Рэймонд Курцвейл встретился с генеральным директором корпорации «Гугл» Ларри Пейджем, чтобы показать ему черновик своей новой книги «Как создать мышление» (How to Create a Mind). Адепт искусственного интеллекта признался, что мечтает открыть фирму, которая смогла бы построить по-настоящему умный компьютер, то есть такой, чтобы понимал человеческий язык, мог делать собственные выводы и принимать решения. Но для подобного проекта потребуются наборы данных и вычислительные мощности гугломасштаба.

Г-н Пейдж согласился сотрудничать, но заметил, что маленькая компания не справится с такой задачей. Намёк был понят, и в январе с. г. знаменитый Рэй Курцвейл, который всю жизнь работал только на себя, стал техническим директором Google. «Это кульминация моего полувекового интереса к ИИ», — считает изобретатель.

По его признанию, он соблазнился не только вычислительной мощностью корпорации, но и поразительным прогрессом, которого она достигла в области так называемого глубокого обучения (deep learning). Алгоритмы глубокого обучения пытаются имитировать деятельность нейронов в новой коре головного мозга, где осуществляется около 80% мыслительных процессов. ПО учится (в самом буквальном смысле) распознавать закономерности в звуках, изображениях и прочих данных.

Рэй Курцвейл (фото BusinessMakers Show).

Идее имитации деятельности новой коры много десятков лет, и она привела не только к прорывам, но и разочарованиям. Тем не менее математические формулы совершенствуются, а мощность компьютеров растёт, поэтому сегодня можно смоделировать работу значительного количества слоёв нейронов, и исследования продолжаются.

В июне прошлого года система глубокого обучения «Гугла», которой продемонстрировали 10 млн кадров YouTube-видео, вдвое эффективнее распознавала кошек и прочие объекты, чем другие программы. Та же технология помогла корпорации скорректировать работу приложения по распознаванию речи для мобильных телефонов. В октябре главный директор по исследованиям Microsoft Рик Рашид поразил слушателей его лекции в Китае демонстрацией ПО, которое транскрибировало его речь в английский текст с погрешностью всего в 7%, после чего переводило на китайский и синтезировало его же голос, как будто он говорит на путунхуа. Тогда же трое аспирантов и двое профессоров с помощью системы глубокого обучения выиграли конкурс, проводившийся фармацевтической компанией Merck, по идентификации молекул, которые могут привести к созданию новых лекарств. В марте с. г. «Гугл» купил стартап, основанный Джефри Хинтоном из Торонтского университета (Канада), который входил в ту победную группу.

Всё это окончательно развеяло сомнения в том, что умные машины уже покинули страницы фантастических книг. Вскоре они изменят всё, от вычислительных систем и связи до медицины, производства и транспорта. Например, компьютер Watson корпорации IBM, победивший в телевикторине Jeopardy! (прообраз отечественной «Своей игры»), учится помогать врачам ставить верные диагнозы. В голосовом поиске Windows Phone и Bing тоже задействованы алгоритмы глубокого обучения.

Вопрос сейчас в том, как вывести глубокое обучение за пределы распознавания речи и изображений. Для этого нужны совершенно иные концептуальные и программные решения, не говоря уже о вычислительной мощи. Возможно, мы никогда не увидим машин, которые будут действительно мыслить, но сегодняшние прорывы в этой области, как говорит Питер Ли, возглавляющий Microsoft Research USA, по крайней мере с новой силой разожгли интерес к исследованиям ИИ.

Писать программы, рассказывающие машине о том, что такое край изображения или звук, бесперспективно: они ограничены узконаправленными приложениями, выполняющими определённые команды. Наш мозг работает иначе, и это было ясно ещё в 1950-х, когда создание ИИ только начиналось. В сильно упрощённом виде нейронные сети пытались имитировать уже тогда. Программа составляет план набора виртуальных нейронов и затем присваивает их соединениям случайные цифровые значения от нуля до единицы. Последние определяют отклик каждого нейрона на тот или иной выраженный в «цифре» объект реального мира — оттенок синего на изображении, уровень энергии на определённой частоте звука и пр.

Программисты обучают виртуальные нейронные сети распознавать предмет или звук на примере множества оцифрованных изображений или звуковых волн. Если система неэффективна, значения корректируются, пока она не научится всегда узнавать собаку или звук «д». Так же учатся дети: собакой принято называть объект с характерным внешним видом и поведением.

Самые ранние нейронные сети могли имитировать лишь очень небольшое количество нейронов, поэтому к 1970-м интерес к ним почти угас. Но в середине 1980-х благодаря усилиям г-на Хинтона и других исследователей появились более глубокие модели с многочисленными слоями нейронов. От программиста, впрочем, по-прежнему зависело многое: например, приходилось вручную присваивать значения каждой порции загружаемых данных, а для распознавания речи или изображений не хватало вычислительной мощности.

Фундаментального прорыва удалось добиться лишь сравнительно недавно. В 2006 году г-н Хинтон разработал более эффективный способ обучать слои нейронов. Первый учится самым простым вещам — например, понятию края изображения или мельчайшему элементу звука речи. Иными словами, он просто распознаёт комбинации пикселов или звуковых волн, которые встречаются слишком часто, чтобы быть случайными. Как только этот слой выполнил свою задачу, они передаёт собранную информацию другому, который на этом основании может научиться распознаванию более сложных вещей — например, угла или сочетания звуков. Процесс продолжается, вовлекая всё больше слоёв, пока не будет узнана конкретная фонема или найден искомый объект.

Таким объектом могут стать, к примеру, кошки. В июне прошлого года Google продемонстрировала одну из крупнейших современных нейронных сетей, которая насчитывает более миллиарда соединений. Группа во главе с профессором компьютерных наук из Стэнфорда Эндрю Нг и сотрудником «Гугла» Джефри Дином показала системе кадры из 10 млн случайно выбранных YouTube-видео. Один виртуальный нейрон фиксировал изображения котиков. Другие концентрировали внимание на человеческих лицах, жёлтых цветах и прочих объектах. И благодаря силе глубокого обучения система идентифицировала эти дискретные объекты, даже если ни один человек никак их не помечал.

Больше всего ИИ-специалистов поразил масштаб прогресса в распознавании изображений. Система правильно распределяла по категориям объекты и темы YouTube-кадров в 16% случаев, что на 70% эффективнее прежних методов. При этом, как отмечает г-н Дин, надо было выбрать из 22 тыс. категорий. И различия между ними порой были очень тонкими, как между двумя видами ската, то есть даже человек не всегда смог бы верно справиться с этой классификацией. Когда же системе предложили тысячу более общих категорий, доля правильных ответов превысила 50%.

Обучение многочисленных слоёв виртуальных нейронов потребовало 16 тыс. процессоров, что сопоставимо с размахом той инфраструктуры, которой Google обзавелась для поддержки своей поисковой системы и прочих интернет-сервисов. По меньшей мере на 80% недавний прогресс в области ИИ обязан новой вычислительной мощности, отмечает Дилип Джордж, соучредитель стартапа Vicarious.

Но одного вычислительного центра мало. Эксперимент удался благодаря успехам «Гугла» в разработке методов распределения задач между машинами для максимально быстрого решения. Г-н Дин трудился над этим 14 лет. Поэтому процесс глубокого обучения удалось ускорить, а нейронную сеть и наборы данных — увеличить.

Глубокое обучение улучшило также голосовой поиск на смартфонах. Раньше приложение для Android не понимало многих слов, но при подготовке к выпуску новой версии ОС (она увидела свет в июле прошлого года) группа г-на Дина заменила один блок ПО тем, который был основан на глубоком обучении. Поскольку многочисленные слои нейронов помогают выучить различные варианты одного и того же звука, система стала более надёжной, особенно в шумных местах (например, в метро). Буквально в одночасье количество ошибок упало на четверть, и многие наблюдатели после этого сочли данное ПО более умным, чем знаменитое приложение Siri компании Apple.

Джефф Хокинс (фото Palm Computing).

Несмотря на прогресс, не все уверены в том, что именно глубокому обучению суждено сделать ИИ конкурентом человеческого разума. По мнению скептиков, эта область исследований игнорирует многие нюансы биологии мозга в угоду грубой вычислительной силе.

Один из таких критиков — основатель компании Palm Computing Джефф Хокинс, нынешнее детище которого, Numenta, разрабатывает систему машинного обучения, которая тоже вдохновлена биологией, но не использует глубокого обучения. Она предсказывает закономерности потребления энергии и вероятность поломки машины — например, ветряной мельницы. Г-н Хокинс — автор книги «Об интеллекте» (2004), в которой несложным языком рассказывается о работе мозга и о том, как эти сведения помогут в создании умных машин. По его мнению, глубокое обучение по своей природе не может, к примеру, одарить компьютер понятием времени. Поток чувственных данных непрерывен, и способность к обучению связана с воспроизведением в памяти последовательности событий, а не с распознаванием объектов на стоп-кадрах, как это делала система «Гугла». Таким образом, машина никогда не поймёт, когда кошка делает что-то забавное, а когда — не вызывает никаких эмоций.

Тем не менее вычислительные ресурсы, которые компания Google бросила в эту прорубь, невозможно игнорировать, парируют сторонники глубокого обучения. Они в любом случае важны, потому что мозг намного сложнее любой искусственной нейронной сети. Каким бы ни был подход, без своры мощных компьютеров не обойтись, полагает г-н Хинтон.

Хотя сама корпорация не спешит рассказать, зачем ей всё это нужно, придумать возможные приложения нетрудно. Например, поиск по изображениям очень пригодился бы YouTube, а распознавание звуков — в создании систем голосового управления на самых разных языках. Кроме того, есть автомобили без водителя, интернет-поиск и реклама.

Этими вещами как раз и очарован г-н Курцвейл. Ещё в 1965 году он написал программу для создания классической музыки в разных стилях, после чего первым разработал машину для чтения текста вслух, ПО для сканирования и оцифровки текста безотносительно шрифта, музыкальный синтезатор для воссоздания оркестровых инструментов и систему распознавания речи с богатым словарём.

Сейчас ему 65, и он мечтает о кибердруге, который подслушивает ваши телефонные разговоры, читает вашу электронную переписку и следит за каждым вашим шагом (если вы ему позволяете), чтобы встретить вас ответом ещё до того, как вы сформулируете вопрос. Никто в Google не говорит напрямую о том, что чем-то подобным может стать интернет-поиск, но в первые дни существования компании Сергей Брин признался, что ему хотелось бы создать человеколюбивый аналог компьютера HAL 9000 из фильма «Космическая одиссея 2001 года».

Пока г-н Курцвейл ломает голову над тем, как научить компьютеры понимать естественный язык и даже говорить на нём, чтобы лучше искать данные и отвечать на вопросы. Ему хочется переплюнуть Watson, который понимал самые заковыристые вопросы телевикторины. У него уже есть мыслишка о том, как графическим образом представить всю семантическую сложность языка, чтобы никакие двусмысленности не смущали компьютер.

Что-то подобное уже разработано на нижних палубах гуглогалер для корректировки синтаксиса и грамматики машинных переводов. Кроме того, компания располагает каталогом «Сеть знаний» (Knowledge Graph), в который занесено примерно 700 млн тем, локаций, людей и др., а также миллиарды связей между ними. С помощью этого сервиса поисковая система собирается самостоятельно отвечать на вопросы, а не только предъявлять ссылки на сайты с этими ответами.

Наконец, г-н Курцвейл планирует с помощью алгоритмов глубокого обучения позволить компьютерам разобраться с «тонкими границами и двусмысленностями языка». Хотите сказать, это страшно сложная задача? Так оно и есть. «Понимание естественного языка не та цель, которую в какой-то момент можно достичь, — говорит он. — Не думаю, что мне суждено завершить этот проект».

Тем не менее попытка приблизиться к этой цели, несомненно, породит самые разные приложения, а не только системы распознавания речи и изображений. Вспомним викторию группы г-на Хинтона в области фармацевтики. А Питер Ли из Microsoft сообщает о первых успехах глубокого обучения в области машинного зрения, то есть технологий, связанных с производственным контролем и автопилотом. Возможно, появятся индивидуальные датчики, способные предсказать надвигающиеся проблемы со здоровьем, а сенсоры, установленные по всему городу, будут предвидеть пробки на дорогах.

Там, где решается настолько сложная задача, как моделирование работы человеческого мозга, не следует ждать того, что какая-то одна технология справится со всеми проблемами. «Глубокое обучение — это лишь на редкость удачная метафора познания мира», — говорит г-н Дин.

Подготовлено по материалам Technology Review.

Дмитрий Целиков, Компьюлента