Девушканаходится в студии, оборудованной высокоскоростными видеокамерами. Онапоказывает жесты, которые ей "диктует" человек, показанный на ноутбуке.Видеокамеры фиксируют движения рук и выражение лица, далее изображениеанализируется специальной программой (фото Devin Hahn, BU Productions).
Понять, о чём идёт речь можно, если представить, что перед вами, например, китайско-русский словарь. Как найти нужное слово в иероглифах, если нет поиска по порядку букв (по алфавиту)? Так и глухонемой человек не может понять (найти в словаре) какой-либо новый жест, если не знает его приближённого значения в варианте своего родного языка (данная разработка создана для распознавания, прежде всего, классического американского языка жестов — ASL).
Но какой смысл искать какое-либо слово, заведомо зная его значение?
Существуют, конечно же, и печатные версии словарей для глухонемых, однако компьютерная программа весьма облегчает любой поиск, так как позволяет найти значение нужного жеста по видеоизображению.
Разработанная в лаборатории университета Бостона (Boston University) новая программа позволяет глухонемому человеку либо выбрать видеоклип, иллюстрирующий новый жест, либо самому представить его, изобразив его, например, перед веб-камерой компьютера.
Специально созданный алгоритм подберёт десять значений наиболее похожих жестов.
Над созданием видеословаря трудятся профессор информатики Стэн Склярофф (Stan Sclaroff), его коллега Кэрол Нейдле (Carol Neidle) из бостонского университета и профессор лингвистики Вассилис Атитсос (Vassilis Athitsos) из университета Техаса (University of Texas at Arlington).
Жестикулирующего человека снимают сразу с нескольких сторон, а также отдельно крупным планом берётся лицо, смотрите демонстрационное видео (фото Athitsos et al.).
Учёным ещё предстоит преодолеть ряд трудностей, ведь программе придётся искать нужный жест в гигантской базе данных из тысяч и тысяч элементов.
Также специалистам необходимо будет решить проблему низкого качества видео, которое записывают некоторые современные камеры. В этом им, вероятно, помогут создатели системы видеосвязи для глухонемых с помощью мобильных телефонов.
Зато впоследствии данная программа, скорее всего, получит массу приложений. Например, уже есть идеи по реализации поиска среди видео с сурдопереводом.
Для достижения необходимого результата учёные посадили в своей студии несколько жестикулирующих человек, для которых американский язык жестов является как родным, так и выученным (чтобы снизить вероятность последующих ошибок). Их попросили изобразить три тысячи основных наиболее часто используемых жестов.
В это время камеры снимали их с четырёх позиций, фиксируя как движения рук, так и выражение лица "говорящих" (Нейдле считает, что улыбка и вскинутые брови иногда значат не меньше положения пальцев).
По мере поступления данных Нейдле и её студенты разбивают видео на части, иллюстрирующие то или иное "слово" или "выражение" (отмечают начало, конец и так называемые поджесты, аналоги английских фонем).
Склярофф разрабатывает алгоритм, который отделяет важные части изображения от фона (пример: по цвету кожи уточняется движение рук и положение пальцев). Кроме того, программу "учат" распознавать некоторые отклонения от стандартных движений.
В этой области существуют и другие разработки. Некоторые научные группы для достижения тех же целей используют специальные перчатки с сенсорами.
Однако команда Скляроффа разрабатывает продукт, который был бы доступен всем тем, у кого есть компьютер и Интернет (чтобы не надо было покупать никаких дополнительных приспособлений).
Узнать об этом проекте больше можно из опубликованных ранее материалов (смотрите здесь).