«Есть тонкости, которые видим и понимаем только мы – глухие»
Глухой программист Новосибирского государственного технического университета Алексей Приходько разработал прототип компьютерного переводчика с русского жестового языка
Глухой программист Новосибирского государственного технического университета (НГТУ НЭТИ) Алексей Приходько разработал прототип компьютерного переводчика с русского жестового языка (РЖЯ). О результатах своей работы он рассказал президенту России Владимиру Путину 4 октября на наблюдательном совете организации «Россия – страна возможностей» в Сочи, а спустя несколько дней – корреспонденту Sibnovosti.ru Валерию Лавскому.
Когда вы решили заняться созданием переводчика с русского жестового языка? Сколько времени ушло на создание прототипа?
Начну с того, что я сам глухой, родился и вырос в семье глухих. Постоянно общаюсь с глухими. И сейчас для разговора с вами мы вынуждены прибегнуть к помощи переводчика (заведующая лабораторией отдела специальных технологий обучения и реабилитации ИСТР Ольга Варинова – Sibnovosti.ru).
Когда я поступил на первый курс магистратуры НГТУ НЭТИ, мы обсуждали, какую тему взять для диссертации. Тогда я находился в некоторой растерянности, потому что в колледже и бакалавриате мне давали какие-то «готовые» темы. А в магистратуре нужно было определиться самостоятельно. Тема распознавания жестов – весьма сложная, поэтому я ее и выбрал. Два года работал над ней, защитил магистратуру на «отлично».
На тот момент прототипа еще не было. Были эксперименты, различные разработки, был создан тренажер для азбуки РЖЯ. То есть, часть работы была сделана в магистратуре. Когда мне предложили поступить в аспирантуру, было большое желание продолжать эту тему, углубляться в нее все больше. И вот, за четыре года был достигнут определенный результат – появился прототип. Сейчас он распознает пять букв. Конечно, это мало. Хочется добиться большего. Так что я продолжаю над этим работать.
Большинство людей не знакомы с жестовым языком. Что он из себя представляет и насколько сложен для тех, кто пытается его выучить?
Жестовый язык иногда разделяют на две части: существует калькирующая жестовая речь и собственно РЖЯ. Да, есть глухие люди, которые хорошо знают русский язык. Для них, возможно, калька (копия русского языка на жестовом языке) и подходит. Но сам РЖЯ обладает своими правилами.
Для того, чтобы с русского языка перевести на РЖЯ, могут быть использованы два подхода. Один, это когда просто используют грамматику русского языка. Но у РЖЯ совершенно другая грамматика. При переводе надо учитывать эту особую грамматику, особую лингвистику, свою семантику. Требуется соблюдение определенных правил, как, например, при переводе с русского на английский. Есть жесты, которые визуально образны, есть жесты, которые не имеют никакой образности.
По факту РЖЯ – это иностранный язык. В Великобритании существует британский жестовый язык, в Германии – немецкий жестовый язык. Я немного знаю немецкий жестовый язык и международную систему жестового общения. Когда в аспирантуре я полгода учился в Германии, мне было легко общаться с глухими иностранцами, потому что нам, глухим, легче найти соприкосновение.
Что представляет из себя и как работает созданный вами прототип переводчика?
При помощи камеры компьютерная программа распознает картинку и фиксирует жесты, изображение переводит в модели и обрабатывает внутри системы, сопоставляя их с данными в нейронной сети. После этого компьютер выводит на монитор уже соответствующий жестам перевод.
Если модель определяет, например, что пальцы раскрыты – буква В, если пальцы собраны – О. В зависимости от этого формируется некая математическая модель, которая создается из скелетной модели. И соответственно каждым числам из этой модели присваивается система координат, и на экране мы видим, какой это жест.
Существует два способа распознавания жестов при помощи техники: безмаркерный и маркерный. Маркерная система – это когда у человека надеты специальные перчатки, приборы и агрегаты, которые учитывают движение мышц и точки на корпусе человека. Я пошел сложным путем, который не требует больших затрат на специальное оборудование для создания программы с маркерной системой. Моя программа безмаркерным методом распознает человека и его жесты при помощи камер.
Прототип распознает пока только пять букв?
Да. Пока он распознает только азбуку. Нужно еще очень много сделать. Наверное, можно сказать, что позади только 5-10% необходимой работы. Что касается азбуки, то дойти до 33 букв – это не проблема. Но необходимо сделать многое, связанное с лингвистикой языка.
Задача, ведь, в чем состоит? Чтобы получился перевод с РЖЯ на письменный русский. Большая часть работы сейчас – это перевод, моделирование. Здесь уже сделано многое. У моего научного руководителя есть аспирант, который занимается семантическим анализом РЖЯ. Часть исследований уже проделана, и их результаты надо объединить. Дальше нужны связи, контакты, командная работа.
В 70-х годах в американском Стэнфордском университете были проведены первые исследования в этом направлении. Но до сегодняшнего дня никто не может достичь конечного результата. Причина понятна. Дело в том, что исследованиями по созданию подобных вещей занимались только слышащие люди. Но я же, как глухой человек, не могу ремонтировать пианино! Так и слышащие люди не могут создать вещи для распознавания жестов, потому что есть тонкости, которые видим и понимаем только мы – глухие.
Какими будут следующие шаги в реализации вашего проекта?
В связи с президентским грантом я, возможно, уже не буду работать над этим один. Буду формировать команду, чтобы решение задачи продвигалось быстрее.
Мне сложно сказать, какие потребуются финансовые затраты в связи с этим. Нужна команда людей, понимающих, какие нужны затраты. Когда я был на встрече с президентом, обсуждались сроки. Проект должен быть готов до 25 ноября 2019 года. Так как основные направления дальнейшей работы лежат в сфере искусственного интеллекта и лингвистики, то будем обсуждать со специалистами, какие расходы потребуются. Часть работы постараемся сделать за три года или даже за два.
Я в этом году закончил аспирантуру. Сейчас дописываю кандидатскую диссертацию. Возможно, года полтора мне потребуется на это, чтобы ее защитить.
Что дало вам для работы над проектом участие в форуме «Россия – страна возможностей»?
Главным для меня стало то, что у нас появилось большое количество связей. Важно и то, что люди начинают понимать: с глухими можно взаимодействовать, можно работать. Плюс возможность получить финансовую поддержку президентского гранта. Лидеры, которые входят в проект «Россия – страна возможностей», меня поддерживают. Сейчас меня приглашают в другие города, чтобы поучаствовать в каких-то совместных проектах.
Фото: пресс-служба Новосибирского государственного технического университета НЭТИ