Ученые НГУ создали нейросеть для перевода научной литературы в аудиоформат
В Новосибирском государственном университете представили сервис, позволяющий автоматически создавать аудиоверсии научных книг. Как сообщили в пресс-службе вуза, искусственный интеллект справляется с этой задачей в 16 раз быстрее профессионального диктора
Разработка принадлежит Исследовательскому центру искусственного интеллекта НГУ. Принцип работы нейросети заключается в извлечении текста из PDF-файлов, его предварительной обработке и последующем формировании звуковой дорожки. В университете подчеркивают, что новый инструмент не станет полной заменой традиционному чтению, а предлагается в качестве альтернативного способа знакомства с материалами.
Сейчас проект находится на стадии апробации. Уже озвучено сто книг, разработчики ожидают отзывов от библиотеки и первых слушателей. Если пилотный проект окажется успешным, технологию предложат и другим библиотекам. Пока что работа ведется с книгами университетского издательства и материалами из электронной библиотеки, которые разрешено использовать правообладателями. Всего в планах на этот этап — около семи тысяч наименований.
Ведущий научный сотрудник Центра ИИ НГУ Евгений Павловский отметил масштабность дальнейших планов:
«В перспективе мы планируем перевести в аудиоформат все книги, представленные в электронной библиотеке НГУ. Сейчас это около 7 тысяч изданий».
По словам Павловского, технология не требует огромных вычислительных мощностей — обработка одной книги занимает примерно полчаса процессорного времени. Базой для сервиса послужил фреймворк «Каппа», разработанный в центре ИИ НГУ. Этот инструмент используется для управления наборами данных и моделями, их тестирования и оценки надежности перед внедрением. «Каппа» помогает убедиться в корректности работы моделей и минимизировать риск ошибок или так называемых галлюцинаций нейросети. В рамках нового проекта фреймворк применяется для подготовки обучающих материалов для озвучки и сбора обратной связи о качестве готовых записей.
Разработчики подсчитали, что с технической точки зрения озвучить весь библиотечный фонд можно было бы примерно за месяц. Однако, с учетом организационных вопросов и необходимости тщательной проверки результатов, полное завершение проекта может растянуться на срок до года.


























