Образование / Новости 5 марта 2026 г. 09:44

Нейросеть для создания аудиоверсий научных книг разработали в НГУ

*** Пилотный проект позволит перевести в аудиоформат около 7 тысяч изданий электронной библиотеки университета, а затем предложить решение другим библиотекам

Сюжет

Развитие

Новосибирск. 5 марта. ИНТЕРФАКС - Новосибирский государственный университет запустил сервис по автоматическому созданию аудиоверсий книг из оцифрованной части фонда научной библиотеки университета, сообщает пресс-служба НГУ.

Проект основан на разработках Исследовательского центра искусственного интеллекта (Центра ИИ) НГУ и проходит этап апробации. После успешного выполнения пилотного проекта технологию планируется предложить другим библиотекам.

"На данном этапе речь идет о переводе в аудиоформат книг университетского издательства и материалов, размещенных в электронной библиотеке, с разрешения правообладателей -всего около семи тысяч наименований. Озвучивание выполняет нейросеть: текст извлекается из PDF, проходит предварительную обработку, после чего формируется звуковая версия", - говорится в сообщении.

В перспективе планируется перевести в аудиоформат все книги, представленные в электронной библиотеке НГУ - это около 7 тысяч изданий.

"В пилотном режиме уже озвучены первые сто книг, сейчас команда ожидает обратную связь от библиотеки и пользователей", - уточняется в сообщении.

Ведущий научный сотрудник Центра искусственного интеллекта НГУ, кандидат физико-математических наук Евгений Павловский отмечает, что сервис не предполагает полной замены традиционного чтения, а создается как альтернативная форма доступа к тексту.

"Мы не делаем художественную озвучку, полностью повторяющую оригинал. Это дополнительный способ работы с книгой. Для массового использования важно, что решение не является ресурсоемким: на одну книгу уходит примерно полчаса процессорного времени, причем речь о 16-ядерном процессоре, даже без видеокарты", - пояснил он.

Сервис создан на базе фреймворка "Каппа", разработанного в Центре ИИ НГУ. Он предназначен для управления датасетами и моделями искусственного интеллекта, их тестирования и оценки перед внедрением в рабочие процессы.

Фреймворк позволяет проверять корректность работы моделей и снижать риск ошибок или так называемых "галлюцинаций" искусственного интеллекта.

По оценке разработчиков, с точки зрения вычислительных ресурсов само озвучивание всего фонда возможно в течение месяца, однако на организационную подготовку и верификацию результатов озвучки может потребоваться до года.

Самое важное и интересное"Интерфакс-Россия" в Мax