Новосибирск. 9 декабря. ИНТЕРФАКС - Специалисты Новосибирского госуниверситета разработали алгоритм, который позволяет автоматизировать процесс межъязыкового переноса разметки названий, имен, дат и так далее (именованных сущностей) с использованием больших языковых моделей, сообщает пресс-служба НГУ.
"Данный метод найдет применение во многих областях - создании национальных поисковых систем, классификации документов, построении сетей связей, переводе и других сферах", - говорится в сообщении.
Отмечается, что распознавание именованных сущностей, то есть слов и словосочетаний, которые обозначают уникальные или единичные объекты - людей, организации, локации, даты и т.д. - является ключевой задачей обработки естественного языка, решение которой зависит от наличия качественно "размеченных" текстовых корпусов.
Создание таких корпусов для новых языков, особенно для тех, у которых недостаточно цифровых данных для обработки и анализа, ресурсоемко, что актуализирует задачу автоматического межъязыкового переноса существующей разметки.
Исследователи располагали большим набором предложений (около 10 тыс.) на узбекском языке, в котором эксперты вручную разметили именованные сущности.
Документ представлял собой таблицу, в которой напротив каждого слова есть определенный тег, похожий на язык разметки html, он показывает, является ли это слово частью именованной сущности или нет.
Задача исследователей состояла в том, чтобы автоматически перенести эти предложения на другой язык с сохранением разметки, в НГУ предложили использовать для этого большие языковые модели - в данном случае GPT-4o.
"Для каждого предложения формулировалась задача в определенном формате с примерами ответов", - говорится в сообщении.
В результате было установлено, что разметка может быть перенесена с высокой точностью даже при работе с морфологически разными типами языков: узбекский относится к агглютинативным языкам, русский - к флективным, английский - к аналитическим (изолирующим).
В частности, при создании мультиязычных информационных систем первоначальная разметка может осуществляться только на одном языке - например, на том, для которого требуются более низкие финансовые затраты.
Для подтверждения результатов дополнительно была проведена автоматическая оценка обратного перевода, то есть исходное предложение на узбекском переводили на целевой язык, например, русский, далее брали полученное русское предложение и переводили обратно на узбекский, потом сравнивали этот обратный перевод с оригиналом на семантическую схожесть.
Такая оценка автоматизирована для любого количества предложений. Вторая оценка - сравнение семантической схожести на целевом языке результата приложения и эталонного предложения, дополнительно размеченного вручную. В работе показано, что эти две оценки коррелируют для 30 вручную размеченных предложений на русском и английском языках.
Подчеркивается, что разработанный подход может внести свой вклад в достижение информационного суверенитета и создание национальных поисковых систем. Помимо Google, который сейчас фактически охватил весь мир, свои полноценные национальные поисковики есть только в России (Яндекс) и в Китае (Baidu).
Самое важное и интересное — "Интерфакс-Россия" в МАХ