Новосибирск. 15 декабря. ИНТЕРФАКС - Магистрант факультета информационных технологий (ФИТ) Новосибирского госуниверситета Степан Гудков разработал программное обеспечение, которое позволяет автоматизировать процесс распознавания книг решений волостных судов, которые существовали в России в начале XX века, сообщает пресс-служба НГУ.
"Работа направлена на ввод в научный оборот решений таких судов, в которых отражены многие аспекты жизни сибирских крестьян. Разработка является частью магистерской диссертации, которую Степан Гудков готовит под научным руководством Владимира Борисовича Барахнина, доктора технических наук, профессора кафедры общей информатики ФИТ НГУ", - говорится в сообщении.
Решения волостных судов записаны в толстых журналах, которые прошивались шнуром и скреплялись печатью, они представляют ценный источник информации - описание жизни и быта российских и сибирских крестьян предреволюционной эпохи.
Старший научный сотрудник Института истории СО РАН Алексей Кириллов отмечает, что в начале XX века по всей России волостные суды в год выносили около 1 млн решений, в архивах по Сибири сохранилось несколько десятков тысяч решений, их ручная расшифровка очень трудоемка.
"Могу привести пример: в ближайшее время мы выпустим две книги, в которых представлены несколько сотен решений волостных судов. На эту работу у нас ушло три года. Если мы поставим задачу распознать тексты всех решений, то, если это делать вручную, уйдет не один десяток лет. Применение же информационных технологий позволяет автоматизировать и значительно ускорить эту работ", - говорит историк.
Историки обратились на Факультет информационных технологий НГУ с данной задачей.
Отмечается, что для того, чтобы рукописный исторический документ ввести в научный оборот, мало его просто оцифровать в виде картинки, он должен быть распознан именно в текстовом виде.
Существующие системы распознавания текстов к таким документам не применимы в силу разных особенностей, поэтому необходимо было разработать алгоритм, который подходит для работы с рукописными документами.
Журнал решений волостного суда представляет собой разграфлённые, в том числе и вертикально, страницы, однако в реальности не всегда писали строго по колонкам, а нередко сплошным текстом по странице, что затрудняет понимание.
Кроме того, несмотря на то, что волостную книгу, как правило, писал один писарь и имеется определенный объем документов, написанных одним почерком, тем не менее в разных книгах почерки разные. Также затрудняет распознавание о обработку дореволюционная орфография, не слишком высокая грамотность писарей, использование разнообразных сокращений, имен собственных.
Для решения задачи распознавания таких текстов разработчики НГУ применили алгоритмы машинного зрения, которые позволяют распознавать линии, отдельные символы и буквы.
Сейчас создан алгоритм машинного зрения, помогающий обучать нейросети распознавать слова как набор символов, без осмысления и корректировки. Дальнейшая доработка алгоритма предполагает, чтобы, исходя из смысла и контекста, система предлагала возможные варианты написания, правки, на основании которых человек мог принять решение, какой вариант корректный.
В перспективе предполагается создать полноценную информационную систему с поисковыми интерфейсами. В такой системе каждый документ снабжён всеми метаданными, из него извлечены все слова, он машиночитаемый. Система позволяет вести контекстный поиск, осуществлять выборку по разным критериям - по селению, персонам, категориям дел и т.д.
В дальнейшем данная разработка может быть применима для разбора любых рукописных документов из архивов - писем, дневников и т.д., созданных в дореволюционный период - с середины 19 века, когда появился современный русский язык, и до 1917 года.
Самое важное и интересное — "Интерфакс-Россия" в МАХ
Соглашение о сотрудничестве подписали БГПУ и щукинский театральный институт
Новую модель подготовки учителей обсудили в Приамурье эксперты из 12 регионов