Проект ВепКар

28.05.2019 18:59

5234

Изображение логотипа с сайта Проект ВепКар

Решением Организации Объединенных Наций 2019 год объявлен Международным годом языков коренных народов. В Федеральном исследовательском центре «Карельский научный центр РАН» также ведётся работа по сохранению и изучению языков народов России. Проект «Открытый корпус вепсского и карельского языков» посвящён сохранению языков финно-угорских народов.

Разработкой Открытого корпуса вепсского и карельского языков занимаются сотрудники двух институтов: Института прикладных математических исследований КарНЦ РАН и Института языка, литературы и истории КарНЦ РАН. Это пример междисциплинарной работы, в которой объединены усилия языковедов, математиков и программистов. Работа поддержана грантами РГНФ и РФФИ.

С целью популяризации научного проекта, видеоматериалы, создаваемые в ходе работы, загружаются не только в образовательный проект Википедия (Category:VepKar), но и на канал Карельского научного центра в YouTube, материалы публикуются на страницах Карельского научного центра в соцсетях Facebook и ВКонтакте.

Начало этой работе было положено в 2009 году, тогда проект назывался «Корпус вепсского языка». Цель проекта заключалась в создании, а затем в дальнейшем пополнении и развитии компьютерной онлайн-системы. Был создан интернет-сайт на русском языке с поисковым механизмом, а также разработана схема мета-разметки и детальной паспортизации текстов. Разработанный электронный ресурс (http://vepsian.krc.karelia.ru/) содержит подкорпусы диалектных текстов на вепсском языке этнографического (тексты различного рода бесед и рассказов) и фольклорного (вепсские сказки, вепсские причитания) содержания, а также впервые размещенные в сети Интернет младописьменные тексты на вепсском языке (художественные, публицистические, тексты для детей, переводы Библии) и электронный словарь с леммами и словоформами и переводами лемм на русский и английский языки. Корпус и Словарь включают более тысячи текстов, более 800 библиографических источников, более 10 тысяч лемм и словоформ.

В 2016 году было решено включить в программу корпусных исследований наречия карельского языка. Так, на базе компьютерной программы и базы данных Корпуса вепсского языка был создан Корпус карельского языка. Объединённый корпус получил название: «Открытый корпус вепсского и карельского языков» (ВепКар). Корпус карельского языка включает три подкорпуса, деление осуществлено в соответствии с тремя основными наречиями (собственно карельское, ливвиковское, людиковское). Сайт корпуса ВепКар доступен по ссылке .

В рамках проекта ВепКар разработан машиночитаемый тезаурус вепсского языка. Разработана табличная форма для указания морфологических признаков (падеж, число) для именных частей речи, а также глагольных форм с указанием наклонения, времени, числа и др. Начата работа по семантической разметке текста.

Вепсские тексты корпуса ВепКар были использованы для вычисления языковой модели с целью векторного представления слов. Это вычисление выполнено программой word2vec, работающей с нейронными сетями. Корпус ВепКар примерно в 400 раз меньше Национального корпуса русского языка (17.5 млн предложений в основном корпусе НКРЯ и 45 тыс. предложений на вепсском в ВепКар). Это накладывает существенные ограничения на построенную языковую модель вепсского языка.

Для решения задачи определение частеречной принадлежности использована языковая модель вкупе с методами кластеризации K-Means и DBSCAN. Предложен алгоритм определения части речи на основе языковой модели, построенной с помощью нейронных сетей по данным Открытого корпуса вепсского и карельского языков.

Стоит отметить важность и востребованность работы по развитию корпуса текстов. Во-первых, в соревновании «Оценка методов обработки малоресурсных языков» (февраль-март, 2019), проводимом в рамках международной конференции «Диалог 2019», использовались размеченные данные корпуса ВепКар в формате (https:CONLL//lowresource-lang-eval.github.io). Во-вторых, данные корпуса в этом году включены в международную морфологическую базу данных UniMorph (https://github.com/unimorph). Экспорт данных в общепринятые форматы (CONLL, UniMorph) важен для привлечения к исследованию вепсского и карельского языков международного научного сообщества. В последние годы становится практикой, когда новые методы и алгоритмы вычислительной лингвистики проверяются не на одном-двух языках, а на множестве языков, например, с привлечением базы UniMorph, включающей 110 языков, теперь, в том числе, вепсский и карельский.

Изображение логотипа с сайта Проект ВепКар