Ученые Томского политехнического университета вместе с коллегами исследуют два исчезающих обско-угорских языка – ваховский хантыйский и сосьвинский мансийский. Результаты исследования станут основой для создания первых онлайн-тренажеров, разработки алгоритмов языковых моделей. Проект поддержан грантом РНФ (№ 25-28-00328) и рассчитан на 2025-2026 годы.

В настоящее время хантыйский и мансийский входят в число 136 исчезающих языков РФ и имеют статус «серьезно уязвимые». На хантыйском языке говорят около 9,5 тысячи человек, а на мансийском – всего около тысячи. Cпециалисты отмечают, что нарушена естественная межпоколенная передача – от более старших носителей языка к молодежи. Кроме того, среди учителей также очень мало носителей языка, способных на должном уровне передавать знания детям. Грамматические свойства этих языков недостаточно описаны, правила употребления некоторых форм не выявлены и, соответственно, не внесены в школьные учебники.

«Оба языка относятся к угорской подветви финно-угорских языков и имеют схожие грамматические структуры и лексические элементы. Это родство позволяет исследовать их эволюцию и взаимовлияние, а также выявлять общие черты, которые могут пролить свет на историю миграций и контактов между народами. Оба языка имеют множество диалектов, что создает уникальные условия для исследования языковых изменений и адаптаций в зависимости от географического положения носителей. Например, мансийский и хантыйский языки делятся на несколько диалектов, которые заметно различаются между собой», – говорит руководитель проекта, доцент отделения иностранных языков Школы общественных наук ТПУ Виктория Воробьева, отмечая, что особый акцент в исследовании будет сделан на изучение глагольных форм в контексте системных характеристик. Это позволит выявить их взаимосвязи и роли в структуре языка.

Проект, поддержанный грантом РНФ, является продолжением более ранних исследований. В своей работе ученые будут использовать полевые данные, собранные в ходе экспедиций в места проживания ваховских и аганских ханты, прошедших в 2017–2020 годах. Они уже частично оцифрованы и размещены в виртуальной лаборатории «ЛингвоДок». Кроме того, члены научного коллектива планируют продолжить сбор полевых данных в местах проживания коренного населения в ХМАО.

«Носителей ваховского хантыйского можно пересчитать буквально по пальцам. Они проживают в отдаленном и труднодоступном селе Корлики и родовых угодьях. Благодаря своему уединенному расположению в этом селе еще сохраняется самобытность народа ваховских ханты. Сбор языковых данных – это первостепенная задача, так как большинство ваховских ханты, кто еще помнит и может говорить на этническом языке, – это пожилые люди», – подчеркивает ученый.

Исследователи работают с носителями языка, используя разные методы: записывают живую, непосредственную речь, опрашивают, используя анкеты по заданным темам. Записанные аудиофайлы расшифровывают и обрабатывают в специальной программе с разметкой на глоссы и переводом на русский язык. Далее полученный файл загружают в лингвистическую лабораторию «ЛингвоДок».

«В рамках проекта мы планируем расшифровать ранее собранные языковые данные и собрать новые, чтобы постепенно увеличить имеющиеся корпуса хантыйских и мансийских диалектов в лингвистической лаборатории, проанализировать полученные данные, используя программный аппарат "ЛингвоДок". Корпус обско-угорских языков, который будет разработан, позволит уточнить спорные моменты в морфологии и может быть применим при комплексном описании характеристик глагола. В дальнейшем он послужит основой для создания новых продуктов, например, этимологических онлайн-словарей обско-угорских языков, онлайн-тренажеров для обучения и для разработки алгоритмов языковых моделей, которые будут применимы для межъязыкового перевода, генерации текстов. До настоящего времени еще нет ни одной масштабной цифровой корпусной базы данных по этим языкам, позволяющей анализировать, уточнять и верифицировать теоретические положения в режиме онлайн, используя современные инструменты поиска нужной информации», – подытоживает Виктория Воробьева.

В исследовании участвуют сотрудники ТПУ, ТГУ, ТГПУ и Института языкознания РАН.

 

Информация предоставлена пресс-службой Томского политехнического университета

Источник фото: ru.123rf.com