Материалы портала «Научная Россия»

Учёные создают Генеральный интернет-корпус русского языка

Учёные создают Генеральный интернет-корпус русского языка
Лингвисты и математики разрабатывают алгоритмы, с помощью которых можно определить жанровую, гендерную, возрастную, региональную принадл

Лингвисты и математики из РГГУ, Физтеха и компании ABBYY разрабатывают алгоритмы, с помощью которых можно определить жанровую, гендерную, возрастную, региональную принадлежность интернет-текстов. Основным результатом работы станет создание Генерального интернет-корпуса русского языка, сообщает портал «Наука и технологии России». Это исследование полезно как с академической точки зрения, так и для решения прикладных лингвистических задач, например для улучшения алгоритмов автоматического перевода.

Пользователи интернета заходят, прежде всего, на сайты поисковых систем, с помощью которых удобнее всего искать информацию в сети. «Для любой поисковой системы бизнес-задачи – первоочередные. На втором месте стоят задачи информационного поиска, хотя первая функция им уже заметно мешает. Для исследования же языка система поиска совсем не предназначена», – говорит Владимир Селегей, заведующий кафедрой компьютерной лингвистики в РГГУ, директор по лингвистическим исследованиям компании ABBYY.

Лингвистам же вовсе не нужно ни ранжирование результатов поиска, ни исправление ошибок в запросе. Важнее возможность искать в интернете предложения с определённой синтаксической структурой или тексты, в которых, к примеру, слово «мочить» употребляется применительно к фруктам и овощам, а не к чему-то другому, пишет автор портала. Для этого тексты должны иметь лингвистическую разметку, содержащую данные об их языковом строении.

Сейчас такие размеченные тексты собраны в Национальном корпусе русского языка (НКРЯ). Он составлен учёными вручную и содержит около 300 миллионов слов. С точки зрения исследователя языка это  мало, а для больших объёмов материала ручной сбор материала уже не годится.

Сами по себе алгоритмы языковой разметки текстов уже существуют. Задача учёных, работающих над проектом, – создать алгоритмы, связывающие метаязыковые параметры – данные о поле, возрасте, месте обитания автора, дате написания текста и его жанре – с языковыми признаками. Для этого существуют методы машинного обучения. «Есть система жанров: судебные очерки, техническая литература, любовная переписка и так далее. Все они отличаются друг от друга по очень большому количеству признаков. Чтобы научить компьютер их различать, строится обучающий корпус, включающий в себя очень много текстов разных жанров с языковой разметкой. В результате вы получаете алгоритм, который умеет связывать те параметры оценки, которые вас интересуют, с параметрами языковой разметки. Например, какие слова, какие конструкции, какие значения встречаются в текстах той или иной жанровой, социальной, гендерной, географической принадлежности, – поясняет Владимир Селегей. – В нашем проекте работают математики и лингвисты. Задача лингвистов – разобраться с тем, какие вообще параметры классификации возможны. Задача математиков – на основе релевантных параметров обучить систему, чтобы она могла работать на большом корпусе текстов».

Соединение двух видов разметок даёт лингвистам – а также социологам, психологам и другим гуманитариям – большие возможности. Исследователи смогут проследить за динамикой языковых явлений в интернете, их распространением в разных возрастных, половых, региональных группах. «Легко выяснить, сколько блогеров употребили за свою историю конкретное слово (словосочетание и т. п.). Для новых выражений при погодовых срезах отчётливо виден, например, переход от конкретных (чуваков) к реальным (пацанам), от тусоваться к тусить. Но в отсутствие разметки приходится “изворачиваться”», – пишут принимающие участие в проекте лингвисты в «Пролегоменах к проекту Генерального интернет-корпуса русского языка (ГИКРЯ)». С точки зрения практического применения разрабатываемые технологии пригодятся для улучшения алгоритмов автоматического перевода, поисковых алгоритмов или, например, для поиска в интернете текстов определённого содержания.

Основным результатом этой работы станет создание Генерального интернет-корпуса русского языка (ГИКРЯ) – массива текстов, взятых из интернета и содержащих как языковую разметку, так и метаязыковые данные. ГИКРЯ по объёму предполагается в сто раз больше вышеупомянутого НКРЯ. Кроме того, с помощью разрабатываемых учёными технологий можно будет создавать корпуса для решения специальных задач, например, чтобы сделать выборку текстов по определенному региону.

Наиболее же общая цель работы – способствовать развитию компьютерной лингвистики в России и на материале русского языка, который в последнее время стремительно теряет популярность у лингвистов. Первую модель ГИКРЯ исследователи планируют подготовить к 2014 году.

Источник: www.strf.ru

abbyy интернет-корпус лингвистика мфти рггу русский язык

Назад

Социальные сети

Комментарии

Авторизуйтесь, чтобы оставить комментарий