В Российском государственном гуманитарном университете сегодня началась ежегодная конференция по компьютерной лингвистике и машинному обучению — «Диалог 2016». Это 22-я по счету конференция, она проводится вот уже 40 лет. Первый день был посвящен в основном докладам, касающимся семантики слов, предложений и текста, а также корпусным исследованиям на материале русского языка. Но впереди еще три дня лингвистики.

 

Так, группа под руководством Натальи Лукашевич из Московского государственного университета им. Ломоносова рассказала о том, как на основе ранее подготовленного в МГУ корпуса русских текстов им удалось автоматически создать русский вариант так называемой сети слов — WordNet, в которой систематизируются все варианты наименований различных предметов, явлений и действий.

Онлайн-тезаурус, который получается в итоге, становится мощным инструментом в работе всех, кто так или иначе связан со словом: переводчиков, учителей, редакторов и корректоров; кроме того, эта технология позволяет улучшить программы автоматического перевода.

Борис Иомдин из Института русского языка РАН им. В.В. Виноградова вместе с коллегами провел работу, в которой ученые сравнивали многозначные слова в разных языках и подсчитывали, с какой частотой возникает то или иное конкретное значение. У того, кто изучает иностранный язык, всегда есть соблазн считать, что встреченное им иностранное многозначное слово имеет такую же структуру значения, что и аналогичное слово в родном языке, — однако это далеко не так, и нехватка знаний в этой области подчас становится источником очень смешных ошибок. Лингвисты из ИРЯ РАН предложили метод, который позволит автоматически обнаруживать такие трудные места — и тем самым существенно облегчить труд учителям иностранных языков.

Еще одно любопытное исследование было сделано сотрудниками компании Yandex (Antonova et al.). Оно посвящено ранжированию слов с похожими значениями, так чтобы замерить уровень их синонимичности. Метод, который они использовали, позволит улучшить качество автоматически создаваемых «словарей большого масштаба» (с большим количеством слов).

Два состоявшихся в первый день «Диалога» приглашенных доклада — Марка Стидмана (Mark Steedman) и Бонни Веббер (Bonnie Webber) из Эдинбургского университета (Великобритания) — были также посвящены значениям, встречающимся в обрабатываемых компьютерными лингвистами текстах, и способам с ними работать. Госпожа Веббер рассказала о том, как в проектах по разметке дискурса отмечаются типы связей между предложениями, которые связаны между собой единой темой (сочинительная и подчинительная связь). В дальнейшем определение семантики связей в тексте помогает добиться значительно лучшего качества машинного перевода.

В частности, Бонни Веббер показала систему меток (тегов) ключевого проекта в этой области, Penn Discourse Treebank (PDTB 3.0, материал английского языка, в основном представленный текстами из Wall Street Journal), с помощью которых маркируются такие связи, как условие, отрицание, последовательность и т. п.

Масштабирование работы исследователей дискурса в проекте Penn Discourse Treebank на другие международные проекты, обрабатывающие данные других языков — русского, китайского, хинди, арабского и т.п. — заставляет вспомнить, что подобная унификация тегсетов (наборов тегов) в разных лингвистических проектах уже приняла поистине глобальные масштабы.

В частности, совсем недавно, буквально за последние несколько лет, сформулированы принципы разметки основных трибанков (банков деревьев предложений). Эти принципы были предложены международной группой ученых, работающих над проектом Universal Dependencies. Их основной девиз: вся лингвистическая разметка в мире должна соответствовать единым нормам, и тогда работа по созданию систем автоматического перевода и машинного обучения выйдет на принципиально иной уровень. Такой, который приведет человечество к автоматическим переводчикам, чей текст не отличишь от качественного ручного перевода. Недаром специалисты в области медиа ждут «всеязычного браузера», который позволит людям всех языков общаться и порождать общедоступный — в полном смысле — контент.