На прошлой неделе в РГГУ прошла конференция по цифровым технологиям в лингвистике «Диалог». Большинство докладчиков так или иначе представляли данные, полученные при работе с разнообразными корпусами. Основное преимущество корпусного подхода к анализу языка, как известно, заключается в автоматической обработке материала, однако далеко не все в естественных языках поддается автоматическому анализу. Корреспондент «Научной России» поговорил с несколькими лингвистами о том, что в современных корпусах приходится делать вручную.

 

Корпусная лингвистика — это довольно большой пласт современного языкознания, область науки, которая касается построения и использования корпусов (тем или иным образом организованных сборников текстов). Благодаря электронному представлению и разметке по определенному набору параметров такие сборники применяются для лингвистических исследований, а также для ряда прочих задач, в том числе обучения языкам и разработки связанных с языками программ.

Вообще говоря, в широком смысле слова «корпусом» является любой сборник, в том числе самая обычная бумажная книга, или, допустим, картотека. Но настоящую революцию в лингвистике сделало появление именно электронных баз данных с текстами, часто доступных через сеть Интернет и специально оформленных (размеченных) для поиска лингвистической информации. Революция эта произошла относительно недавно — так, знаменитый Национальный корпус русского языка (http://ruscorpora.ru) активно разрабатывается с нулевых годов, а свой отсчет современная корпусная лингвистика традиционно ведет с 1960-х годов, когда на допотопных еще ЭВМ начали разрабатывать Брауновский корпус английского языка. На данный момент, пожалуй, не осталось ни одной области в лингвистике, где можно было бы обойтись без корпусного анализа с помощью цифровых технологий. Но все ли доступно компьютеру?

На сегодняшний день стандартный и самый распространенный тип лингвистических корпусов — морфологически размеченный. Это означает, в частности, что все входящие в корпус тексты разбиты на так называемые леммы — отдельные слова в нормализованной форме, снабженные грамматическим комментарием. Теоретически, как говорят разработчики корпусов, при наличии качественной морфологической разметки, в первую очередь при снятии омонимии форм и хорошо продуманной системе маркировки граммем, с помощью корпуса можно анализировать данные и на синтаксическом уровне языка. Но практически все оказывается далеко не так просто.

Вот, к примеру, Анастасия Бонч-Осмоловская из НИУ ВШЭ представила результаты диахронического анализа сочетаемости предикатов с падежными формами для определенных конструкций русского языка. Иными словами, она попыталась понять, как фразы вроде «мне приятно» постепенно в истории русского языка превращаются во фразы вроде «для меня приятно». Казалось бы, простой парсер — программа для разметки грамматических показателей слова — может выделить конструкции с дательным и родительным падежом. Немного настройки программного обеспечения — и в руках у лингвиста разложенные по полочкам данные о языковом изменении. Но, как выяснилось, делать разметку фраз, позволяющую получить необходимую для исследования статистику, приходится вручную. Как объясняет Бонч-Осмоловская, далеко не всякое синтаксическое исследование можно провести, если опираться на пословную разметку.

 

— Должно быть некоторое понимание того, как устроена клауза, чтобы анализировать ее должным образом. Студенты-то не могут иногда правильно разметить текст, не то что компьютер, — отметила она.

— Но почему все говорят, что корпус следует начинать с морфологической разметки?

— Нас окружают программисты, которые не так много понимают про устройство языка. Они полагают, что если отметить все характеристики каждого слова, организовать словарь, то никаких дальнейших проблем проанализировать язык не возникнет. Но это не так. Синтаксис — сложнейшая штука, в которой надо разбираться. Одно дело — если вы хотите получить практическое приложение для бизнес-задач, например анализа семантики слов в документе для лингвистической экспертизы. Совсем другое — если вы ставите перед собой задачу продвинуть вперед науку о языке, найти ответ на определенные вопросы и понять, как устроены языковые процессы.

Александр Бердичевский (университет Тромсё, Норвегия) во время конференции «Диалог-21» представил в Институте лингвистики РГГУ корпус TOROT, включающий аннотированные тексты старославянского, древнерусского и старорусского языка. Его разрабатывают совместно группы лингвистов из Тромсё и Осло. С ним мы также поговорили о принципах синтаксической разметки предложений, проводимой в рамках этого проекта.

— Наши сотрудники размечают синтаксис вручную, потом ее вручную же проверяет высококвалифицированный сотрудник, и тогда предложение считается обработанным.

— Неужели нельзя заставить программу сделать все автоматически? Ведь если у вас есть морфологическая разметка, синтаксическая структура должна собираться на основе этого материала.

— В нашем корпусе синтаксис — это деревья зависимостей (когда структура предложения выстраивается в граф соответственно связям между главными и зависимыми словами. — Примеч. ред.). В принципе, можно научить программу определять типы зависимостей. Но для этого нужно ее обучить. То есть вручную разметить огромный корпус, условно в миллион предложений; на этом корпусе «натаскать» синтаксический парсер; и тогда базовую разметку можно будет делать автоматически. Если у вас 120 млн предложений, это имеет смысл. Но если у вас закрытый небольшой корпус на 100–500 тысяч вхождений, то нет смысла усложнять работу, разрабатывая специальную программу-разметчик. Проверять за ней все равно пока придется человеку.