С развитием науки и техники появляется все больше новых направлений и областей. Одно из них – компьютерная лингвистика – направление прикладной лингвистики, ориентированное на использование математических методов (алгоритмов, моделей) и компьютерных инструментов (программ, цифровых баз данных) для создания формальных языковых моделей и автоматической обработки естественного языка. Благодаря развитию этого направления такие системы как "Алиса" научились отвечать на наши запросы и выполнять определенные задачи. Но понимает ли нас "Алиса"? Рассказывает сотрудник НИВЦ МГУ Наталья Лукашевич.

Наталья Валентиновна Лукашевич – ведущий научный сотрудник лаборатории анализа информационных ресурсов НИВЦ МГУ, доктор технических наук, профессор.

— Чем занимается ваша лаборатория в НИВЦ МГУ?

— Специалисты лаборатории занимаются так называемой текстовой аналитикой, то есть разными формами извлечения информации из текстов. В современном мире нас окружает огромное количество текстовой информации. Ее нужно собрать, а затем из всего этого объема извлечь нечто полезное – данные о событиях, о людях и пр. Затем эту информацию нужно подготовить для дальнейшего анализа. Как правило, для этого применяется автоматическая классификация или кластеризация текстов, когда из всего объема текстов специалисты ищут похожие и группируют их. А после этого происходит извлечение конкретных упоминаемых сущностей и отношений между ними. По сути это целый блок задач, объединенный в текстовую аналитику.  Для улучшения качества поиска информации в информационно-аналитических системах наша группа использует специализированные ресурсы: тезаурусы, онтологии, в которых представлены знания о мире, языке, конкретной предметной области.

— Многие люди не всегда понимают, чем занимается обычный лингвист. С компьютерным лингвистом всё еще сложнее. Чем же они занимаются?

— Большинство сотрудников имеют техническое образование. И именно это отражает современную компьютерную лингвистику. Эта сфера становится всё более компьютеризированной и всё больше переходит на язык математики. Причина опять же в увеличении объема информации и большом потоке текстов. Поэтому необходимо быстро их обрабатывать и правильно хранить.

Сейчас мы с коллегами пытаемся совместить статистические и математические методы с построением лексических и терминологических ресурсов. То есть ищем ответ на вопрос – как знание о языке, о словах и терминах улучшит качество обработки текстов?

Компьютерная лингвистика с учетом всех особенностей переходит в область математики и программирования. И сегодня она связана не только с обработкой текста, но и речи. Каждый день мы видим, как таксисты разговаривают с навигаторами, задавая маршрут. Это тоже относится к широкой сфере компьютерной лингвистики.

Другое важное направление связано с переводом, а также с автоматическим порождением текста, который будет похож на тот, что написан человеком. Сюда же входит исправление опечаток. В целом весь информационный поиск в Google или Яндекс также относится к процессу обработки текстов.

"МЫ ИЗБАЛОВАНЫ ХОРОШИМ ПОИСКОМ, И ЗАЧАСТУЮ, КОГДА МЫ НЕ НАХОДИМ НУЖНОЙ ИНФОРМАЦИИ НА ПЕРВОЙ СТРАНИЦЕ, ТО ПЫТАЕМСЯ ПЕРЕФОРМУЛИРОВАТЬ ЗАПРОС"

— А есть другие – неочевидные примеры?

— Возьмем, например, Яндекс.Новости – агрегатор новостей. Здесь как раз применяются интересные технологии, благодаря которым поток новостей кластеризуется, то есть новости объединяются в группу похожих новостей. Ведь никто не хочет читать одну и ту же новость несколько раз. Когда мы заходим на страницы подобных агрегаторов, то можем выбрать интересующую нас категорию, скажем, автомобили и спорт. Это также возможно благодаря автоматической классификации.

Возьмем, например, поиск информации. На странице с результатами мы видим заголовки и некоторый фрагмент текста – сниппет или контекстно-зависимую аннотацию. Система поиска дает нам краткий кусочек исходного текста. И не простой фрагмент, а тот, который отражает, насколько текст соответствует запросу. С запросом мы задали и некий контекст. Это не просто аннотация, а часть текста, в которой передано соответствие запросу.

— Насколько я понимаю, все результаты запросов в поисковике основаны на частотности и на сочетании слов между собой. Перед интервью я пробовала вводить в поисковике слово «число». Google сразу предложил возможные варианты: «число Пи», «число Авогадро», «число нейронов», и прочее. Как это работает с технической точки зрения?

— Действительно, фактор совпадения очень важен. Но дело не ограничивается лишь совпадениями. Ведь при запросе слова «число» кандидатов для выхода на первую страницу поиска – миллионы и сотни миллионов. Значит, система должна как-то выбрать среди этих кандидатов. На самом деле, «под капотом» поисковой системы работает множество факторов. Например, запрос классифицируется по сфере деятельности, а иногда и по намерениям. Если я ввожу в поисковой строке «число Авогадро», то, скорее всего, я хочу узнать − что это такое. Но когда ввожу слово «авиабилеты», то вряд ли я хочу узнать, что это. Я хочу заказать билет, узнать его цену.

Другая особенность поиска связана с так называемой диверсификацией страниц. Это специальная деятельность, которая направлена на то, чтобы каждый результат отличался от предыдущего. Ведь если пользователю выдать первую страницу, содержащую похожие ссылки, пусть и полностью соответствующие его запросу, то ему будет просто неинтересно читать одни и те же документы.

Вы можете заметить это, если напишите в поисковой строке «Научная Россия». Скорее всего, первой ссылкой будет ваш сайт, а второй – статья в Википедии. То есть поисковая система пытается угадать наши желания, предсказать интересы пользователя.

Современный информационный поиск – это совокупность большого количества факторов и признаков. Речь идет не только о  частоте запросов или совпадений. Большое значение имеют характеристики самих сайтов. Они могут иметь хороший или плохой рейтинг, быть старыми или появившимися недавно. И каждый из этих сайтов соревнуется за право появиться на первой странице поиска. Известно, что современные пользователи практически не заходят на вторые и следующие страницы. Мы избалованы хорошим поиском, и зачастую, когда мы не находим нужной информации на первой странице, то пытаемся переформулировать запрос.

— Как системы «Сири» и «Алиса» научились нас понимать?

— Во-первых, ни одна из них нас не понимает. Здесь используются те же самые методы обработки текстов, классификации и машинного перевода. Нельзя сказать, что Google-переводчик понял, что мы написали, а затем перевел. Главная парадигма машинного перевода основана на статистическом переводе. То есть система должна накопить большое количество параллельных текстов – текст на иностранном языке и текст его перевода. После этого запускаются математические алгоритмы, которые ищут соответствия между словами двух текстов. Если данных достаточно много, то система сможет распознать не просто слова, но и целые последовательности слов. Именно поэтому понимания здесь нет. А есть программирование, математика и большое количество данных.

Вернемся к диалоговым системам и чат-ботам. Здесь специалисты применяют некие простые правила по типу: если в запросе обнаружены определенные слова, то следует отвечать таким образом.

Сейчас необходимо накапливать данные, которые характеризуют человеческий разговор. Например, можно использовать интересный набор субтитров к американским фильмам. И здесь система как бы ищет нужную ей реплику, которая не всегда может подойти в качестве ответа. Тогда специалисты пытаются сгенерировать более подходящий ответ.

Поэтому никакого революционного понимания у компьютерных систем нет. И, наверное, это даже хорошо.

— Вы упомянули переводы. Вытеснит ли машина переводчиков?

— Есть ряд научных статей, которые подтверждают, что современный машинный перевод сравним с человеческим. Но, по факту, это результат в рамках одного предложения.

Пока компьютерный переводчик работает с каждым предложением по отдельности. И когда все предложения текста собираются вместе, то возникают явные несоответствия. Например, английское местоимение it можно перевести по-разному. Машина не может пока видеть контекст, и когда мы переводим текст на компьютере, то можем заметить, что многие местоимения стоят неправильно. Со связностью и последовательностью возникают трудности.

Тем не менее, качество переводов значительно выросло за последнее время. Мы можем не знать некоторые обороты и сочетания, профессиональные термины, а переводчик Google уже их использует.

— Какова глобальная цель компьютерной лингвистики? Чего мы хотим добиться?

— Уже сейчас мы видим прогресс в разработке компьютерных систем. Компьютеры становятся всё меньше и качественнее. Сейчас компьютер установлен даже в холодильниках, не говоря о телефонах.

Специалисты каждого из направлений бьются за улучшение качества, за новые технологии, данные, идеи, алгоритмы. Но, как мне кажется, это общее свойство научно-технического прогресса – всегда найдутся люди, которым интересно улучшить что-то, придумать новые технологии для решения конкретных задач. Поэтому глобальная цель состоит в непрерывном улучшении качества.

Другой вопрос – нужен ли нам так называемый полный искусственный интеллект – «full artificial intelligence», к которому сегодня многие стремятся. Это система, которая будет принимать решения не на основе алгоритмов и баз данных, а на основе собственных решений. На мой взгляд, человечество пока не приблизилось к этому. Нужно ли это? Принесет ли это пользу или таит опасность?

Конечно, машинный перевод, классификация близки к некоторым интеллектуальным задачам, которые выполняет человек. Но всё это лишь технические особенности – обработка символов, правил, сравнений, работа с данными и пр. Это не чудо. Это алгоритмы, которые основаны на правилах и больших объемах данных.

— Что собой представляют тезаурусы и для чего они формируются?

— Представьте, что вы ищите в поисковике конкретное издательство. Но на странице поиска в каком-то конкретном тексте говорится не про издательство, а про типографию. Если мы ищем информацию по определенному слову, то конечно, не увидим никакой связи между издательством и типографией. Но между тем, мы понимаем, что издательская деятельность предполагает печать в типографии. Человек знает о связях между словами, о синонимах, о характеристиках и так далее. Но система этих связей знать не может. Поэтому необходимо создавать большую сеть отношений между словами. По факту, тезаурус – это семантическая сеть, в которой близкие слова сгруппированы в единицы – синонимы или близкие по смыслу слова. Между этими единицами установлены дополнительные отношения – род, вид и др.

С помощью тезаурусов мы описываем большие объемы данных лексической информации, а также решаем задачи по обработке текстов в таких сферах как банковская или энергетическая.  Здесь важно использовать не только лексические сети, но и терминологические – то есть терминологию предметной области, которая рассказывает о том, например, какие виды гидроэлектростанций или скважин существуют, какое оборудование – техническое и ремонтное – применяется для их эксплуатации и т.д.

Это необходимо, ведь пользователи ищут не просто текст с полным сопоставлением слова, а некое дополнительное знание. Например, ваш запрос состоит из слова «электростанция», а среди результатов поиска вам предлагают прочитать про гидроэлектростанции, или турбины, которые являются частью электростанций и так далее.

— Зная особенности функционирования компьютерных сетей и искусственного интеллекта, как нам с ними общаться?

— На текущий момент у нас нет адресата. Это просто набор алгоритмов. Хотя сейчас специалисты всерьез увлечены созданием эмоциональных чат-ботов, которые могли бы реально реагировать на состояние человека. Скажем, если вы грустны, то система будет реагировать на вашу грусть, а если вы веселы, то система поддержит ваше настроение. Ведутся работы по созданию человекоподобных андроидов, которые выстраивают разговор в зависимости от того, с кем они общаются – с интровертом или экстравертом.

То есть все исследования так или иначе направлены на то, чтобы система умела адаптироваться к собеседнику. И сейчас конкуренция среди подобных компаний действительно большая. Выиграют те, кто сможет создать интеллектуальную систему, которая действительно понравится людям и будет подстраиваться под наш тип характера, эмоциональные особенности.