Интеллигентная лингвистика

02.06.2017 17:42

5329

Есть такие области, в которых наука и технический прогресс идут совсем не в ногу. Чего нельзя сказать о компьютерной лингвистике – здесь передовые разработки очень быстро переходят в технические решения, а технические решения – в конечный продукт. Каждый новый шаг компьютерной лингвистики порождает целую россыпь новых продуктов на рынке, что не мешает этой науке двигаться к большой амбициозной цели – созданию искусственного интеллекта.

В эти дни в Москве проходит международная конференция по компьютерной лингвистике «Диалог», генеральный организатор которой - компания ABBYY. Поразительно, насколько далеко продвинулась эта наука и как много у нее применений, в том числе для людей, которые наукой не занимаются.

Для начала – о чем это. Компьютерная лингвистика – наука, которая описывает естественные (используемые людьми для общения) языки с помощью математических моделей. И это одна из важнейших составляющих в разработке систем искусственного интеллекта, потому что только таким путем можно установить взаимопонимание между машиной, построенной с помощью логики и математики, и живым человеком.

Применений компьютерной лингвистики великое множество. Например, это автоматический перевод текста. Нам всем знаком сервис Google Translator. Только появившись, он был очень смешным, служил объектом множества шуток в интернете. Поначалу он мог использоваться только для понимания общего смысла текста. В октябре прошлого года компания Google начала использовать для своего переводчика нейронную сеть с возможностью глубокого машинного обучения. Переводчик стал «умнее», для ознакомления с текстом его перевода уже достаточно.

Другое направление использования компьютерной лингвистики – системы извлечения информации из текста, машинное автореферирование текстов. Автореферат может быть использован как человеком – по своему прямому назначению, так и другими компьютерами. Сегодня в мире каждый день выходит три с половиной тысячи новых книг. Как человеку противостоять такому потоку информации? Вот оно, решение.

Еще одним модным направлением является e-learning. Компьютерная лингвистика позволяет сделать e-learning интерактивным и более разумным и, таким образом, более эффективным и глубоким. Причем дело уже не ограничивается обучающими программами. В том же октябре 2016 года в одном из лицеев Казани появился робот-учитель «EVA». По крайней мере, он не устает от того, что нужно раз за разом повторять одно и то же.

Наиболее впечатляющим является прогресс, который компьютерная лингвистика смогла дать базам данных, существующим уже много лет. На смену им приходят развитые экспертные и вопросно-ответные системы. Известный пример такой системы –суперкомпьютер Watson компании IBM. Его отличие в том, что он не просто является огромной базой данных, но способен к анализу информации. Когда ему задают вопрос, он анализирует сказанное и выдает решение исходя из своих знаний. Помимо других своих достижений, IBM Watson недавно поступил на службу в американские клиники в качестве специалиста по диагностике и назначению лечения (кстати, его успехи на этом поприще весьма велики).

С компьютерной лингвистикой мы сталкиваемся ежедневно. В большинстве мобильных телефонов, которыми мы пользуемся, так или иначе встроена функция голосовой поддержки. Это – плод компьютерной лингвистики, анализирующий слова. Одним из примеров является многим знакомая Siri компании Apple, живущая в каждом айфоне. Уровень оставляет желать лучшего, но массовость позволяет верить в то, что в этом направлении будут течь большие деньги, и технология будет развиваться.

«Диалог» - крупнейшая в России конференция по компьютерной лингвистике. Охватывает широкий спектр задач от теоретических лингвистических исследований до разработки компьютерных моделей и практической реализации решений в продукте. Цель этой конференции – объединить лингвистов, инженеров и представителей бизнеса с целью решения задач автоматической обработки естественного языка. Отметим, что «Диалог», будучи международной конференцией, охватывающей множество тем, все же делает акцент на компьютерном анализе именно русского языка.

На конференции обсуждались новшества, проблемы и перспективы, которые есть сегодня в мировой и в российской компьютерной лингвистике. Вот несколько примеров.

Допустим, что мы хотим создать робота с искусственным интеллектом, с которым можно общаться абсолютно так же, как с человеком. Для простоты сперва пусть это будет только письменное общение. По пути к этой цели нужно решить целый ряд задач. Во-первых, при анализе текста нужно поставить ему в соответствие некую смысловую карту – выполнить семантический анализ. Для проведения такого анализа разрабатываются разные системы, например, SemEtap, которая была представлена слушателям профессором Богуславским из Института проблем передачи информации им. А.А. Харкевича.

Еще одна проблема, касающаяся компьютерного анализа текстов, это допустимость кореференции – отождествления нескольких разных именований одного и того же объекта в тексте (синонимы, местоимения). Об этом на конференции рассказывал специалист из МГУ Максим Ионов.

О проблемах дискурсивного анализа рассказывал Борис Галицкий, который сейчас работает в компании Oracle. Дискурсивный анализ – привязка выданной информации к тем социальным обстоятельствам, в которых она была выдана, с целью ее лучшего понимания.

Алан Тюринг в 1950 году сформулировал критерий подобия машины человеку: человек, общающийся с машиной, не должен догадаться, что это машина. В мире уже создано несколько программ, в некотором смысле прошедших тест Тюринга: например, в 2014 году на испытаниях в Университете Рединга в Великобритании программа под названием «Евгений Густман» убедила 33% всей коллегии судей в том, что является 13-летним мальчиком из Одессы. Правда, мальчик этот совершенно бесполезен, в отличие от упоминаемого выше знаменитого IBM Watson, который, хоть и теста Тюринга не проходил, зато "утер нос" врачам диагностам, работающим в американских клиниках. Беда в том, что все созданные сегодня машины далеки от понятия искусственного интеллекта – они умеют делать либо одно, либо другое. Каждая из них заточена под решение определенных задач. Создание же каких-либо общих алгоритмов пока является затруднительным. Ровно как и обретение машиной способности мыслить и сознавать себя, что считается основным отличием человека от его искусственного аналога.