Многие аспекты нашей жизни давно перешли в цифровой формат. Пандемия лишь усилила этот процесс. С весны этого года, например, изменились подходы к организации работы — многие компании перешли к удаленной или «гибридной» схеме, когда часть сотрудников остаются дома, а часть посещает офисы. Мы всё чаще используем онлайн-платежи и бесконтактные формы услуг, общаемся в социальных сетях или по видеосвязи. Еще никогда информационное пространство не было настолько востребованным. Но насколько оно безопасно? Об информационной гигиене, безопасности в интернете и уникальной технологии анализа социальных сетей для выявления террористических и экстремистских атак — наша беседа с Михаилом Игоревичем Петровским.
Михаил Игоревич Петровский — доцент кафедры интеллектуальных информационных технологий факультета вычислительной математики и кибернетики Московского государственного университета им. М.В. Ломоносова.
— Над чем работают сотрудники кафедры интеллектуальных информационных технологий факультета вычислительной математики и кибернетики МГУ?
— Сложно сказать сразу обо всех направлениях. В целом, сотрудники кафедры занимаются исследованиями и разработкой методов, связанных с машинным обучением и искусственным интеллектом в рамках прикладного аспекта. Например, на кафедре есть лаборатория, которая занимается компьютерным зрением. Мы применяем эти методы при решении задач информационной и компьютерной безопасности. Реализуются различные проекты, посвященные разработке методов моделирования и управления процессами нефтепереработки. В общем довольно много интересных приложений.
— Прежде чем мы перейдем к вашей последней разработке, хотелось бы поговорить о том, насколько безопасно наше информационное пространство?
— В качестве ответа могу сказать, что лично у меня, например, нет аккаунтов в социальных сетях. Из соображений собственной безопасности. Хотя ясно, что ответы могут быть разными, когда речь идет об информационной безопасности.
Во-первых, это определяется тем, какой именно сетью вы пользуетесь. Существуют как более защищенные, так и менее защищенные сети. Во-вторых, уровень безопасности определяется вашим собственным подходом к этому вопросу. Есть множество разных возможностей узнать именно ваш пароль, в том числе с помощью социальной инженерии. Узнав ваш пароль на конкретном сервисе, можно подобрать пароль и для доступа к странице в социальной сети.
Важно понимать, что даже если ваш аккаунт никто не взломает, и никто не воспользуется вашими личными данными, информации, которую вы публикуете в открытом доступе в сети, достаточно для получения важных персональных данных.
Коллеги, с которыми я общаюсь, утверждают, что на основе публикуемой информации можно узнать доход человека с точностью до 10 000 в месяц. Выяснить, где он живет, где работает, куда ходит по выходным и так далее.
Помимо этого, существуют различные варианты на грани легальности. Когда мы пользуется браузерами, ходим по разным сайтам, не чистим cookies, то можем попасть на крючок недобросовестных сайтов, которые собирают информацию о пользователях и затем агрегируют её. А методы машинного обучения позволяют идентифицировать человека. По фамилии-имени-отчеству мошенники могут узнать последние сто запросов пользователя в Интернете. Поэтому, в общем-то Интернет — это очень небезопасное место.
— Эксперты ежегодно публикуют аналитику, согласно которой, некоторые пользователи используют одни и те же пароли для разных сайтов и сервисов.
— В худшем случае люди действительно используют одинаковые пароли. Но, как правило, встречаются вариации паролей. Некий шаблон, который меняется от сайта к сайту. Считается, что большинство взломов осуществляется перебором паролей. Зная пароль на одном сайте, гораздо легче узнать пароль на другом.
По сути, это обратная сторона проблемы информационной безопасности. Те, кто ее обеспечивают, работают по определенному регламенту, согласно которому пароли должны быть определенной длины, с определенным уровнем сложности и т.д. Пользователь, как правило, либо забывает пароли, либо записывает их вручную. И на самом деле такие процедуры, с одной стороны, снимают ответственность со служб, которые занимаются безопасностью, но, с другой стороны, безопасность не увеличивают.
Поэтому на нашем факультете разрабатываются интеллектуальные методы компьютерной безопасности, которые связаны, в том числе с моделированием поведения пользователя. Некоторые разработки позволяют, например, по компьютерному почерку распознавать человека и осуществлять авторизацию. По сути, система распознаёт, кто именно работает за компьютером.
— Вы упомянули, что недобросовестные сайты также используют машинное обучение. То есть речь идет о борьбе добра и зла в интернете?
— Да, верно. Инструменты и квалификация идентичны. Зачастую, даже люди одни и те же с двух сторон.
— За счет чего достигается безопасность пользователя в социальных сетях? С помощью каких методов можно оградить обычных пользователей от опасной информации и манипуляций со стороны преступников?
— Полностью оградить пользователей социальных сетей нельзя. Но здесь все-таки человек должен сам соблюдать информационную гигиену: не предоставлять информацию малознакомым людям, не вступать в подозрительные группы. Родителям необходимо внимательнее относиться к детям, особенно, когда речь идет о социальных сетях. Следить, чтобы они не попадали в сомнительные сообщества. Некоторые из моих коллег по сфере информационной безопасности пытаются бороться с течениями, вроде нашумевшей организации «Синий Кит» и подобными, связанными с вовлечением детей в определенные группы.
Ясно, что интернет привнес гораздо больше инструментов для доступа к человеку и к воздействию на него.
— Поговорим подробнее о разработанной технологии анализа социальных сетей для выявления террористических и экстремистских атак. В чем ее принципиальное отличие от других систем?
— «Ранних версий» по существу нет. Речь идет о разных направлениях, которые развиваются параллельно. Подобные инструменты есть у крупных IT-компаний и специализированных учреждений, отвечающих за безопасность. Большинство таких разработок — не публичные. Используемые алгоритмы и принципы их работы не раскрываются.
В чем заключается традиционный подход? Например, есть необходимость мониторинга некоей тематики в Интернете. В первую очередь формируется тезаурус, то есть словарь терминов, связанный с этой тематикой. Далее система информационного поиска ищет упоминания, но не фактические, а скорее конструкции из этого словаря в Интернете. Система агрегирует данные для дальнейшей глубокой обработки собранной информации.
Здесь есть несколько минусов. Первый минус связан с самими алгоритмами поиска и подходом на основе тезауруса. Формирование тезаурусов на определенные темы — это большой труд квалифицированных лингвистов. Зачастую приходится создавать словари с учетом национальных языков, внутри которых могут быть диалекты. Поэтому важно, чтобы алгоритм мог такие диалекты распознавать.
К тому же, преступные элементы тоже люди, так сказать, неглупые и подготовленные. Они понимают, что их будут искать по ключевым словам. Поэтому эти ключевые слова маскируются намеренными ошибками. Добавляются числа, меняются буквы «О» на ноль, используются пробелы и т.д. Ключевые слова шифруются. Мы даже сталкивались с тем, что тексты публикуются в виде картинок.
Традиционный подход, основанный на словарях и лингвистическом поиске, достаточно точный, но при хороших обстоятельствах. Как только мы начинаем анализировать информацию, которую генерируют, скажем так, обычные люди, которые в общем-то, и на выдумку хитры, такие подходы начинают работать гораздо хуже.
Суть нашей технологии заключается в том, что мы не используем лингвистику при анализе текстов. Алгоритмы, с которыми мы работаем, не зависят от языка. Они позволяют осуществлять поиск по образцу. Чтобы найти в интернете ресурсы, на которых обсуждаются определённые темы, не нужно создавать словарь ключевых слов. Достаточно найти примеры обсуждения этой тематики, а алгоритм, независимо от языка, найдёт в этих примерах ключевые слова. На основе ключевых слов сформирует запрос, а система поиска найдёт ресурсы и авторов по этим ключевым словам.
Далее применяются алгоритмы, которые позволяют оценить семантическую близость образца и найденных документов. Технология не требует, во-первых, формирования тезаурусов и привлечения лингвистов, работа которых, на самом деле, трудоёмкая и недешёвая.
К тому же, традиционный подход предполагает, что, когда найден какой-то источник, информация из него выкачивается. Фактически, создаётся зеркало. А это тоже требует, в том числе вычислительных мощностей, и времени.
Грубо говоря, те, кто ловят, они всегда на шаг позади тех, кого они ловят. Наш подход позволяет этот шаг сократить.
— Вы упомянули, что машинное обучение работает с готовыми образцами. Неужели преступные тексты одинаковы?
— Конечно, тексты не одинаковые. Речь идет о семантическом анализе текстов, проще говоря, о поиске смыслов. Причем, этот смысл зачастую необязательно представлен в виде конкретных слов. Существует сеть, которая основана на том, что она получает на вход информацию, сжимает её, а затем разворачивает с некоторой минимизацией ошибки. И вот эта сжатая информация описывает то, что есть в исходном блоке информации, например, в тексте. По сути, это набор чисел, который человеку непонятен. Но именно этот набор чисел описывает смысл всего текста. Соответственно, похожий текст свернётся в похожий набор чисел.
— Удивительно слышать, что нейросеть может анализировать и искать смыслы. Многие лингвисты убеждали нас, что нейросети распознают лишь речевые команды.
— Мой однокурсник работает в Google, и утверждает, что в компании лингвистов практически не осталось.
— Они больше не востребованы?
— Да. Современные нейросети работают лучше человека.
Как мне кажется, эпохальный момент наступил, когда нейросети научились распознавать графические образы лучше человека. Конечно, это не значит, что человечеству угрожает опасность. Это не история про Skynet.
Когда говорят об искусственном интеллекте, часто делают акцент на слово «интеллект», а нужно делать акцент на слово «искусственный».
С точки зрения математики методы машинного обучения застряли. То есть уже больше 20 лет ничего принципиально нового нет. Все используемые методы и модели основаны на алгоритмах 90-х годов.
— Давно ли вы развиваете направление, посвященное мониторингу социальных сетей?
— Социальными сетями мы занимаемся не так давно. Вообще наша работа изначально была посвящена противодействию внутреннему вторжению. Представьте любую крупную компанию, у которой зачастую есть чувствительная информация. В этой компании могут работать люди, известные как инсайдеры. У них есть легальный доступ к информации, которую они могут украсть, испортить, скомпрометировать.
Ясно, что полноценную политику безопасности разработать невозможно. Крупные компании прямо сейчас разрабатывают системы на основе искусственного интеллекта, которые прописывают для сотрудников оптимальные правила информационной безопасности. Почему? Потому что люди не могут этого сделать. Они формируют либо слишком жесткие права и ограничения, и тогда сотруднику сложно работать (он на любую попытку получает отказ и идет её согласовывать наверх, что очень неэффективно), либо опускают порог доступа для пользователей, и тогда сотрудник получает доступ к тому, к чему доступа быть не должно.
Второй пример, на самом деле, поголовный. Для решения этой проблемы мы разрабатывали системы мониторинга, которые строили модели поведения, или User and entity behavior analytics. Алгоритм строит модели поведения пользователей, и когда это поведение меняется или отклоняется от предыдущих стандартных сценариев, система информирует об этом ответственные по безопасности лица, которые потом принимают решение: менять политику относительно этого пользователя или хватать его за руку.
При этом мы анализировали не только события, но и контент, с которым тот или иной сотрудник работает. Все документы, которые он читает или пишет. Для этого мы использовали языконезависимые методы для выявления ключевых слов, скрытых тематик, строили модель, которая показывала то, как отклонились интересы человека в тех документах, с которыми он работает.
— Этот же метод использовался для мониторинга социальных сетей?
— Верно. Мы выиграли соответствующий грант, в рамках которого использовали не только языконезависимый поисковый метод, но и целый комплекс алгоритмов, в том числе алгоритмы, которые позволяют в найденном интернет-сообществе выявлять ключевых участников, генерирующих контент. Разделять их по уровню опасности. Прогнозировать возникновение новых связей и т.д.
— Стоит ли ожидать, что ваши разработки выйдут на рынок?
— Здесь есть свои сложности. В области информационной безопасности рынок контролируется государственными организациями и небольшим числом коммерческих организаций, теснейшим образом связанных с государственными. Поэтому коммерческая составляющая в области информационной безопасности маловероятна.
— Вернемся к алгоритмам и математике. Вы сказали, что принципиально нового в развитии машинного обучения нет. Стоит ли ожидать появления новых методик и алгоритмов?
— Этот вопрос, скорее, философский. Могу лишь сказать, что вычислительная техника диктует условия математикам. Попробую объяснить на примере. Существуют системы массового параллелизма и системы с общей памятью. Системы с общей памятью представляют собой мощный компьютер, у которого большая оперативная память и большое количество процессоров. Система массового параллелизма — это кластер из множества компьютеров, соединенных быстрой сетью. С точки зрения инженерии системы с общей памятью — это всегда дорого. При этом, создавать кластеры можно из очень дешёвого железа. К тому же системы с общей памятью ограничены в плане масштабирования. Если система рассчитана на 256 процессоров, 1 024 туда никак не вставить. Необходимо делать новое железо, новую архитектуру. Если же у вас кластер с 1 000 компьютерами, сделать 100 000 не составляет труда. (Если есть деньги на электричество и возможности для охлаждения).
Казалось бы, зачем тогда нужны первые, если вторые дешёвые и бесконечные? Ответ упирается в математику. Большинство методов прикладной статистики и машинного обучения плохо распараллеливаются по данным. Для того, чтобы строить модель, нужно просматривать всю выборку. Поэтому они хорошо работают в системах с общей памятью, и не работают в системах массового параллелизма. И для того, чтобы эти методы, а точнее, их модификации работали в системах массового параллелизма, создаются варианты. Собственно, в основном этим сейчас занимаются специалисты по машинному обучению: пытаются перенести методы 90-х годов на системы массового параллелизма. Выходит так, что вычислительная техника указывает математикам перспективные направления.
— Будете ли вы дальше работать над технологией? Или наметили для себя другие направления?
— Если говорить об университете, то вспоминается поговорка «волка ноги кормят». Все специалисты, которые пытаются заниматься исследованиями, работают в определённых направлениях. К сожалению, практически всегда эти направления связаны с запросом потенциального потребителя, а не с желанием самого исследователя. Очень повезёт, если те методы и те направления, которые интересны исследователю, будут востребованы.
Конечно, от личного интереса многое зависит. При этом, если не будет заинтересованности и поддержки, то и результата не будет. Потому что иногда выдаются гранты в стиле «мы вам даем деньги, вы что-нибудь сделайте, потом за что-нибудь отчитаетесь». У таких проектов результат, как правило, хуже, чем, когда есть конкретная задача.
Разделение на фундаментальную и прикладную математику сдвинуто в сторону прикладной математики. Специализация нашего факультета также связана с прикладной математикой. Поэтому здесь нужно ориентироваться не столько и не только на то, что интересно, но и на то, что нужно людям.
— Какое будущее у разработанной технологии анализа социальных сетей для выявления террористических и экстремистских атак?
— Главное то, что интерес к ней есть. Конечно, пандемия сместила акцент в сторону обеспечения здоровья населения. Но, я думаю, что перспективы у технологии есть. Опять же, всё будет зависеть, в том числе от запросов потенциальных потребителей.
Интервью проведено при поддержке Министерства науки и высшего образования и Российской академии наук.