Ученые Курчатовского института развивают методы анализа социальных сетей с помощью нейросетей и методов машинного обучения.

Как можно спрогнозировать динамику пандемии COVID-19 на основе сообщений в социальных сетях? Чем нейросети отличаются от классических методов машинного обучения? К чему стремится прогресс в области нейросетей? Об этом рассказывает доктор физико-математических наук, ведущий научный сотрудник лаборатории технологий искусственного интеллекта Курчатовского комплекса НБИКС‑природоподобных технологий Александр Георгиевич Сбоев.

Доктор физико-математических наук А.Г. Сбоев

Доктор физико-математических наук А.Г. Сбоев

 

— Что такое нейросети? По какому принципу они работают и чем отличаются от остальных методов машинного обучения?

— Нейронные сети — математическая модель, основанная на наших знаниях о процессах обмена информацией в мозге человека. Элементы нейросети нелинейно обрабатывают входящую информацию, создают взаимосвязь между ее элементами и дают результат, основанный на определенных содержательных признаках.

Важно понимать, что нейронная сеть — это одна из разновидностей машинного обучения, которая отличается только степенью «биологичности» модели, то есть ее приближенности к образцу — человеческому мозгу.

Задачи, которые выполняют нейронные сети, — это задачи машинного обучения. Непринципиально, будут ли они решены с помощью нейросетей или классическими алгоритмами, — в конечном счете важен результат.

Сегодня терминология достаточно разнородная и к нейронным сетям иногда относят системы машинного обучения, которые назвать нейросетевыми можно достаточно условно.

Для того чтобы эффективно использовать нейросетевые алгоритмы, нужно предварительно обучить сеть на определенной выборке. Она составляется из данных, на примере которых мы объясняем машине, какой именно результат хотим получить при анализе той или иной информации, — так называемая задача с учителем. Эта выборка становится основой для работы нейронной сети, как и других методов машинного обучения.

Во время обучения нейронной сети используется метод обратного распространения ошибки: на основе результата анализа на выходе сети мы последовательно пересчитываем нейросетевые параметры в направлении от выхода к входу сети так, чтобы минимизировать погрешность по всей сети.

— Для решения каких задач сегодня используют нейросетевые методы анализа информации?

— Во-первых, это задачи классификации. Например, нам нужно «разложить книги по ящикам»: в одни разделы убрать книги по живописи, в другие — по физике и т.д. Такие задачи решаются в том случае, если заданы четкие характеристики классов, на которые машина может ориентироваться.

Во-вторых, задачи категоризации, или кластеризации. Это ситуация, когда не человек создает «ящички», в которые нужно поместить определенную информацию, а сама система раскладывает элементы по группам, ориентируясь на сходные признаки.

В-третьих, задачи прогнозирования — необходимость предсказать на основе текущих данных, каким окажется результат в будущем. В частности, это прогнозирование ценообразования или различных инструментов фондовых рынков.

Это три основные категории задач, которые решаются с помощью нейросетей и методов машинного обучения. Но надо понимать, что это относительно формальный список и в каждой из этих задач есть множество подклассов в зависимости от конкретной ситуации; соответственно меняются и подходы к их решению. Например, задачи прогнозирования аварий или катаклизмов: это довольно редкие случаи, и надо учить машину строить прогнозы на основании ограниченной информации в условиях недостаточной выборки.

Нейросети стали очень востребованы, появляется все больше способов их обучения, развитие этих методов считается важным элементом развития современных технологий.

— Как выглядит итоговое воплощение нейросети для решения конкретной задачи? Это программа, рыночный продукт?

— Итоговый результат создания нейросети — это программа, состоящая из двух связанных блоков. Первый обрабатывает входную информацию и настраивает параметры нейронной сети по исходным данным, а второй на их основе получает результат.

В целом это программное решение, которое используется в рамках того или иного продукта. При этом необходимо определенным образом оформить эти блоки, чтобы пользователю было удобно использовать методы машинного обучения, в частности нейросетевые.

Наша работа — именно изготовление качественных, эффективных блоков для решения прикладных задач, а оформление конечного продукта — работа специалистов, занимающихся вопросами интерфейса и пользовательскими качествами.

В полученных программных решениях заинтересованы и коммерческие структуры, и государственные организации для анализа огромного объема открытых данных.

— Большая часть ваших работ посвящена анализу информации в социальных сетях с помощью нейросетей. Почему вы выбрали для исследований именно эту область интернет-контента?

— Сегодня в социальных сетях циркулируют колоссальные масштабы информации, и они продолжают расти. Многие люди фактически живут в социальном медиапространстве, там отражается вся их жизнь.

И это бездна полезных и оперативных данных, например для анализа социально значимых процессов. Еще 10–12 лет назад этим занимались вручную. Компании держали огромные штаты аналитиков, которые строили запросы и просматривали информацию. Это трудоемкая и ресурсозатратная работа.

Автоматизированный анализ нужен, например, государственным структурам самого разного уровня, чтобы понимать отношение к тем или иным проектам. Реакция пользователей социальных сетей может многое рассказать о перспективности принимаемых решений, но для эффективной оценки ситуации необходимо из больших объемов сырой информации выделить ключевые позиции, выраженные тенденции.

— Социальные сети используют разный контент: одни больше опираются на текст, другие на фото-, видео- или аудиоконтент. Можно выделить социальные сети, которые больше подходят для его анализа с помощью искусственных нейронных сетей или методов машинного обучения?

— Мы в большей степени занимаемся текстовыми социальными сетями, хотя определенная работа со звуковыми форматами у нас тоже проводилась — этот метод вполне поддается аналитике. А к видеоконтенту мы еще серьезно не приступали. Вообще, до 90% исследований информации в соцсетях сводятся к изучению текстов, изображения в основном идут как иллюстрация к написанному.

Насколько эффективен анализ того или иного формата контента, зависит от поставленной задачи. Например, при анализе вредоносного контента можно рассматривать вместе и видео-, и аудио-, и текстовую информацию. Данные могут различаться между собой разной «зашумленностью»: например, одни люди пишут грамотно и стилистически правильно, а другие используют сленговый язык. У текстов разная длина информации, и они могут быть плохо сформулированы, что вызывает дополнительные сложности.

Методы, которые используются при анализе контента социальных сетей, зависят от этих нюансов и требуют различных способов обучения с опорой на разные наборы признаков. Соответственно, и точность результатов не будет одинаковой.

— С какими социальными сетями вы работали и почему выбрали именно их?

— Мы работаем с теми социальными сетями, информация в которых нам доступна. Для обучения нейросетей требуется большой объем данных — это отзывы, комментарии, посты. Но интернет-источники не очень расположены к тому, чтобы выдавать информацию: есть ограничения, связанные, например, с персональными данными или спамом.

С точки зрения обычного пользователя, получение информации — не проблема. В поисковой системе вводится запрос, и сайт выдает результат. Но это касается разового или ограниченного количества запросов: когда машина автоматизировано отправляет много запросов, включаются защитные механизмы и после определенного количества обращений доступ закрывает-

ся — нас отправляют в бан. Получение доступа к данным для их автоматизированного анализа — это поисково-организационная работа.

Один из источников информации, который мы используем, — это «Отзовик». Для решения отдельных задач мы брали данные с ресурсов Mail.ru и Twitter, информация с которых частично доступна.

Когда мы набираем объем данных, необходимый для обучения нейросети, создается методика, которую в перспективе можно пытаться распространить и на другие источники информации.

Доска в кабинете А.Г. Сбоева в момент рабочего обсуждения нейросетевой модели по прогнозам заболевания. Кодирование данных и выбор метода.

Доска в кабинете А.Г. Сбоева в момент рабочего обсуждения нейросетевой модели по прогнозам заболевания. Кодирование данных и выбор метода.

 

Twitter — не самая популярная в России социальная сеть, особенно после того, как доступ к ней ограничили. Можно ли использовать разработанные для нее алгоритмы анализа информации для других социальных сетей, например «ВКонтакте»?

— Понятно, что сейчас спектр источников информации меняется, но методики, которые были созданы на основе одних сайтов, будут работать и на других. Нужно смотреть, насколько в разных социальных сетях меняется отражение информации о той или иной проблеме, которую мы анализируем, и в случае необходимости перенастраивать алгоритмы. Но методы будут примерно одинаковые. Для нас ведь не так важно, какие именно тенденции необходимо выделять при анализе контента в социальных сетях. В упрощенном виде: есть люди, которые производят колбасу, а есть те, кто делает авоськи, чтобы ее носить. Мы делаем именно авоськи: нам неважно, будут в них носить докторскую колбасу или сырокопченую. То же самое с методами анализа — неважно, что именно улавливать из потока информации в соцсетях и какие именно это будут сайты.

В целом подходы остаются общими, их нужно только перенастраивать. Поэтому с помощью разработанных алгоритмов можно анализировать и контент «ВКонтакте». Вопрос лишь в возможности автоматизированного сбора информации, с которой мы будем работать.

Сравнение реального и спрогнозированного модифицированной моделью SEIR количества заболевших

Сравнение реального и спрогнозированного модифицированной моделью SEIR количества заболевших

 

— Одна из ваших последних разработок посвящена актуальной теме — пандемии COVID-19. С помощью нейросетевого анализа социальных сетей стало возможным прогнозировать вспышки заболеваемости коронавирусной инфекцией. Как была построена эта работа и какие результаты принесла?

— Да, мы занимались задачей прогнозирования динамики пандемии на основе информации, которая отражается в социальных сетях, в частности в Twitter.

Сначала был собран корпус нейросети — набор данных, на которых сеть проходит обучение. Выборка составила 10 тыс. твитов с определенными словами — например, «пандемия», «коронавирус», «инфекция» или «ПЦР-тест». Эксперт на основании своего опыта разделил эти сообщения по степени уверенности авторов в заболевании.

То есть по одному тексту можно точно сказать, что человек переболел; в другом случае ключевые слова использовались, но из сообщения не получалось точно определить, болел ли автор, в третьем — с большой долей уверенности можно сказать, что человек болеет сейчас.

На основе этих 10 тыс. сообщений строилась и обучалась нейросеть, которая дальше могла самостоятельно анализировать тексты твитов, выделять сообщения по степени уверенности автора в заболевании и разделять их по категориям. Полученные нейросетью данные мы использовали для того, чтобы построить математическую модель развития пандемии. Результаты нашей работы показали, что в социальных сетях отражается информация, достаточная для того, чтобы построить кривую заболеваемости. Мы использовали также модифицированную модель SEIR — в ней рассматриваются отдельные группы подверженных заболеванию и инфицированных людей, выздоровевших и тех, кто может представлять опасность заражения. Прогноз динамики пандемии строится с помощью системы дифференциальных уравнений с коэффициентами, полученными методами машинного обучения, учитывающей группы людей разной стадии заболеваемости.

Наиболее эффективные инструменты, которые развиваем и мы, и наши коллеги за рубежом, построены именно на сочетании инструментов и алгоритмов машинного обучения и детерминированных моделей, в частности модели SEIR. В результате строится композиционная модель и на ее основе выводятся прогнозы развития пандемии.

Наши прогнозы показали точность динамики пандемии в Московском регионе на уровне 80% — это предсказание количества заболевших в течение 14 дней.

— Вы переносили эти алгоритмы нейросетевого анализа на другие социальные сети?

— Нет, такой задачи у нас еще не было. Но при необходимости можно перенастроить нейросеть и перенести наши разработки на другие интернет-пространства.

Прогнозирование пандемии

— Прогнозирование пандемии COVID-19 — не единственное ваше исследование. Раньше выходили публикации, посвященные определению пола и возраста пользователей социальных сетей с помощью методов машинного обучения. Для каких целей могут использоваться эти разработки?

— Мы продолжаем заниматься этой темой — это часть общей задачи авторского профилирования. Мы пытаемся научить машину определять пол и возраст автора текста, находить ложь и признаки искажения информации. Возможно идентифицировать и социальную принадлежность: например, разделить людей с высшим образованием и без него или понять, носитель ли автор текста того языка, на котором пишет. Фактически машина, проанализировав текст, должна максимально много понять об авторе.

Решение этих задач может быть использовано, например, в судебной экспертизе или при определении вредоносной и ложной информации. Если не совпадают указанные и ожидаемые признаки пола или возраста, есть основание более тщательно проверить сообщение — не фейк ли это. Кроме того, разработки могут быть использованы в адресном маркетинге.

Мы рассматривали задачи определения пола и возраста, когда автор не пытался их исказить, а также в ситуациях, когда пользователь намеренно давал ложную информацию. Точно так же в набор данных, на которых обучалась нейросеть, мы вносили заведомые искажения стиля — например, когда достаточно интеллигентный человек использовал просторечные или жаргонные слова. Наверное, сейчас это самый представительный корпус для анализа русскоязычного текста: точность определения пола при анализе неискаженного текста достигает 90%.

— Какие еще исследования в области нейросетей и машинного обучения вы проводите?

— Сейчас мы разрабатываем нейросети, которые могли бы анализировать отзывы пользователей о медикаментах. Нам удалось собрать набор размеченных текстов для обучения нейросети, которая анализирует информацию в социальных сетях.

Эта работа нужна для фармаконадзора: информация из социальных сетей расширяет аудиторию, по которой можно судить о наличии тех или иных побочных эффектов или результативности приема препаратов. Это может дополнять информацию данных клинических испытаний лекарств.

— Требуется ли участие специалистов из других научных областей при обучении нейросетей конкретным задачам?

— Конечно, в той или иной степени ученые из других областей должны присутствовать.

В большинстве случаев мы обучаем машину на примерах текстов, которым специалисты по тематике присвоили те или иные классификации. Мы как технические специалисты не можем сделать это сами, потому что не владеем тематикой. Например, если мы анализируем важную для фармацевтов информацию, данные должны размечать именно фармацевты, знакомые с нюансами.

Для более простых задач такая работа была проведена раньше: эту информацию можно найти в открытых источниках и пользоваться чужой разметкой.

— Вы взаимодействуете с коллегами из других подразделений Курчатовского института?

— Конечно. В большой степени это сотрудничество с робототехниками: мы ведем разработки в области интерфейса «человек — машина». Это междисциплинарная работа, включающая и робототехнику, и машинное

обучение, и анализ текста.

— Машинное обучение и нейросети — насколько это затратные области в плане вычислительных мощностей?

— С появлением супербольших моделей, так называемых языковых моделей трансформерного типа, стали нужны колоссальные вычислительные мощности, крупнейшие компьютерные системы. Передовой край искусственных нейронных моделей — большие, топовые компьютеры, которые позволяют «перемалывать» модели с миллиардными количествами параметров.

— Каковы перспективы в области машинного обучения? Какие разработки ведутся, к чему стремятся ученые в мире?

— Прежде всего, представляет интерес задача выделения смысловой информации из общей массы контента и ее обобщения, то есть

возможность научить машину анализировать информацию так, как это делает человек. Мы же не запоминаем текст как таковой, а понимаем его суть и смысл. Например, читаем, как человек жалуется на пандемию: приходится сидеть дома, плохо себя чувствует, кто-то из родственников серьезно заболел. У нас формируется смысловое понятие — ухудшение ситуации. Машины пока не умеют выделять смыслы, которые зачастую формируются из многих косвенных признаков, но к этому сейчас идет прогресс.

Кроме того, сегодня для того, чтобы проанализировать информацию и решить определенную задачу, мы заставляем компьютер просчитывать огромные объемы данных, нам нужны серьезные энергетические ресурсы. А человеческий мозг способен решать такие задачи очень экономно. Поэтому наша вторая задача — это попытка воспроизвести более близкие к природе механизмы обмена информацией, которые требуют меньше вычислительных мощностей. Неслучайно наш научный комплекс называется Курчатовский комплекс НБИКС-природоподобных технологий. Именно эта идея была заложена М.В. Ковальчуком при его создании — воспроизвести в технологиях природные процессы.

Задача по приближению к природоподобным образцам решается путем использования спайковых нейросетевых моделей — это новое поколение, которое строится из систем нейронов динамического, а не статического характера, то есть в этом отношении они ближе к тому, как происходит обмен информацией в нашем мозге. Спайковые модели интересны тем, что их можно переносить на мемристорные вычислительные устройства, которые требуют меньше энергии. Эта задача напрямую связана с развитием автономных робототехнических систем, ключевой проблемой которых пока остается энергозатратность вычислительных устройств.

Уже давно сформулирована цель создать высокий искусственный интеллект. Научить машину перестраивать свои действия, менять методы решения в процессе работы над какой-то задачей — это верховный интеллект. Добиться этого непросто.

Сегодня ученые только пытаются строить модели, исходя из биологической структуры мозга и методов обмена электрохимическими агентами. Мы в своей работе используем некоторые принципы биологического анализа информации, чтобы при решении задач результат работы машины напоминал то, что получает человек, анализируя информацию.

Сегодня область нейросетей и машинного обучения развивается очень быстро, впереди много новых достижений.