Ученые УлГТУ (г. Ульяновск) занимаются разработкой методов для интеллектуальной автоматизированной системы сбора информации. Предложенные подходы по извлечению сведений из социальных сетей создают портрет пользователя, а именно, отражают его эмоциональную оценку, предпочтения, черты характера. Такой метод рекомендован для организаций по набору персонала и управлению им
В современном мире автоматизированный анализ текстовых документов имеет широкую практику применения: например, при подборе кадров, для получения объективной информации о внутренней атмосфере в компании, выявления лидеров или социальных связей, а также при разработке новых систем проверки всякого рода текстовых документов.
Такие методы могут предоставить объективные сведения из различных источников текстовых данных, включая всевозможные сообщения в социальных сетях. Выявление информации (в том числе, графической) и тональности сообщения раскрывает смысл, вложенный в текст пользователем социальной сети, а также психологические особенности человека.
Оценка текстовых данных специалистами Ульяновского государственного технического университета основана на использовании методов семантического анализа тематики слабоструктурированных текстовых данных пользователя (посты, комментарии) с применением предметной онтологии. Анализ эмоциональной окраски постов социальной сети осуществлен при помощи алгоритмов «word2vec» и «BERT». Подход матчинга (сопоставления) профилей пользователей в социальных сетях представляет собой приложение, распознающее структурированную информацию.
Вадим Сергеевич Мошкин – кандидат технических наук, доцент кафедры «Информационные системы» Ульяновского государственного технического университета (УлГТУ) – поделился достижениями в области распознавания текстовой информации и рассказал, как интеллектуальные системы анализа данных формируют представление о пользователе соцсетей.
Сегодня популярны разработки методов автоматизированного интеллектуального анализа текстовой информации, в частности, для анализа социальных данных из социальных сетей.
По замечанию Вадима Мошкина, «важным критерием, который в настоящее время все чаще приходится учитывать при отборе персонала – это безопасность организации-работодателя. При проверке работников в ходе отбора приходится иметь в виду материальные, профессиональные и социальные риски. Проверка сведений, представленных кандидатом, и получение дополнительной информации о кандидате позволяют снизить вероятность каждого из этих рисков. Работа с социальными сетями может принести пользу при реализации функции системы управления персоналом компании, так как зачастую из социальных сетей о профессиональных и личностных качествах соискателя на конкретную должность можно узнать больше, чем из его резюме. В настоящее время сбор и/или содержательный анализ собранной в социальных сетях информации проводится вручную специалистами кадровых служб, что требует больших затрат времени и ограничивает объем обрабатываемой информации. Интеллектуальная платформа формирования социального портрета соискателя на основании семантико-когнитивного анализа профилей в социальных сетях позволит HR-специалистам компании оперативно получить объективное представление о личностных, психофизиологических и деловых качествах соискателя на должность».
Работа с социальными сетями и содержательный анализ собранной в социальных сетях информации, которую ульяновские ученые обрабатывают в своей программной системе, осуществляется автоматически через отдельный модуль системы с использованием соответствующих API социальных сетей. Анализируются только открытые данные, к закрытым данным доступа нет.
Эксперименты по построению социального портрета также проводились на открытых данных пользователей социальной сети ВКонтакте. Разработанный ульяновскими исследователями алгоритм может дать объективное представление о личностных, психофизиологических и деловых качествах человека, например, рекрутинговым компаниям.
Специалисты УлГТУ применили свою методику, главная особенность которой, помимо глубокого статистического анализа динамики активности пользователя в разных социальных сетях, по словам Мошкина, «это анализ его сообщений, постов и статусов, т.е. текстовой информации. Анализ семантики (т.е. смысла) текстовых данных, написанных непосредственно пользователем, позволяет определить отношение человека к объектам реального мира, явлениям, событиям, персоналиям, его интересы, а также провести психолингвистический анализ согласно пятифакторному методу оценки личности («метод Большой пятерки»). Как отметил ученый, «эксперименты по построению социального портрета в социальной сети ВКонтакте показали прямую зависимость между качеством семантического анализа данных человека и объемом неструктурированных данных с его страниц в социальных сетях».
При формировании дерева базы постов (БПП) пользователей социальных сетей исследователи УлГТУ рассматривают так называемую онтологическую модель унификации данных профилей, или семантическую сеть, которая, как объясняет Вадим Мошкин, «позволяет оптимизировать пространство поиска данных в базе извлеченных знаний и сконцентрировать данные из различных сетей без их дублирования. Благодаря использованию временного контекста, соблюдается историчность данных, а благодаря использованию контекстной информации в виде аннотации к отношениям онтологии, получается избежать избыточности данных при совпадении информации из профилей одного человека в разных социальных сетях».
Определить тональности сообщений в социальных сетях позволяет использование языковых моделей. Так, нейронные сети различных архитектур определяют эмоциональную окраску текстов.
«Нейронные сети решают задачу классификации и соотносят пост в социальной сети к одной из эмоций: радость, грусть, удивление, злость, отвращение, презрение, страх. Для решения задачи получения обучающей выборки используется расширенный русскоязычный семантический тезаурус WordNetAffect и экспертный словарь авторских символов выражения эмоций (смайлы и эмодзи). Для решения задачи классификации используется нейронная сеть LSTM-архитектуры и BERT-алгоритм векторизации текстов», – комментирует Мошкин.
По оценке Вадима Мошкина, «разработанный подход показал очень высокий результат на русскоязычных текстах – до 87% точности. Именно благодаря этому подходу разработанный инструментарий позволяет автоматически оценивать отношение человека к объектам реального мира, явлениям, событиям и персоналиям по данным его постов в социальных сетях».
Для Opinion Mining социальных медиа научная группа УлГТУ разработала интеллектуальный инструментарий, который уже реализован для социальной сети ВКонтакте и есть возможность индексирования любых электронных СМИ с предварительной настройкой под особенности верстки их веб-страниц. В дальнейшем учеными планируется разработка загрузчиков для социальных сетей Twitter, Facebook, Instagram, Youtube, Одноклассники.
Как уточняет Мошкин, такой инструментарий предполагает «не только мониторинг мнений и общественных настроений в социальных сетях, но и позволяет осуществлять поиск данных по запросам в социальных сетях и СМИ с учетом контекстов (временных, территориального, трендового), а также синонимии и нечеткости в формулировках».
Кроме того, ульяновские ученые рассматривают подход матчинга (сопоставления) профилей пользователей по единоличной идентификации человека в нескольких разных социальных сетях. В чем его отличие?
По словам Вадима Мошкина, «данный комплексный подход позволяет автоматически искать одного человека в разных социальных сетях и использует следующие критерии: критерий наличия схожих фотографий и лиц на фотографиях; критерий наличия схожих контактов; критерий наличия схожего места работы и места учебы; критерий наличия схожих постов; критерий наличия схожих друзей (анализ социального графа)».
Такая программная система, выполняющая функцию поиска схожих профилей в социальных сетях, важна при поиске людей в социальных сетях, зарегистрированных не под своим именем/фамилией.
В этом году Вадим Мошкин стал победителем конкурса «СТАРТ-Цифровые технологии» от «Фонда содействия развитию малых форм предприятий в научно-технической сфере» по направлению «Искусственный интеллект».
Главным преимуществом его работы, как считает сам исследователь, является «возможность получения качественных оценок психофизиологических свойств человека посредством использования интеллектуальных методов для анализа нечетких данных и формулировок».
Суть проекта, как пояснил ученый, заключается в реализации предложенных ранее моделей, методов и алгоритмов (метод объединения (матчинга) профилей, алгоритм унификация данных, статистического анализа динамики активности пользователя, семантико-когнитивного и сентимент-анализа текстов, а также психолингвистического анализа постов пользователей) в виде программного сервиса с дальнейшим выводом на рынок».
Таким образом, методики получения социального портрета пользователя из пространства глобальной сети интернет, предлагаемые инженерами УлГТУ, демонстрируют действенный интеллектуальный продукт, который позволяет идентифицировать человека и сформировать модель его профиля.