© РИА Новости / Павел Бедняков

© РИА Новости / Павел Бедняков

 

Ученые факультета вычислительной математики и кибернетики МГУ предложили инновационную систему, которая эффективно подбирает контрольные вопросы для анкет с помощью обработки естественного языка. Созданная система дает возможность минимизировать количество ложной информации в исследованиях. 

Ученые всегда стремятся к получению максимально корректных и правдивых ответов, чтобы сделать правильные выводы и прогнозы. С этой целью в анкету добавляются контрольные вопросы, речь в которых идет об одном и том же, но с использованием различных формулировок. Если ответы на такие вопросы не совпадают, это может указывать на то, что респондент в целом был не очень искренним. Однако создание таких контрольных вопросов может быть сложным и требовать значительных усилий и временных затрат. 

Для решения этой проблемы ученые разработали инновационную систему, предназначенную для облегчения процесса составления анкет и эффективного подбора контрольных вопросов. Система использует различные методы обработки естественного языка для поиска похожих вопросов в анкетах и определения наиболее подходящих контрольных вопросов.

Первый метод, применяемый в системе, называется TF-IDF (Term Frequency-Inverse Document Frequency). Метод основывается на анализе частоты встречаемости слов и обратной частоты документов. Этот метод позволяет определить наиболее значимые слова в тексте, которые могут быть использованы для описания его содержания. Такой подход существенно облегчает поиск информации в больших коллекциях документов.

Второй метод, который называется латентно-семантическим анализом (LSA), использует математическую модель и статистические методы для определения семантических связей между словами в документе. Это позволяет выявить наиболее важные слова, связанные с тематическим направлением, и определить степень их схожести с другими вопросами. Такой подход помогает более точно подбирать контрольные вопросы и избегать повторений или путаницы.

Третий метод, используемый в системе, — это тематическое моделирование, которое основано на алгоритмах машинного обучения. С помощью этих алгоритмов система автоматически выявляет наиболее вероятные комбинации тем и слов, обсуждаемых в документах. Таким образом, система определяет распределение вероятностей для каждой темы в каждом документе, что облегчает поиск вопросов, содержащих схожие темы.

Процесс составления анкет с использованием данной системы значительно упрощается, а время и усилия, затрачиваемые экспертами на этот процесс, сокращаются. Система уже успешно применялась при составлении анкет с вопросами из областей психологии и социологии, и ее эффективность была подтверждена.

«Наша система обработки естественного языка – это настоящий прорыв в сфере составления анкет и подбора контрольных вопросов. Инновационные методы, включая TF-IDF, латентно-семантический анализ и тематическое моделирование, позволяют экспертам эффективно находить и выбирать контрольные вопросы, гарантируя точность и надежность результатов опросов», – отметил доцент кафедры алгоритмических языков ВМК МГУ Владимир Абрамов.

Результаты исследования были представлены на Всероссийской конференции «Ломоносовские чтения-2023», которая проводилась в рамках Десятилетия науки и технологий. 2022-2031 годы объявлены в России Десятилетием науки и технологий. Среди задач тематического Десятилетия – привлечение в сферу исследований и разработок талантливой молодежи, содействие вовлечению исследователей и разработчиков в решение важнейших задач развития общества и страны, а также повышение доступности информации о достижениях отечественных ученых и перспективах развития науки в стране.

 

Информация предоставлена пресс-службой МГУ

Источник фото: rsport.ria.ru