В Новосибирском государственном университете разработали метод атрибуции литературных текстов, который основан на «сжатии данных». Исследование поможет с высокой точностью определить авторство художественных текстов, которое ставится под сомнение.
Задачу помочь литературоведам взяли на себя доктор технических наук, профессор кафедры компьютерных систем Факультета информационных технологий НГУ, сотрудник Федерального исследовательского центра информационных и вычислительных технологий (ФИЦ ИВТ) СО РАН Борис Рябко, его коллеги и студенты. Метод основан на проверке гипотез и математической статистике.
Одно из условий метода – объем произведения. Чтобы результаты получились корректными и высокоточными, анализируемый материал должен быть большим.
«Второе условие – наличие текстов, авторство которых точно известно, что необходимо для оценивания параметров анализа неидентифицированных текстов. В проведенных исследованиях эти условия выполнялись и вероятность ошибочных выводов (то есть ошибки при проверке гипотез) меньше 10 в степени -9», — рассказал о методе Борис Рябко.
В эксперименте исследовали авторство романов «Двенадцать стульев» и «Золотой теленок». Ряд исследователей считают, что романы принадлежат не Илье Ильфу и Евгению Петрову, а Михаилу Булгакову. По результатам атрибуции авторство Булгакова абсолютно исключили. Также проверяли романы «Три страны света» и «Мертвое озеро», где определили авторство разных частей, которое приписывается Николаю Некрасову и Авдотье Панаевой.
Команда исследователей считает, что при решении подобных задач необходимо участие литературоведов, историков. Разработка приложения или сервиса для самостоятельного математического анализа художественных текстов пока не планируется.
Автор: Ольга Скибина
Источник фото: ru.123rf.com