Нейросеть научили предсказывать популярность книги

03.02.2021 20:17

3377

Многие знаменитые книги до того, как вышли в свет были сначала отвергнуты издательствами. «Гарри Поттер и философский камень» пережил 12 отказов, дебютный роман Уильяма Голдинга «Повелитель мух» отказалось публиковать 21 издательство, на долю первой книги Клайва Стейплза Льюиса о Нарнии выпало 37 отказов. Ученые озадачились вопросами: можно ли было этого избежать? Существуют ли объективные факторы, которые определяют будущую популярность художественного текста? Можно ли создать программу, которая будет предсказывать шансы на успех?

Ученые в своем исследовании применили маркеры для восьми базовых эмоций, выделенных другими исследователями в отдельный лексикон NRC Emotion Intensity Lexicon: гнев, ожидание, отвращение, страх, радость, грусть, удивление, доверие. И научили алгоритм выявлять в тексте именно такие слова. Следовательно, не понимая сути текста, алгоритм мог понять, какой эмоциональный окрас он имеет.

Доцент факультета информационных систем и программирования Университета ИТМО Иван Сметанников рассказывает:

«Мы берем фрагмент текста, берем базу данных, в которой указаны маркеры тех или иных эмоций и анализируем. Таким образом каждый фрагмент текста получает восемь значений, каждое из которых соответствует выраженности той или иной эмоции. Если посмотреть, какие эмоциональные следы получаются по жанрам, то, например, в популярных книгах в жанре ужасов превалирует такая эмоция, как доверие. Если взять детскую литературу, то там уровень доверия резко падает ближе к финалу, а вперед выходит ожидание. У детективов первые 10% текста обычно превалирует ожидание, а потом оно проваливается вниз, чтобы вернуться в финале. Так мы можем отчетливо видеть некоторые жанровые клише».

Проанализировав так всю книгу, алгоритм может построить график, который разработчики называют «эмоциональным следом» книги. Далее программа сравнивает этот график с другими успешными книгами данного жанра и делает вывод — заденет ли книга любителей такого рода литературы или нет.

Ученые систематизировали почти 171 000 книг из разных баз. В результате исследования выяснилось, что алгоритм оказался прав в 73% случаев. Также ученые попытались сделать и обратный анализ — заставить алгоритм определять исходя из эмоционального следа, к какому жанру относится произведение.

Несмотря на то, что алгоритм верно давал предсказание в трех из четырех случаев, ученые все же отмечают, что он не может гарантировать успех или неудачу того или иного текста. И дело даже не в том, что книга может попасть в те самые 27% неверных результатов.

Потенциально похожие принципы можно использовать и в мире кино. Однако здесь потребуется более сложный набор анализируемых данных и другие алгоритмы, так как необходимо оценивать не только сюжет, но и аудиовизуальную составляющую фильма.

Фото: Елена Либрик / «Научная Россия»

Разместил Григорий Яшин

Автор Теона Бурдиашвили