Многие знаменитые книги до того, как вышли в свет были сначала отвергнуты издательствами. «Гарри Поттер и философский камень» пережил 12 отказов, дебютный роман Уильяма Голдинга «Повелитель мух» отказалось публиковать 21 издательство, на долю первой книги Клайва Стейплза Льюиса о Нарнии выпало 37 отказов. Ученые озадачились вопросами: можно ли было этого избежать? Существуют ли объективные факторы, которые определяют будущую популярность художественного текста? Можно ли создать программу, которая будет предсказывать шансы на успех?
Ученые в своем исследовании применили маркеры для восьми базовых эмоций, выделенных другими исследователями в отдельный лексикон NRC Emotion Intensity Lexicon: гнев, ожидание, отвращение, страх, радость, грусть, удивление, доверие. И научили алгоритм выявлять в тексте именно такие слова. Следовательно, не понимая сути текста, алгоритм мог понять, какой эмоциональный окрас он имеет.
Доцент факультета информационных систем и программирования Университета ИТМО Иван Сметанников рассказывает:
«Мы берем фрагмент текста, берем базу данных, в которой указаны маркеры тех или иных эмоций и анализируем. Таким образом каждый фрагмент текста получает восемь значений, каждое из которых соответствует выраженности той или иной эмоции. Если посмотреть, какие эмоциональные следы получаются по жанрам, то, например, в популярных книгах в жанре ужасов превалирует такая эмоция, как доверие. Если взять детскую литературу, то там уровень доверия резко падает ближе к финалу, а вперед выходит ожидание. У детективов первые 10% текста обычно превалирует ожидание, а потом оно проваливается вниз, чтобы вернуться в финале. Так мы можем отчетливо видеть некоторые жанровые клише».
Проанализировав так всю книгу, алгоритм может построить график, который разработчики называют «эмоциональным следом» книги. Далее программа сравнивает этот график с другими успешными книгами данного жанра и делает вывод — заденет ли книга любителей такого рода литературы или нет.
Ученые систематизировали почти 171 000 книг из разных баз. В результате исследования выяснилось, что алгоритм оказался прав в 73% случаев. Также ученые попытались сделать и обратный анализ — заставить алгоритм определять исходя из эмоционального следа, к какому жанру относится произведение.
Несмотря на то, что алгоритм верно давал предсказание в трех из четырех случаев, ученые все же отмечают, что он не может гарантировать успех или неудачу того или иного текста. И дело даже не в том, что книга может попасть в те самые 27% неверных результатов.
Потенциально похожие принципы можно использовать и в мире кино. Однако здесь потребуется более сложный набор анализируемых данных и другие алгоритмы, так как необходимо оценивать не только сюжет, но и аудиовизуальную составляющую фильма.
Источник фото на странице: Daria Nepriakhina on Unsplash