Материалы портала «Научная Россия»

0 комментариев 441

Что невозможно невооружённым глазом обнаружить в тексте?

Ученые СмолГУ развивают научное направление «квантитативная филология», основанное на применении точных автоматизированных методов изучения литературного текста

Ученые СмолГУ развивают научное направление «квантитативная филология», основанное на применении точных автоматизированных методов изучения литературного текста. Задача филологов - выявить неочевидные процессы, действующие на этапе зарождения поэтического текста (например, общеязыковые закономерности и индивидуально-авторские особенности стиля) и предложить их новую интерпретацию.  Детальная обработка лингвистического материала посредством программных комплексов и его дальнейшая литературоведческая интерпретация – возможный вариант идентификации авторства и объективной оценки стилистического своеобразия, определяющего творчество любого писателя

Особенности словоупотребления определяют мировоззрение и авторский стиль исследователя, прозаика, поэта. Технологии Digital humanities могут выявить явления, которые присутствуют при зарождении текста. Для этого исследовательский материал подвергается автоматизированной обработке. Так, при помощи компьютерного моделирования сопоставляется фонематический облик и грамматический состав поэтических и прозаических текстов из разных периодов творчества авторов.

Смоленские ученые, используя разработанные программные комплексы, демонстрируют возможности обнаружения скрытых связей слов в тексте для дальнейшего их анализа. Интерпретируя данные частотного словаря языка писателя и картину распределения в художественных произведениях, последователи квантитативной филологии дают характеристику идиостиля отдельных авторов. Эффективный опыт применения методики подтвержден разнообразными примерами и аргументированным объяснением полученных результатов.

Сотрудники НОЦ «Смоленский центр квантитативной филологии» Смоленского государственного университета  доктор филологических наук, профессор, заведующая кафедрой литературы и журналистики Ирина Викторовна Романова  и доктор филологических наук,  профессор кафедры литературы и журналистики Лариса Викторовна Павлова – поделились достижениями в области квантитативной филологии, а именно, сообщили, какие традиции смоленской научной школы продолжают развивать и в чем заключается методика, позволяющая делать анализ текста объективным, «вскрывая» явления и процессы  индивидуального авторского творческого сознания.

На фото Романова Ирина Викторовна – доктор филологических наук, профессор, заведующая кафедрой литературы и журналистики Смоленского государственного университета (г. Смоленск), сотрудник НОЦ «Смоленский центр квантитативной филологии»

Романова Ирина Викторовна – доктор филологических наук, профессор, заведующая кафедрой литературы и журналистики Смоленского государственного университета (г. Смоленск), сотрудник НОЦ «Смоленский центр квантитативной филологии»

На фото Павлова Лариса Викторовна – доктор филологических наук, профессор кафедры литературы и журналистики Смоленского государственного университета (г. Смоленск), сотрудник НОЦ «Смоленский центр квантитативной филологии»

Павлова Лариса Викторовна – доктор филологических наук, профессор кафедры литературы и журналистики Смоленского государственного университета (г. Смоленск), сотрудник НОЦ «Смоленский центр квантитативной филологии»

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

«Основателем Смоленской филологической школы (далее СФШ) был доктор филологических наук, профессор, Заслуженный деятель науки РФ Вадим Соломонович Баевский (1929-2013). С первых публикаций он зарекомендовал себя в науке как последователь идей формальной школы. Его работы находятся в русле лучших традиций науки о литературе, увековеченных именами В.Б. Шкловского, Ю.Н. Тынянова, Б.М. Эйхенбаума, Р.О. Якобсона, В.М. Жирмунского, К.Ф. Тарановского, Б.Я. Бухштаба, Л.Я. Гинзбург, Ю.М. Лотмана, М.Л. Гаспарова, Т. Шоу.

Баевский всегда исходил из того, что убедительный результат научного исследования должен быть сформулирован так, чтобы он допускал опровержение. Необходимо всегда иметь возможность проверить методику и выводы исследователя. В этом помогает использование точных методов. Баевский одним из первых в Советском Союзе и в мире применил точные математические и компьютерные методы к исследованию литературы в докторской диссертации «Типология стиха русской лирической поэзии», которую защитил в 1975 году в Тарту. Исследования Баевского с применением лингвистических, математических, семиотических и компьютерных моделей достойным образом подводят итог важных направлений науки о литературе ХХ столетия и открывают перспективы дальнейшего развития филологической науки. В Смоленском государственном университете вокруг ученого стал складываться круг учеников и последователей. В 1983 году Адриан Владимирович Македонов, известный литературовед и литературный критик, сформулировавший понятие смоленской поэтической школы, написал профессору В.С. Баевскому: «Рад тому, что вокруг Вас уже сложился коллектив учеников, которые воодушевленно работают, среди которых есть явно способные люди. Вот формируется еще одна “смоленская школа” – в литературоведении». Под научным руководством В.С. Баевского защищено около 30 кандидатских диссертаций, 5 из которых переросли в докторские. Под руководством его учеников защищено более 15 кандидатских диссертаций и одна докторская, Ирина Романова сообщила, какие научные традиции и фундаментальные принципы были заложены и сформулированы основателем СФШ профессором Вадимом Баевским.

На фото основатель Смоленской филологической школы (СФШ)  ВАДИМ СОЛОМОНОВИЧ БАЕВСКИЙ (1929-2013), доктор филологических наук, профессор, Заслуженный деятель науки РФ

На фото основатель Смоленской филологической школы (СФШ) ВАДИМ СОЛОМОНОВИЧ БАЕВСКИЙ (1929-2013), доктор филологических наук, профессор, Заслуженный деятель науки РФ

Для Смоленской филологической школы профессора В.С. Баевского (СФШ) подлинная наука о литературе началась с Веселовского, который предостерегал: «История литературы напоминает географическую полосу, которую международное право осветило как res nullius, куда заходят охотиться историк культуры и эстетик, эрудит и исследователь общественных идей». Литература настолько сложное явление, что для его постижения необходимо сочетание самых разных подходов, вплоть до эссеистики, замешанной на интуитивизме в духе Бергсона, экзистенциалистов, Гершензона–Ходасевича. Но необходимо отдавать себе отчет в мере эффективности каждого подхода. И ни в коем случае не гнаться за модой. Именно вопрос о методе стоит в СФШ во главе угла. Каждый исследователь должен показать: методика, которую он применяет, даёт убедительный результат. Выводы должны быть сформулированы так, чтобы в принципе возможны были их проверка и опровержение. Выводы должны вписываться в современную исследованию общую картину науки. Представители СФШ пользуются таким определением: наука состоит в обнаружении инвариантов там, где они не очевидны».

Как добавляет к ответу коллеги Лариса Павлова, «одной из плодотворных форм работы СФШ стал Филологический семинар, который существует уже 56 лет! Около пятисот (500) докладов и сообщений прозвучало на его заседаниях. На протяжении всех лет руководящая идея научного объединения оставалась неизменной: изучать художественное слово в его многообразных проявлениях. Выступление на ФС – это доклад в пределах 45 минут и обстоятельное обсуждение. Такого внимания не удостаивается никто из ученых ни на одной конференции. Поэтому многие стремились приехать и выступить, выслушать аргументы в обсуждении. Чаще всего представляли совсем свеженькую работу, не доведенную до конца, требующую обсуждения и «обкатки». Среди гостей Семинара были Дж. Бейли (Мэдисон, США), Р. Боуи (Майами, Огайо, США), Б.Я. Бухштаб (Ленинград), Б.М. Гаспаров (Калифорния, США), Б.Ф. Егоров (Санкт-Петербург), И. Лилли (Окленд, Новая Зеландия), П.А. Руднев (Тарту), Е.А. Шмидт (Смоленск) и др. Филологический семинар стал серьезной школой и плодотворной формой научной работы для многих ученых и в результате в 1998 году был отмечен грантом. Четверть века ежегодно проводится конференция, имеющая статус международной, «Современные пути изучения литературы». Визитной карточкой этой конференции стал интерес к актуальным, эффективным методикам исследования текста, сочетающим традиционный и инновационный подходы, точные методы, поиск путей интеграции литературоведения, лингвистики, философии и других дисциплин. Лицо школы определяют коллективные исследования разных исследовательских групп, в которые входят студенты, аспиранты, доценты и профессора кафедры литературы и коллеги математики и программисты».

По словам Ирины Романовой и Ларисы Павловой, сейчас СФШ расширила границы сотрудничества с другими научными школами с кафедр иностранных языков (в частности, школой стилеметрии профессора С.Н. Андреева). Все вместе они образовали «Смоленский центр квантитативной филологии», официально открывшийся в Смоленском государственном университете весной этого года.

«Деятельность центра направлена на консолидацию российских и зарубежных исследователей в области применения точных методов в филологии. Что касается содержания исследований, то центр занимается изучением скрытых структур текста с использованием современных инновационных методологий в рамках направления цифровых гуманитарных наук (digital humanities) с привлечением целого ряда технологий интеллектуального анализа (data mining), систем автоматической обработки больших объемов языковых и текстовых данных с поиском закономерностей распределения в них формальных и содержательных языковых и текстообразующих единиц. Наша главная задача – создание универсальной модели квантитативного анализа текстов, построенной на анализе стилеметрической информации с применением квантитативных методов, технологий интеллектуального поиска, систем распознавания образов», – подчеркивают смоленские ученые.

Наиболее яркими направлениями работы коллективных исследований СФШ за последние годы стали следующие шесть тем: 1. Исследование поэтической фоники посредством лингвистических, математических и компьютерных моделей;

2. Выявление и изучение повторяющихся лексических комбинаций как показателей индивидуально-авторского стиля;

3. Нахождение меры близости частотных словарей русских поэтов XIX–XX веков: ранговый корреляционный анализ. Перед специалистами стояла задача – исчислить расстояния (в математическом смысле слова) между этими частотными словарями или, что почти одно и то же, между тематикой отдельных книг или всего творчества поэтов или, несколько более условно, между их художественными мирами. Филологи провели работу на основе полусотни частотных словарей языка писателей XIX-XX вв. и создали оригинальную компьютерную программу, которая автоматически производит попарное сравнение частотных словарей с помощью рангового корреляционного анализа и выделяет статистически значимые значения коэффициента корреляции. Это свидетельствует о наличии близости тематики частотных словарей разных книг одного автора или разных авторов и дает понять, насколько оригинальна тематика книги или, напротив, насколько она близка к тематике других книг того же автора или других авторов – предшественников, современников, преемников;

4. Создание Словаря поэтического языка символистов. В этом случае лексикографическое освоение языка символистов велось на материале поэзии Вячеслава Иванова. В результате сформулированы основные принципы составления его Словаря поэтического языка, разработана и апробирована методика описания семантики, «наращиваемой» в поэтическом тексте, а также составлен ряд словарных статей, относящихся к тематическим группам «Самоцветы», «Флора», «Фауна», «Слово».

5. Изучение коммуникативного аспекта лирики. По мнению экспертов, субъектно-объектные отношения представляют собой одно из определяющих родовых свойств лирики. Здесь различают авторско-читательскую коммуникацию – рамочную, оформляющую текст и дающую установку на его восприятие, и выделяют внутритекстовую коммуникацию, так называемую лирическую. Лирическая коммуникация возникает между лирическим субъектом и лирическим адресатом в пределах текста стихотворения, в пределах его художественного мира.

Варианты сочетаний в текстах различных форм выражения лирических субъекта и адресата (или их отсутствия) позволяют рассматривать несколько коммуникативных типов стихотворений. Как выделяют смоленские филологи, «например, преобладание безлично-безадресного элемента делает лирику направленной на третье лицо. А доминирование третьего лица указывает на ориентацию на эпос. Преобладание апеллятивного элемента делает лирику направленной на второе лицо, что свидетельствует об ориентации автора на драму.  Количественное соотношение данных коммуникативных типов между собой в творчестве автора или в пределах книги лирики дает картину лирической коммуникации в статике. Этот показатель сугубо индивидуален для каждого поэта. Структура индексов может обнажить механизмы построения композиции лирического цикла или книги стихов. Кроме того, оказалось, что в творчестве разных поэтов коммуникативные типы взаимодействуют по-разному, отражая индивидуальный тип поэтического мышления. Они определяют содержание произведений и стиль того или иного автора. Для изучения взаимодействия коммуникативных типов стихотворений между собой на протяжении всего творчества автора (то есть в динамике), выявления наличия и силы взаимосвязей, притяжений и отталкиваний, мы применяем методику корреляционного анализа (коэффициент Пирсона). Он позволяет констатировать, например, автономное существование коммуникативных типов стихотворений в творчестве автора, то есть стихотворения каждого типа развиваются по своим закономерностям, «без оглядки» на другие коммуникативные типы (так у Пастернака, см. Рис.1). Либо разные коммуникативные типы находятся в тесной положительной зависимости, что свидетельствует о полифункциональном поэтическом мышлении (так у Бродского, см. Рис.2). Картина коммуникативной структуры лирики меняется на разных этапах творчества поэта. Нами установлена прямая зависимость между тем, как меняется коммуникативная стратегия, и тем, как эволюционирует метрико-ритмическая организация стиха. Это обстоятельство можно использовать при составлении периодизации творческого пути».

Рисунок 1. Коммуникативная структура в лирике Бориса Пастернака

Рисунок 1. Коммуникативная структура в лирике Бориса Пастернака

Рисунок 2. Коммуникативная структура в лирике Иосифа Бродского

Рисунок 2. Коммуникативная структура в лирике Иосифа Бродского

6. Группа по изучению онегинской строфы с использованием математических и компьютерных моделей. Как считают смоленские эксперты, «онегинская строфа – величайшее изобретение Пушкина, замечательный пример строгой строфической формы. Мы задались вопросом: возможно ли понять, как она устроена и искусственно сконструировать эту строфу? Каждая строфа первой главы «Евгения Онегина» была описана по ряду признаков, выделяемых на фонологическом, морфологическом, синтаксическом уровнях языка, учитывались аспекты лексики и образной системы. Структура онегинской строфы рассматривалась как двухчастная: в ней различались «тело» (первые 12 стихов) и «хвост» – заключительное двустишие. Затем «тела» отрываются от «хвостов» и раздельно, в случайном порядке вводятся в память компьютера. Формируется гиперсеть с гипертекстом – неким искусственно созданным предтекстом – пространством, в котором автор или исследователь может выбрать различные линии развёртывания текста.  Задача исследования заключалась в создании алгоритма, учитывающего перечисленные признаки и позволяющего установить одно-однозначное соответствие между «телами» и «хвостами» строф, когда каждая вновь образованная строфа будет соответствовать строфе пушкинского текста. Достичь поставленной цели не удалось. Вместо этого были выделены замкнутые подмножества – соответствия Галуа. Обнаружились одно-однозначные соответствия не между отдельными «хвостом» и «телом» строфы, а между совокупностями замкнутых подмножеств внутри множества «хвостов» и множества «тел». Например, строфа II

 

Так думал молодой повеса,

Летя в пыли на почтовых,

Всевышней волею Зевеса

Наследник всех своих родных. –

Друзья Людмилы и Руслана!

С героем моего романа

Без предисловий, сей же час

Позвольте познакомить вас:

Онегин, добрый мой приятель,

Родился на брегах Невы,

Где может быть родились вы,

Или блистали, мой читатель;

Там некогда гулял и я:

Но вреден север для меня

 

могла бы вместо своей коды заканчиваться двустишием

 

Там, там под сению кулис

Младые дни мои неслись

 

или

 

Но слаще, средь ночных забав,

Напев Торкватовых октав!

Эти наблюдения показывают, что при известной автономности каждой строфы и частей строфы, группы строф сближаются между собой благодаря общности тематики (пейзаж Петербурга, любовь, времяпрепровождение Онегина и т. п.)».

Примечательно, что в основу компьютерной программы профессора Баевского легли фундаментальные положения теории изучения поэтической фоники.  Как указала Лариса Павлова, «все многообразие взглядов на природу, место, функционирование поэтической фоники можно свести к пяти точкам зрения. Некоторые из них более развиты и претендуют на статус гипотезы, даже теории: 1) аллитерации и ассонансы как узлы ткани поэтического текста; 2) звуковые повторы; 3) звукоподражания (ономатопея); 4) звукосимволизм; 5) анаграммы. Складывается впечатление, что все пять точек зрения характеризуют один и тот же объект, только с разных сторон, с разных теоретических позиций, разобщенно, заведомо неполно и нестрого. Возникло намерение построить единую теорию, которая давала бы по возможности всестороннее, цельное, полное и строгое описание поэтической фоники. Наша первоначальная гипотеза состояла в том, что основным явлением в области поэтической фоники остаются анаграммы — ключевые слова, фонемы которых нагнетаются в других словах текста. Фердинанд де Соссюр, выдающийся швейцарский языковед, основоположник структурной лингвистики, обнаружил, что в древних сакральных гимнах сакральные и потому табуированные понятия, слова не произносились, но фонемы из этих слов нагнетались таким образом, что в сознании человека эти понятия и слова как бы звучали, не будучи произнесенными. Анаграмматическое мышление было частью коллективного мифологического мышления. Много позже оно стало то воскрешаться, то имитироваться в профессиональном поэтическом творчестве».

Продолжая традиции своего учителя и наставника, профессора Вадима Баевского, ученые НОЦ «Смоленский центр квантитативной филологии» для литературоведческих исследований разработали специальные программные комплексы для изучения уровней художественного текста и процессов в них, которые невозможно или трудно выявить традиционным способом.

Как научному исследователю и какой области знаний (только гуманитарных или технических?) может помочь такая разработка (анализ статистических данных по тексту), чтобы проверить методику и верность выводов своих работ?

Лариса Павлова обстоятельно объяснила: «Всё научное направление, с которым связана Смоленская филологическая школа, основано на приемах автоматизации работы исследователя, на применении точных методов изучения текста, главное – на таких методиках, которые позволяют сделать анализ наиболее объективным, как можно меньше зависящим от воли учёного. Это преимущественно такие методики, которые можно проверить. Строго говоря, мы занимаемся не столько точным, сколько, по выражению Д.С. Лихачёва, «конкретным литературоведением». Если говорить о том, что такой подход опровергает, то ответ будет таков: он направлен против безграничного произвола исследователя, не чувствующего меру в широте своей интерпретации, в том, когда нужно остановиться в объяснении текста или литературного явления. К сожалению, литературоведение – как любая гуманитарная дисциплина – грешит субъективностью. Мы не выступаем против традиционного описательного литературоведения. Все направления в современной научной парадигме должны гармонично сосуществовать. Мы стоим на точке зрения, что в литературном произведении есть объективная реальность, как у любой идеи есть её формальное выражение, – это собственно текст и все его структуры, начиная с языка. Они поддаются подсчёту, в том числе автоматизированному, учёту и систематизации.

При этом на разных структурных уровнях языка и текста есть такие явления, которые возможно заметить «невооружённым глазом», описать и интерпретировать, но есть и те, которые не фиксируются человеческим сознанием, но на каком-то ином уровне подспудно воспринимаются читателем и/или внушаются ему. Чаще всего это явления, которые не способен абсолютно контролировать и сам автор. Они то ли диктуются ему языком и являются в таком случае отражением неких общеязыковых явлений, то ли проецируют на текст не до конца изученные процессы индивидуально авторского творческого сознания (тяготеющие к области психологии творчества)».

Результаты исследований с применением математических, статистических и компьютерных методов и моделей, как отмечает ученый, «помогают выявить механизмы когнитивных процессов и их отражение в языке и искусстве слова, общеязыковые закономерности и – на их фоне – индивидуальные авторские речевые особенности. Методы и результаты подобных исследований могут быть использованы (и используются) при определении, установлении авторства, в лингвистических экспертизах, в том числе проводимых в рамках судебной практики. Для идентификации автора неатрибутированного (анонимного) текста может применяться почерковедческая экспертиза, но, если текст написан не от руки, необходимо проанализировать особенности стиля, соотнести с уже имеющимися текстами. Программные комплексы научились с этим справляться. Автоматизация процесса анализа стиля позволяет обрабатывать большие массивы текстов, на что у традиционных исследователей ушли бы десятки лет. Обработка большого объема данных позволяет делать выводы о языковых, стилистических особенностях целых эстетических эпох, что выводит в область культурологии, описать национальную картину мира, универсалии и уникалии русской культуры, отраженные в литературе. Мы изучаем художественные тексты как самый сложно организованный уровень функционирования национального языка. Результаты исследования по аналогии могут быть применены к анализу прочих дискурсов: бытовому, официально-деловому, публицистическому, рекламному, интернет-дискурсам и др. Необходимо отметить высокий практический потенциал нашего исследования для создания и/или искусственной генерации прагматически направленных текстов. Наконец, подобные исследования направлены на создание искусственного интеллекта».

Данные программы применяются для решения разного рода филологических проблем, в том числе, затрагивающих пограничные области знания. Суть работы, как пояснила профессор Павлова, состоит в следующем: «Строится языковая модель литературного явления; она подвергается математической обработке; для облегчения и ускорения работы используются компьютерные программы; после чего результат анализа переносится на литературное явление, которое изначально является предметом изучения. Язык писателя, текст являются объективной реальностью, которая поддается эмпирическому исследованию. Количественные (квантитативные) методы позволяют максимально объективно статистически описать эту реальность, оценить распределение языковых единиц, сравнить результаты, полученные на разном материале, между собой. Лингвистика обычно на этом этапе констатации останавливается. Литературоведение идет дальше и интерпретирует данные, полученные путем количественных методов, путем машинной обработки текста инструментарием истории и теории литературы – с привлечением смежных дисциплин (текстология, архивоведение и источниковедение и т.п.). Результаты исследования часто имеют междисциплинарный характер и могут быть использованы в системах машинного обучения и искусственного интеллекта, в когнитивной и нейролингвистике, текстометрии, лексикографии, традиционном литературоведении. Результаты также позволяют решить задачи определения авторства, выявления моделей эволюции стиля, выявить базовые характеристики, релевантные для дедуктивной и индуктивной классификаций, а также предложить схему совокупных признаков для описания индивидуальных стилей авторов и установления степени их сходства и различия».

Распространяется ли действие этих программ на тексты, написанные на иностранных языках?

«Потенциально наши программы могут работать на материале иностранных языков, но для этого они нуждаются в модернизации», – уточнила ученый.

Смоленские филологи задались целью с помощью компьютерных технологий автоматически выделять наиболее частотные для каждого поэтического текста фонемы, предполагая, что они будут складываться в анаграммы. Так, программа «БУКВА → ФОНЕМА» предназначена для изучения звуковой организации стиха и работает следующим образом:

«В память компьютера вводится таблица частот фонем в русской речи. После введения подготовленного вручную текста программа автоматически транслирует буквенный текст в фонематический, подсчитывает количество фонем текста, частоту каждой фонемы в тексте и сравнивает частоту фонемы в конкретном тексте с её частотой в обычной речи. После этого программа строит график частотности распределения фонем в тексте, на котором красная линия отделяет «нейтральную» зону среднестатистической частоты употребления фонем от зон, фиксирующих положительные и отрицательные статистически значимые отклонения – превышающие или преуменьшающие в тексте среднюю частоту употребления фонем в речи. Сам график распределения фонем похож на змею, у которой различаются голова (фонемы, частота которых в тексте статистически превосходит их частоту в речи), туловище (фонемы, частота которых в тексте лежит в области случайных значений; их больше всего) и хвост (фонемы, частота которых в тексте статистически значимо ниже их частоты в речи). Обычно голова больше хвоста и поднята на величину больше той, на какую хвост опущен (см. Рис. 3),

 профессор Романова прояснила, каковы способы интерпретации данных и основной принцип программы,

Большая часть фонем в любом тексте имеет частоту, статистически значимо не отличающуюся от их частоты в речи. Складывается впечатление, что при создании поэтических текстов автору приходится прилагать значительные усилия, чтобы преодолеть власть статистических закономерностей языка. Как правило, поэт стремится усилить звучность: увеличить частоту звонких согласных и открытых гласных фонем, уменьшить частоту глухих согласных и закрытых гласных, хотя в нашем материале есть и исключения – например, Бродский. В разряд частых фонем у него попадают глухие согласные. Эти общие закономерности поэтической фоники В.С. Баевский назвал «Законом змеи». Только при специальной организации фоники она становится интенсивным носителем семантической и эстетической информации».

Рисунок 3. График, отображающий общие закономерности поэтической фоники, по определению В.С. Баевского, «Закон змеи»

Рисунок 3. График, отображающий общие закономерности поэтической фоники, по определению В.С. Баевского, «Закон змеи»

Специалистами были проанализирован не только большой корпус стихотворных произведений ХIХ и ХХ веков, но и ряд прозаических художественных текстов. Как подметила профессор Павлова, «поскольку программа изначально создавалась для анализа распределения фонем в поэтических текстах, возможности работы с прозой ограничены – анализу подвергаются небольшие законченные тексты или фрагменты». Результат показал, что организация прозаической фоники существенно и принципиально отличается от поэтических произведений.

Более того, «гипотеза о том, что в основе всех явлений поэтической фоники лежат анаграммы не подтвердилась, – подчеркивает Лариса Павлова и констатирует далее. – Мы столкнулись с двумя типичными случаями. Первый – соответствует исследовательскому ожиданию. Он заключается в том, что фонемы, оказавшиеся в стихотворении частыми, входят в состав слова или группы слов, определяющих собой важные темы или мотивы стихотворения. Это явление, родственное анаграмме, которое все же не следует с ней безоговорочно отождествлять. Но гораздо более распространен второй вариант, не оправдывающий исследовательское ожидание».

В качестве материала исследования ученые в основном брали поэтические тексты. Пример такого анализа текста Иосифа Бродского продемонстрировал особенности его поэтической фоники согласно разработанной методике в смоленской филологической школе.

 «Большая элегия Джону Донну» Бродского – очень объемный текст, состоящий из 212 стихов. Такой объем предполагает, что распределение в нем фонем будет приближено к распределению фонем в обычной речи. Однако 5 фонем попадают в область статистически значимо отклоняющихся от нейтрального фона. В разряде редких оказались <и> и <а>, в разряде частых <п’>, <и* >, <с>. Голова змеи приподнята приблизительно на такую же высоту, на какую опущен хвост. Одним из центральных образов «Большой элегии» является образ сна. В данном случае сон – замена смерти. Большую часть текста занимает перечисление всего, что объято сном. Выявленные программой частые согласные фонемы (как смыслообразующие) входят в состав слова спит, спят (лексема многократно повторяется в тексте). Можно предположить, что в этом стихотворении реализуется принцип, когда многократный повтор слова перестает воздействовать своей семантикой, но создает суггестивный эффект на уровне фоники. Нагнетение во всем тексте фонем <с>, <и*>, <п’>, встречающихся уже в других словах, все равно задает инерцию восприятия их в контексте мотива спит. Данный случай, как это ни покажется странным, более редкий, Ирина Романова детально представила, как исследуется поэтическая фоника посредством лингвистических и компьютерных моделей. – Гораздо более распространен второй вариант, не оправдывающий исследовательское ожидание. Например, мы исследовали фрагмент поэмы Бродского «Исаак и Авраам». Выбор фрагмента был обусловлен тем, что в нем автор рефлексирует по поводу звучания имени Исаак. То есть именно звуки, буквы, составляющие это имя, являются основной темой фрагмента. Бродский графически выделяет анаграмму ИСААК. Обработка фрагмента с помощью программы «БУКВА →ФОНЕМА» показала следующее. Нейтральными оказались 27 фонем. Реже среднего уровня употребляются фонемы <ц>, <с’>, <н’>, <ш>, <ф>, <а>. Превышающими частоту в речи оказалось еще 7 фонем: <ч>, <б>, <к’>, <в>, <т>, <у*>, <с>. Обратим внимание на то, что из их числа большинство согласных фонем относится к глухим, а единственная гласная – к закрытым, что идет в разрез с выявленной общей тенденцией, в соответствии с которой поэты стремятся усилить звучность поэтического текста за счет повышения частотности звонких согласных и открытых гласных фонем. От имени Исаак здесь одна-единственная фонема, зато самая частотная – <с>. О букве «С» в поэме сказано: «С» – это жертва, связанная туго. Тема жертвы – центральная в поэме. Вопреки тому, что в тексте выстраивалась целая поэтическая мотивировка удвоения звука а в имени Исаак, фонема <а> попала в разряд самых низкочастотных, <а*> оказалась нейтральной. Бродский управлял вниманием читателя, дополнительно выделяя графически нужные ему буквы и анограммируя таким образом ключевые слова. Программа «БУКВА → ФОНЕМА» позволила обнаружить фонематические процессы, которые не были и не могли быть организованы автором сознательно.

По мнению Бродского, поэт всегда в основу своего творчества закладывает звук, ибо «в начале было слово или различимый звук». В эссе «По ком звонит осыпающаяся колокольня» он развивает эту мысль: «<…> каждый в моей профессии знает, что стишок прежде всего дело вокальное, что начало свое он берет в звуке, а не в смысле, что выбор, сделанный пишущим, – неизменно эстетический и является выбором языка». Когда Бродский писал, что в стихотворении выбор, сделанный пишущим, – неизменно эстетический и является выбором языка, он, видимо, отдавал себе отчет в том, что, кроме специальных приемов поэтической фоники (аллитераций, ассонансов, звуковых повторов, ономатопеи, анаграмм), которыми поэт владеет, есть и глубинный уровень. Это уровень таких языковых процессов, которыми автор не может управлять осознанно. Программа «БУКВА → ФОНЕМА» выявляет именно такие глубинные фонологические процессы».

Ученые пришли к выводу, что существует, условно говоря, внешний и внутренний уровни организации фоники поэтического текста. Согласно точке зрения экспертов Романовой и Павловой, «Бродский сознательно с помощью различных средств – аллитераций, ассонансов, звуковых повторов, ономатопеи, анаграмм – организовывает внешний уровень текста. Общая же картина поэтической фоники текста автору не подвластна, она складывается подспудно, и её поэту диктует язык. Так действует «принцип айсберга».

Другой программный комплекс, предлагаемый специалистами в области квантитативной филологии – «Гипертекстовый поиск слов-спутников в авторских текстах», созданный для исследования регулярно повторяющихся в поэтическом тексте лексических комбинаций». Эта программа выявляет скрытые связи слов в поэтическом тексте, характерные для индивидуального стиля того или иного автора.

«Наглядным примером того, как действует “принцип айсберга” на уровне лексики, является самое последнее коллективное исследование – выявление и изучение повторяющихся лексических комбинаций как показателей индивидуально-авторского стиля. Исследование, которое мы осуществляем в последние годы, посвящено выявлению повторяющихся лексических комбинаций в поэтических текстах. Под лексическими комбинациями понимаются одни и те же повторяющиеся слова, которые встречаются по близости друг от друга на обозримом пространстве текста в разных стихотворениях одного автора или нескольких авторов и обычно не связаны между собой какими-либо связями – грамматическими или стиховыми. До нас корпусная лингвистика научилась искать коллокации – синтаксически и семантически связанные словосочетания, в которых выбор одного из компонентов осуществляется по смыслу, а выбор второго зависит от первого (например, ставить условия, при слове предложение будет другой глагол – вносить), разъясняет Лариса Павлова  и обращает внимание на  уникальность разработки смоленских филологов,

То, что обнаруживаем мы, пока не научился делать никто. Между компонентами лексической комбинации чаще всего связей нет, это просто слова, находящиеся на некотором расстоянии друг от друга и сохраняющие это соседство в разных текстах. В силу отсутствия связей это устойчивое соседство сложно или невозможно заметить невооруженным взглядом, для этого создан специальный программный комплекс «Гипертекстовый поиск слов-спутников в авторских текстах».

Как программа выявляет скрытые связи слов в поэтическом тексте, характерные для индивидуального стиля того или иного автора?

«В память компьютера вводится некий гипертекст – корпус стихотворений на определенную тему или определенного автора. Программа составляет частотный словарь лексики этого гипертекста, для каждой частотной словоформы создается набор гиперссылок на блоки исходного текста, где она содержится. Затем программа производит поиск в исходном авторском тексте отобранных компонентов и анализирует лексический состав вокруг них в пределах заданного текстового блока (расстояние в количестве слов исследователь задает сам – 50, 100 и т.д.). Так формируется набор лексических комбинаций (пар, то есть состоящих из двух компонентов; троек, то есть трехкомпонентных, и т.д.) с гиперссылками на исходный текст», – поясняет ученый.

Кроме того, выявление подобных лексических комбинаций позволило смоленским ученым предположить, что они образуются,  по словам  профессора Романовой, «на уровне предтекста, в тот момент, когда в создании автора текст еще только формируется и происходит процесс отбора из всего словарного запаса человека необходимой лексики, которая потом выстраивается в стиховой ряд. Эти механизмы еще до конца не изучены ни лингвистикой, ни психологией. Мы поняли, что они отражают особенности авторской языковой личности и в целом психологии творчества, и отражаются в идиостиле».

Исследование развивается в двух направлениях: «тематическом» и «корпусном», а его конечная задача предполагает создание словаря лексических комбинаций.

«При «тематическом» подходе изначально отбираются тексты одного или разных авторов с заданной лексемой и ищутся спутники этой лексемы (например, война, революция, конь, Мадонна, Лоррен). Совпадающие и не совпадающие лексические комбинации интерпретируются. При «корпусном» подходе заранее выбирается определенный корпус текстов, например, книги стихов, лирики определенного автора и т.п. и выявляются лексические комбинации на всем этом материале. На первом этапе в качестве материала исследования привлекается корпус текстов одного автора. Полученные данные позволяют дополнить представление об особенностях авторского поэтического языка, прежде всего на трудно поддающемся выявлению и описанию уровне ассоциативных связей между словами.  На следующем этапе материалом исследования становятся перечни лексических комбинаций разных авторов. В результате сопоставления выявляются совпадения и несовпадения, что позволяет, с одной стороны, установить общепоэтическое «хранилище» внутритекстовых лексических ассоциаций, с другой стороны, оценить авторское своеобразие, кроме того, указать возможные интертекстуальные точки соприкосновения, анализирует Ирина Романова,

Общепоэтическое «хранилище», коллекция лексических комбинаций, встречающихся не у одного, а у ряда авторов, есть основное содержание Словаря лексических комбинаций русской поэзии. Общее «хранилище» может быть представлено и как совокупность данных, и как конкретизированный сегмент, например, Словарь лексических комбинаций русского символизма, Словарь лексических комбинаций смоленской поэтической школы и т.п».

Касательно этого аспекта изучения смоленские ученые в этом году провели новый и очень любопытный эксперимент, историей и обнаруженными закономерностями которого поделилась Лариса Павлова: «Некоторые из обнаруженных авторских лексических комбинаций мы не просто отмечали и пытались интерпретировать, как это делали всегда, а просили авторов объяснить, откуда у них это соседство возникло. Стихотворения, в которых обнаружились ЛК, мы им не называли. Абсолютно все авторы были удивлены выявленным у них программой лексическим комбинациям. Это подтверждает, что ЛК возникают на уровне предтекстовом, не контролируемом рассудком. Пока ясно следующее: повторяющиеся ЛК маркируют «узлы» еще только складывающегося в сознании поэта текста. Они притягивают как общечеловеческие, общепоэтические ассоциации, диктуемые эмпирической и языковой действительностью, так и индивидуально авторские. Последние сознательно или бессознательно могут воспроизводить и память другого текста, и личные представления человека о том или ином явлении, ситуации. Компьютерная программа находит такие комбинации. Филолог их интерпретирует прежде всего с языковой, поэтической, интертекстуальной позиций. Автор может пролить свет на психологическую мотивировку появления текста или его фрагментов. На стыке двух подходов – максимально объективного (применение компьютерного комплекса) и предельно субъективного (фиксирование авторской рефлексии) мы и рассчитываем получить новый результат».

На сегодняшний день накоплен богатый опыт лексикографических исследований, которые учитывают особенности авторского словоупотребления и в совокупности представляют языковую картину мира автора, отражающую его мировоззрение. В материале смоленских филологов – творчество поэтов 18-21 веков. Однако, по замечанию ученых, составить коллективный портрет поэта той или иной эпохи невозможно. Общие черты так или иначе войдут в общепоэтические тенденции. Итогом исследований может послужить создание Словаря лексических комбинаций русской поэзии. Тем временем ученые занимаются разработкой структуры словаря, отдельных его авторских и тематических разделов и рубрик.

Какие факты (или отзывы исследователей) свидетельствуют о востребованности созданных программ для задач идентификации автора, установления его принадлежности или близости к литературному течению? 

«Многолетний опыт коллектива смоленских филологов (необходимо назвать двух ведущих ученых, профессоров С.Н. Андреева и В.С. Андреева), составивших «Смоленский центр квантитативных исследований» на разных этапах и направлениях этой работы был высоко оценен в профессиональном сообществе и, в частности, поддержан грантами фондов РГНФ, РФФИ, Министерства образования и науки Российской Федерации, Фонда Президентских грантов и др. Например, наиболее значимые и резонансные проекты: РГНФ, 1996, 96-06-17115, 1997, 97-04-12005 В «Универсальная компьютерная поисково-информационная система ПАСТЕРНАК»; госзадание Министерства образования и науки Российской Федерации Базовая часть. 2012-2016. Проект №2882 «Изучение филологических проблем точными методами»;  грант РФФИ и Администрации Смоленской обрасти № 17-14-67002-ОГН «Смоленская земля в литературных персоналиях: открытая справочно-библиографическая база (по материалам архива В.Е. Захарова)»; грант Фонда Президентских грантов № 18-1-005581 – проект создания открытой информационно-образовательной системы «Смоленская земля в памятниках литературы»; проект РГНФ № 12-04-00111а «Построение модели индивидуального стиля (на основе лингвистических характеристик)», 2012 г.; проект РГНФ № 15-04-00285 «Квантитативное описание метафоры в стихотворном тексте», 2015 ; проект РГНФ № 14-04-00266 «Взаимодействие элементов стихотворного текста» 2014;  проект РГНФ № 15-04-00371 «Динамическая модель стихотворного текста», 2015»,профессор Ирина Романова перечислила работы, являющиеся социально-ориентированными и проявившими  себя как показатели продуктивной деятельности ученых НОЦ «Смоленский центр квантитативной филологии».

Ответ коллеги дополняет профессор Лариса Павлова: «Живой интерес коллег подтверждается их приглашениями почитать лекции об опыте исследований смоленских филологов. Подобные лекции были прочитаны в Гродненском государственном университете им. Я. Купалы (Республика Беларусь, 2019), в Хельсинском университете (2018), Университете Николая Коперника в Торуне (Польша, 2016).

В рамках тематики работы «Смоленского центра квантитативных исследований» осуществляется сотрудничество с филологами ряда стран: Германии (Г. Альтман), Австрии (Э. Келих), Чехии (М. Мистеки), Румынии (И.-И. Попеску), Китая (Ф. Фан) и др., участие в работе редакционных коллегий международных журналов «Glottotheory. International Journal of Theoretical Linguistics», «Glottometrics» (оба журнала входят в базу Scopus и Web of Science), в редакционной коллегии международной серии «Studies in Quantitative Linguistics», рецензирование международных конференций (Digital Humanities, QUALICO). В результате исследований с зарубежными коллегами был опубликован ряд совместных статей и монографий. К совместной работе приглашен Симон Майер-Фиракер, профессор Института Германистики (отделение прикладной лингвистики) Технического университета г. Дрездена (Германия). Автор более 50 научных публикаций, в том числе в изданиях, индексируемых в базе данных Web of Science. Разработчик корпусной мультилингвальной базы fussballinguistik. Член научных международных объединений «Дискурсы в интердисциплинарных проекциях», «Дискурсы и дигитализация» и др. Кроме того, к участию в проекте будут приглашены лингвисты, с которыми осуществляется сотрудничество в настоящее время из международной лингвистической ассоциации по квантитативной лингвистике».

Результаты применения компьютерных программных комплексов и лингвистические наблюдения ученых смоленской научной школы показали, что художественный текст, в особенности, поэтический, и его структура поддаются учету и систематизации. Определение параметров языковых явлений – одно из решений проблемы в распределении языкового материала в художественном тексте.

вадим соломонович баевский доктор филологических наук профессор заслуженный деятель науки рф квантитативная филология литература ноц «смоленский центр квантитативной филологии» смоленского государственного университета павлова лариса викторовна доктор филологических наук профессор кафедры литературы и журналистики поэзия романова ирина викторовна доктор филологических наук профессор заведующая кафедрой литературы и журналистики филология

Назад

Социальные сети

Комментарии

Авторизуйтесь, чтобы оставить комментарий

Информация предоставлена Информационным агентством "Научная Россия". Свидетельство о регистрации СМИ: ИА № ФС77-62580, выдано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций 31 июля 2015 года.