Ход времени не только перекраивает континенты, стирает с лица Земли государства и народы, но и заставляет забывать языки, на которых говорили оставшиеся в далекой истории носители. И для лингвистов сохранение и восстановление того или иного языка ранее казалось невозможным. Сегодня развитие компьютерных технологий может дать такую возможность. В лаборатории автоматизированных лексикографических систем Научно-исследовательского вычислительного центра МГУ планируют сохранить один из малых языков России, находящийся на грани исчезновения, — нивхский.

Надежда на возрождение языка появилась благодаря успехам в области нейросетевых моделей и искусственного интеллекта. В чем уникальность проекта? Каковы основные этапы его реализации? Чем интересен нивхский язык и почему его так важно сохранить в том числе для науки? Об этом мы говорим с руководителем лаборатории доктором филологических наук Павлом Валерьевичем Гращенковым.

Павел Валерьевич Гращенков  Фото: Ольга Мерзлякова / «Научная Россия»

Павел Валерьевич Гращенков  

Фото: Ольга Мерзлякова / «Научная Россия»

 

— Сегодня тема нашего разговора крайне интересная — цифровое сохранение языков малых народов России. А именно, языка нивхов.

— Да, но пока мы находимся в самом начале проекта.

— Почему именно нивхский язык попал в поле вашего внимания как ученого-исследователя?

— Конечно, языков, достойных того, чтобы ими занимались лингвисты, достаточно много. К счастью, в России мы имеем уникальную возможность — у нас насчитывается более 200 языков. Часть из них — это языки коренных малочисленных народов, в том числе нивхский, который занимает в нашем языковом многообразии, безусловно, очень яркое и важное место. Отчасти потому что это так называемый язык-изолят. То есть не установлено родственных ему языков. Около 100 лет назад, когда лингвисты только познакомились с нивхским языком, были идеи, что он может быть родственен так называемой алтайской семье языков, то есть тюркским, монгольским, тунгусо-маньчжурским языкам. Но сейчас считается, что это не так. Стандартные методы, которыми восстанавливается языковое родство, не показывают, что это язык той же семьи. То есть нивхский язык уникален. И у него есть много замечательных черт.

Ареал распространения нивхского языка Автор фото: П.В. Гращенков 

Ареал распространения нивхского языка 

Автор фото: П.В. Гращенков 

 

Для начала давайте посмотрим, где на нем говорят. Это северная часть острова Сахалин и прибрежная часть материка вдоль реки Амур. Нивхов раньше называли «гиляками» (они упоминаются в книге А.П. Чехова «Остров Сахалин»). К современному названию начали переходить около 100 лет назад. «Нивх» в переводе на русский означает «человек». Это частое явление, когда самоназвание языка и народа связано с обозначением человека.

По последней переписи нивхов насчитывается около 4,5 тыс. человек. Любопытно, что их было примерно столько же, когда они попали в сферу наблюдения большой России 100–150 лет назад. Только тогда все нивхи говорили по-нивхски, а сейчас по-нивхски говорят очень и очень немногие. Это в основном люди, которым за 70 лет. При этом свою богатую, самобытную культуру — традиционную культуру северного народа — нивхи любят и сохраняют. Кухня, обряды, традиции, песни передаются, но вот язык утрачивается. И это, конечно, еще одна причина, почему нивхским языком необходимо заниматься.

Если говорить про особенности этого языка и начать с фонетики, стоит выделить богатый консонантизм, то есть большое количество согласных, в том числе достаточно сложных для русского уха. Если в русском языке есть только заднеязычные согласные (к, г, х), то в нивхском имеются звуки еще более «глубокого», так называемого увулярного ряда (от лат. uvula — «язычок»; небольшой отросток на заднем крае мягкого неба). Кроме этого, есть такая экзотика, как глухой звук «р», который произносится как нечто среднее между звуками «р» и «ш».

Что касается грамматики, то она действительно уникальна для России. В ней есть ряд явлений, которые очень редки, либо их сочетание не встречается в одном языке.

Формально нивхский язык относят к так называемой палеоазиатской языковой семье, в которую входят эскимосско-алеутские, енисейские и некоторые другие языки. Их собрали вместе по региональному признаку. Впервые такое объединение языков автохтонного населения Сибири предложил энтограф и географ, живший в России в XIX в., Леопольд Иванович Шренк. Однако с точки зрения структуры эти языки не имеют ничего общего между собой. И те явления, которые мы находим в нивхском и которые похожи на явления в других языках, могли возникнуть под влиянием соседствующих языков, но не потому, что они были родственными. Вот, например, глагол «шуметь» в предложении «шумят кошки» стоит в единственном числе. То есть в нивхском не обязательно согласование по числу между подлежащим и сказуемым. И это характерно для языков алтайской семьи, например тюркских, монгольских. Но вполне возможно, что это и «собственная» черта нивхского. Определить уже невозможно.

Пример разбора нивхского текста Автор фото: П.В. Гращенков 

Пример разбора нивхского текста 

Автор фото: П.В. Гращенков 

 

Из грамматических явлений в нивхском языке, которые уникальны для России, — наличие счетных классификаторов. Это слова, которые обязательно употребляются с числительными. Они есть во многих языках мира. Для примера возьмем конструкцию «три кошки». По-нивхски это будет «кыск тяӄр», то есть «кошки-три», «т» — это три, а «яӄр» — классификатор. Когда мы считаем кошек, используем один класс. Когда считаем людей — другой. Когда считаем какие-то объекты неодушевленные — третий. И всего в нивхском 26 счетных классов!

Еще из уникального для России — в нивхском совершенно иначе устроено согласование подлежащего и сказуемого. В русском языке сказуемое принимает ту же форму лица и числа, что и подлежащее. Например, «Мы приходим на работу». Если есть зависимое предложение, зависимая предикация, она оформляется, например, деепричастием — «Встав утром, мы приходим на работу». Вот у этой формы «встав» нет ни лица, ни числа. А «приходим» — глагол первого лица множественного числа. В нивхском устроено ровно наоборот. То есть, зависимая форма «встав» имеет лицо и число. А форма главного глагола не имеет показателя лица и числа. Еще в нивхском есть много падежей, но нет главных падежей: именительного, винительного и родительного.

В итоге, по мере того, как ты занимаешься нивхским языком, впечатляешься всё больше и больше тем, что явления, с которыми знакомился в других языках, в нём устроены совершенно иначе. И необходима большая работа, чтобы все это изучить и зафиксировать. И иногда такие факты вносят коррекцию в теории языка, которые мы сейчас имеем.  

— А с чем связаны все эти особенности? С бытованием данного народа?

— Если лексика сильно зависима от того, где люди живут, — в горах, рядом с морем, сколько там оттенков снега, — то грамматика, как считают лингвисты, точно не связана с условиями быта. Кстати, еще одна интересная черта нивхского языка, необычная для носителей европейского языка, — это полное отсутствие прилагательных! Вместо прилагательных используются глаголы. Нельзя сказать «белый снег», говорят «белеющий снег», если примерно перевести на русский. Данное явление присутствует во многих языках Юго-Восточной Азии, что наводит на мысли о том, что нивхи могли приплыть или прийти откуда-то с юга. У них, кстати, есть устное предание о том, что они приплыли с юга, по пути встретили японцев. Те недружелюбно с ними обошлись, они поплыли дальше на север, встретили айнов, с которыми сначала тоже вроде бы были стычки, но потом они с ними подружились и остались на Сахалине. Есть противоположная легенда о том, что изначально остров Сахалин был частью материка. И кто-то нерадивый из нивхов не одарил хозяина моря, тот разгневался, наслал волны и Сахалин откололся от материка. В целом достоверно не известно, как оно было на самом деле, и не факт, что удастся установить. Но, может быть, археологам, антропологам, этнографам что-то удастся сделать для понимания того, откуда нивхи пришли и с кем состояли в родстве.

— Расскажите про ваши полевые исследования на местах проживания нивхов.

— Они все в будущем. У меня была одна поездка частного порядка на Сахалин. Конечно, хотелось бы еще доехать до Амура, потому что там тоже живут носители языка, с которыми хотелось бы встретиться. Данная поездка не преследовала цель собрать материал, скорее стояла задача получить информацию о том, где этот материал можно собрать. Я старался объехать центр, восток и север острова. Был в селе Некрасовка, в котором, согласно переписи, живет наибольшее число нивхов — порядка 600 человек. Из них нивхским владеют лишь те, кто выучил язык до 1950 г. Это люди, которым сейчас за 70 лет. И они между собой, к сожалению, на нивхском не говорят. Язык в естественном виде не функционирует. Хотя есть некоторые программы ревитализации языка. 

Кстати, в конце 2024 г. мы выиграли небольшой грант РНФ на изучение нивхского языка. И наши студенты, которые занимались языком на общественных началах и из любви к нему, теперь смогут продолжить изыскания официально. А если вдруг еще и Русское географическое общество даст нам свой грант, то мы точно поедем на Сахалин, где те же фольклорные тексты будем изучать уже вместе с носителями языка и записывать. И в результате сможем составить тексты в виде корпуса, как это принято у лингвистов. В первую очередь он пригодится специалистам, например для написания работ по структуре языка. И таким образом нивхский язык более полно войдет в лингвистику в качестве одного из языков, материал которого мы можем использовать для подтверждения или опровержения тех или иных теорий. И это одна из веских причин, чтобы сохранять малые языки. Ведь мы боимся потерять биологическое разнообразие на планете. Вот и языки — это такая же уникальная вещь. Тот же нивхский опровергает одни существующие представления о структуре человеческого языка и подтверждает другие, альтернативные концепции. И если мы не успеем в должном количестве зафиксировать этот язык, то бесценные данные, к сожалению, пропадут.

— То есть как такового корпуса нивхских текстов сегодня не существует?

— Корпус есть, он собран старшим научным сотрудником Института языкознания РАН Валентином Юрьевичем Гусевым и его коллегами. Он не очень большой, доступен для поиска в интернете. И мы поставили перед собой задачу увеличить его количественно и разнообразить жанрово.

П.В Гращенков: «Мы боимся потерять биологическое разнообразие на планете. Вот и языки — это такая же уникальная вещь» Фото: Ольга Мерзлякова / «Научная Россия»

П.В Гращенков: «Мы боимся потерять биологическое разнообразие на планете. Вот и языки — это такая же уникальная вещь» 

Фото: Ольга Мерзлякова / «Научная Россия»

 

— А у самих носителей языка есть литература на нивхском?

— Да, хороший вопрос. Письменность была создана. Попытки ее создания начались как раз 100 лет назад. И орфография языка зафиксировалась примерно в 1970-е гг. Вышло небольшое количество книг — сказаний, преданий, песен. Но хотелось бы, чтобы их было больше. Например, есть известный нивхский писатель Владимир Михайлович Санги. Он живет в поселке Ноглики (восточная часть Сахалина). Ему в 2025 г. исполняется 90 лет. И он свои некоторые произведения, исходно написанные на русском, переводит на нивхский. Есть замечательная Александра Владимировна Хурьюн из Южно-Сахалинска, которая издает газету на нивхском языке. Называется газета «Нивх диф», то есть «Нивхское слово». Есть еще несколько энтузиастов языка, которые пишут тексты на нивхском, но их не так много. Поэтому любой текст — на вес золота.

— И самое время поговорить о вашем проекте сохранения нивхского языка при помощи цифровых технологий. На какой стадии он находится?

— Вообще задача ревитализации языка достаточно сложна. Было не так много проектов, которые заканчивались успешно. Самый, наверное, нам известный — это проект возрождения иврита, который исчез во II в. н.э. и существовал исключительно в качестве книжного языка для священнослужителей. Возродить иврит удалось уже в XX в. благодаря настойчивой работе энтузиастов. Есть пример возрождения в Испании и Франции баскского языка, который тоже был близок к исчезновению.

Среди подходов к ревитализации языка хочу выделить метод языковых гнезд, который к нивхскому языку пыталась применить известный лингвист Екатерина Юрьевна Груздева. Языковое гнездо — это малая община, в которой люди говорят между собой исключительно на родном языке. Хочешь не хочешь, а говори. И важно, чтобы старшие носители языка, так называемые caretakers, говорили с детьми. Возраст до семи лет — это так называемый критический период для усвоения языка. Ребенка не надо заставлять учить язык. Он сам его впитывает естественным образом. Если бы гнезда удалось заставить работать, при хорошем стечении обстоятельств мы могли бы получить молодое поколение нивхско-русских билингвов.

Сегодня мне известны два нивхских языковых гнезда: «Нивхинка» в Ногликах и «Кыхкых» в Некрасовке. Там собираются замечательные энтузиасты, но их немного, и всем около 70 лет. И детей там нет. А значит, задачу возрождения нивхского языка они решить, к сожалению, не могут. Поэтому сегодня перед нами стоит задача как минимум консервации языка. И мы сейчас как раз находимся на этой стадии. Мы стараемся собрать как можно больше нивхских текстов, в идеале тех, у которых есть русский перевод. Нужно составить из них относительно большой массив, который затем разместим в интернете для общего пользования.

Следующим шагом, когда у нас будет достаточное количество данных, станет разработка цифровых инструментов при помощи современных технологий, в первую очередь нейросетей. Это могла бы быть нейросетевая модель, которая говорит по-нивхски, наподобие существующих голосовых помощников или ассистентов, встроенных в разные устройства. Например, большие языковые модели ChatGPT или YandexGPT достаточно хорошо умеют «разговаривать». Конечно, много вопросов к тому, что и как они говорят. Но это так называемые авторегрессионные модели, которые просто умеют строить грамматически правильные предложения на определенном языке. Для того чтобы обучить такие модели говорить на русском языке, используют большое количество выверенных данных. В случае с нивхским языком у нас, конечно, нет такого. И здесь могут пригодиться многоязычные или мультиязычные модели, которые недавно появились. Они учатся сразу на нескольких языках. И если мы возьмем язык, который не входил в число тех, на которых модель обучилась, то, может быть, она с ним тоже научится справляться. То есть теоретически мы можем подмешать нивхские данные в другие языки и получить модель, которая будет с нами беседовать на нивхском. И если мы не можем передать языковую компетенцию людям, то, может быть, сможем ее зафиксировать в таком цифровом виде. Понятно, что это будет не идеальная модель, так как сети и по-русски говорят не идеально. Хотелось бы также при достаточном количестве данных сделать нивхско-русский переводчик. Есть энтузиасты (например, лингвист и разработчик Руслан Ирекович Идрисов), которые думают над тем, как создать синтез речи на нивхском языке. Это отдельная техническая задача. Когда есть голосовые записи и они же есть в виде текста, то есть возможность научить модель произносить определенные слова правильно.

Фото: Ольга Мерзлякова / «Научная Россия»

Фото: Ольга Мерзлякова / «Научная Россия»

 

— И это позволит решить вопрос верной фонетики?

— Да, так и есть. Мы помним, когда русскоязычные голосовые ассистенты только появлялись, они говорили с непонятными интонациями, запинками и т.д. Сейчас голосовые ассистенты говорят по-русски относительно складно. И если вдруг у нас получиться обучить модель говорить на нивхском языке, то, возможно, — это пока из области фантастики, — мы сможем создать соответствующую умную колонку или ассистента в телефоне. В первую очередь, они пригодятся детям, которые прекрасно общаются с теми же голосовыми помощниками вроде «Алисы» или «Маруси». То есть дети, взаимодействуя с цифровым ассистентом, смогут хоть как-то усваивать нивхский язык параллельно с русским.

— Можно сказать, у нас в стране это первая попытка консервации и возрождения языка при помощи цифровых технологий?

— Да, можно и так сказать. У нас в стране очень много занимаются малыми языками. Есть разные проекты, которые сохраняют языки, по крайней мере в виде данных, доступных лингвистам. Но идеи возродить малый язык с помощью нейросетевых моделей до нас не предлагались. И мне кажется, что пора цифровые технологии подключать к чему-то полезному, а не просто к болтовне.

Если, например, для нивхского языка будут, с одной стороны, модели, которые либо порождают тексты, либо переводят с русского на нивхский, а с другой — модели, которые могут эти тексты озвучивать, задача цифровой консервации для нивхского будет решена. Но до этого нам пока еще очень далеко.

— А в мире есть такой опыт?

— Об этом мне тоже неизвестно. Конечно, я бы удивился, если бы об этом никто, кроме нас, не задумывался в контексте восстановления языка. Конечно, были примеры обучения моделей на малых языках, были также попытки реконструировать мертвые языки с целью понять, как они звучали изначально. Но вот к такой социальной программе именно ревитализации языка цифровые технологии пока не подключали. И если наши большие компании, например «Яндекс», «Сбер» или «ВКонтакте», у которых много специалистов и ресурсов, вдруг этим заинтересуются, то мы готовы к сотрудничеству. А пока мы находимся на стадии сбора корпуса материала для нужд лингвистов.

— Помимо нивхского, есть еще языки, которые хотелось бы таким образом сохранить?

— Есть, конечно. Например, большое количество малых языков в той же Сибири. Не очень понятно, насколько сохранились енисейские языки, камчатские языки. Из тех языков, с которыми я знаком, есть прекрасный тюркский язык — караимский. На нем, к сожалению, носители языка, караимы, уже не говорят. Они живут в Крыму, есть общины в Литве и Польше. Текстов там записано достаточно, но все равно необходимо создать корпус, потом заняться его оцифровкой. То есть ситуация такая же, как с нивхским языком.

— Таким образом, ваш проект по оцифровке нивхского языка может создать определенный алгоритм для работы с другими малыми языками?

— Я бы так сказал: если получится с нивхским, это уже будет замечательно. И, конечно, будет здорово, если впоследствии наработанный алгоритм удастся применить к тому же караимскому языку. В принципе, я думаю, что на данном этапе развития технологий это можно и нужно делать.