Искусственный интеллект — сам себе переводчик, или его нужно адаптировать к русскому языку? Как вообще происходит адаптация больших языковых моделей (Large language model, LLM) к разным языкам? Способны ли нейросети генерировать тексты, сравнимые по уровню с русскими классиками? Обо всем этом мы говорим с Михаилом Тихомировым, разработчиком проекта Ruadapt — одного из первых проектов по созданию методологии адаптации больших языковых моделей к русскому языку.

Справка: Михаил Михайлович Тихомиров — кандидат физико-математических наук, старший научный сотрудник лаборатории анализа информационных ресурсов Научно-исследовательского вычислительного центра (НИВЦ) МГУ им. М.В. Ломоносова, один из разработчиков проекта по адаптации больших языковых моделей на русский язык Ruadapt

— Что такое большие языковые модели?

— Возможно, не все слышали про большие языковые модели, но на самом деле они используются повсеместно. ChatGPT, GigaChat, YandexGPT, «Алиса» — все это инструменты, созданные на базе больших языковых моделей. Большая языковая модель — самое главное ядро, мозг всех этих систем. Это большие нейросети, у них миллиарды, даже триллионы параметров. Их очень дорого обучать с нуля и даже просто использовать.

Большие языковые модели обучаются специальным образом, чтобы отвечать на ваши вопросы, содержат знания о мире, о языке. Иногда они рассказывают очень интересные вещи, «понимают» контекст разговора — хотя, конечно, это никакой не разум. Но это очень мощная нейросеть, у которой одна простая функция — предсказать следующее слово. Этот принцип лежит в основе всех языков GPT.

— Правильно ли я понимаю, что изначально они построены на базе английского языка?

— Не совсем так. Процедура обучения — самая дорогая часть — заключается в том, что мы берем наборы данных, состоящих из текстов (например, «Википедии» или разных новостных статей), и на этих текстах обучаем модель предсказывать следующее слово. Грубо говоря, просим ее повторить текст и так делаем много раз.

Но с точки зрения контента мы живем в англоцентричном мире, поэтому большинство текстов, конечно, на английском языке. Теперь еще и китайского языка становится много, но преобладает все-таки английский. И так как, к сожалению, IT-мир тоже сформирован вокруг США, то первые и многие лучшие языковые модели создавались с упором именно на английский язык. А русский язык, по сути, оставался на периферии внимания разработчиков.

— Как вообще происходит адаптация к другим языкам?

— Прежде чем говорить про перевод, я бы сначала уточнил, а зачем это вообще делать. Потому что если вы посмотрите на тот же ChatGPT, вы увидите, что он прекрасно работает и на русском языке. И это, конечно, совершенно верно и справедливо, когда мы говорим про такие супербольшие модели. Но тут есть два момента. На английском языке, во-первых, все равно лучше, а во-вторых, дешевле. Тут мы приходим к такому понятию, как токенизация.

Токенизация — это способ обработки входного текста — например, вопроса «Какая сегодня погода?» — и его преобразование в последовательность элементов, которые дальше будут обрабатываться языковой моделью. И чем больше этих элементов для одного текста, тем хуже, потому что их дольше обрабатывать.

На самом деле модели «питаются» не словами, а специализированными токенами — часто это полслова, треть слова, иногда даже символ. Отсюда и токенизация. Проблема в том, что алгоритм токенизации зависит от того, какие данные были в исходных корпусах. Если мы возьмем текст на английском языке и токенизируем его, получится, допустим, 20 токенов. Если мы переведем тот же текст на русский язык, пусть даже по символам будет то же самое, и токенизировать мы будем той же самой моделью, мы все равно получим уже 30—35 токенов. А это, во-первых, значит, что работа занимает больше времени, во-вторых, что главное, вы же платите за токены. И из-за того, что русский язык хуже представлен, токенов получается больше, соответственно, использовать их дороже. Дороже и дообучать.

Из-за этого и возникла мысль: почему бы не создать модели, которые изначально хорошо работают с русским языком, с точки зрения как токенизации, так и качества. Но обучать с нуля — это миллионы долларов. Это чтобы только попробовать обучить, а чтобы сделать хорошо, нужны миллиарды долларов. В России только такие команды, как «Сбербанк» и «Яндекс», могут себе позволить столь масштабные эксперименты. Мы, конечно, не обладаем сопоставимо большими ресурсами в науке, но все же можем попробовать посмотреть на задачу с другой стороны: почему бы не взять готовую англоцентричную или мультиязычную модель, у которой плохая токенизация, но она уже в целом достаточно «умная», и перевести ее на новую токенизацию? Это и есть цель проекта Ruadapt. Таким образом, мы получаем и удешевление работы системы для бизнеса уже в процессе, и ускорение генерации текста с точки зрения символов. То есть если вы знаете, что у вас текст в тысячу символов, вы его получите на 30% быстрее. Такая идея лежит в основе нашего проекта.

Михаил Тихомиров

Михаил Тихомиров

Фото: Ольга Мерзлякова / «Научная Россия»

— То есть Ruadapt — это модель адаптации к русскому языку?

— Да, это методология адаптации в первую очередь. У нас есть свои модели первого, второго и третьего поколений. Но за основу мы берем уже готовую хорошую мультиязычную модель. Сейчас это, кстати, зачастую китайские модели. Дело в том, что открытых моделей не так много. Например, у «Сбербанка» есть хорошие русскоязычные модели, и с токенизацией у них все отлично. Но «Сбербанк» свои лучшие модели хранит у себя, не выкладывает. Бизнес не может получить модели бесплатно, надо платить за доступ к GigaChat.

При этом многие китайские компании обучают свои модели, тратят на это миллионы долларов, а потом дарят результат сообществу. И если у вас в компании достаточно вычислительных ресурсов, вы можете использовать эти модели и никому за это ничего не платить. И вот наша цель — совершенствовать именно такие модели, чтобы они лучше работали на русском языке. Тогда и в бизнесе будет больше вариантов их применения. Да и в целом это интересно для исследователя — что и как мы можем поменять в языковой модели, чтобы улучшались одни характеристики и не ухудшались другие.

— Хорошо, вы создали методологию. Но у вас уже есть и готовые экспериментальные модели, что можно сказать о них?

— Итак, мы создали методологию адаптации. Ее идея состоит в следующем. В большой языковой модели есть вещи, которые связаны с языком, то есть с токенизацией. Но это лишь некоторые слои, так называемые нейросети. А есть еще и те, которые не связаны. И внезапно оказывается, что несвязанных с языком компонентов 95%. Возникла идея заменить только эти 5% и дообучить их на новую токенизацию. Идея, конечно, не нова. Есть китайские работы, есть похожие идеи с другими моделями. Но еще нужно довести эту идею до реального рабочего продукта, который можно будет использовать. Китай уже полностью перешел на обучение с нуля. Они могут это себе позволить, потому что у них много компаний с большим количеством видеокарт. Наша же идея состоит в том, что мы берем языковую модель, фиксируем ее основные веса — основную структуру ее мозга — и не меняем их, чтобы не испортить. А те веса, которые связаны с языком, с токенами, мы заменяем на новые, более подходящие для русского языка, и дообучаем на сотнях гигабайт текстов. Это не так много по меркам языковых моделей — их обучают и на терабайтах, то есть на триллионах слов, а мы обучаем примерно на 1—10 млрд слов. В итоге окажется, что модель «заговорит» на новом языке, на новых токенах. И при этом она практически не потеряет своего исходного качества, а в каком-то смысле даже приобретет.

Наши модели — это побочный, но при этом самый полезный продукт наших исследований. И мы слышали от некоторых пользователей, что для их задач наши модели работают лучше. То есть они сравнивали исходную китайскую модель и нашу адаптированную версию — и оказывалось, что наша работает быстрее и лучше. Но, конечно, многое зависит от задачи.

То есть мы создали методологию, написали ряд научных статей и продолжаем совершенствовать эту работу. В процессе написания статей мы также выпускаем модели — лучшие на текущий момент. Первые наши модели начали использоваться примерно год назад. И потом я на конференциях встречал представителей бизнеса, которые рассказывали мне об используемых ими моделях. Другие исследователи тоже начали сравнивать свои модели с нашими. Например, команда «Т-Банка» занимается теперь примерно тем же, что и мы. Они тоже адаптируют готовые языковые модели к русскому языку, заменяют токенизацию. Понятно, что они делают это, фокусируясь на своих бизнес-задачах. Но они, когда адаптируют свои модели, сравнивают их с нашими адаптациями. Так что Ruadapt уже приобрел образ продукта и, можно сказать, стал брендом — именно за счет того, что он полезен.

— Что планируется улучшать?

— Текущая методология сконцентрирована на определенных типах моделей. Это так называемые плотные модели, при работе которых все веса всегда задействованы одновременно. Тренд последнего года — модели специального типа, которые называются mixture of experts («смесь экспертов»). В них много весов, еще больше, чем в обычных полных моделях, но при обработке каждого токена, каждого слова, и при генерации одного слова задействовано лишь 10% весов. То есть модель сама выбирает, какие знания задействовать в каждый момент времени. И вот такие модели мы пока не умеем адаптировать, потому что у них есть свои особенности. Кодовая база еще не везде готова. К тому же они «растут вширь», то есть все время наращиваются знания, а в процессе работы их будет задействовано мало. Это означает новый технический вызов: как это вообще все обучить на имеющихся ресурсах? Если бы у нас была возможность обучить с нуля, мы бы даже не ставили такую задачу. Но у нас задача обучить в ограниченных ресурсах. И вот тут наш следующий шаг — именно обеспечить адаптацию технически.

Но у этой идеи есть и более интересные направления. Во-первых, хочется, чтобы не только скорость генерации росла и качество не ухудшалось, но и научиться качественно замерять русскоязычность в моделях. Потому что иногда видно, что какие-то модели отвечают более сухо, в каких-то сразу замечаешь перевод с английского. То есть модель пишет изначально по-русски, ничего не переводит, но внутри-то она «мыслит» по-английски, и в тексте это заметно. И если говорить о культурных особенностях, поговорках и т.д., то многие модели могут их не знать, путать значение. И вот вопрос: можно ли процедуру адаптации использовать также и для того, чтобы усилить модели в этом направлении, сделать их более осведомленными о русской культуре, о русском языке, о том, как писать грамотно? То есть они, конечно, пишут грамотно, но текст тексту рознь: сравните тексты классиков и какую-нибудь бульварную литературу.

Хочется продвигаться в этом направлении, поэтому мы наращиваем наши темпы, привлекаем студентов. Вы представили меня как автора и разработчика, но понятное дело, я работаю не один. Когда все начиналось, нас было только двое, но сейчас мы уже привлекли в нашу лабораторию дополнительные финансирование и персонал. Надеюсь, получатся новые интересные исследования в этом направлении.

 

Фото: Ольга Мерзлякова / «Научная Россия»

— В своем Telegram-канале вы писали, что сейчас существует тренд на мультиязычность в больших языковых моделях. В чем он выражается и будет ли в связи с этим дальше актуальна адаптация?

— Это очень хороший вопрос. Иногда мне говорят: а зачем вы это делаете, ведь модели и так отлично пишут на русском языке? Но дело в том, что у всех моделей, которые сейчас есть в открытом доступе, — в основном китайских, вроде Qwen или DeepSeek, — есть одна общая проблема. Говорят-то по-русски они хорошо (да, иногда проскакивают иероглифы, но уже значительно реже), но если посмотреть на качество токенизации, представления текста, там все уже не так безоблачно. Оно не поменялось с 2022—2023 гг. То есть они используют свою токенизацию, которой уже три-пять лет, потому что для их задач она работает прекрасно.

Если говорить о тренде мультиязычности, то когда мы начинали наш проект, в открытом доступе были в основном модели от Meta* и они еще плохо «говорили» по-русски. Для устранения этой экономической несправедливости было необходимо не только перевести и ускорить процесс (включая обучение, ставшее эффективнее благодаря новой токенизации), но и повысить качество языка и предоставляемых ответов. И тогда это работало.

Этому посвящена наша первая статья о том, как мы делали наш Ruadapt, который тогда еще так не назывался. И модель действительно начинала отвечать лучше, если смотреть по метрикам, по средним показателям. Мы привлекали студентов, чтобы они сравнивали ответы и говорили, какой лучше. При этом им не сообщали, какая модель наша, а какая — нет. Соответственно, мы наблюдали рост качества.

Теперь модели «поумнели» и мы уже не наблюдаем такого роста качества. Даже наоборот, иногда замечаем небольшую деградацию в каких-то задачах. Но с другой стороны, мы видим и повышенный интерес к таким методам, потому что, как я уже упомянул, «Т-Банк» последние два года занимается тем же — недавно у них был релиз модели Т-Pro 2.0. Это продукт в основном для разработчиков, но с точки зрения идеи это тот же Ruadapt: замена токенизации и адаптация к русскому языку. То же делает и «Яндекс». Они выпустили Яндекс GPT-5 Pro, и это первая их модель, которая не создана полностью их специалистами. Версия Lite полностью собственная, но именно Pro-версия — это адаптация.

Почему крупные компании это делают? Потому что модели во всем мире выходят очень часто. Есть богатый вычислительными ресурсами Китай, и он выпускает новые модели буквально каждый месяц. А вы со своим ограниченным бюджетом — пусть даже таким большим, как в «Яндексе», — тратите полгода разработки и получаете модель, которая устареет уже через два месяца. Конечно, у каждого бизнеса свои задачи, но если говорить в целом, почему бы не взять готовую китайскую модель? Ее адаптация обойдется в десять раз дешевле, и это даст хороший результат.

Зачем же мы занимаемся разработками? Это очень тонкий и важный вопрос. Несмотря на то, что я занимаюсь адаптацией, мой ответ такой: в России обязательно должны быть команды, и желательно исследовательские, развивающие именно обучение с нуля. Иначе у нас не будет компетенций, чтобы поспевать за миром. А тем командам, у которых нет денег, можно сосредоточиться на адаптации.

Важно понимать: адаптацией занимаются разные команды, и они подходят к вопросу с разных сторон. Это не решить нажатием кнопки. Всегда можно делать лучше или хуже. И вот вопрос к нам как к ученым: как это делать лучше, дешевле, эффективнее?

*Компания Meta признана экстремистской организацией и запрещена на территории РФ

Интервью подготовлено при поддержке Министерства науки и высшего образования РФ