В связи с развитием и широким распространением искусственного интеллекта, в частности, языковых моделей, возникла необходимость и в системах распознавания — например, для проверки научных текстов, когда нужно четко понимать, написаны ли они человеком или сгенерированы ИИ. Но существующие системы зачастую работают «вслепую», выдавая только окончательный вердикт, является ли анализируемый текст авторским или принадлежит нейросети. Команда ученых МФТИ, Сколтеха, Института искусственного интеллекта AIRI и других научных центров разработала специальную методику распознавания, которая также подробно объясняет, почему был сделан именно такой вывод о тексте.
В качестве основы для новой системы распознавания ученые применили разреженные автокодировщики (SAE) — технику интерпретации нейронных сетей, которая обеспечивает разреженность анализируемых данных. Иными словами, интерпретируется не все состояние нейросети, а каждый ее компонент по отдельности. В данном случае языковые модели разбиваются на отдельные слои: один, например, отвечает за сложность построения предложений, другой — за использование определенной лексики. Об этом рассказала Лаида Кушнарева, старший академический консультант Huawei, одна из авторов проекта.
«Люди, регулярно имеющие дело с текстами, сгенерированными ChatGPT, зачастую могут распознать такой текст по характерным чертам — например, неуместно сухому и формальному языку, чрезмерно длинным и «водянистым» вступлениям перед переходом к сути, повторяющимся формулировкам одной и той же мысли и низкой информационной плотности в целом. Однако большинство популярных детекторов сгенерированных текстов не показывают, в какой степени в тексте присутствуют эти и другие понятные человеку особенности. В отличие от них, наш детектор на основе SAE позволяет автоматически раскладывать тексты на «атомарные» числовые признаки, многие из которых поддаются интерпретации в терминах, понятных человеку», — отметила Лаида Кушнарева.
При этом важно учитывать, что нейросеть может генерировать разные тексты, в разной стилистике – в зависимости от того, какой запрос поступит. В ходе исследования выяснилось, что в языковой модели существуют определенные механизмы, отвечающие за тот или иной компонент текста, которые могут меняться в зависимости от запроса. Поэтому после автоматического выявления этих механизмов, ученым пришлось поработать «вручную», чтобы правильно их интерпретировать. Так, например, стало понятно, что механизм, отвечающий за синтаксическую сложность, может быть ослаблен или сведен к нулю, если попросить нейросеть написать текст в неформальном стиле.
В процессе этой интерпретации ученые также выявили, что определенные механизмы автоматически усиливаются или ослабляются при запросе текстов на определенные темы. Например, в научных текстах нейросеть автоматически повышает синтаксическую сложность, в текстах на тему финансов — автоматически внедряет многословные рассуждения о каждом факте. Понятно, что в будущем нейросети будут развиваться, и будут появляться более мощные языковые модели. Но теперь понятна методика их анализа, а значит, есть и предпосылки для дальнейшего изучения более сложных внутренних механизмов искусственного интеллекта.
Источник изображения на превью: freepik / фотобанк Freepik (сгенерировано ИИ)