Исследователи из МФТИ, Института AIRI и Лондонского института математических наук (LIMS) создали бенчмарк BABILong — инструмент для оценки производительности языковых моделей при работе с большими объемами данных. Он включает 20 задач, которые требуют поиска и обработки разрозненных фактов в крупных текстах. Например, связывание и комбинирование информации из нескольких фактов, индукция, дедукция, простейший подсчет и работа со списками и множествами.
Длина контекста — это объем информации, которую нейросеть удерживает в уме для решения конкретной задачи. Чем она выше, тем лучше результат работы модели. Однако сегодня популярные модели используют лишь 10—20 % данных, преимущественно фокусируясь на информации из первых и последних абзацев. Кроме того, производительность моделей резко снижается с увеличением сложности задач.
Созданный учеными бенчмарк оценивает два параметра: качество ответа и зависимость точности от длины контекста. В основу BABILong легли 20 ключевых операций из датасета BABI, направленных на демонстрацию понимания базовой логики и арифметики. Второй частью обновленного датасета стали массивы данных художественной литературы. Далее задачи, изначально рассчитанные на понимание коротких текстов, были раскиданы по литературным произведениям, требуя от моделей не просто найти нужную информацию, а выполнить ее анализ для получения правильного ответа.
Нейросети оперируют токенами — это базовые единицы текста, которые представляют собой несколько символов, часть слова. В рамках исследования команда применила бенчмарк для анализа эффективности популярных нейросетей в задачах с контекстом от тысячи до 50 миллионов токенов. Результаты показали, что производительность моделей сильно падает, когда объем данных превышает 25% от заявленной длины контекста. Это указывает на необходимость улучшения механизмов обработки контекстной информации.
Ученые также представили адаптацию бенчмарка BABILong для русского языка — Libra, разработанную в сотрудничестве с командой R&D SberDevices. Как и оригинал, Libra тестирует языковые модели на длинных контекстах, предлагая аналогичные задачи для оценки их работы с русскоязычными текстами.
«Разработка BABILong — это важный шаг в оценке реальной эффективности языковых моделей. Бенчмарк не только позволяет сравнивать корректность работы моделей на разной длине контекста, но и служит индикатором их качества, что демонстрирует, в каких аспектах требуется улучшение. Это значительно поможет разработчикам новых моделей», — подчеркнул Юрий Куратов, руководитель группы «Модели с памятью» лаборатории «Когнитивные системы ИИ» Института AIRI.
Бенчмарк BABILong уже выложен в публичный доступ для поддержки научного сообщества.