Ученые Института проблем управления им. В.А. Трапезникова РАН разработали технологию взаимодействия человека и робота на основе привычной, естественной речи. Это позволит эффективно и быстро использовать роботов различного направления в чрезвычайных и экстремальных ситуациях, например, в спасательных операциях МЧС. О новой разработке корреспонденту портала «Научная Россия» рассказал заведующий лабораторией №80 «Киберфизических систем», профессор РАН Роман Мещеряков во время юбилейного десятого форума «Микроэлектроника-2024», который проходит на федеральной территории Сириус 23-27 сентября.
Изначально ученые планировали разработать системы взаимодействия для групп роботов. Но на начальном этапе стало понятно, что до конца не решена задача интерпретации команд даже одним роботом, и, прежде чем машины начнут самостоятельно распределять задачи между собой, нужно научить их полноценному «общению» с человеком. Для этого ученые использовали большие языковые модели не только для решения задач в формате вопрос-ответ, но и для создания поведенческих моделей.
«Сейчас появились новые технологии: новые структуры нейронных сетей, более быстрые вычислители, в том числе нейроморфные. Все это позволяет комплексно обрабатывать информацию и использовать большинство возможностей современной микроэлектроники. Роботы и раньше умели распознавать человеческую речь, но это был определенный и ограниченный набор команд. Теперь у робота появилась модель мира, в которой он живет: роботы стали не просто исполнителями чужой воли, а обладают поведенческими функциями и интерпретируют обычную речь человека в нужные команды», ― рассказал Роман Мещеряков.
Для управления роботом и формирования основ его поведения применяются большие языковые модели, многомодальные системы распознавания голоса и видеоряда, а также многие другие данные с сенсорики робота. Ученые ИПУ РАН объединили различные системы, чтобы они работали вместе. Это позволяет давать роботу команды не в формате «пройди 200 метров в определенном направлении», а с условной формулировкой «зайди за угол, посмотри, не приехал ли автобус». Соответственно робот должен понимать, что такое угол, за какой именно угол нужно зайти, как выглядит автобус и где он должен остановиться.
«Когда мы говорим человеку “иди вперед”, он, учитывая контекст, обстоятельства и ситуацию понимает, что значит “вперед”. А куда должен идти робот? Или куда направлены ноги, или куда смотрит камера, или куда смотрит оператор… Мы исследовали и математически описали эту часть», ― привел пример Роман Мещеряков.
Сейчас разработка находится в стадии макетирования: систему необходимо настраивать и адаптировать под различные возможные области применения, а также динамически меняющуюся недетерминированную среду. А в перспективе, используя дополнительные данные и обучение, роботов возможно научить понимать сленг.
Новость подготовлена при поддержке Министерства науки и высшего образования РФ