Специалисты Санкт-Петербургского Федерального исследовательского центра РАН (СПб ФИЦ РАН) создали программный комплекс, который способен на основе интеллектуального анализа видео распознавать жестовый язык людей с нарушениями слуха и преобразовывать его в текст. Приложение планируется использовать в медицинских учреждениях для того, чтобы повысить эффективность оказания врачебной помощи для глухих пациентов. Разработка будет способствовать повышению качества жизни людей с ограниченными возможностями, результаты исследования опубликованы в научном журнале Scientific and Technical Journal of Information Technologies, Mechanics and Optics.
Согласно данным Всемирной организации здравоохранения, на 2021 год в мире примерно 466 млн человек (более 5% от общего количества населения земного шара, из них 34 млн дети) страдают полной глухотой или испытывают проблемы со слухом. Каждый третий человек в возрасте старше 65 лет сталкивается с проблемой снижения качества слуха. Кроме того, согласно оценкам экспертов, к 2050 году более 2 млрд человек будут страдать глухотой или испытывать проблемы со слухом.
Люди с нарушением слуха могут испытывать значительные трудности при посещении различных государственных учреждений, торговых центров или больниц. Иногда глухим гражданам предоставляются сурдопереводчики, однако на практике их возможности недостаточны. По этой причине актуальным научным направлением становится развитие интеллектуальных систем эффективного автоматического машинного сурдоперевода, чтобы облегчить коммуникацию между глухими людьми и остальной частью общества.
“К нам обратились представители одной из организаций для реабилитации глухих людей с проблемой посещения больниц. Для того чтобы подробно объяснить свой недуг, глухой пациент вынужден брать с собой переводчика, которых часто не хватает. Для решения этой задачи мы разработали программное обеспечение, которое распознает язык жестов и преобразует его в текст”, – рассказывает старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН, кандидат технических наук Дмитрий Рюмин.
Для обучения нейросети ученые разработали уникальную базу данных жестов, которые используются глухими людьми при описании сфер, связанных с медициной и здоровьем. Она состоит из 85 жестовых высказываний, записанных 12 дикторами в пяти вариантах. При этом видеозаписи всех жестов являются разноракурсными, что повышает их информативность. Общая продолжительность всех видеозаписей составила около семи часов.
Программное обеспечение работает следующим образом: видеокамера фиксирует жесты пациента. Ученые выяснили, что одни и те же жестовые элементы могут значительно различаться в зависимости от возраста и пола пациента, поэтому система учитывает этот фактор для повышения точности интерпретации. После этого программа автоматически преобразует язык жестов в текст в режиме реального времени. Точность системы составляет более 90%.
“Мы надеемся, что в перспективе наше приложение позволит упростить оказание медицинских услуг и для врачей, и для людей с ограниченными возможностями. Сейчас мы работаем над созданием удобного интерфейса для программы”, – поясняет Дмитрий Рюмин.
Проект поддержан грантом РНФ (№21-71-00141). В исследовании принимали участие представители Межрегионального центра реабилитации лиц с проблемами слуха города Павловска.
Разработки программных продуктов для повышения качества жизни глухих людей являются одним из важных направлений работы Лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН. Так, ранее ученые создали прототип специальной роботизированной тележки, которая помогает глухим людям ориентироваться в супермаркетах и торговых центрах.
Информация и фото предоставлены пресс-службой СПб ФИЦ РАН