Источник фото: ru.123rf.com

Представители НОШ «Мозг, когнитивные системы, искусственный интеллект» ВМК МГУ имени М.В. Ломоносова и сотрудники ФИЦ ИУ РАН разработали нейросетевую архитектуру QiGSAN, которая позволяет значительно повысить точность сегментации малоразмерных объектов на изображениях, даже если объем обучающих данных ограничен. Результаты опубликованы в журнале Big Data and Cognitive Computing.

Задача сегментации малоразмерных объектов остается одной из самых сложных в области компьютерного зрения, особенно в области обработки аэрокосмических изображений поверхности Земли. При анализе данных, получаемых спутниками, часто требуется выявлять объекты, занимающие всего несколько пикселей на достаточно большом изображении, например, корабли в море, небольшие сооружения на суше или отдельные элементы инфраструктуры. В таких условиях современные нейросетевые методы часто ошибаются, теряя значимую информацию или принимая шум за объект.

Чтобы преодолеть эти ограничения, ученые предложили новую графово-сверточную нейронную сеть QiGSAN (Quadtree-informed Graph Self-Attention Network) для решения задачи сегментации малоразмерных объектов на изображениях. Предложенный подход позволяет учитывать неопределенность при работе с ограниченными данными и анализировать связи между участками изображения при разных уровнях детализации. Его эффективность основывается на доказанной в статье теореме о более высокой скорости убывания функции потерь для информированной части данной сети относительно классических сверточных архитектур.

Разработанная архитектура QiGSAN продемонстрировала отличные результаты при тестировании в задаче сегментации кораблей из открытых датасетов радиолокационных изображений: прирост точности по F1-мере составил 48,6%-63,9% по сравнению с современными трансформерными и сверточными архитектурами.

«Мы показали, что использование вероятностных моделей при обучении нейронных сетей позволяет значительно улучшить их работу на малых и несбалансированных выборках в задачах сегментации изображений. Это особенно важно для практических областей, в которых данные ограничены и содержат редкие объекты, например, при анализе спутниковых снимков или изображений с беспилотных устройств», — подчеркивает Андрей Горшенин, д.ф.-м.н., главный научный сотрудник ФИЦ ИУ РАН, представитель НОШ «Мозг, когнитивные системы, искусственный интеллект».

Исследователи отмечают, что область применения метода может выходить далеко за пределы анализа спутниковых данных. В частности, архитектура QiGSAN может оказаться эффективной для решения задач в медицине, где необходимо находить патологии на снимках, в промышленности — для распознавания дефектов на конвейере, а также в интеллектуальных транспортных системах — для обнаружения пешеходов или дорожных объектов в сложных условиях.

 

Источник информации: факультет ВМК МГУ имени М.В. Ломоносова

Источник фото: ru.123rf.com