Ученые Центра искусственного интеллекта МГУ имени М.В. Ломоносова разработали метод машинного обучения, который помогает точнее предсказывать свойства молекул по их структуре. В основе подхода лежит новая архитектура нейронной сети gSelformer-MV, которая анализирует молекулы сразу в нескольких текстовых представлениях. Работа опубликована в журнале Journal of Chemical Information and Modeling.
Предсказание свойств молекул по их структуре — одна из ключевых задач вычислительной химии. Такие методы применяются при разработке лекарственных препаратов, поиске новых материалов и исследовании химических соединений с заданными характеристиками. Для этого используются алгоритмы машинного обучения, которые анализируют строение молекулы и устанавливают связь между её структурой и физико-химическими свойствами.
Сегодня для решения этой задачи применяются два основных подхода. В одном случае молекула рассматривается как сеть атомов и химических связей и её структура анализируется с помощью графовых нейронных сетей. В другом молекула представляется в виде последовательности символов, которая описывает её строение и может обрабатываться моделями анализа последовательностей. Однако такие методы чаще всего рассматривают структуру на уровне отдельных атомов и не учитывают напрямую более крупные элементы молекулы — например функциональные группы.
Авторы предложили метод, который объединяет несколько представлений молекулярной структуры. В основе подхода лежит формат Group SELFIES — способ записи молекул, в котором кроме отдельных атомов учитываются также функциональные группы. В новой архитектуре нейронной сети молекула представляется не одной последовательностью символов, а несколькими вариантами, полученными при разбиении структуры на подграфы. Нейронная сеть анализирует эти представления одновременно, что позволяет учитывать как отдельные атомы, так и более крупные фрагменты молекулы.
«Мы хотели объединить преимущества языковых моделей и информацию о функциональных группах молекул. Использование нескольких представлений структуры позволяет модели учитывать разные уровни организации молекулы и повышает точность предсказаний», — объясняет руководитель научной группы «Мультимодальное обучение в материаловедении» Института ИИ МГУ, старший научный сотрудник Центра ИИ МГУ Вадим Королёв.
Разработанный метод был проверен на стандартных задачах предсказания свойств молекул. В вычислительных экспериментах предложенная модель показала более высокую точность по сравнению с алгоритмами, которые используют только традиционные строковые представления молекул. Кроме того, использование информации о подструктурах делает результаты модели более понятными.
«Для химии важна не только точность моделей, но и понимание того, какие элементы структуры влияют на свойства вещества. Наш подход позволяет учитывать функциональные группы молекул и тем самым делает результаты модели более объяснимыми», — отмечает Вадим Королёв.
По словам авторов, предложенный метод может применяться для ускорения поиска новых химических соединений с заданными характеристиками. Такие подходы особенно востребованы при разработке лекарств и новых материалов, где необходимо быстро анализировать большое число возможных молекулярных структур.
Информация предоставлена пресс-службой МГУ
Источник фото: captainvector - ru.123rf.com



















