Научная интуиция — двигатель открытий. Можно ли привить ее нейросети и что из этого получится? Этим вопросом задались ученые из Института органической химии им. Н.Д. Зелинского РАН (ИОХ РАН). Результатом их работы стал уникальный компьютерный алгоритм для оценки сложности молекул — от других нейросетей его отличает то, что он не просто анализирует большие объемы информации, а имитирует мышление исследователя. В перспективе технология облегчит создание новых веществ и материалов, например в дизайне лекарств.
Уже сейчас искусственный интеллект стал ценным помощником человека в разных областях — от анализа больших данных до изучения трендов в экономике. Но у умных программ есть и слабое место: им не так легко даются задачи, которые человек решает не с помощью вычислений и четких алгоритмов, а интуитивно. Пример подобного в химической науке — оценка сложности молекул. Глядя на соединение, химик не производит расчетов, а делает вывод на основе многолетнего опыта. И хотя может показаться, что ученый делает заключение мгновенно, в его мозге успевают произойти сложные ассоциативные размышления, которые непросто перевести в цифру.
Непросто, но все-таки возможно. Это доказали сотрудники ИОХ РАН, буквально передав искусственному интеллекту знания живых людей и научив его оценивать сложность молекул не по строгим формулам, а на основе опыта. Статью о разработке ученые опубликовали в журнале Chemical Science. Авторы исследования — академик Валентин Павлович Анаников и молодые ученые Андрей Тырин, Даниил Бойко и Никита Коломоец.
Научить ИИ имитировать мышление химика, оценивающего сложность молекул на основе накопленного опыта и профессиональной интуиции, — непростая задача, успешно решенная российскими исследователями.
Фото: krakenimages.com / фотобанк Freepik
О новой технологии разработчики рассказали корреспонденту «Научной России».
«Оценивать сложность молекулы важно в первую очередь для ученых-химиков и фармацевтов, — отметили исследователи. — Можно назвать несколько ключевых задач, где это нужно:
- создание новых лекарств: чем сложнее молекула, тем тоньше она способна взаимодействовать с мишенью в организме (например, с белком вируса или раковой клеткой); понимание сложности соединения помогает анализировать, насколько хорошо будущее лекарство будет “состыковываться” со своей целью и как его можно улучшить;
- планирование синтеза: чтобы получить нужную молекулу в лаборатории, химики продумывают многоступенчатый путь из простых “кирпичиков” — если оценить заранее, насколько сложным будет каждый шаг, можно выбрать самый короткий, дешевый и эффективный маршрут, избежав ненужных стадий;
- анализ химических реакций: можно рассматривать целые классы химических превращений и делать выводы, какие из них действительно создают сложные структуры (и потому более ценны), а какие позволяют лишь немного модифицировать уже имеющиеся соединения;
- сравнение с природой: в естественной среде (например, в растениях, производящих алкалоиды) сложные молекулы часто синтезируются не так, как их получают люди; анализ этих различий через призму сложности помогает нам учиться у биологических систем и совершенствовать свои методы.
Для лучшего понимания можно провести параллель между молекулами и конструкциями из LEGO. Нужно не только знать, сколько деталей включает модель (аналогия с молекулярной массой), но и понимать, насколько она замысловатая, хрупкая, со множеством мелких сложных составляющих. Это помогает фармацевтам создавать более точные “ключи” к “замкам” болезней, а химикам — придумывать, как проще и быстрее собрать такую конструкцию».
Оценка сложности молекул важна для получения новых лекарств.
Фото: 8photo / фотобанк Freepik
Для обучения новой модели была создана впечатляющая подборка данных. В нее вошли около 300 тыс. молекул, чью сложность оценивала команда из 50 ученых. Оказалось, что принципиальное значение для исследователей имели такие характеристики, как молекулярная масса, количество ароматических колец и площадь полярной поверхности молекулы (то есть общая площадь полярных атомов в химической структуре). При этом ученые не просто рассматривали отдельные соединения, а сравнивали их между собой.
«Стоит обратить внимание на контроль качества. В число молекул, оцениваемых экспертами, были включены различные контрольные пары: простые, где ответ был очевиден (например, метан явно проще толуола), средней сложности (полициклические производные) и довольно сложные молекулярные архитектуры. Это помогало выдерживать размерный охват данных и заодно отсеивать специалистов, невнимательно выполнявших задание», — добавили авторы исследования.
Примеры молекул, предлагавшихся экспертам для оценки сложности на разных этапах работы.
Источник изображения: © Авторы статьи в журнале Chemical Science, 2025 г. Опубликовано Королевским химическим обществом по лицензии CC-BY
Для обучения программы были использованы примерно 200 тыс. собранных сравнений, при этом число сопоставленных молекул в этой подборке составило около 164 тыс. Такой богатый опыт дал нейросети возможность достаточно точно сопоставлять разные соединения. В дальнейшем созданный набор данных может быть использован для других исследований подобного рода.
«Мы не создавали принципиально новый подход машинного обучения с нуля, а взяли проверенный и эффективный готовый алгоритм для задач ранжирования под названием Gradient Boosted Decision Trees (GBDT, градиентный бустинг на деревьях решений), точнее, его современную реализацию YetiRank из библиотеки CatBoost, — пояснили ученые. — Это опробованный подход в машинном обучении: взять мощный, хорошо зарекомендовавший себя движок и обучить его на собственных уникальных данных. Образно говоря, мы не стали изобретать новый тип автомобиля, а взяли готовую машину с отличным надежным двигателем и обучили ее ездить по специальной химической карте, составленной экспертами».
В основе разработки — алгоритм машинного обучения Learning to Rank. Этот подход также используется в программах для поиска информации в интернете.
Источник изображения: freepik / фотобанк Freepik
В своей разработке команда из ИОХ РАН использовала алгоритм машинного обучения Learning to Rank (LTR). Этот подход используется в программах для поиска информации в интернете и в рекомендательных алгоритмах. Теперь же эту технологию адаптировали для науки. Применение метода LTR позволило решить поставленную задачу: программа не сортирует молекулы по заранее введенным характеристикам, а анализирует выводы ученых и уже на их основе понимает, что нужно учитывать при оценке сложности соединений.
«Learning to Rank (обучение ранжированию) — это подход, при котором модель учится расставлять объекты в правильном порядке относительно друг друга, — объяснили авторы исследования. — Простая аналогия: представьте, что вы учите ребенка сравнивать животных по размеру. Вы не говорите: “Слон — это семь баллов, мышь — один балл”. Вы показываете пары картинок и спрашиваете: “Кто больше?” — “Слон больше мыши”, “Лошадь больше кошки”. После множества таких парных сравнений ребенок сам выстраивает в голове цепочку: “мышь < кошка < лошадь < слон”. Именно так работала система, описанная в статье: химикам показывали по пять молекул и просили расставить их по возрастанию сложности. Модель анализировала тысячи таких пятерок и училась понимать правила, по которым эксперты выносят свое суждение».
Примеры молекул разной степени сложности.
Источник изображения: © Авторы статьи в журнале Chemical Science, 2025 г. Опубликовано Королевским химическим обществом по лицензии CC-BY
Новая технология успешно прошла испытания, показав ценные результаты при решении разных задач.
«Систему проверяли несколькими способами, — поделились создатели разработки. — Основной среди них — тест на “парную точность”. Модели предлагались пары молекул, и она должна была определить, какая из них сложнее. С этим она справлялась с точностью 77,5%. Это очень хороший результат с учетом субъективности задачи. Мы также проводили тест на “здравый смысл”. В этом случае мы брали молекулу, заменяли в ней один атом водорода на более сложный фрагмент (например, бензольное кольцо) и смотрели, замечала ли модель, что новая молекула стала сложнее. В этих испытаниях точность анализа нейросети составляла 98,1%, что показывает, что система усвоила базовые логические правила.
Важно отметить, что модель не делит молекулы на жесткие категории (например, “простая”, “средняя”, “сложная”), а вместо этого присваивает каждому соединению непрерывный числовой “балл сложности”, позволяющий сравнивать любые две молекулы между собой. Во время обучения эксперты ставили химическим структурам оценки от одного до пяти, но итоговая модель научилась различать гораздо больше градаций внутри этого диапазона».
К настоящему времени возможности ИИ уже позволяют использовать его для решения отдельных химических задач — например, поиска лекарств и катализаторов, анализа информации, прогнозирования течения лекарств. Разработка ученых из ИОХ РАН — первый случай, когда модель машинного обучения копирует интуицию ученого, а не действует по четкой инструкции. Важно, что перевод в цифру автоматизирует анализ сложности соединений и делает его объективнее, нежели при оценке на глаз одним человеком. В то же время исследователи предостерегают, что новую программу стоит воспринимать не как единственную и непогрешимо точную технологию для работы, а как полезный вспомогательный инструмент.
В перспективе разработанная модель машинного обучения может стать ценным помощником человека в разных областях химической науки.
Фото: pressfoto / фотобанк Freepik
«Исследование открывает много путей для развития. Один из них — дальнейшее уточнение модели. Ее обучали на данных от экспертов, и она отражает их коллективное понимание сложности молекул. Ее можно и нужно постоянно улучшать, добавляя новые данные, особенно по редким или необычным классам соединений», — подчеркнули ученые. Испытания нейросети продолжаются.
В перспективе программа может стать ценным подспорьем в разнообразных сферах — от материаловедения до фармацевтики. Инновация может использоваться для решения различных задач: например, для улучшения процессов синтеза и разработки материалов с контролируемым уровнем молекулярной сложности.
«В дальнейшем созданную модель можно будет интегрировать в комплексные системы, — пояснили авторы исследования. — Такой “измеритель сложности” можно использовать в составе более крупных алгоритмов для решения следующих задач:
- автоматического планирования синтеза — чтобы ИИ предлагал маршруты реакций, которые не просто работают, но и позволяют эффективно наращивать сложность получаемых соединений;
- дизайна лекарств — чтобы при виртуальном скрининге учитывать не только силу связывания, но и оптимальный уровень структурной сложности будущего препарата;
- анализа химических баз данных — для поиска интересных “сложных” молекул или оценки покрытия химического пространства в исследовательских коллекциях».
Источники
Комментарии авторов исследования из ИОХ РАН
Министерство науки и высшего образования РФ. Российские ученые-химики разработали нейросеть, обладающую профессиональной интуицией
Фото на превью: pressfoto / фотобанк Freepik
Фото на главной странице: freepik / фотобанк Freepik
Источники изображений в тексте: © Авторы статьи в журнале Chemical Science, 2025 г. Опубликовано Королевским химическим обществом по лицензии CC-BY; krakenimages.com / фотобанк Freepik, 8photo / фотобанк Freepik, freepik / фотобанк Freepik, pressfoto / фотобанк Freepik.

























