Ученые из Института общей и неорганической химии им. Н.С. Курнакова РАН, Национального исследовательского университета «Высшая школа экономики», Московского государственного университета им. М.В. Ломоносова и Венского университета представили самую крупную базу данных растворимости органических соединений в неводных растворителях «BigSolDB 2.0» на более чем 100 тысяч экспериментальных значений для создания моделей машинного обучения и разработали для нее онлайн-приложение. Представленная база данных перспективна для прогнозирования растворимости химических веществ с помощью алгоритмов, основанных на данных, и может позволить создать рационально спроектированный, эффективный и экономичный инструмент для разработки материалов и химических составов нового поколения. Результаты работы опубликованы в журнале Scientific Data.
Общая схема создания BigSolDB 2.0. Автор рисунка: Лев Краснов
Растворимость является одним из ключевых свойств органических соединений, определяющих их применение в химии, материаловедении и фармацевтике. Однако предсказание значений растворимости в любом растворителе, кроме воды, остается сложной задачей в современной хемоинформатике, не в последнюю очередь из-за отсутствия больших и разнообразных наборов данных. Для решения этой задачи целесообразно использовать методы машинного обучения, которые позволяют предсказывать свойства химических соединений без необходимости в экспериментальных образцах. Это делает процесс оценки, например, растворимости, значительно быстрее и дешевле. Кроме того, использование большой и качественной базы данных улучшает точность прогнозов и повышает надежность полученных результатов, открывая возможности для масштабного скрининга новых соединений.
Химики представили большую базу данных растворимости органических соединений в неводных растворителях BigSolDB 2.0 для разработки моделей машинного обучения. Работу прокомментировал один из авторов статьи, младший научный сотрудник Лаборатории кристаллохимии и Центра цвета ИОНХ РАН Лев Краснов: «Мы проанализировали 1595 рецензируемых научных статей и извлекли из них 103 944 экспериментальных данных о значениях растворимости для 1448 органических соединений в 213 различных растворителях, в температурном диапазоне от 243 до 425 K. Особое внимание было уделено качеству данных – мы проводили тщательную проверку и стандартизацию всех записей, устранение дубликатов и валидацию источников.
Все молекулярные структуры растворенных веществ и растворителей были стандартизированы и представлены в машиночитаемом формате SMILES, что позволяет проводить прямолинейный анализ с помощью методов машинного обучения. Данные были преобразованы в единицы LogS, что обычно желательно для приложений машинного обучения.
Мы также разработали онлайн-приложение для интерактивной визуализации и поиска в наборе данных, который позволяет легко находить значения растворимости как по химической структуре, так и по тривиальному названию соединения».
По словам авторов, созданная база данных решает критическую проблему недостатка комплексных наборов данных для растворимости органических веществ, которая ранее ограничивала развитие методов машинного обучения в этой области. Большинство предыдущих исследований были сосредоточены только на водной растворимости, тогда как BigSolDB 2.0 охватывает широкий спектр органических растворителей.
В представленной базе данных среди наиболее распространенных растворителей выделяются низкомолекулярные спирты, вода, этилацетат, ацетон и ацетонитрил. Это особенно важно для разработки многих химических и технологических процессов, где точное знание растворимости критично для выбора растворителей в синтезе, разработки лекарственных препаратов и создания эффективных методов экстракции и кристаллизации.
Исследование выполнено при поддержке Министерства науки и высшего образования Российской Федерации в рамках государственного задания ИОНХ РАН.
Источник: Lev Krasnov, Dmitry Malikov, Marina Kiseleva, Sergei Tatarin, Sergey Sosnin, and Stanislav Bezzubov; BigSolDB 2.0, dataset of solubility values for organic compounds in different solvents at various temperatures. Scientific Data, 12, 1236, 2025, 10.1038/s41597-025-05559-8.
Источник информации: ИОНХ РАН