Современные лекарства создаются благодаря совместным усилиям химиков, биологов, генетиков, специалистов по работе с big data. Их деятельность объединяет междисциплинарная наука — биоинформатика. Здесь применяются компьютерные, математические и статистические методы для решения биологических задач. Биоинформатики получают практические навыки программирования, статистического анализа, обработки данных и визуализации результатов, а также бок о бок работают с техническими специалистами. Междисциплинарный подход позволяет биологам грамотно ставить задачи и работать более эффективно вместе с программистами и математиками над улучшением и созданием удобных и простых в обращении биоинформатических программ. О силе коллектива, темной материи генома и поиске перспективных химических соединений среди миллионов других — наша беседа с членом-корреспондентом РАН Владимиром Васильевичем Поройковым.
Владимир Васильевич Поройков — член-корреспондент РАН, профессор, доктор биологических наук, кандидат физико-математических наук, руководитель отдела биоинформатики Научно-исследовательского института биомедицинской химии имени В. Н. Ореховича.
— Что изучает биоинформатика?
— Современная биоинформатика охватывает множество разных направлений. Однако в рамках краткой беседы рассказать о каждом из них довольно сложно. К тому же я занимаюсь неким частным разделом биоинформатики, поэтому постараюсь сосредоточиться именно на нем.
Этот раздел посвящен применению методов биоинформатики для анализа различных заболеваний, определения биомаркеров и молекулярных мишеней, а также поиска лигандов, которые могут воздействовать на молекулярные мишени, тем самым нормализуя патологические процессы в организме.
Изначально это направление называлось компьютерным конструированием лекарств или Computer-Aided Drug Design в англоязычной терминологии. Однако сегодня эта область науки вышла далеко за рамки поиска фармакологических веществ с требуемыми свойствами. Основная причина — появление Big Data (или «Больших Данных»).
Сегодня уже известно около 15 тыс. различных субстанций лекарственных препаратов, которые разрешены для медицинского применения. В процессе изучения находится около 2 миллионов фармакологических веществ, часть из которых станет впоследствии лекарственными препаратами.
В мире синтезировано около 100 миллионов химических соединений. При этом оценки числа всех возможных соединений дают десять в шестидесятой степени. Считается, что атомов во Вселенной меньше, чем количество возможных химических соединений. По сути, органическая химия — бесконечна. Добавляя к органическому соединению еще одну метильную группу, мы получаем совершенно новое соединение. Именно поэтому пространство химии невероятно велико.
Но не менее велико и пространство биологии, в рамках которого приходится анализировать сложные химико-биологические взаимодействия. Принято считать, что в организме содержится до 20 тысяч различных генов, кодирующих белки, которые потенциально могли бы стать фармакологическими мишенями. Если учесть посттрансляционные модификации и альтернативный сплайсинг — процессы, которые увеличивают разнообразие белков в клетке, то число белков-мишеней многократно умножается.
Нельзя не упомянуть темную материю генома. Мы еще совсем мало знаем о том, как не экспрессируемые части генома участвуют в регуляторных процессах. Тем не менее, исследования в этом направлении уже начаты, и я думаю, что эта область будет активно развиваться.
Третье направление исследований в области «Больших Данных» связано с персонализированной медициной. Разнообразие реакций живого организма на различные лекарственные препараты также чрезвычайно велико, и в большинстве своем такие реакции индивидуальны. У некоторых людей при введении лекарственного препарата могут возникать нежелательные побочные реакции. Это зависит от генотипических и фенотипических особенностей пациента.
Каждое из этих направлений биоинформатики связано с колоссальным объемом данных. Именно поэтому одна из задач современной биоинформатики — организация этих данных, извлечение из них полезной информации и генерация новых знаний, позволяющих создавать и далее внедрять в медицинскую практику более безопасные и эффективные лекарственные препараты.
— Как я поняла из вашего ответа, биоинформатика требует знаний и химии, и биологии, и программирования. Каким был ваш опыт? Какие люди работают в этой междисциплинарной области?
— Конечно, в природе не существует таких людей, которые обладали бы всеми разнообразными видами знания. Есть эрудированные люди с большим опытом работы, и те, кто только начинает этот опыт приобретать.
В нашей Лаборатории структурно-функционального конструирования лекарств, созданной в 1995 году в Институте биомедицинской химии по инициативе академика РАН А.И. Арчакова, изначально работали три человека — я и двое моих коллег. Я окончил физический факультет Московского государственного университета. При этом я учился на кафедре биофизики, что уже в значительной мере определило сферу научных интересов. Двое моих коллег окончили Московский физико-технический институт, и также обучались на кафедре физики живых систем.
Сегодня, спустя 25 лет, в нашей лаборатории работают 18 человек, включая студентов. Половина сотрудников лаборатории —студенты Медико-биологического факультета Российского национального исследовательского медицинского университета имени Н. И. Пирогова. Исторически, наш институт был и остается базой для студентов этого учебного заведения. Другая часть сотрудников — выпускники и студенты из разных институтов и университетов: Московского государственного университета тонких химических технологий имени М. В. Ломоносова (МИТХТ), Национального исследовательского ядерного университета (МИФИ), Санкт-Петербургского химико-фармацевтического университета (СПХФУ) и ряда других ВУЗов.
Безусловно, в процессе выполнения практических занятий, в работе над магистерскими и диссертационными работами, в научных исследованиях в рамках проектов, поддержанных Российским фондом фундаментальных исследований и Российским научным фондом, они приобретают разнообразные знания, которые в дальнейшем крайне важны для такой мультидисциплинарной области как биоинформатика.
— Среди биоинформатиков есть некое разделение на тех, кто работает над моделированием или созданием новых методов анализа, и тех, кто больше занимается именно биологическими проблемами?
— Я бы не стал проводить между специалистами такую черту, поскольку каждый из них занимается биологическими (в нашем случае — биомедицинскими) проблемами. Я уже упомянул, что в нашей лаборатории работает 18 человек, включая студентов. Каждый из сотрудников лаборатории дополняет друг друга с точки зрения знаний, умений и опыта. Лаборатория сильна именно как коллектив профессионалов. Один знает всё о поиске молекулярных мишеней и о их приоритизации в терапии тех или иных патологий. Другой знает больше остальных о лекарственном метаболизме. Третий отлично владеет техникой анализа взаимосвязей структура-активность (SAR) и разрабатывает соответствующее программное обеспечение. Четвертый занимается молекулярным моделированием взаимодействий ферментов с рецепторами. А пятый умеет проводить анализ больших данных. И т.д.
Кстати, сегодня перед нами стоит задача проанализировать более одного миллиарда химических соединений и найти вещества, которые могут применяться для борьбы с пандемией COVID-19. Это непростая и нетривиальная задача, требующая опыта работы с большими данными.
Именно поэтому так важно, чтобы люди всегда были готовы к сотрудничеству и работали вместе над общей задачей. Сила коллектива в людях, которые делятся результатами своих исследований с другими. В этом заключается залог успеха.
— В каких важных направлениях развивается сегодня биоинформатика?
— Каждая из сфер по-своему важна. Да и «Каждый кулик свое болото хвалит». Поэтому я продолжу говорить об анализе больших данных для поиска новых лекарств.
Прежде всего, это направление связано с изучением механизмов патологических процессов. В настоящее время данные накапливаются быстро благодаря развитию методов геномики, траскриптомики, протеомики, метаболомики (ОМИКСные исследования). Данные, полученные разными методами, сравнивают между собой в норме и при различных патологических состояниях. Возникает, естественно, вопрос — а что такое норма? У врачей есть такая присказка: здоровый человек — это недообследованный больной.
В нашем Институте за норму принимают состояние здоровья тех, кого готовят в космонавты. Люди, прошедшие специальный отбор рассматриваются в качестве здоровых людей.
Сравнивая большие данные, полученные от разных индивидуумов, специалисты пытаются установить связи между отклонениями тех или иных ферментов, белков и РНК, которые свидетельствуют о возникновении патологии.
Современная Международная классификация болезней, прежде всего, предназначена для статистического учета причин смертности. В эту классификацию также включены и несчастные случаи. Такую классификацию сложно использовать для решения биомедицинских задач, ведь в ней много и небиологических аспектов. Все чаще в научном сообществе обсуждается возможность реклассификации заболеваний, которая будет основана именно на анализе больших ОМИКСных данных.
Использование «Больших данных» уже сегодня позволяет идентифицировать биомаркеры тех или иных заболеваний, а также определять направления поиска методов лечения на основе установления молекулярных мишеней, воздействие на которые будет приводить к нормализации патологических процессов. Эти области сегодня активно развиваются.
Другое классическое направление связано с химией и поиском из огромного числа теоретически возможных молекул наиболее перспективных соединений для экспериментальных исследований. Ясно, что синтезировать и протестировать на тысячи видов биологической активности миллиарды молекул невозможно в силу практических и экономических причин. Поэтому подходы к анализу больших химических данных, которые применяются в этой области, чрезвычайно значимы.
На мой взгляд, эти важные направления биоинформатики будут интенсивно развиваться в будущем.
Здоровье — это перманентная ценность. При этом для многих заболеваний до сих пор нет достаточно эффективных и безопасных лекарств.
— Как среди миллиардов соединений найти нужное? Это же настоящая иголка в молекулярном стоге сена.
— Существует несколько подходов. Когда нам известна мишень и есть данные о ее трехмерной структуре, полученные методом рентгеноструктурного анализа или путем молекулярного моделирования, а также данные о сайтах связывания лигандов, ингибиторов конкретного белка, то мы можем применять методы молекулярного моделирования и рассчитывать оценочные функции, характеризующие связывание молекулы с белком-мишенью.
Если есть информация об известных ингибиторах, то можно строить модели взаимосвязей структура-активность и далее использовать их для прогнозирования активности новых веществ.
Если известна трехмерная структура белка-мишени, закристаллизованного без лигандов, применяют методы de novo дизайна — создания дизайна новых биологически активных соединений путем картирования потенциальных мест связывания низкомолекулярными фрагментами молекул. И уже, на этой основе, пытаются сконструировать молекулу, которая может стать реальным ингибитором.
Если нет информации ни о мишени, ни о лигандах, то остается эмпирический метод, то есть экспериментальные исследования. В данном случае применяют методы высокопроизводительного скрининга. Чтобы увеличить количество и повысить разнообразие тестируемых соединений используют методы комбинаторной химии. В ячейках планшета синтезируют смеси различных веществ, и их биологическая активность исследуется без предварительного разделения на индивидуальные соединения. Затем для ячеек, где обнаружено проявление активности, проводят разделение смеси на отдельные соединения и путем биологического тестирования выявляют активные компоненты.
Условия сегодняшней пандемии COVID-19 — хороший пример беспрецедентного ускорения процесса научных исследований.
На 1 января 2020 года мы ничего не знали о новом вирусе. И всего лишь за 6 месяцев опубликовано уже более 20 тысяч работ, посвященных этой проблематике. При этом расшифровано несколько тысяч геномов SARS-CoV-2. Прямо сейчас их сопоставляют друг с другом, анализируют эволюционные взаимосвязи, возникающие мутации и то, как они могут повлиять на развитие ситуации в дальнейшем.
Специалистам удалось экспрессировать и выделить отдельные вирусные белки, определить их трехмерные структуры в комплексе с некоторыми ингибиторами. Уже сегодня в специализированном банке данных Protein Data Bank хранится свыше 20 различных трехмерных структур белков вируса SARS-CoV-2, расшифрованных с помощью методов рентгеноструктурного анализа. Ранее такая работа даже для одного белка занимала годы!
Но важно учесть и то, что ситуация меняется очень быстро. Некоторые выводы, которые были сделаны предварительно, а также выдвинутые гипотезы забываются или опровергаются. Поэтому среди 20 тысяч научных статей, большая часть канет в лету по причине появления более надежных и обоснованных данных.
Но, тем не менее, люди, которые с энтузиазмом изучали эту проблему, внесли вклад в общее дело пусть и методом проб и ошибок. И это замечательно. Да, мы мало знаем о вирусе, однако средства для терапии нужны уже сегодня, а не послезавтра.
— Расскажите о ваших исследованиях. На каком они этапе? И какой результат вы ожидаете получить?
— Наша группа включилась в работу по виртуальному скринингу веществ, согласно прогнозу, обладающих антикоронавирусной активностью в рамках Европейской инициативы «JEDI Grand Challenge against COVID-19» . Этот проект посвящен анализу свыше миллиарда химических структур с целью найти активные соединения хотя бы для одной из шести мишеней, пять из которых являются вирусными белками, а шестая мишень является белком человека, который принимает участие в процессе проникновения вируса в клетку с последующей репликацией.
Изначально организаторы определили срок проекта в один месяц, что крайне удивительно. За один месяц в условиях ограниченной и быстро меняющейся информации сложно реализовать подобный проект.
Сейчас сроки реализации проекта продлили еще на один месяц.
Мы решили принять участие не ради наград. Наша цель — тщательно разобраться в проблематике. С точки зрения науки это уникальная ситуация. Пандемия позволяет во многом пересмотреть те догмы, которые были у нас в головах, раскрепостить сознание, попытаться по-новому взглянуть на вызовы. Этот новый взгляд полезен с точки зрения фундаментального понимания патогенеза, возможно, будущих биогенных угроз.
Подробнее в презентации Владимира Васильевича Поройкова
Каждое утро я начинаю с чтения новых заголовков научных публикаций о COVID-19, представленных на сайте Clarivate Analytics Publons, а затем — и заинтересовавших меня полнотекстовых статей. Это, кстати, еще одна отличительная черта нынешних событий. Практически все публикации доступны в открытом доступе. Почти все издательства предоставили возможность научному сообществу читать всю поступающую информацию.
Чтобы наши знания не оставались втуне, мы начали сотрудничество с клиническими фармакологами на базе Российской медицинской академии непрерывного профессионального образования (РМАНПО), по инициативе члена-корреспондента РАН Д.А. Сычева, организовавшими Информационный центр по вопросам фармакотерапии у пациентов с новой коронавирусной инфекцией «ФармаCOVID». Центр публикует рекомендации для клинических фармакологов по применению тех или иных препаратов в конкретных ситуациях. Первая публикация с нашим участием посвящена препарату Умифеновир (Арбидол).
В рамках исследований по проекту “JEDI” мы преследуем две цели. Первая — краткосрочная: найти методами виртуального скрининга среди миллиарда соединений что-то перспективное в ограниченные сроки. Вторая — более глубокая: приобрести новые знания и умения, которые впоследствии будут многократно применяться при решении похожих или даже новых задач. Как мне кажется, вторая цель — более важная. Но и первая, несомненно, имеет сегодня особую актуальность.
Интервью проведено при поддержке Министерства науки и высшего образования и Российской академии наук.
Фото: скриншот записи интервью.