В синтетической и структурной биологии достижения в области искусственного интеллекта привели к стремительному развитию технологий создания белков с определёнными функциями — от антител до факторов свёртывания крови — с помощью компьютеров, способных точно предсказывать трёхмерную структуру любой заданной аминокислотной последовательности.

Но структуру почти 30 % всех белков, экспрессируемых человеческим геномом, сложно предсказать даже с помощью самых мощных инструментов искусственного интеллекта, включая AlphaFold, получивший Нобелевскую премию. Так называемые внутренне неупорядоченные белки, которые никогда не принимают фиксированную форму, а постоянно меняют её, играют ключевую роль в бесчисленных биологических функциях, таких как сшивание молекул, восприятие или передача сигналов, но из-за присущей им нестабильности их сложно создать с нуля.

Команда из Гарвардской школы инженерных и прикладных наук имени Джона А. Полсона (SEAS) и Северо-Западного университета продемонстрировала новый метод машинного обучения, который позволяет создавать внутренне неупорядоченные белки с заданными свойствами. Эта работа открывает возможности для изучения этих загадочных биомолекул и получения новых данных о причинах возникновения заболеваний и методах их лечения. Работа была опубликована в Nature Computational Science.

Шринивас, автор статьи, рассказал, что заинтересовался изучением внутренне неупорядоченных белков, потому что они недоступны для современных методов на основе ИИ. Тем не менее такие белки важны для многих фундаментальных аспектов биологии, и известно, что мутации в них связаны с такими заболеваниями, как рак и нейродегенерация. Одним из примеров неупорядоченного белка является альфа-синуклеин, который давно связывают с болезнью Паркинсона.

В статье описывается вычислительный метод, основанный на алгоритмах, которые могут выполнять «автоматическое дифференцирование», то есть вычислять производные — мгновенные скорости изменения — для выбора белковых последовательностей с желаемыми характеристиками. Этот метод широко используется для глубокого обучения и тренировки нейронных сетей, но Бреннер и его лаборатория одними из первых выявили другие области применения, такие как оптимизация моделирования молекулярной динамики на основе физических законов.

С помощью автоматического дифференцирования исследователи смогли обучить компьютер распознавать мельчайшие изменения в белковых последовательностях. Даже замена одной аминокислоты влияет на конечные желаемые свойства белков. Ученые сравнили свой метод с очень мощной поисковой системой, которая находит аминокислотные последовательности, соответствующие критериям, необходимым для выполнения определённой функции — например, создания петель и соединений или распознавания различных элементов окружающей среды.

«Мы не хотели брать кучу данных и обучать модель машинного обучения для создания белков, — сказал Крюгер, соавтор работы. — Мы хотели использовать существующие, достаточно точные модели для создания белков».

Этот метод использует традиционную систему обучения нейронных сетей под названием «оптимизация на основе градиента» для эффективного и точного определения новых последовательностей. В результате созданные белки являются «дифференцируемыми», то есть они не являются наилучшими прогнозами, сделанными ИИ, а основаны на моделировании молекулярной динамики с использованием законов физики, которые учитывают реальное динамическое поведение белков в природе.

[Фото: Ramanna Shrinivas / Harvard John A. Paulson School of Engineering and Applied Sciences]