Учёные из МИЭМ НИУ ВШЭ совместно с коллегами из Калифорнийского университета в Санта-Круз и Европейского института биоинформатики разработали программное обеспечение, с помощью которого можно моделировать пути распространения COVID-19 в условиях глобальной пандемии. Это самый быстрый в мире симулятор вирусных генеалогий (VGsim — Viral Genealogy Simulator). Симулятор доступен, о нем можно прочесть в препринте на medRxiv и скачать код с GitHub.

Владимир Щур

Владимир Щур

 

На данный момент в мире зарегистрировано около 180 миллионов случаев коронавируса, а количество геномов вируса SARS-CoV-2 в открытой базе данных GISAID превысило 2 миллиона. Сейчас интенсивно разрабатываются методы для анализа этих данных. Каждый такой метод необходимо проверять — насколько он чувствителен, например, к предположениям об однородности популяции или к случайным эффектам, которые всегда возникают в реальности. Симулятор вирусных генеалогий - программное обеспечение, предназначенное для проверки методов анализа данных, связанных с генетической природой коронавируса. 

«Поскольку мы не можем повторить пандемию в лабораторных условиях,  в нашей науке подобные проверки можно реализовать только при помощи компьютерного моделирования —  различные сценарии просчитываются много раз, чтобы проверить устойчивость метода и его чувствительность к упрощениям, заложенным в математическую модель, по сравнению с реальным миром — всё как в физике», - рассказывает заведующий Международной лабораторией статистической и вычислительной геномики НИУ ВШЭ Владимир Щур.    

По генетическим последовательностям вирусов можно детально проследить пути их распространения — построить их генеалогию, дерево заражений. Такие деревья содержат много информации, в частности об эволюции патогенов. А симулятор, способный моделировать подобные гигантские деревья, позволяет ученым убедиться, что их метод работает корректно.

Симулятор способен получать деревья с десятками и даже сотнями миллионов образцов геномов при размере популяции, равной населению земного шара. Затем с помощью софта, разработанного одним из авторов, на это дерево могут быть добавлены «нейтральные» (то есть не имеющие эволюционного значения) мутации. И, таким образом, в результате работы этих двух программ можно получить синтетические геномы вируса, связывающую их генеалогию и динамику эпидемии.

Основа симулятора - эпидемиологическая модель SIR, в которой население делится на три части в зависимости от статуса: восприимчивый к заболеванию, заражённый и выздоровевший. Эта модель существует уже более 100 лет. Исследователи ее модифицировали, чтобы она учитывала разные типы иммунитета и структуру популяции — то есть наличие нескольких регионов или стран, между которыми протекает миграция. 

В результате пользователь может задавать данные, касающиеся популяций. Это могут быть, например, страны или регионы. Для каждой страны, региона или популяции задается частота контактов, которая может отражаться, через плотность населения или иные культурные аспекты. Так, туда же можно отнести культуру ношения масок, поскольку это дополнительный барьер для контактов. 

Ученые отмечают, что в классической SIR модели не учитывается миграция. И в данном случае, относительно более общепринятых моделей, исследователи внесли изменения.

После того как была смоделирована динамика распространения инфекции, опираясь на нее, исследователи построили генеалогическое дерево образцов. «Это распространенный подход в геномике — смотреть на развитие не из прошлого в настоящее, а в обратном течении времени. С учетом сгенерированной динамики мы строим дерево, связывающее виртуальные образцы, которые появились в этой виртуальной эпидемии», - объяснил Владимир Щур. 

Генеалогия для условных образцов, которые попали в виртуальную лабораторию, позволяет понять, кто откуда был завезен, между какими популяциями он успешно распространился. Используя симулятор, можно проверить, насколько точны уже доступные методы построения этих генеалогических деревьев.

 

Информация и фото предоставлены пресс-службой НИУ ВШЭ