Развитие медицины, прежде всего медицины персонализированной, сегодня зависит от уровня информационных технологий. Все дело в огромных объемах данных, которые нужно не просто хранить, но и обрабатывать и анализировать. Сегодня формируется новая отрасль, которую уже стали называть bioIT — индустрия биологических и медицинских информационных технологий. О проблемах, которые стоят перед ней, рассказали директор по науке и инновациям Центра исследований и разработок EMC в Сколково Леонид Левкович-Маслюк и ведущий разработчик Центра исследований и разработок EMC в Сколково Андрей Запарий.

С чем имеет дело биоИТ

Среди самых быстро растущих источников больших данных геномные данные — на одном из первых мест. Опережают их пока только астрономические данные и пользовательские данные в социальных сетях. Уже в ближайшем будущем геномика будет производить несколько зеттабайт данных в год. Сегодня объемы исчисляются в десятках эксабайт, и работать с ними — задача совсем нетривиальная.

К сведению: в системе СИ  (а также ГОСТ) 1 зеттабайт равен 1000 эксабайт. 1 эксабайт — это 1000 петабайт, а 1 петабайт, в свою очередь, это 1000 терабайт. Ну, а 1 терабайт состоит из 1000 гигабайт — наконец мы дошли до хорошо знакомых единиц изменения. Оцените масштаб.

Помимо собственно объема, еще одна сложность заключается в том, что сейчас в мире не существует единого хранилища и единого формата хранения таких данных. То есть для обработки и сопоставления их программные средства должны уметь «читать разные языки» и приводить их все к общему знаменателю.

При этом ведь для конечного пользователя, данном случае врача, который подбирает терапию для пациента, имеют ценность не сами по себе гигантские массивы информации, полученной в результате секвенирования ДНК или РНК, а только результаты их сложной математической обработки, а также сопоставления с аналогичными данными других больных, полученными исследователями и врачами во всем мире. Для того, чтобы преодолеть разрыв между исследованием и клинической практикой возникает необходимость в создании свода правил и рекомендаций для работы со всеми данными, так называемая воронка, начиная от сырых данных и протоколов работы с ними, заканчивая рекомендациями врачей.

Наконец, новой индустрии приходится решать проблему устаревающей технологической инфраструкуры. Информация сейчас хранится в традиционных базах данных, плохо приспособленных к омиксной специфике, а многие популярные библиотеки приложений для анализа геномной информации и вовсе разрабатывались учеными для собственных нужд — они плохо приспособлены для новых задач промышленного масштаба.

Международные инициативы

Для того, чтобы решить такие проблемы, и в первую очередь связанные с публичными данными, около четырех лет назад был создан Глобальный альянс по геномике и здравоохранению (GA4GH). Основная его задача как раз состоит в создании общих протоколов работы с геномной информацией, общей модели для предоставления результатов поиска и описания структуры запроса.

Альянс уже может похвастаться несколькими довольно успешными международными проектами — прежде всего, Beacon project и Match Maker Exchange. Кроме того, работа альянса привела к созданию стандарта для обработки и для обмена геномными данными и составлению рекомендаций по использованию семейной истории в клинической практике.

Успешно развивается также проект по работе с описанием модели метаданных — Metadata Team, а проектная группа Genotype to phenotype (G2P) начинает проект «Раковый геном» (Cancer Genome Project), нацеленный на поиск мутаций, которые ведут к развитию онкологических заболеваний человека.

Россия — в деле

Несмотря на то, что Россия пока остается белым пятном на мировой карте генетических банков данных, специалисты из нашей страны активно включаются в биоИТ-проекты.

В частности, в становлении индустрии биоИТ и в решении основных ее задач принимает активное участие Московский центр исследований и разработок EMC по облачным вычислениям и большим данным в Сколково. Центр сотрудничает проектной группой G2P Глобального альянса, которая призвана описать, как строить системы хранения ассоциаций, связывающие между собой генотипы и фенотипы, как собирать такие данные, как хранить, как их запрашивать, как возвращать результат.

Одна из задач — создание системы на основе проиндексированной многофункциональной базы данных. Она будет объединять массивы данных из самых разных источников, анализировать их и выявлять связи. Сейчас работает ее пилотная версия, она позволяет специалисту отправить запрос ко всему массиву, находить данные за доли секунды и получить развернутый ответ с учетом всех возможных связей, и что важно — контекста, даже если прямого указания на него нет.

То есть врач может посмотреть, например, какие лекарства использовались при конкретных или сходных болезнях при разных вариантах геномных параметров, и получить ответ не только на свой прямой вопрос, но и на близкие вопросы, которые могут ему помочь в принятии решения.

В конечном счете система будет работать на медицинских специалистов разного уровня. С одной стороны, она ускорит работу врачей, которые до сих пор самостоятельно ищут информацию в многочисленных источниках. С другой — создаст нужную инфраструктуру для клиник: система архивирует информацию в многофункциональной базе данных, в которой сохраняются и сами документы, и связи между ними, в результате у клиник будет возможность собрать накопленные знания, удобно укомплектовать и эффективно в них ориентироваться, пользуясь лишь ноутбуком.

Проект уже получил положительные отзывы на выставке-конференции в области информационных технологий, биоинформатики и геномной медицины BioIT World, прошедшей в начале апреля 2016 года.