Группа ученых, представляющих Московский физико-технический институт и Университет ИТМО, представила новый метод сравнения метагеномов — совокупности последовательностей ДНК всех организмов в образце исследуемого биологического материала. Метод позволяет эффективнее и быстрее решать задачу сравнения образцов и может быть легко внедрен в процесс анализа данных в любом метагеномном исследовании, в частности позволит более эффективно исследовать генетический материал микробиоты человека. Статья ученых опубликована в журнале BMC Bioinformatics.

Традиционным подходом в метагеномном анализе считается сравнение образцов на основе их таксономического состава — процентных долей каждого найденного микробного вида. Для того, чтобы определить состав образца, его последовательности сопоставляют базе известных бактериальных геномов, называемых референсным набором. Однако такой подход имеет ряд недостатков: референсные геномы зачастую неточны, а также не для всех организмов в принципе существуют собранные референсные геномы.

Новый метод основан на сопоставлении частот k-меров — всех встречающихся в геноме нуклеотидных «слов» заданной длины k. Поскольку геном является уникальной для каждого организма последовательностью, то и наборы таких «слов» различаются между отдельными организмами. Метод не требует обращения к референсу и наличия какой-либо информации об исследуемых организмах, и поэтому анализу подвергаются уже все последовательности образца, что дает лучшие результаты.

Для проверки эффективности k-мерной методики по сравнению с традиционными подходами были использованы два набора метагеномных данных — реальные и сгенерированные искусственно. Метод показал лучшие результаты на обоих типах данных в случае сравнения k-меров, а не традиционного сопоставления с референсным набором. Кроме того, в случае реальных кишечных данных, несоответствие между результатами k-мерного и традиционного подходов позволило детектировать еще один важный компонент метагенома кишечника — бактериальный фаг crAssphage, ускользающий от исследователей при использовании традиционного метода.