Используя новый алгоритм глубокого обучения LucaProt, исследователи выявили 161 979 «скрытых» видов РНК-вирусов, в том числе 70 458 ранее неизвестных науке. Геномы большинства этих видов вирусов, чьи последовательности прозвали «последовательностями темной материи», уже были секвенированы, но они настолько странные, что до сих пор не были идентифицированы. Многие из них обитают в экстремальных условиях, демонстрируя удивительное биоразнообразие.
Вирусы повсеместно распространены на планете, заражая широкий спектр животных, растений и бактерий. Они играют важную роль в балансе экосистем, регулируя популяцию видов-хозяев. Идентификация и характеристика вирусов обычно основывается на анализе РНК-зависимой РНК-полимеразы (RdRP), специфического компонента геномов РНК-вирусов. Несколько лет назад это позволило идентифицировать десятки тысяч видов вирусов, расширив известную «виросферу» по меньшей мере в 10 раз.
Однако, несмотря на достижения в области метагеномного секвенирования, на сегодняшний день идентифицирована лишь небольшая часть РНК-вирусов, а многие широко распространенные группы, вероятно, так и остались неопознанными. По мнению Артема Бабаяна из Университета Торонто (Канада), существует «бездонная яма» неопознанных вирусов. Отчасти это связано с тем, что стандартные метагеномные методы не могут идентифицировать сильно различающиеся RdRP.
Эти «скрытые» последовательности, получившие название «последовательности темной материи», многочисленны, и их трудно идентифицировать. Более того, для их точной характеристики необходимо разработать новые методы. Некоторые вирусы могут заражать людей, и их характеристика может помочь объяснить некоторые загадочные заболевания. Например, недавно было выдвинуто предположение о возможной вирусной причастности к болезни Альцгеймера, точная этиология которой до сих пор является предметом споров.
Для этой цели был разработан Lucaprot исследователями из Университета Сунь Ятсена (Китай) и Сиднейского университета (Австралия). «Наш метод искусственного интеллекта смог организовать и классифицировать всю эту разрозненную информацию, впервые пролив свет на значение этой «темной материи»», — объясняет Эдвард Холмс, соавтор исследования, опубликованного в журнале Cell, в пресс-релизе Сиднейского университета.
Графическое описание исследования.
Странные вирусы, живущие в экстремальных условиях
Когда дело доходит до идентификации вирусных последовательностей, алгоритмы глубокого обучения имеют ряд преимуществ перед традиционными биоинформатическими подходами, включая большую точность, способность обрабатывать очень большие объемы данных в рекордные сроки и способность к самообучению. По словам Манг Ши из Университета Сунь Ятсена, который также является соавтором исследования: «Раньше мы полагались на утомительные биоинформационные конвейеры для обнаружения вирусов, что ограничивало разнообразие, которое мы могли изучить».
Lucaprot основан на трансформаторах — одной из самых эффективных архитектур моделей глубокого обучения, позволяющих делать прогнозы относительно данных. В отличие от рекуррентных нейронных сетей, они позволяют обрабатывать данные в случайном порядке, что значительно сокращает время обучения. Алгоритму были предоставлены данные о секвенировании и предсказании белков из ESMFold, инструмента искусственного интеллекта, разработанного компанией Meta*. Затем он был обучен распознавать вирусные RdRps и «последовательности темной материи».
Географический охват метатранскриптомных данных, проанализированных в ходе исследования. (A) Географическое распределение образцов, проанализированных на уровне экосистем. (B) Общее количество образцов в различных экосистемах. Интегральная гистограмма представляет образцы, использованные для двойного секвенирования РНК и ДНК.
Алгоритмы глубокого обучения уже использовались для идентификации вирусов по геномным и метагеномным данным. Однако их архитектуры, как правило, основывались либо на сверточных нейронных сетях (CNN), либо на рекуррентных нейронных сетях. Первые сталкиваются с трудностями при работе с последовательностями переменной длины, в то время как вторые не могут справиться с длинными последовательностями, что ограничивает их возможности по выявлению расходящихся последовательностей.
Lucaport выявил 161 979 видов и 180 супергрупп РНК-вирусов. 70 458 из них принадлежат к ранее неизвестным видам, некоторые из которых имеют странные и исключительно длинные последовательности (до 47 250 нуклеотидов). Эти новые виды также присутствуют в невероятно разнообразных средах — от воздуха до гидротермальных источников и соленых озер. Их разнообразие и плотность значительно варьируются в зависимости от экосистемы.
Это самое большое количество вирусов, идентифицированных в рамках одного исследования. Их идентификация значительно улучшит наше понимание вирусного биоразнообразия в биосфере. «Тот факт, что в экстремальных средах обитает так много видов вирусов, является еще одним примером их феноменального разнообразия и упорства, позволяющего им жить в самых сложных условиях, что может дать нам подсказку о том, как появились вирусы и другие элементарные формы жизни», — говорит Холмс.
Миллионы других видов еще предстоит обнаружить
Несмотря на количество выявленных видов вирусов, команда считает, что исследование лишь поверхностное и что миллионы других видов еще предстоит обнаружить. Поэтому на следующем этапе исследования Lucaport будет использоваться для выявления других групп вирусов. Этот подход также может быть применен для идентификации бактерий и паразитов.
С другой стороны, потенциальные хозяева вновь выявленных вирусов пока не определены. В настоящее время Ши и его коллеги разрабатывают новую модель ИИ для этой цели и надеются пролить больше света на роль этих вирусов в их экологических нишах. Также будет проведена работа по определению того, могут ли некоторые из этих вирусов инфицировать археи — эукариотические организмы, для которых не было выявлено ни одного известного РНК-вируса.