PlantRNA-FM, новая модель искусственного интеллекта, обученная на данных о РНК более чем 1100 видов растений, может расшифровывать генетический «язык» растений. Модель научилась расшифровывать расположение паттернов РНК и определять их конкретные функции, примерно так же, как расшифровывается расположение букв алфавита для понимания человеческого языка. В конечном итоге эта технология может быть использована для разработки методов улучшения урожая или сохранения видов растений.
Транскриптом — совокупность РНК, образующихся в результате транскрипции генома, — объединяет широкий спектр мотивов, влияющих на различные ключевые биологические функции, такие как трансляция белков. Исследования показали, что характеристики и структура этих мотивов имеют важное значение для биологических процессов. Например, у растений прохладные температуры (около 20 °C) способствуют сворачиванию определенных мотивов РНК, что, вероятно, связано с адаптивными процессами.
Однако выявление функциональных мотивов РНК в транскриптомах представляет собой серьезную проблему, учитывая десятки тысяч возможных комбинаций нуклеотидных оснований, из которых они состоят. Например, для последовательности из 50 нуклеотидов число возможных комбинаций будет порядка 1,27 × 1030.
Было высказано предположение, что для выявления и расшифровки этих мотивов можно использовать базовые модели (БМ). Это модели искусственного интеллекта, которые отличаются большим размером (до нескольких миллиардов параметров) и могут быть предварительно обучены самонаблюдаемым способом на различных типах немаркированных данных, что делает их особенно подходящими для биологии.
Кроме того, БМ обладают высокой адаптивностью и могут быть настроены на анализ сложных биологических процессов. Подобно тому, как буквы алфавита собираются в слова и предложения, нуклеотиды, составляющие мотивы РНК, располагаются в соответствии с их специфическими функциями. БМ-системы могут декодировать их так же, как человеческий язык.
Модель PlantRNA-FM, разработанная исследователями из Центра Джона Иннеса, Эксетерского университета, Северо-Восточного нормального университета и Китайской академии наук, является первой моделью, специально предназначенной для выявления функциональных мотивов РНК в растениях. «Это достижение открывает новые возможности для лучшего понимания и модификации растений, что может иметь потенциальное значение для улучшения урожая и генетического дизайна с помощью искусственного интеллекта», — сказал в своем заявлении Йилян Динг, сотрудник отделения клеточной биологии и биологии развития Центра Джона Иннеса и соавтор нового исследования.
Техника, аналогичная декодированию человеческого языка
Для декодирования РНК предыдущие БМ были предварительно обучены на большом количестве последовательностей и продемонстрировали отличную производительность при конструировании новых последовательностей. Однако информация, основанная только на последовательностях, ограничена, поскольку РНК может образовывать вторичные или третичные структурные мотивы, выполняющие специфические функции. Авторы нового исследования считают, что для облегчения идентификации функциональных мотивов необходимо разработать БМ, объединяющий информацию как о последовательностях, так и о структуре РНК.
Для этого PlantRNA-FM был обучен с помощью набора из 54 миллиардов фрагментов информации о РНК, охватывающего транскриптомы 1124 видов растений со всего мира. «Включая в себя последовательности РНК, аннотации и информацию о структуре 1124 различных видов растений, PlantRNA-FM отражает огромное разнообразие растительных транскриптомов», — объясняют исследователи в своей работе, опубликованной в журнале Nature Machine Intelligence.
Подобно тому, как она расшифровывает предложения человеческого языка, модель научилась понимать логику в расположении последовательностей и структур РНК. По словам команды, она смогла сделать точные предсказания о функциях последовательностей и определить конкретные функциональные мотивы в транскриптомах. Эти предсказания были подтверждены экспериментами, показавшими, что мотивы РНК, выявленные PlantRNA-FM, играют роль в эффективной трансляции генетической информации в белки.
«Последовательности РНК могут показаться человеку случайными, но наша модель искусственного интеллекта научилась расшифровывать скрытые в них закономерности», — объясняет Хаопенг Ю, постдокторант Центра Джона Иннеса и один из соавторов исследования. Эта технология может способствовать лучшему пониманию мира растений и открыть возможности для решения глобальных проблем, таких как самообеспечение продовольствием и устойчивость к климатическим изменениям натуральных культур и видов, находящихся под угрозой исчезновения». По словам исследователей, модель также может быть применена к изучению беспозвоночных и бактерий, что потенциально может открыть путь к существенному прогрессу в нашем понимании функционирования экосистем.
Читайте все последние новости искусственного интеллекта на New-Science.ru