Белки являются важной частью поддержания жизнедеятельности живых организмов. Они помогают восстанавливать клетки, выводить отходы и передавать корреспонденцию из одного конца тела в другой.
Ученые много работали над расшифровкой структуры и функций белков, и сегодня исследовательская группа ИИ компании Meta объявила об использовании модели, которая может предсказывать трехмерную структуру белков на основе их аминокислотных последовательностей. В отличие от предыдущих работ в этой области, таких как DeepMind, ИИ Meta основан на модели изучения языка, а не на алгоритме сопоставления формы и последовательности. Meta не только публикует препринт статьи об этом исследовании, но и открывает модель и базу данных белков для исследовательского сообщества и промышленности.
Для начала, чтобы понять важность понимания формы белков, приведем краткий урок биологии. Определенные триплетные последовательности нуклеотидов из генов переводятся молекулой в клетке, называемой рибосомой, в аминокислоты. Белки - это цепочки аминокислот, которые собираются в уникальные формы и конфигурации. Развивающаяся область науки под названием метагеномика использует секвенирование генов для обнаружения, каталогизации и аннотирования новых белков в природе.
ИИ-модель Meta - это новый подход к сворачиванию белков, вдохновленный большими языковыми моделями, который направлен на предсказание структур сотен миллионов белковых последовательностей в базах данных метагеномики. Понимание форм, которые образуют эти белки, даст исследователям подсказки о том, как они функционируют и с какими молекулами взаимодействуют.
"Мы создали первую крупномасштабную характеристику белков метагеномики. Мы выпускаем базу данных как открытый научный ресурс, который содержит более 600 миллионов предсказаний белковых структур", - говорит Алекс Ривес, научный сотрудник Meta AI. "Это охватывает некоторые из наименее изученных белков".
Исторически сложилось так, что вычислительные биологи использовали эволюционные модели для предсказания структуры белков. Белки, пока они не свернуты, представляют собой линейные нити аминокислот. Когда белок складывается в сложную структуру, определенные последовательности, которые могут оказаться далеко друг от друга в линейной нити, могут внезапно оказаться очень близко друг к другу.

"Можно думать об этом как о двух кусочках головоломки, которые должны подходить друг другу. Эволюция не может выбрать эти две позиции независимо друг от друга, потому что если здесь окажется не та деталь, структура развалится", - говорит Ривес. "Это означает, что если вы посмотрите на структуру белковых последовательностей, то они содержат информацию о сложенной структуре, потому что различные позиции в последовательности будут изменяться друг с другом. Это будет отражать что-то о биологических свойствах белка".
Между тем, инновационный подход DeepMind, впервые дебютировавший в 2018 году, в основном опирается на метод, называемый множественным выравниванием последовательностей. По сути, он выполняет поиск в массивных эволюционных базах данных белковых последовательностей, чтобы найти белки, родственные тому, для которого он делает предсказание.
"Отличие нашего подхода в том, что мы делаем прогноз непосредственно по аминокислотной последовательности, а не по набору множества родственных белков и рассматриваем закономерности", - говорит Ривес. "Языковая модель изучает эти закономерности другим способом. Это означает, что мы можем значительно упростить архитектуру предсказания структуры, поскольку нам не нужно обрабатывать этот набор последовательностей и искать родственные последовательности".
Эти факторы, утверждает Ривес, позволяют их модели быть более быстрой по сравнению с другими технологиями в этой области.
Как они обучали эту модель, чтобы она могла выполнять эту задачу? Это заняло два этапа. Во-первых, они должны были предварительно обучить языковую модель на большом количестве белков, которые имеют различную структуру, принадлежат к различным семействам белков и взяты из всех эволюционных периодов. Они использовали версию маскированной языковой модели, в которой они удаляли части аминокислотной последовательности и просили алгоритм заполнить эти пробелы. "Языковое обучение - это обучение без наблюдения, оно обучается только на последовательностях", - объясняет Ривес. "Это заставляет модель изучать закономерности в миллионах белковых последовательностей".
Затем они заморозили языковую модель и обучили на ее основе модуль складывания. На втором этапе обучения они используют контролируемое обучение. Набор данных для контролируемого обучения состоит из набора структур из банка данных белков, которые предоставили исследователи со всего мира. Затем эти данные дополняются предсказаниями, сделанными с помощью AlphaFold (технология DeepMind). "Этот модуль складывания берет на вход языковую модель и, по сути, выводит трехмерные атомные координаты белка [из аминокислотных последовательностей]". говорит Райвс. "Это создает эти представления, и они проецируются в структуру с помощью головки складывания".
Ривес считает, что эта модель может быть использована в исследовательских целях, например, для понимания функции активного сайта белка на биохимическом уровне, что является информацией, которая может быть очень важной для разработки и открытия лекарств. Он также считает, что в будущем ИИ можно будет использовать даже для проектирования новых белков.