 Назад

Вся память мира для популяционной генетики!

Святослав Сурин

February 4, 2024

Сколько нулей в йоттабайте? Ученые предсказывают, что к 2025 году объем секвенированных генетических данных превысит весь контент на YouTube. Действительно ли генетические данные настолько велики?

Место где хранится генетический код

В основе популяционной генетики лежат данные, полученные в результате исследований большого количества людей. Но чтобы понять, какой объем памяти необходим для хранения этих данных, нужно знать, сколько места на жестком диске займет геном одного человека. Начнем с кариотипа или хромосомного аппарата человека, включающего 46 хромосом. От матери мы получаем 23 хромосомы, и ещё 23 от отца, при этом каждая хромосома от матери имеет пару от отца, такие парные хромосомы называются гомологичными. Гомологичные хромосомы содержат гены, отвечающие за одинаковые признаки, например цвет глаз или резус-фактор. Но каждая хромосома содержит свой вариант гена, например, в одной из них ген карих глаз, а в другой — голубых глаз, в первой ген положительного резус-фактора, а во второй — отрицательного.

Генетический код, какой объём жёсткого диска он может занять?

Геном человека из 23 декодированных хромосом включает около 3 миллиардов символов, занимающих около 3 ГБ на жёстком диске. Но мы хотим полностью расшифровать все варианты генов из всех 46 хромосом чтобы знать всю информацию об индивидууме, поэтому умножаем предыдущую цифру на 2 и получаем 6 ГБ данных. Генетический код включает в себя не только уникальные последовательности символов, но также множество повторений и копий генов, поэтому геном теоретически можно сжать до 750 МБ данных. Кроме того, огромная часть нашего генома просто не работает, и в соответствии с разным теориям, представляет собой информационный балласт от предков, заблокированные мутации, резерв для восстановления ДНК на случай повреждения и так далее. А объем нашего рабочего генома занимает около 30 МБ данных. Именно эти 30 МБ определяют все наши признаки и свойства, а также наследственные заболевания. Гораздо проще и быстрее работать с файлом размером 30 МБ, чем с текстом в 3 миллиарда символов. Но это только в теории. Дело в том, что для получения расшифрованного генома человека, записанного в одну строку из 3 миллиардов символов, необходимо около 600 ГБ первичных данных.

Расшифровка генетического кода

Методы расшифровки генетического кода основаны на принципах разрезания ДНК на мелкие фрагменты с последующей их расшифровкой.

На рисунке показан классический метод секвенирования по Сэнгеру. В лабораторных условиях копируется интересующая исследователя ДНК. Специальный фермент строит новую ДНК на матрице той, что находится в рабочем растворе. Для копирования или репликации ДНК используются нуклеотиды (буквы генетического кода), которые также находятся в растворе. Среди нуклеотидов небольшая часть модифицирована таким образом, чтобы остановить процесс синтеза ДНК сразу после включения в растущую цепь. Кроме того, на модифицированных нуклеотидах имеется светящаяся флюорохромная метка, определённого цвета для каждой буквы генетического кода. После синтеза множества новых фрагментов ДНК, необходимо распределить их по длине с помощью гель-электрофореза. В результате под действием электрического тока более короткие и легкие фрагменты будут смещаться дальше, чем длинные и тяжелые. Затем с помощью лазера, смещая его на один шаг, можно получить цепочку цветовых сигналов, которые преобразуются в последовательность генетического кода. Так можно получить набор пазлов (ридов), из которых позже соберётся секвенированная ДНК.

На следующем этапе необходимо с помощью специального программного обеспечения выровнять полученные прочтения и собрать из их совпадений полный расшифрованный геном. Количество ридов, а значит, и объем памяти, необходимый для их хранения, напрямую зависит от их длины; чем длиннее риды, тем их меньше. Современные методы секвенирования, используемые параллельно с методом Сэнгера, позволяют получить риды длиной от нескольких сотен символов до миллиона. Удобство и затрачиваемое время работы в специализированном ПО напрямую зависит от используемого алгоритма выравнивания и от того, насколько грамотно спроектирован интерфейс софта. Сейчас на рынке представлено множество вариантов, каждый из которых имеет свои преимущества и недостатки. В HMND у нашей команды инженеров и учёных есть четкое видение принципов создания таких продуктов с учетом потребностей современного потребителя.

Масштабы данных популяционной генетики

Учитывая технические возможности современных методов секвенирования генома человека и средний объем первичных данных 600 ГБ для одного человека, можно сделать вывод, что для популяционно-генетического исследования 1000 человек нам потребуется 600 ТБ только для хранения первичных данных. В настоящее время набирают популярность генетические тесты, позволяющие узнать некоторые предрасположенности и заболевания. Такие тесты лишь частично изучают геном пациента, требуют для своего хранения несравнимо меньшее количество данных, но особенностью таких исследований является их массовость, ежегодно огромное количество людей решают пройти такое тестирование.

ДНК — жёсткий диск, РНК — оперативная память

Однако ДНК — это лишь место хранения наследственной информации, в течение жизни некоторые гены могут работать более активно, а некоторые — полностью выключаться. Дело в том, что на матрице глобального хранилища нашей наследственной информации – ДНК, синтезируется посредник – мРНК. Именно мРНК является индикатором активности того или иного гена. Совокупность мРНК называется транскриптомом. Геном человека содержит около 20 000 генов, но транскриптом содержит несравнимо большее число мРНК. Дело в том что ген состоит из кодирующих участков – экзонов и некодирующих участков – интронов. При альтернативном сплайсинге из мРНК избирательно вырезаются интроны в различных комбинациях. Этот механизм позволяет получать из одного гена разные белки, которые выполняют в организме разные, а иногда и противоположные функции.

Для изучения некоторых аспектов состояния здоровья пациента проводится транскриптомный анализ, такой анализ создает еще больший объем хранимых генетических данных, но позволяет лучше понять состояние организма на данный момент. А с учетом того, что транскриптом в клетках разных тканей может отличаться, для полноценного анализа транскриптома одного человека понадобится в разы большее место для хранения генетических данных.

Объёмы, передача, безопасность

Есть прогнозы, что к 2025 году объем секвенированных генетических данных может достичь 40 эксабайт, что превысит весь контент на YouTube. Параллельно с вопросом хранения генетических данных массовых исследований возникает вопрос о том, как можно их передавать и защищать, поскольку зачастую с генетическим кодом могут удаленно работать несколько специалистов. На данный момент основными принципами при передаче генетических данных являются согласие пациента и использование специальных сервисов с защищенными протоколами.

Какие существуют способы достижения перечисленных выше целей? Мы постараемся максимально точно и просто раскрыть этот вопрос в одной из своих следующих статей.