Хабрахабр

«Массовый продукт»: первое коммерческое ДНК-хранилище представят в 2019 году

Запустить сервис планирует стартап Catalog. Компания разрабатывает специальную установку, которая позволит ежедневно записывать терабайт данных в 500 трлн ДНК-молекул.

Далее расскажем о подходе, используемом Catalog, и других свежих разработках на ДНК-поприще.


/ фото University of Michigan CC

Подробности проекта

Классический подход к записи данных в ДНК предполагает преобразование последовательности битов ― нулей и единиц ― в последовательность из четырех базовых оснований ДНК. Например, азотистые основания аденин (A), тимин (T), гуанин (G) и цитозин ( С) можно представить так: A = 00, T = 01, G = 10, C = 11.

Однако такой способ плохо подходит для массовой записи данных, при этом являясь дорогостоящим. Пользуясь этим подходом, в 2016 году компании Microsoft удалось «увековечить» 200 Мбайт текста и видео в синтетических молекулах ДНК (о чем мы уже писали в одном из постов).

Затем за счет ферментативных реакций эти предварительно подготовленные «кусочки» формируют особые паттерны, которые и кодируют информацию. Вместо того чтобы использовать миллионы ДНК-цепочек, исследователи из Catalog предлагают генерировать большое количество различных ДНК-молекул, состоящих не более чем из 30 пар оснований. А группы молекул отражают положение битов в этих матрицах. Таким образом, вместо того чтобы представлять одно азотистое основание, биты выстраиваются в многомерные матрицы.

Вы можете скопировать её вручную: букву за буквой. Девин Лик (Devin Leake), руководитель исследовательского направления Catalog, приводит следующую аналогию: «Представьте, что у вас есть книга. Этот подход использовали в Microsoft. Точно также можно писать данные в ДНК ― молекулу за молекулой. Таким образом, переставляя предварительно сгенерированные молекулы, мы работаем сразу с целыми словами, расставляя их в нужном порядке». Мы же предлагаем создать своеобразный «печатный станок», где молекулы ДНК будут гарнитурой.

Для этого они использовали стихотворение The Road Not Taken (в одном из переводов ― «Другая дорога») Роберта Фроста. Используя этот метод, исследователи из Catalog успешно записали и восстановили данные в ДНК. Сейчас компания решает задачу масштабирования платформы под нужды ИТ-компаний и правительственных организаций.

Однако точная стоимость услуги хранения данных, которую будет предлагать стартап, пока неизвестна. По словам одного из основателей Catalog Хинджана Парка (Hyunjun Park), такой подход позволит сделать терабайтные ДНК-хранилища коммерчески выгодными уже к началу 2019 года.

Аналогичные разработки

Как уже было отмечено, вопросами создания ДНК-хранилищ занимаются в Microsoft. И с 2016 года исследователи из компании продвинулись в своих разработках: в феврале 2018 они создали «библиотеку праймеров» для организации произвольного доступа к ДНК. Каждый из праймеров «привязан» к конкретной цепочке, потому с помощью полимеразной цепной реакции можно выбрать любую из них (и получить доступ к записанным данным).


/ фото Col Ford and Natasha de Vere CC

В планах ИТ-гиганта предоставлять ДНК-хранилище as a service. В компании надеются, что такой подход вкупе с новым, менее восприимчивым к ошибкам алгоритмом записи и чтения данных, в будущем поможет создать ДНК-хранилища объемом в несколько терабайт. Компания задалась целью осуществить задумку к 2020 году.

Взаимовыгода ДНК и AI

С записью информации на ДНК-носитель уже нет особых трудностей: компании придумали способы автоматизации. А вот процесс считывания информации по-прежнему сложен и требует много времени. Чтобы решить и эту проблему компания Lifebit планирует использовать системы ИИ. В Lifebit разрабатывают облачную платформу Deploit на базе алгоритмов МО, которая позволит автоматизировать процесс чтения информации из ДНК-носителей.

Однако справедливо и обратное ― молекулы ДНК используются для создания систем искусственного интеллекта. Таким образом, машинное обучение поспособствует в организации ДНК-хранилищ. Например, в этой сфере работают исследователи из Caltech.

«Интеллектуальную систему» уже научили распознавать цифры, написанные от руки. Принцип работы их нейронной сети основан на химических реакциях, получивших название смещение нитей (механизм репликации ДНК, известный у некоторых вирусов), когда нить, называемая входящей, вытесняет одну из нитей оригинальной ДНК.

Каждая из этих ячеек представлена молекулой ДНК, которая «знает», есть ли на этом пикселе кусочек цифры. Цифра отрисовывается на квадратной плоскости, разделенной на сто одинаковых ячеек (10x10) ― своеобразные пиксели. Пробирка начинает излучать свечение, цвет которого зависит от распознанной цифры. После все молекулы смешивают в одной пробирке, и «ДНК-сеть» дает свой ответ с помощью флуоресцентных сигналов. Например, зеленый и желтый цвета означают цифру пять, а зеленый и красный ― цифру девять.

В планах исследователей сформировать у нейронной сети некое подобие памяти, чтобы она «запоминала» обучающие векторы и использовала их для решения других задач.

O Catalog

Catalog ― это американский стартап, основанный в 2016 году, который занимается разработкой технологий хранения данных в молекулах ДНК. Штаб-квартира располагается в Бостоне, Массачусетс.
P.S. Пара дополнительных материалов из Первого блога о корпоративном IaaS:
P.P.S. Другие посты по теме из нашего блога на Хабре:

Показать больше

Похожие публикации

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»