Хабрахабр

«Это тоже анализ данных». Разговор о биоинформатике с Михаилом Гельфандом

Таким образом, биоинформатика — это один из примеров, когда IT может прийти на помощь при изучении реального мира. Биоинформатика — чрезвычайно любопытная область научного знания, так как в ней соединяются задачи, формулируемые в биологических терминах, и методы, привычные для специалистов по алгоритмам, обработке больших данных и машинному обучению.

Мы поговорили о том, что такое биоинформатика, о её интересных приложениях, о том, чем могут быть полезны IT-специалисты в биоинформатике и что им для этого нужно выучить. Недавно я побывал в гостях у Михаила Сергеевича Гельфа́нда в Институте проблем передачи информации.

Под катом этой статьи вы найдете полную расшифровку нашего разговора.

Что такое биоинформатика

Алексей Шаграев: Биоинформатика — что это за наука, чем она занимается?

По большому счёту, это не наука, а просто набор приёмов. Михаил Гельфанд: Биоинформатика — это способ заниматься биологией при помощи компьютера. В этом же смысле наукой не является, например, электронная микроскопия.

Она описывает, как данные из прибора дотащить до компьютера. Первая часть биоинформатики — алгоритмическая. При этом нужно учитывать шум в данных, различные неравномерности всего на свете. Чтобы определить последовательность нуклеотидов, образующих геном (секвенировать его), по техническим причинам этот геном нужно нарезать на большое количество небольших фрагментов, которые затем нужно склеить в одну большую строку. Это довольно типичная задача, другие алгоритмические задачи возникают в анализе масс-спектрометрических данных.

Она сильно ближе к тому, чем занимаюсь я. Вторая часть биоинформатики — классическая, биологическая. Вот у вас есть белок. Более точно её можно назвать молекулярной биологией. Или у вас есть ген. Что он делает? Или, наоборот, вы знаете, что что-то в клетке выполняет определённую функцию. Когда он включается, когда выключается? Это примеры классических задач молекулярной биологии, и оказывается, что компьютер — довольно эффективный прибор, чтобы такие задачи решать. Какой именно белок её выполняет? Если действительно выполняет — ура! Исследователям уже не нужно проверять все возможные функции белка; вместо этого они могут проверять, выполняет ли белок ту функцию, которую предсказала модель. Это классическая молекулярная биология, она делается на компьютере ещё до пробирки. Таким образом компьютер позволяет экономить время экспериментатора, сужая пространство поиска.

Экспериментальные методы, которые сделали биологи, оказались настолько эффективны, что данных производится уже очень много. Наконец, третья, недавно возникшая часть биоинформатики — анализ больших данных. Аналогичное случилось с физикой высоких энергий. Астрономия прошла такой же путь к астрофизике — колоссальные телескопы теперь производят гигабайты данных каждую минуту. Благодаря большому объёму возможно описывать работу клетки целиком — не работу одного гена, а работу всех генов этой клетки. Первая возникающая задача — просто сохранить данные и выцепить из них интересную биологию.

Конечно, есть научная биоинформатика, только она называется по-другому — эволюционная биология. Кроме того, я вам в самом начале сказал неправду. Самый естественный, базовый вопрос — кто кому родственник. Довольно много компьютерных методов уже описывают паттерны эволюции — как происходил отбор, что на что менялось. Человек отличается от мышей не потому, что у нас гены разные, а потому, что они по-разному работают. А дальше начинается: как устроена биология развития у разных зверушек?.. Причём основные различия закладываются в эмбриогенезе.

Когда и как люди впервые поняли, что в этих областях компьютер может принести ощутимую пользу?


Фрэнсис Крик

Он в 1958 году понял, что последовательности — тогда он, по-моему, думал про белки — можно использовать для определения родства. Первым всё понял Фрэнсис Крик, который, по-видимому, был совершенно гениальным человеком. Эту идею он впервые высказал в статье, посвящённой совершенно другому, вставил два предложения другой истории. Самих последовательностей ещё не было.

Предложил (совместно с Джеймсом Уотсоном) структуру двойной спирали ДНК, сформулировал так называемую центральную догму молекулярной биологии, утверждающую односторонний характер передачи генетической информации в клетке: от ДНК через РНК к белкам. Фрэнсис Крик — один из крупнейших биологов XX века, лауреат Нобелевской премии по физиологии и медицине 1962 года. — примечание Алексея Шаграева Один из авторов классической работы, описывающей структуру генетического кода.

В этой науке они называются филогенетическими, а смысл у них — кто кому родственник.  
Потом, в начале 60-х, действительно появились первые последовательности, люди начали строить деревья.

Современные представления состоят в том, что все живые организмы делятся на три домена или надцарства: археи, бактерии и эукариоты. Филогенетическое дерево — дерево, отражающее эволюционные связи между различными группами организмов. — примечание Алексея Шаграева

Через некоторое время стало ясно, что руками уже не получается, надо писать программу.  
Потом появились методы анализа, становилось больше последовательностей.

В этом смысле мне очень повезло — когда я в неё пришёл в 1985 году, это был такой Дикий Запад, фронтир. Биоинформатика как наука начала складываться в начале 80-х. Не надо было ничего учить — надо было делать. Можно было придумать и сделать задачку, которую с большой вероятностью никто не сделал. Редко кому-то так везёт.

Но были и полезные вещи. Сначала биологи к этому относились как к играм в песочнице. Стали появляться базы данных, куда эти последовательности закладывались на автомате — перед публикацией статей редакции требовали, чтобы последовательность была положена в базу. Однажды стало ясно, что невозможно следить за последовательностями просто по журнальным публикациям. Это уже была серьёзная наука, поскольку эти базы растут очень быстро и алгоритмы должны быть безумно эффективными. Соответственно, люди начали писать программы для поиска похожих последовательностей в базах.

То есть они убегают от компьютеров. Есть известная страшилка о том, что производительность секвенаторов — приборов для определения последовательностей — растёт с экспонентой, которая быстрее, чем закон Мура. Забыл, как он называется. Ещё есть закон про ёмкость памяти, тоже экспоненциальный. Но секвенаторы и экспоненциальное прирастание данных с бо́льшими показателями, чем компьютерные мощности, — это такой ночной кошмар. Отдельный вопрос — упираются ли они в какие-то физические пределы.

Теперь хороший биолог при планировании эксперимента понимает (или с кем-то советуется), как он будет обрабатывать результат. А потом появились методы совсем быстрого секвенирования, и там биоинформатика уже работает с самого начала. Сам дизайн эксперимента уже в значительной степени учитывает обработку того, что получится.

У нас есть проекты про то, что, если заставить сеть решать правильную задачу, ей по дороге придётся выучить всю биологию. Сейчас люди начали всё это запихивать в глубокие нейронные сети. И примеры есть.

Там встречаются два сорта задач.

Например, дифференциальный диагноз рака или какой-нибудь прогноз. В одних задачах требуется просто качественное распознавание. Хорошо бы это узнать не когда вы начали лечить, а заранее. У вас есть две когорты пациентов: одним данные лекарства помогают, другим нет. Можно изучать особенности тех мутаций, которые случились от этого рака, смотреть, как гены в опухоли начнут работать.

У нас есть последовательность, а мы хотим узнать, как молекула свёрнута в пространстве. Или можно предсказывать пространственную структуру белка — это тоже классическая задача. Люди гоняются просто за качеством предсказания. Старая задача, она, наверное, в 70-х началась. Сетки кого-то побеждают, кого-то нет. Есть много разных методов. Такая наука.

Например, см. Нейронные сети и биоинформатика. — примечание Алексея Шаграева сообщение в блоге DeepMind про нейросетевой алгоритм укладки белков AlphaFold и лекцию Mohammed AlQuraishi.

Вы ставите задачу, которая не имеет практического смысла, но чтобы её решить, надо что-то понимать про устройство биологии.  
А есть то, что, по-моему, даже прикольнее. Зато мы потом можем залезть в её нейроны и посмотреть, что же она выучила, пытаясь эту задачу решить. И тогда сетка как бы напрягается, ей очень хреново, потому что качество распознавания у неё, скорее всего, очень плохое.

Скорее есть люди, которые просто пытаются правильным способом применить готовые архитектуры. В биологии нет пионеров развития сетевых архитектур. Это такой хайп последнего времени, есть действительно красивые работы.

image
Иллюстрация из статьи DeepMind

Современная биоинформатика

Какие организмы сейчас наиболее популярны для изучения в этой области и почему?

Человек, конечно, потому что мы хотим всех облагодетельствовать и всю медицину усвоить.

Человек — потому что медицина. Есть традиционные модельные организмы. Дрозофила — потому что это вообще классика. Мышки — потому что они млекопитающие, но их не жалко. Нематода C. Кишечная палочка — потому что это бактерия, она быстро растёт и тоже является классикой (как и ещё несколько бактерий). Elegans — потому что у неё в каждом экземпляре фиксированное количество клеток, строго известна генеалогия этих клеток, у них стандартная схема нервной сети, они абсолютно идентичны, но генетически могут быть разными.

Мой любимый проект последнего времени — мы нечто совершенно не банальное поняли про эволюцию осьминогов, и ни у кого другого такого нет. Поскольку есть производительные методы секвенирования, мы можем себе позволить изучить не только модельные организмы, для которых уже много всего сделано, а какие-нибудь другие, прикольные. Когда студенты меня спрашивают, я скорее советую искать каких-то прикольных зверушек.

У бактерий ядра нет, они простые. Одноклеточные простейшие — это такие организмы, у клеток которых есть ядро, как у нас. О том, как бактерия живёт, что она ест, что она синтезирует, что она должна из внешней среды получать, мы можем сказать довольно много — не делавши вообще ни одного эксперимента, просто глядя на кино. На бактериях можно очень глубокие вещи делать. Но есть чудесные одноклеточные с ядром, и у них самая разнообразная биология. А зверушки, у клеток которых есть ядро, например, мы с вами, — они посложнее. Самый прикольный зоопарк именно там. У инфузории, у амёб.

А вирусы?

Интересно, как устроена эволюция вирусов, потому что есть довольно много белков, которые, по-видимому, придуманы вирусами. Вирусы в первую очередь интересны с медицинской точки зрения.

Откуда эта хрень взялась, вообще никто не понимает. Ещё есть гигантские вирусы, геном у которых уже больше, чем у маленькой бактерии. Там есть хорошие эволюционные задачи. Я просто хуже знаю эту вирусную науку.

Какие сейчас есть интересные направления, где возможны заметные для широкой публики результаты, связанные с биоинформатикой и изучением геномов?

Они извлекаются из археологических находок и заметно меняют — во всяком случае, обогощают — наше представление об истории человечества. Из того, что можно объяснять широкой публике, самое интересное — история про древние геномы. Там опять же есть хорошие вычислительные куски, но основные молодцы — экспериментаторы, которые просто научились эту ДНК выделять и определять последовательности. Взгляды на происхождение человека довольно сильно модифицировалось. Эксперименты были очень тяжёлые.

Это легко рассказывать публике, что я периодически и делаю. У каждого из нас есть пара процентов неандертальских фрагментов.

статью в Science. Про древние гены. В 2006 году стартовал проект прочтения полного генома неандертальцев, одним из результатов которого стал вывод о скрещивании древних людей с неандертальцами, см. — примечание Алексея Шаграева Полное изложение этой истории Еленой Наймарк можно найти на Элементах.

В хороших биологических работах, когда мы лечим даже не абстрактный рак конкретного типа, а именно опухоль конкретного больного, это персонифицированная медицина.  
Чистая биоинформатика… Опять же, поскольку это часть биологии, то для нас потребитель — биолог. Но насколько они массовые и потянет ли их экономика — не очень понятно. Есть хорошие примеры, когда это работает. Биоинформатика сидит под всем этим «в подвале». В принципе да, есть примеры лекарств, перед назначением которых делают анализ мутаций в конкретной опухоли. Но в основном потребителем для нас является не человек, а другой биолог. Без развития биоинформатических методов это было бы просто невозможно.

Какая задача может его вдохновить прямо сейчас, чтобы прийти в эту науку и чем-то помочь? Представим себе разработчика: возможно, опытного; возможно, специалиста по анализу данных; или наоборот, ещё студента.

Данные могут быть замечательные. Можно прибиться к какой-нибудь лаборатории, где есть много данных, и просто обрабатывать их. Там куча разнородных экспериментов, действительно много данных. Это может быть пространственная структура — как ДНК упаковано в клетке и как это влияет на её работу. Можно делать действительно красивые вещи. И там широкое поле: от физики полимеров до какого-нибудь корреляционного анализа и чего-то статистического. В общем, куча всего хорошего. Данные очень разные, их можно по-разному сопоставлять.

И тут опять надо прибиться к хорошим биологам, тогда можно решать хорошие биологические задачи хорошими сетками. Дальше есть эта байда с сетками. Мы про это немножко говорили. Или побеждать в чемпионатах мира по предсказанию, что само по себе почётно, или пытаться какую-то биологию вынимать.

Это тоже анализ данных, но там куча всего. А можно, действительно, прибиться в компанию, которая пытается строить методы дифференцированной диагностики — в основном диагностики рака — и делать что-то хорошее.

Есть парадокс: у нас геном во всех клетках одинаковый, а клетки работают по-разному — и, кстати, устроены тоже по-разному, потому что разные гены в них по-разному работают. Какая самая типичная ситуация и типичная задача? Но опять-таки, клетка перерождается не потому, что в ДНК что-то поменялось, а потому, что гены стали работать иначе. В раковой опухоли геномы уже другие, там случились мутации. И мы можем пытаться предсказывать влияние лекарств, строить прогнозы или просто делать дифференциальную диагностику по тому, как в разных типах опухолей работают клетки.

Это и клетки опухоли, и здоровые клетки, и какие-то лимфоциты туда приползают — куча всего. Но делая этот анализ, мы берём кусочек ткани, и там очень много разных клеток. Вы можете оценить долю таких клеток. Вам нужно разложить усреднённую работу генов, которую вы можете померить в эксперименте, на то, как гены работают в каждом типе клеток. В наивной постановке все думают, что её можно решить просто как задачу линейной алгебры, как большую систему линейных уравнений. Это задача декомпозиции. К простой линейной алгебре это не сводится. Оказывается, что шум в данных и другие сложности заставляют очень сильно крутиться. Но фигуськи. Я много раз это видел: приходит студент, говорит — тут сейчас уравнение напишем, и всё. Зато это непосредственно польза человечеству — искать раковые подписи.

Мы сейчас определяем, как работают гены в смеси клеток, в образце, где клеток миллионы. Будет очень хорошая наука, она уже сейчас происходит — раннее развитие. Тогда мы можем смотреть, например, эмбриологию, смотреть траектории развития клеток на самых ранних стадиях, когда их ещё мало. Но нужно то же самое уметь делать в единичной клетке, а для этого — побеждать большой шум. Это эволюционная эмбриология. Можно смотреть, как происходит ранняя дифференцировка клеток, и с этими историями эмбриология в ближайшее время станет совсем другой, будут сделаны хорошие работы. Такое будет. Не просто смотреть, чем анатомия отличается у приматов и грызунов (это классика, XIX век), а смотреть, как эти различия на очень ранних стадиях закладываются за счёт того, какие гены где работают.

Что он должен уметь? Как выглядит идеальный специалист, который бы сейчас пришёл в эту область и принёс очень много пользы? Где ему этим заняться?

В первую очередь, есть магистерская программа по наукам о жизни в Сколтехе. Он должен знать биологию. Ему будет тяжело, но такие примеры есть. Туда может поступить и человек без биологического образования.

Туда можно, наоборот, без компьютерного образования поступить. Есть программа анализа данных биологии и медицины во ВШЭ на факультете компьютерных наук. Это для магистров. Биологи там тоже есть, но там биологии будет меньше, а биоинформатики — больше. Это если про Москву говорить. А для 11-классников есть факультет биоинженерии и биоинформатики МГУ.

В Питере есть биоинформатические программы в Санкт-Петербургском университете и в ИТМО, по-моему, но про них я меньше знаю.

Про Михаила Гельфанда

Как вы пришли в эту науку?

К моменту окончания мехмата я понял, что у меня плохо получается доказывать теоремы, не говоря уже о том, чтобы их придумывать. Неспособность к занятиям математикой. И мне очень повезло, потому что биоинформатика тогда только-только начиналась, можно было просто туда прийти, и всё.

Для меня съезд в биологию был довольно естественный. Я биологию всегда любил: бабочек ловил, жуков мучил, вот это всё. И биоинформатика в этом смысле — довольно лингвистическая наука, если ей правильно заниматься. Кроме того, я интересовался лингвистикой, в кружок ходил, на олимпиады. Так что это был очень естественный выбор, во всяком случае для меня.

Чем занимаетесь прямо сейчас?

У меня есть некая теория. Лично я занимаюсь в первую очередь задачей про редактирование транскриптов у осьминогов, про то, откуда взялись куколки у бабочек, жуков, муравьёв, пчёл и всех насекомых, у которых есть куколки.

Он маленький, чёрненький и не похож на таракана, потом несколько раз линяет и становится с каждым разом всё больше похож на таракана. Вот у тараканов куколок нет. Если нам удастся это аккуратно показать, будет круто. А существуют насекомые, у которых есть стадия куколки, и мы вроде бы придумали, откуда она взялась.

Так сложилось исторически. Я занимаюсь анализом того, какие бактерии живут в тлях, кораллах и нефтяной шахте. А про нефтяные скважины у меня есть безумно активный аспирант, который просто окучивает нефтяные компании и им эту задачу втюхивает. С тлями у нас есть хорошие коллабораторы в Белоруссии, с кораллами — коллабораторы в Москве, которые отковыривают куски этих кораллов. То есть это оппортунистические задачи, на самом деле.

Я занимаюсь укладкой ДНК в клетке и тем, как эта укладка влияет на работу генов.

И вообще пониманием того, как эволюционируют бактерии, откуда бактериальные виды берутся, как они разделяются на виды. Довольно много занимаюсь — точнее, аспиранты занимаются — эволюцией бактерий, потому что эта штука довольно плохо описана, можно по-разному на неё смотреть. Это не очень модная область, но там тоже можно делать много прикольных вещей. Оно не то чтобы было хорошо сделано.

Можно сравнивать близкие виды, смотреть, чем они отличаются, понимать (или не понимать), как эти изменения происходят. Я занимаюсь тем, как регулируется работа генов, в основном у бактерий, и как эти регуляторные сети эволюционируют.

Регистрация открыта и доступна по ссылке. Михаил Гельфанд — один из спикеров конференции YaTalks, которая состоится 30 ноября в конференц-зале Paveletsky Space в Москве.

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть