Хабрахабр

Генетика сорта Романеско: фрактальная математическая модель экспрессии генов

Так сразу и не скажешь, но с математической точки зрения у всех этих объектов есть общая черта — фрактальность. Что общего между снежинкой, капустой Романеско, морской звездой, молниями и деревьями? Любое явление, процесс или объект можно выразить в математической форме, что позволяет его проанализировать под новым углом, так сказать. В глазах математика все в нашем мире подчиняется законам «царицы наук». Сегодня мы поговорим о том, как фракталы помогли заложить фундамент совершенно новой математической модели генов человека с позиции онкологических заболеваний. Многие годы ученые пытаются создать идеальную математическую репрезентацию генов, их взаимосвязи и процессов, в которых они участвуют. Ответы будем искать в докладе исследовательской группы. Что такое фрактал, чем он так важен для генетиков и математиков, и как новая математическая модель может помочь современной медицине? Поехали.

Теоретическое отступление

Для начала стоит вкратце разобраться, что есть фрактал и с чем его едят.

Проще говоря, когда что-то состоит из нескольких мини-копий самого себя. Фрактал — это множество со свойствами самоподобия.

Это можно назвать естественными проявлениями фракталов. Фракталы встречаются в различных физических явлениях: от диффузии до турбулентности. Люди также нашли фракталам применение: в компьютерной графике, радиотехнике, сетевых технологиях и т.д.

Очень красочно фракталы представлены в фильме «Доктор Стрэндж» (2016 г.), когда Старейшина отправляет главного героя на экскурсию по параллельным измерениям.


Немного неприятное зрелище, но наглядно демонстрирующее фрактальность.

Даже на полках супермаркета можно встретить проявления фрактальности, а именно на примере капусты Романеско или цветной капусты.

И организм человека, в особенности его гены, не исключение. Если же учесть, что типов множеств с фрактальными свойствами довольно много, можно утверждать, что практически все вокруг нас тем или иным образом связано с фракталами. Поскольку фракталы можно математически пояснить, разложив по полочкам составляющие, применение подобной модели на генах человека может значительно помочь в понимании различных процессов, протекающих у нас в организме, в том числе и разных заболеваний, патологий и других неприятных вещей.

Другими словами, наши клетки посредством экспрессии генов контролируют свою структуру и функции. Одним из важнейших процессов в нашем теле является экспрессия генов (изображение ), когда наследственная информация генов преобразуется в функциональный продукт. Потому у нас и не растут волосы во рту, иммунитет борется с инфекциями, клетки крови транспортируют кислород и т.д. Наши гены это база данных, из которой черпают информацию все клетки тела, выполняя необходимые функции в последствии. Все эти процессы протекают именно за счет программирования клеток на выполнение конкретных задач, что в свою очередь возможно посредством синтеза белка от активации определенного гена.


Изображение №1

Посему исследование этого процесса имеет огромную важность для полного понимания того, как работают те или иные механизмы управления организмами. Регуляция экспрессии генов указывает когда, сколько и как долго должны продуцироваться определенные белки.

Этот сложный процесс важен для ученых, поскольку получив возможность им управлять, они смогут создать определенные синтетические клетки, наделенные четкими функциями, в частности, доставка лекарства от онкологических заболеваний в самое «сердце» недуга для более эффективного лечения.

Для этого ученые предлагают представить организм человека в виде программы, где гены выступают в роли строк кода, которые можно изменить, если программа работает со сбоем. Дабы усовершенствовать методики лечения таких заболеваний, необходимо более детально узнать генетический аспект. На данный момент такие модели уже существуют, но они не могут быть репрезентативными ввиду того, что нацелены были на исследование динамики в сети генов. Чтобы это реализовать, необходимо для начала создать математическую модель гена. В данном же исследовании, применившем понятие фракталов, ученые решили сконцентрировать свое внимание на процессе экспрессии конкретного гена, а потом применить взаимную корреляцию между парами ген-ФТ* (1b).

Фактор транскрипции (ФТ)* — белок контроля синтеза мРНК, содержащую информацию о первичной структуре белков, на матрице ДНК посредством связи с определенными участками ДНК.

Проще говоря, ученые решили копнуть поглубже, рассмотрев не всю «стену» целиком, а отдельные «кирпичики».

Результаты исследования

В роли испытуемых в данном исследовании выступили грибок Saccharomyces cerevisiae (пекарские дрожжи) и бактерия Escherichia coli (кишечная палочка).

Посредством анализа статистических данных генетической экспрессии подопытных был вычислен коэффициент Хёрста*.

Коэффициент Хёрста* — мера анализа временного ряда.

Временной ряд* — совокупность статистических данных, собранных в разные временные промежутки, о каком-либо показателе.


Изображение №2

На изображениях (дрожжи) и 2b (кишечная палочка) показаны билогарифмические графики* флуктуации, как функции масштаба временных рядов ФТ.

Билогарифмический график* — двумерный график данных, использующий логарифмическую шкалу на обеих осях (вертикальной и горизонтальной).

Наклон кривой на этих графиках соответствует коэффициенту Хёрста. Стоит отметить, что 95% (дрожжи) и 98% (палочка) временных рядов генов продемонстрировали долгосрочную зависимость*.

Определяется показателем коэффициента Хёрста — от 0 до 1. Долгосрочная зависимость* — показатель в анализе временных рядов, обозначающий медленное затухание статистической зависимости двух точек с увеличением временного интервала между ними. 5, то мы имеем сильную долгосрочную зависимость, ниже 0. Если показатель выше 0. 5 — противоположный эффект.

Коэффициент Хёрста долгосрочной зависимости в данном конкретном случае составил 0.5, что говорит об ее отсутствии, в теории. Однако дальнейший анализ данных показал, что этот показатель превышает значение в 0.5, что говорит о наличии долгосрочной зависимости временных рядов в генетической экспрессии ( и ). Это наталкивает на то, что временные ряды ген-ФТ не могут рассматриваться как нечто случайное, потому должны моделироваться на базе марковской цепи, когда существует череда событий, случайность каждого из которых зависит исключительно от предыдущего события.

Подобно генам, факторы транскрипции также показали долгосрочную зависимость: в 97% для дрожжей и для палочки (графики 2d и 2f).

Для начала ученые обращают наше внимание на бимодальность распределения коэффициента Хёрста. А теперь добавим щепотку фрактального анализа в общую чашу. Ученые объясняют это наблюдение тем, что в экспрессии генов имеются и диффузионные процессы, обладающие несколькими диффузионными потенциалами. Лучше всего это видно на графиках и 2е. Но это утверждение требует дополнительных доказательств, поисками которых ученые займутся в следующих исследованиях. Посему бимодальность можно пояснить неравновесным броуновским движением с разными потенциалами.

Ученые применили мультифрактальный анализ детрендовых флуктуаций для определения наличия/отсутствия мультифрактальных характеристик у временных рядов экспрессии гена. А сейчас мы вернемся к мультифрактальности. Этот анализ показал наличие таковых как у генов, так и у ФТ.

Также ученые применили методику бутстрэп* для точного определения (точнее для подтверждения) наличия долгосрочной зависимости, учитывая ограниченность длин экспериментальных временных рядов.

Бутстрэп* — методика анализа статистики вероятностных распределений.

Для каждого временного ряда экспрессии гена было подготовлено 10 случайных под-интервалов, каждый из которых содержал 90% упорядоченного фрагмента исходного временного ряда. Далее для всех вариантов был рассчитан коэффициент Хёрста. Таким образом была получена разница между показателями экспериментального временного ряда и случайных версий. Для кишечной палочки разница составила всего 0.006%, а для пекарских дрожжей и того меньше — 0.0001%. Таким образом было подтверждено наличие долгосрочной зависимости в обоих образцах.

Вычисление показателя взаимной корреляции показало, что 98% пар ген-ФТ (в обоих образцах) обладают свойствами долгосрочной зависимости (). После рассмотрения интересующих характеристик гена и ФТ по отдельности, ученые приступили к анализу пар ген-ФТ, как единого объекта.


Изображение №3

Мультифрактальный анализ детрендовых флуктуаций подтвердил наличие мультифрактальных особенностей в парах ген-ФТ (график 3b).

На графиках (дрожжи) и 3d (кишечная палочка) отображен показатель взаимной корреляции пар ген-ФТ. Стоит отметить — независимо от того, что наблюдались и фрактальная, и долгосрочная взаимная корреляция в парах генов и факторов транскрипции в сетях регуляции генов, взаимная корреляция не была одинакова для всех пар.

18 — дрожжи, 5. Ученые использовали эти графики для измерения информационной энтропии и, как следствие, информационного содержания сети регуляции генов по различным типам клеток для количественного анализа и спецификации сетей регуляции генов.Показатели энтропии составили: 4. А это говорит о том, что сеть экспрессии генов у пекарских дрожжей значительно больше и показывает более сложную динамику, чем сеть экспрессии генов у кишечной палочки. 29 — кишечная палочка.

Ученые выбрали два варианта модели: множество Мандельброта и множество в виде вейвлетовых диадических деревьев. А теперь самое интересное — создание математической модели.

04 из всех пар ген-ФТ в сети регуляции генов пекарских дрожжей можно смоделировать используя множество Мандельброта. Используя ранее полученные показатели коэффициента Гёльдера в мультифрактальном спектре, ученые обнаружили, что только 0. А у кишечной палочки вообще ни одной пары нельзя смоделировать этим методом.

Как вывод — метод моделирования за счет множества Мандельброта не подходит. Если же рассматривать те пары, что удалось смоделировать, то наблюдалось огромное расхождение в данных между моделью и экспериментальными наблюдениями.


Изображение №4

Самым ярким является , где мы можем видеть насколько сильно расходятся данные. Результаты использования модели на базе множества Мандельброта показаны на графиках выше.

Также ученые провели сопоставление наблюдаемой мультифрактальности взаимозависимостей в сети регуляции генов и мультифрактальной моделью случайных каскадов на вейвлет-диадических деревьях.

На базе эмпирического спектра и спектра сингулярностей были вычислены параметры данной модели. Исследователи решили проверить подойдет ли логарифмическая модель W-каскада для репрезентации пар ген-ФТ в сетях регуляции генов. Далее были проведены расчеты областей пересечения расчетного и эмпирического мультифрактальных спектров, соотношение которых и стало основным критерием для принятия или отклонения данной математической мультифрактальной модели.


Изображение №5

Как видно из графиков выше, демонстрирующих смоделированные и эмпирические мультифрактальные спектры, данная модель практически полностью соотносится с данными наблюдений и расчетов, проведенных ранее.

Для более детального ознакомления с нюансами исследования рекомендую заглянуть в доклад исследовательской группы по этой ссылке.

Эпилог

Сложные процессы сложно понять, как бы странно это не звучало. Данное исследование, будучи по большей степени теоретическим, имеет большой потенциал практического применения, поскольку помогло математически смоделировать сеть регуляции экспрессии генов — одного из самых важных процессов в любом живом организме. Математическое моделирование как ничто другое отлично подходит для этого. Дабы облегчить себе задачу, необходимо разделить процесс на составляющие, составить их «карты», и следовать по нужному маршруту, отмечая все важные особенности и характеристики. Изучив математическую модель объекта или процесса, мы может понять с чем имеем дело, прежде чем приступать к исследованию фактического объекта или процесса.

Это исследование лишний раз подтвердило, что далеко не только физика и химия правят миром, но и математика занимает далеко не последнее место на Олимпе наук.

Благодарю за внимание, оставайтесь любопытствующими и отличной вам рабочей недели, ребята.

Вам нравятся наши статьи? Спасибо, что остаётесь с нами. Поддержите нас оформив заказ или порекомендовав знакомым, 30% скидка для пользователей Хабра на уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps от $20 или как правильно делить сервер? Хотите видеть больше интересных материалов? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps до 1 января бесплатно при оплате на срок от полугода, заказать можно тут.

класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки? Dell R730xd в 2 раза дешевле? Только у нас 2 х Intel Dodeca-Core Xeon E5-2650v4 128GB DDR4 6x480GB SSD 1Gbps 100 ТВ от $249 в Нидерландах и США! Читайте о том Как построить инфраструктуру корп.

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть