Хабрахабр

[Из песочницы] Микроэлектроника, нейрофизиология и машинное обучение, взболтать, но не перемешивать

В середине 2018 года была опубликована работа по электрофизиологии головного мозга крыс, совместно с которой был выложен в открытый доступ один уникальный набор данных. Уникальность датасета состоит в том, что в нем присутствуют одновременные записи локального полевого потенциала с помощью нового высокоплотного электрода Neuropixels (проба, или probe) и патч-электрода от клетки, находящейся вблизи пробы. Интерес к подобным записям не только фундаментальный, но и прикладной, потому что позволяет валидировать модели для анализа нейрональной активности, зарегистрированной современными пробами. А это, в свою очередь, непосредственно касается разработки новых нейропротезов. В чем принципиальная новизна, и почему этот датасет такой важный, — я расскажу под катом.

Цветом обозначена амплитуда потенциала.
КДПВ: результат моделирования внеклеточного потенциала вблизи одного нейрона при генерации потенциала действия (источник). Их можно разделить на неинвазивные — в основном, это электроэнцефалография (ЭЭГ), — и инвазивные, например, электрокортикография (ЭКоГ, ECoG), патч-кламп (patch-clamp) или регистрация локального полевого потенциала (ЛПП = local field potentials, LFP). Данная иллюстрация будет важна для дальнейшего понимания.
Электрофизиологические методы исследования головного мозга основаны на регистрации электрического потенциала мозга. Для того, чтобы исследовать активность мозга млекопитающих на клеточном уровне, т. Для последнего маленький электрод размером 10-100 мкм вводят непосредственно в мозг и регистрируют его потенциал. измерить активность отдельных клеток, доступные неинвазивные методы применить не получится, потому что потенциал от одной клетки затухает в пространстве очень быстро, буквально за 100 мкм (cм. е. Поэтому, в любой животной модели, как и на человеке, неинвазивные методы дают информацию только о коллективной активности нейронов и работают, скорее, на уровне ткани, но никак не отдельных нейронов. КДПВ).

Для регистрации активности одного нейрона необходимо подвести электрод очень близко к нейрону, идеально поместить его внутрь клетки, как это делается в патч-клампе, или с помощью шарп-электродов, что на практике бывает сложно, очень сложно. Но и с инвазивными методами не так просто. Поэтому задачу регистрации отдельных клеток технически разрешают с помощью увеличения плотности электродов, находящихся вблизи клетки. С другой стороны, любой внеклеточный электрод размером ~10 мкм будет регистрировать потенциалы действия от 5-10 клеток вокруг за счет высокой плотности нейронов и высокой ионной проводимости внеклеточного раствора. Еще среди требований появляется необходимость усиливать сигнал поближе к сайту регистрации, чтобы уменьшить шум, да разместить мультиплексор, чтобы уменьшить габариты. В связи с этим современная электрофизиология движется в сторону увеличения плотности электродов, увеличения их количества и уменьшения размеров. Размер одного сайта регистрации — 12 мкм. Так, в 2016 году была анонсирована в препринте, а 2017 году опубликована в Nature, а в 2018 — уже появилась на рынке, новая высокоплотная проба Neuropixels, изготовленная по CMOS технологии, на 960 электродов, из которых любые 384 доступны для одновременной записи. Причем, с высокоплотными электродами, а также с активным усилением, люди начали работать уже давно, но Neuropixels первым достиг производства и продаж, поэтому в ближайшее время именно эта проба в статьях будет встречаться все чаще и чаще.

Рис. Толщина пробы — 24 мкм. На монолитной кремниевой подложке расположены 960 сайтов, а также полноценный мультиплексор и AD интерфейс на 384 канала. Схема Neuropixels.

Структура данных

Помимо классических ритмов активности (альфа, бета, гамма и т. д.), отвечающих за групповую синхронизацию, в данных, полученных с помощью подобных проб, содержатся еще и потенциалы действия отдельных клеток (ПД = action potentials, AP, spikes, спайки), которые на записи выглядят как короткие пики длительностью ~1 мс.

Сигналы Neuropixels.
Рис. Выделяют две части сигнала: локальный полевой потенциал (LFP, до ~300 Гц) и клеточная активность (AP, от 300 Гц).

Задача выделения активности отдельных клеток формально сводится к задаче вечеринки (cocktail party problem), когда из множества говорящих надо выделить отдельного спикера. При этом, если низкочастотный локальный полевой потенциал обычно анализируют в рамках осцилляций и используют спектральный или вейвлет-анализ как в ЭЭГ, то клеточная активность содержит в себе потенциалы действия отдельных клеток, она состоит из дискретных событий на фоне шума. Для анализа спайков семплинг проводят 30-40 кГц с оцифровкой от 16 бит на точку (uint16), таким образом, запись уже 100 электродов в течение 1 секунды будет весить от 8 МБ. Большие данные проявляются тогда, когда мы оценим поток данных с одной такой пробы. Поэтому, потенциал данной пробы также сильно зависит от алгоритмов машинного обучения, которые применяют для анализа данных. При этом, эксперименты обычно длятся часы, что составляет сотни гигабайт только с одного рабочего дня, а для полноценного исследования надо, скажем, от 10 таких записей.

Машинное обучение и клеточная активность

Обычно пайплайн для анализа клеточной активности состоит из препроцессинга, сегментации спайков и кластеризации. Эту часть исследований обычно называют кластерным анализом или спайк сортингом (spike sorting). В качестве препроцессинга обычно применяют низкочастотную фильтрацию (>300 Гц), потому что считается, что выше 300 Гц уже нет других физиологичных ритмов, а остается только информация об индивидуальной клеточной активности. Также во время препроцессинга в плотных пробах возможно уменьшение скоррелированного шума, например, наводок в 50 Гц. Сегментация чаще всего берется простая пороговая, например, все, что выше 5 стандартных отклонений шума, можно считать событием. Бывает, применяется двухпороговая сегментация, с мягким и жестким порогом, для выделения связанных событий в пространстве и во времени, как в алгоритме водораздела (watershed segmentation), только в кластеризации спайков распространение маркеров происходит с учетом топологии пробы. После сегментации возле центра каждого события берется окно длительностью 1-2 мс, и сигнал в этом окне, собранный со всех каналов, становится семплом для дальнейшей кластеризации. Этот семпл называется вейвформой спайка (spike waveform). Различные клетки и их различная удаленность от сайта регистрации приводит к тому, что их вейвформы будут различаться (см. КДПВ). В качестве самого алогоритма кластеризации вейвформ применяют EM, поиск по шаблону (template match), глубокое обучение и многие вариации (топик на гитхабе). Единственным требованием является обучение без учителя. Но есть одна проблема. Никто не знает наверняка, какие параметры нужно брать для вашего пайплайна, чтобы анализ был наиболее эффективным. Обычно, после кластеризации, аналитик вручную проходит по результатам и вносит изменения по усмотрению. Таким образом в результатах анализа могут быть как ошибки алгоритма, так и ошибки человека. А могут и не быть, поэтому вопрос объективной валидации остается открытым.

Во-первых, изменяя внешние условия для объекта исследования. Валидировать пайплайн можно несколькими способами. Если в анализе найдется клетка, изменяющая свою активность в зависимости от стимула, то вам повезло. Например, во время эксперимента, если вы изучаете зрительные отделы коры, то вы можете изменять текстуру, цвет, яркость изображения. Тогда активность вашей клетки увеличится/уменьшится, и вы увидите разницу на кластеризации. Во-вторых, вы можете фармакологически усиливать или уменьшать активность отдельного типа клеток, например, с помощью блокаторов определенных каналов. В-третьих, вы можете оптогенетически или с помощью патч-пипетки, как в этом датасете, измерять или индуцировать активность некоторых клеток. Однако такая модуляция активности приведет также и к изменениям вейвформ, потому что профиль потенциала действия во времени полностью определяется кинетикой ионных каналов. Концептуально, именно сборке валидирующего датасета с помощью патч-клампа и была посвящена публикация. За счет большого соотношения сигнал-шум и стабильности патч-электрода, вы будете полностью уверены в активности отдельно взятой клетки.

Схематическое изображение взаимного расположения пробы (линия AB), и патч-пипетки (линия C’CT) в области коры крысы, отвечающей за обработку сенсорной информации с передней лапы (S1FL = sensory cortex 1 forelimb.
Рис.

Стоит ли говорить, что методологически работа крайне сложна, потому что экспериментаторам пришлось разработать метод взаимного расположения двух электродов в коре мозга без визуального контроля с точность ~10 мкм.

Влияние плотности электродов на кластеризацию спайков

Почему так важно увеличивать плотность сайтов регистрации? Для аналогии возьмем известный среди исследователей ЭЭГ факт, что с некоторого порога увеличение количества электродов в шапочке не приводит к заметному увеличению получаемой информации, т. е. сигнал с электрода слабо отличается от линейной интерполяции сигналов от соседних электродов. Кто-то говорит, что этот порог достигается уже на 30, кто-то — на 50, кто-то — на 100 электродах. Кто детально работает с ЭЭГ, могут поправить. Но в случае же клеточной активности порог плотности сайтов регистрации на одной пробе еще не известен, поэтому гонка высокоплотных проб продолжается. Для этого коллектив Kampff Lab продолжает работать уже с пробой с сайтом 5х5 мкм2, и для этого выложили предварительные данные. Специалисты же, работающие с плотными электродами, делятся опытом, что, неожиданно, удельное количество отдельных клеток, которые можно выделить с проб одинаковой площади выше там, где выше плотность сайтов регистрации. Этот эффект хорошо проиллюстрирован в другом исследовании теми же соавторами, где искусственно выбирали лишь часть сайтов с плотной пробы и визуально оценивали качество полученных кластеров после tSNE преобразования на PCA значениях из вейвформ спайков. Это не канон для кластеризации, но для иллюстрации зависимости подходит хорошо. В качестве пробы в работе выступал Neuroseeker на 128 каналов общим размером 700x70 мкм2 с сайтом 20х20 мкм2.

Диаграммы tSNE over PCA на сырых вейвформах при искусственном уменьшении плотности сайтов на пробе.
Рис. Отчетливо показано, как именно растет количество сегрегированных кластеров с увеличением плотности сайтов, А — самое лучшее, F — самое худшее. Рабочие сайты приведены схематически сверху каждой диаграммы.

В чем суть работы

В данных Marques-Smith et al. присутствуют одновременные записи патч-клампа и пробы. С использованием данных патч-клампа ученые находили моменты потенциалов действия и использовали эти моменты для сегментации и усреднения вейвформ уже на пробе. В результате, они смогли построить очень качественные распределения потенциала действия во времени и в пространстве по всей площади пробы.

Слева преведены трейсы активности клетки одновременно в патч-клампе (черным) и на ближайшем из каналов Neuropixels (синим).
Рис. Справа — распределение потенциала действия в пространстве по площади пробы и во времени. По середине — 500 отдельных семплов и их усредненение.

Затем они показывают, что принципиально возможно отследить распространение потенциала действия по клеточной мембране с помощью своих плотных электродов, но это уже было показано ранее в работах других групп. Далее по тексту ставится вопрос о вариации внеклеточной вейвформы от спайка к спайку — да, она ощутимая и ее надо учитывать. Последнее звучит как дерзкий вызов, потому что алгоритмов кластеризации сейчас очень много, и конкуренция среди методов очень большая. В заключение они предлагают потенциальным коллабораторам несколько фундаментальных вопросов из нейрофизиологии, на которые можно попробовать ответить с помощью их датасета, а также предлагают использовать датасет для валидации пайплайнов по кластеризации клеточной активности. Не каждый метод, во-первых, работает с таким большим количеством каналов, и, во-вторых, далеко не каждый сможет дать объективно качественную кластеризацию.

Что дальше

Во-первых, на подходе новая версия Neuroseeker на 1300 каналов также на CMOS технологиях, предварительные данные уже доступны.

В нем будет использовано одновременно 4(!) пробы Neuropixels для исследования зрительных отделов коры мышей при различных визуальных стимулах. Во-вторых, нас ждет еще один датасет, уже от Allen Institute for Brain Science, который был анонсирован на конференции FENS в 2018 году. Обещали опубликовать в конце 2018 здесь, рядом с данными по бифотону (также очень мощный датасет), но пока никак.

В ней сходятся методы микроэлектроники, нейрофизиологии и машинного обучения. В-третьих, задача по кластеризации клеток из записи внеклеточного потенциала мне кажется эстетически красивой. Предполагаю, что аудитории хабра будет интересно узнать про техническую кухню электрофизиологии, а именно — про алгоритмы кластеризации, ведь в этой области уже развился собственный зоопарк. К тому же она имеет большое фундаментальное и прикладное значение. Поэтому в следующей части перейдем к разбору некоторых алгоритмов, начиная с канонического Klustakwik, продолжая шаблонными методами Kilosort или Spyking Circus, и далее YASS, который крайне сильно о себе заявляет, что работает быстрее и качественнее всех остальных, потому что DL и потому что может. У меня, в свою очередь, к этим алгоритмам накопилось несколько вопросов, а такой датасет пропускать нельзя. Предваряя некоторые вопросы, разрабатывать собственный алгоритм я не вижу смысла, потому что конкуренция уже очень большая, и очень много идей уже было реализовано и опробовано другими. Топик на гитхабе со списком некоторых кластеризаторов тут. Но если найдутся смельчаки — с удовольствием поспособствую.

Спасибо за внимание! Предложения и пожелания принимаются.

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть