Hi-Tech

Мечтают ли нейроны об электроовцах? Создатель первых нейросетей рассказал об их эволюции и будущем

На прошлой неделе, во время конференции разработчиков I/O, Wired взял у него интервью и обсудил его увлечение мозгом и возможностью смоделировать компьютер на основе нейронной структуры мозга. Джеффри Хинтон — один из создателей концепции глубокого обучения, призер премии Тьюринга 2019 года и инженер Google. Интересная и увлекательная беседа о сознании, будущих планах Хинтона и о том, можно ли научить компьютеры видеть сны. Долгое время эти идеи считались дурацкими.

Что будет с нейронными сетями?

Все говорили: «Идея умная, но на самом деле мы не сможем проектировать компьютеры таким образом». Давайте начнем с тех времен, когда вы написали свои самые первые, очень влиятельные статьи. Объясните, почему вы настаивали на своем и почему вы были так уверены, что нашли что-то важное.

Он обязан работать, изучая силу соединений. Мне казалось, что мозг не может работать каким-то иным образом. А людей никто не программировал, поэтому нам пришлось обучаться. И если вы хотите заставить устройство делать что-то умное, у вас есть два варианта: вы либо программируете его, либо оно учится. Этот способ должен был быть правильным.

Объясните изначальное представление. Объясните, что такое нейронные сети.

У них есть входящие соединения, у каждого соединения есть вес и этот вес может меняться в процессе обучения. Вы берете относительно простые обрабатывающие элементы, которые очень отдаленно напоминают нейроны. Если сумма набирается достаточно большой, он делает вывод (output). Что делает нейрон — берет действия на соединениях, умноженные на весовые коэффициенты, суммирует их и затем решает, отправлять ли данные. Вот и все. Если сумма отрицательная, он ничего не отправляет. Вопрос лишь в том, как вы будете менять веса. Вам нужно лишь связать тучу таких нейронов с весами и выяснить, как менять эти веса, и тогда они будут делать что угодно.

Когда вы поняли, что это примерное представление того, как работает мозг?

Проектировалось так, чтобы напоминать мозг в работе. О, да все изначально так и задумывалось.

Может быть, вам было двенадцать лет, может быть, двадцать пять. Итак, в определенный момент своей карьеры вы начали понимать, как работает мозг. Когда вы решили попытаться смоделировать компьютеры по типу мозга?

В этом и был весь смысл. Да сразу же. И это была не моя идея, такая же идея была у Тьюринга. Вся эта идея заключалась в том, чтобы создать обучающееся устройство, которое учится подобно мозгу, согласно представлениям людей о том, как обучается мозг, за счет изменения силы соединений. И он полагал, что это лучший путь к интеллекту. Хоть Тьюринг изобрел огромную часть основ стандартной информатики, он считал, что мозг был неорганизованным устройством со случайными весами и использовал обучение с подкреплением для изменения соединений, поэтому мог изучить что угодно.

Так, мол, работает мозг человека, поэтому давайте создадим подобную машину. И вы последовали за идеей Тьюринга о том, что лучший способ создать машину — проектировать ее по типу человеческого мозга.

Многие так думали. Да, так думал не только Тьюринг.

Когда произошло так, что другие люди, которые работали над этим и считали идею Тьюринга верной, начали отступать, а вы продолжили гнуть свою линию? Когда настали темные времена?

Но среди компьютерных ученых, полагаю, в 90-х, получилось так, что наборы данных были достаточно маленькими, а компьютеры не были такими быстрыми. Всегда была горстка людей, которые верили, несмотря ни на что, особенно в области психологии. Их не так сильно смущал шум. А с небольшими наборами данных другие методы, в частности, метод опорных векторов, работали чуточку лучше. Мы думали, что он все решит. Так что все это было грустно, потому что в 80-х мы разработали метод обратного распространения [back propagation — метод обратного распространения ошибки, очень важный для нейросетей]. Вопрос был реально в масштабе, но тогда мы этого не знали. И были озадачены тем, что он ничего не решил.

Почему вы думали, что он не работает?

Я долго думал, что это потому, что мы пытались проводить обучение под наблюдением, когда вы маркируете данные, а мы должны были заниматься обучением без наблюдения, когда обучение происходит по данным без меток. Мы думали, что он не работает, потому что у нас были не совсем правильные алгоритмы и не совсем правильные целевые функции. Оказалось, что вопрос был по большей части в масштабе.

Получается, проблема была в том, что у вас было недостаточно данных. Это интересно. Получается, вы просто неправильно определили проблему? Вы думали, что располагаете нужным количеством данных, но неправильно их помечали.

Большая часть вашего обучения происходит без использования всяких меток, вы просто пытаетесь смоделировать структуру в данных. Я думал, что ошибка была в том, что мы вообще используем метки. Думаю, что поскольку компьютеры становятся быстрее, если компьютер будет достаточно быстрым, то для любого набора данных заданного размера лучше проводить обучение без наблюдения. Я на самом деле до сих пор так считаю. И как только вы завершите обучение без наблюдения, вы сможете учиться с меньшим количеством меток.

Бывал ли у вас момент, когда вы говорили: «Знаешь, что, довольно этого. Итак, в 1990-х вы продолжаете свои исследования, вы в академических кругах, вы все еще публикуетесь, но не решаете больших проблем. Или вы просто говорили себе, что будете продолжать заниматься глубоким обучением [то есть, концепцией deep learning, глубокого обучения нейросетей; читайте подробнее здесь]. Попробую сделать что-нибудь другое»?

Что-то подобное должно работать. Да. И, возможно, есть множество разных способов укрепления соединений в процессе обучения; мозг использует один из них. Я имею в виду, соединения в мозге каким-то образом учатся, нам просто нужно выяснить, как именно. Но точно нужно что-то, что может укреплять эти соединения при обучении. Могут быть и другие способы. Никогда в этом не сомневался.

Когда стало похоже на то, что это работает? Вы никогда в этом не сомневались.

Это не совсем верно, потому что вы можете тренировать относительно простые процессы вроде письма от руки. Одним из крупнейших разочарований 80-х было то, что если мы делали сети с множеством скрытых слоев, мы не могли их тренировать. И где-то в 2005 году я придумал способ обучения глубоких сетей без наблюдения. Но мы не знали, как тренировать большинство глубоких нейронных сетей. Затем вы скармливаете этим детекторам деталей данные и обучаете другой набор детекторов деталей, так, чтобы мы могли объяснить, почему у конкретных детекторов деталей появляются конкретные корреляции. Вы вводите данные, скажем, пиксели, и обучаете несколько детекторов деталей, которые просто хорошо объясняли, почему пиксели были такими, какие есть. Но самое интересное заключалось в том, что можно было разложить математически и доказать, что каждый раз, когда вы обучаете новый слой, вы совсем не обязательно улучшите модель данных, однако будете иметь дело с диапазоном того, насколько хороша ваша модель. Вы продолжаете обучать слой за слоем. И этот диапазон становился лучше с каждым добавленным слоем.

Что вы имеете в виду под диапазоном того, насколько хороша ваша модель?

Вы показываете ей данные и задаете вопрос: «Ты находишь все это таким, как и предполагала, или же это необычно?». Как только вы получали модель, вы могли задать вопрос: «Насколько необычными эта модель находит эти данные?». И хотелось заполучить модель, хорошую модель, которая смотрит на данные и говорит: «Да, да. И вот это можно было измерить. Это не удивительно». Я знала это. Но можно просчитать диапазон этого. Всегда очень трудно точно рассчитать, насколько необычными модель сочтет данные. И можно было показать, что по мере добавления новых слоев в детекторы деталей модель формируется, и с каждым добавленным слоем, когда она находит данные, диапазон понимания того, насколько необычными она сочтет данные, становится лучше. Можно сказать, что модель найдет эти данные менее необычными, чем эти.

Когда вы начали получать правильные ответы? Получается, примерно в 2005 году вы осуществили этот математический прорыв. Первый прорыв у вас получился с речевыми данными, верно? С какими данными вы работали?

Очень простые. Это были просто рукописные цифры. И люди, которые занимались нейронными сетями, начали использовать GPU в 2007 году. И примерно в то же время началась разработка GPU (графических процессоров). Он написал код, который затем взяли на вооружение другие студенты, использующие GPU для распознавания фонем в речи. У меня был очень хороший студент, который начал использовать GPU для поиска дорог на аэрофотоснимках. И когда с предварительным обучением было закончено, просто вешали метки поверх и использовали обратное распространение. Они использовали эту идею предварительного обучения. И затем можно было применить обратное распространение, и оно на самом деле работало. Оказалось, что можно создать очень глубокую сеть, которая была предварительно обучена таким образом. Поначалу, правда, было ненамного лучше. В распознавании речи это сработало прекрасно.

Обошло лучшие научные работы по распознаванию речи? Оно было лучше коммерчески доступного распознавания речи?

IBM также проделала много работы. В относительно небольшом наборе данных под названием TIMIT оно было чуть лучше, чем лучшая академическая работа.

Мои выпускники попали в Microsoft, IBM и Google, и Google очень быстро создал рабочий распознаватель речи. Очень быстро люди поняли, что все это — раз уж оно обходит стандартные модели, которые разрабатывались 30 лет — будет прекрасно работать, если немного развить. Android внезапно стал намного лучше распознавать речь. К 2012 году эта работа, которая была проделана еще в 2009 году, попала на Android.

На что похоже это чувство? Расскажите мне о моменте, когда вы, хранивший эти идеи 40 лет, публикующийся на эту тему 20 лет, внезапно обходите своих коллег.

Что ж, на тот момент я хранил эти идеи всего 30 лет!

Верно, верно!

Было прекрасное ощущение того, что все это наконец-то превратилось в настоящую проблему.

А вы помните, когда впервые получили данные, указывающие на это?

Нет.

Итак, вы поняли, что это работает с распознаванием речи. Ладно. Когда вы начали применять нейросети к другим проблемам?

Джордж Даль, вместе с которым мы изначально работали над распознаванием речи, применил их, чтобы предсказать, сможет ли молекула связаться с чем-нибудь и стать хорошим лекарством. Поначалу мы начали применять их к всевозможным другим проблемам. Он просто применил нашу стандартную технологию, созданную для распознавания речи, к прогнозированию активности препаратов и победил в этом конкурсе. И был конкурс. Потом появился студент, который сказал: «Знаешь, Джефф, эта штука сработает с распознаванием изображений, и Фей-Фей Ли создал подходящий набор данных для этого. Это был знак того, что мы делаем нечто весьма универсальное. Есть публичный конкурс, давай сделаем что-то».

Это был 2012 год. Мы получили результаты, которые намного превосходили стандартное компьютерное зрение.

Где потерпели неудачу? То есть, в этих трех областях вы преуспели: моделирование химических веществ, речь, голос.

Вы понимаете, что неудачи носят временный характер?

Похоже, визуальная обработка, распознавание речи и что-то вроде базовых человеческих вещей, которые мы делаем при помощи сенсорного восприятия, считаются первыми преодоленными барьерами, верно? Ну, что отличает области, где все это работает быстрее всего, и области, где требуется больше времени?

Мы очень хороши в управлении моторикой. И да, и нет, потому что есть и другие вещи, которые мы делаем хорошо — та же моторика. И только сейчас нейронные сети начинают конкурировать с лучшими иными технологиями за это. Наши мозги определенно для этого приспособлены. Они победят в итоге, но сейчас они только начинают побеждать.

Я думаю, они будут и среди последних вещей, которые эти нейросети научатся делать. Я думаю, мышление, абстрактное мышление — последние вещи, которым мы обучаемся.

И поэтому вы продолжаете говорить, что нейронные сети в конечном итоге победят везде.

Все, что можем мы, смогут и они. Ну, мы и есть нейронные сети.

Верно, но мозг человека далеко не самая эффективная вычислительная машина из когда-либо созданных.

Определенно, нет.

Существует ли способ смоделировать машины, которые будут намного эффективнее человеческого мозга? Определенно, не мой человеческий мозг!

Может быть, если вы начнете с логики, попытаетесь автоматизировать логику, придумаете некий причудливый доказатель теорем, будете рассуждать, а затем решите, что именно посредством рассуждения вы приходите к визуальному восприятию, может быть и так, что этот подход победит. С точки зрения философии у меня нет возражений против идеи, что может быть какой-либо совершенно другой способ все это делать. У меня нет философских возражений к такой победе. Но пока нет. Просто мы знаем, что мозг на это способен.

Значит ли это, что нейронные сети также не смогут делать их хорошо? Но есть и вещи, которые наш мозг не способен делать хорошо.

Вполне возможно, да.

И есть отдельная проблема, которая заключается в том, что мы не совсем понимаем, как работают нейросети, верно?

Да, мы действительно не понимаем, как они работают.

Это основной элемент работы нейронных сетей, который мы не понимаем. Мы не понимаем, как работают нейросети с нисходящим подходом. Объясните это, а затем позвольте задать мне следующий вопрос: если мы знаем, как все это работает, как же все это тогда работает?

И есть еще кое-что в современных системах компьютерного зрения, которые очень подвержены состязательным ошибкам. Если взглянуть на современные системы компьютерного зрения, большинство из них в основном направлены вперед; они не используют соединения обратной связи. Очевидно, способ подмены пикселей продуман так, чтобы обмануть нейросеть, заставив думать ее про страуса. Вы можете слегка изменить несколько пикселей, и то, что было изображением панды и все еще выглядит для вас в точности как панда, внезапно станет страусом в понимании нейросети. Но дело в том, что для вас это все еще панда.

Но затем, сталкиваясь с фактом, что они смотрят на панду и уверены, что это страус, мы забеспокоились. Изначально мы полагали, что все это работает прекрасно. Они пытаются обучаться изолированно, когда обучаются только слои детекторов деталей, и вся цель состоит в том, чтобы изменить веса так, чтобы стать лучше в поисках правильного ответа. И я думаю, что часть проблемы в том, что они не пытаются реконструировать из представлений высокого уровня. Я думаю, что в человеческом зрении для обучения используется реконструкция. Недавно в Торонто мы обнаружили, или Ник Фрост обнаружил, что если добавить реконструкцию, повысится устойчивость к состязательной ошибке. И поскольку мы очень много учимся, делая реконструкцию, мы намного более устойчивы к состязательным атакам.

Вы это проверяете и убеждаетесь, что это панда, а не страус. Вы считаете, что нисходящая коммуникация  в нейронной сети позволяет вам проверять, как нечто реконструируется.

Думаю, это важно, да.

Но ученые, изучающие мозг, с этим не совсем согласны?

Они спорят с тем, для чего это нужно. Ученые мозга не спорят с тем, что если у вас две области коры на пути восприятия, всегда будут обратные соединения. Или для всех трех. Это может быть нужно для внимания, для обучения или для реконструкции.

Вы строите свои новые нейронные сети, отталкиваясь от допущения того, что… нет, даже не так — вы строите обратную связь, потому что она нужна для реконструкции в ваших нейронных сетях, хотя даже не понимаете толком, как работает мозг? И поэтому мы не знаем, что такое обратная связь.

Да.

Ну, то есть, если пытаешься сделать что-то подобно мозгу, но не уверен, что мозг так делает? Разве это не уловка?

Я не занимаюсь вычислительной нейробиологией. Не совсем. Я смотрю на мозг и говорю: «Это работает, и если мы хотим сделать что-то еще, что работает, мы должны смотреть и вдохновляться этим». Я не пытаюсь создать модель работы мозга. Таким образом, вся модель, используемые нами нейроны, вдохновлены тем фактом, что у нейронов много связей и что они меняют веса. Мы вдохновляемся нейронами, а не строим нейронную модель.

Если бы я был компьютерным ученым, и работал над нейронными сетями, и захотел обойти Джеффа Хинтона, одним из вариантов было бы строительство нисходящей коммуникации и базирование ее на других моделях наук о мозге. Это интересно. Базирование на обучении, а не на реконструкции.

Да. Если бы были модели получше, вы бы победили.

Давайте затронем более общую тему. Это очень, очень интересно. Есть ли загадки человеческого мозга, которые не смогут или не будут охватывать нейронные сети? Итак, нейронные сети смогут решить все возможные проблемы. Например, эмоции.

Нет.

Сознание можно реконструировать? Значит, любовь можно будет реконструировать нейронной сетью?

Как только вы выясните, что означают эти вещи. Абсолютно точно. Сознание — особенно интересная для меня тема. Мы ведь нейросети, так? Есть масса самых разных определений. Но… люди не знают на самом деле, что подразумевают под этим словом. Поэтому, если бы 100 лет назад вы спросили людей: что такое жизнь? И я думаю, что это довольно-таки научный термин. В этом разница между живым и мертвым, либо у вас есть жизненная сила, либо нет». Они бы ответили: «Ну, у живых вещей есть жизненная сила, и когда они умирают, жизненная сила покидает их. И как только вы начнете немного разбираться в биохимии и молекулярной биологии, вам больше не нужна будет жизненная сила, вы поймете, как все это работает на самом деле. Теперь у нас нет жизненной силы, мы думаем, что эта концепция появилась до науки. Я думаю, что сознание — это попытка объяснить мысленные явления с применением некоей сущности. И то же самое, я думаю, произойдет с сознанием. Как только вы сможете ее объяснить, вы сможете объяснить, как мы делаем все то, что делает людей сознательными существами, объясните различные значения сознания, не привлекая никаких особых сущностей. И эта сущность, она не нужна.

Нет мысли, которую нельзя было бы создать? Получается, не существует эмоций, которые нельзя было бы создать? Нет ничего, на что способен человеческий разум, что теоретически нельзя было бы воссоздать полностью функционирующей нейронной сетью, как только мы на самом деле поймем, как работает мозг?

Что-то похожее пел Джон Леннон в одной из своих песен.

Вы на 100% уверены в этом?

Нет, я байесовец, поэтому уверен на 99,9%.

Хорошо, а что тогда эти 0,01%?

Ну, мы могли бы, например, все быть частью большой симуляции.

Итак, что мы узнаем о мозге из нашей работы над компьютерами? Справедливо.

Она сработает намного лучше, чем вы могли бы ожидать. Ну, я думаю, что из того, что мы узнали за последние 10 лет, интересно, что если взять систему с миллиардами параметрами и целевую функцию — например, чтобы заполнить пробел в строчке слов — она сработает лучше, чем должна. Вы могли бы подумать, что безнадежный алгоритм неизбежно застрянет. Вы могли бы подумать, да и многие люди в области традиционных исследований на тему ИИ так бы подумали, что можно взять систему с миллиардом параметров, запустить ее на случайных значениях, измерить градиент целевой функции и затем подправить ее так, чтобы улучшить целевую функцию. И чем больше масштаб, тем лучше он работает. Но нет, оказывается, это реально хороший алгоритм. Была некоторая теория за всем этим, конечно, но открытие было эмпирическим. И это открытие было по сути эмпирическим. Нам лишь нужно выяснить, что это за целевая функция и как она ухудшается. А теперь, поскольку мы это обнаружили, кажется более вероятным, что мозг рассчитывает градиент некоторой целевой функции и обновляет веса и силу связи синапсов, чтобы успеть за этим градиентом.

Не поняли обновление весов? Но мы не поняли это на примере мозга?

Давным-давно люди думали, что это возможно. Это была теория. Теперь мы знаем, что это не так. Но на фоне всегда были какие-то компьютерные ученые, которые говорили: «Да, но идея того, что все случайно и обучение происходит за счет градиентного спуска, не сработает с миллиардом параметров, придется подключить много знаний». Можно просто ввести случайные параметры и все выучить.

Раз мы узнаем все больше и больше, мы предположительно продолжим узнавать больше и больше о том, как работает мозг человека, поскольку будем проводить массивные испытания моделей, основанных на наших представлениях о функциях мозга. Давайте немного углубимся. Как только мы лучше все это поймем, будет ли момент, когда мы по сути перестроим свои мозги, чтобы стать намного более эффективными машинами?

И я думаю, что мы улучшим. Если действительно поймем, что происходит, мы сможем улучшить некоторые вещи вроде образования. Было бы очень странно понять, наконец, что происходит в твоем мозге, как он учится, и не адаптироваться так, чтобы учиться лучше.

Как бы вы изменили классы? Как вы думаете, как через пару лет мы используем то, что узнали о мозге и о работе глубокого обучения, для изменения образования?

Я думаю, что изменение образования займет больше времени. Я не уверен, что через пару лет многому научимся. И когда помощники смогут понимать разговоры, они смогут разговаривать с детьми и обучать их. Но если говорить об этом, [цифровые] помощники становятся довольно умными.

И теоретически, если мы лучше поймем мозг, мы сможем программировать помощников так, чтобы они лучше беседовали с детьми, отталкиваясь от того, что те уже выучили.

Я занимаюсь другим. Да, но я об этом не сильно задумывался. Но все это кажется вполне похожим на правду.

Сможем ли мы понять, как работают сны?

Так интересуюсь, что у меня есть по крайней мере четыре разных теории снов. Да, я очень интересуюсь снами.

Расскажите о них — о первой, второй, третьей, четвертой.

Хопфилд обнаружил, что если вы попытаетесь поместить слишком много воспоминаний, они перепутаются. Давным-давно были такие штуки под названием сети Хопфилда, и они изучали воспоминания как локальные аттракторы. Они возьмут два локальных аттрактора и объединят их в один аттрактор где-то на полпути между ними.

Мы отключаем ввод данных, переводим нейронную сеть в случайное состояние, позволяем ей успокоиться, говорим, что это плохо, измени соединения так, чтобы не попадать в это состояние, и таким образом можно заставить сеть хранить больше воспоминаний. Затем пришли Фрэнсис Крик и Грэм Митчисон и сказали, что мы можем избавиться от этих ложных минимумов с помощью разучения (то есть, забывания того, что выучил).

В итоге мы создали больцмановский алгоритм машинного обучения. Потом пришли мы с Терри Сейновски и сказали: «Послушайте, если у нас есть не только нейроны, в которых хранятся воспоминания, но и куча других нейронов, можем ли мы найти алгоритм, который будет использовать все эти другие нейроны в помощь восстановлению воспоминаний?». И больцмановский алгоритм машинного обучения обладал крайне интересным свойством: я показываю данные, и он как бы перебирает остальные юниты, пока не попадет в весьма счастливое состояние, и после этого он увеличивает силу всех соединений, основываясь на том, что два юнита активны одновременно.

Также у вас должна быть фаза, в которой вы отключаете ввод, позволяете алгоритму «пошуршать» и переводите его в состояние, в котором он доволен, так что он фантазирует, и как только у него рождается фантазия, вы говорите: «Возьми все пары нейронов, которые активны, и уменьши силу соединений».

Но в действительности этот алгоритм является продуктом математики и вопроса: «Как нужно изменить эти цепочки соединений, чтобы этой нейронной сети со всеми этими скрытыми единицами данные показались неудивительными?». Я объясняю вам алгоритм как процедуру. И еще должна быть другая фаза, которую мы называем негативной фазой, когда сеть работает без ввода данных и разучивается, в какое бы состояние вы ее не поместили.

И если внезапно проснуться, можно сказать, что снилось только что, потому что сон хранится в кратковременной памяти. Мы видим сны по много часов каждую ночь. Так почему мы вообще не помним своих снов? Мы знаем, что видим сны много часов, но утром, после пробуждения, можем вспомнить лишь последний сон, а других не помним, что весьма удачно, потому что можно было бы ошибочно принять их за реальность. Вы как бы учитесь наоборот. По мнению Крика, в этом и есть смысл снов: разучиваться этим вещам.

Это первая теория о сновидениях. Терри Сейновски и я показали, что на самом деле это процедура обучения с максимальной вероятностью для машин Больцмана.

Но задам вопрос: получалось ли у вас обучить какой-нибудь из ваших алгоритмов глубокого обучения на самом деле видеть сны? Я хочу перейти к другим вашим теориям.

Они были крайне неэффективны. Некоторыми из первых алгоритмов, которые могли обучаться работе со скрытыми юнитами, были машины Больцмана. И это на самом деле послужило толчком для возобновления работы с глубоким обучением. Но позже я нашел способ работы с приближениями, который оказался эффективным. И это была эффективная форма ограничительной машины Больцмана. Это были вещи, которые обучали один слой детекторов функций за раз. Но вместо того, чтобы погружаться в сон, она могла просто немного фантазировать после каждой отметки с данными. И поэтому она занималась такого рода обратным обучением.

Давайте перейдем к теориям два, три и четыре. Хорошо, значит андроидам на самом деле снятся электроовцы.

Вам нужно обучить генеративную модель. Теория два была названа Wake Sleep Algorithm [алгоритм «пробуждение-сон»]. Но вы хотели бы обучить ее другому. И у вас есть идея создать модель, которая может генерировать данные, имеет слои детекторов признаков и активирует высшие и низшие слои, и так далее, вплоть до активации пикселей — создания изображения, по сути. Вы хотели бы, чтобы она распознавала данные.

В фазе пробуждения данные поступают, он пытается их распознать, и вместо изучения связей, которые он использует для распознавания, он изучает генеративные связи. И поэтому вы должны сделать алгоритм с двумя фазами. И затем я пытаюсь научить эти скрытые юниты восстановлению этих данных. Данные поступают, я активирую скрытые юниты. Но вопрос в том, как изучить прямые соединения? Он учится реконструировать в каждом слое. Поэтому идея такова, что если бы знать прямые соединения, можно было бы научиться обратным соединениям, потому что можно было бы научиться реконструировать.

И поскольку ты генерируешь данные, ты знаешь состояния всех скрытых слоев и можешь изучать прямые соединения для восстановления этих состояний. Теперь также выясняется, что если использовать обратные соединения, можно научиться и прямым соединениям, потому что можно просто начать сверху и сгенерировать чуток данных. Чтобы работало хорошо, придется попробовать разные варианты, но работать будет. И вот что происходит: если начать со случайных соединений и попытаться попеременно использовать обе фазы, все получится.

У нас осталось всего восемь минут, я думаю, не успею спросить обо всем. Хорошо, а что с двумя другими теориями?

Дайте мне еще час, и я расскажу про две другие.

Куда направляются ваши исследования? Давайте поговорим о том, что будет дальше. Какие проблемы вы пытаетесь решить сейчас?

Я думаю, я вполне могу работать над кое-чем, что никогда не закончу, — называется «капсулы», теория о том, как осуществляется визуальное восприятие с применением реконструкции и как информация направляется в нужные места. В конечном итоге придется работать над чем-то, над чем работа еще не закончена. Идея капсул заключалась в том, чтобы принимать решения о том, куда отправлять информацию. Два основных мотивирующих фактора заключались в том, что в стандартных нейронных сетях информация, активность в слое просто автоматически куда-то отправляется, а вы не принимаете решения о том, куда ее отправлять.

Они решают, куда направить информацию, и это большая победа. Теперь же, когда я начал работать над капсулами, очень умные люди из Google изобрели трансформеры, которые делают то же самое.

В следующем году мы вернемся, чтобы поговорить о теориях сновидений номер три и номер четыре.

Пропишитесь в нашем чате в Телеграме, чтобы не пропустить.

В статье использованы иллюстрации Марии Меньшиковой.

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть