Главная » Железо » Новая статья: SC18: что-то с памятью моей стало, три терабайта на сокет уж мало…

Новая статья: SC18: что-то с памятью моей стало, три терабайта на сокет уж мало…

Генеральная линия

В связи с юбилеем  организаторы устроили небольшую выставку исторических достижений суперкомпьютерного хозяйства. В 2018 году мероприятию SC исполнилось 30 лет. Часть имён уже и мало кто вспомнит, ведь когда-то легендарные компании или умерли, или были поглощены и успешно переварены конкурентами. Главным экспонатом стал, конечно, легендарный Cray-1, созданный в 1976 году. Или одни из первых, так и не ставших коммерчески успешными многопоточных решений Tera — компании, которая в итоге преобразовалась в нынешнюю Cray. Взять, например, машины Convex на базе электроники из арсенида галлия. А в отдельном уголке находились также первый интернет-роутер для модемных соединений Fuzzball и один из первых маршрутизаторов Cisco.

Cray-1

30 лет SC: 1988 - 2018

Cray-1

Смотреть все изображения (20)

Cray-1 Cray-1

Смотреть все
изображения (20)

Но стало ли от этого всем лучше? Увы, всё это многообразие архитектур давно закончило свой век. Практично, но скучно, хотя ситуация может поменяться. Сейчас в TOP500 доминирует Intel, да несколько лет назад начался взлёт ускорителей NVIDIA. Что характерно, обе новинки будут обновлениями текущих архитектур, нарастят число ядер (хотя и путём мультичиповой сборки) и получат ещё больше каналов памяти: до 8 и до 12 соответственно. А пока на носу выход AMD EPYC Rome, который уж точно должен засветиться в рейтинге, и Intel поколения Cascade Lake в двух ипостасях: AP и SP. Всё-таки 2S-конфигурацию этих чипов можно рассматривать как более плотную упаковку 4S-решений из обычных SP. Отдельный вопрос, появятся ли Cascade Lake-AP именно в HPC-сегменте, хотя при таком числе ядер они уже ближе к почившим Phi. Ну и наверняка AP получат всё-таки BGA-упаковку, а их TDP легко может дотянуть до 300 Вт.  Как раз уйдёт по 3 UPI-линка к соседям — если предположить, что Cascade от Skylake не слишком сильно отличается, а это похоже на правду.

Памяти видимо-NVDIMM`о

В данном случае DDR будет выступать в качестве кеша перед массивом Optane. Но самое главное и долгожданное для целого ряда пользователей нововведение (помимо аппаратных патчей от Spectre-подобных дыр) — это поддержка Apache Pass (DC Persitent Memory), то есть нативное совместное использование Optane и DRAM. Для чего всё это нужно? И это даёт повод утверждать, что контроллер памяти в Cascade Lake  гарантированно получит поддержку большего суммарного объёма памяти — вплоть до тех же 3-4 Тбайт на сокет в старших версиях. При этом обычная DRAM нынче ох как дорога, так что конфигурация вроде 25 % DDR + 75 % Optane в итоге и выходит существенно дешевле, и даёт достаточный прирост производительности. Идея довольно проста — целый ряд реальных приложений крайне требователен к объёму доступной памяти, а не только к её скорости.

Intel Optane NVDIMM

Intel Optane NVDIMM

Intel Optane NVDIMM

Собственно модули Optane в форм-факторе DIMM уже давно не являются чем-то секретным. Вообще о проблемах соотношения байт/флопс уже упомянуто в отдельном материале с ПаВТ-2018, так что отдельно на этом останавливаться не стоит, но нельзя не отметить, что различных подходов к решению этого вопроса на разных уровнях стало больше. В качестве временной меры остаётся доступной технология IMDT (Intel Memory Drive Technology), которая точно так же позволяет расширить объём RAM, но за счёт накопителей PCI-E. Формально их поддержка должна была появиться ещё в Skylake-SP, но по целому ряду причин этого не произошло. 2 на чипах нового поколения. В том числе и для таких задач Intel наконец выпустила серверные модули Optane формата M.

2 с жидкостным охлаждением. Причём официальный запуск состоялся совместно с отечественной компаний РСК, которая ещё летом показала прототипы узлов с 12 накопителями M. Вообще говоря, «эксклюзивность» IMDT для Intel, похоже, подошла к концу: Western Digital предлагает точно так же расширять оперативную память, но уже более привычными SSD Ultrastar DC ME200 Memory Extension Drive объёмом до 4 Тбайт. Обновлённые узлы РСК "Торнадо" поддерживают до 4 Тбайт памяти в режиме IMDT (официально-то Cascade Lake ещё не вышел), но можно Optane сконфигурировать и в качестве обычных накопителей для гиперконвергентности или создания NVMe-over-fabric. Так что можно ожидать анонс такой функции и от других производителей «железа». Технически это ровно то же, что IMDT, так как истинным разработчиком технологии является компания ScaleMP: vSMP MemoryONE позволяет создать массив памяти, где DRAM будет занимать не менее 1/8 общего объёма.

WD Memory Extension Drive

WD Memory Extension Drive

Зато, по предварительным данным, для серверов она будет хороша: базовые частоты будут в районе 4-5 ГГц, а задержки при этом как минимум не ухудшатся. Конечно, выглядит всё это как некое временное решение, но DDR5 ещё надо дождаться, да и на снижение стоимости оперативной памяти рассчитывать не стоит. А может статься, что SCM (Storage Class Memory), к которой относятся Optane и Z-SSD от Samsung, и есть наше будущее. И такая память, вероятно, изначально будет регистровой и с коррекцией ошибок, так что домашние пользователи наверняка ещё долго будут довольствоваться DDR4. В современной иерархии памяти Intel он занимает сразу две позиции в пирамиде, на вершине которой неожиданно появилась HBM. Во всяком случае, уж Optane-то с нами надолго — слишком много вложено в эту технологию. Хотя, может, она нужна для грядущих GPU? Вообще с HBM у Intel были продукты: усопший Xeon Phi имел MCDRAM, то есть одну из вариаций HMC от Micron. Или скорее ускорителей — не верится, что это будет именно потребительская графика, а не новый вычислитель.

Гетерогенные аномалии как девиантное поведение

Они дороже обычных накопителей, но утверждается, что прирост производительности окупает все затраты. А ещё HBM хорошо сочетается с FPGA (хотя Micron предлагает и GDDR6), которые, в свою очередь, можно скрестить с SSD и получить SmartSSD. Стоит отметить, что это подход к проблеме с памятью с другой стороны — обработка части данных идёт непосредственно на накопителе, без лишнего перегона к процессору и обратно через RAM. Про этот совместный проект Xilinx и Samsung есть отдельная заметка. Да и в целом на SC18 как-то неожиданно много было представлено решений Xilinx, да и Altera тоже. Это такая лайт-версия in-memory computing, о котором давно говорят. Правда, вопрос с таким подходом вообще и с FPGA в частности касается в большей степени поддержки со стороны ПО — как готовых программ, так и средств разработки. Вон, даже Cray делает свою платформу Shasta с прицелом на гетерегенные вычисления.

Google TPU

Google TPU

NVIDIA Tesla T4

NVIDIA Tesla T4

Такие жалобы были, к примеру, на Tiahne прошлого поколения — китайский суперкомпьютер, который долго был на верхних строчках TOP500. Ведь формально можно получить дикие петафлопсы «голой» производительности, которые некому будет эффективно использовать. Результат: за 10 лет GPU-ускорение получили почти 600 HPC-приложений. Той же NVIDIA потребовались годы на адаптацию ПО и взращивание армии разработчиков. И то, и другое компании на SC18 привезли. А для тех же нейронных сетей появились совсем уж узкоспециализированные вычислители — от TensorCore до массы отдельных разработок, включая какой-нибудь Google TPU. Кроме того, есть совсем уж узконаправленные разработки вроде нейроморфных процессоров, которые пытаются воссоздать в кремнии работу живого мозга — на SC18 Intel привезла сразу несколько версий Loihi. И даже показали, что нейронки могут помочь с обычными HPC-задачами — отсеивая на предварительном этапе ненужные расчёты и анализируя результаты нужных. Но путь этот долог и труден. В теории FPGA может потягаться со всеми ними за счёт большей универсальности.

Разнообразие ускорителей на базе FPGA Xilinx

Разнообразие ускорителей на базе FPGA Xilinx

FPGA-карты Xilinx Alveo U200, U250 и U280

FPGA-карты Xilinx Alveo U200, U250 и U280

В принципе, никто не мешает собрать HPC-платформу без использования продукции Intel и NVIDIA. А вообще, вырисовывается интересный альянс: AMD готова дружить с Xilinx и другими компаниями. Шасси на шесть карточек уже как-то и неприлично иметь — надо восемь, а лучше сразу на двенадцать. А если уж говорить об ускорителях вообще, то всё равно сейчас все производители предлагают более-менее универсальные платформы с кучей PCI-E. Хотя для NVMe всё же гораздо интереснее «линеечные» диски, которые делают Intel и Samsung, — в этом форм-факторе можно уместить до 1 Пбайт в 1U-корпусе. Рекордсмены Gigabyte и SuperMicro предлагают уже по 20 слотов (через свитчи, конечно), но это всё же решения под мелкие ускорители вроде NVIDIA Tesla T4 или накопители.

Inspur AGX-5 на платформе NVIDIA HGX-2: 16 ускорителей Tesla V100 с NVSwitch

Inspur AGX-5 на платформе NVIDIA HGX-2: 16 ускорителей Tesla V100 с NVSwitch

Cisco UCS C480 ML M5: 8 NVIDIA Tesla V100 с NVLink

Cisco UCS C480 ML M5: 8 NVIDIA Tesla V100 с NVLink

Мы уже лет двадцать видим одно и то же: куча одинаковых «ящиков», пусть и плотно упакованных во всех смыслах, каждый из которых выполняет одну и ту же программу. Но всё это не ново на уровне подхода. Ну да, и сами процессоры побольше, и число их тут увеличено, а памяти относительно много, но практически всегда не хватает. Это стандартный путь, и сами «ящики» давно стандартны — глобально от обычных ПК они ничем не отличаются. Смена x86/POWER на ARM/RISC-V или GPU на FPGA либо любой другой ускоритель не влияет на общий подход. На PCI-E мы всё так же вешаем ускорители, а CCIX и NVLink/(Open) CAPI, хоть и быстрее, но тоже принципиально ничего не меняют. Ну вот, в этом плане к 200 Гбит/с подобрались — а надо пятьсот хотя бы при текущем векторе развития.  Остается интерконнект, который и делает во многом суперкомпьютер суперкомпьютером.

Mellanox ConnectX-5 и ConnectX-6

Mellanox ConnectX-5 и ConnectX-6

Lenovo Neptune

Lenovo Neptune

И спор Asetek с CoolIT по поводу того, правильно ли ставить помпы непосредственно в точках большого теплосъёма внутри узлов или лучше использовать централизованную прокачку, тут совершенно непринципиален. Ах да, теперь ведь везде СЖО — просто потому, что с таким тепловыделением чипов и при такой плотности компонентов жить на "воздухе" просто невозможно. Все эти огромные ванны попросту неудобны в эксплуатации, хотя в некоторых сферах до сих пор актуальны. Игроки покрупнее и вовсе делают всё сами, а те же иммерсионные СЖО окончательно стали маргинальными: некоторые компании уже годами возят одну и ту же экспозицию для своих стендов, а мелкие стартапы и вовсе, похоже, не выжили. В любом случае ничего принципиального СЖО не вносят. 

Конечная цель — универсальная машина экзафлопсного класса. Тем временем DoE и DARPA вкладывают миллиарды долларов в надежде обойти закон Мура, но на выходе мы наверняка получим очередную вариацию GPU. И речь не только про нейронные сети и нейроморфные штуки. Вот только некоторые области уже давно уходят к узкоспециализированным решениям. А на SC18 японская RIKEN показывала платы MDGRAPE-4, ещё одного такого же решения со схожей архитектурой. Например, Anton — специальный суперкомпьютер для молекулярной динамики — уже упоминался в материалах сайта. Правда, что тогда, что сейчас это сравнение не совсем корректно, хотя вынужденное использование уже оптических линий связи между чипами MDGRAPE-4 наводит на размышления.  Предыдущее поколение (2006 года выпуска) по флопсам формально обгоняло тогдашнего лидера TOP500 в три раза.

Дорого, сложно и не сказать, что универсально. Квантовые компьютеры? Это обновлённый D-Wave, а также Rigetti 19Q, IBM Q и Intel Tangle Lake. Хотя в последние два года вышло сразу несколько разработок. IBM привезла сразу холодильную установку, а Intel обошлась только собственно вычислителями. Последние два были представлены на SC18. На расчёт задачи может уйти несколько минут, а на адаптацию алгоритма — недели и месяцы. Основная проблема со всеми ними проста — мало кто умеет правильно создавать программы для квантовых компьютеров. Нет, это не квантовый компьютер, а специальная аппаратно-программная платформа на обычном «железе», которая может корректно симулировать поведение 30-40 кубитов. Для подготовки специалистов и ПО Atos ещё в прошлом году представила Quantum Learning Machine. Atos даже создала особый язык программирования: aQasm (Atos Quantum Assembly Language).  На ней можно производить отладку будущего софта.

Atos Quantum Learning Machine

Atos Quantum Learning Machine

Gen-Z: общий интерконнект для всех — и пусть никто не уйдет обиженный

Технология эта разрабатывается с 2016 года с почина HPE, хотя сейчас в консорциуме много видных игроков, а возглавляет его представитель Dell. Наверное, единственное интересное движение в сторону переработки архитектуры, пусть и не столь глубокое и всеобъемлющее, это первые реальные продукты на базе Gen-Z. Если коротко, то Gen-Z предлагает универсальную шину/интерконнект для объединения всего и вся. Зимой была утверждена первая версия спецификации. Gen-Z использует достаточно высокоуровневый протокол для общения между всеми ними и скрывает от пользователя всю низкоуровневую «магию». Буквально всего: CPU, памяти, хранилища, устройств ввода-вывода, (GP)GPU, FPGA, DSP и так далее. Зато в итоге можно будет с легкостью менять компоненты, не задумываясь о проблемах совместимости. Естественно, адаптировать аппаратные компоненты должны сами производители. В идеале, конечно.

Но, кажется, в спецификации учтены чуть ли не все возможные сценарии и заранее продумана защита от типичных проблем. Впрочем, в двух словах описать все возможности Gen-Z не представляется возможным. Впрочем, Gen-Z пока в начале своего пути и ещё неизвестно, что из всего этого получится. Список участников консорциума включает многих крупных игроков, но в нём нет Intel и NVIDIA, у которых свой взгляд на то, как лучше делать шины и платформу в целом. На SC18 консорциум привёз первые реальные образцы  оборудования с поддержкой Gen-Z, а также целую россыпь различных версий физической инфраструктуры — всевозможных вариаций кабелей, разъёмов, контактных площадок и так далее. Но в целом идея действительно интересная. Несколько удивляет, что до сих пор не доминируют оптические варианты исполнения, так как «медь» смотрится несколько громоздко.

Gen-Z: общий модуль RAM для двух серверов

Gen-Z: общий модуль RAM для двух серверов

Gen-Z DRAM Media Controller Card

Gen-Z DRAM Media Controller Card

В самих серверах обычных модулей RAM действительно нет, хотя, по идее, для загрузки машины хоть какой-то локальный объём всё равно нужен. Наиболее наглядная демонстрация Gen-Z — это два сервера, подключённых к общему внешнему пулу оперативной памяти. Ещё одна демка хоть и не кажется чем-то необычным, но на самом деле тоже важна — она показывает работу общей памяти для нескольких узлов на примере простого графического редактора. Всё это работает на современном «железе» с небольшой модификацией ПО. Правда, сейчас у Gen-Z классическая проблема курицы и яйца: готовых платформ нет, потому что нет «экосистемы», которую, в свою очередь, не из чего формировать. 

Модули Gen-Z

Модули Gen-Z

Если всё сложится удачно, то мы увидим любопытные системы, которые можно на лету формировать из различных блоков, совместимых с Gen-Z. Пока что консорциум активно трудится над программным эмулятором аппаратной части, чтобы разработчики ПО всех уровней могли адаптировать ОС, драйверы и программы для Gen-Z. То есть на уровне шасси, стойки, а потенциально и целой машины легко конфигурировать память, хранилище, вычислители, ускорители и внешние интерфейсы путём добавки или изъятия готовых блоков в зависимости от текущих потребностей. 

Интерфейсы и коннекторы Gen-Z

Смотреть все изображения (9)

Смотреть все
изображения (9)

Послесловие

2021 год, и где же нейроморфные компьютеры на квантовых кубитах с троичной логикой?». Общее настроение хорошо передаёт комментарий к прошлой заметке с SC18: «Скучно всё это... Беглый осмотр стендов выставки показывает, что да, мы всё выше, быстрее, сильнее. Пусть и не в такой конкретно формулировке, но ничего этого на практике действительно нет. И грядущие экзафлопсные машины наверняка будут очень дорогими, горячими — в случае развёртывания действительно гетерогенных вычислений — ещё и непростыми в освоении, если всё останется так, как есть. Но это экстенсивный путь развития. О да, мы уже видим эволюцию в памяти, а это хоть какой-то сдвиг подхода к построению машин. Причём не так важно, будут ли это отдельные чипы, либо сразу N чипов под одной крышкой, либо же просто новые инструкции. Кто создаст новую универсальную архитектуру? Мы видим зачатки квантовых и нейроморфных систем, но нужны ли они нам на самом деле? Или хотя бы не таким привычным и… стабильным. Кто сделает HPC great again?


Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё Hi-Tech Интересное!

На Apple подали в суд за ложные характеристики дисплея iPhone X

Он же стал и одним из самых критикуемых компонентов смартфона, причём не только за вырез в верхней части. Дисплей — одна из ключевых особенностей iPhone X на фоне предшественников. На днях в Окружной суд США на Apple был подан иск, ...

Грузовой корабль «Прогресс МС-11» отправится к МКС по сверхбыстрой схеме

Об этом сообщает «РИА Новости» со ссылкой на источник в ракетно-космической отрасли. Грузовой корабль «Прогресс МС-11» будет запущен к Международной космической станции (МКС) в марте следующего года. Фотографии Роскосмоса Таким образом, добраться до МКС корабль сможет приблизительно за три часа. ...