Хабрахабр

[Перевод] Атмосферные ливни приводят к отказу суперкомпьютеров: что можно с этим сделать

Суперкомпьютер Cray-1, бывший самым быстрым в 1970-х, не похож на суперкомпьютер. Он выглядит, как модификация аттракциона, в котором человек встаёт к стене, пристёгивается, а его потом раскручивают. Его окружает круглая скамейка, скрывающая питание, похожая на бублик – если бы только дырка от бублика могла выдавать ценные идеи, связанные с ядерным оружием.

Но за эти полгода случилось нечто интересное: в компьютер произошли 152 необъяснимых ошибки памяти. После того, как Сеймур Крэй впервые создал этот компьютер, он дал Национальной лаборатории в Лос-Аламосе попользоваться им бесплатно шесть месяцев. Чем выше вы расположены и чем больше ваши компьютеры, тем сильнее сказывается на вас эта проблема. И только позднее исследователи узнали, что нейтроны из космических лучей могут сталкиваться с частями процессора и нарушать хранящиеся в компьютере данные. Лос-Аламос, расположенный на 2,2 км над уровнем моря, где находятся самые роскошные компьютеры мира, стал основной мишенью.

Сеймур Крэй, создатель суперкомпьютера, рядом со своим детищем Cray-1

А космос остался таким же. С тех пор изменился мир, и изменились компьютеры. «Это не проблема, которую нужно решить, — пояснят Нэйтан Дебарделебен из группы разработки высокопроизводительных компьютеров. Поэтому Лос-Аламосу пришлось приспосабливаться – и его инженеры стали учитывать космические частицы в оборудовании и программном обеспечении. – Это проблема, которую мы способны сдерживать».

Q, установленный в 2003-м, был гораздо быстрее Cray-1, предназначенный для вычислений, связанных с отложенными на чёрный день запасами ядерного оружия США. Для современных компьютеров, начиная с суперкомпьютера Q, это довольно серьёзная вещь. Они сталкиваются с химическими элементами в атмосфере, и всё это распадается на более мелкие частицы. Но он выходил из строя чаще, чем ожидалось – и это были первые отказы, заставившие учёных из Лос-Аламоса серьёзно обеспокоиться космическими лучами из глубокого космоса. Некоторые из этих «капель» оказываются нейтронами – и это очень плохо. «Они буквально образуют своеобразные ливни, падающие прямо на нас», — говорит Шон Блэнчард, ещё один член группы.

Для домашнего компьютера это ерунда. «Они могут привести к переключению бита в памяти компьютера, — говорит Дебарделебен, — с 0 на 1, или с 1 на 0». Тот же самый Q начала века напоминает полки супермаркета. Но в Лос-Аламосе есть огромные молотилки для чисел. И, точно так же, как на футбольном поле осадков выпадает больше, чем на дачный участок, так и суперкомпьютеры пронизывает больше космических лучей, чем ваш ноутбук. А сегодня в лаборатории имеются компьютерные залы размером с футбольное поле, причём все компьютеры в зале могут работать над одной и той же задачей.


В Лос-Аламосе по всему суперкомпьютерному центру расставлены нейтронные детекторы

Перед установкой нового оборудования инженеры проводят что-то вроде космического стресс-теста, помещая электронику в луч нейтронов – их там гораздо больше, чем в атмосферных ливнях – и наблюдая за тем, что произойдёт. После Q инженеры по-настоящему поняли, что нейтроны – не такие уж и нейтральные частицы, поэтому сейчас они пытаются предвосхитить проблемы. Скоро они разместят внутри суперкомпьютерного центра нейтронные детекторы, чтобы измерять силу «штормов». «Мы берём отдельные части, делаем их радиоактивными, заставляем их работать на отказ», — объясняет Блэнчард. Если вам известно, сколько нейтронов прилетело, и вы знаете, как они влияют на работу компьютерных комплектующих, «вы можете предсказать время жизни вашей электроники», — говорит Сюзан Новички, физик из группы космических и прикладных наук лаборатории.

[автор оригинальной статьи — девушка / прим. Обычно суперкомпьютеры оказываются достаточно умными, чтобы понять, что что-то пошло не так, и чувствуют переключившийся бит так же, как вы почувствуете, если у вас выдернуть волос. Но иногда, говорит Блэнчард, компьютер оказывается более пессимистичным. перев.] В этом случае система обычно просто сообщает об ошибке и исправляется. «У меня ошибка, переключилось слишком много битов, — изображает он компьютер,- я не могу это исправить, но хотел сообщить вам об этом».

Это всё равно, как специально падать, катаясь с горы на лыжах, потому что так будет менее больно, чем если попытаться устоять. Когда это происходит в Лос-Аламосе, люди намеренно останавливают все компьютеры. Это всё равно, что точки сохранения в играх – если вы умерли, не надо начинать всё сначала. Но в данном случае идти обратно на вершину и начинать всё заново не нужно – инженеры устраивают "контрольные точки" на пути поисков ответа. У суперкомпьютеров тоже есть подобная система сохранения. Начинайте с последней точки, сохранившей ваши достижения.

Это когда биты переключаются, а никто этого не замечает. Настоящая проблема – это "бесшумная порча данных". Именно поэтому упреждающая работа так важна: известно, чего можно ожидать и как часто, и следить за этим. И тот ответ, что вы считаете верным, на самом деле может оказаться сном, навеянным нейтронами. Но если что-то и проскользнёт сквозь защиту, возможно, это увидит живой человек. В то же время, получив эти знания, команда надеется превратить бесшумные ошибки в громко кричащие. Обычно в Лос-Аламосе не говорят «Вот ваш ответ!», пока человек не проверит результаты работы на осмысленность.

«Лаборатория – и в целом энергетический департамент – занимается изучением изменения климата, новых лекарств, эпидемиологии, распространения болезней, моделированием пожаров, материаловедением и хрупкостью металлов», — поясняет Блэнчард. Личное вмешательство происходит в частности потому, что Лос-Аламос занимается критически важными исследованиями по темам, влияющим на множество других людей. «Мы – лаборатория изучения ядерного оружия, — говорит Блэнчард. И, как он добавляет после этого списка, причина существования Лос-Аламоса состоит в ядерном оружии, созданном людьми (некоторые из них даже относятся к этой самой лаборатории). Мы должны гарантировать, что оно в безопасности и работает, как надо, и не работает, когда не надо». – Наша работа – заведовать его запасами.

Вот так лаборатория, беспокоящаяся по поводу излучения на Земле, должна беспокоиться из-за излучения из космоса. Из-за запрета испытаний ядерных вооружений, единственным законным методом перестать волноваться и научиться обслуживать запас бомб будет симуляция происходящего внутри на суперкомпьютере. Потому что, какую бы работу ни выполняли суперкомпьютеры в будущем, ясно одно: «Каждый год они становятся всё большей мишенью», — говорит Блэнчард.

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть