Главная » Хабрахабр » [Перевод] Почему меня нервируют отказы современных SSD

[Перевод] Почему меня нервируют отказы современных SSD

Это не первая и, вероятно, не последняя смерть SSD, с которой мы столкнёмся, но, как почти всегда в таких случаях, я почувствовал, как шалят мои нервы – а всё из-за сочетания характера отказов SSD, их похожести на «чёрный ящик» и твердотельной природы. Сегодня один из SSD на одном из наших новых файловых серверов под Linux умер.

Вот он радостно обрабатывает запросы на чтение и запись (по всем внешним признакам, в том числе и ZFS, которая не жаловалась на контрольные суммы), а вот уже нет никакого Crucial MX300 на SAS-порту.
Первое сообщение от ядра Linux об отказе IO-операций поступило в 20:31:34, а официально отсутствующим диск был объявлен в 20:32:15. Как и большинство других отказов SSD, этот произошёл внезапно; диск перешёл из состояния прекрасно работающего в состояние вообще не реагирующего ни на что секунд за 50, без какого бы то ни было предупреждения через SMART или что-либо ещё. Однако реально диск мог сразу перестать отвечать на запросы – мне не совсем понятны сообщения драйвера.

Когда жёсткий диск крутится, он тоже может внезапно помереть, но, по крайней мере, можно составить объяснение того, что случилось перед этим – заклинило мотор, или случился другой физический отказ, приведший к резкому останову. Что беспокоит меня больше всего по поводу этих резких отказов SSD – так это насколько они непонятны, и что я не могу сам себе объяснить, что именно пошло не так. SSD – твердотельные и таинственные, и у меня нет никаких объяснений тому, что пошло не так, особенно когда диск ещё молод и не должен был подходить к исчерпанию лимита жизни флэш-ячеек.

С SSD теоретически такого происходить не должно, поэтому его ранняя смерть особенно беспокоит. Когда HDD помирает в юном возрасте, можно представить, что у него не выявили проявившиеся в итоге дефекты производства. Возможно, во флэш-ячейках тоже могут быть необнаружимые дефекты изготовления.

А когда у меня нет объяснения происходящему, мои мысли начинают идти по пути беспокойства – типа того, что диск обманывал нас по поводу своего здоровья в SMART-диагностике, и что он на самом деле использовал последние запасные ячейки, а потом они закончились, или что у него была какая-то ошибка в прошивке, которую мы случайно затронули, после чего он превратился в кирпич.

Но это был другой тип SSD. У нас было такое, что SSD таким образом умер, а потом вернулся к жизни, когда его достали и снова воткнули – и на вид был совершенно здоровым, что совершенно не внушает доверия. А ещё мы получали странные ошибки от SSD серии Crucial MX500.

Здоровы ли они или помрут завтра? Кроме того, когда у меня нет объяснения отказам SSD, каждый из них кажется мне непредсказуемой миной замедленного действия. И даже эта надежда зиждется на предположении об отсутствии корреляции отказов – что произошедшее с этим SSD с малой вероятностью произойдёт с другими, стоящими рядом с ним. Кажется, что я должен полагаться на статистику, то есть, что не слишком многие из них умрут, и сделают это не слишком быстро, чтобы их можно было поменять.

Все данные я зеркалю, но каковы реальные шансы отказа обоих SSD? И эта проблема актуальна не только для наших файловых серверов – у меня есть то же беспокойство, связанное с моим домашним компьютером.

Также у нас есть куча SSD, тихонько работающих уже много лет. В теории я знаю, что SSD должны быть куда как более надёжными, чем вращающийся ржавый диск. Я очень хотел бы, чтобы у нас было какое-то предупреждение по поводу отказа SSD, ведь с HD это довольно часто было возможно (к примеру, такие предупреждения по поводу HD в одном из рабочих настольных компьютеров мне поступали – хотя я их и игнорировал). Но после таких загадочных внезапных отказов они уже не кажутся такими надёжными.


Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё Hi-Tech Интересное!

PyDERASN: как я написал ASN.1 библиотеку с slots and blobs

ASN.1 это стандарт (ISO, ITU-T, ГОСТ) языка описывающего структурированную информацию, а также правил кодирования этой информации. Для меня как программиста это просто ещё один формат сериализации и представления данных, наравне с JSON, XML, XDR и другими. Он крайне распространён в ...

6 полезных ресурсов и сервисов для потенциальных эмигрантов в США, Германию и Канаду

К моему удивлению, далеко не так много проектов помогают потенциальным иммигрантам. С недавних пор я активно заинтересовался темой переезда за границу, и в связи с этим изучил существующие сейчас сервисы, которые оказывают помощь в переезде ИТ-специалистам. Пока что я отобрал ...