Хабрахабр

[Перевод] Надёжность Flash–памяти: ожидаемое и неожиданное. Часть 2. XIV конференция ассоциации USENIX. Технологии хранения файлов

Надёжность Flash–памяти: ожидаемое и неожиданное. Часть 1. XIV конференция ассоциации USENIX. Технологии хранения файлов

4.2.2. RBER и возраст дисков (без учета циклов PE).

На Рисунке 1 показана значительная корреляция между RBER и возрастом, который равен количеству месяцев эксплуатации диска в полевых условиях. Однако это может быть ложной корреляцией, так как вероятно, что более старые диски имеют большее количество PE и поэтому RBER в большей степени взаимосвязан с циклами PE.

Мы проверили, что внутри каждого контейнера корреляция между циклами PE и RBER довольно незначительна (поскольку каждый контейнер охватывает только малый диапазон циклов PE), а затем вычислили коэффициент корреляции между RBER и возрастом диска отдельно для каждого контейнера. Для того, чтобы исключить влияние возраста на износ, вызываемый циклами PE, мы сгруппировали все месяцы эксплуатации в контейнеры, используя децили распределения цикла PE как отсечку между контейнерами, например, первый контейнер содержит все месяцы эксплуатации диска до первого дециля распределения цикла PE, и так далее.

Мы наблюдали, что даже после ограничения эффекта влияния циклов PE описанным выше способом, для всех моделей дисков все еще существовала значимая корреляция между количеством месяцев эксплуатации диска в полевых условиях и его RBER (коэффициенты корреляции имели значение от 0,2 до 0,4). Мы проводили этот анализ отдельно для каждой модели, потому что любые наблюдаемые корреляции обусловлены не различиями между младшей и старшей моделью, а исключительно возрастом дисков одной и той же модели.

3.
Рис. Зависимость между RBER и количеством циклов PE для новых и старых дисков показывает, что возраст диска влияет на величину RBER независимо от циклов PE, вызванных износом.

На Рисунке 3 приведены эти результаты для модели привода MLC-D. Мы также графически визуализировали влияние возраста привода путем разделения дней эксплуатации диска в «молодом» возрасте до 1 года и дней эксплуатации диска в возрасте старше 4 лет, после чего строили графики зависимости RBER каждой группы от количества циклов PE. Мы видим заметную разницу значений коэффициента RBER между группами старых и новых дисков на протяжение всех значений циклов PE.

Это означает, что большую роль в физическом износе диска играют другие причины, например, старение кремния. Отсюда мы сделали вывод, что возраст, измеряемый днями эксплуатации дисков в полевых условиях, оказывает значительное влияние на RBER, независимо от износа ячеек памяти вследствие воздействия циклов PE.

4.2.3. RBER и рабочая нагрузка.

Считается, что битовые ошибки вызваны одним из четырех механизмов:

  1. ошибки хранения Retention errors, когда ячейка памяти со временем утрачивает данные
    ошибки нарушения чтения Read disturb errors, при которых операция чтения повреждает содержимое соседней ячейки;
  2. ошибки нарушения записи Write disturb errors, при которых операция чтения повреждает содержимое соседней ячейки;
  3. ошибки неполного стирания Incomplete erase errors, когда операция стирания не полностью удаляет содержимое ячейки.

В недавнем исследовании «Широкомасштабное изучение сбоев флэш-памяти в полевых условиях» (MEZA, J., WU, Q., KUMAR, S., MUTLU, O. Ошибки, относящиеся к последним трем типам (read disturb, write disturb, incomplete erase) коррелируют с рабочей нагрузкой, поэтому понимание корреляции между RBER и рабочей нагрузкой помогают нам понять распространенность различных механизмов ошибок. In Proceedings of the 2015 ACM SIGMETRICS International Conference on Measurement and Modeling of Computer Systems, New York, 2015, SIGMETRICS ’15, ACM, стр. «A large-scale study of flash memory failures in the field». 177–190) сделан вывод о том, что в полевых условиях преобладают ошибки хранения, в то время как ошибки нарушения чтения довольно незначительны.

Однако возможно, это ложная корреляция, так как месячная рабочая нагрузка может быть связана с общим количеством циклов PE. На Рисунке 1 показана существенная зависимость между значением RBER в определенном месяце эксплуатации диска и количеством операций чтения, записи и стирания в том же месяце для некоторых моделей (например, коэффициент корреляции выше 0,2 для модели MLC — B и выше 0,6 для модели SLC-B).

2. Мы использовали ту же методику, которая описана в разделе 4. 2, для изоляции последствий рабочей нагрузки от воздействия циклов PE путем обособления месяцев эксплуатации привода, основанных на предшествующих циклах PE, а затем определяли коэффициенты корреляции отдельно для каждого контейнера.

Мы также повторили аналогичный анализ, где исключили эффект воздействия операций чтения на количество параллельных операций записи и стирания, и пришли к выводу, что корреляция между RBER и числом операций чтения сохраняется для модели SLC-B. Мы увидели, что корреляция между числом операций чтения в определенном месяце эксплуатации диска и значение RBER в этом же месяце сохраняется для моделей MLC-B и SLC-B, даже при ограничении циклов PE.

Мы пришли к выводу, что при ограничении влияния циклов PE и операций чтения, зависимости между значением RBER и количеством операций записи и стирания не существует. На Рисунке 1 также отображена корреляция между RBER и операциями записи и стирания, поэтому мы повторили тот же самый анализ для операций чтения, записи и стирания.

С другой стороны, нет никаких доказательств того, что на RBER влияют ошибки нарушения записи и ошибки неполного стирания. Таким образом, существуют модели дисков, где ошибки нарушения чтения оказывают значительное влияние на RBER.

4.2.4 RBER и литография.

Различия в размере объектов могут частично объяснить различия в значениях RBER у моделей дисков, использующих одинаковую технологию, т. е. MLC или SLC. (см. Таблицу 1, где приведен обзор литографии различных моделей, участвующих в данном исследовании).

В случае моделей MLC, только модель 43нм (MLC-B) имеет медианный RBER, который на 50% выше, чем у 3-х других моделей с литографией 50 нм. Например, 2 модели SLC с литографией 34нм (модели SLC-A и SLC-D) имеют RBER, который на порядок выше, чем у 2-х моделей с микроэлектронной литографией 50 нм (модели SLC-B и SLC-C). Наконец, более тонкая литография может объяснить более высокий RBER у приводов eMLC в сравнении с приводами MLC. Более того, эта разница в RBER увеличивается в 4 раза по мере износа дисков, как показано на Рисунке 2. В целом, мы получили четкие доказательства того, что литография влияет на RBER.

4.2.5. Наличие других ошибок.

Мы исследовали взаимосвязь между RBER и другими видами ошибок, например, неисправимыми ошибками, ошибками тайм-аута и т. д., в частности, станет ли значение RBER выше через месяц влияния других типов ошибок.

1). На Рисунке 1 показано, что в то время как значение RBER за предыдущий месяц позволяет прогнозировать будущие значения RBER (коэффициент корреляции выше 0,8), между неисправимыми ошибками и RBER не существует существенной корреляции (крайняя справа группа элементов на рис. Мы продолжили исследование взаимосвязи между RBER и неисправимыми ошибками в разделе 5. Для других типов ошибок коэффициент корреляции еще ниже (на рисунке не отображено). 2 данной статьи.

4.2.6. Влияние других факторов.

Мы нашли доказательства того, что существуют факторы, оказывающие значительное влияние на RBER и которые не смогли учесть полученные нами данные. В частности, мы заметили, что RBER для конкретной модели диска варьируется в зависимости от кластера, в котором развернут диск. Наглядным примером является Рисунок 4, на котором показана зависимость RBER от циклов PE для приводов модели MLC-D в трех разных кластерах (пунктирные линии) и сравнение её с RBER для этой модели относительно обще количества дисков (сплошная линия). Мы считаем, что эти различия сохраняются, даже когда мы ограничиваем влияние таких факторов, как возраст диска или количество операций чтения.

Одним из возможных объяснений этого фактора служат различия типа рабочей нагрузки в разных кластерах, поскольку мы наблюдаем, что кластеры, рабочая нагрузка которых имеет самые высокие коэффициенты считывания/записи, характеризуются самым высоким RBER.

4 а), b).
Рис. Медианные значения RBER в зависимости от циклов РЕ по трем различным кластерам и зависимость коэффициента считывания/записи от количества циклов РЕ по трем различным кластерам.

Однако соотношение чтения/записи не объясняет различия между кластерами для всех моделей, поэтому могут быть и другие факторы, которые наши данные не учитывают, например, факторы воздействия окружающей среды или другие внешние параметры рабочей нагрузки. Например, на Рисунке 4 (b) показаны коэффициенты чтения/записи разных кластеров для модели привода MLC-D.

4.3. Коэффициент RBER во время ускоренных испытаний на долговечность.

Большинство научных работ, а также тесты, проводимые при закупке носителей в промышленных масштабах, прогнозируют надежность устройств в полевых условиях на основе результатов ускоренных испытаний на долговечность. Мы решили разобраться, насколько результаты таких тестов соответствуют практическому опыту эксплуатации твердотельных носителей информации.
Анализ результатов испытаний, проведенных по общей методике ускоренных испытаний для оборудования, поставляемого в дата-центры Google, показал, что полевые значения RBER значительно выше прогнозируемых. Например, для модели eMLC-a медиана RBER для дисков, эксплуатируемых в полевых условиях (на конец испытаний количество циклов PE достигало 600), составила 1e-05, в то время как по результатам предварительного ускоренного тестирования такая величина RBER должна была бы соответствовать более чем 4000 циклов PE. Это указывает на то, что очень сложно точно предсказать значение RBER в полевых условиях на основе оценок RBER, полученных в результате лабораторных тестов.

Например, в случае модели MLC-B, почти у 60% приводов в полевых условиях возникают неисправляемые ошибки и у почти 80% приводов появляются поврежденные блоки. Мы также отметили, что некоторые типы ошибок достаточно сложно воспроизвести во время ускоренных испытаний. Для моделей eMLC неисправляемые ошибки в полевых условиях возникли больше чем у 80% дисков, в то время как при проведении ускоренного тестирования такие ошибки возникали по достижении 15000 циклов PE. Однако во время ускоренных испытаний на долговечность ни у одного из шести устройств не возникли какие-либо неисправляемые ошибки, пока диски не достигли более чем трехкратного превышения лимита циклов PE.

Например, Л.М. Мы также рассмотрели RBER, описываемый в предыдущей исследовательской работе, который основывался на экспериментах в контролируемой среде, и пришли к выводу, что диапазон разброса значений чрезвычайно высок. Например, для устройств SLC и MLC с размером литографии, аналогичной используемой в нашей работе (25-50nm), значение RBER колеблется от 1e-08 до 1e-03, причем для большинства испытываемых моделей приводов значение RBER было близко к 1e-06. Групп и другие в своих работах 2009 -2012 годов указывают значения RBER для дисков, которые близки к достижению предельных значений циклов PE.

Даже принимая во внимание, что наши числа являются нижними границами и в абсолютно худшем случае могут принимать значения в 16 раз больше, или же принимая во внимание 95-й процентиль RBER, полученные нами значения всё равно значительно ниже. В нашем исследовании три модели дисков, которые достигли лимита циклов PE, имели RBER в диапазоне от 3e-08 до 8e-08.

Это означает, что не стоит полагаться на прогнозные значения RBER в полевых условиях, которые были получены на основе результатов ускоренных испытаний на долговечность. В целом, в то время как реальные значения RBER в полевых условиях выше прогнозных значений, основанных на ускоренных испытаниях на долговечность, они все же ниже, чем большинство RBER для аналогичных устройств, о которых сообщается в других исследовательских работах, и которые вычислены на основе лабораторных тестов.

5. Неисправляемые ошибки.

Учитывая широкое распространение неисправляемых ошибок (UE), которые рассматривались в разделе 3 данной статьи, в данном разделе мы более подробно изучаем их характеристики. Мы начинаем с обсуждения того, какую метрику использовать для измерения UE, рассматриваем, какова их взаимосвязь с RBER и как на UE влияют различные факторы.

5.1. Почему коэффициент UBER не имеет смысла.

Стандартной метрикой, характеризующей неисправляемые ошибки, является коэффициент неисправляемых битовых ошибок UBER, то есть отношение числа неисправляемых битовых ошибок к общему числу прочитанных битов.

Эта метрика неявно допускает, что число неисправляемых ошибок каким-то образом привязано к числу прочитанных битов, а значит, должно быть нормализовано этим числом.

9). Данное предположение справедливо для исправляемых ошибок, где обнаруживается, что число ошибок, наблюдаемых в данный месяц, сильно коррелирует с количеством операций чтения за тот же период времени (коэффициент корреляции Спирмена больше 0. Причина такой сильной корреляции в том, что даже один поврежденный бит, пока он исправляем с помощью ECC, будет продолжать увеличивать количество ошибок с каждой обращенной к нему операцией считывания, так как оценка ячейки, содержащей поврежденный бит, не исправляется немедленно при обнаружении ошибки (диски только периодически переписывают страницы с поврежденными битами).

Неисправляемая ошибка исключает дальнейшее использование поврежденного блока, поэтому обнаруженный однажды, такой блок в дальнейшем не будет влиять на количество ошибок. То же самое допущение не работает в отношении неисправляемых ошибок.

В дополнение к количеству неисправляемых ошибок мы также рассмотрели частоту инцидентов с неисправляемыми ошибками (например, вероятность того, что диск будет иметь по крайней мере один такой инцидент в течение определенного периода времени) и их связь с операциями чтения.
Мы не нашли доказательств корреляции между количеством считываний и количеством неисправимых ошибок. Для официального подтверждения этого предположения мы использовали различные метрики для измерения отношения между числом операций чтения в данном месяце эксплуатации диска и числом неисправимых ошибок за тот же период времени, в том числе различные коэффициенты корреляции (Пирсона, Спирмена, Кендалла), а также визуальное изучение графиков. 02, и графики не показали никакого увеличения UE при росте числа операций чтения. Для всех моделей приводов коэффициенты корреляции были ниже 0.

4 данной статьи мы рассматриваем, что операции записи и стирания также не имеют никакой связи с неисправляемыми ошибками, поэтому альтернативное определение UBER, которое нормализуется операциями записи или стирания вместо операций считывания, не имеет никакого значения. В разделе 5.

Если же UBER используется в качестве метрики во время полевых испытаний, он будет искусственно снижать частоту ошибок для дисков с высоким числом считываний и искусственно завышать такую частоту для дисков с низким числом считываний, поскольку неисправляемые ошибки происходят независимо от количества операций считывания. Поэтому мы заключаем, что UBER не является значимой метрикой, за исключением, возможно, тестирования в контролируемых средах, где число операций считывания задается экспериментатором.

5.2. Неисправляемые ошибки и RBER.

Актуальность RBER объяснима тем, что он служит мерой определения общей надежности привода, в частности, исходя из вероятности возникновения неисправляемых ошибок. В своей работе Н. Миелке и другие в 2008 году первыми предложили определять ожидаемую частоту неисправимых ошибок как функцию RBER. С тех пор многие системные разработчики использовали аналогичные методы, например, оценку ожидаемой частоты неисправляемых ошибок в зависимости от RBER и типа ECC.

Начнем с Рисунка 5а, на котором приведены графики медианного значения RBER для ряда моделей приводов первого поколения, относительно к доле дней их эксплуатации, в течение которых возникали неисправляемые ошибки UE. Цель этого раздела — охарактеризовать, насколько хорошо RBER прогнозирует неисправляемые ошибки. Следует учесть, что некоторые из 16 моделей, приведенных на графике, отсутствуют в Таблице 1 по причине недостатка аналитической информации.

5а.
Рис. Взаимосвязь медианного RBER с неисправляемыми ошибками для различных моделей приводов.

5b.
Рис. Взаимосвязь медианного RBER с неисправляемыми ошибками для различных приводов одной и той же модели.

Мы не увидели корреляции между RBER и инцидентами UE. Напомним, что все модели в рамках одного поколения используют одинаковый механизм ECC, так что различия между моделями не зависят от различий ECC. Мы создали такой же график для 95-го процентиля RBER в сравнении с вероятностью UE и снова не увидели никакой корреляции.

е. Далее мы повторили анализ при детализации отдельных дисков, т. В качестве примера на Рисунке 5b приводятся графики медианного значения RBER для каждого привода модели MLC-c в сравнении с количеством UE (результаты аналогичны полученным для 95-го процентиля RBER). попытались выяснить, существуют ли диски, где более высокому значению RBER соответствует более высокая частота UE. Опять же, мы не увидели никакой корреляции между RBER и UE.

На Рисунке 1 уже указывалось, что коэффициент корреляции между неисправляемыми ошибками и RBER очень низок. Наконец, мы выполнили более точный временной анализ для выяснения, будут ли месяцы эксплуатации приводов с более высоким RBER соответствовать месяцам, в течение которых возникали UE. Мы также экспериментировали с различными способами построения графиков вероятности UE как функции RBER и не нашли никаких признаков корреляции.

Это может означать, что механизмы сбоев, приводящие к RBER, отличаются от механизмов, приводящих к возникновению неисправляемых ошибок (например, ошибки, содержащиеся в отдельных ячейках, против более крупных проблем, возникающих с целым устройством). Таким образом, мы пришли в выводу, что RBER является ненадежным показателем для прогнозирования UE.

5.3. Неисправляемые ошибки и износ.

Поскольку износ является одной из основных проблем флэш-памяти, на Рисунке 6 показана суточная вероятность возникновения неисправляемых ошибок привода в зависимости от циклов PE.

Суточная вероятность возникновения неисправляемых ошибок привода в зависимости от циклов PE.
Рис 6.

Однако, как и в случае с RBER, увеличение происходит медленнее, чем обычно предполагается: графики показывают что UE растут с циклами PE линейно, а не экспоненциально. Мы отмечаем, что вероятность UE непрерывно увеличивается с возрастом привода.

Во-вторых, частота возникновения ошибок варьируется у разных моделей даже внутри одного класса. Два вывода, которые мы сделали для RBER, также применимы к UE: во-первых, нет четкого увеличения возможности ошибок после достижения предельного количества циклов PE, например, на Рисунке 6 для модели MLC-D, чей лимит циклов PE равен 3000. Тем не менее, эти различия не такие большие, как для RBER.

2, мы нашли, что в пределах одного класса моделей (MLC против SLC) модели с самыми низкими значениями RBER для данного количества циклов PE не обязательно те, что имеют самую низкую вероятность возникновения UE. Наконец, в подтверждение наших выводов, приведенных в разделе 5. Например, за 3000 циклов PE приводы модели MLC-D имели значения RBER в 4 раза ниже, чем модели MLC — B, однако вероятность UE при одинаковом количестве циклов PE у моделей MLC-D была немного выше, чем у моделей MLC-B.

Месячная вероятность возникновения неисправляемых ошибок привода как функция зависимости от наличия предыдущих ошибок различного типа.
Рис 7.

5.4. Неисправляемые ошибки и рабочая нагрузка.

По тем же причинам, по каким рабочая нагрузка может повлиять на RBER (см. раздел 4.2.3), можно ожидать, что она также окажет воздействие и на UE. Например, поскольку мы наблюдали, что ошибки нарушения чтения влияют на RBER, то операции чтения также могут увеличить вероятность неисправляемых ошибок.

Однако, как отмечалось в разделе 5. Мы провели детальное исследование влияния рабочей нагрузки на UE. Мы повторили тот же анализ для операций записи и стирания и снова не увидели никакой корреляции.
Обратите внимание, что на первый взгляд, здесь можно увидеть противоречие нашему предыдущему наблюдению, согласно которому неисправляемые ошибки коррелируют с циклами PE. 1, мы не нашли взаимосвязи между UE и количеством операций чтения. Следовательно, вполне можно было бы ожидать и корреляцию с числом операций записи и стирания.

Изучая влияние рабочей нагрузки, мы рассматривали месяцы эксплуатации привода, в течение которых происходило наибольшее количество операций чтения / записи / стирания в определенный месяц, который также имел более высокий шанс возникновения неисправляемых ошибок, т. Однако в нашем анализе влияния циклов PE мы сравнивали число неисправляемых ошибок за данный месяц с итоговым количеством циклов PE, который привод испытал на протяжении всей своей жизни на данный момент для того, чтобы измерить эффект износа. не учитывали суммарное количество операций чтения / записи / стирания. е.

В результате мы пришли к выводу, что ошибки нарушения чтения, ошибки нарушения записи и ошибки неполного стирания не являются основными факторами развития неисправляемых ошибок.

Вам нравятся наши статьи? Спасибо, что остаётесь с нами. Поддержите нас, оформив заказ или порекомендовав знакомым, 30% скидка для пользователей Хабра на уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps от $20 или как правильно делить сервер? Хотите видеть больше интересных материалов? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R730xd в 2 раза дешевле? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2. 2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. Dell R420 — 2x E5-2430 2. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть