0

Время наработки на отказ hdd

Как можно узнать срок работы жесткого диска; где та грань износа, по достижению которой HDD необходимо срочно менять? На помощь приходит MTBF – показатель наработки на отказ

Мы все хорошо понимаем, что потеря данных может повлиять на каждого их нас весьма и весьма негативно. Для многих из нас, потеря значимой информации происходит в виде поломки жесткого диска (HDD). Это могут быть различные механические и электронные дефекты, которые делают информацию, хранящуюся на жестком диске, недоступной для чтения. Есть десятки возможных причин для этого типа неисправности, начиная от логических ошибок программного обеспечения до очевидных или неявных физических повреждений HDD. Вместе с тем, мы не можем не упомянуть, что все устройства хранения данных имеют ограниченную продолжительность жизни.

Большинство из нас может назвать некоторые признаки того, что жесткий диск на грани выхода из строя. Например, если ваш HDD диск издает звуки – от приятного уху жужжания, шума шлифовки, то это признак того, что жесткий диск собирается "склеить ласты". Кроме того, если доступ к данным на ПК замедляется или начинают проявляться странные действия или явления (поврежденные данные, bad-сектора и пропавшие без вести файлы) – это все надежные индикаторы некорректной работы жесткого диска.

К сожалению, нет так называемых научных показателей для выявления неисправности HDD и его будущих поломок или выхода из строя – хотя это помогло бы предупредить потерю информации и вовремя прибегнуть к срочному ремонту HDD. В то же время, существуют способы мониторинга различных "странностей", происходящих с вашим ноутбуком или настольным ПК. Также можно применить ту же методологию к дисковым массивам для независимых дисков (RAID), через удаленный центр обработки данных.

Итак, как можно бизнес-пользователям, корпоративным и персональным пользователям предсказать, когда их жесткие диски достигнут грани работоспособности? Первый шаг – проверить смету изготовителей касательно продолжительности жизни устройства. Эти оценки, как правило, указаны как среднее время между отказами, или же наработка на отказ (MTBF). Это общий ориентир для жестких дисков. Что это означает в действительности и рассчитывается рейтинг наработки отказа, то есть MTBF?

Что такое среднее время наработки на отказ, т.е. примерный срок его службы

Рейтинг MTBF расшифровывается, как и звучит. Это средний период времени между одной присущей ошибкой и следующий в продолжительности жизни одного компонента. Другими словами, если была найдена неисправность и после этого отремонтирована, наработка на отказ – цифра, количество часов, когда можно ожидать функционирование жесткого диска в нормальном режиме, прежде чем он сломается снова или будет найдена малейшая неисправность.

В случае с потребительскими жесткими дисками, не редкость увидеть MTBF в промежутке около 300 000 часов. Это 12500 дней, или чуть более 34 лет. Между тем, жесткие диски более высокого класса рекламируются с MTB до 1,5 миллиона часов, что составляет около 175 лет. хотелось бы вы представить себе, как жесткий диск надежно работает в течение сотни лет? Это было бы сказкой для IT-менеджеров!

К сожалению, есть разница между средней наработки на отказ метрики и реальных продолжительности жизни. Метрика MTBF имеет долгую и выдающуюся родословную в военной и авиационно-космической техники. Цифры взяты из частоты ошибок в статистически значимого количества приводами, работающими в течение недель или месяцев, в то время.

Исследования показали, что, как правило, средняя наработка на отказ (MTBF) в реальности имеет более низкий показатель. В 2007 году исследователи из Университета Карнеги-Меллона исследовали образцы 100000 винчестеров с установленным MTB при условии диапазонов наработки на отказ от одного миллиона до 1,5 миллиона часов. Это приводит к ежегодному отказу (AFR) 0,88 процента. Однако данное исследование показало, что индекс, как правило, превышает один процент – от 3:58 процентов до 13 процентов в некоторых системах хранения информации.

Производители не закрывают глаза на несоответствие показателя MTBF к реальному сроку службы HDD накопителя. Недавно производители Seagate и Western Digital прекратили использовать метрики средней наработка на отказдля своих жестких дисков. Вместо этого пользователь вынужден использовать сторонний софт для диагностики (например, Victoria) либо исследовать диагностические показатели SMART (о чем читайте ниже).

Почему средняя наработка на отказ – неэффективный показатель износа HDD?

Вообще, показатель MTBF имеет смысл только тогда, когда устройство имеет постоянную интенсивность отказов, т.е. отказы распределены экспоненциально. Жесткие диски, в первую очередь, механические устройства, с механическими отказами. Т. е., механические отказов, как правило распределены.

Если мы предположим, что приложение использует большое количество жестких дисков, и ошибки распределены экспоненциально, число отказов в любых двух интервалах одинакового размера будет то же самое. Жесткий диск будет генерировать ошибки в 100-день, как и в 10000-день. Жесткие диски в реальных условиях эксплуатации имеют другой износ. После первоначальной фазы "младенческой смертности" (когда ошибки будут незначительны) произойдет какой-то момент времени, когда интенсивность отказов резко увеличится. Для типичных механических жестких дисков износ точка находится в возрасте от 3 до 5 лет непрерывной работы.

Вследствие, поскольку индекс средней наработки на отказ – относительно ненадежный индикатор здоровья жесткого диска, каким еще образом мы можем предсказать конец срока службы жесткого диска или другого устройства хранения данных? Далее мы будем обсуждать плюсы и минусы использования SMART – инструмента диагностики, который позволит определить время износа жесткого диска.

При оценке реальной надежности жестких дисков в вычислительных центрах часто высказывается мнение, что производители дисковых накопителей имеют склонность завышать показатель MTBF (Mean Time Between Failures – среднее время наработки на отказ). Вот только кто верит их данным?

Технические спецификации жестких дисков всегда содержали информацию о надежности, оговаривая, сколько часов может проработать каждое из этих устройств. Такой показатель называется "средним временем наработки на отказ", или MTBF, но иногда используется более короткий термин "наработка на отказ". Разницы между ними, впрочем, особой нет, разве что в первом случае исходят из того, что диск можно отремонтировать, а во втором – что его нужно заменить. На сегодняшний день для "корпоративных" жестких дисков данный показатель составляет порядка 1 млн. ч, а для некоторых – даже 1,5 млн.

Читайте также:  Запись разговора whatsapp на android

MTBF – параметр чисто статистический, рассчитанный путем экстраполяции данных

за сравнительно короткий промежуток времени.

Такие цифры просто не могут не впечатлять! В конце концов, в году всего 8760 ч, а значит, один миллион их соответствует 114 годам непрерывной работы. У некоторых, правда, подобные цифры вызовут недоумение, ведь жестким дискам всего-то от роду полсотни лет. Да и то если считать с момента, как IBM выпустила гигантский 350 Disk Storage Unit для своего компьютера RAMAC. Ну как тут не почесать в затылке?

Однако следует иметь в виду, что MTBF – параметр чисто статистический, рассчитанный путем экстраполяции данных за сравнительно короткий промежуток времени. И приведенные выше показатели свидетельствуют об очень высокой надежности жестких дисков: вероятность отказа любого из них в течение года не превышает 1%. Да торжествует хранение данных!

Вот только восторг перед MTBF несколько бледнеет, когда знакомишься с результатами последних исследований в данной области, представленными на конференции FAST’07. Это мероприятие, посвященное компьютерным файлам и их хранению, организовала и недавно провела в калифорнийском Сан-Хосе американская ассоциация передовых вычислительных систем USENIX.

Приз за лучший документ здесь получила работа Бьянки Шредер и Гарта Гибсона из питсбургского университета Карнеги – Меллона под названием "Disk Failures in the Real World: What Does an MTBF of 1,000,000 Hours Mean to You?" ("Отказы жестких дисков в реальном мире: что значит для вас наработка в миллион часов?").

Исследователи проанализировали показатели огромного количества жестких дисков, используемых в центрах массового хранения данных, в том числе на суперкомпьютерах и Web-серверах. И полученные результаты дали основания полагать, что общепринятое представление о надежности дисков вовсе не соответствует истине. Оказалось, скажем, что ежегодно приходится заменять не 1% жестких дисков, как следует из MTBF, а от 2 до 4%. Более того, в некоторых центрах эта цифра доходит даже до 13%. Приехали, что называется!

Противоречат выводы исследования и широко распространенному мнению, будто частота отказов дисков соответствует так называемой "кривой надежности". Из этой теории следует, что проблемы с любым электронным устройством, включая и жесткие диски, активно возникают в самом начале эксплуатации (Шредер и Гибсон назвали подобное явление "эффектом детской смертности"), затем их частота снижается и начинает снова нарастать через определенное время вследствие старения компонентов. Вот только практика показала иное. Согласно исследованию отказы дисков начинаются вовсе не через 5-10 лет эксплуатации, а уже в первые ее годы, после чего их уровень непрерывно растет.

Причем исследователи отметили "минимальные различия в частоте замены жестких дисков с интерфейсами SCSI, Fibre Channel и SATA". А это, по их мнению, "может указывать на то, что внешние факторы, например условия эксплуатации, оказывают на надежность дисков большее влияние, чем внутренняя конфигурация устройств".

Такие выводы, несомненно, вызовут бурю негодования в маркетинговых подразделениях производителей систем хранения и жестких дисков. Ведь корпоративные устройства оснащаются лучшими по сравнению с SATA механизмами, шпинделями с повышенной скоростью и более надежными компонентами (потому и стоят дороже). Если же уровень отказов определяется не этим, производителям есть над чем задуматься.

На той же самой конференции FAST еще один доклад на сходную тему прочитали инженеры Google. Их работа носит название "Failure Trends in a Large Disk Drive Population" ("Тенденции отказов в средах с большим количеством дисков") и уже опубликована в формате PDF по адресу: http://labs.google.com/papers/disk_failures.pdf. Здесь основное внимание обращено на то, в какой степени созданные на базе технологии SMART (Self-Monitoring, Analysis and Reporting Technolo-gy – технология самопроверки, анализа и отчетности) микропрограммы жестких дисков способны прогнозировать выход такого оборудования из строя.

Технология SMART предусматривает анализ целого ряда механических и электрических показателей работы жесткого диска – что-то вроде системы предупреждения о нехватке масла в вашем автомобиле. Последняя постоянно следит за уровнем масла, и когда он опускается ниже заранее заданного порога, подает сигнал предупреждения, помогающий водителю избежать катастрофических для двигателя последствий.

Вот только специалисты Google – Эдуардо Пинейро, Вольф-Дитрих Вебер и Луис Андре Барросо – выяснили, что повышение температуры диска и потребляемой мощности вовсе не обязательно свидетельствует о намечающемся отказе. А SMART именно так и воспринимает эти симптомы.

С другой стороны, жесткие диски, у которых SMART начинает отмечать ошибки сканирования и переноса данных, выходят из строя на протяжении ближайшей пары месяцев в 39 раз чаще, чем диски без таких ошибок. Следовательно, "первые ошибки" можно считать надежным признаком приближающегося отказа.

Тем не менее, как считают исследователи, технология SMART со своей задачей справляется не слишком-то успешно. Вот что они пишут: "Несмотря на сильную корреляцию с количеством ошибок сканирования и переноса данных, сама по себе модель прогнозирования сбоев на основе параметров SMART страдает невысокой точностью. Подтверждением здесь может служить то, что значительная часть вышедших из строя дисков не подавала сигналов ни о каких ошибках".

Множество вопросов относительно надежности дисков задается компаниям-производителям и на блогах. На сайте StorageMojo, скажем, опубликовано довольно интересное открытое письмо Робина Харриса, призывающего разработчиков жестких дисков признать несостоятельность параметра MTBF. Описанные в нем случаи ставят под сомнение заявленный высокий уровень надежности некоторых массивов RAID. Вот что мы прочли в документе: "Многие читатели этого письма, думаю, согласятся со мной в том, что компании, которым ситуация известна лучше, чем кому бы то ни было (по крайней мере должна быть известна лучше), либо игнорируют неудобные для них факты, либо искажают их смысл. Взять, скажем, дискуссию относительно массива RAID-DP. Аргументация здесь основана на частоте необратимых ошибок считывания данных и не учитывает, например, того, что вероятность одновременного отказа сразу двух жестких дисков массива может оказаться больше предполагаемой. Зная, что в реальном мире диски выходят из строя в несколько раз чаще, чем обещают их производители, я поневоле ставлю под сомнение и расчетную вероятность битовых ошибок".

Читайте также:  Как восстановить аккаунт гугл на смартфоне

Дыма без огня, конечно, не бывает, однако здесь затронута очень сложная проблема. Невозможно найти два сайта, сервера или две среды, где условия работы жестких дисков были бы совершенно идентичными. Не говоря уже о том, что реальная эксплуатация существенно отличается от тестовых процедур изготовителя. А статистическая экстраполяция MTBF только умножает эти различия.

Вывод из представленных на конференции FAST исследований может быть только один: как бы высока ни была средняя наработка на отказ, в ИТ-бюджете необходимо обязательно предусматривать средства на замену жестких дисков. Это, правда, может урезать расходы на развертывание новых систем хранения, которые гораздо больше по душе менеджерам по информатизации и производителям таких устройств.

Здесь, думаю, уместно привести высказывание насчет MTBF, которое прозвучало на встрече группы пользователей сетевых хранилищ в Сан-Франциско. Один из выступивших здесь реселлеров прямо призвал производителей "не публиковать чушь".

Следовать этому призыву маркетинговые подразделения наверняка не станут, так что нам остается только одно: воспринимать публикуемые данные о средней наработке на отказ более реалистично.

Валерий Косихин

30 января 2013

⇡#Технологии будущего: Shingled Recording, Heat-Assisted Recording, Bit-Patterned Media

3DNews : В новостях уже мелькают технологии под названиями Shingled Recording, Heat-Assisted Recording, Bit-Patterned Media, которые позволят плотности записи на HDD расти в будущем. В чем их сущность и как скоро можно ожидать появления коммерческих продуктов, в которых они будут внедрены?

Алекс Блеквелл: Shingled Recording — это такая странная технология, которая заимствует кое-что у SSD. Идея в том, чтобы, как и сейчас, записывать данные последовательно на магнитную пластину, только вместо одной дорожки здесь и одной там с промежутком между ними мы будем накладывать дорожки одна на другую. Но нам придется быть очень осторожными в том, как применять эту технологию. Потому что Shingled Recording повлияет на то, как хост-контроллер будет использовать привод. И в конце концов она может оказаться всего лишь нишевым решением для конкретного рынка, который будет в ней заинтересован.

Прим. автора: коль скоро дорожки накладываются друг на друга, при необходимости записать фрагмент данных на одной дорожке придется сначала прочитать и сохранить все данные из пересекающихся дорожек, а затем записать все это обратно на диск. Другой вариант — стараться производить запись на свободные участки, что приведет к сильной фрагментации файлов. Все это действительно очень похоже на то, как работает SSD с NAND-памятью, которая также позволяет освобождать ячейки для перезаписи только в виде крупных блоков (скажем, по 128 Кбайт). Поскольку у жестких дисков и так плохи дела с произвольным доступом, то похоже, что дискам с Shingled Recording уготована судьба хранилищ больших объемов данных с преимущественно последовательной записью.

Cледующая технология — Heat-Assisted Recording. Возьмем кусок масла. Вы достаете его из холодильника и кладете на стол в теплый день. Тогда оно становится очень мягким, и в нем можно проделать дырку пальцем. Но чтобы сделать дырку в куске сразу из холодильника, нужно что-то очень острое. Точно так же удобно представить свойство магнитного носителя — coercivity.

Коэрцитивная сила — такое размагничивающее внешнее магнитное поле напряженностью H, которое необходимо приложить к ферромагнетику, предварительно намагниченному до насыщения, чтобы довести до нуля его намагниченность I или индукцию магнитного поля B внутри (Wikipedia).

Для диска с малой плотностью записи подходит мягкое масло (низкое coercivity) и толстый палец (большое расстояние между головкой и носителем). Для диска с большой плотностью записи, чтобы удерживать намагниченные участки, нужно твердое масло (высокое coercivity), а чтобы производить запись — очень, очень острый «палец»: большая напряженность магнитного поля и меньший зазор между записывающей головкой и носителем.

Возьмем жесткий диск IBM из 1950-х. Можно было разглядеть провода, накрученные на головке, и расстояние до носителя. Теперь головки изготавливаются как интегральные схемы, из тонкопленочных материалов. Но я, вероятно, буду вынужден вас убить, если расскажу о головках слишком много. Головки — это технология, которая держит нас в бизнесе.

Итак, мы можем развить только ограниченную напряженность магнитного поля. И приблизить головку к носителю тоже уже не можем. Но мы можем сделать намагниченный носитель «тверже». Нам нужен небольшой лазер, чтобы сделать масло мягким, проделать в нем дырку и положить обратно в холодильник. Вы можете ожидать, что эта технология станет коммерчески доступной в течение двух-трех лет. Но сначала — Shingled Recording, которая может как сочетаться с Heat-Assisted Recording, так и применяться отдельно.

Heat-Assisted Magnetic Recording (HAMR)

Другая технология, которая значится в нашем технологическом roadmap’е после HAMR, — это Bit-Patterned Media. HAMR, как и сейчас, все еще подразумевает использование непрерывного носителя, хотя и из экзотических материалов. А Bit-Patterned Media означает запись индивидуальных битов данных, окруженных пустотой. Тогда намагниченные участки смогут располагаться очень близко друг к другу, не вызывая интерференции. Проблема в том, чтобы создать структуры такого размера. Существующая литография не дает нам даже той плотности записи, которую мы имеем с непрерывным носителем. Должны произойти большие улучшения в литографии, чтобы за счет Bit-Patterned Media произошло увеличение плотности записи.

⇡#«Нативная» поддержка секторов 4 Кбайт

3DNews : Ну когда уже?

Алекс Блеквелл: Мы хотели бы увидеть «нативную» поддержку секторов 4 Кбайт. Они уже дали нам преимущество на уровне самого накопителя: форматирование стало на 10% эффективнее, коррекция ошибок — проще. Но только представьте, столько денег уже вложено в инфраструктуру, построенную вокруг секторов 512 бит…

Я бы показал вам диск WD с «нативной» поддержкой секторов 4 Кбайт прямо сейчас (нужно только сначала заказать из США). А как только рынок будет к этому готов, мы тут же можем начать их продавать. Достаточно одного-двух месяцев на подготовку.

⇡#Жесткие диски с гелием. До семи пластин в корпусе

3DNews : HGST не так давно продемонстрировала жесткий диск, вместо воздуха заполненный гелием. Будут ли за счет этого действительно коммерчески производиться жесткие диски с семью магнитными пластинами?

Алекс Блеквелл: Гелий хорош тем, что он менее плотный по сравнению с воздухом. Из-за меньшей плотности можно сделать магнитные пластины тоньше и легче, можно поместить больше пластин в корпус, вплоть до семи. Подумайте о компаниях, которые хотят получить максимальную плотность данных на квадратный метр. Вот им понравятся такие диски.

3DNews : А нельзя ли было с таким же успехом просто разрядить воздух внутри корпуса?

Алекс Блеквелл: Мы все используем аэродинамическую технику, чтобы контролировать расстояние от головки до поверхности носителя. И я не знаю, какова будет физика при использовании разряженного воздуха. Я также думал об использовании водорода вместо гелия. И об этом я также не могу ничего сказать. Водород легче получить, чем гелий, — путем электролиза воды. А вот ресурс гелия ограничен, и, чтобы получить больше, нам нужен токамак — установка для термоядерного синтеза. Хотя если гелия хватает для наполнения шариков, то, предполагаю, будет достаточно и для жестких дисков.

На самом деле, мы сейчас уже используем гелий в процессе производства. Привод заполняется гелием на стадии, которая требует большой точности позиционирования головок. Сложность при внедрении гелия в коммерческих продуктах состоит в том, чтобы удержать его внутри по меньшей мере в течение гарантийного срока. Молекула газа очень маленькая, поэтому легко выходит через мельчайшие поры. Я не знаю подробностей о том, как это сделала HGST, но если вы посмотрите на конструкцию жесткого диска, то увидите элементы, на которые для этого нужно обратить особое внимание.

Первая вещь — нужно заблокировать воздушный фильтр. Привод превратится в сосуд под давлением. Вторая — нужно убедиться, что прокладка между крышкой и корпусом не является пористой для гелия. Это задача по части материалов.

3DNews : Появятся ли когда-нибудь диски с гелием под брендом WD?

Алекс Блеквелл: Я никогда не говорю «никогда». Мы уже используем гелий в производстве и знаем, какие технологии для этого нужны. Кроме того, преимущество в нашей индустрии часто измеряется в месяцах, а не в годах.

⇡#Про надежность, долговечность и статистику

3DNews : Каков расчетный срок жизни отдельно взятого привода? Возьмем жесткий диск с MTBF (mean time between failures, «среднее время наработки на отказ») на уровне 1 млн часов. В пересчете на годы это даст совершенно нереальный срок жизни в 114 лет. Похоже, что так просто MTBF в срок жизни не переводится…

Алекс Блеквелл: На самом деле MTBF не является утверждением о долговечности отдельно взятого диска. Это статистическое утверждение о популяции дисков. Миллион часов MTBF говорит мне, что я, будучи менеджером дата-центра с сотней тысяч дисков, могу ожидать, что один из них будет отказывать каждые 10 часов. Что даст мне возможность понять, сколько запасных приводов нужно иметь на руках.

MTBF вычисляется с помощью такого теста. Если вам нужно получить MTBF 2 млн часов, вы должны сгенерировать больше 2 млн часов работы. Наполняете стойки тысячей дисков и гоняете в течение тысячи часов (шесть недель). Так и получается миллион часов. А еще мы можем повысить температуру тестового стенда, ускоряя в четыре раза амортизацию дисков. Вот уже 4 млн часов работы. Если за это время два диска отказали, то и получается MTBF 2 млн часов. На самом деле мы начали удалять MTBF из наших документов на устройства, ибо люди зачастую неправильно понимают, что означают эти числа.

И все же, какова сервисная жизнь отдельно взятого диска? По консервативной оценке, она составляет не меньше 5 лет. Вы сами вряд ли знаете кого-то, кто использовал бы компьютер старше этого срока. Проживет ли диск дольше — зависит эксплуатации. Это как машина. Если каждый день ездишь по сотне километров, то она износится быстрее, чем машина, которая выходит из гаража только в выходные.

Более точную оценку продолжительности жизни дать трудно, так как сейчас в ходу мало дисков десятилетнего возраста. Диск такой давности имеет объем всего 10-40 Гбайт, большинство из них находятся в снятых с гарантии и более неиспользуемых компьютерах. Нет данных. Все, что у нас есть на этот счет, — это частные, иногда анекдотические свидетельства. Например, один из моих клиентов недавно списал массив дисков WD, которые были куплены пять лет назад, и все до единого еще работали. А это был дата-центр с режимом работы 24/7.

Корпоративные жесткие диски изначально проектируются с упором на надежность. Это и подбор компонентов, и конструкция. Например, в дисках форм-фактора 2,5 дюйма на 15 000 об/мин используются пластины емкостью 300 Гбайт. В то время как высшая на сегодня емкость пластины этого размера — 500 Гбайт. Надежность — серьезная дисциплина. У нас в Western Digital этим занимаются множество людей со степенью PhD.

Важный фактор, который вносит вклад в надежность жесткого диска, — это температура. Чем она выше, тем чаще они ломаются. Температура — это все. У нас есть модель связи количества отказов и так называемой эффективной активационной энергии, в которую вносит свой вклад и температура. Похожие модели есть и у Seagate, HGST, Toshiba. Они очень точные, все это легко измерить и проверить. Для владельцев дата-центров мой совет: держите жесткие диски в диапазоне 40–50 °C.

⇡#Балансировка магнитных пластин

3DNews : Одна из технологий, которые отличают недавно вышедшие диски серии WD Red, как и корпоративные винчестеры WD, — 3D Active Balance Plus. Что это значит?

Алекс Блеквелл: Как на колесо машины, на блок магнитных пластин на шпинделе действуют дисбалансирующие силы в двух направлениях: одна трясет (вектор в плоскости пластин), другая качает (вектор перпендикулярный). Чтобы компенсировать силу типа «трясет», мы помещаем кусочек проволоки в виде круга с разрывом в узел мотора. Чтобы справиться с той, которая «качает», мы помещаем «пробку» в одно из отверстий на шпинделе. Такой мелкий цветной кусочек пластика.

admin

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *