S.M.A.R.T. или Нострадамус для HDD
Эта работа была прислана на наш "бессрочный" конкурс статей, однако была снята с конкурса из-за многочисленных заимствований из этой работы.
Доброго времени суток, уважаемые читатели. Идея написать эту статью появилась у меня после того, как мне достался 10GB WesternDigital, сильно убитый (Windows 98 с него загружался около 10 минут, и постоянно включалась проверка диска при запуске компьютера). У владельца этого HDD S.M.A.R.T. был отключен, и поэтому не появлялось сообщения об ошибках. На моем компьютере в конце Post выскакивало сообщение – "Один из атрибутов S.M.A.R.T.(Seek Time Performance, как потом выяснилось) превысил пороговое значение, рекомендуется сделать резервную копию данных" (не помню как это на английском). Дальше компьютер не грузился. Загрузка продолжалась, когда S.M.A.R.T. был отключен в биосе. После отрезания бэдов диск все равно работал плохо. Обнуление атрибутов ни к чему не привело, после 2ой перезагрузки наблюдалась та же картина, вот и пришлось выяснять, что это за атрибут и с чем он связан.
В этой статье я постараюсь описать технологию S.M.A.R.T. – Self-Monitoring, Analysis and Reporting Technology ("Технология Самодиагностики, Анализа и Отчета") - в доступной для понимания форме. Конечно, полностью охватить все ее возможности не возможно, т.к. в настоящее время отсутствует какая-либо полная документация по этому вопросу, да и производители накопителей о своих продвижениях в этой области сообщать не спешат.
Что такое S.M.A.R.T.
Итак, S.M.A.R.T. позволяет отслеживать и, самое главное, предсказывать возникновение ошибок, связанных с функционированием HDD, отсюда появляется возможность вовремя сделать резервную копию данных, тем самым избежать морального и материального ущерба от потери информации, ограничившись лишь покупкой нового диска.
реклама
S.M.A.R.T. – это набор программ, вшитых в микрокод винчестера. Каждая фирма-производитель дисков ведет свои разработки, отсюда и разнообразие параметров для разных дисков. Однако существуют общие параметры:
- Атрибуты, отражающие общее состояние диска (примерно 30);
- Внутренние тесты (self-tests);
- журналы S.M.A.R.T. (ошибок, общего состояния, дефектных секторов и т.п.).
Полный обязательный перечень S.M.A.R.T атрибутов описан в стандарте ATA/ATAPI-6.
Атрибуты S.M.A.R.T.
Атрибуты S.M.A.R.T. – особые характеристики, которые используются при анализе состояния и запаса производительности накопителя. Они выбираются производителем, основываясь на их способности предсказывать ухудшение рабочих характеристик накопителя или определить его дефектность.
Значения атрибутов (value) используются для представления относительной надежности отдельного эксплуатационного или эталонного атрибута. Допустимое значение атрибута лежит в диапазоне от 1 до 255. Его высокое значение говорит о том, что результат анализа данной рабочей характеристики указывает на низкую вероятность ее ухудшения или выхода накопителя из строя. Соответственно, низкое значение атрибута говорит о том, что результат анализа данной рабочей характеристики указывает на высокую вероятность ее ухудшения или выхода накопителя из строя.
Каждый атрибут имеет собственное пороговое значение (threshold), которое используется для сравнения со значением атрибута (value) и указывает на ухудшение рабочих характеристик или дефектность накопителя. Числовое значение порогового атрибута определяется производителем через конструкционные особенности накопителя и анализ результатов испытаний на надежность. Пороговое значение каждого атрибута указывает на его нижнюю допустимую границу, до которой накопитель нормально функционирует.
Ниже приведено краткое описание основных атрибутов:
реклама
Raw Read Error Rate - Частота появления ошибок при чтении данных с диска. Данный параметр показывает частоту появления ошибок при операциях чтения с поверхности диска по вине аппаратной части накопителя.
Throughput Performance - Средняя производительность (пропускная способность) диска. Уменьшение значения value этого атрибута с большой вероятностью указывает на проблемы в накопителе.
Spin Up Time - Время раскрутки шпинделя. Среднее время раскрутки шпинделя диска от 0 RPM до рабочей скорости.
Start/Stop Count - Количество циклов запуск/останов шпинделя. Хранит общее количество включений/выключений диска.
Reallocated Sectors Count - Количество переназначенных секторов. Когда жесткий диск встречает ошибку чтения/записи/верификации, он пытается переместить данные в специальную резервную область (spare area) и, в случае успеха, помечает сектор как "переназначенный". Также, этот процесс называют remapping, а переназначенный сектор - remap. Благодаря этой возможности, на современных жестких дисках очень редко видны (при тестировании поверхности) так называемые bad block. Однако, при большом количестве ремапов, на графике чтения с поверхности будут заметны "провалы" - резкое падение скорости чтения (до 10% и более).
Seek Error Rate - Частота появления ошибок позиционирования МГ (магнитной головки). В случае сбоя в механической системе позиционирования, повреждения сервометок (servo), сильного термического расширения дисков и т.п. возникают ошибки позиционирования. Чем их больше, тем хуже состояние механики и/или поверхности жесткого диска.
Seek Time Performance - Средняя производительность операций позиционирования МГ. Данный параметр показывает среднюю скорость позиционирования привода МГ на указанный сектор. Снижение значения этого атрибута говорит о неполадках в механике привода.
Power-On Hours - Количество отработанных часов во включенном состоянии. Значение value этого атрибута показывает количество часов (минут, секунд - в зависимости от производителя), отработанных жестким диском. Снижение значения атрибута до критического уровня (threshold) указывает на выработку диском ресурса. На практике, даже падение этого атрибута до нулевого значения не всегда указывает на реальное исчерпывание ресурса и накопитель может продолжать нормально функционировать.
Spin Retry Count - Количество повторов попыток старта шпинделя диска. Данный атрибут фиксирует общее количество попыток раскрутки шпинделя и его выхода на рабочую скорость, при условии, что первая попытка была неудачной. Снижение значения этого атрибута говорит о неполадках в механике привода.
Recalibration Retries - Количество повторов попыток рекалибровки накопителя. Данный атрибут фиксирует общее количество попыток сброса состояния накопителя и установки головок на нулевую дорожку, при условии, что первая попытка была неудачной. Снижение значения этого атрибута говорит о неполадках в механике привода.
Device Power Cycle Count - Количество полных циклов запуска/останова жесткого диска.
Soft Read Error Rate - Частота появления "программных" ошибок при чтении данных с диска. Данный параметр показывает частоту появления ошибок при операциях чтения с поверхности диска по вине программного обеспечения, а не аппаратной части накопителя.
Load/Unload Cycle Count - Количество циклов вывода МГ в специальную парковочную зону/в рабочее положение.
Temperature - Температура. Данный параметр отражает показание встроенного температурного сенсора в градусах Цельсия.
Reallocation Event Count - Количество операций переназначения (ремаппинга). Показывает общее количество попыток переназначения сбойных секторов в резервную область, предпринятых накопителем. При этом, учитываются как успешные, так и неудачные операции.
реклама
Current Pending Sector Count - Текущее количество нестабильных секторов. Показывает общее количество секторов, которые накопитель в данный момент считает претендентами на переназначение в резервную область (remap). Если в дальнейшем какой-то из этих секторов будет прочитан успешно, то он исключается из списка претендентов. Если же чтение сектора будет сопровождаться ошибками, то накопитель попытается восстановить данные и перенести их в резервную область, а сам сектор пометить как переназначенный (remapped).
Uncorrectable Sector Count - Количество нескорректированных ошибок. Атрибут показывает общее количество ошибок, возникших при чтении/записи сектора, которые не удалось скорректировать. Рост значения в поле raw value этого атрибута указывает на явные дефекты поверхности и/или проблемы в работе механики накопителя.
UltraDMA CRC Error Count - Общее количество ошибок CRC в режиме UltraDMA, содержит количество ошибок, возникших в режиме передачи данных UltraDMA в контрольной сумме (ICRC - Interface CRC). В большинстве случаев ошибки CRC возникают при сильном завышении частоты PCI (больше номинальных 33.3 MHz), сильно перекрученом кабеле, а также - по вине драйверов ОС, которые не соблюдают требований к передачи/приему данных в режимах UltraDMA.
Write Error Rate - Частота появления ошибок при записи данных. Показывает общее количество ошибок, обнаруженных во время записи сектора. Чем ниже значение value, тем хуже состояние поверхности диска и/или механики привода.
Disk Shift - Сдвиг пакета дисков относительно оси шпинделя.
G-Sense Error Rate - Частота появления ошибок в результате ударных нагрузок. Данный атрибут хранит показания ударочувствительного сенсора - общее количество ошибок, возникших в результате полученных накопителем внешних ударных нагрузок (при падении, неправильной установке, и т.п.).
Здесь приведены атрибуты, с помощью которых можно определить надежность функционирования диска. Остальные же не представляют практической важности.
Автономное сканирование поверхности (off-line read scanning).
Большинство накопителей обеспечивают поддержку автономного сканирования поверхности, которое является одной из функций подпрограммы автономного сбора данных о состоянии накопителя (off-line data collection). При выполнении этой функции, накопитель выполняет полное сканирование поверхности путем чтения каждого сектора с замещением ненадежных секторов на запасные из резервной области (spare area) для предотвращения потери пользовательских данных.
Примечание! Если во время выполнения сканирования накопитель получает команду по интерфейсу, то процесс сканирования прерывается и накопитель приступает к обработке поступившей команды. При этом гарантируется максимальное время реагирования на поступившую команду - до 2 секунд.
Встроенные функции самоконтроля (self-test)
Практически с момента появления стандарта S.M.A.R.T. II, в большинстве накопителей появилась новая функция - внутренняя диагностика и самоконтроль, для углубленного контроля состояния механики накопителя, поверхности дисков и т.п. Для запуска этой функции, в набор команд S.M.A.R.T. была введена новая команда - SMART EXECUTE OFF-LINE IMMEDIATE. Результат работы сохраняется либо в специализированных атрибутах, либо отдельным параметром среди других данных в атрибутах
После выполнения теста, накопитель в обязательном порядке обновляет показания во всех атрибутах и других параметрах. Если во время выполнения внутреннего теста накопитель получит по интерфейсу новую команду, то выполнение теста прерывается и накопитель приступает к обработке поступившей команды.
Методы тестирования.
Существует два способа запуска тестов S.M.A.R.T.: автономный (off-line) или монопольный (captive). Результат теста всегда сохраняется накопителем в данных S.M.A.R.T.
При автономном запуске накопитель сообщает о успешном завершении команды до ее фактического исполнения и только после этого выполняет тест. При этом, по интерфейсу флаг "занято" (busy) не выставляется и накопитель в любой момент готов приступить к выполнению очередной интерфейсной команды, приостанавливая работу теста. Фактически, тест выполняется в фоновом режиме.
При запуске теста в монопольном режиме, по интерфейсу выставляется флаг "занято" (busy) и накопитель начинает непосредственное выполнение теста в режиме реального времени. Любая интерфейсная команда во время выполнения этого теста приведет к его прерыванию и остановке, после чего накопитель приступит к обработке поступившей команды.
Монитор параметров S.M.A.R.T. программа SIGuardian.
Существует большое количество программ, контролирующих SMART, это может быть специально направленная программа (Drive Health, SIGuardian), или программа, содержащая контроль параметров SMART как дополнительную функцию. На мой взгляд, наиболее функциональной является SIGuardian (http://www.siguardian.ru/). Программа предоставляет возможность следить за практически всеми атрибутами SMART, имеет приятный интерфейс, и обладает большим количеством настроек.
Общие сведения о дисках.
Закладка "Общие" содержит общую информацию о выбранном жестком диске. В левой половине указаны: технические характеристики, такие как объем диска, количество цилиндров, головок и т.п.; режим работы диска в настоящий момент (PIO, multiword DMA, UDMA); поддерживаемые режимы работы диска (только в Расширенном режиме). В правой половине показывается логотип фирмы-производителя жесткого диска и ниже – общая информация о диске: модель диска, серийный номер диска, дата/ревизия прошивки микропрограммы.
Обратите внимание, на рис. 1 отсутствует показание температуры. Диск достаточно старый и не обладает таким сенсором.
Общие сведения S.M.A.R.T.
Закладка "S.M.A.R.T." показывает общую информацию о состоянии диска на основе S.M.A.R.T. атрибутов или S.M.A.R.T. – информацию:
- Дату начала мониторинга S.M.A.R.T. – т.е. дату, когда вы начали контроль за состоянием диска при помощи SIGuardian. Чаще всего, это дата первого запуска SIGuardian.
- Ближайшую прогнозируемую дату T.E.C. (ThresholdExceedCondition) – т.е. дату, когда по прогнозам SIGuardian один из S.M.A.R.T. атрибутов достигнет порогового (критического) значения.
S.M.A.R.T. подробно
Закладка "Подробно" предназначена для отображения полной информации о S.M.A.R.T.-атрибутах диска. Она показывает:
- Attribute name – Графическое отображение значения атрибута. При наводке указателя мыши на него показывается в окне всплывающей подсказки более подробное текстовое описание смысла этого атрибута;
- 1/month – скорость падения атрибута – на сколько пунктов в месяц упало значение атрибута. Этот коэффициент вычисляется автоматически при любом изменении атрибутов S.M.A.R.T. для каждого атрибута в отдельности. Вычисление производится ежедневно, поэтому относитесь нормально к колебаниям этого показателя, особенно сразу после изменения атрибута;
- Value – значение атрибута – текущее значение данного атрибута S.M.A.R.T.;
- Threshold – пороговое (критическое) значение атрибута – значение, величину которого производитель жесткого диска считает критической и при достижении которого вполне вероятен выход диска из строя;
- T.E.C. – Threshold Exceeds Condition – предполагаемая дата, когда данный атрибут достигнет порогового значения, иначе говоря, дата возможного выхода из строя диска. Прогноз этой даты делается на основе показателя "скорости падения атрибута", поэтому не удивляйтесь сильным колебаниям даты сразу после изменения атрибутов S.M.A.R.T.;
- Worst – худшее значение атрибута – самое худшее (минимальное) значение, которое данный атрибут принимал за всё время жизни жесткого диска. Может использоваться чисто в ознакомительных целях;
- Raw - "чистое" значение атрибута – просто числовое значение атрибута в чистом, необработанном виде.
Настройки
Закладка "Настройка" предназначена для самостоятельной настройки пользователем параметров SIGuardian для работы на компьютере. Если вы не считаете себя опытным пользователем, рекомендуем воспользоваться "Мастером настройки" - он поможет вам выбрать наиболее подходящие параметры работы.
Основные и наиболее важные настройки:
При загрузке проверка и выход – отметьте этот режим, если вы хотите чтобы SIGuardian проверял состояние S.M.A.R.T. только при загрузке операционной системы.
Общие настройки для всех дисков – SIGuardian будет использовать общие настройки для всех дисков в компьютере. Они включают: контроль S.M.A.R.T., период опроса S.M.A.R.T. и адрес электронной почты для сообщений. Вы можете установить общие или индивидуальные для каждого диска параметры.
Включить контроль S.M.A.R.T. – при выключении этого режима SIGuardian не будет проверять этот диск (или все диски) на значения атрибутов S.M.A.R.T.
Режим работы – Обычный или Расширенный – Обычный режим – основной для пользователей. В этом режиме SIGuardian показывает значение атрибута, пороговое значение и T.E.C., скорость падения атрибута. На закладке "Общее" Вы не увидите информации о поддерживаемых диском режимах работы (передачи данных). В расширенном режиме дополнительно показывают Худшее и Чистое (Raw) значение атрибута и полную информацию о диске на закладке "Общее".
Опрос S.M.A.R.T. – установите здесь период опроса S.M.A.R.T. при работе SIGuardian фоном.
Отчеты на e-mail – введите здесь адрес электронной почты, на который SIGuardian должен посылать сообщения. Вы не должны видеть никаких сообщений при работе в этом случае.
WiseControl – информация только о значительных изменениях (ухудшениях) параметров S.M.A.R.T.
Hibernate on overheat temperature – если температура HDD превышает установленное значение, компьютер переходит в режим hibernate.
Ждём Ваших комментариев в специально созданной ветке конференции.
Лента материалов раздела
Соблюдение Правил конференции строго обязательно!
Флуд, флейм и оффтоп преследуются по всей строгости закона!
Комментарии, содержащие оскорбления, нецензурные выражения (в т.ч. замаскированный мат), экстремистские высказывания, рекламу и спам, удаляются независимо от содержимого, а к их авторам могут применяться меры вплоть до запрета написания комментариев и, в случае написания комментария через социальные сети, жалобы в администрацию данной сети.
Сейчас обсуждают