Журнал ошибок NVMe SSD: как читать и что делать

Зачем вообще смотреть журнал ошибок NVMe

Медный радиатор NVMe с термопрокладками рядом с NVMe SSD внутри ноутбука.

Понятие «здоровье SSD» часто вводит в заблуждение: пользователи и системные утилиты могут говорить о разных вещах. Контроллер NVMe хранит собственный журнал событий и ошибок — это отдельный источник информации, который не совпадает с SMART-показателями. SMART — это в основном счётчики, износ и индикаторы; журнал ошибок NVMe — это список конкретных зарегистрированных событий, который может дать контекст и помочь отличить случайную «пиликалку» от реальной деградации носителя.

Важно: ОС обычно показывает только симптомы (тайм-ауты, ресеты, общие уведомления «диск имеет проблему»). Журнал контроллера часто содержит причину события.

Кому это полезно

Домашним пользователям, которые хотят понять, стоит ли немедленно бэкапить данные;
Сисадминам и техникам, которым нужна точная диагностика неполадок;
Производителям ПО для мониторинга и специалистам по поддержке.

Как найти журнал ошибок NVMe на практике

Нужен smartctl из Smartmontools

Логотип Samsung на задней стороне NVMe SSD 9100 PRO.

Фото: Patrick Campanale / How-To Geek

Smartmontools — это бесплатный набор утилит для диагностики дисков, доступный для Windows, Linux и macOS. Команда smartctl умеет посылать NVMe admin-команды контроллеру и извлекать журнал ошибок.

На Windows:

Установите Smartmontools.
Откройте PowerShell с правами администратора.
Найдите устройство:

smartctl --scan-open

На Windows устройство обычно выглядит как \.\PHYSICALDRIVE1 или \.\nvme0.

Считать журнал ошибок NVMe:

smartctl -l error \\.\PHYSICALDRIVE1

Для расширенного вывода со счётчиками здоровья:

smartctl -a \\.\PHYSICALDRIVE1

На Linux и macOS примеры команд:

# найти NVMe-устройства
smartctl --scan

# пример для устройства /dev/nvme0n1
smartctl -l error /dev/nvme0n1
smartctl -a /dev/nvme0n1

# самотесты
smartctl -l selftest /dev/nvme0n1

Практическая заметка: если диск подключён через USB-корпус или через слой RAID, smartctl может не пропускать NVMe admin-команды. В таком случае потребуется прямое подключение к M.2 слоту или корпус/мост с поддержкой NVMe passthrough.

Структура записи в журнале ошибок NVMe и как её читать

USB-корпус UGREEN с NVMe SSD внутри, лежащий на MacBook.

Фото: Patrick Campanale / How-To Geek

Обычно запись включает поля: ErrCount, SQId, CmdId, Status, PELoc, LBA, NSID и дополнительную информацию. Вот краткое пояснение полей (одно предложение — определение):

ErrCount: уникальный инкрементный номер события — помогает видеть новые записи после перезагрузок.
SQId и CmdId: идентификаторы очереди команд и команды — указывают, связана ли ошибка с конкретной I/O-командой.
Status: код и описание ошибки — ключ к пониманию, что именно произошло.
PELoc (Parameter Error Location): байт/бит параметра, где контроллер увидел проблему.
LBA: логический адрес блока — если 0, ошибка, скорее всего, не привязана к конкретному блоку данных.
NSID: идентификатор пространства имён (обычно 1 для единственного логического тома).

Читать надо в таком порядке: Status → LBA/NSID → SQId/CmdId → PELoc → ErrCount. Status говорит, что произошло; LBA и NSID — были ли данные затронуты; SQId/CmdId — привязано ли к операции; PELoc — если это параметр команды.

Если нужно узнать точный блок с повреждением, дополнительно смотрите журнал самопроверок (Device Self-Test Log) и показатели целостности (Media / Data Integrity errors) в общем выводе smartctl.

Типы статусов и что они означают на практике

Ниже — описания типов статусов с практическими советами.

Write Fault / Programming Failure / Unrecovered Read Error: контроллер не записал или не смог восстановить данные — серьёзный сигнал, требующий бэкапа и подготовки к замене накопителя.
Media Error / ECC Failed: проблема на уровне NAND или контроллера флеш-адаптации — высокий приоритет диагностики и бэкапа.
Admin command failed / Invalid Field / Unsupported Field: чаще признак неправильной или экспериментальной команды со стороны ОС/драйвера — возможно ложная тревога.
Timeouts / Controller Reset / Asynchronous Event: могут указывать на проблемы питания, перегрев или программные сбои — стоит сопоставить с журналом событий ОС и температурой диска.

Важно: одноразовая запись с опасным статусом ещё не фатальна, если это не повторяется и не сопровождается ростом ошибок в счётчиках.

Когда паниковать: паттерны и признаки реальной проблемы

Ищите не отдельную запись, а паттерн:

Повторяющиеся одинаковые ErrCount-последовательности с теми же Status и LBA;
Сопровождение записей увеличением счётчиков Media Errors, Data Integrity Errors в полном выводе smartctl;
Сообщения ОС о потерях данных, сбоях файловой системы, частых ресетах контроллера;
Проблемы появляются при одинаковых действиях (определённая нагрузка, копирование, длительная запись).

Если паттерн есть — немедленно сделайте резервную копию и планируйте замену диска.

Алгоритм действий при обнаружении ошибок (короткий SOP)

Считать журнал ошибок и общий вывод: smartctl -l error и smartctl -a.
Сопоставить записи с логами ОС (Event Viewer/ journalctl) по времени.
Посмотреть selftest (smartctl -l selftest) и health counters.
Если статус указывает на Media/Data Integrity, сделать полный резерв и подготовить замену.
Если запись кажется «гостевой» (admin/unsupported), обновить драйверы/контроллер и мониторить.
При сомнениях — поставить диск в другой слот или напрямую подключить к плате для исключения USB/RAID-слоя.

Примеры команд и типичный вывод (практические сниппеты)

Пример чтения журнала ошибок на Linux для /dev/nvme0n1:

sudo smartctl -l error /dev/nvme0n1

# вывод покажет записи с полями ErrCount, SQId, CmdId, Status, PELoc, LBA, NSID

Полный вывод здоровья:

sudo smartctl -a /dev/nvme0n1

Self-test log:

sudo smartctl -l selftest /dev/nvme0n1

Если вы видите «Command not supported» при попытке прочитать журнал — проверьте подключение диска (USB-RAID может блокировать админ-команды).

Альтернативные подходы и инструменты

Вендорские утилиты (Samsung Magician, Crucial Storage Executive) иногда показывают дополнительные журналы и настройки: полезно, но не универсально.
Контроллерные диагностические утилиты и хендлеры в составе серверных плат — для корпоративных SSD.
Мониторинг в реальном времени (скрипты на базе smartctl + cron/системные таймеры) — чтобы собирать журнал и оповещать о росте ошибок.

Контрольные чек-листы по ролям

Домашний пользователь:
- Считать smartctl -a и -l error один раз при подозрении на проблему.
- Сделать резервную копию, если видны Media/Data Integrity ошибки.
- Обновить драйверы и прошивку диска при подтверждении, что ошибка не аппаратная.
Системный администратор:
- Автоматизировать сбор smartctl-вывода и сравнение ErrCount.
- Коррелировать с журналами ОС и блок-схемами питания/охлаждения.
- При частых неполадках: план замены и SLA-уведомления.
Техник/сервисный инженер:
- Проверить физическое подключение, термальный режим и питание.
- Провести тесты в другом слоте/на другой плате.
- При подтверждении — заменить носитель и сохранить журнал ошибок для отчёта.

Что инструменты мониторинга часто пропускают

Ложная тревога от экспериментальных/неподдерживаемых команд со стороны ПО;
Ошибки на уровне контроллера, которые временно устраняются ресетом, но повторяются позже;
Сбои, вызванные плохим питанием или термальным дросселем, маскирующиеся под «медиа-ошибки».

Краткое руководство по проверке перед заменой диска

Считать журнал ошибок и selftest.
Сравнить ErrCount с предыдущим снимком (есть ли рост).
Посмотреть health counters (Media, Data Integrity, Reallocated Sectors эквивалент).
Протестировать диск в другом слоте/эталонной системе.
Если ошибки повторяются и касаются чтения/записи NAND — заменить.

Правило принятия решения

Один эпизод Unrecovered Read Error с нулевым ростом других счётчиков — мониторить.
Повторяющиеся Unrecovered Read / Write Fault / Media Error или рост счётчиков — сделать бэкап и заменить диск.

Дополнительные ресурсы и методы диагностики

Журналы ОС: Windows Event Viewer, Linux journalctl/syslog — сопоставляйте по времени событий.
Производительские журналы и утилиты — могут дать расшифровку кодов Status.
Тесты целостности файловой системы (chkdsk, fsck) — если ОС сообщает о повреждениях.

FAQ

Что делать, если smartctl не видит NVMe-устройство?

Проверьте, не используется ли USB-корпус или слой RAID. Подключите диск напрямую в M.2 слот или используйте мост с NVMe passthrough.

Можно ли доверять SMART вместо журнала NVMe?

SMART даёт общую картину (износ, счётчики), но журнал NVMe регистрирует конкретные события и даёт контекст ошибок. И то, и другое нужно использовать вместе.

Практическое дерево решений

flowchart TD
  A[Нашли запись в журнале NVMe] --> B{ Статус ошибки }
  B -->|Media / Data Integrity| C[Немедленный бэкап и план замены]
  B -->|Timeout / Reset| D[Проверить питание и температуру]
  B -->|Unsupported / Admin error| E[Обновить драйверы/прошивку и мониторить]
  D --> F{Повторяется?}
  F -->|Да| C
  F -->|Нет| G[Мониторить]
  E --> H{После обновления повторяется?}
  H -->|Да| C
  H -->|Нет| G

Краткое резюме

Журнал ошибок NVMe — независимый и информативный источник событий контроллера.
smartctl из Smartmontools — основной инструмент для извлечения этого журнала.
Анализируйте Status, LBA, SQId/CmdId и счётчики целостности; ищите паттерны, а не единичные записи.
При подтверждённых media/data integrity ошибках — делайте резерв и готовьтесь заменить диск.

Важно: не паникуйте из-за одной записи, но и не игнорируйте повторяющиеся ошибки.

Критерии приёмки

Журнал ошибок успешно считан и сохранён в лог-файле.
Для каждой серьёзной записи (Media/Data Integrity) выполнено резервное копирование.
Повторяющиеся ошибки подтверждены на другом слоте/плате перед заменой оборудования.