Зомби‑процессы в Linux: поиск, диагностика и исправление

TL;DR: Зомби — это завершившиеся процессы, у которых осталась запись в таблице процессов, потому что родитель не вызвал wait()/waitpid(). Они занимают мало памяти, но блокируют PID. Нельзя «убить» сам зомби — нужно либо заставить родителя собрать статус дочернего процесса, либо перезапустить/убить родителя, чтобы init (или systemd PID 1) унаследовал и убрал зомби. В статье подробно: как возникают зомби, как их находить, кодовые приёмы для избежания, SOP для администратора и чек‑листы для разработчика и оператора.

Изображение Linux рабочего стола с процессами

Быстрые ссылки

Как работают состояния процессов в Linux
Что вызывает появление зомби в Linux
Как удалить зомби‑процессы
Зомби не так страшны

Как работают состояния процессов в Linux

Ядро Linux отслеживает запущенные приложения и демоны в таблице процессов. Каждая запись в ней — это небольшая структура с PID, несколькими метаданными и указателем на блок управления процессом (PCB), который в ядре представлен структурой task_struct.

Подробно: PCB task_struct содержит десятки полей — информацию о состоянии процесса, его PID, указатель на следующий инструкционный адрес (program counter), список регистров, открытых файлов, параметры планировщика (приоритеты, очереди), данные по управлению памятью и статус ввода/вывода.

Ключевой для нас элемент — поле «состояние процесса». Набор популярных состояний:

R: выполняющийся или готовый к выполнению процесс. Получает CPU или ожидает слота CPU.
S: спящий процесс, ожидающий события (например, завершения ввода/вывода) или ресурса.
D: не прерываемое ожидание — процесс находится в блокирующем системном вызове и не отвечает на сигналы до завершения вызова.
T: остановленый процесс (получил сигнал SIGSTOP) — может возобновиться через SIGCONT или быть убит SIGKILL.
Z: зомби. Процесс завершил выполнение, освободил память и ресурсы, но запись в таблице процессов и PCB остаются до тех пор, пока родитель не прочитает код выхода (через wait()/waitpid()). В этом состоянии в ядре метка EXIT_ZOMBIE, и родитель уведомляется сигналом SIGCHLD.

Когда родитель вызывает одну из функций семейства wait(), ядро даёт возможность прочитать код возврата дочернего процесса. После этого PCB уничтожается и запись удаляется из таблицы процессов. В корректных приложениях эта последовательность выполняется мгновенно, и зомби не успевают накапливаться.

Краткое определение: зомби — это завершившийся процесс, у которого осталась запись в таблице процессов, потому что его статус ещё не был собран родителем.

Что вызывает появление зомби в Linux

Главная причина — родитель не вызывает wait()/waitpid() и не обрабатывает SIGCHLD. Возможные сценарии:

Ошибка в коде родителя: забыли вызвать wait() либо неправильно реализовали обработчик сигналов.
Родитель занят длительной операцией, блокируется, и пропускает SIGCHLD (например, блокирующий ввод/вывод без перекрытия сигналов).
Родитель намеренно игнорирует SIGCHLD (плохо спроектированное приложение) или ставит игнорирование сигналов в неправильном месте.
Вмешательство сторонних программ или библиотек, которые меняют поведение сигналов.
Редкий баг ядра или системной библиотеки.

Последствия:

Каждый зомби удерживает запись в таблице процессов и PID до тех пор, пока запись не удалена. Это мало влияет на память, но на системах с ограничениями на количество PID или в экстремальных ситуациях большое количество зомби может переполнить таблицу процессов.
Если конкретный сервис постоянно порождает зомби, это признак утечки управления дочерними процессами и требует исправления кода или обновления пакета.

Как находить зомби на системе

Практические команды и примеры.

Использование top

Запустите:

top

В top процессы со статусом Z — зомби. В современном top вы увидите поле STAT со значением Z и часто текст defunct в колонке COMMAND.

top в терминале с отображением зомби

Использование ps + egrep

Быстрый способ найти PID зомби:

ps aux | egrep "Z|defunct"

Вы увидите список процессов со статусом Z и командой, обычно с меткой defunct.

Вывод ps aux | egrep

Найти родителя (PPID) у зомби

Если PID зомби — 7641, получить PPID можно так:

ps -o ppid= -p 7641

Команда выведет числовой PPID, например 7636. Далее можно посмотреть, что за процесс имеет PID 7636:

ps -p 7636 -o pid,ppid,cmd,stat

Использование pstree

Древовидный вывод удобно показывает иерархию процессов и помогает увидеть, какие дочерние процессы оставлены зомби:

pstree -p | less

Как удалить зомби‑процессы

Ключевая мысль: зомби уже завершился, поэтому его нельзя убить напрямую. Любые сигналы, отправленные зомби, не достигнут процесса, потому что процесса в памяти нет — осталась только запись в таблице процессов.

Доступные варианты:

Попросить родителя забрать статус дочернего процесса

Если родитель корректно обрабатывает SIGCHLD или периодически вызывает wait()/waitpid(), зомби будет собран. Можно попробовать отправить SIGCHLD родителю:

kill -SIGCHLD

Но если родитель в момент завершения дочернего процесса не обработал сигнал и это не помогло, повторная отправка SIGCHLD может быть бесполезна.

Перезапустить или убить родителя

Надёжный способ — завершить родительский процесс. После смерти родителя дочерние процессы переходят к init (или systemd, PID 1), который автоматически собирает зомби.

Чтобы убить родителя силой:

sudo kill -SIGKILL

Или аккуратно перезапустить сервис (предпочтительно для production). Например, если родитель — systemd‑сервис:

sudo systemctl restart имя_сервиса

Перезапуск системы

Рестарт полностью очищает таблицу процессов и удалит все зомби. Это грубое, но эффективное средство.

Когда не стоит убивать родителя:

Если это критичный процесс с активными подключениями или транзакциями, немедленное SIGKILL может привести к потере данных. В таких случаях сначала попытайтесь корректно перезапустить сервис.

Лучшие практики в коде чтобы избежать зомби

Если вы — разработчик демонов или программ, которые порождают дочерние процессы, используйте один из стандартных подходов.

Вызывать waitpid в обработчике SIGCHLD

Простой шаблон на C (сокращённый):

void sigchld_handler(int signo) {
    int status;
    while (waitpid(-1, &status, WNOHANG) > 0) {
        // дочерний собран
    }
}

// установка обработчика
struct sigaction sa;
sa.sa_handler = sigchld_handler;
sigemptyset(&sa.sa_mask);
sa.sa_flags = SA_RESTART | SA_NOCLDSTOP;
sigaction(SIGCHLD, &sa, NULL);

Пояснение: WNOHANG позволяет не блокировать родителя; цикл позволяет собрать сразу несколько дочерних процессов.

Игнорировать SIGCHLD (с осторожностью)

Некоторые программы ставят SIGCHLD в SIG_IGN. По POSIX это может привести к автоматическому очищению дочерних процессов, но поведение платоформенно‑зависимое — не всегда безопасно. Рекомендуется явный обработчик.

Использовать двойную форку (double‑fork) для демонизации короткоживущих дочерних процессов

Смысл: родитель форкает дочерний процесс, который затем форкает внука и завершает себя; родитель собирает первого дочернего, а внук становится дочерью init/systemd и не остаётся зомби у исходного процесса.

Примерная последовательность:

if (fork() == 0) {
    if (fork() == 0) {
        // внук — выполняет работу
        _exit(0);
    }
    _exit(0); // первый дочерний завершается сразу
}
wait(NULL); // родитель собирает первого дочернего

В языках высокого уровня — всегда вызывать wait/communicate

В Python: используйте subprocess.run или Popen.communicate() и явно дождитесь процесса.
В Java: вызовите Process.waitFor().

Диагностика при постоянном появлении зомби

Если одна и та же программа регулярно оставляет зомби, выполните следующие шаги:

Соберите контекст: логи приложения, системные логи (journalctl), время возникновения зомби.
Определите PID родителя и команду, посмотрите, кто его владеет и когда последний раз обновлялся пакет.
Попробуйте перезапустить сервис и следить, исчезнут ли зомби; если да — временное решение.
Изучите исходники или багтрекер приложения: возможно, есть обновление с исправлением handling SIGCHLD.
Для временного обхода — обернуть проблемную программу скриптом‑оберткой, который корректно собирает дочерние процессы (только как временная мера).

Роль‑ориентированные чек‑листы

Чек‑лист для администратора/оператора:

Найти зомби: ps aux | egrep "Z|defunct" или top.
Определить PPID: ps -o ppid= -p .
Проверить права и владельца процесса.
Оценить критичность родительского процесса и влияние перезапуска.
Попробовать kill -SIGCHLD .
Безопасно перезапустить сервис через systemd или менеджер процессов.
Если нельзя перезапустить — запланировать быстрый рестарт системы в окне обслуживания.
Сообщить разработчикам/владельцам сервиса и добавить в багтрекер.

Чек‑лист для разработчика:

Всегда обрабатывайте SIGCHLD и вызывайте waitpid в цикле с WNOHANG.
Используйте double‑fork для демонов, которые не должны оставаться дочерьми.
Проводите интеграционные тесты с массовым порождением дочерних процессов.
Добавьте метрики количества зомби и мониторьте их (alert при > N).

SOP: Быстрая процедура для производства

Оповестить команду об обнаружении зомби и возможном влиянии.
Собрать журналы и список процессов (ps, top, pstree) и сохранить дампы.
Проверить наличие известных апдейтов или баг‑репортов для приложения.
Если родитель — systemd‑сервис, выполнить systemctl restart сервиса; проверить исчезли ли зомби.
Если сервис критичен и перезапуск нежелателен — подготовить план отката и назначить окно обслуживания.
Если перезапуск безопасен — выполнить systemctl restart или kill -SIGKILL .
После действий проверить ps aux | egrep "Z|defunct" и убедиться в отсутствии зомби.
Закрыть инцидент с рекомендацией разработчикам.

Критерии приёмки

Количество зомби уменьшилось до 0 после корректного перезапуска сервиса или устранения ошибки.
Нет повторяющихся зомби через установленный промежуток наблюдения (например, 1 час для высоконагруженных сервисов).
Изменения задокументированы, баг зарегистрирован для исправления в коде.

Когда зомби представляют угрозу и когда нет

Одиночные зомби обычно не опасны и исчезают после перезагрузки или корректного поведения родителя.
Небольшое количество зомби не влияет на производительность заметно.
Массовый рост зомби указывает на серьёзную проблему в приложении и может привести к исчерпанию PID или замедлению системы из‑за перегрузки таблицы процессов.

Контрпример: системный демпфер, который по дизайну не должен порождать дочерние процессы, но из‑за сторонней библиотеки начинает их порождать — даже несколько зомби укажут на проблему.

Примеры исправлений в реальных языках

Python (правильная обработка дочерних процессов при использовании subprocess):

import subprocess
proc = subprocess.Popen(["/usr/bin/somecmd"])
retcode = proc.wait()

Если процессы порождаются асинхронно, используйте пул или очередь работ и собирайте завершения регулярно.

C: шаблон обработчика SIGCHLD показан выше. Всегда используйте SA_NOCLDSTOP, чтобы не получать оповещения о остановке дочерних (если это не требуется).

Инструменты мониторинга и авто‑реакции

Настройте метрики (Prometheus/Grafana): собирайте число процессов со статусом Z или число дефунктов на узле. Сигнализируйте при превышении порога.
Используйте systemd сервисы с Restart=on-failure и правильной конфигурацией KillMode, чтобы обеспечить корректное управление дочерними процессами при перезапуске.

Мини‑методология отладки

Воспроизведите: постарайтесь локально запустить тот же сценарий, чтобы наблюдать утечку зомби.
Инструментируйте: добавьте логирование fork/exec/exit точек в приложении.
Ищите паттерны: какие входные данные или нагрузка порождают зомби.
Исправляйте: добавьте обработчик SIGCHLD или измените логику запуска дочерних процессов.
Тестируйте: нагрузочные тесты, длительные прогонки, CI‑тесты для предотвращения регрессий.

Дополнительные соображения для современных систем init

В современных дистрибутивах PID 1 обычно — systemd, а не классический init. Systemd также занимается сбором зомби.
Если родитель — systemd‑unit, перезапуск unit через systemctl предпочтительнее прямого kill -9.
Сервисы, управляющие пулом процессов (например, контейнерные оркестраторы), могут иметь собственные правила по обработке детей; изучите документацию.

Полезные команды‑справочники (cheat sheet)

Показать зомби:

ps aux | egrep "Z|defunct"

Показать PPID для PID:

ps -o ppid= -p

Посмотреть дерево процессов:

pstree -p

Отправить SIGCHLD родителю:

kill -SIGCHLD

Убить родителя принудительно (опасно):

sudo kill -SIGKILL

Перезапустить systemd‑сервис безопасно:

sudo systemctl restart имя_сервиса

Краткое резюме

Зомби — результат того, что родитель не собрал статус дочернего процесса. Их нельзя убить напрямую. Решение: заставить родителя собрать статус или перезапустить/убить родителя, чтобы PID 1 сделал очистку. Для разработчиков: обрабатывайте SIGCHLD и используйте waitpid в цикле; для администраторов: следуйте SOP, мониторьте и вовремя перезапускайте проблемные сервисы.

Важно: одиночные зомби обычно безвредны, но повторяющиеся случаи — индикатор дефекта в коде или дизайне сервиса.

Important: Если у вас в продакшне появляются массовые зомби — создайте тикет разработчикам и включите алерт на метрики дефунктов, чтобы предотвратить накопление.