Lastüberwachung mit atop unter Linux

atop ist ein leistungsfähiges Terminal-Tool für die Lastüberwachung unter Linux. Es zeigt System- und Prozesskennzahlen (CPU, Arbeitsspeicher, Festplatte, Netzwerk) und hilft, welche Prozesse Ressourcen verbrauchen. In dieser Anleitung erkläre ich Installation, die wichtigsten Anzeigen, interaktive Befehle, typische Einsatzszenarien, Troubleshooting-Schritte und alternative Tools.

Warum Lastüberwachung wichtig ist

Lastüberwachung ist zentral für Betrieb, Fehlersuche und Kapazitätsplanung von Servern. Sie beantwortet Fragen wie: Welche Ressourcen sind ausgelastet? Welcher Prozess verursacht Spitzen? Wann ist Paging oder I/O der Engpass? Die Antworten ermöglichen gezielte Maßnahmen (z. B. Prozessoptimierung, Skalierung oder Storage-Tuning).

Wichtiger Begriff: Lastüberwachung — kontinuierliche Erfassung und Auswertung der Ressourcennutzung zur Früherkennung und Diagnose von Leistungsproblemen.

Voraussetzungen und getestete Umgebung

Alle Beispiele in diesem Artikel wurden auf einer Ubuntu-14.04-ähnlichen Umgebung geprüft. atop funktioniert auf den meisten Linux-Distributionen, kann aber bei sehr alten oder stark angepassten Kernel-Builds eingeschränkte Informationen liefern.

Wichtig

Für prozessgenaue Festplatten- oder Netzwerkzuordnungen sind kernelseitige Accounting-Funktionen notwendig (siehe Hinweise weiter unten).

Installation

Debian-basierte Systeme (z. B. Ubuntu, Mint):

sudo apt-get install atop

Auf anderen Distributionen verwenden Sie das jeweilige Paketmanagement (z. B. yum, dnf, zypper) oder laden das Paket von der offiziellen Projektseite.

Hinweis: Auf produktiven Systemen empfehlen sich Paketquellen der Distribution oder signierte Releases des Projekts.

Erststart und Grundbedienung

Starten Sie atop mit Root-Rechten, um vollständige Metriken zu sehen:

sudo atop

Die Ausgabe ist in zwei Bereiche gegliedert: Systemebene (Übersicht) und Prozessebene (Detailliste der ressourcenverwendenden Prozesse). Standardintervall ist zehn Sekunden; atop aktualisiert die Anzeige automatisch.

atop generic output screen.

Alt-Text: Grafische atop-Übersicht mit System- und Prozesszeilen, Anzeige von CPU, Speicher, Disk und Netzwerk

Systemebene: Zeilen und Bedeutung

Die obere Hälfte der Ausgabe listet globale Metriken. Die wichtigsten Zeilen und eine knappe Erklärung:

PRC: Gesamt-CPU-Zeit in System- und User-Mode, Anzahl Prozesse, Threads, Zombies und beendete Prozesse.
CPU: Prozentuale Zeitanteile (sys, user, irq, idle, wait). Bei Multi-CPU-Systemen gibt es zusätzliche Zeilen je CPU.
CPL: Informationen zur Load- bzw. Runqueue-Länge, Context-Switches und Interrupts.
MEM: Gesamtspeicher, freier Speicher, Seite-Cache, dirty-Bytes, Buffers und Slab-Nutzung.
SWP: Swap-Gesamt, freier Swap, committed virtual memory (vmcom) und Limit (vmlim).
DSK: Festplattenauslastung (busy), Anzahl Lese-/Schreibanfragen, Durchsatz (KiB/MB), Warteschlangentiefe und durchschnittliche Latenz.
NET: Netzwerkstatistiken auf Transport-, IP- und Interface-Ebene.

Kurzdefinition: busy — Anteil der Zeit, in der ein Device aktiv Anfragen bearbeitet.

Wichtig

Wenn eine Systemzeile rot eingefärbt ist, hat atop eine kritische Schwelle überschritten. Farbregeln helfen, Engpässe schnell zu erkennen.

Prozessebene: Herkunft der Last verstehen

Die untere Hälfte zeigt Prozesse, deren Ressourcennutzung sich im letzten Intervall verändert hat. Für jeden Prozess sehen Sie CPU-, Speicher-, I/O- und Netzwerkverbrauch. Das ermöglicht, unmittelbar den Verursacher einer Lastspitze zu identifizieren.

Beispielhafte Felder: PID, UID, Laufzeit, CPU%, Speicher%, Festplatten-I/O, Netzwerkbytes und die aufgezeichnete Kommandozeile.

Process level information.

Alt-Text: Detaillierte atop-Prozessliste mit CPU-, Speicher- und I/O-Spalten sowie Kommandozeilen

Interaktive Tastenbefehle

atop bietet mehrere Einzeltasten zur Anzeige-Steuerung. Die wichtigsten:

m — nur speicherbezogene Spalten anzeigen
d — nur Festplatten-/I/O-Spalten
n — nur Netzwerkspalten
v — zusätzliche Prozesseigenschaften
c — Kommandozeile des Prozesses anzeigen
t — Sortierung nach Zeit oder anderen Kriterien
q — Programm beenden

Tastenkombinationen sind context-sensitiv; probieren Sie verschiedene Ansichten, um schnell die relevante Perspektive zu finden.

Intervall und Batch-Modus

atop kann auch im nicht-interaktiven Modus Daten in Dateien schreiben, die später analysiert werden. Beispiel zum Schreiben in 10-Sekunden-Intervallen für 24 Stunden:

atop -w /var/log/atop.log 10 8640

Später lesen Sie die Datei mit:

atop -r /var/log/atop.log

Dieser Modus ist nützlich für forensische Analysen und historische Trending-Analysen.

Wann zeigt atop keine detaillierten I/O- oder Netzwerkdaten an

Festplatten pro Prozess werden nur angezeigt, wenn das Kernel-Storage-Accounting aktiviert ist oder der Kernel-Patch “cnt” installiert wurde.
Netzwerk pro Prozess setzt ebenfalls Kernel-Unterstützung (Patch/Accounting) voraus.

Wenn diese Informationen fehlen, sehen Sie dennoch Gerätedurchsatz und globale Netzwerkstatistiken – nur die Zuordnung zu einzelnen Prozessen fehlt.

Typische Fehlerbilder und Troubleshooting

Hohe CPU-Last, aber kein einzelner Prozess dominiert

Möglich: viele Threads/kurze Tasks oder Kernel-Aktivität.
Handlung: CPL/PRC analysieren, dmesg auf Kernel-Fehler prüfen, irq/softirq untersuchen.

Hoher I/O-Wait (wait) und langsame Anwendungen

Ursache: Storage-Latenz oder Warteschlangen.
Handlung: DSK-Zeile prüfen, avio (mittlere Antwortzeit) beobachten, iostat oder blktrace ergänzend nutzen.

Plötzlicher Speicheranstieg und Swap

Ursache: Memory Leak oder unerwartete Anwendungslast.
Handlung: MEM-Zeile beobachten, Prozesse mit großem RSS identifizieren, bei Bedarf OOM-Logs prüfen.

Prozesse fehlen in der Liste

Ursache: Prozesse liefen nicht während des letzten Intervalls oder Accounting nicht aktiv.
Handlung: Intervall verkürzen oder atop im Batch-Modus laufen lassen.

Mini-Methodologie: Incident-Analyse mit atop (SOP)

Situation erfassen: stdout von atop zum Zeitpunkt der Störung aufzeichnen (atop -r oder Live).
Systemebene prüfen: CPU, MEM, DSK, NET-Farben und Werte (PRC, CPU, DSK, MEM) analysieren.
Prozessebene filtern: nach CPU- oder I/O-Spalten sortieren, betroffene PIDs notieren.
Zusätzliche Infos sammeln: dmesg, /var/log/syslog und iostat, vmstat ergänzen.
Maßnahmen ableiten: Prozess neu starten, Konfiguration anpassen, Storage verschieben oder skalieren.
Nachkontrolle: atop erneut prüfen, bis Metriken wieder stabil sind.

Kriterien für Abschluss: CPU- und I/O-Wait zurück auf Normalwerte, keine neuen Ressourcenspitzen, betroffene Dienste erreichbar.

Rolle-basierte Checkliste

Administrator

atop installieren und als Dienst/cron sichern
regelmäßige Logrotation für atop-Dateien einrichten
Alerts für persistente ROT-Färbung implementieren

DevOps / SRE

atop im Batch-Modus für Release-Phasen aktivieren
SLI/SLO-Abgleich: CPU-, Memory- und I/O-Quoten mit Alerts verknüpfen

Entwickler

bei Performance-Regressionen atop-Log zum Zeitpunkt der Regression beilegen
Ressourcenprofil für Anwendungskomponenten dokumentieren

Alternative Tools und Ergänzungen

top/htop — interaktive Prozessübersicht, geringere Detailtiefe als atop
sar (sysstat) — historische Systemmetriken
iostat — detaillierte Block-I/O-Statistiken
nmon — kombinierte Performance-Ansicht inkl. Planungstools
perf, bpftrace, eBPF-Tools — tiefergehende Kernel-/Stack-Analysen

Heuristik: Verwenden Sie atop für schnelle Diagnose und historische Attribution; nutzen Sie spezialtools (iostat, perf) für tiefergehende Messungen.

Kompatibilität und Migrationstipps

Kernel-Accounting: Prüfen Sie, ob Ihr Kernel Storage-Accounting oder ähnliche Patches unterstützt. Ohne Accounting fehlen prozessgenaue I/O- und Netzwerkzuordnungen.
Paketquellen: Nutzen Sie Distribution-Pakete für automatische Updates. Bei älteren Distributionen kann eine manuelle Kompilierung nötig sein.
Logging: Richten Sie Logrotation für Dateien an /var/log/ auf, damit Festplatten nicht durch atop-Logs volllaufen.

Datenschutz und Sicherheit

atop protokolliert Prozesse und Kommandozeilen. In Umgebungen mit sensiblen Daten sollten Logs nur für autorisierte Personen zugänglich sein und regelmäßige Löschfristen vorhanden sein.
Verwenden Sie Dateiberechtigungen und ggf. Verschlüsselung (Disk- oder Filesystem-Level), wenn atop-Logs sensible Informationen enthalten.

Glossar (1-Zeiler)

RSS — Resident Set Size, der tatsächlich im RAM gehaltene Anteil eines Prozesses.
I/O-Wait — Anteil der CPU-Zeit, in der Tasks auf Festplatten-/Netzwerk-I/O warten.
Slab — Kernel-Speicher für Verwaltungsstrukturen.

Faktbox: Wichtige Hinweise

atop unterscheidet zwischen globalen und prozessbezogenen Metriken.
Für prozessbezogene I/O/Netzwerk-Daten kann zusätzliche Kernel-Unterstützung nötig sein.
Batch-Modus ermöglicht historische Analysen.

Social Preview

OG Titel: Lastüberwachung mit atop unter Linux

OG Beschreibung: Schnelle Anleitung zu Installation, wichtigen Anzeigen, interaktiven Befehlen und Incident-Methodik mit atop.

Kurze Ankündigung (100–200 Wörter)

atop ist ein terminalbasiertes Monitoring-Tool für Linux, das sowohl System- als auch prozessbezogene Leistungsdaten erfasst. In dieser Anleitung zeige ich, wie Sie atop installieren, die wichtigsten System- und Prozesszeilen interpretieren und jederzeit mit interaktiven Tasten gezielt CPU-, Speicher-, I/O- oder Netzwerkansichten anzeigen. Zusätzlich finden Sie eine Mini-Methodologie für Incident-Analysen, Rolle-basierte Checklisten und Hinweise zur Kompatibilität und Sicherheit. Nutzen Sie atop im Live-Betrieb oder im Batch-Modus zur historischen Analyse und fügen Sie ergänzende Tools wie iostat oder perf hinzu, wenn tiefere Einblicke nötig sind.

Fazit

atop ist ein vielseitiges Werkzeug für Administratoren und SRE-Teams: Es kombiniert eine systemweite Perspektive mit prozessgenauen Details und unterstützt sowohl Live-Diagnose als auch historische Analysen. Für vollständige prozessbezogene I/O- oder Netzwerkdaten ist Kernel-Accounting empfehlenswert. Prüfen Sie regelmäßig Logs, schützen Sie sensible Informationen und ergänzen Sie atop bei Bedarf mit spezialisierten Tools.

Weiterführende Quelle: Lesen Sie die manpage von atop (man atop) für eine vollständige Referenz aller Felder und Optionen.

Lastüberwachung mit atop