Lastüberwachung mit atop

atop ist ein leistungsfähiges Terminal-Tool für die Lastüberwachung unter Linux. Es zeigt System- und Prozesskennzahlen (CPU, Arbeitsspeicher, Festplatte, Netzwerk) und hilft, welche Prozesse Ressourcen verbrauchen. In dieser Anleitung erkläre ich Installation, die wichtigsten Anzeigen, interaktive Befehle, typische Einsatzszenarien, Troubleshooting-Schritte und alternative Tools.
Warum Lastüberwachung wichtig ist
Lastüberwachung ist zentral für Betrieb, Fehlersuche und Kapazitätsplanung von Servern. Sie beantwortet Fragen wie: Welche Ressourcen sind ausgelastet? Welcher Prozess verursacht Spitzen? Wann ist Paging oder I/O der Engpass? Die Antworten ermöglichen gezielte Maßnahmen (z. B. Prozessoptimierung, Skalierung oder Storage-Tuning).
Wichtiger Begriff: Lastüberwachung — kontinuierliche Erfassung und Auswertung der Ressourcennutzung zur Früherkennung und Diagnose von Leistungsproblemen.
Voraussetzungen und getestete Umgebung
Alle Beispiele in diesem Artikel wurden auf einer Ubuntu-14.04-ähnlichen Umgebung geprüft. atop funktioniert auf den meisten Linux-Distributionen, kann aber bei sehr alten oder stark angepassten Kernel-Builds eingeschränkte Informationen liefern.
Wichtig
- Für prozessgenaue Festplatten- oder Netzwerkzuordnungen sind kernelseitige Accounting-Funktionen notwendig (siehe Hinweise weiter unten).
Installation
Debian-basierte Systeme (z. B. Ubuntu, Mint):
sudo apt-get install atop
Auf anderen Distributionen verwenden Sie das jeweilige Paketmanagement (z. B. yum, dnf, zypper) oder laden das Paket von der offiziellen Projektseite.
Hinweis: Auf produktiven Systemen empfehlen sich Paketquellen der Distribution oder signierte Releases des Projekts.
Erststart und Grundbedienung
Starten Sie atop mit Root-Rechten, um vollständige Metriken zu sehen:
sudo atop
Die Ausgabe ist in zwei Bereiche gegliedert: Systemebene (Übersicht) und Prozessebene (Detailliste der ressourcenverwendenden Prozesse). Standardintervall ist zehn Sekunden; atop aktualisiert die Anzeige automatisch.
Alt-Text: Grafische atop-Übersicht mit System- und Prozesszeilen, Anzeige von CPU, Speicher, Disk und Netzwerk
Systemebene: Zeilen und Bedeutung
Die obere Hälfte der Ausgabe listet globale Metriken. Die wichtigsten Zeilen und eine knappe Erklärung:
- PRC: Gesamt-CPU-Zeit in System- und User-Mode, Anzahl Prozesse, Threads, Zombies und beendete Prozesse.
- CPU: Prozentuale Zeitanteile (sys, user, irq, idle, wait). Bei Multi-CPU-Systemen gibt es zusätzliche Zeilen je CPU.
- CPL: Informationen zur Load- bzw. Runqueue-Länge, Context-Switches und Interrupts.
- MEM: Gesamtspeicher, freier Speicher, Seite-Cache, dirty-Bytes, Buffers und Slab-Nutzung.
- SWP: Swap-Gesamt, freier Swap, committed virtual memory (vmcom) und Limit (vmlim).
- DSK: Festplattenauslastung (busy), Anzahl Lese-/Schreibanfragen, Durchsatz (KiB/MB), Warteschlangentiefe und durchschnittliche Latenz.
- NET: Netzwerkstatistiken auf Transport-, IP- und Interface-Ebene.
Kurzdefinition: busy — Anteil der Zeit, in der ein Device aktiv Anfragen bearbeitet.
Wichtig
Wenn eine Systemzeile rot eingefärbt ist, hat atop eine kritische Schwelle überschritten. Farbregeln helfen, Engpässe schnell zu erkennen.
Prozessebene: Herkunft der Last verstehen
Die untere Hälfte zeigt Prozesse, deren Ressourcennutzung sich im letzten Intervall verändert hat. Für jeden Prozess sehen Sie CPU-, Speicher-, I/O- und Netzwerkverbrauch. Das ermöglicht, unmittelbar den Verursacher einer Lastspitze zu identifizieren.
Beispielhafte Felder: PID, UID, Laufzeit, CPU%, Speicher%, Festplatten-I/O, Netzwerkbytes und die aufgezeichnete Kommandozeile.
Alt-Text: Detaillierte atop-Prozessliste mit CPU-, Speicher- und I/O-Spalten sowie Kommandozeilen
Interaktive Tastenbefehle
atop bietet mehrere Einzeltasten zur Anzeige-Steuerung. Die wichtigsten:
- m — nur speicherbezogene Spalten anzeigen
- d — nur Festplatten-/I/O-Spalten
- n — nur Netzwerkspalten
- v — zusätzliche Prozesseigenschaften
- c — Kommandozeile des Prozesses anzeigen
- t — Sortierung nach Zeit oder anderen Kriterien
- q — Programm beenden
Tastenkombinationen sind context-sensitiv; probieren Sie verschiedene Ansichten, um schnell die relevante Perspektive zu finden.
Intervall und Batch-Modus
atop kann auch im nicht-interaktiven Modus Daten in Dateien schreiben, die später analysiert werden. Beispiel zum Schreiben in 10-Sekunden-Intervallen für 24 Stunden:
atop -w /var/log/atop.log 10 8640
Später lesen Sie die Datei mit:
atop -r /var/log/atop.log
Dieser Modus ist nützlich für forensische Analysen und historische Trending-Analysen.
Wann zeigt atop keine detaillierten I/O- oder Netzwerkdaten an
- Festplatten pro Prozess werden nur angezeigt, wenn das Kernel-Storage-Accounting aktiviert ist oder der Kernel-Patch “cnt” installiert wurde.
- Netzwerk pro Prozess setzt ebenfalls Kernel-Unterstützung (Patch/Accounting) voraus.
Wenn diese Informationen fehlen, sehen Sie dennoch Gerätedurchsatz und globale Netzwerkstatistiken – nur die Zuordnung zu einzelnen Prozessen fehlt.
Typische Fehlerbilder und Troubleshooting
- Hohe CPU-Last, aber kein einzelner Prozess dominiert
- Möglich: viele Threads/kurze Tasks oder Kernel-Aktivität.
- Handlung: CPL/PRC analysieren, dmesg auf Kernel-Fehler prüfen, irq/softirq untersuchen.
- Hoher I/O-Wait (wait) und langsame Anwendungen
- Ursache: Storage-Latenz oder Warteschlangen.
- Handlung: DSK-Zeile prüfen, avio (mittlere Antwortzeit) beobachten, iostat oder blktrace ergänzend nutzen.
- Plötzlicher Speicheranstieg und Swap
- Ursache: Memory Leak oder unerwartete Anwendungslast.
- Handlung: MEM-Zeile beobachten, Prozesse mit großem RSS identifizieren, bei Bedarf OOM-Logs prüfen.
- Prozesse fehlen in der Liste
- Ursache: Prozesse liefen nicht während des letzten Intervalls oder Accounting nicht aktiv.
- Handlung: Intervall verkürzen oder atop im Batch-Modus laufen lassen.
Mini-Methodologie: Incident-Analyse mit atop (SOP)
- Situation erfassen: stdout von atop zum Zeitpunkt der Störung aufzeichnen (atop -r oder Live).
- Systemebene prüfen: CPU, MEM, DSK, NET-Farben und Werte (PRC, CPU, DSK, MEM) analysieren.
- Prozessebene filtern: nach CPU- oder I/O-Spalten sortieren, betroffene PIDs notieren.
- Zusätzliche Infos sammeln: dmesg, /var/log/syslog und iostat, vmstat ergänzen.
- Maßnahmen ableiten: Prozess neu starten, Konfiguration anpassen, Storage verschieben oder skalieren.
- Nachkontrolle: atop erneut prüfen, bis Metriken wieder stabil sind.
Kriterien für Abschluss: CPU- und I/O-Wait zurück auf Normalwerte, keine neuen Ressourcenspitzen, betroffene Dienste erreichbar.
Rolle-basierte Checkliste
Administrator
- atop installieren und als Dienst/cron sichern
- regelmäßige Logrotation für atop-Dateien einrichten
- Alerts für persistente ROT-Färbung implementieren
DevOps / SRE
- atop im Batch-Modus für Release-Phasen aktivieren
- SLI/SLO-Abgleich: CPU-, Memory- und I/O-Quoten mit Alerts verknüpfen
Entwickler
- bei Performance-Regressionen atop-Log zum Zeitpunkt der Regression beilegen
- Ressourcenprofil für Anwendungskomponenten dokumentieren
Alternative Tools und Ergänzungen
- top/htop — interaktive Prozessübersicht, geringere Detailtiefe als atop
- sar (sysstat) — historische Systemmetriken
- iostat — detaillierte Block-I/O-Statistiken
- nmon — kombinierte Performance-Ansicht inkl. Planungstools
- perf, bpftrace, eBPF-Tools — tiefergehende Kernel-/Stack-Analysen
Heuristik: Verwenden Sie atop für schnelle Diagnose und historische Attribution; nutzen Sie spezialtools (iostat, perf) für tiefergehende Messungen.
Kompatibilität und Migrationstipps
- Kernel-Accounting: Prüfen Sie, ob Ihr Kernel Storage-Accounting oder ähnliche Patches unterstützt. Ohne Accounting fehlen prozessgenaue I/O- und Netzwerkzuordnungen.
- Paketquellen: Nutzen Sie Distribution-Pakete für automatische Updates. Bei älteren Distributionen kann eine manuelle Kompilierung nötig sein.
- Logging: Richten Sie Logrotation für Dateien an /var/log/ auf, damit Festplatten nicht durch atop-Logs volllaufen.
Datenschutz und Sicherheit
- atop protokolliert Prozesse und Kommandozeilen. In Umgebungen mit sensiblen Daten sollten Logs nur für autorisierte Personen zugänglich sein und regelmäßige Löschfristen vorhanden sein.
- Verwenden Sie Dateiberechtigungen und ggf. Verschlüsselung (Disk- oder Filesystem-Level), wenn atop-Logs sensible Informationen enthalten.
Glossar (1-Zeiler)
- RSS — Resident Set Size, der tatsächlich im RAM gehaltene Anteil eines Prozesses.
- I/O-Wait — Anteil der CPU-Zeit, in der Tasks auf Festplatten-/Netzwerk-I/O warten.
- Slab — Kernel-Speicher für Verwaltungsstrukturen.
Faktbox: Wichtige Hinweise
- atop unterscheidet zwischen globalen und prozessbezogenen Metriken.
- Für prozessbezogene I/O/Netzwerk-Daten kann zusätzliche Kernel-Unterstützung nötig sein.
- Batch-Modus ermöglicht historische Analysen.
Social Preview
OG Titel: Lastüberwachung mit atop unter Linux
OG Beschreibung: Schnelle Anleitung zu Installation, wichtigen Anzeigen, interaktiven Befehlen und Incident-Methodik mit atop.
Kurze Ankündigung (100–200 Wörter)
atop ist ein terminalbasiertes Monitoring-Tool für Linux, das sowohl System- als auch prozessbezogene Leistungsdaten erfasst. In dieser Anleitung zeige ich, wie Sie atop installieren, die wichtigsten System- und Prozesszeilen interpretieren und jederzeit mit interaktiven Tasten gezielt CPU-, Speicher-, I/O- oder Netzwerkansichten anzeigen. Zusätzlich finden Sie eine Mini-Methodologie für Incident-Analysen, Rolle-basierte Checklisten und Hinweise zur Kompatibilität und Sicherheit. Nutzen Sie atop im Live-Betrieb oder im Batch-Modus zur historischen Analyse und fügen Sie ergänzende Tools wie iostat oder perf hinzu, wenn tiefere Einblicke nötig sind.
Fazit
atop ist ein vielseitiges Werkzeug für Administratoren und SRE-Teams: Es kombiniert eine systemweite Perspektive mit prozessgenauen Details und unterstützt sowohl Live-Diagnose als auch historische Analysen. Für vollständige prozessbezogene I/O- oder Netzwerkdaten ist Kernel-Accounting empfehlenswert. Prüfen Sie regelmäßig Logs, schützen Sie sensible Informationen und ergänzen Sie atop bei Bedarf mit spezialisierten Tools.
Weiterführende Quelle: Lesen Sie die manpage von atop (man atop) für eine vollständige Referenz aller Felder und Optionen.
Ähnliche Materialien

Video_Dxgkrnl_Fatal_Error schnell beheben

Unturned Packetverlust: Ursachen & schnelle Lösungen

Gesunde Bildschirmzeit für Kinder

Problem mit drahtlosem Adapter beheben

Gelöschte SMS wiederherstellen – iPhone & Android
