Grafana Cloud: мониторинг Linux‑сервера

Логотип Grafana

Быстрые ссылки

Getting Started With Grafana Cloud
Adding Your Server as a Data Source
Installing Grafana Agent on Your Server
Using the Dashboards
Summary

Grafana — это платформа наблюдаемости с открытым исходным кодом для создания дашбордов и визуализации данных. Она удобна для мониторинга статистики сервера: загрузки CPU, сетевого трафика, использования дисков и доступности сервисов.

Grafana можно запустить самостоятельно (self‑hosted) или использовать как SaaS через Grafana Cloud. В этой инструкции вы научитесь настраивать Grafana Cloud и отображать базовые метрики с Linux‑сервера через официальный Grafana Agent.

Начало работы с Grafana Cloud

Зарегистрируйтесь в Grafana Cloud (есть бесплатный план). Бесплатный план позволяет подключать до 10 000 метрик, хранить до 50 ГБ логов и трассировок, при этом данные сохраняются в течение 14 дней. Эти лимиты указаны в интерфейсе при регистрации.

Следуйте процедуре регистрации до приветственного экрана. Если окажетесь в другом разделе, можно нажать на иконку Grafana в верхнем левом углу бокового меню, чтобы вернуться.

Добавление сервера как источника данных

На приветственном экране нажмите синюю кнопку “Connect data”, чтобы начать настройку. Вы попадёте на страницу Integrations and Connections — здесь есть преднастроенные интеграции и шаблоны дашбордов с официальными коннекторами. Это самый быстрый путь запустить Grafana.

В списке интеграций найдите “Linux Server” (можно прокрутить или использовать строку поиска). Откройте карточку интеграции — там есть описание и пошаговые инструкции.

В разделе “Choose your OS” укажите операционную систему и архитектуру целевой машины.

Прокрутите страницу вниз и нажмите “Install integration” — это добавит шаблоны дашбордов и создаст запись интеграции в вашей учётной записи.

Установка Grafana Agent на сервер

После установки интеграции страница обновится и покажет скрипт установки Grafana Agent. Скрипт скачивает подходящий бинарник Agent для выбранной платформы и автоматически настраивает аутентификацию через Grafana Cloud API key.

Откройте терминал на сервере и выполните отображённый скрипт (пример ниже сохранён из интерфейса и должен выполняться без изменений):

$ sudo ARCH=amd64 GCLOUD_STACK_ID="XXXXX" GCLOUD_API_KEY="XXXXXX" GCLOUD_API_URL="https://integrations-api-eu-west.grafana.net" /bin/sh -c "$(curl -fsSL https://raw.githubusercontent.com/grafana/agent/release/production/grafanacloud-install.sh)"

После выполнения вы увидите логи установки, похожие на фрагмент ниже:

...
Unpacking grafana-agent (0.25.1-1) over (0.25.1-1) ...

Setting up grafana-agent (0.25.1-1) ...

--- Retrieving config and placing in /etc/grafana-agent.yaml

integrations:

node_exporter:

enabled: true

relabel_configs:

- replacement: hostname

target_label: instance

prometheus_remote_write:

- basic_auth:

password: ...

username: ...

url: https://prometheus-prod-01-eu-west-0.grafana.net/api/prom/push

---

--- Enabling and starting grafana-agent.service

Created symlink /etc/systemd/system/multi-user.target.wants/grafana-agent.service → /usr/lib/systemd/system/grafana-agent.service.

Grafana Agent is now running! To check the status of your Agent, run:

sudo systemctl status grafana-agent.service

Grafana Agent is a minimal version of the Prometheus data collector. It runs as a service that periodically scrapes metrics and logs from your machine. Installation is successful if you see the

Grafana Agent is now running


message at the end of the script's output.

Важно: сам скрипт и вывод могут отличаться по версии. Всегда проверяйте URL и параметры перед запуском.

Вернитесь в веб‑интерфейс Grafana Cloud и нажмите “Test integration” — это проверит подключение. Если тест успешен, появится кнопка “View dashboards”; нажмите её, чтобы открыть преднастроенные панели.

Использование дашбордов

Интеграция “Linux Server” базируется на Node Exporter — это Prometheus‑экспортер метрик от узла. Дашборды по умолчанию группируются в папку Integration - Linux Node. Имя папки можно изменить в её настройках.

В интеграцию включены два основных дашборда:

Node Exporter / Nodes — обзор использования ресурсов: CPU, load average, память, диски, сетевой трафик и системные логи.
USE Method — альтернативный вид, ориентированный на стратегию USE: Utilization, Saturation, Errors.

USE расшифровывается так:

Utilization — процент времени, когда ресурс используется (например, текущая загрузка CPU).
Saturation — степень загруженности/ожидания ресурса (например, load average или очередь ввода‑вывода).
Errors — количество ошибок за период.

USE‑дашборд показывает соседние графики для каждой метрики: использование и насыщенность, а ниже панели с логами для обнаружения ошибок.

Дашборды автоматически обновляются при просмотре. Интервал обновления по умолчанию — 30 секунд; его можно изменить через выпадающее меню в правом верхнем углу. Там же находятся элементы управления временным диапазоном и режимом отображения. Иконка экрана включает режим киоска для больших мониторов.

Настройка и модификация дашбордов

Чтобы внести правки, откройте дашборд и нажмите значок шестерёнки в правом верхнем углу, затем кнопку “Make editable”. После этого станут доступны добавление панелей, изменение переменных и опций визуализации.

Советы при настройке:

Сохраняйте версии дашбордов или экспортируйте JSON перед масштабными изменениями.
Работайте с шаблонными переменными (template variables) для переключения хостов/псевдонимов.
Компонуйте панели по цели: оповещения, расследование инцидентов, обзор SLA.

Критерии приёмки

Grafana Agent запущен и systemd‑юнит активен: команда sudo systemctl status grafana-agent.service показывает статус active (running).
В Grafana Cloud успешный результат теста интеграции (Test integration).
Видны метрики node_exporter в разделе Explore или на дашбордах (CPU, memory, disk, network).
Обновление данных происходит с ожидаемой частотой (интервал скрейпа, default 30s).
Настроенные панели корректно отображают временные метрики за последние 15–60 минут.

Роли и чек‑листы

Системный администратор:

Проверил доступ по SSH к серверу.
Верифицировал архитектуру и ОС перед запуском скрипта.
Запустил установочный скрипт и проверил systemd.
Обеспечил сетевой доступ к URL Grafana Cloud.

DevOps/Инженер мониторинга:

Подключил интеграцию в Grafana Cloud.
Проверил наличие метрик в Explore и на дашбордах.
Настроил базовые алерты на CPU и диск.

Менеджер/Владелец сервиса:

Подтвердил покрытие ключевых метрик SLA.
Утвердил интервал хранения логов и метрик.

Мини‑методология для внедрения мониторинга (быстрый план)

Определить критичные серверы и метрики (CPU, RAM, диск, сеть, ошибки приложений).
Подготовить доступ и ключи Grafana Cloud.
Установить Agent на тестовый сервер и проверить поток данных.
Развернуть Agent на остальных серверах по шаблону.
Настроить дашборды, алерты и процедуру эскалации.
Периодически ревью: корректность метрик, шум алертов и пороги.

Когда этот подход не подходит

Если у вас жёсткие требования к хранению данных более 14 дней на бесплатном плане — бесплатный тариф Grafana Cloud ограничен. Для долгосрочного хранения потребуется платный план или self‑hosted Prometheus/Thanos.
Если у вас изолированная сеть без выхода в интернет (air‑gapped), SaaS решение неприменимо; нужно разворачивать self‑hosted Grafana и локальный Prometheus.
Если необходима очень высокая частота скрейпа (меньше 1s) или миллисекундная точность — Agent/Prometheus модель может потребовать доработок.

Альтернативы

Self‑hosted Grafana + Prometheus: полный контроль, гибкость, но больше операционной работы.
Cloud‑only решения других провайдеров (Datadog, New Relic): сильная APM интеграция, но стоимость и lock‑in выше.
Managed Prometheus (например Cortex/Thanos как сервис): для долгосрочного хранения и масштабирования метрик.

Ментальные модели и эвристики

“USE”: проверяйте Utilization, Saturation и Errors для каждого ресурса.
“Золотое правило 3 уровней”: обзор → расследование → исправление. Дашборд — обзор; Explore/Logs — расследование; автоскейлинг/обновления — исправление.
“Не доверяй одному индикатору”: всегда сопоставляйте количество ошибок с нагрузкой и логами.

Безопасность и конфиденциальность

API‑ключ Grafana Cloud храните как секрет (например в Vault или в systemd‑секрете); не выкладывайте ключи в репозитории.
Ограничьте доступ к дашбордам по ролям через Grafana RBAC.
Рассмотрите шифрование в передаче (HTTPS) — Grafana Cloud использует TLS для remote_write.
Для логов и трассировок с персональными данными оцените требования GDPR и применяйте маскирование/анонимизацию.

Важно: не отправляйте в облако чувствительные данные без согласования с политикой конфиденциальности вашей организации.

Проверки и тесты (Test cases / Acceptance criteria)

Тест 1: После установки Agent, в Grafana Cloud должна появиться метрика node_cpu_seconds_total за 2 минуты.
Тест 2: При искусственной нагрузке CPU (stress) график CPU utilization должен отобразить всплеск в реальном времени.
Тест 3: При заполнении диска на 90% дашборд disk usage отражает значение и срабатывает алерт (если настроен).

Шаблоны команд и сниппеты

Проверка статуса агента:

sudo systemctl status grafana-agent.service

Просмотр логов агента:

sudo journalctl -u grafana-agent -f

Временное тестирование метрик (на сервере):

# установить пакеты node_exporter в тестовой среде или использовать curl к /metrics
curl http://localhost:9100/metrics | head

Миграция и совместимость

Если вы уже используете Prometheus, Grafana Agent может быть настроен для remote_write в Grafana Cloud, при этом можно направлять метрики из существующих scrape_configs.
Следите за версиями Agent и node_exporter: несовместимость конфигураций возможна при значительных версиях различий.

Примеры ролей при инциденте

Первый отклик: инженер на дежурстве проверяет графики и логи.
Эскалация: если проблема выходит за пределы команды, уведомляются владельцы сервисов и SRE.
Восстановление: откат конфигурации/версия приложения или масштабирование ресурсов.

Фактбокс

Бесплатный план: до 10 000 метрик, до 50 ГБ логов/трейсов, хранение 14 дней.
Agent: лёгкий сборщик на основе Prometheus, запускается как systemd‑сервис.

Decision flowchart

flowchart TD
  A[Нужен мониторинг сервера?] --> B{Сеть с доступом в интернет?}
  B -- Да --> C[Использовать Grafana Cloud + Agent]
  B -- Нет --> D[Self‑hosted Grafana + Prometheus]
  C --> E{Требуется долгосрочное хранение >14 дней?}
  E -- Да --> F[Рассмотреть платный план или Thanos/Cortex]
  E -- Нет --> G[Оставить бесплатный план]

Краткое резюме

Grafana Cloud с интеграцией “Linux Server” и Grafana Agent — быстрый и удобный способ получить готовые дашборды и начать мониторинг Linux‑серверов. Интеграция покрывает базовые метрики и предоставляет шаблоны, которые можно редактировать. Для производственных систем оцените требования по хранению данных, безопасности и доступности, а также настройте алерты и процедуру реагирования.

Важно: интеграция — это стартовая точка; её следует настраивать и поддерживать в соответствии с SLA и внутренними правилами безопасности вашей организации.