Обзор AWS CloudWatch: мониторинг, дашборды и алерты

Быстрые ссылки
Является ли CloudWatch бесплатным?
Как начать
Арифметика метрик
Сборка дашборда
Настройка алертов
CloudWatch — это инструмент мониторинга AWS. Он собирает данные о состоянии и использовании сервисов AWS, отображает их на графиках и в кастомных дашбордах, а также позволяет задать алерты при неожиданных всплесках или отклонениях.
Является ли CloudWatch бесплатным?
CloudWatch включён в бесплатный уровень AWS. Условно есть два смысла: бесплатный пробный год и набор «Always Free», который действует постоянно в ограниченном объёме. В “Always Free” CloudWatch даёт базовый набор:
- 3 дашборда
- 10 алертов
- 5 ГБ принятых логов в месяц
- 10 детализированных метрик (обновление каждую минуту)
Важно: эти пределы могут подойти для большинства простых приложений. За пределами бесплатного набора вы оплачиваете дополнительные дашборды, более частые метрики, хранение логов и API-запросы.
Примечание: детализированное мониторирование (1-минутные данные) полезно при высокочастотных нагрузках, но активируется только при необходимости.
Как начать
Перейдите в CloudWatch Management Console и выберите “Metrics”. Если вы уже используете другие сервисы AWS, метрики, скорее всего, уже доступны. В противном случае может понадобиться ждать до 24 часов, пока метрики начнут поступать. Для приёма логов на EC2 установите CloudWatch Logs Agent или используйте CloudWatch Agent для расширенных метрик и логов.

Метрики организованы по сервисам: отдельные наборы для EBS, EC2, RDS и других сервисов. Выберите метрику, чтобы отобразить её на графике. Например, для EC2 метрика “CPUCreditUsage” показывает поведение burstable-инстансов: при простое инстанс накапливает кредиты CPU, при нагрузке расходует их.

Вы можете отрисовать несколько метрик на одном графике и навести курсор, чтобы увидеть подробности или изолировать отдельную метрику.

Подписывайте оси и легенду через “Graph Options” и используйте вкладку “Source”, чтобы скопировать JSON графика для повторного использования в дашборде.

Арифметика метрик
CloudWatch умеет не только показывать отдельные метрики, но и комбинировать их с помощью математических выражений. В разделе “Graphed Metrics” есть кнопка добавления составной метрики (composite metric), основанной на математическом выражении.

Выражения поддерживают арифметику и функции вроде SUM, MIN, MAX. Чтобы отобразить результат функции как временной ряд, используйте функцию METRICS. Это позволяет, например, суммировать трафик по нескольким инстансам или вычислять процент занятости ресурсов.
Краткая полезная модель: думайте о метриках как о потоке временных рядов. Математика над метриками — это трансформация потоков: суммирование, нормализация, скользящие средние и пороговые функции.
Когда это не сработает: если у вас разные интервал выборки (например, 1 минута и 5 минут), объединение может быть некорректным без предварительной нормализации.
Сборка дашборда
У вас есть три бесплатных дашборда — используйте их для разных целей: операционный обзор, бизнес-метрики и отладочный стенд. Перейдите на вкладку Dashboard и создайте новый дашборд. Нажмите “Add Widget” и выберите тип виджета.

- Line chart — подходит для большинства временных рядов.
- Single value — полезен для текущих значений, например, остаток кредитов или количество активных соединений.
- Stacked area / Bar — полезно для распределения по категориям.
Сконфигурируйте виджет вручную или вставьте JSON заранее подготовленного виджета.

После добавления виджета перетаскивайте его, изменяйте размер и размещение по экрану. Масштаб времени вверху дашборда влияет на все графики одновременно. Нажмите “Save Dashboard”, чтобы применить изменения.

Совет по UX: держите дашборды простыми. Один дашборд — одна цель и одна аудитория. Слишком много виджетов мешают быстрому обнаружению проблем.
Настройка алертов
Алерты — одна из самых важных функций CloudWatch. Они уведомляют о неожиданных событиях даже если вы не следите за дашбордом в реальном времени. Перейдите во вкладку “Alarms” и создайте новый алерт. Бесплатно доступно 10 алертов.
Выберите метрику и определите, что считать отклонением. Например, для T2-инстанса «необычное» поведение — приближение к нулю CPU-кредитов.

Можно задать одноусловный порог (линия) или диапазон (лента). Когда один datapoint пересекает границу, CloudWatch запускает действие: отправит уведомление через SNS, запустит лямбду, увеличит Auto Scaling group или выполнит reboot EC2.
Критерии принятия для алерта:
- Точность: алерт должен срабатывать на релевантных инцидентах, не на шуме.
- Реакция: действие алерта должно документироваться и проверяться на стадии тестирования.
- Среднее время восстановления: процесс эскалации и отката должен быть понятен оператору.
Важно: избегайте алертов на очень коротких интервалах без агрегации — это повышает вероятность ложных срабатываний.
Практики и шаблоны
Мини-методология для начального набора мониторинга (SRE-подход):
- Определите критичные сервисы и их показатели здоровья (CPU, память, latency, error rate, queue depth).
- Настройте базовые метрики и 1–2 дашборда: операционный и бизнес.
- Настройте пороговые алерты для инцидентов, а также оповещения о деградации (warning).
- Тестируйте алерты сценариями и проверяйте цепочку эскалации.
- Ревью каждые 3 месяца: удаляйте устаревшие метрики и алерты.
Шаблон алерта (чеклист):
- Название алерта: <сервис>-<метрика>-<уровень>
- Описание: что мониторит алерт и почему важен
- Порог и период агрегации
- Цель уведомления (SNS тема, e-mail, PagerDuty)
- Описание действия после срабатывания
- Шаблон восстановления и шаги отката
Ролевые обязанности:
- DevOps-инженер: настройка метрик, алертов, тестирование автоматических действий
- Сервисный владелец: определение SLA и ключевых метрик
- Оператор 1-го уровня: реагирует на уведомления, выполняет чеклист восстановления
Ментальные модели и когда это не сработает
Модель «слепка»: сохраняйте один дашборд как эталон состояния системы — если он показывает норму, система работает. Но эта модель не покрывает редкие сбои или медленные деградации. Для них нужны долгосрочные тренды и аномалия на основе исторических данных.
Когда CloudWatch может не подойти напрямую:
- Для сложного анализа логов или поиска по тексту на больших объёмах лучше использовать ELK/Opensearch.
- Если нужна корреляция между метриками из разных провайдеров (гибридный облачный ландшафт), возможно, потребуется выгружать данные в центральный аналитический инструмент.
Карта решений
Вот простая диаграмма принятия решения, что делать при обнаружении отклонения:
flowchart TD
A[Аномалия в метрике] --> B{Влияние на бизнес?}
B -- Да --> C[Трийяж: критичный/не критичный]
B -- Нет --> D[Откладываем: мониторим]
C --> E{Автоматическое действие настроено?}
E -- Да --> F[Выполнить автоматический отклик]
E -- Нет --> G[Уведомить операторов по SNS]
F --> H[Проверка результата]
G --> H
H --> I{Восстановлено?}
I -- Да --> J[Закрыть инцидент, задокументировать]
I -- Нет --> K[Эскалация на уровень 2]Критерии приёмки
- Дашборд отображает все ключевые метрики и обновляется в ожидаемый интервал.
- Алерты настроены с порогами и периодами агрегации, снижающими вероятность ложных срабатываний.
- Вся конфигурация дашбордов и критичных алертов сохранена как JSON в репозитории конфигураций.
Безопасность и конфиденциальность
- Ограничьте доступ к CloudWatch через IAM-политики: отдельные роли для чтения дашбордов, создания алертов и управления логами.
- Для логов с чувствительными данными используйте фильтры и redaction до отправки в CloudWatch или храните их в шифрованных хранилищах.
Короткая сводка для руководства
- CloudWatch покрывает метрики и базовые логи в AWS. Бесплатный набор достаточен для начального наблюдения.
- Используйте дашборды по задачам и алерты с чёткими критериями.
- Интегрируйте автоматические действия (Auto Scaling, Lambda) для быстрой реакции.
FAQ
- CloudWatch бесплатен навсегда?
Да — часть CloudWatch входит в “Always Free” с ограничениями: 3 дашборда, 10 алертов, 5 ГБ логов и 10 детализированных метрик. За дополнительные ресурсы взимается плата.
- Как настроить алерт на истощение CPU-кредитов у T2/T3?
Выберите метрику “CPUCreditBalance” или “CPUCreditUsage”, задайте порог (например, < 10 кредитов) и период агрегации 5–15 минут. Протестируйте с имитацией нагрузки.
- Можно ли экспортировать дашборды и реплицировать их в другие аккаунты?
Да — используйте JSON, который можно скопировать через вкладку “Source” и вставить в новый дашборд в другом аккаунте.
Краткое резюме:
- CloudWatch — опорный инструмент мониторинга в AWS.
- Дашборды, метрики и алерты покрывают большинство задач наблюдения.
- Выстраивайте простые дашборды по целям и тестируйте алерты на предмет ложных срабатываний.
Похожие материалы
Проверка орфографии в Google Docs — как пользоваться
Alexa Show Mode на ПК и планшетах
Очистить место в аккаунте Google — полное руководство
Отключить Caps Lock на iPad быстро
Эффект печатной машинки в CSS — steps() и курсор