Provisioned Concurrency для AWS Lambda

Оптимизация функций AWS Lambda с Provisioned Concurrency и Auto Scaling

Кратко: Provisioned Concurrency позволяет держать заранее инициализированные окружения Lambda «тёплыми», что устраняет холодные старты и снижает задержки для пользовательских запросов. Это полезно для пользовательских API и критичных по задержке нагрузок; комбинируя с Auto Scaling, вы автоматизируете масштабирование зарезервированных окружений.

Быстрые ссылки

Что такое Provisioned Concurrency?
Сколько стоит Provisioned Concurrency?
Включение Provisioned Concurrency
Автоскейлинг с Provisioned Concurrency

Что такое Provisioned Concurrency?

Lambda запускает ваш код в изолированных «execution environment» — окружениях выполнения. По умолчанию окружение создаётся при первом запросе и остаётся “тёплым” обычно 5–15 минут, чтобы последующие вызовы могли использовать уже инициализированное окружение.

Если окружение не готово или нужно одновременно обслужить много запросов, AWS создаёт новые окружения. Этот процесс увеличивает время первого ответа — так называемый “cold start”. Он особенно заметен в рантаймах с длительной инициализацией (Java, .NET) и при больших пакетах зависимостей.

Provisioned Concurrency решает проблему: вы резервируете фиксированное количество заранее инициализированных окружений, которые остаются готовыми круглосуточно. Инициализационный код выполняется заранее, поэтому пользователь не видит задержки холодного старта.

Важно: Provisioned Concurrency привязан к конкретной версии функции или алиасу и не допускает использования динамически изменяемой метки $LATEST.

Зачем и кому это подходит

API с требованием низкой задержки и SLA — пользователи не должны ждать секунд на первые ответы.
Функции с долгой инициализацией (JVM, .NET, большие пакеты Python/Node.js).
Стабильный, предсказуемый трафик, где можно заранее оценить пиковые потребности.

Когда это не помогает:

Для полностью асинхронных фоновых задач с большой вариативностью и редким использованием — расходы могут быть неоправданны.
Для функций, где холодный старт не критичен (батчи, очереди).

Сколько стоит Provisioned Concurrency?

Ценообразование Lambda остаётся в духе “плати за использование”: вы платите за каждое зарезервированное окружение поминутно/почасово плюс стандартные запросы и время выполнения. Плюс:

Вы платите за каждый час, пока окружение зарезервировано.
Запросы, выполненные в рамках provisioned concurrency, могут иметь чуть меньшую стоимость вычислений, потому что инициализация не повторяется.
При превышении зарезервированного объёма дополнительных вызовов AWS использует обычные окружения и вы платите стандартные тарифы.

Практическая заметка: при очень предсказуемом трафике provisioned concurrency может немного снизить общую стоимость (вплоть до 5–10% в некоторых сценариях), но при низкой загрузке или пиковой вариативности он может повысить расходы. Анализируйте реальные метрики и используйте калькулятор цен Lambda.

Иллюстрация сравнения затрат Provisioned Concurrency

Включение Provisioned Concurrency

Provisioned Concurrency нельзя применить к $LATEST: он требует фиксированной версии. Шаги:

Опубликуйте версию функции (если у вас её нет).

Публикация новой версии Lambda в консоли

Создайте или обновите алиас, указывающий на эту версию. Алиас можно обновлять для переключения версии и обновления provisioned окружений.

Настройка алиаса в консоли Lambda

В настройках функции (Configuration > Concurrency) добавьте новую конфигурацию Provisioned Concurrency, выберите алиас и укажите количество зарезервированных окружений.

Настройки Concurrency в консоли Lambda

Введите число окружений для резервирования и сохраните.

Ввод значения provisioned concurrency в консоли

Вы также можете автоматизировать настройку через CLI или API. Пример команды для установки provisioned concurrency (замените MyFunction и LatestProvisioned):

aws lambda put-provisioned-concurrency-config --function-name MyFunction --qualifier LatestProvisioned --provisioned-concurrent-executions 10

Автоскейлинг Provisioned Concurrency

Provisioned Concurrency можно динамически менять в течение дня, поэтому логично интегрировать его с Application Auto Scaling. На момент написания управление этим только через CLI/API.

Зарегистрируйте функцию как масштабируемый target. Отредактируйте имя функции и алиас, а также диапазон min/max.

aws application-autoscaling register-scalable-target --service-namespace lambda --resource-id function:MyFunction:LatestProvisioned --min-capacity 2 --max-capacity 10 --scalable-dimension lambda:function:ProvisionedConcurrency

Создайте политику масштабирования. Пример — целевое отслеживание метрики LambdaProvisionedConcurrencyUtilization с целевым значением 70%.

aws application-autoscaling put-scaling-policy --service-namespace lambda --scalable-dimension lambda:function:ProvisionedConcurrency --resource-id function:MyFunction:LatestProvisioned --policy-name my-policy --policy-type TargetTrackingScaling --target-tracking-scaling-policy-configuration '{ "TargetValue": 0.7, "PredefinedMetricSpecification": { "PredefinedMetricType": "LambdaProvisionedConcurrencyUtilization" }}'

Недостатки этого подхода:

Политики на основе средней утилизации не всегда срабатывают на короткие всплески.
Есть задержка между решением Auto Scaling и фактическим готовым окружением (время на инициирование новых provisioned экземпляров).

Тем не менее, для предсказуемого трафика это экономически эффективно: вечером, когда нагрузка падает, Auto Scaling уменьшит зарезервированные окружения и сократит расходы.

Лучшие практики

Публикуйте версию и используйте алиасы для безопасного переключения реализации без простоя.
Начинайте с небольших значений provisioned concurrency и увеличивайте по метрикам задержки и утилизации.
Комбинируйте с логикой graceful degradation: кэширование быстрых ответов, бэкенд-таймауты и retry-политики.
Мониторьте метрики: ProvisionedConcurrentExecutions, ProvisionedConcurrencyUtilization, ConcurrentExecutions, Duration и cold start metrics (если есть).
Тестируйте в нагрузочном окружении похожую по паттерну нагрузки на прод.

Мини-методология для планирования емкости

Соберите метрики за 2–4 недели (пик/сутки/выходные).
Определите SLA по P99/P95 задержке для клиентских вызовов.
Смоделируйте сценарии пиков (минута/5 минут) и посчитайте необходимое provisioned количество.
Настройте Auto Scaling с conservative target (например, 60–80% утилизации).
Наблюдайте 1–2 недели и корректируйте.

Роль‑ориентированные чеклисты

Разработчик:

Проверил запуск функции локально и в staging.
Опубликовал версию и создал алиас.
Убедился, что код и зависимости минимизированы.

DevOps/SRE:

Настроил provisioned concurrency в соответствии с планом.
Зарегистрировал масштабируемый target и политику Auto Scaling.
Добавил дашборды в CloudWatch и алерты на низкую/высокую утилизацию.

Финансы/менеджмент:

Оценил стоимость на основе прогнозов трафика.
Согласовал бюджет на резервирование емкости.

Когда это не подходит

Если ваши функции редко вызываются и задержка холодного старта не критична.
Если трафик крайне непредсказуем (короткие, частые всплески), где авто-скейлинг не успеет реагировать.
Если основной фактор стоимости — не время инициализации, а длительное выполнение или большие объемы памяти.

Отладка, инцидентный план и откат

Если после включения provisioned concurrency вы видите неожиданные ошибки:

Проверьте CloudWatch Logs для конкретной версии/алиаса.
Посмотрите метрики ProvisionedConcurrentExecutions и ProvisionedConcurrencySpillover. Если есть spillover — трафик превышает резерв.
Если новая версия вызывает ошибки, переключите алиас на предыдущую стабильную версию.
Для быстрого отката уменьшите значение provisioned concurrency или удалите конфигурацию.

Пример отката через CLI:

aws lambda delete-provisioned-concurrency-config --function-name MyFunction --qualifier LatestProvisioned

Модель принятия решения (Mermaid)

flowchart TD
  A[Есть требование к низкой задержке?] -->|Да| B{Трафик предсказуемый?}
  A -->|Нет| Z[Не использовать Provisioned Concurrency]
  B -->|Да| C[Использовать Provisioned Concurrency + Auto Scaling]
  B -->|Нет| D[Рассмотреть контейнеры, API Gateway с кэшированием или Reserved Concurrency]

Критерии приёмки

Запросы от пользователей не содержат дополнительных задержек из-за cold start в 99% случаев.
Метрика ProvisionedConcurrencyUtilization держится в целевом диапазоне (например, 50–85%).
Стоимость в рамках ожидаемого бюджета после тестового периода.

Краткое резюме

Provisioned Concurrency убирает проблему холодных стартов, сохраняя заранее инициализированные окружения. Это особенно ценно для пользовательских API и функций с тяжёлой инициализацией. Комбинация с Application Auto Scaling даёт возможность автоматизировать изменение резерва по нагрузке, но требует мониторинга и осторожной настройки, чтобы не переплатить за неиспользуемые ёмкости.

Важно: не используйте provisioned concurrency вслепую. Применяйте методологию планирования, тестируйте под нагрузкой и подключайте Auto Scaling для оптимизации расходов.