Атака man-in-the-prompt: защита от перехвата

Мрачный человек в центре контролирует два точки доступа

Что такое атака man-in-the-prompt

Атака man-in-the-prompt перехватывает или модифицирует ваш ввод и/или вывод при работе с большой языковой моделью (LLM). Коротко:

LLM (Large Language Model) — модель, генерирующая текст на основе входного промпта.
Атака вставляет дополнительные инструкции в промпт или трансформирует вывод модели. Результат — скрытые или явно вредоносные ответы.

Аналогия: как man-in-the-middle (перехватчик сети), но на уровне текста/промптов.

Как это работает — основные векторы атаки

Расширения браузера. Многие расширения имеют доступ к DOM страницы и могут читать/писать содержимое поля ввода и области ответа. Они не всегда требуют «особых» прав — базовый доступ к вкладке может быть достаточен.
Внешние генераторы промптов и шаблоны. Сторонние сервисы или локальные утилиты могут вставлять скрытые инструкции в текст.
Автоматизированные скрипты и плагины для рабочих приложений. Корпоративные интеграции с чат‑ботом, если неправильно настроены, могут неявно добавлять контекст.

Почему это опасно:

Приватные LLM в компаниях имеют доступ к чувствительным данным: API‑ключам, юридическим документам, конфиденциальным инструкциям.
Модель может быть направлена на раскрытие секретов, выполнение команд, перенаправление на фишинговую ссылку или генерацию эксплойтов.

Примеры поведения компрометированной сессии

Ответы, которые неожиданно содержат конфиденциальные данные.
Независимые разделы в ответе с инструкциями, не относящимися к вашему запросу.
Ответы, помещённые в блоки кода или таблицы, словно спрятанные.
Необычные инструкции про «скопировать и запустить» или «открыть этот файл».

Как обнаружить вмешательство в браузере

Процессы диспетчера задач браузера

Откройте Диспетчер задач браузера (Shift + Esc в большинстве Chromium‑браузеров). Если расширение запускает процессы, когда вы вводите промпт, это повод для проверки.
Проверьте список установленных расширений: удалите неиспользуемые и те, у которых мало отзывов или сомнительный издатель.
Отключите расширения, которые «взаимодействуют» с веб‑страницами, где вы используете LLM.

Важно: расширение может вести себя нормально некоторое время, а затем обновиться с вредоносной версией.

Простые правила для безопасной работы с промптами

Вводите промпты вручную и внимательно просматривайте перед отправкой.
Если копируете из внешнего источника, сначала вставьте текст в простой текстовый редактор (Блокнот) — это уберёт скрытые символы и форматирование.
Не доверяйте шаблонам из непроверенных источников. Храните собственные шаблоны в защищённой заметке.
Разделяйте сессии: когда меняете тему, создавайте новый чат.

Панель нового чата в интерфейсе

Что делать, если вы заподозрили атаку

Немедленно прекратите ввод и создайте новую сессию.
Скачайте и сохраните (скриншот) содержимое подозрительного чата для расследования.
Уведомьте ИБ‑команду или администратора платформы.
Если были раскрыты ключи/пароли — ротация секретов и пересмотр прав доступа.

Практические рекомендации для разных ролей

Для конечного пользователя

Не устанавливайте расширения без проверки.
Всегда проверяйте промпт перед отправкой.
Используйте режим инкогнито для критичных сессий.

Для IT‑администратора

Разрешайте установку расширений только из белого списка.
Контролируйте обновления расширений и их исходный код, если возможно.
Настройте политики браузера (GPO/MDM) для блокировки неавторизованных расширений.

Для команды безопасности

Включите мониторинг аномалий в поведении LLM (необычные запросы, внезапные раскрытия данных).
Проводите регулярные аудиты расширений сотрудников и рабочих интеграций.

Мини‑методика проверки поставщиков шаблонов промптов

Оцените издателя: репутация, контакты, GitHub/документация.
Проверьте код шаблона на наличие скрытых инструкций (поиск ключевых слов: reveal, secret, token).
Тестируйте шаблоны в изолированной среде без доступа к конфиденциальным данным.
Подписывайте и храните утверждённые версии шаблонов в корпоративном репозитории.

Критерии приёмки для расширений и интеграций

Расширение не должно изменять поля ввода или вывод LLM без явного разрешения.
Лог действий расширения должны быть доступны для аудита на уровне администратора.
Интеграция должна работать в режиме read‑only для внешних шаблонов по умолчанию.
Любая функция, вставляющая текст в промпт, требует подтверждения пользователя.

План реагирования при инциденте — пошагово

Изолировать сессию: закрыть вкладку, создать новую сессию на другом устройстве.
Сохранить артефакты: логи браузера, скриншоты, метаданные расширений.
Оценить объём утечки: какие данные могли быть раскрыты.
Ротировать ключи и пароли, ограничить права, уведомить владельцев данных.
Провести расследование: проверить версию и исходный код расширения, откатить обновления.
Обновить политики и провести обучение сотрудников.

Тестовые сценарии и критерии приёмки

Тест 1: Установить расширение из белого списка; убедиться, что оно не модифицирует поле ввода без подтверждения.
Тест 2: Вставить шаблон с невидимыми символами; проверить, что редактор текста очищает скрытые инструкции.
Критерий приёмки: ни одно расширение не должно изменять отправляемый промпт без явного действия пользователя.

Матрица рисков и способы смягчения

Риск	Вероятность	Последствия	Смягчение
Злоупотребление расширением	Средняя	Высокие — утечка секретов	Белые списки, мониторинг, политика обновлений
Инъекция шаблона от внешнего сервиса	Низкая	Средние — ложные ответы, фишинг	Проверка поставщика, изоляция шаблонов
Внутренняя компрометация LLM	Низкая	Очень высокие — массовая утечка	Минимизация прав доступа, аудит запросов

Инцидентный рукопись и откат

Если обнаружена вредоносная вставка, откатить расширение к безопасной версии или удалить его.
Ротировать все ключи, которые могли быть в контексте сессии.
Вернуть систему в известное безопасное состояние и проверить, что прежние ответы больше не содержат утечек.

Контроль качества и приёмка безопасности

Проводите регулярные пентесты интеграций LLM и браузерных расширений.
Внедрите автоматические тесты, которые моделируют попытки внедрения команд в промпт.
Определите SLO для времени реакции на инцидент и ресурсную ротацию секретов.

Короткая шпаргалка для пользователя

Всегда проверяйте промпт перед отправкой.
Используйте простые текстовые редакторы при копировании.
Создавайте новый чат при смене темы.
Не устанавливайте сомнительные расширения.

Модель принятия решений (Mermaid)

flowchart TD
  A[Подозрение на аномалию] --> B{Появились ли секреты в ответе?}
  B -->|Да| C[Закрыть сессию и уведомить ИБ]
  B -->|Нет| D{Есть ли неизвестные вставки в промпте?}
  D -->|Да| E[Отключить расширения, сохранить логи]
  D -->|Нет| F[Продолжить с осторожностью]
  C --> G[Ротация ключей и расследование]
  E --> G
  F --> H[Мониторинг и регулярные проверки]

1‑строчная глоссарий

LLM — большая языковая модель для генерации текста.
DOM — модель документа веб‑страницы, которую могут читать расширения.
Ротация — процесс замены и аннулирования старых секретов.
Typosquatting — подмена домена или сервиса путём похожего имени.

Заключение

Атака man-in-the-prompt использует доверие к интерфейсу и слабые места в экосистеме расширений и шаблонов. Основная защита — осторожность пользователя, строгие политики установки расширений и оперативное реагирование ИБ‑команды. Внедрите перечисленные чек‑листы и SOP, чтобы снизить риск компрометации.

Важно: ничто не заменит контроля доступа и своевременной ротации ключей.

Краткое резюме:

Проверьте расширения и их поведение.
Вводите и проверяйте промпты вручную.
Создавайте новые чаты при смене темы.
Имея план реагирования, вы уменьшите последствия инцидента.

Атака man-in-the-prompt: что это и как защититься