Как заблокировать AI‑ботов через robots.txt

Мужчина за ноутбуком с открытым ChatGPT

Важно понимать разницу между блокировкой будущих обходов и удалением уже индексированных данных. Ниже — понятное объяснение, пошаговые инструкции, варианты реакции, критерии приёмки и чеклисты для команд.

Что значит «AI‑боты скрапят сайт»?

AI‑боты собирают (скрапят) страницы и используют текст для обучения языковых моделей. Некоторые датасеты открыты и публичны; другие собираются компаниями. Пример из исследования OpenAI о GPT‑3 показывает вклады разных источников в обучение:

Common Crawl (60% от веса в обучении)
WebText2 (22%)
Books1 (8%)
Books2 (8%)
Wikipedia (3%)

Common Crawl собирает петабайты (тысячи терабайт) веб‑страниц с 2008 года. WebText2 — набор страниц, собранных по ссылкам из постов Reddit с минимум тремя голосами «за».

Определение: “robots.txt” — простой текстовый файл в корне сайта, который сообщает поисковым роботам, какие разделы сайта разрешены к обходу, а какие — нет.

Почему владельцы сайтов беспокоятся

Главная опасность в том, что генеративные AI‑сервисы могут уменьшить количество переходов с поисковых систем. AI даёт пользователю готовый ответ, и пользователь не всегда переходит на источник. В некоторых случаях ответы не содержат явных ссылок или цитат, поэтому сайту не идёт трафик даже при использовании его контента.

Примеры поведения:

Bard иногда не указывает источники в тексте ответа.
Bing Chat чаще предоставляет ссылки на источники.

Скриншот ответа Bing Chat с указанием источников информации

Важно: отсутствие переходов уменьшает ценность контента для бизнеса, который рассчитывает на трафик и конверсии.

Как AI‑боты получают доступ к контенту сегодня

Краулинг по ссылкам (как у Common Crawl и у поисковых систем).
Публичные датасеты и архивы.
Скрейпинг через API или пользовательские агенты, маскирующиеся под легитимные ботов.

Ниже — практические шаги по блокировке.

Как блокировать конкретные AI‑боты через robots.txt

Файл robots.txt размещается в корне сайта (пример: https://example.com/robots.txt). Чтобы запретить конкретному боту доступ ко всему сайту, добавьте в файл следующую секцию:

User-agent: CCBot  
Disallow: /

Это запретит Common Crawl (CCBot) сканировать сайт в будущем. Аналогично, чтобы заблокировать бота ChatGPT, OpenAI рекомендует добавить:

User-agent: ChatGPT-User  
Disallow: /

Примечание: эти правила предотвращают будущие обходы только для ботов, которые уважают robots.txt. Они не удаляют данные, уже собранные в прошлых обходах.

Пошаговая инструкция: от оценки до внедрения (SOP)

Оцените риски
- Проанализируйте, какой контент ценный для бизнеса (гайды, инструкции, уникальный анализ).
- Оцените, сколько трафика приносил этот контент.
Соберите список User‑agent имен
- Начните с известных: CCBot, ChatGPT-User, Googlebot, Bingbot.
- Мониторьте логи для обнаружения новых агентов.
Подготовьте резервную копию robots.txt
- Храните историю изменений в системе контроля версий.
Внесите изменения
- Добавьте секции с нужными User‑agent и Disallow.
Протестируйте
- Используйте инструменты типа curl, проверяйте логи сервера.
Мониторинг и отчётность
- Отслеживайте снижение сканирования по IP/агентам, логи отклонений и страницы с ошибками.

Важно: внедрять изменения нужно поэтапно и с возможностью отката.

Проверка и критерии приёмки

Критерии приёмки:

Файл robots.txt доступен по адресу https://<ваш_домен>/robots.txt.
Для указанных User‑agent возвращается Disallow: /.
В логах сервера видно, что соответствующие User‑agent прекратили обращения в течение 24–72 часов (если бот уважает robots.txt).
Нет непреднамеренных блокировок легитимных поисковых ботов, которые важны для SEO.

Тесты:

curl -I https://example.com/robots.txt — убедиться, что файл обновлён.
Анализ логов за 7 дней до и после — сравнить частоту обращений от указанных агентов.

Ограничения и когда метод не сработает

Нельзя удалить данные, собранные ранее. Robots.txt запрещает будущие обходы, но не стирает уже скопированное содержимое.
Злонамеренные или «некорректные» краулеры могут игнорировать robots.txt.
Для закрытых разделов лучше использовать аутентификацию, а не только robots.txt.

Контрпример: если бот собирался через API или напрямую получил страницы по ссылкам, запрет в robots.txt не остановит уже совершённые действия.

Альтернативы и дополнения к robots.txt

Метатеги robots (noindex, nosnippet)
- Подходят для запрета индексации конкретных страниц поисковиками.
- Но не гарантируют запрет на использование в обучении моделей.
HTTP‑заголовок X‑Robots‑Tag
- Нужен для динамически генерируемых или не‑HTML ресурсов.
Аутентификация и приватные API
- Самый надёжный способ закрыть содержимое — требовать логин/ключ.
Rate limiting и WAF
- Помогают снижать вред от агрессивного скрапинга.
Правовые меры
- Условно: отправка запросов о удалении или юридические ноты компаниям, которые используют контент (эффективность варьируется).

Ментальные модели для принятия решения

Выгода vs контроль: насколько ценен трафик, который потенциально теряется, по сравнению с рисками утечки контента.
Видимый эффект vs косвенное воздействие: запрет может уменьшить видимость в агрегаторах, но не всегда улучшит поведенческие метрики на сайте.
Соблюдение затрат: поддержка черного списка User‑agents требует времени и ресурсов.

Ролевые чеклисты перед блокировкой

Разработчик:

Создал резервную копию robots.txt.
Протестировал синтаксис и права доступа.
Проверил, что URL файла корректен и отдаётся с кодом 200.

SEO‑специалист:

Оценил влияние на поисковый трафик.
Отсчитал страницы, важные для индексации.
Убедился, что не блокируются Googlebot и другие критические боты без необходимости.

Контент‑менеджер:

Категоризировал крупные активы контента.
Решил, какие разделы должны быть доступны для публичного доступа.

Юрист/политика:

Подготовил шаблоны уведомлений в случае обращения от компаний, использующих контент.
Проверил соответствие действиям по политике конфиденциальности и лицензий.

Шаблон robots.txt для поэтапной блокировки

Пример минимального файла, в котором по умолчанию разрешено всё, но блокируются отдельные агенты:

# Разрешаем всем, но блокируем отдельные агенты
User-agent: *
Disallow:

# Блокируем Common Crawl
User-agent: CCBot
Disallow: /

# Блокируем ChatGPT‑агента (пример от OpenAI)
User-agent: ChatGPT-User
Disallow: /

Если вы хотите полностью закрыть весь сайт для всех ботов (включая поисковые системы), используйте:

User-agent: *
Disallow: /

Но учтите, что это убьёт органический трафик из поисковых систем.

Процедура мониторинга и отката

Мониторьте логи ежедневно первые 7 дней, затем еженедельно.
Если замечаете падение органического трафика, временно удалите ограничения и наблюдайте за восстановлением.
Ведение changelog: каждая правка robots.txt должна быть документирована с причиной и автором.

Примечание: быстрый откат важен, потому что роботы поисковых систем могут индексировать изменения с задержкой.

Когда стоит не блокировать AI‑ботов

Если ваша бизнес‑модель зависит от видимости и трафика.
Если вы хотите исследовать, как AI влияет на вашу аудиторию — для этого нужно собрать данные, а не закрывать доступ.
Если у вас нет ресурсов на постоянный мониторинг и разбор результатов.

Примеры сценариев и решение

Сценарий A: У вас большой блог с обучающим контентом, трафик важен. Решение: Не блокировать массово. Оставить доступ для поисковых ботов, но мониторить упоминания и поведение в выдаче.

Сценарий B: У вас платный аналитический контент и эксклюзивные отчёты. Решение: Перевести часть контента в платный доступ, требующий аутентификации; использовать robots.txt для открытой части.

Сценарий C: У вас конфиденциальные данные. Решение: Закрыть доступ через аутентификацию и заблокировать публичный доступ.

Стратегия тестирования гипотезы о вреде AIответов

Мини‑методология:

Создайте контрольную группу страниц (не блокировать).
Экспериментальная группа — заблокируйте для известных AI‑ботов.
Сравнивайте поведение трафика, глубину просмотра и конверсии в течение 4–8 недель.
Оценивайте, появляются ли заметные различия в удержании и доходах.

Важно: эксперимент работает только при наличии достаточного объёма трафика и корректного разделения групп.

Потенциальные риски и смягчение

Риск: Неправильная конфигурация блокирует Googlebot. Митигирование: Всегда проверяйте в Search Console и следите за индексированием.

Риск: Боты игнорируют robots.txt. Митигирование: Используйте авторизацию или защиту на стороне сервера для критичных разделов.

Риск: Упущенная аналитика об эффекте AI на трафик. Митигирование: Планируйте эксперименты и не блокируйте всё сразу.

Короткий чеклист для решения «блокировать или нет»

Насколько важен вам каждый источник трафика? (высокий/средний/низкий)
Есть ли у вас ресурсы мониторинга и тестирования? (да/нет)
Можете ли вы защитить критические материалы через аутентификацию? (да/нет)
Нужна ли вам юридическая стратегия на случай использования контента третьими сторонами? (да/нет)

Если хотя бы два ответа — «нет», лучше не спешить с массовой блокировкой.

Резюме

Блокировка AI‑ботов через robots.txt — простой и быстрый инструмент для предотвращения будущих обходов со стороны уважительных краулеров. Однако у метода есть ограничения: он не удаляет уже собранные данные, требует постоянной поддержки и не защищает от агрессивных или злонамеренных скрейперов. Принятие решения должно опираться на бизнес‑приоритеты, тестирование гипотез и взаимодействие между разработкой, SEO и юридической службой.

Если вы решите действовать, используйте поэтапный подход: документируйте изменения, тестируйте на контролируемых группах страниц и оставьте путь для быстрого отката.

Пример выделенного фрагмента ответа в поисковой выдаче Google

Ключевая мысль: не паникуйте и не закрывайте доступ массово без данных. Планируйте эксперименты и выбирайте меры защиты в зависимости от ценности контента и доступных ресурсов.

Дополнительно — простая схема принятия решения (Mermaid)

flowchart TD
  A[Начало: обеспокоены ли вы использованием контента AI?] -->|Нет| B[Оставить всё как есть и мониторить]
  A -->|Да| C[Оценить ценность контента]
  C --> D{Высокая ценность?}
  D -->|Да| E[Перевести контент в платный/защищённый доступ]
  D -->|Нет| F[Провести эксперимент с блокировкой]
  F --> G{Результат эксперимента}
  G -->|Негативный эффект| H[Откатить изменения и пересмотреть стратегию]
  G -->|Нет эффекта или положительный| I[Принять долгосрочную политику]