Гид по технологиям

Как заблокировать AI‑ботов от доступа к сайту через robots.txt

7 min read SEO Обновлено 07 Jan 2026
Как заблокировать AI‑ботов через robots.txt
Как заблокировать AI‑ботов через robots.txt

Мужчина за ноутбуком с открытым ChatGPT

Важно понимать разницу между блокировкой будущих обходов и удалением уже индексированных данных. Ниже — понятное объяснение, пошаговые инструкции, варианты реакции, критерии приёмки и чеклисты для команд.

Что значит «AI‑боты скрапят сайт»?

AI‑боты собирают (скрапят) страницы и используют текст для обучения языковых моделей. Некоторые датасеты открыты и публичны; другие собираются компаниями. Пример из исследования OpenAI о GPT‑3 показывает вклады разных источников в обучение:

  • Common Crawl (60% от веса в обучении)
  • WebText2 (22%)
  • Books1 (8%)
  • Books2 (8%)
  • Wikipedia (3%)

Common Crawl собирает петабайты (тысячи терабайт) веб‑страниц с 2008 года. WebText2 — набор страниц, собранных по ссылкам из постов Reddit с минимум тремя голосами «за».

Определение: “robots.txt” — простой текстовый файл в корне сайта, который сообщает поисковым роботам, какие разделы сайта разрешены к обходу, а какие — нет.

Почему владельцы сайтов беспокоятся

Главная опасность в том, что генеративные AI‑сервисы могут уменьшить количество переходов с поисковых систем. AI даёт пользователю готовый ответ, и пользователь не всегда переходит на источник. В некоторых случаях ответы не содержат явных ссылок или цитат, поэтому сайту не идёт трафик даже при использовании его контента.

Примеры поведения:

  • Bard иногда не указывает источники в тексте ответа.
  • Bing Chat чаще предоставляет ссылки на источники.

Скриншот ответа Bing Chat с указанием источников информации

Важно: отсутствие переходов уменьшает ценность контента для бизнеса, который рассчитывает на трафик и конверсии.

Как AI‑боты получают доступ к контенту сегодня

  • Краулинг по ссылкам (как у Common Crawl и у поисковых систем).
  • Публичные датасеты и архивы.
  • Скрейпинг через API или пользовательские агенты, маскирующиеся под легитимные ботов.

Ниже — практические шаги по блокировке.

Как блокировать конкретные AI‑боты через robots.txt

Файл robots.txt размещается в корне сайта (пример: https://example.com/robots.txt). Чтобы запретить конкретному боту доступ ко всему сайту, добавьте в файл следующую секцию:

User-agent: CCBot  
Disallow: /

Это запретит Common Crawl (CCBot) сканировать сайт в будущем. Аналогично, чтобы заблокировать бота ChatGPT, OpenAI рекомендует добавить:

User-agent: ChatGPT-User  
Disallow: /

Примечание: эти правила предотвращают будущие обходы только для ботов, которые уважают robots.txt. Они не удаляют данные, уже собранные в прошлых обходах.

Пошаговая инструкция: от оценки до внедрения (SOP)

  1. Оцените риски
    • Проанализируйте, какой контент ценный для бизнеса (гайды, инструкции, уникальный анализ).
    • Оцените, сколько трафика приносил этот контент.
  2. Соберите список User‑agent имен
    • Начните с известных: CCBot, ChatGPT-User, Googlebot, Bingbot.
    • Мониторьте логи для обнаружения новых агентов.
  3. Подготовьте резервную копию robots.txt
    • Храните историю изменений в системе контроля версий.
  4. Внесите изменения
    • Добавьте секции с нужными User‑agent и Disallow.
  5. Протестируйте
    • Используйте инструменты типа curl, проверяйте логи сервера.
  6. Мониторинг и отчётность
    • Отслеживайте снижение сканирования по IP/агентам, логи отклонений и страницы с ошибками.

Важно: внедрять изменения нужно поэтапно и с возможностью отката.

Проверка и критерии приёмки

Критерии приёмки:

  • Файл robots.txt доступен по адресу https://<ваш_домен>/robots.txt.
  • Для указанных User‑agent возвращается Disallow: /.
  • В логах сервера видно, что соответствующие User‑agent прекратили обращения в течение 24–72 часов (если бот уважает robots.txt).
  • Нет непреднамеренных блокировок легитимных поисковых ботов, которые важны для SEO.

Тесты:

  • curl -I https://example.com/robots.txt — убедиться, что файл обновлён.
  • Анализ логов за 7 дней до и после — сравнить частоту обращений от указанных агентов.

Ограничения и когда метод не сработает

  • Нельзя удалить данные, собранные ранее. Robots.txt запрещает будущие обходы, но не стирает уже скопированное содержимое.
  • Злонамеренные или «некорректные» краулеры могут игнорировать robots.txt.
  • Для закрытых разделов лучше использовать аутентификацию, а не только robots.txt.

Контрпример: если бот собирался через API или напрямую получил страницы по ссылкам, запрет в robots.txt не остановит уже совершённые действия.

Альтернативы и дополнения к robots.txt

  1. Метатеги robots (noindex, nosnippet)
    • Подходят для запрета индексации конкретных страниц поисковиками.
    • Но не гарантируют запрет на использование в обучении моделей.
  2. HTTP‑заголовок X‑Robots‑Tag
    • Нужен для динамически генерируемых или не‑HTML ресурсов.
  3. Аутентификация и приватные API
    • Самый надёжный способ закрыть содержимое — требовать логин/ключ.
  4. Rate limiting и WAF
    • Помогают снижать вред от агрессивного скрапинга.
  5. Правовые меры
    • Условно: отправка запросов о удалении или юридические ноты компаниям, которые используют контент (эффективность варьируется).

Ментальные модели для принятия решения

  • Выгода vs контроль: насколько ценен трафик, который потенциально теряется, по сравнению с рисками утечки контента.
  • Видимый эффект vs косвенное воздействие: запрет может уменьшить видимость в агрегаторах, но не всегда улучшит поведенческие метрики на сайте.
  • Соблюдение затрат: поддержка черного списка User‑agents требует времени и ресурсов.

Ролевые чеклисты перед блокировкой

Разработчик:

  • Создал резервную копию robots.txt.
  • Протестировал синтаксис и права доступа.
  • Проверил, что URL файла корректен и отдаётся с кодом 200.

SEO‑специалист:

  • Оценил влияние на поисковый трафик.
  • Отсчитал страницы, важные для индексации.
  • Убедился, что не блокируются Googlebot и другие критические боты без необходимости.

Контент‑менеджер:

  • Категоризировал крупные активы контента.
  • Решил, какие разделы должны быть доступны для публичного доступа.

Юрист/политика:

  • Подготовил шаблоны уведомлений в случае обращения от компаний, использующих контент.
  • Проверил соответствие действиям по политике конфиденциальности и лицензий.

Шаблон robots.txt для поэтапной блокировки

Пример минимального файла, в котором по умолчанию разрешено всё, но блокируются отдельные агенты:

# Разрешаем всем, но блокируем отдельные агенты
User-agent: *
Disallow:

# Блокируем Common Crawl
User-agent: CCBot
Disallow: /

# Блокируем ChatGPT‑агента (пример от OpenAI)
User-agent: ChatGPT-User
Disallow: /

Если вы хотите полностью закрыть весь сайт для всех ботов (включая поисковые системы), используйте:

User-agent: *
Disallow: /

Но учтите, что это убьёт органический трафик из поисковых систем.

Процедура мониторинга и отката

  • Мониторьте логи ежедневно первые 7 дней, затем еженедельно.
  • Если замечаете падение органического трафика, временно удалите ограничения и наблюдайте за восстановлением.
  • Ведение changelog: каждая правка robots.txt должна быть документирована с причиной и автором.

Примечание: быстрый откат важен, потому что роботы поисковых систем могут индексировать изменения с задержкой.

Когда стоит не блокировать AI‑ботов

  • Если ваша бизнес‑модель зависит от видимости и трафика.
  • Если вы хотите исследовать, как AI влияет на вашу аудиторию — для этого нужно собрать данные, а не закрывать доступ.
  • Если у вас нет ресурсов на постоянный мониторинг и разбор результатов.

Примеры сценариев и решение

Сценарий A: У вас большой блог с обучающим контентом, трафик важен. Решение: Не блокировать массово. Оставить доступ для поисковых ботов, но мониторить упоминания и поведение в выдаче.

Сценарий B: У вас платный аналитический контент и эксклюзивные отчёты. Решение: Перевести часть контента в платный доступ, требующий аутентификации; использовать robots.txt для открытой части.

Сценарий C: У вас конфиденциальные данные. Решение: Закрыть доступ через аутентификацию и заблокировать публичный доступ.

Стратегия тестирования гипотезы о вреде AIответов

Мини‑методология:

  1. Создайте контрольную группу страниц (не блокировать).
  2. Экспериментальная группа — заблокируйте для известных AI‑ботов.
  3. Сравнивайте поведение трафика, глубину просмотра и конверсии в течение 4–8 недель.
  4. Оценивайте, появляются ли заметные различия в удержании и доходах.

Важно: эксперимент работает только при наличии достаточного объёма трафика и корректного разделения групп.

Потенциальные риски и смягчение

Риск: Неправильная конфигурация блокирует Googlebot. Митигирование: Всегда проверяйте в Search Console и следите за индексированием.

Риск: Боты игнорируют robots.txt. Митигирование: Используйте авторизацию или защиту на стороне сервера для критичных разделов.

Риск: Упущенная аналитика об эффекте AI на трафик. Митигирование: Планируйте эксперименты и не блокируйте всё сразу.

Короткий чеклист для решения «блокировать или нет»

  • Насколько важен вам каждый источник трафика? (высокий/средний/низкий)
  • Есть ли у вас ресурсы мониторинга и тестирования? (да/нет)
  • Можете ли вы защитить критические материалы через аутентификацию? (да/нет)
  • Нужна ли вам юридическая стратегия на случай использования контента третьими сторонами? (да/нет)

Если хотя бы два ответа — «нет», лучше не спешить с массовой блокировкой.

Резюме

Блокировка AI‑ботов через robots.txt — простой и быстрый инструмент для предотвращения будущих обходов со стороны уважительных краулеров. Однако у метода есть ограничения: он не удаляет уже собранные данные, требует постоянной поддержки и не защищает от агрессивных или злонамеренных скрейперов. Принятие решения должно опираться на бизнес‑приоритеты, тестирование гипотез и взаимодействие между разработкой, SEO и юридической службой.

Если вы решите действовать, используйте поэтапный подход: документируйте изменения, тестируйте на контролируемых группах страниц и оставьте путь для быстрого отката.

Пример выделенного фрагмента ответа в поисковой выдаче Google

Ключевая мысль: не паникуйте и не закрывайте доступ массово без данных. Планируйте эксперименты и выбирайте меры защиты в зависимости от ценности контента и доступных ресурсов.

Дополнительно — простая схема принятия решения (Mermaid)

flowchart TD
  A[Начало: обеспокоены ли вы использованием контента AI?] -->|Нет| B[Оставить всё как есть и мониторить]
  A -->|Да| C[Оценить ценность контента]
  C --> D{Высокая ценность?}
  D -->|Да| E[Перевести контент в платный/защищённый доступ]
  D -->|Нет| F[Провести эксперимент с блокировкой]
  F --> G{Результат эксперимента}
  G -->|Негативный эффект| H[Откатить изменения и пересмотреть стратегию]
  G -->|Нет эффекта или положительный| I[Принять долгосрочную политику]
Поделиться: X/Twitter Facebook LinkedIn Telegram
Автор
Редакция

Похожие материалы

Вопросы на собеседовании по Scrum и ответы
Карьера

Вопросы на собеседовании по Scrum и ответы

Отправка резюме и сопроводительного письма по email
Карьера

Отправка резюме и сопроводительного письма по email

Как защитить закладки в Firefox и Chrome
Безопасность

Как защитить закладки в Firefox и Chrome

Как забыть сеть Wi‑Fi в Windows 10
Руководство

Как забыть сеть Wi‑Fi в Windows 10

Мобильные игры и здоровье: причины и защита
Здоровье

Мобильные игры и здоровье: причины и защита

Butler в Trello: создать кастомные кнопки
Инструменты

Butler в Trello: создать кастомные кнопки