Как блокировать AI-ботов от сканирования сайта

Мужчина за ноутбуком с открытым ChatGPT

О чём эта статья

Коротко и по делу: объясняю, как AI-чатботы попадают на сайты, почему некоторые владельцы контента переживают, как можно блокировать ботов через robots.txt, какие у этого ограничения, и какие альтернативы и меры мониторинга стоит рассмотреть.

Как AI-чатботы получают доступ к вашему контенту

AI-чатботы обучаются на наборах данных, которые могут включать публичные веб-страницы, архивы и формируемые специально датасеты. Некоторые крупные датасеты состоят из большого количества страниц, собранных краулерами (в т.ч. Common Crawl). Это похоже на работу поисковых роботов: краулеры проходят по ссылкам и сохраняют копии страниц.

Важно: текущая архитектура многих моделей не означает, что бот «жёстко» заходил на ваш сайт в режиме реального времени. Часто модель обучается на уже собранных данных. Тем не менее появление функций браузинга в некоторых продуктах (например, готовых к запуску веб-браузеров внутри чатботов) создаёт риск прямого доступа к страницам в будущем.

Почему владельцы сайтов беспокоятся

Непосредственная потеря трафика: если пользователи получают ответы от AI, им может не понадобиться переходить на исходные страницы.
Отсутствие ссылок/цитаций: некоторые модели дают ответы без указания источников, лишая сайт потенциальных кликов.
Коммерческая эксплуатация: контент создаётся авторами, а потом используется для создания продуктов, которые уменьшают спрос на оригинальные страницы.

Разные системы ведут себя по-разному. Bing Chat чаще включает ссылки на источники; другие системы дают краткие ответы без явных ссылок, что ухудшает шансы получить переходы.

Скриншот ответа Bing Chat с указанием источников и ссылок

Как заблокировать AI-ботов через robots.txt

Самый доступный инструмент — файл robots.txt в корне сайта (пример: https://example.com/robots.txt). Через него вы даёте инструкции краулерам. Ключевые моменты:

robots.txt содержит директивы вида User-agent и Disallow.
Вы должны перечислить конкретные имена ботов, которых хотите запретить.
Директивы в robots.txt — рекомендация, а не юридически обязательное правило: добросовестные боты соблюдают файл, недобросовестные — нет.

Пример блокировки Common Crawl (бот CCBot):

User-agent: CCBot
Disallow: /

Пример блокировки бота ChatGPT (имя ChatGPT-User по инструкции OpenAI):

User-agent: ChatGPT-User
Disallow: /

Важно: эти правила остановят будущие обходы указанного краулера, но не удалят уже собранные данные. Также вы должны поддерживать список ботов — он может быстро расти.

Насколько это эффективно?

Плюсы:

Простой технический способ дать указание краулерам.
Работает против крупных, добросовестных краулеров, которые уважают robots.txt.

Минусы:

Нельзя массово заблокировать всех возможных AI-ботов одним правилом — нужно указывать User-agent по имени.
Многие боты не соблюдают robots.txt.
Не удаляет уже собранные данные и не гарантирует удаление у третьих сторон.
Сложно анализировать эффект на трафик, если вы ранее блокировали краулеров — у вас не будет контрольной группы данных.

Стоит ли вообще блокировать? Краткое руководство по принятию решения

Критерии, которые помогут принять решение:

Цель сайта: если ваш сайт получает основную ценность через прямой трафик и конверсии, защит контента может быть важнее.
Зависимость от поискового трафика: если вы полагаетесь на поисковую видимость и фрагменты в выдаче (featured snippets), блокировка может лишить вас данных аналитики.
Тип контента: уникальные исследования и эксклюзивные материалы сильнее пострадают от неатрибутированного использования.
Ресурсы на мониторинг: нужно отслеживать изменение трафика и упоминания, чтобы оценить эффект.

Общее правило: не спешите с массовой блокировкой. Начните с мониторинга и частичных мер, затем принимайте решение по результатам данных.

Скриншот примера выпадающего сниппета в Google Search

Альтернативы блокировке и дополнительные меры

Ниже — практичные альтернативы и дополнения к использованию robots.txt.

Тонкая настройка доступа по типам контента

Отключайте индексацию для определённых разделов (например, /paywalled/ или /members-only/) с помощью Disallow.
Для API и машинного доступа применяйте аутентификацию и rate limiting.

Правила на стороне сервера и заголовки

Заголовок X-Robots-Tag: noarchive, noindex для ответа сервера — полезно для страниц, которые вы хотите исключить из парсинга и кеширования.

Тарифные политики и paywall

Закрытая часть контента (paywall) делает его недоступным для публичных краулеров.

Юридические и лицензионные меры

Лицензирование контента и уведомления об использовании создают правовую основу для требований к компаниям, использующим материалы.

Контроль ссылок и атрибуции

Форматируйте контент так, чтобы его было выгодно цитировать с ссылкой на источник (стандарты цитирования, метаданные). Это повышает шанс получения упоминаний и кликов.

Когда блокировка не помогает: примеры и контрпримеры

Контрпример 1: Недобросовестный бот полностью игнорирует robots.txt и парсит страницы напрямую. Блокировка в robots.txt бессильна.
Контрпример 2: Данные уже попали в большие датасеты (архивы Common Crawl), и модель использует их — удалить эти копии самостоятельно вы не сможете.
Успешный пример: крупный исследовательский краулер (например, CCBot) уважает robots.txt и прекращает сбор новых данных после внесения правил.

Мини‑методика: как проверить и наблюдать эффект блокировки

До изменений: соберите базовую метрику трафика по страницам за 3–6 месяцев.
Добавьте правила в robots.txt и сохраните дату внесения.
Отслеживайте метрики: органический трафик, CTR, входящие ссылки, упоминания бренда.
Сделайте A/B-эксперимент, если возможно: не блокируйте несколько разделов и сравните динамику.
Корреляция ≠ причинность: учитывайте сезонность и алгоритмические изменения поисковиков.

Чек-лист для владельца сайта (роль: технический SEO / владелец контента)

Создать резервную копию текущего robots.txt.
Перечислить целевые User-agent, которых нужно блокировать.
Добавить правила Disallow для нужных агентов.
Внедрить X-Robots-Tag для конфиденциальных страниц.
Настроить аутентификацию для API и закрытых разделов.
Установить мониторинг трафика и событий (Google Analytics, серверные логи).
Запланировать ревизию политики через 1–3 месяца.

Матрица рисков и смягчений

Риск: потеря органического трафика из-за неполучения цитат или сниппетов. Смягчение: замерьте текущую зависимость от сниппетов; экспериментируйте на части сайта.
Риск: недобросовестные боты не соблюдают robots.txt. Смягчение: блокировать по IP, применять WAF и rate limiting.
Риск: невозможность удалить уже собранные данные. Смягчение: юридическая коммуникация с крупными платформами и запросы на удаление; публичные уведомления о лицензии контента.

Примечания по приватности и соответствию законодательству (GDPR и аналоги)

Если на страницах есть персональные данные, стандартные меры защиты и требования к обработке данных применяются независимо от краулеров.
Запросы на удаление персональных данных у крупных поставщиков (право на забвение) следует направлять по установленным каналам. robots.txt не заменяет юридические обязательства по защите данных.

Критерии приёмки

robots.txt развернут в корне сайта и валиден (проверяется через доступные онлайн-валидаторы).
Для указанных User-agent обнаружен HTTP 200 и правильный набор директив (проверка через curl или специализированные инструменты).
Мониторинг фиксирует отсутствие новых обращений от заблокированных агентов (через логи) в течение запланированного периода.
Аналитика показывает, что важные метрики (трафик, конверсии) остаются в допустимых границах.

Быстрая политика реагирования: план действий при обнаружении нежелательного использования

Соберите доказательства: логи, примеры результатов AI без ссылок.
Попробуйте связаться с платформой (если известна) и запросить удаление или указание источника.
Рассмотрите технические меры (robots.txt, IP-блоки, rate limiting).
Оцените юридические шаги при нарушении лицензии или прав: уведомление, требование, иски (при необходимости).

Социальный предпросмотр (рекомендуемые тексты)

OG title: Защитите сайт от AI-сканеров — как и когда блокировать
OG description: Узнайте, как использовать robots.txt, альтернативы и когда блокировка бессмысленна. Практическая методика и чек-лист для владельцев сайтов.

Короткое объявление (100–200 слов)

В свете роста возможностей AI-чатботов владельцы сайтов обеспокоены тем, что их контент может использоваться без атрибуции и трафика. Эффективный инструмент — файл robots.txt — позволяет дать указание краулерам не собирать новые страницы. Это полезно против добросовестных краулеров, но не удаляет уже собранные данные и не защищает от недобросовестных парсеров. Рекомендуем сначала провести мониторинг и частичное тестирование, а затем принимать решения. Также рассмотрите альтернативы: X-Robots-Tag, закрытые разделы, правовую защиту и метрики для оценки реального влияния.

Итог и рекомендации

robots.txt — рабочий инструмент, но не панацея.
Не полагайтесь на единственную меру: сочетайте технические, организационные и юридические подходы.
Сначала измеряйте и тестируйте. Данные решают, а не эмоции.

Ключевые действия на ближайшие 90 дней: