Как заблокировать GPTBot от сканирования сайта

Экран телефона Android с интерфейсом ChatGPT

Что такое GPTBot и как работает сканирование

Вкратце: GPTBot — это веб-краулер (бот) от OpenAI, который сканирует страницы в интернете для сбора текстового содержимого. Веб-краулер — это программа, автоматически переходящая по ссылкам и индексирующая контент для дальнейшей обработки и анализа.

Пояснение терминов:

Веб-краулер — инструмент для автоматического обхода и индексирования страниц.
robots.txt — текстовый файл в корне сайта, который описывает правила для краулеров.

OpenAI заявляет, что данные, собранные GPTBot, помогают улучшать безопасность и качество моделей. Для владельцев сайтов это означает: хотите ограничить сбор — нужно дать чёткую инструкцию краулеру.

Как контролировать доступ GPTBot через robots.txt

Файл robots.txt должен находиться в корне сайта: https://ваш-сайт/robots.txt. Краулеры обычно читают этот файл перед сканированием.

Важно: название файла — robots.txt (не robot.txt). GPTBot уважает правила в robots.txt, но этот механизм работает на принципе уважения к протоколу; злонамеренные скрипты могут его игнорировать.

Полностью заблокировать GPTBot

Создайте или отредактируйте robots.txt и добавьте:

User-agent: GPTBot
Disallow: /

Эта запись запрещает GPTBot доступ ко всем страницам сайта.

Разрешить только отдельные разделы или запретить некоторые

Примеры гибкой конфигурации:

Разрешить один каталог, запретить другой:

User-agent: GPTBot
Allow: /public-directory/
Disallow: /private-directory/

Запретить отдельный URL (точный путь):

User-agent: GPTBot
Disallow: /secret-page.html

Если у вас несколько правил для разных ботов, перечислите их последовательно. Общая структура robots.txt может содержать правила для нескольких User-agent.

Важно: robots.txt действует только с момента публикации файла. Контент, уже собранный ботом, не удаляется автоматически.

Альтернативные и дополнительные методы контроля доступа

Мета-тег robots на уровне страницы:

Этот тег запрещает индексирование и переход по ссылкам на странице. Краулеры, уважающие стандарты, будут следовать ему.

HTTP-заголовок X-Robots-Tag для не-HTML ресурсов (например, PDF):

X-Robots-Tag: noindex, nofollow

Защита паролем (HTTP аутентификация) или ограничение по IP/ACL: самый строгий метод, но он может мешать обычным посетителям и поисковой индексации.
Контент, уже в кэше или на агрегаторах: используйте процедуры удаления у тех агрегаторов (например, поисковые консоли) и обращайтесь в поддержку платформ, где появился ваш контент.

Когда запрет через robots.txt не сработает

Злонамеренные или неэтичные боты игнорируют robots.txt и обходят защиту.
Контент мог быть скопирован третьими сайтами или кэширован сторонними сервисами — robots.txt не удалит такие копии.
Если вы используете CDN или прокси, убедитесь, что robots.txt обслуживается с корня вашего публичного домена, а не только на origin-сервере.

Пошаговый SOP: как быстро заблокировать GPTBot

Откройте корневую папку вашего сайта или систему управления хостингом.
Создайте или отредактируйте файл robots.txt в корне веб-сайта.
Добавьте правило для GPTBot (пример для полного запрета приведён выше).
Сохраните и проверьте доступность файла по адресу https://ваш-домен/robots.txt.
Проверьте в логах сервера запросы от User-agent: GPTBot (в течение следующих 24–48 часов должно быть видно соблюдение).
Если нужно — добавьте мета-теги или X-Robots-Tag для страниц/ресурсов, которые нужно исключить из индекса.
Для удалений уже использованного контента обратитесь к документации OpenAI или службам агрегаторов и поисковых систем.

Критерии приёмки (как проверить, что запрет работает)

Файл robots.txt доступен по адресу https://ваш-домен/robots.txt и содержит нужные правила.
В логах сервера отсутствуют новые запросы GPTBot к запрещённым URL спустя 24–72 часа.
Инструменты проверки robots.txt (локальные сканеры или онлайн-валидаторы) не показывают ошибок синтаксиса.
Для страниц с meta=\”noindex\” поисковые системы удаляют их из индекса в течение обычного для них времени.

Тест с curl (пример):

curl -I -A "GPTBot" https://ваш-домен/secret-page.html

Ожидаемый результат: при корректном контроле вы по-прежнему получите HTTP 200 для опубликованной страницы (robots.txt не возвращает 403), но бот, уважающий правила, не будет индексировать содержимое. Для проверки поведения самого GPTBot смотрите логи запросов.

Когда стоит разрешить GPTBot

Если вы хотите, чтобы ваш контент использовался для улучшения моделей и потенциально приводил к косвенному трафику.
Когда ваш сайт публикует общественно-полезную справочную информацию и вы хотите увеличить её охват.

Риски и смягчение

Риски:

Потенциальное использование вашего контента для обучения моделей без вашего контроля.
Падение прямых переходов, если пользователи получают ответы БЕЗ перехода на сайт.

Меры смягчения:

Мониторинг трафика и источников; настройка аналитики для отслеживания изменений.
Чёткая лицензионная или copyright-информация на сайте и возможные контактные формы для запросов об удалении.

Краткое резюме

Самый простой способ — запретить GPTBot через robots.txt, добавив правила User-agent: GPTBot.
Для большей точности используйте мета-теги, X-Robots-Tag и защиту по аутентификации.
robots.txt не ретроактивен и полагается на добросовестность краулеров; при серьёзных нарушениях используйте технические ограничения (аутентификация, IP-блоки) и обращайтесь к платформам, где появился ваш контент.

Полезные действия прямо сейчас:

Проверьте https://ваш-домен/robots.txt
Добавьте правило для GPTBot при необходимости
Мониторьте логи и поведение поисковых систем

Summary:

Простая настройка robots.txt решает большинство задач контроля.
Для полного контроля комбинируйте robots.txt, мета-теги и серверные ограничения.
Сохраните копии изменений и документируйте действия для команды.