Гид по технологиям

Узнайте, использовались ли ваши изображения для обучения генераторов изображений на ИИ

8 min read Право и защита Обновлено 20 Dec 2025
Проверить и исключить свои изображения из датасетов ИИ
Проверить и исключить свои изображения из датасетов ИИ

Важно: удаление/исключение может занять время и не остановит уже созданные копии, но помогает при следующих итерациях индексации и даёт правовую и этическую основу для требований к компаниям.

К чему этот материал

  • Проверить, используются ли ваши изображения в открытых датасетах для ИИ.
  • Понять, откуда берутся обучающие наборы данных и почему это проблема для авторов.
  • Получить практическую инструкцию по поиску, исключению и дальнейшим шагам.

Основные термины

  • Датасет: структурированная коллекция изображений и подписей для обучения моделей.
  • Opt‑out: действие по пометке контента как неразрешённого для использования в обучении ИИ.
  • LAION‑5B: открытый датасет, упомянутый в статье (5.85 миллиарда пар изображение‑текст).

Как тренируют генераторы изображений на ИИ

Когда вы просите модель сгенерировать «собаку в праздничном колпаке», модель опирается на статистику и примеры из огромных наборов данных. Такие наборы собирают миллиарды ссылок на изображения с интернет‑страниц и сопоставляют их с подписью или текстом. На основе паттернов и сопоставлений модель учится синтезировать изображения, которые выглядят правдоподобно.

Если изображения в датасете защищены авторским правом или принадлежали конкретным авторам без их согласия, то модель фактически «учится» на чужой работе. Это создает этическую, юридическую и экономическую проблему: компании могут монетизировать генерацию изображений, в то время как права и доходы создателей игнорируются.

Почему это проблема для авторов

  • Экономический ущерб: компании продают доступ к генерации изображений, часть прибыли получается благодаря обучению на чужих работах.
  • Утрата уникальности стиля: автоматическое воссоздание или имитация фирменного стиля художника размывает рынок и усложняет выявление оригинального автора.
  • Репутационные риски: изображения в стиле художника могут использоваться в проектах с неприемлемыми или противоречивыми ценностями.
  • Юридическая неясность: многие компании не раскрывают источники своих датасетов, что затрудняет доказательства и притязания.

Откуда берутся датасеты и как они устроены

Датасеты выглядят как большие таблицы: в одной колонке — ссылка на изображение в интернете, в другой — подпись/описание. Некоторые компании публикуют, какие датасеты они использовали (например, Stability AI указывала LAION‑5B), а другие не раскрывают этих данных (часто это коммерческая практика).

LAION‑5B — открытый датасет с примерно 5.85 миллиардами пар «изображение‑текст», отфильтрованных с помощью CLIP. Открытость дала исследователям и разработчикам доступ к данным, но также привлекла критику и судебные иски: в начале 2023 года Getty Images подала иск к Stability AI за сбор изображений с их сайта.

Как узнать, использовались ли ваши изображения (пошагово)

Ниже — практическая инструкция для авторов, иллюстраторов и фотографов.

  1. Подготовьте материалы

    • Список имён/псевдонимов, под которыми вы публикуете.
    • Оригинальные файлы изображений и их URL (если есть).
  2. Зайдите на Have I Been Trained? (инструмент, созданный сообществом художников)

    • Можно искать по ключевому слову (имя, псевдоним) или загружать изображение для точного сопоставления.
    • Поиск по изображению помогает найти точные совпадения или очень похожие копии.
  3. Анализ результатов

    • Просмотрите найденные совпадения: исторические фото, фан‑арт, ремиксы.
    • Обратите внимание на контекст: откуда взят URL, какие подписи/страницы связаны.
  4. Добавление в список исключений (opt‑out)

    • Зарегистрируйтесь на сайте Have I Been Trained? и в личном кабинете пометьте изображения как «исключить». На английском это было «Opt‑out this image», в русскоязычном интерфейсе описывают как «Исключить изображение».
    • Изображение попадёт в ваш личный список исключений (My Lists) и будет передано команде, поддерживающей LAION, для удаления из индексированной выборки.
  5. Подтверждение и последующие шаги

    • Проверяйте список периодически: удаление может занять время и не устранит уже сделанные копии или производные.
    • Дублируйте действия на платформах, где вы размещали изображения (см. раздел про DeviantArt).

Have I Been Trained? — что это и как это работает

Страница поиска Have I Been Trained? с формой ввода и результатами

Сервис выполняет поиск по индексированным данным LAION‑5B и показывает соответствие между вашим запросом (имя, подпись или изображение) и ссылками в датасете. Это работает похоже на поиск изображений в Google, но ориентировано на конкретный открытый датасет.

Пример: при поиске «Frida Kahlo» сервис показал сочетание исторических архивных фото и фан‑арт‑работ — демонстрация того, как широко могут быть представлены разные типы изображений одного артиста в датасете.

Результаты поиска по Frida Kahlo: микс архивных фото и фан‑арта

Что можно сделать, если обнаружено ваше изображение

  • Добавить изображение в opt‑out через Have I Been Trained?.
  • Обновить настройки на платформах, где вы публикуете (см. DeviantArt ниже).
  • Сохранить доказательства: снимки экрана, URL, дату поиска, ссылки на записи в opt‑out — это пригодится при претензиях.
  • Рассмотреть юридическую консультацию, особенно в случаях массового несанкционированного копирования или коммерческого использования.

Когнитивная модель: как думать о проблеме

  • Контент = вход для модели. Чем больше разнообразных примеров, тем точнее модель подражает.
  • Индексация ≠ контроль. Попадание в датасет часто автоматическое и бессубъектное — это техническая проблема, но с юридическими последствиями.
  • Вмешательство = процесс. Однократное действие редко решает проблему сразу; нужны множественные уровни защиты: технические, социальные и юридические.

Ограничения и случаи, когда метод не сработает

  • Датасет не индексирует ваш сайт: если изображение размещено в закрытом профиле или за paywall, его могло не быть в LAION‑5B.
  • Модель уже обучена: исключение не удалит те веса модели, которые уже были сформированы ранее.
  • Множество копий: даже после удаления оригинала в одном датасете, копии изображения могут существовать в других индексах.
  • Псевдонимы и вариации: если вы публикуете под несколькими именами или в разных форматах, поиск по одному псевдониму не даст полного охвата.

Практические альтернативы и дополнительные меры защиты

  • Водяные знаки и метаданные: вставляйте невидимые метаданные и/или явные водяные знаки в превью‑версии изображений.
  • Публикация с ограничениями: размещайте высококачественные версии только за платным доступом или в закрытых галереях.
  • Лицензирование: указывайте чёткие лицензии и условия использования рядом с изображением.
  • Сообщества и коллективные действия: координатные обращения сообществ художников повышают вероятность реакции платформ и провайдеров датасетов.

DeviantArt: пример платформенной опции для исключения

DeviantArt внедрила настройку, которая по умолчанию помечает загруженные изображения как запрещённые для индексации в датасетах ИИ (метка noai). Это означает, что изображения не предоставляются индексаторам, если пользователь не включил явный индикационный флаг.

Как найти эту настройку на DeviantArt:

  1. Наведите курсор на иконку аккаунта и выберите Account Settings.
  2. В левой колонке — General.
  3. Найдите раздел Tell AI Datasets They Can’t Use Your Content и убедитесь, что опция включена.

Скриншот настройки noai в аккаунте DeviantArt

Учтите: механизм основан на соглашениях и тегировании. Если сторонний индексатор игнорирует такие метки, остаётся вопрос соблюдения условий использования и возможных юридических мер.

Рекомендации для разных ролей

Для художника/фотографа

  • Периодически проверяйте Have I Been Trained? по имени и по ключевым изображениям.
  • Ведите папку с доказательствами (URL, снимки экрана, даты).
  • Используйте встроенные опции платформ (noai на DeviantArt и подобные).
  • Если обнаружили массовый сбор — объединитесь с коллегами и рассмотрите юридические шаги.

Для администратора платформы

  • Реализуйте машинно‑читаемые теги (например, noai) и API для передачи списков исключений в индексы.
  • Документируйте политику и уведомляйте пользователей о возможных рисках.
  • Обеспечьте простые инструменты для массового применения opt‑out (импорт/экспорт списков).

Для исследователя/разработчика ИИ

  • Прозрачно документируйте источники данных и лицензионный статус изображений.
  • Предоставляйте механизмы для удаления/исключения контента по запросу правообладателей.
  • Оценивайте влияние удаления данных на качество и предвзятость моделей.

Мини‑методология: быстрый чек‑лист (SOP) — 10 минут

  1. Откройте Have I Been Trained?.
  2. Введите своё имя/псевдоним; если есть конкретное изображение — загрузите его.
  3. Просмотрите первые 50 результатов — отметьте подозрительные совпадения.
  4. Зарегистрируйтесь и добавьте найденные изображения в opt‑out.
  5. Сохраните скриншоты и ссылки; проверьте список My Lists.
  6. Повторите проверку через 1–2 недели.

Факто‑бокс: ключевые числа и понятия

  • LAION‑5B: около 5.85 миллиарда пар «изображение‑текст» (отфильтровано CLIP).
  • Примеры платформ, использующих Stable Diffusion: NightCafe, Midjourney, DreamStudio (Stable Diffusion используется как основа некоторыми сервисами).
  • Судебный прецедент: иск Getty Images к Stability AI (начало 2023 года) — пример юридических споров вокруг сборов изображений.

Куда обращаться и как документировать претензии

  • Соберите доказательства: URL, дата, скриншоты, экспорт списка opt‑out.
  • Свяжитесь с платформой/индексатором через их канал поддержки.
  • При системном нарушении или коммерческом использовании — консультируйтесь с авторским адвокатом.

Критерии приёмки

  • Можно найти и подтвердить принадлежность минимум 3 оригинальных изображений в LAION‑5B или других индексах.
  • Изображения добавлены в opt‑out и присутствуют в вашем личном списке на сервисе.
  • Получены скриншоты/логи подтверждающие отправку запроса на удаление.

Когда целесообразно не исключать свои изображения

  • Вы используете открытые лицензии (например, лицензию, разрешающую машинное обучение).
  • Вы хотите, чтобы алгоритмы «учились» на вашем творчестве для широкой дистрибуции — это осознанный выбор.
  • Вы публикуете коммерческий портфель, где вам выгодно, чтобы стиль был распространён (например, рекламные шаблоны).

Краткое резюме

  • Проверяйте наличие ваших изображений в открытых датасетах с помощью инструментов вроде Have I Been Trained?.
  • Используйте opt‑out и платформенные настройки там, где они доступны.
  • Собирайте доказательства и действуйте коллективно: сообщество художников уже формирует механизмы защиты.
  • Полная гарантия удаления пока не реализована — комбинация технических, социальных и юридических мер даёт наилучший эффект.

Короткое объявление для соцсетей (100–200 слов)

Если вы художник или фотограф, проверьте, использовались ли ваши работы для обучения генераторов изображений на ИИ. Сервисы вроде Have I Been Trained? ищут совпадения в открытых датасетах (например, LAION‑5B) и позволяют пометить изображения для исключения. Также проверьте настройки площадок, где вы публикуете (DeviantArt уже включает защиту по умолчанию). Собирайте доказательства, используйте opt‑out и объединяйтесь с коллегами — это даёт шанс вернуть контроль над своим творчеством.


Однострочный глоссарий

  • Opt‑out: пометка контента как запрещённого для использования в обучении ИИ.

Контактные заметки

Если вы нашли значительное количество ваших изображений в датасетах и не знаете, что делать дальше, начните с массового экспорта списка совпадений и обратитесь в профильные сообщества художников или к юридическому консультанту.

3D‑рендер стекловидных ядер, расширяющихся от центра, символизирующий нейронную сеть

Четыре изображения собаки в шляпе в стиле Анри Матисса, сгенерированные ИИ

AI‑сгенерированный портрет Фриды Кало, сгенерированный NightCafe

Меню опции исключения изображения на сайте Have I Been Trained?

Галерея изображений в списке исключений на Have I Been Trained?

Поделиться: X/Twitter Facebook LinkedIn Telegram
Автор
Редакция

Похожие материалы

Как найти все понравившиеся записи в Facebook
Социальные сети

Как найти все понравившиеся записи в Facebook

Значение иконок Facebook: полный и понятный гид
Социальные сети

Значение иконок Facebook: полный и понятный гид

Обновление Plex на Synology NAS вручную
NAS

Обновление Plex на Synology NAS вручную

VirtualBox — несколько мониторов для виртуальной машины
Виртуализация

VirtualBox — несколько мониторов для виртуальной машины

Скрыть «Просмотрено» и индикатор набора в Messenger
Privacy

Скрыть «Просмотрено» и индикатор набора в Messenger

Как тактично дистанцироваться в Facebook
Социальные сети

Как тактично дистанцироваться в Facebook