Узнайте, использовались ли ваши изображения для обучения генераторов изображений на ИИ
Важно: удаление/исключение может занять время и не остановит уже созданные копии, но помогает при следующих итерациях индексации и даёт правовую и этическую основу для требований к компаниям.
К чему этот материал
- Проверить, используются ли ваши изображения в открытых датасетах для ИИ.
- Понять, откуда берутся обучающие наборы данных и почему это проблема для авторов.
- Получить практическую инструкцию по поиску, исключению и дальнейшим шагам.
Основные термины
- Датасет: структурированная коллекция изображений и подписей для обучения моделей.
- Opt‑out: действие по пометке контента как неразрешённого для использования в обучении ИИ.
- LAION‑5B: открытый датасет, упомянутый в статье (5.85 миллиарда пар изображение‑текст).
Как тренируют генераторы изображений на ИИ
Когда вы просите модель сгенерировать «собаку в праздничном колпаке», модель опирается на статистику и примеры из огромных наборов данных. Такие наборы собирают миллиарды ссылок на изображения с интернет‑страниц и сопоставляют их с подписью или текстом. На основе паттернов и сопоставлений модель учится синтезировать изображения, которые выглядят правдоподобно.
Если изображения в датасете защищены авторским правом или принадлежали конкретным авторам без их согласия, то модель фактически «учится» на чужой работе. Это создает этическую, юридическую и экономическую проблему: компании могут монетизировать генерацию изображений, в то время как права и доходы создателей игнорируются.
Почему это проблема для авторов
- Экономический ущерб: компании продают доступ к генерации изображений, часть прибыли получается благодаря обучению на чужих работах.
- Утрата уникальности стиля: автоматическое воссоздание или имитация фирменного стиля художника размывает рынок и усложняет выявление оригинального автора.
- Репутационные риски: изображения в стиле художника могут использоваться в проектах с неприемлемыми или противоречивыми ценностями.
- Юридическая неясность: многие компании не раскрывают источники своих датасетов, что затрудняет доказательства и притязания.
Откуда берутся датасеты и как они устроены
Датасеты выглядят как большие таблицы: в одной колонке — ссылка на изображение в интернете, в другой — подпись/описание. Некоторые компании публикуют, какие датасеты они использовали (например, Stability AI указывала LAION‑5B), а другие не раскрывают этих данных (часто это коммерческая практика).
LAION‑5B — открытый датасет с примерно 5.85 миллиардами пар «изображение‑текст», отфильтрованных с помощью CLIP. Открытость дала исследователям и разработчикам доступ к данным, но также привлекла критику и судебные иски: в начале 2023 года Getty Images подала иск к Stability AI за сбор изображений с их сайта.
Как узнать, использовались ли ваши изображения (пошагово)
Ниже — практическая инструкция для авторов, иллюстраторов и фотографов.
Подготовьте материалы
- Список имён/псевдонимов, под которыми вы публикуете.
- Оригинальные файлы изображений и их URL (если есть).
Зайдите на Have I Been Trained? (инструмент, созданный сообществом художников)
- Можно искать по ключевому слову (имя, псевдоним) или загружать изображение для точного сопоставления.
- Поиск по изображению помогает найти точные совпадения или очень похожие копии.
Анализ результатов
- Просмотрите найденные совпадения: исторические фото, фан‑арт, ремиксы.
- Обратите внимание на контекст: откуда взят URL, какие подписи/страницы связаны.
Добавление в список исключений (opt‑out)
- Зарегистрируйтесь на сайте Have I Been Trained? и в личном кабинете пометьте изображения как «исключить». На английском это было «Opt‑out this image», в русскоязычном интерфейсе описывают как «Исключить изображение».
- Изображение попадёт в ваш личный список исключений (My Lists) и будет передано команде, поддерживающей LAION, для удаления из индексированной выборки.
Подтверждение и последующие шаги
- Проверяйте список периодически: удаление может занять время и не устранит уже сделанные копии или производные.
- Дублируйте действия на платформах, где вы размещали изображения (см. раздел про DeviantArt).
Have I Been Trained? — что это и как это работает
Сервис выполняет поиск по индексированным данным LAION‑5B и показывает соответствие между вашим запросом (имя, подпись или изображение) и ссылками в датасете. Это работает похоже на поиск изображений в Google, но ориентировано на конкретный открытый датасет.
Пример: при поиске «Frida Kahlo» сервис показал сочетание исторических архивных фото и фан‑арт‑работ — демонстрация того, как широко могут быть представлены разные типы изображений одного артиста в датасете.
Что можно сделать, если обнаружено ваше изображение
- Добавить изображение в opt‑out через Have I Been Trained?.
- Обновить настройки на платформах, где вы публикуете (см. DeviantArt ниже).
- Сохранить доказательства: снимки экрана, URL, дату поиска, ссылки на записи в opt‑out — это пригодится при претензиях.
- Рассмотреть юридическую консультацию, особенно в случаях массового несанкционированного копирования или коммерческого использования.
Когнитивная модель: как думать о проблеме
- Контент = вход для модели. Чем больше разнообразных примеров, тем точнее модель подражает.
- Индексация ≠ контроль. Попадание в датасет часто автоматическое и бессубъектное — это техническая проблема, но с юридическими последствиями.
- Вмешательство = процесс. Однократное действие редко решает проблему сразу; нужны множественные уровни защиты: технические, социальные и юридические.
Ограничения и случаи, когда метод не сработает
- Датасет не индексирует ваш сайт: если изображение размещено в закрытом профиле или за paywall, его могло не быть в LAION‑5B.
- Модель уже обучена: исключение не удалит те веса модели, которые уже были сформированы ранее.
- Множество копий: даже после удаления оригинала в одном датасете, копии изображения могут существовать в других индексах.
- Псевдонимы и вариации: если вы публикуете под несколькими именами или в разных форматах, поиск по одному псевдониму не даст полного охвата.
Практические альтернативы и дополнительные меры защиты
- Водяные знаки и метаданные: вставляйте невидимые метаданные и/или явные водяные знаки в превью‑версии изображений.
- Публикация с ограничениями: размещайте высококачественные версии только за платным доступом или в закрытых галереях.
- Лицензирование: указывайте чёткие лицензии и условия использования рядом с изображением.
- Сообщества и коллективные действия: координатные обращения сообществ художников повышают вероятность реакции платформ и провайдеров датасетов.
DeviantArt: пример платформенной опции для исключения
DeviantArt внедрила настройку, которая по умолчанию помечает загруженные изображения как запрещённые для индексации в датасетах ИИ (метка noai). Это означает, что изображения не предоставляются индексаторам, если пользователь не включил явный индикационный флаг.
Как найти эту настройку на DeviantArt:
- Наведите курсор на иконку аккаунта и выберите Account Settings.
- В левой колонке — General.
- Найдите раздел Tell AI Datasets They Can’t Use Your Content и убедитесь, что опция включена.
Учтите: механизм основан на соглашениях и тегировании. Если сторонний индексатор игнорирует такие метки, остаётся вопрос соблюдения условий использования и возможных юридических мер.
Рекомендации для разных ролей
Для художника/фотографа
- Периодически проверяйте Have I Been Trained? по имени и по ключевым изображениям.
- Ведите папку с доказательствами (URL, снимки экрана, даты).
- Используйте встроенные опции платформ (noai на DeviantArt и подобные).
- Если обнаружили массовый сбор — объединитесь с коллегами и рассмотрите юридические шаги.
Для администратора платформы
- Реализуйте машинно‑читаемые теги (например, noai) и API для передачи списков исключений в индексы.
- Документируйте политику и уведомляйте пользователей о возможных рисках.
- Обеспечьте простые инструменты для массового применения opt‑out (импорт/экспорт списков).
Для исследователя/разработчика ИИ
- Прозрачно документируйте источники данных и лицензионный статус изображений.
- Предоставляйте механизмы для удаления/исключения контента по запросу правообладателей.
- Оценивайте влияние удаления данных на качество и предвзятость моделей.
Мини‑методология: быстрый чек‑лист (SOP) — 10 минут
- Откройте Have I Been Trained?.
- Введите своё имя/псевдоним; если есть конкретное изображение — загрузите его.
- Просмотрите первые 50 результатов — отметьте подозрительные совпадения.
- Зарегистрируйтесь и добавьте найденные изображения в opt‑out.
- Сохраните скриншоты и ссылки; проверьте список My Lists.
- Повторите проверку через 1–2 недели.
Факто‑бокс: ключевые числа и понятия
- LAION‑5B: около 5.85 миллиарда пар «изображение‑текст» (отфильтровано CLIP).
- Примеры платформ, использующих Stable Diffusion: NightCafe, Midjourney, DreamStudio (Stable Diffusion используется как основа некоторыми сервисами).
- Судебный прецедент: иск Getty Images к Stability AI (начало 2023 года) — пример юридических споров вокруг сборов изображений.
Куда обращаться и как документировать претензии
- Соберите доказательства: URL, дата, скриншоты, экспорт списка opt‑out.
- Свяжитесь с платформой/индексатором через их канал поддержки.
- При системном нарушении или коммерческом использовании — консультируйтесь с авторским адвокатом.
Критерии приёмки
- Можно найти и подтвердить принадлежность минимум 3 оригинальных изображений в LAION‑5B или других индексах.
- Изображения добавлены в opt‑out и присутствуют в вашем личном списке на сервисе.
- Получены скриншоты/логи подтверждающие отправку запроса на удаление.
Когда целесообразно не исключать свои изображения
- Вы используете открытые лицензии (например, лицензию, разрешающую машинное обучение).
- Вы хотите, чтобы алгоритмы «учились» на вашем творчестве для широкой дистрибуции — это осознанный выбор.
- Вы публикуете коммерческий портфель, где вам выгодно, чтобы стиль был распространён (например, рекламные шаблоны).
Краткое резюме
- Проверяйте наличие ваших изображений в открытых датасетах с помощью инструментов вроде Have I Been Trained?.
- Используйте opt‑out и платформенные настройки там, где они доступны.
- Собирайте доказательства и действуйте коллективно: сообщество художников уже формирует механизмы защиты.
- Полная гарантия удаления пока не реализована — комбинация технических, социальных и юридических мер даёт наилучший эффект.
Короткое объявление для соцсетей (100–200 слов)
Если вы художник или фотограф, проверьте, использовались ли ваши работы для обучения генераторов изображений на ИИ. Сервисы вроде Have I Been Trained? ищут совпадения в открытых датасетах (например, LAION‑5B) и позволяют пометить изображения для исключения. Также проверьте настройки площадок, где вы публикуете (DeviantArt уже включает защиту по умолчанию). Собирайте доказательства, используйте opt‑out и объединяйтесь с коллегами — это даёт шанс вернуть контроль над своим творчеством.
Однострочный глоссарий
- Opt‑out: пометка контента как запрещённого для использования в обучении ИИ.
Контактные заметки
Если вы нашли значительное количество ваших изображений в датасетах и не знаете, что делать дальше, начните с массового экспорта списка совпадений и обратитесь в профильные сообщества художников или к юридическому консультанту.

Похожие материалы
Как найти все понравившиеся записи в Facebook
Значение иконок Facebook: полный и понятный гид
Обновление Plex на Synology NAS вручную
VirtualBox — несколько мониторов для виртуальной машины
Скрыть «Просмотрено» и индикатор набора в Messenger