Проверить и исключить свои изображения из датасетов ИИ

Важно: удаление/исключение может занять время и не остановит уже созданные копии, но помогает при следующих итерациях индексации и даёт правовую и этическую основу для требований к компаниям.

К чему этот материал

Проверить, используются ли ваши изображения в открытых датасетах для ИИ.
Понять, откуда берутся обучающие наборы данных и почему это проблема для авторов.
Получить практическую инструкцию по поиску, исключению и дальнейшим шагам.

Основные термины

Датасет: структурированная коллекция изображений и подписей для обучения моделей.
Opt‑out: действие по пометке контента как неразрешённого для использования в обучении ИИ.
LAION‑5B: открытый датасет, упомянутый в статье (5.85 миллиарда пар изображение‑текст).

Как тренируют генераторы изображений на ИИ

Когда вы просите модель сгенерировать «собаку в праздничном колпаке», модель опирается на статистику и примеры из огромных наборов данных. Такие наборы собирают миллиарды ссылок на изображения с интернет‑страниц и сопоставляют их с подписью или текстом. На основе паттернов и сопоставлений модель учится синтезировать изображения, которые выглядят правдоподобно.

Если изображения в датасете защищены авторским правом или принадлежали конкретным авторам без их согласия, то модель фактически «учится» на чужой работе. Это создает этическую, юридическую и экономическую проблему: компании могут монетизировать генерацию изображений, в то время как права и доходы создателей игнорируются.

Почему это проблема для авторов

Экономический ущерб: компании продают доступ к генерации изображений, часть прибыли получается благодаря обучению на чужих работах.
Утрата уникальности стиля: автоматическое воссоздание или имитация фирменного стиля художника размывает рынок и усложняет выявление оригинального автора.
Репутационные риски: изображения в стиле художника могут использоваться в проектах с неприемлемыми или противоречивыми ценностями.
Юридическая неясность: многие компании не раскрывают источники своих датасетов, что затрудняет доказательства и притязания.

Откуда берутся датасеты и как они устроены

Датасеты выглядят как большие таблицы: в одной колонке — ссылка на изображение в интернете, в другой — подпись/описание. Некоторые компании публикуют, какие датасеты они использовали (например, Stability AI указывала LAION‑5B), а другие не раскрывают этих данных (часто это коммерческая практика).

LAION‑5B — открытый датасет с примерно 5.85 миллиардами пар «изображение‑текст», отфильтрованных с помощью CLIP. Открытость дала исследователям и разработчикам доступ к данным, но также привлекла критику и судебные иски: в начале 2023 года Getty Images подала иск к Stability AI за сбор изображений с их сайта.

Как узнать, использовались ли ваши изображения (пошагово)

Ниже — практическая инструкция для авторов, иллюстраторов и фотографов.

Подготовьте материалы
- Список имён/псевдонимов, под которыми вы публикуете.
- Оригинальные файлы изображений и их URL (если есть).
Зайдите на Have I Been Trained? (инструмент, созданный сообществом художников)
- Можно искать по ключевому слову (имя, псевдоним) или загружать изображение для точного сопоставления.
- Поиск по изображению помогает найти точные совпадения или очень похожие копии.
Анализ результатов
- Просмотрите найденные совпадения: исторические фото, фан‑арт, ремиксы.
- Обратите внимание на контекст: откуда взят URL, какие подписи/страницы связаны.
Добавление в список исключений (opt‑out)
- Зарегистрируйтесь на сайте Have I Been Trained? и в личном кабинете пометьте изображения как «исключить». На английском это было «Opt‑out this image», в русскоязычном интерфейсе описывают как «Исключить изображение».
- Изображение попадёт в ваш личный список исключений (My Lists) и будет передано команде, поддерживающей LAION, для удаления из индексированной выборки.
Подтверждение и последующие шаги
- Проверяйте список периодически: удаление может занять время и не устранит уже сделанные копии или производные.
- Дублируйте действия на платформах, где вы размещали изображения (см. раздел про DeviantArt).

Have I Been Trained? — что это и как это работает

Страница поиска Have I Been Trained? с формой ввода и результатами

Сервис выполняет поиск по индексированным данным LAION‑5B и показывает соответствие между вашим запросом (имя, подпись или изображение) и ссылками в датасете. Это работает похоже на поиск изображений в Google, но ориентировано на конкретный открытый датасет.

Пример: при поиске «Frida Kahlo» сервис показал сочетание исторических архивных фото и фан‑арт‑работ — демонстрация того, как широко могут быть представлены разные типы изображений одного артиста в датасете.

Результаты поиска по Frida Kahlo: микс архивных фото и фан‑арта

Что можно сделать, если обнаружено ваше изображение

Добавить изображение в opt‑out через Have I Been Trained?.
Обновить настройки на платформах, где вы публикуете (см. DeviantArt ниже).
Сохранить доказательства: снимки экрана, URL, дату поиска, ссылки на записи в opt‑out — это пригодится при претензиях.
Рассмотреть юридическую консультацию, особенно в случаях массового несанкционированного копирования или коммерческого использования.

Когнитивная модель: как думать о проблеме

Контент = вход для модели. Чем больше разнообразных примеров, тем точнее модель подражает.
Индексация ≠ контроль. Попадание в датасет часто автоматическое и бессубъектное — это техническая проблема, но с юридическими последствиями.
Вмешательство = процесс. Однократное действие редко решает проблему сразу; нужны множественные уровни защиты: технические, социальные и юридические.

Ограничения и случаи, когда метод не сработает

Датасет не индексирует ваш сайт: если изображение размещено в закрытом профиле или за paywall, его могло не быть в LAION‑5B.
Модель уже обучена: исключение не удалит те веса модели, которые уже были сформированы ранее.
Множество копий: даже после удаления оригинала в одном датасете, копии изображения могут существовать в других индексах.
Псевдонимы и вариации: если вы публикуете под несколькими именами или в разных форматах, поиск по одному псевдониму не даст полного охвата.

Практические альтернативы и дополнительные меры защиты

Водяные знаки и метаданные: вставляйте невидимые метаданные и/или явные водяные знаки в превью‑версии изображений.
Публикация с ограничениями: размещайте высококачественные версии только за платным доступом или в закрытых галереях.
Лицензирование: указывайте чёткие лицензии и условия использования рядом с изображением.
Сообщества и коллективные действия: координатные обращения сообществ художников повышают вероятность реакции платформ и провайдеров датасетов.

DeviantArt: пример платформенной опции для исключения

DeviantArt внедрила настройку, которая по умолчанию помечает загруженные изображения как запрещённые для индексации в датасетах ИИ (метка noai). Это означает, что изображения не предоставляются индексаторам, если пользователь не включил явный индикационный флаг.

Как найти эту настройку на DeviantArt:

Наведите курсор на иконку аккаунта и выберите Account Settings.
В левой колонке — General.
Найдите раздел Tell AI Datasets They Can’t Use Your Content и убедитесь, что опция включена.

Скриншот настройки noai в аккаунте DeviantArt

Учтите: механизм основан на соглашениях и тегировании. Если сторонний индексатор игнорирует такие метки, остаётся вопрос соблюдения условий использования и возможных юридических мер.

Мини‑методология: быстрый чек‑лист (SOP) — 10 минут

Откройте Have I Been Trained?.
Введите своё имя/псевдоним; если есть конкретное изображение — загрузите его.
Просмотрите первые 50 результатов — отметьте подозрительные совпадения.
Зарегистрируйтесь и добавьте найденные изображения в opt‑out.
Сохраните скриншоты и ссылки; проверьте список My Lists.
Повторите проверку через 1–2 недели.

Факто‑бокс: ключевые числа и понятия

LAION‑5B: около 5.85 миллиарда пар «изображение‑текст» (отфильтровано CLIP).
Примеры платформ, использующих Stable Diffusion: NightCafe, Midjourney, DreamStudio (Stable Diffusion используется как основа некоторыми сервисами).
Судебный прецедент: иск Getty Images к Stability AI (начало 2023 года) — пример юридических споров вокруг сборов изображений.

Куда обращаться и как документировать претензии

Соберите доказательства: URL, дата, скриншоты, экспорт списка opt‑out.
Свяжитесь с платформой/индексатором через их канал поддержки.
При системном нарушении или коммерческом использовании — консультируйтесь с авторским адвокатом.

Критерии приёмки

Можно найти и подтвердить принадлежность минимум 3 оригинальных изображений в LAION‑5B или других индексах.
Изображения добавлены в opt‑out и присутствуют в вашем личном списке на сервисе.
Получены скриншоты/логи подтверждающие отправку запроса на удаление.

Когда целесообразно не исключать свои изображения

Вы используете открытые лицензии (например, лицензию, разрешающую машинное обучение).
Вы хотите, чтобы алгоритмы «учились» на вашем творчестве для широкой дистрибуции — это осознанный выбор.
Вы публикуете коммерческий портфель, где вам выгодно, чтобы стиль был распространён (например, рекламные шаблоны).

Краткое резюме

Проверяйте наличие ваших изображений в открытых датасетах с помощью инструментов вроде Have I Been Trained?.
Используйте opt‑out и платформенные настройки там, где они доступны.
Собирайте доказательства и действуйте коллективно: сообщество художников уже формирует механизмы защиты.
Полная гарантия удаления пока не реализована — комбинация технических, социальных и юридических мер даёт наилучший эффект.

Короткое объявление для соцсетей (100–200 слов)

Если вы художник или фотограф, проверьте, использовались ли ваши работы для обучения генераторов изображений на ИИ. Сервисы вроде Have I Been Trained? ищут совпадения в открытых датасетах (например, LAION‑5B) и позволяют пометить изображения для исключения. Также проверьте настройки площадок, где вы публикуете (DeviantArt уже включает защиту по умолчанию). Собирайте доказательства, используйте opt‑out и объединяйтесь с коллегами — это даёт шанс вернуть контроль над своим творчеством.

Однострочный глоссарий

Opt‑out: пометка контента как запрещённого для использования в обучении ИИ.

Контактные заметки

Если вы нашли значительное количество ваших изображений в датасетах и не знаете, что делать дальше, начните с массового экспорта списка совпадений и обратитесь в профильные сообщества художников или к юридическому консультанту.

3D‑рендер стекловидных ядер, расширяющихся от центра, символизирующий нейронную сеть