Home Assistant: голосовой TTS через ElevenLabs

Amazon Echo Dot 5-го поколения, показывающий время.

Я всегда любил возможность заставить Alexa сказать любую фразу через Home Assistant. Со временем мне надоела её стандартная озвучка, и я сменил её на спокойный ирландский голос через облачный TTS Home Assistant. Недавно мне пришла в голову идея: а можно ли заменить этот голос на собственный?

Я поигрался с ElevenLabs

ElevenLabs — это компания, которая предлагает набор инструментов для генерации речевых голосов на базе ИИ. В её основе — сервис TTS, который превращает любой текст в естественное звучание на множестве голосов. Можно задавать эмоциональные подсказки, чтобы получить нужный тон; результаты часто впечатляют.

Веб‑страница ElevenLabs с примерами доступных голосов для TTS.

Credit: ElevenLabs

Ещё одна функция ElevenLabs — клонирование голоса. При минимальном наборе аудиозаписей (иногда достаточно десяти секунд) можно создать персональный голос для использования в TTS. После клонирования вы просто вводите текст, и API выдает аудио в нужном голосе.

Есть и другие полезные фичи, например генерация музыки по текстовому описанию. ElevenLabs предоставляет бесплатный тариф с существенными ограничениями: без платного плана вы не сможете клонировать голоса или использовать произвольные кастомные голоса для TTS. Я плачу 5$ в месяц за Starter — этого хватает на ~час синтеза речи в месяц по моему использованию.

Важно: метод, описанный ниже, требует платного аккаунта ElevenLabs — бесплатная версия не позволяет клонировать голоса.

Использование моего голоса в умном доме

Ранее я уже пробовал клонировать свой голос с помощью функции Personal Voice от Apple, но её ограничения мешают практическому применению (например, замена голоса Siri на персональный недоступна). Поэтому я попытался сделать то же самое через ElevenLabs.

Я попросил чат‑бота сгенерировать двухминутный скрипт, который охватил бы разные интонации и ключевые фонетические сочетания — это помогает сделать копию более универсальной. В интерфейсе ElevenLabs выбрал “Create or Clone a Voice” → “Instant Voice Clone” и записал себя по кусочкам по 30 секунд. После каждой записи значок показывал, достаточно ли аудио; в итоге потребовалось шесть записей по 30 секунд.

После нажатия “Next” голос появился за несколько секунд. Я ввёл текст и послушал результат: звучание было пугающе похоже на мой голос. Некоторые слова отличались по произношению, но в целом копия работала отлично.

Оставалось лишь подключить Home Assistant так, чтобы он мог генерировать речь через голосовой профиль ElevenLabs и проигрывать её на моих умных колонках.

Интеграция ElevenLabs в Home Assistant делает всё просто

Преимущество Home Assistant в том, что многие сценарии уже реализованы сообществом в виде интеграций. Существующая интеграция ElevenLabs позволяет использовать любой сохранённый голос из вашего аккаунта: вам нужен API‑ключ ElevenLabs и Voice ID нужного голоса.

Демонстрация использования action tts.speak в Home Assistant для воспроизведения через HomePod mini с указанием Voice ID.

После установки интеграции я сначала проверил воспроизведение на Apple HomePod mini — с ним у меня обычно меньше проблем. В Home Assistant я вызывал действие tts.speak, указывал цель — ElevenLabs, выбирал медиаплеер (мой HomePod), передавал текст как message и добавлял voice_id моей кастомной модели в options. Голос воспроизводился корректно.

Ключевые элементы, которые вам понадобятся:

Аккаунт ElevenLabs с платным тарифом и API‑ключом.
Сохранённая кастомная модель голоса в ElevenLabs с известным voice_id.
Интеграция ElevenLabs в Home Assistant, настроенная с API‑ключом.
Медиа‑плеер в Home Assistant (HomePod, Echo, Sonos и т. п.), которому вы будете отправлять звук.

Самая сложная часть — заставить Echo воспроизводить мой голос

Когда всё работало на HomePod, я стал пробовать Echo, используя Alexa Media Player интеграцию. Результат был не тем: вместо моего голоса Alexa говорила стандартно и сообщала “I’m having trouble accessing your Simon Says skill right now.” — сообщение, которое я не ожидал.

Проблема частая: Echo и Alexa Media Player требовательны к формату аудио, и интеграция иногда отказывается принимать данные. Я потратил много времени на попытки конвертации и настройки форматов без успеха.

Решение оказалось неожиданно простым: сменить медиаплеер на тот, который предоставляет Music Assistant. При использовании медиаплеера через Music Assistant звук начал воспроизводиться корректно на всех моих колонках Echo. Причина точного поведения Alexa остаётся непрозрачной, но на практике Music Assistant исправил несовместимость форматов.

Теперь все мои объявления — например, уведомление о выносе мусора по пятницам — проигрываются в моём голосе на всех колонках.

Пошаговое руководство — что надо сделать

Ниже — упрощённый SOP для воспроизведения собственного голоса через Home Assistant и ElevenLabs.

Зарегистрируйтесь в ElevenLabs и оформите платный план (минимум Starter, если план предполагает клонирование голосов).
Подготовьте скрипт (~1–2 минуты) с разнообразными фразами и звуками для записи.
В интерфейсе ElevenLabs выберите Create/Clone Voice → Instant Voice Clone и запишите голос по частям до полного заполнения индикатора качества.
Сохраните voice_id копии голоса в профиле ElevenLabs.
В Home Assistant установите интеграцию ElevenLabs и вставьте API‑ключ.
Протестируйте воспроизведение на медиаплеере, который уже надёжен у вас (например, HomePod).
Если Echo не воспроизводит корректно через Alexa Media Player — установите и настройте Music Assistant и выберите медиаплеер Music Assistant для реплея.
Автоматизируйте: создайте автоматизацию, которая вызывает сервис tts.speak с message и options.voice_id и target/mediaplayer.

Пример вызова сервиса (общая схема):

service: tts.speak
target:
  entity_id: media_player.kitchen_speaker
data:
  message: "Сегодня вынос мусора: хрупкий и органика"
  options:
    voice_id: "your_custom_voice_id_here"

Примечание: фактические поля data/options зависят от конкретной реализации интеграции ElevenLabs в вашей сборке Home Assistant. Всегда сверяйтесь с документацией интеграции.

Критерии приёмки

Голос воспроизводится на контрольных медиаплеерах (HomePod, Echo) без ошибок.
Интонация и узнаваемость голоса приемлемы для повседневных объявлений.
Автоматизация срабатывает без длительных задержек (>5 с) для локальных объявлений.
Сообщения синхронизируются по всей системе и не конфликтуют с другими медиасессиями.

Чек‑лист для ролей

Владелец системы:

Проверить, согласны ли участники дома на клонирование их голосов.
Оплатить ElevenLabs‑аккаунт.

Интегратор / администратор Home Assistant:

Получить и сохранить API‑ключ ElevenLabs.
Установить интеграцию ElevenLabs и Music Assistant.
Протестировать воспроизведение на всех целевых устройствах.

Пользователь (обычный член семьи):

Ознакомиться с правилами использования и честного применения голосов.
Дать явное согласие, если планируется клонировать их голос.

Когда это не сработает и альтернативы

Когда это не подойдёт:

У вас нет платного аккаунта ElevenLabs — клонирование недоступно.
Это нарушает юридические или этические границы (клонирование голоса без согласия).
Echo отказывается принимать аудио в любых конфигурациях, и Music Assistant не помогает (редкий краевой случай).

Альтернативы:

Apple Personal Voice — хороша для приватного использования на устройствах Apple, но ограничена интеграцией в экосистеме Apple.
Amazon Polly — коммерческий TTS от AWS, поддерживает множество голосов и языков, проще интегрируется с продуктами AWS/Alexa, но не даёт простого клонирования пользовательских голосов.
Локальные open‑source решения (Coqui TTS, Mozilla TTS) — подходят для тех, кто хочет держать данные локально, но требуют вычислительных ресурсов и настройки.

Модель принятия решения (Mermaid)

flowchart TD
  A[Нужен кастомный голос?] -->|Нет| B[Использовать стандартные голоса]
  A -->|Да| C[Имеется платный ElevenLabs?]
  C -->|Нет| D[Рассмотреть Apple/Polly/локальный TTS]
  C -->|Да| E[Клонировать голос в ElevenLabs]
  E --> F{Echo воспроизводит?}
  F -->|Да| G[Готово]
  F -->|Нет| H[Применить Music Assistant]
  H --> I{Работает теперь?}
  I -->|Да| G
  I -->|Нет| J[Искать альтернативы/отлаживать формат]

Этические и юридические замечания

Клонирование чужого голоса без явного согласия может привести к правовым и этическим последствиям. ElevenLabs может блокировать аккаунты за злоупотребления. Иконные и защищённые голоса (например, знаменитостей) имеют отдельные лицензионные условия и, как правило, доступны только для коммерческой лицензии. Всегда получайте письменное согласие того, чей голос вы клонируете.

Практические советы и эвристики

Короткие скрипты с разной интонацией помогают получить более универсальную модель.
Тестируйте сначала на нейтральных устройствах (HomePod), затем переносите на другие.
Если Echo ведёт себя странно, проверьте журнал Home Assistant на ошибки формата/кодека.
Держите запасной голос (например, облачный TTS Home Assistant) на случай, если кастомная модель недоступна.

Мини‑методология настройки

Подготовка: сценарий, аккаунт, устройства.
Сбор данных: запись голоса по сценарию, проверка качества.
Клонирование: загрузка и генерация voice_id в ElevenLabs.
Интеграция: подключение API в Home Assistant.
Тестирование: HomePod → Echo (Music Assistant) → все устройства.
Автоматизация и мониторинг: создавать и проверять автоматизации, логировать ошибки.

Небольшой словарь (1‑строчные определения)

TTS: Text‑to‑Speech — преобразование текста в речь.
Voice ID: идентификатор сохранённой голосовой модели в ElevenLabs.
Music Assistant: интеграция в Home Assistant для управления музыкой и воспроизведением на смарт‑колонках.
Alexa Media Player: интеграция, предоставляющая управление устройствами Amazon Echo в Home Assistant.

Короткое резюме

Использование кастомного голоса через ElevenLabs и Home Assistant делает объявления в умном доме более личными и гибкими. Ключевые шаги — клонирование голоса в ElevenLabs, подключение интеграции и корректный выбор медиаплеера (для Echo часто помогает Music Assistant). Не забывайте про легальные и этические ограничения.

Важно: подход требует платного аккаунта ElevenLabs для клонирования голосов и может не подходить для случаев без согласия всех участников.

Summary:

Использование собственного голоса через ElevenLabs и Home Assistant реально и даёт очень персональную систему оповещений — при соблюдении правовых и технических условий. Если Echo не воспроизводит голос напрямую, переключение на Music Assistant часто решает проблему.