Конвертация PDF в аудиокнигу на Python

Превращение PDF в аудиокнигу с помощью Python — процесс извлечения текста и генерации речи

Зачем это нужно

Аудиокниги удобнее читать в дороге, при занятиях спортом или при работе руками. Скрипт, который конвертирует PDF в аудиофайл, позволяет быстро получить озвученную версию без ручной записи.

Что понадобится

Python 3.x
Пакеты: PyPDF3, pyttsx3, pdfplumber

Краткие определения:

PDF — формат документа. Если текст представлен как изображение, нужен OCR (оптическое распознавание).
TTS (text-to-speech) — преобразование текста в речь.

Установка нужных пакетов

Запустите в терминале:

pip install PyPDF3 pyttsx3 pdfplumber

PyPDF3: чтение и базовая работа с PDF.
pdfplumber: извлечение текста и таблиц из страниц PDF.
pyttsx3: офлайн TTS-движок для Python.

Важно: для сканированных PDF pdfplumber не извлечёт текст — понадобится OCR (см. раздел «Альтернативные подходы»).

Простой рабочий пример

Импортируем библиотеки и укажем файл:

import PyPDF3  
import pyttsx3  
import pdfplumber

file = 'Lorem.pdf'

Создаём объекты для чтения PDF:

book = open(file, 'rb')  
pdfReader = PyPDF3.PdfFileReader(book)

Определяем количество страниц:

pages = pdfReader.numPages

Извлекаем текст со всех страниц и складываем в переменную:

finalText = ""  
  
with pdfplumber.open(file) as pdf:  
    for i in range(0, pages):  
        page = pdf.pages[i]  
        text = page.extract_text()  
        finalText += text

Генерируем аудиофайл (или сразу воспроизводим):

engine = pyttsx3.init()  
engine.save_to_file(finalText, 'lorem.mp3')  
engine.runAndWait()

Или без сохранения, только воспроизведение:

engine = pyttsx3.init()  
engine.say(finalText)  
engine.runAndWait()

Полезные настройки pyttsx3 (шпаргалка)

Ниже — несколько часто используемых параметров для улучшения качества речи:

engine = pyttsx3.init()
engine.setProperty('rate', 150)   # скорость речи (слов/мин)
engine.setProperty('volume', 0.9) # громкость 0.0–1.0
voices = engine.getProperty('voices')
engine.setProperty('voice', voices[0].id) # выбрать голос по индексу

Примечание: доступность голосов зависит от ОС и установленных голосовых движков.

Важно: pyttsx3 работает офлайн, но качество голосов базовое. Для естественности речи рассматривайте облачные TTS-сервисы.

Когда этот подход НЕ подойдёт (контрпримеры)

PDF — отсканированное изображение страницы: pdfplumber не извлечёт текст. Нужен OCR (Tesseract, Google Vision).
PDF защищён паролем или зашифрован — предварительно нужно снять защиту или использовать библиотеку, которая поддерживает расшифровку.
Очень большие книги (>1000 страниц): лучше дробить на главы и генерировать отдельные файлы, чтобы избежать проблем с памятью и ограничениями TTS.
Языки и шрифты, не поддерживаемые движком TTS — потребуется голос, который понимает соответствующую локаль.

Альтернативные подходы

Облачные TTS (Google Cloud Text-to-Speech, Amazon Polly, Azure TTS) — качественные голоса и многозадачность, но платные и требуют отправки текста на сервер.
gTTS — простой интерфейс к Google Translate TTS (нужен интернет, может быть ограничен для больших объёмов).
Использовать OCR (pytesseract) для сканированных PDF: сначала конвертировать страницы в изображения, распознать текст, затем синтезировать речь.

Мини-методология: шаги проекта

Анализ PDF: проверить, текстовый ли файл или скан.
Предобработка: удалить лишние пробелы, заголовки страницы, номера страниц (если нужно).
Дробление: разделить текст на логические блоки (главы, параграфы) для устойчивой генерации.
Синтез речи: настроить параметры TTS.
Сохранение/публикация: сохранить файлы и проверить метаданные (название, автор).

Контроль качества и критерии приёмки

Файл создаётся и открывается в стандартных плеерах.
Текст соответствуют ключевым разделам PDF (проверка по выборочным фрагментам).
Отсутствие явных искажений речи в большинстве прослушанных отрывков.
Размеры выходных файлов соответствуют ожиданиям (например, ~1–2 МБ на 10 минут при низком битрейте).

Тест-кейсы (примеры)

Небольшой PDF (1 страница) — ожидаемая длина аудио <1 мин.
Многостраничный текстовый PDF (50 страниц) — без ошибок извлечения, аудио генерируется.
Сканированный PDF — скрипт должен детектировать отсутствие извлечённого текста и предлагать OCR.

Роли и чек-листы

Разработчик: установить зависимости, реализовать обработку ошибок, логирование, разбивку на главы.
QA: прогнать тест-кейсы, оценить качество речи и соответствие текста.
Нон-тех пользователь: удобный интерфейс (GUI/CLI), опция «только чтение» или «сохранить как MP3».

Конфигурационные подсказки и шаблоны

Разбивка текста по абзацам: безопаснее генерировать речь для блоков по 2000–5000 символов.
Формат выходного файла: MP3 для распространения, WAV для дальнейшей обработки.

Пример функции-обёртки для сохранения с настройками:

def save_pdf_as_audio(file_path, out_file='out.mp3', rate=150, volume=0.9):
    import pdfplumber, pyttsx3, PyPDF3
    book = open(file_path, 'rb')
    pdfReader = PyPDF3.PdfFileReader(book)
    pages = pdfReader.numPages
    finalText = ''
    with pdfplumber.open(file_path) as pdf:
        for i in range(0, pages):
            page = pdf.pages[i]
            text = page.extract_text() or ''
            finalText += '\n' + text
    engine = pyttsx3.init()
    engine.setProperty('rate', rate)
    engine.setProperty('volume', volume)
    engine.save_to_file(finalText, out_file)
    engine.runAndWait()

Безопасность и конфиденциальность

Если PDF содержит личные или чувствительные данные, не отправляйте текст в облачные TTS без проверки политики конфиденциальности сервиса.
Для локальной обработки используйте офлайн-движки (pyttsx3) и держите данные локально.

Локализация и языки

Убедитесь, что выбранный голос поддерживает язык документа. Для некоторых языков удобнее использовать облачные провайдеры с поддержкой локалей.

Советы по производительности

Разбивайте большие документы на главы и генерируйте несколько файлов параллельно.
Кэшируйте результаты OCR, если повторно обрабатываете те же страницы.

Краткая глоссарий терминов

OCR: распознавание текста с изображений.
TTS: синтезатор речи.
pdfplumber: библиотека для извлечения текста из PDF.

Короткое резюме

Подготовьте окружение и установите PyPDF3, pdfplumber и pyttsx3.
Извлеките текст, обработайте и по желанию разбейте на части.
Синтезируйте речь и сохраните аудиофайлы.

Если вам нужно, могу добавить пример с OCR (pytesseract) или показать, как подключить облачный TTS (Google/Polly) — напишите, какой вариант предпочитаете.