Анализ локальных документов с LangChain и OpenAI

Введение

Монитор на рабочем столе с логотипом OpenAI

Извлечение инсайтов из документов и данных помогает принимать обоснованные решения. Однако при работе с конфиденциальной информацией возникают вопросы приватности. Комбинация LangChain и OpenAI позволяет анализировать локальные документы, не загружая их на сторонний сервер — данные остаются в вашей среде, используются эмбеддинги и векторные индексы для поиска, а вычисления происходят в вашем окружении.

Важно: OpenAI не использует данные, отправляемые клиентами через API, для обучения своих моделей, если это явно не разрешено настройками аккаунта. Тем не менее всегда применяйте лучшие практики безопасности при работе с секретами и чувствительной информацией.

Что вы получите из этого руководства

Пошаговая настройка окружения и установка библиотек.
Код для загрузки PDF/текстовых файлов, разбиения на фрагменты и создания эмбеддингов.
Создание локального векторного индекса с FAISS и организация интерактивного запроса.
Рекомендации по безопасности, альтернативные подходы и роли/чеклисты для внедрения.

Основные термины (1‑строчные определения)

Эмбеддинг — числовой вектор, представляющий смысл текста.
Векторный индекс — структура для быстрого поиска похожих эмбеддингов.
Chunk (фрагмент) — часть документа, полученная разбиением по символам.

Настройка окружения

Создайте новое виртуальное окружение Python, чтобы избежать конфликтов версий. Затем выполните установку необходимых библиотек:

pip install langchain openai tiktoken faiss-cpu pypdf

Обзор используемых библиотек:

LangChain: управление «цепочками» обработки текста, загрузка документов, сплиттеры, эмбеддинги, векторные хранилища и готовые цепочки запросов.
OpenAI: подключение к моделям для генерации и вопросов‑ответов.
tiktoken: подсчёт токенов для контроля затрат и ограничения запросов.
FAISS: локальный быстрый векторный индекс для поиска похожих фрагментов.
PyPDF: извлечение текста из PDF.

После установки окружение готово к работе.

Получение OpenAI API‑ключа

Чтобы отправлять запросы к OpenAI, нужен секретный API‑ключ. На платформе OpenAI в аккаунте откройте раздел управления ключами и создайте новый секретный ключ. Скопируйте его и храните в безопасном месте — просмотреть созданный ключ позже нельзя.

Страница OpenAI с ключами API

На странице аккаунта нажмите «View API keys», затем «Create new secret key», задайте имя ключа и сохраните секрет в безопасном хранилище (менеджер паролей, переменные окружения, секретный менеджер).

Интерфейс создания нового секретного ключа OpenAI

Важное замечание: для продакшна никогда не храните ключи в исходниках. Используйте переменные окружения или секрет‑менеджеры.

Импорт необходимых модулей

Ниже — пример импорта модулей из LangChain и связанного стекa. Скопируйте и вставьте в ваш скрипт:

from langchain.document_loaders import PyPDFLoader, TextLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI

Эти импорты дают доступ к загрузчикам документов, сплиттерам, классу эмбеддингов OpenAI, интерфейсу FAISS и готовой цепочке RetrievalQA.

Загрузка и разбиение документа

Сначала создайте переменную для хранения API‑ключа. Для примера ниже показан хардкод, но это не рекомендуется в реальном проекте:

# Hardcoded API key
openai_api_key = "Your API key"

Рекомендуется использовать переменные окружения: export OPENAI_API_KEY=”…” (Linux/macOS) или setx на Windows.

Функция загрузки документа, которая поддерживает PDF и TXT, и выбрасывает ошибку для неподдерживаемых форматов:

def load_document(filename):
    if filename.endswith(".pdf"):
        loader = PyPDFLoader(filename)
        documents = loader.load()
    elif filename.endswith(".txt"):
        loader = TextLoader(filename)
        documents = loader.load()
    else:
        raise ValueError("Invalid file type")

    text_splitter = CharacterTextSplitter(chunk_size=1000,
                                         chunk_overlap=30, separator="\n")

    return text_splitter.split_documents(documents=documents)

Пояснения:

chunk_size=1000 — размер фрагмента в символах; подходит для большинства задач, можно увеличить/уменьшить.
chunk_overlap=30 — перекрытие между фрагментами, чтобы сохранить контекст.

Создание эмбеддингов и векторного индекса

После загрузки и разбиения документа создаётся объект эмбеддингов и индекс FAISS, который затем сохраняется локально:

embeddings = OpenAIEmbeddings(openai_api_key=openai_api_key)
vectorstore = FAISS.from_documents(docs, embeddings)
vectorstore.save_local("faiss_index_constitution")

Позже индекс можно загрузить:

persisted_vectorstore = FAISS.load_local("faiss_index_constitution", embeddings)

Почему важно сохранять индекс локально:

Повторное пересоздание эмбеддингов стоит времени и денег — сохранённый индекс ускоряет повторный запуск.
Локальное хранение даёт контроль над конфиденциальностью данных.

Запросы к документу (QA)

Функция для выполнения запросов к документу через RetrievalQA:

def query_pdf(query, retriever):
    qa = RetrievalQA.from_chain_type(llm=OpenAI(openai_api_key=openai_api_key),
                                     chain_type="stuff", retriever=retriever)
    result = qa.run(query)
    print(result)

Это создаёт простую цепочку, которая извлекает релевантные фрагменты из FAISS и передаёт их модели OpenAI для формирования ответа.

Ключевые параметры, которые можно настроить в OpenAI(…) — модель (model_name), параметры температуры и максимальное число токенов.

Основная управляющая функция

Ниже — пример основной функции, которая связывает загрузку документа, создание индекса и интерактивный цикл запросов:

def main():
    filename = input("Enter the name of the document (.pdf or .txt):\n")
    docs = load_document(filename)
    embeddings = OpenAIEmbeddings(openai_api_key=openai_api_key)
    vectorstore = FAISS.from_documents(docs, embeddings)
    vectorstore.save_local("faiss_index_constitution")
    persisted_vectorstore = FAISS.load_local("faiss_index_constitution", embeddings)
    query = input("Type in your query (type 'exit' to quit):\n")

    while query != "exit":
        query_pdf(query, persisted_vectorstore.as_retriever())
        query = input("Type in your query (type 'exit' to quit):\n")

if __name__ == "__main__":
    main()

Этот код создаёт приложение командной строки. При желании его можно расширить веб‑интерфейсом (напр., Streamlit) или интегрировать в сервис.

Запуск анализа

Поместите анализируемые файлы в ту же папку, где запускается скрипт. Программа попросит ввести имя файла и затем позволит задавать вопросы в интерактивном режиме.

Пример результата анализа PDF в терминале:

Результат анализа PDF: вывод в терминале

Пример результата анализа исходного кода в текстовом файле:

Вывод работы программы: анализ исходного кода в терминале

Если ваши документы в другом формате, сначала конвертируйте их в PDF или TXT с помощью проверенных инструментов.

Когда этот подход подходит, а когда нет

Подходит, если вы хотите сохранять данные локально, минимизировать облачный доступ и быстро получать ответы на вопросы по документам.
Может не подойти, если у вас потоковые данные с высокой частотой обновления, когда потребуется автоматическое и распределённое обновление индексов; в таких случаях имеет смысл использовать управляемые векторные базы данных или облачные сервисы.

Контрпример: короткие заметки с небольшим объёмом текста не всегда требуют сложной векторизации — простой поиск по ключевым словам может быть быстрее и дешевле.

Альтернативные подходы

Локальная модель (LLM) + эмбеддинги: если политика безопасности запрещает любой внешний API‑вызов, можно использовать локально развёрнутые модели (например, LoRA/ggml‑модели) и собственные эмбеддинги.
Управляемые векторные сервисы (Pinecone, Weaviate): удобнее для масштабирования и синхронизации, но предполагают передачу метаданных в облако.
Простые полнотекстовые поисковые движки (Elasticsearch, SQLite FTS): для многих задач полнотекстовый поиск достаточен и проще в поддержке.

Риски и рекомендации по безопасности

Никогда не храните открытый API‑ключ в репозитории.
Ограничьте права ключа, если платформа это поддерживает (срок действия, IP‑ограничения).
Шифруйте локальные файлы с чувствительными данными, используйте управление доступом к файлам.
В логах не выводите содержимое документов целиком.

Краткие mitigations:

Хранение секретов: переменные окружения, HashiCorp Vault или облачные секрет‑менеджеры.
Контроль доступа: запускать анализ в изолированном окружении с минимальными правами.

Роли и чеклисты при внедрении

Разбейте ответственность между ролями:

Разработчик:
- Настроить виртуальное окружение.
- Реализовать загрузку и сплиттер.
- Интегрировать FAISS и сохранение индекса.
Секьюрити/операции:
- Обеспечить безопасное хранение API‑ключей.
- Установить политику доступа к документам.
Менеджер продукта:
- Согласовать требуемые сценарии вопросов и ожидания по качеству ответов.

Мини‑методология для оценки работы приложения

Выберите 5–10 репрезентативных документов.
Сформулируйте 20 контрольных запросов (факты, уточнения, контекст).
Оцените ответы по 3 критериям: корректность, полнота, релевантность.
Настройте chunk_size/chunk_overlap и модель, чтобы улучшить метрики.

Критерии приёмки

Приложение корректно загружает PDF и TXT файлы.
Индекс FAISS создаётся и сохраняется локально.
Для контрольной выборки ответ точен в ≥80% случаев (оценка вручную).
Отсутствуют утечки секретов в логах или репозитории.

Тестовые случаи и приёмка

TC1: Загрузка файла sample.pdf — успешно, >0 фрагментов.
TC2: Некорректный формат file.docx — функция load_document выбрасывает ValueError.
TC3: Интерактивный запрос возвращает ответ и не падает при повторных запросах.

Небольшой справочник (1‑строчные определения)

FAISS — библиотека для поиска по векторным представлениям.
RetrievalQA — цепочка LangChain, сочетающая retrieval и LLM.
tiktoken — счётчик токенов для моделей OpenAI.

Decision flowchart

flowchart TD
  A[Начало] --> B{Есть ли PDF или TXT?}
  B -- Да --> C[Загрузить документ]
  B -- Нет --> D[Конвертация в PDF/TXT]
  C --> E[Разбить на фрагменты]
  E --> F[Создать эмбеддинги]
  F --> G[Построить FAISS индекс]
  G --> H[Сохранить индекс локально]
  H --> I[Интерактивные запросы]
  I --> J{Нужна веб‑версия?}
  J -- Да --> K[Добавить Streamlit/Flask]
  J -- Нет --> L[Конец]

Советы по оптимизации качества ответов

Экспериментируйте с размером фрагмента: для длинных юридических текстов лучше больше контекста; для кодов — меньше.
Понизьте температуру модели для более детерминированных ответов.
Фильтруйте и нормализуйте текст перед эмбеддингом (удаление лишних пробелов, метаданных, OCR‑артефактов).

Локальные альтернативы и подводные камни

Локальные LLM требуют значительных ресурсов (GPU/память). Подумайте о компромиссе между безопасностью и стоимостью инфраструктуры.
Конвертация документов: автоматические конверторы иногда теряют форматирование и структуру (таблицы, колонки). Проверьте результаты конвертации перед анализом.

Заключение

LangChain + OpenAI дают удобный и относительно безопасный путь для анализа локальных документов, сочетая возможности эмбеддингов и локального индекса FAISS. При правильной настройке и соблюдении рекомендаций по безопасности вы получите быстрый инструмент для извлечения знаний из корпоративных и персональных документов.

Ключевые действия:

Настройте виртуальное окружение и установите зависимости.
Получите и безопасно сохраните OpenAI API‑ключ.
Реализуйте загрузку, разбиение, эмбеддинг и индекс FAISS.
Тестируйте на контрольной выборке и внедрите процедуры безопасности.

Важно: этот пример — стартовая точка. Подгоняйте параметры и архитектуру под реальные рабочие сценарии и требования безопасности.