Извлечение текста из изображений

TL;DR: Если вам нужно быстро забрать текст с фотографии, скриншота или отсканированной страницы, используйте инструмент OCR, который уже интегрирован в вашу рабочую среду (OneNote, Google Drive) — это обычно самый удобный путь. Для разовых задач подойдёт веб‑сервис Online OCR или расширение Copyfish; для пакетных или автоматизированных задач — PowerShell с API или локальные программы вроде FreeOCR. Ниже — пошаговые инструкции, сравнение результатов и советы по качеству распознавания.

Фото документа для OCR

В университете друг прислал мне скриншот своего важного итогового эссе, а не сам документ. Редактировать текст на изображении вручную было неприятно и долго — тогда я ещё не знал про простые OCR‑инструменты.

Сегодня доступно множество бесплатных и надежных способов вытащить текст из изображения без набора вручную. Мы прогнали приведённое выше изображение через несколько популярных инструментов и показали распознанный ими текст для объективного сравнения точности.

Как читать эту статью

Сначала — краткие инструкции для каждого инструмента. Они полезны, если вы хотите действовать быстро.
Затем — результаты распознавания для сравнения точности.
В конце — рекомендации по улучшению качества OCR, список альтернатив и чек‑лист контроля качества.

OneNote

OneNote давно зарекомендовал себя как удобный бесплатный инструмент для распознавания текста. Это скрытая, но мощная функция: вставьте изображение в страницу и скопируйте текст одним кликом.

Инструкции для извлечения текста:

Откройте OneNote и создайте страницу (можно пустую).
Перейдите в меню Вставка > Изображения и выберите файл с изображением.
Щёлкните правой кнопкой по вставленному изображению и выберите Копировать текст с рисунка.
Вставьте скопированный текст в нужное место.

Вставка изображения в OneNote

Результат распознавания (как вывел OneNote):

        `Our meat greater hath signs two second behold shall. Fill bearing beast saw creature creature god light midst two. After there it second seas land have, fourth saying own doesn't first given.  
      
Rule set male firmament given. Divide void which moved under third don't. Living. Fruit all. That for. Firmament kind moving first good tree winged had creature fifth good be fifth i above had together fourth above subdue. Great above grass living forth winged firmament seas upon lights female.`

Загрузить: Microsoft OneNote (Бесплатно)

Photron Image Translator

Photron — приложение из Microsoft Store для Windows 10 (настольные и планшетные версии). Дополнительные полезные функции: автоматический перевод распознанного текста и озвучивание.

Инструкции для извлечения текста:

Запустите приложение Photron.
В появившемся меню выберите Image (Изображение) как метод ввода.
Выберите Gallery (Галерея) как источник.
Откройте файл изображения и дождитесь распознавания.

Интерфейс Photron

Результат распознавания:

        `Our meat greater hath signs two second behold shall. Fill bearing beast saw creature creature god light midst two. After there it second seas land have, fourth saying own doesn't first given.  
      
Rule set male firmament given. Divide void which moved under third don't. Living. Fruit all. That for. Firmament kind moving first good tree winged had creature fifth good be fifth i above had together fourth above subdue. Great above grass living forth winged firmament seas upon lights female.`

Загрузить: Photron Image Translator (Бесплатно) — приложение может быть недоступно в некоторых регионах.

FreeOCR

FreeOCR — простая настольная программа, часто рекомендуемая как один из лучших бесплатных вариантов. Программа не обновлялась продолжительное время, но при этом остаётся рабочей и умеет экспортировать результат в Word.

Особенность: экспорт в Microsoft Word. Ограничение: чувствительна к разрешению и качеству исходного изображения.

Инструкции для извлечения текста:

Откройте FreeOCR.
Нажмите Открыть и выберите файл изображения.
Нажмите Очистить окно текста, если там что‑то есть.
Нажмите OCR и выберите OCR Current Page.

FreeOCR распознаёт текст

Результат распознавания:

        `Our meat greater hath signs two second behold shall. Fill bearing beast saw creature creature god light midst two. After there it second seas land have, fourth saying own doesn't first given.  
      
Rule set male firmament given. Divide void which moved under third don't. Living. Fruit all. That for. Firmament kind moving ?rst good tree winged had creature fifth good be ?fth i above had together fourth above subdue. Great above grass living forth winged ?rrnament seas upon ?ghts femala`

Загрузить: FreeOCR (Бесплатно)

Copyfish (расширение для Chrome)

Copyfish — расширение, которое распознаёт текст прямо с области браузера: удобно для изображений на веб‑страницах или для локальных файлов, открытых в Chrome.

Инструкции для извлечения текста:

Установите расширение Copyfish из интернет‑магазина Chrome.
Откройте изображение в браузере (локально или онлайн).
Нажмите кнопку Copyfish рядом с адресной строкой.
Выделите область с текстом и дождитесь результата.

Copyfish выделяет текст в браузере

Результат распознавания:

        `Our meat greater hath signs two second behold shall. Fill bearing beast saw creature creature god light midst two. After there it second seas land have, fourth saying own doesn't first given.  
      
Rule set male firmament given. Divide void which moved under third don't. Living. Fruit all. That for. Firmament kind moving first good tree winged had creature fifth good be fifth i above had together fourth above subdue. Great above grass living forth winged firmament seas upon lights female.`

Загрузить: Copyfish (Бесплатно)

Google Drive

Google Drive умеет открывать изображение в Google Docs и автоматически помещать распознанный текст под изображением. Очень удобно, если вы уже храните файлы в Google.

Инструкции для извлечения текста:

Загрузите файл изображения в Google Drive.
В веб‑интерфейсе правой кнопкой мыши щёлкните по файлу и выберите Открыть с помощью > Google Документы.
Документ откроется: изображение останется наверху, распознанный текст — ниже.

Google Docs распознаёт текст из изображения

Результат распознавания:

        `Our meat greater hath signs two second behold shall. Fill bearing beast saw creature creature godlight midst two. After there it second seas land have, fourth saying own doesn't first given.  
      
Rule set male firmament given. Divide void which moved under third don't. Living. Fruit all. That for. Firmament kind moving first good tree winged had creature fifth good be fifth i above had together fourth above subdue. Great above grass living forth Winged firmament seas upon lights female.`

Сайт: Google Drive (Бесплатно)

Online OCR (веб‑сервис)

Если не хочется устанавливать ничего — подойдёт Online OCR: загрузили файл, выбрали формат вывода (текст, Word, Excel) и скачали результат.

Инструкции для извлечения текста:

Перейдите на сайт Online OCR.
Нажмите Select File и выберите изображение.
Укажите формат вывода (Text / Word / Excel).
При необходимости введите CAPTCHA и нажмите Convert.

Веб‑сервис Online OCR

Результат распознавания:

        `Our meat greater hath signs two second behold shall. Fill bearing beast saw creature creature god light midst two. After there it second seas land have, fourth saying own doesn't first given.  
  
Rule set male firmament given. Divide void which moved under third don't. Living. Fruit all. That for. Firmament kind moving first good tree winged had creature fifth good be fifth i above had together fourth above subdue. Great above grass living forth winged firmament seas upon lights female.`

Сайт: Online OCR (бесплатно для небольших объёмов)

PowerShell и API (автоматизация)

Для автоматизации или пакетной обработки пригодятся скрипты PowerShell, использующие облачные OCR API (Microsoft Cognitive Services, Google Cloud Vision и т. п.). Требуется регистрация и ключи API, зато это масштабируемое решение для больших объёмов.

Примерный сценарий применения:

Получить ключ API Microsoft OCR и (при необходимости) ключи для перевода.
Скачать готовый скрипт Get-ImageText или написать свой, использующий REST‑вызовы к OCR‑эндпоинту.
Запускать скрипт для папки с изображениями и сохранять результаты в текстовые файлы или базу данных.

Результат распознавания (пример из готового скрипта):

        `Our meat greater hath signs two second behold shall. Fill bearing beast saw creature creature god light midst two. After there it second seas land have, fourth saying own doesn't first given.  
      
Rule set male firmament given. Divide void which moved under third don't. Living. Fruit all. That for. Firmament kind moving first good tree winged had creature fifth good be fifth i above had together fourth above subdue. Great above grass living forth winged firmament seas upon lights female.`

PowerShell доступен в Windows 7, 8, 10 и как кросс‑платформенная опен‑сорсная оболочка — может быть установлена на Linux.

Какой способ выбрать

Нет универсально лучшего метода — выбирайте по критериям:

Если инструмент уже есть в вашей среде (OneNote, Google Drive) — используйте его для удобства.
Для одиночных задач без установки — Online OCR или Copyfish.
Для автоматической массовой обработки — PowerShell + OCR API.
Для документов с низким качеством изображения — пробуйте разные движки: результаты могут существенно отличаться.

Когда OCR даёт плохой результат

Низкое разрешение или размытость изображения.
Сильные искажения, поворот текста, неравномерное освещение.
Шумы, полосы, водяные знаки на фоне.
Рукописный текст (обычные OCR‑движки хуже справляются с почерком).
Специфические шрифты или декоративные заголовки.

В таких случаях:

Попробуйте предварительную обработку: увеличение разрешения, коррекция контраста, выравнивание перспективы.
Используйте движки с поддержкой рукописного ввода (если нужно распознавать рукопись) или cloud‑OCR с продвинутыми моделями.

Альтернативные подходы

Мобильные приложения (Google Lens, Adobe Scan, Microsoft Office Lens) — быстро и удобно с телефона.
Профессиональные сканеры с встроенным OCR — для офисов и больших объёмов бумажных документов.
Найм сервисов по оцифровке/вёрстке — если нужен аккуратный результат для печати или публикации.

Чек‑лист для проверки качества распознанного текста

Точность символов: нет искажённых букв (0 vs O, l vs 1).
Пунктуация и переносы строк соответствуют оригиналу.
Заголовки и абзацы не слиты.
Специальные символы (формулы, таблицы) корректно перенесены или помечены для ручной правки.
Проверка орфографии и контекста: автоматические исправления иногда вносят смысловые ошибки.

Быстрый глоссарий

OCR: оптическое распознавание символов — технология извлечения текста из изображения.
DPI: точки на дюйм — разрешение изображения; чем выше, тем лучше распознавание.
Парсинг: структурирование распознанного текста (для таблиц, форм и т. п.).

Сравнительная таблица инструментов (обзор)

Инструмент	Удобство	Точность	Нужна установка	Подходит для
OneNote	Очень удобно для пользователей Office	Высокая для печатного текста	Да (часть Office)	Быстрой ретуши и копирования текста
Google Drive	Очень просто, если файлы в облаке	Хорошая	Нет (веб)	Хранение + разовое распознавание
FreeOCR	Простой интерфейс, Word‑экспорт	Хорошая на качественных изображениях	Да	Локальная обработка
Copyfish	Быстро для веб‑страниц	Зависит от качества	Расширение	Выделение областей в браузере
Online OCR	Нет установки, быстро	Хорошая для простых задач	Нет (веб)	Быстрые однократные задачи
PowerShell + API	Высокая при правильной настройке	Очень высокая (зависит от API)	Да	Автоматизация и массовая обработка

Примеры обработки изображений: советы по предобработке

Кадрирование — удалите лишний фон.
Приведение к равномерному освещению — поднятие/понижение контраста.
Выравнивание и коррекция перспективы — исправит наклонённый текст.
Увеличение DPI при сохранении качества (если исходник позволяет).
Конвертация в монохром (чёрно‑белый) для некоторых OCR‑движков.

Критерии приёмки

Когда считать результат распознавания приемлемым:

Процент ошибок в символах небольшой (вручную фиксируемые опечатки допустимы).
Сохранена смысловая целостность текста (не искажены ключевые термины).
Форматирование (абзацы, заголовки) восстановлено в приемлемой степени для дальнейшей работы.

Ролевая чек‑показательская таблица

Пользователь: быстро получить читаемый текст для цитаты или редактирования.
Редактор: минимальное число правок, сохранены структуры абзацев и заголовков.
Разработчик/автоматизатор: стабильность обработки каталога файлов, лог ошибок.

Когда лучше не использовать OCR

Если нужен 100% точный юридический или финансовый документ — лучше ручная вёрстка.
Для уникальных рукописей с плохим почерком — затраты на пост‑коррекцию часто превышают автоматизацию.

Заключение

OCR инструменты сегодня доступны везде: на телефоне, в облаке, в офисном приложении или как скрипт для автоматизации. Выбор зависит от объёма, требований к точности и среды, в которой вы работаете. Для большинства пользователей оптимальны OneNote и Google Drive из‑за простоты; для веб‑страниц — Copyfish; для пакетной обработки — PowerShell + API.

Если вы часто работаете с изображениями, заведите простой рабочий процесс: предобработка → OCR → проверка по чек‑листу → пост‑редактирование. Это сократит время правки и повысит качество конечного текста.

Понравилась статья? Напишите, с какими типами изображений вы работаете и какой инструмент предпочитаете — ваше мнение полезно другим читателям.

Примечание: риск ошибок возрастает при распознавании низкокачественных изображений; всегда прогоняйте результат через проверку орфографии и быстрый визуальный контроль.