OCRmyPDF

Бесплатно
Открытый исходный код
Windows
macOS
Linux

Сайт: ocrmypdf.readthedocs.io

OCRmyPDF — свободная утилита с открытым исходным кодом для добавления слоя распознанного текста (OCR) в отсканированные PDF-документы, превращая их в полнотекстовые файлы, пригодные для поиска и архивирования. Программа предназначена для автоматизации процесса обработки больших массивов сканированных страниц, интеграции с рабочими потоками документооборота и подготовки документов к долгосрочному хранению. OCRmyPDF обычно запускается как командная строка и поддерживает пакетную обработку, настройку качества распознавания и управление метаданными PDF.

Проект ориентирован на совместимость с распространёнными движками оптического распознавания текста и библиотеками для работы с PDF, обеспечивая сохранение исходных изображений страниц и наложение невидимого текстового слоя поверх них. В описаниях проекта отмечаются возможности по очистке изображений перед распознаванием, автоматическому определению ориентации и областей интереса, а также по встраиванию результатов распознавания в структуру PDF с поддержкой поиска и копирования текста. Если сведения о развитии проекта ограничены, в тексте отражена общая функциональная направленность и типичные сценарии применения, основывающиеся на общедоступных описаниях подобных инструментов.

  • Добавление текстового слоя: встраивает распознанный текст как невидимый слой поверх исходных отсканированных изображений страниц.
  • Сохранение качества изображения: сохраняет оригинальные изображения страниц, позволяя при необходимости просматривать исходный скан.
  • Пакетная обработка: поддержка обработки множества файлов и директорий в автоматизированных рабочих процессах.
  • Интеграция с OCR-движками: совместимость с популярными движками распознавания для выбора баланса скорости и точности.
  • Предобработка изображений: коррекция ориентации, очистка шума, бинаризация и другие методы для повышения качества распознавания.
  • Поддержка метаданных и структуры PDF: возможность управления метаданными, языковыми настройками и параметрами встраивания текста.
  • Опции для архивирования: функции оптимизации размера файла и сохранения совместимости с системами долгосрочного хранения документов.
  • Логирование и отчётность: вывод состояния обработки и ошибок для интеграции в скрипты и системы мониторинга.
Подробнее