OCRmyPDF — свободная утилита с открытым исходным кодом для добавления слоя распознанного текста (OCR) в отсканированные PDF-документы, превращая их в полнотекстовые файлы, пригодные для поиска и архивирования. Программа предназначена для автоматизации процесса обработки больших массивов сканированных страниц, интеграции с рабочими потоками документооборота и подготовки документов к долгосрочному хранению. OCRmyPDF обычно запускается как командная строка и поддерживает пакетную обработку, настройку качества распознавания и управление метаданными PDF.
Проект ориентирован на совместимость с распространёнными движками оптического распознавания текста и библиотеками для работы с PDF, обеспечивая сохранение исходных изображений страниц и наложение невидимого текстового слоя поверх них. В описаниях проекта отмечаются возможности по очистке изображений перед распознаванием, автоматическому определению ориентации и областей интереса, а также по встраиванию результатов распознавания в структуру PDF с поддержкой поиска и копирования текста. Если сведения о развитии проекта ограничены, в тексте отражена общая функциональная направленность и типичные сценарии применения, основывающиеся на общедоступных описаниях подобных инструментов.
- Добавление текстового слоя: встраивает распознанный текст как невидимый слой поверх исходных отсканированных изображений страниц.
- Сохранение качества изображения: сохраняет оригинальные изображения страниц, позволяя при необходимости просматривать исходный скан.
- Пакетная обработка: поддержка обработки множества файлов и директорий в автоматизированных рабочих процессах.
- Интеграция с OCR-движками: совместимость с популярными движками распознавания для выбора баланса скорости и точности.
- Предобработка изображений: коррекция ориентации, очистка шума, бинаризация и другие методы для повышения качества распознавания.
- Поддержка метаданных и структуры PDF: возможность управления метаданными, языковыми настройками и параметрами встраивания текста.
- Опции для архивирования: функции оптимизации размера файла и сохранения совместимости с системами долгосрочного хранения документов.
- Логирование и отчётность: вывод состояния обработки и ошибок для интеграции в скрипты и системы мониторинга.