gImageReader

gImageReader — это графический интерфейс для оптического распознавания текста (OCR), разработанный для работы с открытым движком Tesseract. Программа предоставляет пользователю удобные средства загрузки изображений и PDF, разметки областей для распознавания, выбора языка и настроек движка, а также просмотра и редактирования полученного текста. Интерфейс ориентирован на настольные операционные системы семейства Unix и Windows и обычно распространяется как свободное программное обеспечение под лицензией, совместимой с открытым исходным кодом.

Проект возник как инструмент для упрощения использования Tesseract пользователями, которым не требуется командная строка, и включает функции пакетной обработки документов и экспорта результатов в несколько форматов. При отсутствии полной документации или подробной истории разработки в общедоступных источниках, описание функциональности основано на доступных сведениях о приложении и типичных сценариях его применения: распознавание сканированных страниц, перевода отсканированных документов в редактируемый текст и подготовки поисковых PDF с встраиваемым текстовым слоем.

Поддержка Tesseract: использует движок Tesseract для выполнения OCR, позволяет выбирать версию и языковые пакеты.
Загрузка и предварительный просмотр: импорт изображений и PDF-файлов с возможностью просмотра и масштабирования страниц.
Разметка областей: ручное и автоматическое определение зон распознавания, включая прямоугольные и многоугольные области.
Многоязычное распознавание: выбор одного или нескольких языков для обработки текста, поддержка языковых моделей Tesseract.
Редактирование результата: встроенный редактор для корректировки и форматирования извлечённого текста перед экспортом.
Экспорт форматов: сохранение результатов в plain text, hOCR, а также создание PDF с встроенным текстовым слоем.
Пакетная обработка: обработка нескольких файлов или страниц за один проход с одинаковыми настройками OCR.
Настройки качества: параметры для управления режимами распознавания, точностью и постобработкой результатов.
Интероперабельность: совместимость с системными средствами и возможностью интеграции в рабочие процессы обработки документов.

Аналоги gImageReader

ABBYY FineReader PDF

gImageReader