Аналоги gImageReader

ABBYY FineReader PDF

Бесплатно
Windows
macOS
iOS

ABBYY FineReader PDF — коммерческое программное обеспечение для оптического распознавания текста (OCR) и работы с PDF-документами, разработанное компанией ABBYY; обеспечивает конвертацию отсканированных изображений и фотографий в редактируемые форматы, распознавание многозначных документов на разных языках с сохранением структуры и форматирования, встроенные инструменты для сравнения и объединения документов, а также возможности редактирования, аннотирования и защиты PDF-файлов, ориентированное на использование в бизнесе и профессиональной обработке документов.

gImageReader

Бесплатно
Открытый исходный код
Windows
macOS
Linux

Сайт: github.com/manisandro/gImageReader

gImageReader — это графический интерфейс для оптического распознавания текста (OCR), разработанный для работы с открытым движком Tesseract. Программа предоставляет пользователю удобные средства загрузки изображений и PDF, разметки областей для распознавания, выбора языка и настроек движка, а также просмотра и редактирования полученного текста. Интерфейс ориентирован на настольные операционные системы семейства Unix и Windows и обычно распространяется как свободное программное обеспечение под лицензией, совместимой с открытым исходным кодом.

Проект возник как инструмент для упрощения использования Tesseract пользователями, которым не требуется командная строка, и включает функции пакетной обработки документов и экспорта результатов в несколько форматов. При отсутствии полной документации или подробной истории разработки в общедоступных источниках, описание функциональности основано на доступных сведениях о приложении и типичных сценариях его применения: распознавание сканированных страниц, перевода отсканированных документов в редактируемый текст и подготовки поисковых PDF с встраиваемым текстовым слоем.

  • Поддержка Tesseract: использует движок Tesseract для выполнения OCR, позволяет выбирать версию и языковые пакеты.
  • Загрузка и предварительный просмотр: импорт изображений и PDF-файлов с возможностью просмотра и масштабирования страниц.
  • Разметка областей: ручное и автоматическое определение зон распознавания, включая прямоугольные и многоугольные области.
  • Многоязычное распознавание: выбор одного или нескольких языков для обработки текста, поддержка языковых моделей Tesseract.
  • Редактирование результата: встроенный редактор для корректировки и форматирования извлечённого текста перед экспортом.
  • Экспорт форматов: сохранение результатов в plain text, hOCR, а также создание PDF с встроенным текстовым слоем.
  • Пакетная обработка: обработка нескольких файлов или страниц за один проход с одинаковыми настройками OCR.
  • Настройки качества: параметры для управления режимами распознавания, точностью и постобработкой результатов.
  • Интероперабельность: совместимость с системными средствами и возможностью интеграции в рабочие процессы обработки документов.
Подробнее