Аналоги CuneiForm

ABBYY FineReader PDF

Бесплатно
Windows
macOS
iOS

ABBYY FineReader PDF — коммерческое программное обеспечение для оптического распознавания текста (OCR) и работы с PDF-документами, разработанное компанией ABBYY; сочетает технологии распознавания и извлечения текста, сохранения структуры документа и конвертации между форматами (сканы, изображения, PDF, редактируемые форматы), поддерживает многоязычные словари и обеспечивает проверку и корректировку результатов распознавания, интеграцию с рабочими процессами документооборота и защиту конфиденциальности данных; позиционируется как универсальное решение для цифровизации бумажных документов и автоматизации обработки текстовой информации, выступая современным коммерческим аналогом более ранних OCR-систем, таких как CuneiForm.

CuneiForm

Бесплатно
Открытый исходный код
Windows
Linux

Сайт: launchpad.net/cuneiform-linux

CuneiForm — программное обеспечение для оптического распознавания текста (OCR), разработанное компанией Cognitive Technologies. Программа предназначена для преобразования изображений и отсканированных документов в редактируемый текст с сохранением структуры документа, включая разделение на абзацы, распознавание шрифтов и расположение блоков. Интерфейс и форматы ввода/вывода ориентированы на применение в офисной и прикладной обработке документов, цифровизации архивов и подготовке материалов для последующего редактирования и поиска.

История проекта включает несколько этапов развития: от ранних версий как проприетарного продукта до появления более поздних релизов с поддержкой различных языков и кодировок. В разных релизах уделялось внимание повышению точности распознавания, работе с многостраничными документами, таблицами и графическими элементами, а также интеграции с другими приложениями для пакетной обработки. Информация о конкретных версиях и датах релизов доступна в публичных описаниях разработчика; при отсутствии исчерпывающих данных текст признаёт ранние ограничения в источниках и описывает типичные возможности OCR-систем такого класса.

  • Распознавание печатного текста на сканах и фотографиях с преобразованием в редактируемые форматы.
  • Сохранение структуры документа: разделение на блоки, абзацы и строки, базовое сохранение формата.
  • Поддержка нескольких языков и кодировок, включая варианты для языков с различными алфавитами.
  • Пакетная обработка многостраничных документов и возможность работы с форматами изображений и PDF.
  • Инструменты предобработки изображений: коррекция наклона, подавление шумов и улучшение контраста для повышения точности распознавания.
  • Экспорт распознанного текста в распространённые форматы для дальнейшего редактирования и индексирования.
  • Интеграция с другими приложениями и рабочими процессами для автоматизации оцифровки документов.
  • Механизмы обучения и настройки словарей для повышения качества распознавания специализированной лексики.
Подробнее