OCR4all

Бесплатно
Открытый исходный код
Windows
macOS
Linux

Сайт: www.ocr4all.org

OCR4all — программный инструмент для полуавтоматизированной обработки исторических печатных и рукописных документов, объединяющий этапы предобработки изображений, сегментации макета, распознавания текста и создания эталонных данных. Проект ориентирован на работу с высокодисперсионными и неоднородными наборами изображений, где требуется тонкая настройка этапов конвейера распознавания и поддержка ручной корректировки результатов. OCR4all предназначен для исследовательских и архивных задач, в которых важна воспроизводимость и совместимость с существующими стандартами для оцифровки документов.

Инструмент поддерживает интеграцию с различными движками распознавания текста и компонентами для постобработки, включая решения, используемые в сообществе OCR-D. В документации и описаниях проекта подчёркивается внимание к удобству пользователя при разметке и валидации результатов, а также к возможности генерации и редактирования эталонных транскрипций (ground truth) для дальнейшего обучения и оценки моделей. В случае ограниченности публично доступной информации о текущей реализации, описание ниже фокусируется на типичных функциях и сценариях применения, характерных для подобных систем.

  • Предобработка изображений: инструменты для улучшения качества сканов, выравнивания, удаления фонового шума и коррекции контраста.
  • Сегментация макета: обнаружение и разделение областей страницы — колонки, абзацы, строки и блоки изображений — с возможностью ручной правки разметки.
  • Распознавание текста: поддержка подключения внешних OCR-движков, включая модели для исторических шрифтов и рукописного ввода; обеспечивает пакетную обработку и настройку параметров распознавания.
  • Поддержка Calamari: возможность использования Calamari или аналогичных систем для обучения и инференса нейросетевых моделей распознавания символов.
  • Создание и корректировка эталонных данных: интерфейс для ручной проверки и правки распознанного текста с сохранением структурированной разметки для генерации ground truth.
  • Экспорт и совместимость: экспорт результатов в форматах, совместимых с экосистемой OCR-D и другими инструментами цифровых гуманитарных проектов.
  • Пакетная обработка и рабочие процессы: функции автоматизации конвейеров обработки с возможностью интервентов оператора на ключевых этапах для обеспечения качества.
  • Локальная и исследовательская ориентация: акцент на автономной работе с данными и поддержке научных процессов, включая сохранение версий и воспроизводимость экспериментов.
Подробнее