OCRFeeder — это свободное программное обеспечение с графическим интерфейсом пользователя, предназначенное для анализа структуры документов и оптического распознавания текста (OCR) в операционной системе Linux. Разработанное Жоакимом Рошей как часть магистерской диссертации, оно предоставляет пользователям возможность преобразовывать отсканированные страницы и изображения в редактируемые форматы, такие как ODT, TXT, HTML и PDF. OCRFeeder использует внешние OCR-движки, включая Tesseract, Ocrad и GOCR, для выполнения распознавания текста.
Программа была впервые выпущена в марте 2009 года и с тех пор активно развивается в рамках инфраструктуры GNOME. OCRFeeder предоставляет полный набор инструментов для обработки документов, включая анализ макета, распознавание текста, коррекцию ошибок и экспорт в различные форматы. Он также поддерживает работу со сканерами через интерфейс SANE и может обрабатывать PDF-файлы с использованием Ghostscript.
- Графический интерфейс пользователя (GUI): предоставляет интуитивно понятный интерфейс для анализа и редактирования документов.
- Поддержка внешних OCR-движков: интеграция с Tesseract, Ocrad, GOCR и другими для выполнения распознавания текста.
- Анализ структуры документа: автоматическое определение областей текста и графики на изображении.
- Обработка изображений: возможность очистки изображений и коррекции наклона для улучшения качества распознавания.
- Поддержка различных форматов ввода: импорт изображений и PDF-файлов для обработки.
- Экспорт в различные форматы: сохранение результатов в форматах ODT, TXT, HTML, PDF и других.
- Проверка орфографии: встроенная поддержка проверки орфографии для улучшения точности распознавания.
- Поддержка сканеров: возможность получения изображений непосредственно со сканера через интерфейс SANE.
- Пакетная обработка: возможность обработки нескольких изображений за один раз для повышения эффективности.