OCR Extractor — программное приложение для оптического распознавания текста (OCR) из растровых изображений и документов в формате PDF. Продукт предназначен для преобразования печатных и рукописных страниц в редактируемые текстовые форматы, облегчая поиск, индексацию и дальнейшую обработку содержимого. История конкретной реализации OCR Extractor не всегда документирована публично; в случаях, когда сведения о происхождении ограничены, описание фокусируется на типичных возможностях и назначении подобных решений.
Типичные версии OCR Extractor обеспечивают автоматическую предобработку изображений (коррекция ориентации, удаление шума, улучшение контраста), собственно распознавание символов с поддержкой нескольких языков и экспорт результатов в распространённые форматы, такие как TXT, DOCX и PDF с текстовым слоем. Приложение часто интегрируется в рабочие процессы сканирования, архивирования и документооборота, предлагая инструменты для пакетной обработки и базовой пост-редакции распознанного текста.
- Поддержка форматов: импорт изображений (JPEG, PNG, TIFF) и многостраничных PDF для распознавания.
- Многоязычное распознавание: распознавание текста на нескольких языках и переключение языковых моделей.
- Предобработка изображений: исправление ориентации, выравнивание, удаление шума и повышение читабельности перед распознаванием.
- Режимы распознавания: распознавание печатного и рукописного текста, настроенные модели для различных шрифтов и стилей.
- Экспорт и сохранение: экспорт в редактируемые форматы (TXT, DOCX, RTF), сохранение PDF с текстовым слоем для поиска.
- Пакетная обработка: последовательная обработка больших наборов файлов с возможностью настроить шаблоны и правила обработки.
- Инструменты редактирования: встроенный редактор для исправления ошибок распознавания и сохранения правок в исходных форматах.
- Интеграция и автоматизация: API или командная строка для интеграции в системы документооборота и автоматических рабочих процессов.
- Поиск и индексирование: создание текстовых слоёв в документах для полнотекстового поиска и индексирования в архивах.
- Безопасность и конфиденциальность: опции локальной обработки и управления доступом к данным в корпоративных развертываниях.