Transym OCR (TOCR) — это коммерческий программный движок оптического распознавания текста, ориентированный на интеграторов и разработчиков приложений. Движок разрабатывался как модуль для встраивания в корпоративные и прикладные системы, где требуются высокая точность распознавания печатного текста и гибкие средства интеграции. TOCR поддерживает распознавание текстов на нескольких языках и предоставляет API для автоматизации обработки массивов документов.
Исторически TOCR появился как продукт узкой специализации с упором на стабильность и точность при распознавании сканированных форм, счетов и юридических документов. Описание конкретных версий и внутренней архитектуры ограничено общедоступной документацией; если подробной информации о внутренней реализации и текущей редакции мало, то типичный набор возможностей можно восстановить по общему профилю коммерческих OCR-движков: предобработка изображений, сегментация, распознавание символов, постобработка и экспорт результатов в структурированные форматы. Движок рассчитан на использование в средах, где важна интеграция с существующей инфраструктурой и контроль качества распознавания.
- Поддержка многопоточной обработки для повышения пропускной способности при пакетной обработке документов.
- Функции предобработки изображений, включая коррекцию наклона, удаление шума и бинаризацию.
- Распознавание печатного текста с настройками для разных шрифтов и размеров символов.
- Постобработка и исправление ошибок с использованием словарей и правил валидации данных.
- API и SDK для интеграции с приложениями на нескольких языках программирования.
- Экспорт результатов в текстовые форматы и структурированные представления для дальнейшей обработки.
- Конфигурируемые профили распознавания для оптимизации под конкретные типы документов (формы, счета, реквизиты).
- Механизмы контроля качества и логирования для мониторинга точности и производительности.