LEADTOOLS OCR — это программная библиотека для оптического распознавания текста, разработанная как часть семейства SDK LEADTOOLS. Она предназначена для интеграции в приложения и решения, которым требуется извлечение текстовой информации из цифровых изображений и сканированных документов. Библиотека поддерживает работу с широким набором форматов изображений и документных форматов, предоставляет инструменты предобработки изображений для повышения качества распознавания и включает механизмы для экспорта распознанного текста в распространённые форматы, такие как PDF, DOCX и TXT.
Исторически LEADTOOLS развивалась как коммерческий набор компонентов для обработки изображений и документов, включающий модули для распознавания символов, штрихкодов, обработки медицинских изображений и пр. Модуль OCR в составе LEADTOOLS ориентирован на корпоративных и прикладных разработчиков и предлагает как автоматические алгоритмы обнаружения областей с текстом, так и средства ручной разметки зон перед распознаванием. Библиотека поддерживает многопоточную обработку и масштабируемые сценарии применения в серверных средах и настольных приложениях.
- Распознавание текста более чем на 40 языках, включая латиницу, кириллицу и азиатские системы письма.
- Экспорт распознанного текста в форматы PDF, DOCX, TXT и другие документные форматы.
- Автоматическое и ручное определение и разметка областей с текстом на изображениях и страницах документов.
- Набор инструментов предобработки изображений: фильтрация, выравнивание (deskew), удаление шума, бинаризация и улучшение контрастности для повышения качества OCR.
- Поддержка распознавания структуры документа: колонки, заголовки, таблицы и разметка зон для сохранения макета при экспорте.
- Инструменты проверки и постобработки, включая словари, пользовательские словари и правила для коррекции ошибок распознавания.
- Интеграция с другими модулями LEADTOOLS для работы со штрихкодами, индексированием документов и обработкой изображений.
- Гибкие API и поддержка нескольких языков программирования и платформ для встраивания в настольные, серверные и мобильные приложения.
- Возможность пакетной и многопоточной обработки документов для повышения пропускной способности при массовом сканировании и индексации.
- Компоненты для визуальной разметки и проверки результатов, обеспечивающие рабочие процессы с участием человека для сложных или критичных к точности задач.