DavarOCR — это открытый программный комплекс для оптического распознавания текста (OCR) и многомодального анализа документов, разработанный лабораторией DAVAR при Исследовательском институте Hikvision. Проект объединяет набор алгоритмов и моделей для выполнения задач обнаружения и распознавания текста, анализа макета документа, извлечения структурированной информации и понимания табличных данных. DavarOCR ориентирован на исследовательские и прикладные сценарии обработки изображений документов и сцен с текстом.
В официальных описаниях пакет представлен как коллекция моделей и инструментов, реализующих различные подходы к детекции текста (включая повёрнутый и неравномерно освещённый текст), последующей распознавательной обработке символов и слов, а также более высокоуровневым операциям: сегментация блоков документа, распознавание полей форм и извлечение отношений между элементами. Набор включает алгоритмы для работы с таблицами и извлечения табличной структуры, что позволяет преобразовывать изображённые таблицы в структурированные представления.
- Обнаружение текста: модели для локализации областей с текстом в изображениях документов и сцены, поддержка ориентированных (rotated) боксов.
- Распознавание текста (OCR): нейросетевые подходы для преобразования растровых изображений символов и слов в машинно-читаемый текст, включая обработку различных шрифтов и языков.
- Анализ макета документа: сегментация и классификация блоков (заголовки, абзацы, изображения, таблицы, формы) для восстановления логической структуры страницы.
- Извлечение информации: инструменты для поиска и извлечения ключевых полей из форм и документов, сопоставление шаблонов и выделение сущностей.
- Понимание таблиц: алгоритмы для обнаружения таблиц, распознавания ячеек и восстановления их логической структуры для экспорта в табличные форматы.
- Мультимодальная интеграция: объединение визуальной информации и распознанного текста для задач понимания документа, таких как ответ на вопросы по содержимому или семантическая индексация.
- Набор предобученных моделей: коллекция готовых к использованию моделей для типичных задач OCR и документного анализа с возможностью дообучения на пользовательских данных.
- Инструменты оценки: метрики и средства для тестирования качества детекции, распознавания и извлечения информации на пользовательских наборах данных.
- Интеграция и расширяемость: модульная архитектура, позволяющая заменять компоненты, дообучать модели и комбинировать методы в конвейеры обработки.
- Документация и примеры: руководства и демонстрационные сценарии, поясняющие использование моделей для типичных задач индустриальной и научной обработки документов.