Docsumo — программная платформа для Intelligent Document Processing (IDP), предназначенная для автоматизации извлечения структурированных данных из неструктурированных и полуструктурированных документов, таких как счета, выписки, контракты и прочие деловые формы. Платформа сочетает методы оптического распознавания текста (OCR), модели машинного обучения и правила постобработки для преобразования изображений и PDF в машиночитаемые записи. В описаниях продукта обычно указывают поддержку пакетной обработки, интеграцию с рабочими процессами и инструменты для управления качеством данных.
Исторически продукты этого класса развивались в ответ на потребность предприятий снижать ручной ввод данных и ускорять обработку документов. Конкретные реализации включают предобученные модели для распространённых типов документов и механизмы дообучения на пользовательских шаблонах и примерах. В составе платформы часто реализованы интерфейсы для валидации и человеческой проверки извлечённых полей, что позволяет комбинировать автоматизацию и контроль качества. Если о конкретных деталях реализации Docsumo доступно меньше сведений, это отражается в текстах, а основные функции описаны обобщённо на основе типичных возможностей IDP-решений.
- Распознавание текста (OCR): извлечение символов и слов из отсканированных изображений и PDF-файлов с последующей нормализацией текста.
 - Извлечение полей: автоматическое определение и структурирование ключевых полей документа (даты, суммы, идентификаторы, адреса и т. п.).
 - Предобученные модели: набор готовых моделей для распространённых типов документов, позволяющий быстро начать обработку без глубокого первоначального обучения.
 - Дообучение на пользовательских данных: возможность адаптации моделей под уникальные шаблоны и форматы документов посредством разметки примеров и обучения.
 - Интерфейс человеческой проверки: визуальные инструменты для ручной валидации и корректировки извлечённых данных операторами, с учётом поправок для улучшения модели.
 - Пакетная обработка и масштабирование: поддержка загрузки больших объёмов документов и автоматизированных рабочих потоков для корпоративных сценариев.
 - Интеграция и API: программные интерфейсы для интеграции с системами учёта, ERP, CRM и другими корпоративными приложениями.
 - Постобработка и валидация данных: правила проверки, нормализация форматов и преобразование извлечённых полей под бизнес-логики заказчика.
 - Отслеживание качества и отчётность: метрики точности распознавания, журнал правок и инструменты для аудита качества обработки.
 - Поддержка множества форматов: работа с TIFF, JPEG, PNG, PDF и другими распространёнными форматами документов.