docTR

Бесплатно
Открытый исходный код
Windows
macOS
Linux

Сайт: mindee.github.io/doctr

docTR (Document Text Recognition) — это библиотека с открытым исходным кодом, предназначенная для оптического распознавания текста (OCR) в документах. Разработанная компанией Mindee, она использует глубокое обучение для извлечения текста из изображений и PDF-файлов. Библиотека обеспечивает высокую точность распознавания и гибкость настройки, что делает её подходящей для различных задач, от автоматизации обработки документов до научных исследований в области компьютерного зрения.

Основной особенностью docTR является двухступенчатый процесс OCR, включающий этапы обнаружения текста и его распознавания. Это позволяет эффективно обрабатывать документы с различными макетами и шрифтами. Библиотека поддерживает работу как на центральных, так и на графических процессорах, обеспечивая высокую производительность при обработке больших объёмов данных.

  • Двухступенчатый процесс OCR: разделение задачи на обнаружение текста и его распознавание для повышения точности и гибкости.
  • Поддержка различных моделей: включает DBNet, LinkNet и FAST для обнаружения текста, а также MASTER и SAR для его распознавания.
  • Интерфейс на Python: простота использования с минимальными зависимостями и возможностью интеграции в различные приложения.
  • Поддержка форматов hOCR и PDF: возможность экспорта результатов в форматах, пригодных для дальнейшей обработки и поиска.
  • Совместимость с PyTorch: использование PyTorch в качестве основного фреймворка для глубокого обучения, обеспечивая гибкость и расширяемость.
  • Быстрая и эффективная обработка: оптимизация производительности для работы как на CPU, так и на GPU, что позволяет обрабатывать большие объёмы данных.
  • Активная поддержка и обновления: регулярные обновления и поддержка со стороны сообщества и разработчиков Mindee.
Подробнее