pytesseract

Бесплатно
Открытый исходный код
Windows
macOS
Linux

Сайт: github.com/madmaze/pytesseract

pytesseract — это свободная программная библиотека на языке Python, представляющая собой обёртку для движка оптического распознавания текста Tesseract. Библиотека обеспечивает программный интерфейс для передачи изображений в Tesseract, получения извлечённого текста и сопутствующих данных, таких как координаты распознанных блоков, уровней символов и оценочные вероятности. pytesseract обычно используется как компонент в приложениях для обработки документов, автоматизированного ввода данных и анализа изображений.

Проект возник как инструмент, упрощающий интеграцию Tesseract с экосистемой Python: он предоставляет функции для работы с объектами изображений популярных библиотек (например, Pillow) и поддерживает экспорт результатов в нескольких форматах, включая простой текст, HOCR и PDF. pytesseract не содержит собственный движок распознавания, а выступает посредником, формируя команды для Tesseract и парся его вывод. В зависимости от версии Tesseract и настроек локали, качество и набор доступных метаданных могут варьироваться.

  • Распознавание текста: извлечение последовательного текста из растровых изображений и сканов, с поддержкой многократных языковых модулей Tesseract.
  • Вывод метаданных: получение координат блоков текста, строк, слов и символов, а также оценочных вероятностей и статистики качества распознавания.
  • Форматы экспорта: поддержка вывода в виде простого текста, HOCR-разметки (HTML-подобная разметка с координатами) и формирования PDF с возможностью поиска по распознанному тексту.
  • Интеграция с изображениями: совместимость с объектами изображений Pillow и возможностью работы с файлами в различных форматах без явной конвертации пользователем.
  • Настройки и конфигурация: передача параметров и флагов Tesseract (например, выбор режима сегментации или языка), что позволяет адаптировать процесс распознавания под конкретные задачи.
  • Обработка нескольких страниц: поддержка последовательной обработки серий изображений и объединения результатов в единый вывод.
  • Простота использования: программный интерфейс ориентирован на быстрый старт и минимальное количество кода для типичных сценариев распознавания.
  • Зависимость от Tesseract: библиотека требует предварительной установки движка Tesseract на целевой системе и совместима с теми версиями Tesseract, которые поддерживают соответствующие форматы вывода.
  • Ограничения качества: качество распознавания определяется прежде всего самим движком и качеством исходного изображения; pytesseract не выполняет сложной предобработки изображений по умолчанию.
  • Применение в экосистеме: распространён в инструментах для автоматизации документооборота, цифровой архивации, извлечения текста из изображений для NLP-задач и прототипирования систем распознавания.
Подробнее