pytesseract — это свободная программная библиотека на языке Python, представляющая собой обёртку для движка оптического распознавания текста Tesseract. Библиотека обеспечивает программный интерфейс для передачи изображений в Tesseract, получения извлечённого текста и сопутствующих данных, таких как координаты распознанных блоков, уровней символов и оценочные вероятности. pytesseract обычно используется как компонент в приложениях для обработки документов, автоматизированного ввода данных и анализа изображений.
Проект возник как инструмент, упрощающий интеграцию Tesseract с экосистемой Python: он предоставляет функции для работы с объектами изображений популярных библиотек (например, Pillow) и поддерживает экспорт результатов в нескольких форматах, включая простой текст, HOCR и PDF. pytesseract не содержит собственный движок распознавания, а выступает посредником, формируя команды для Tesseract и парся его вывод. В зависимости от версии Tesseract и настроек локали, качество и набор доступных метаданных могут варьироваться.
- Распознавание текста: извлечение последовательного текста из растровых изображений и сканов, с поддержкой многократных языковых модулей Tesseract.
 - Вывод метаданных: получение координат блоков текста, строк, слов и символов, а также оценочных вероятностей и статистики качества распознавания.
 - Форматы экспорта: поддержка вывода в виде простого текста, HOCR-разметки (HTML-подобная разметка с координатами) и формирования PDF с возможностью поиска по распознанному тексту.
 - Интеграция с изображениями: совместимость с объектами изображений Pillow и возможностью работы с файлами в различных форматах без явной конвертации пользователем.
 - Настройки и конфигурация: передача параметров и флагов Tesseract (например, выбор режима сегментации или языка), что позволяет адаптировать процесс распознавания под конкретные задачи.
 - Обработка нескольких страниц: поддержка последовательной обработки серий изображений и объединения результатов в единый вывод.
 - Простота использования: программный интерфейс ориентирован на быстрый старт и минимальное количество кода для типичных сценариев распознавания.
 - Зависимость от Tesseract: библиотека требует предварительной установки движка Tesseract на целевой системе и совместима с теми версиями Tesseract, которые поддерживают соответствующие форматы вывода.
 - Ограничения качества: качество распознавания определяется прежде всего самим движком и качеством исходного изображения; pytesseract не выполняет сложной предобработки изображений по умолчанию.
 - Применение в экосистеме: распространён в инструментах для автоматизации документооборота, цифровой архивации, извлечения текста из изображений для NLP-задач и прототипирования систем распознавания.