Аналоги textract

ABBYY FineReader PDF

Бесплатно
Windows
macOS
iOS

ABBYY FineReader PDF — коммерческое программное обеспечение для оптического распознавания текста (OCR) и работы с PDF-документами, разработанное компанией ABBYY; обеспечивает преобразование отсканированных изображений и PDF в редактируемые форматы с сохранением структуры и форматирования, предлагает инструменты для редактирования, сравнения и комментирования PDF, распознавания многоязычных текстов, пакетной обработки документов и интеграции с рабочими процессами, применяется в бизнесе и государственных учреждениях для автоматизации ввода данных, оцифровки архивов и повышения доступности документов.

textract

Бесплатно
Открытый исходный код
Windows
macOS
Linux

Сайт: textract.readthedocs.io

textract — библиотека для извлечения текстового содержимого из файлов различных форматов с единым программным интерфейсом на языке Python. Проект предназначен для упрощения процесса извлечения текста из документов и мультимедийных файлов, включая сканированные изображения, PDF, офисные форматы и аудиозаписи, путём объединения вызовов к специализированным движкам и утилитам в единый лаконичный API. Библиотека часто используется в задачах предварительной обработки данных, индексирования, разработки поисковых систем и автоматической обработки документов.

История проекта и подробная информация о поддерживаемых версиях и авторах могут варьироваться в зависимости от конкретной реализации и форков; если официальных сведений недостаточно, это следует учитывать при выборе для критичных проектов. В основе подхода лежит идея абстрагировать различия между форматами файлов и предоставить разработчику единую функцию или метод для получения сырого текста, опционально с указанием языка или уровня распознавания. Реализация обычно интегрирует внешние инструменты для OCR, мультимедийной транскрипции и парсинга контейнеров.

  • Поддержка множества форматов: PDF, изображения (JPEG, PNG и др.), документы офисных пакетов (DOC, DOCX, PPTX), текстовые файлы и аудиофайлы.
  • Единый API для извлечения текста, минимизирующий различия в обработке разных типов входных данных.
  • Интеграция с OCR-движками для распознавания текста на изображениях и в сканированных документах.
  • Возможность использования внешних утилит и библиотек для повышения качества извлечения и поддержки специализированных форматов.
  • Опции предобработки: выбор кодировок, фильтрация метаданных, базовая очистка результата (удаление управляющих символов, нормализация пробелов).
  • Поддержка потоковой обработки и пакетного извлечения для интеграции в конвейеры ETL и индексации.
  • Режимы обработки аудио: вызов внешних сервисов или локальных движков для транскрипции речи в текст.
  • Механизмы расширения через адаптеры и плагины для подключения новых парсеров и форматов.
Подробнее