Amazon Textract

Бесплатно

Сайт: aws.amazon.com/textract

Amazon Textract — это управляемый сервис машинного обучения от Amazon Web Services (AWS), предназначенный для автоматического извлечения текста, данных форм и таблиц из сканированных документов и изображений. В отличие от традиционного оптического распознавания символов (OCR), Textract использует методы глубокого обучения для понимания структуры документа и извлечения информации в контексте, что позволяет обрабатывать сложные и нестандартные формы без необходимости в ручной настройке.

Сервис поддерживает широкий спектр документов, включая PDF-файлы, изображения и сканы, и может извлекать как печатный, так и рукописный текст. Textract предоставляет API-интерфейсы для различных типов анализа, таких как извлечение текста, анализ форм, таблиц, подписей и запросов. Это позволяет интегрировать функциональность извлечения данных в бизнес-процессы, автоматизируя обработку документов в таких областях, как финансовые услуги, здравоохранение и государственный сектор.

  • Извлечение текста: автоматическое распознавание печатного и рукописного текста из документов и изображений.
  • Анализ форм: извлечение пар "ключ-значение" из форм, сохраняя контекст и структуру данных.
  • Анализ таблиц: сохранение структуры таблиц при извлечении данных, что важно для финансовых и медицинских документов.
  • Обнаружение подписей: идентификация подписей в документах, таких как чеки и формы заявок.
  • Запросы на основе естественного языка: возможность задавать вопросы в естественном языке для извлечения конкретной информации из документов.
  • Анализ кредитных документов: специализированный анализ ипотечных и кредитных документов с использованием предобученных моделей.
  • Обработка счетов и квитанций: извлечение данных из счетов и квитанций с учетом различных макетов и форматов.
  • Обработка удостоверений личности: извлечение данных из удостоверений личности, таких как паспорта и водительские права США.
Подробнее