Google Cloud Vision OCR — это сервис оптического распознавания текста, предоставляемый в составе платформы Google Cloud. Он предназначен для извлечения текста из растровых изображений и документов, включая сканы, фотографии, PDF и TIFF, и поддерживает распознавание как печатного, так и рукописного текста. Сервис интегрируется с другими компонентами облачной платформы и предлагает средства для предобработки изображений, определения областей текста и извлечения структурированной информации.
Технологически решение опирается на методы компьютерного зрения и машинного обучения, включая нейронные сети глубокого обучения, обученные на больших наборах данных для распознавания множества языков, шрифтов и форматов представления текста. В зависимости от формата входных данных сервис может возвращать результаты с информацией о позиционировании текста в изображении, уровне уверенности распознавания и иерархии элементов (строки, слова, символы). Для многостраничных документов поддерживаются механизмы пакетной обработки и экспорт результатов в структурированные форматы.
- Распознавание печатного текста: извлечение текста из фотографий, сканов страниц и других растровых изображений.
- Распознавание рукописного текста: обработка рукописных заметок и подписей с возможностью работы в обычных сценариях, хотя точность может варьироваться.
- Многоязычная поддержка: распознавание текста на множестве языков и скриптов с возможностью определения языка.
- Обработка многостраничных документов: поддержка PDF и TIFF с возможностью пакетной обработки и сохранения структуры страниц.
- Геометрическая разметка: возвращение координат ограничивающих прямоугольников для строк и слов, что позволяет сопоставлять текст с исходным изображением.
- Уровни детализации: выдача результатов на уровне блоков, параграфов, строк, слов и символов с метриками уверенности.
- Интеграция с облачными инструментами: совместимость с API-интерфейсами и сервисами хранения/обработки данных в облачной среде.
- Предобработка изображений: возможности улучшения качества входных изображений для повышения точности распознавания.
- Экспорт результатов: вывод в текстовых и структурированных форматах для дальнейшего анализа и индексирования.
- Масштабируемость: поддержка обработки больших объёмов документов в рамках облачной инфраструктуры.