Amazon Redshift Spectrum

Сайт: aws.amazon.com/redshift/features/spectrum

Amazon Redshift Spectrum — компонент облачного хранилища данных Amazon Redshift, предназначенный для выполнения SQL-запросов к данным, находящимся непосредственно в объектном хранилище Amazon S3, без необходимости предварительной загрузки этих данных в локальные таблицы кластера Redshift. Spectrum интегрируется с сервисом каталогирования данных AWS Glue для обнаружения схем и метаданных, что обеспечивает совместную работу с каталогами метаданных и возможность обращения к таблицам во внешнем хранилище как к внешним таблицам в Redshift.

Сервис поддерживает множество форматов файлов, включая колонко-ориентированные форматы Parquet и ORC, а также текстовые форматы JSON и CSV, что позволяет оптимизировать производительность чтения и использовать компрессию и разрезы (partitioning). Redshift Spectrum спроектирован так, чтобы расширять аналитические возможности кластеров Redshift: он выполняет распределённую обработку запросов, перенаправляя сканирование и фильтрацию больших наборов данных на масштабируемые вычислительные слои, сохраняя при этом единый SQL-интерфейс и планы выполнения в рамках Redshift.

  • Доступ к данным в S3: выполнение SQL-запросов к файлам в Amazon S3 без загрузки в кластер Redshift, поддержка внешних таблиц.
  • Интеграция с AWS Glue: использование каталога данных для хранения схем, метаданных и разделов (partitions).
  • Поддерживаемые форматы: Parquet, ORC, JSON, CSV и другие текстовые и бинарные форматы, с поддержкой компрессии и колонко-ориентированных форматов для повышения эффективности.
  • Масштабируемая обработка: распределённый механизм выполнения, который масштабируется независимо от кластера Redshift для обработки больших объёмов данных.
  • Оптимизация запросов: фильтрация на уровне хранилища, использование статистики и метаданных каталога для минимизации объёма сканируемых данных.
  • Гибридные сценарии: объединение данных, хранящихся в Redshift и в S3, в единых SQL-запросах для аналитики и построения отчётности.
  • Безопасность и доступ: управление доступом через IAM и механизмы шифрования объектов S3 и интеграция с политиками безопасности AWS.
  • Совместимость с инструментами BI: работает с существующими инструментами бизнес-аналитики и SQL-клиентами, использующими Redshift в качестве источника данных.
Подробнее