Amazon Redshift — это полностью управляемый облачный аналитический сервис хранения данных, разработанный компанией Amazon Web Services для выполнения масштабируемой обработки аналитических (OLAP) нагрузок. Сервис обеспечивает хранение данных в колонночном формате, массово-параллельную обработку запросов и оптимизации для выполнения сложных SQL‑запросов над большими объёмами данных. Redshift предназначен для объединения, агрегации и анализа структурированных данных из различных источников в центрах обработки данных AWS.
Архитектура Redshift основана на распределённых кластерах, где данные разделяются по узлам и обрабатываются параллельно для повышения производительности при чтении и агрегации. Система использует сжатие данных и адаптивные стратегии выполнения запросов, включая оптимизацию планов и распределение нагрузки по вычислительным ресурсам. Redshift интегрируется с другими облачными сервисами для загрузки данных и управления, а также поддерживает стандартный SQL и средства бизнес-аналитики для построения отчётов и дашбордов.
- Колонночное хранение: данные организованы по столбцам для ускорения сканирования и улучшения сжатия при аналитических операциях.
- MPP (массово‑параллельная обработка): распределение данных и вычислений по множеству узлов для параллельного выполнения запросов.
- Сжатие и кодирование: набор алгоритмов сжатия и кодирования колонок для уменьшения объёма хранимых данных и повышения пропускной способности ввода‑вывода.
- Кластеры и масштабирование: возможность изменения конфигурации кластера и добавления или удаления узлов для масштабирования производительности и ёмкости.
- Поддержка SQL: совместимость с SQL‑диалектом и стандартными инструментами для выполнения запросов, джойнов, оконных функций и агрегатов.
- Интеграция с экосистемой: интеграция с сервисами загрузки и обработки данных, средствами ETL/ELT и инструментами визуализации.
- Управляемость и автоматизация: автоматическое управление инфраструктурой, бэкапами, восстановлением и патчами со стороны провайдера.
- Безопасность и контроль доступа: механизмы аутентификации, шифрования данных и разграничения доступа для защиты конфиденциальной информации.
- Оптимизация запросов: планировщик и оптимизатор выполнения запросов, статистики и индикаторы для улучшения производительности.
- Варианты хранения: поддержка локальных SSD и сетевого хранения, а также облачных вариантов размещения данных в зависимости от требований к задержкам и стоимости.