Apache Kylin

Бесплатно
Открытый исходный код
Linux

Сайт: kylin.apache.org

Apache Kylin — это распределённый аналитический OLAP-движок с открытым исходным кодом, разработанный для выполнения сложных аналитических запросов над очень крупными наборами данных с низкой задержкой ответа. Проект ориентирован на построение аналитических витрин и интеграцию с инструментами бизнес-аналитики, предоставляя возможность выполнять агрегации и многомерный анализ по данным, хранящимся в распределённых системах хранения, таких как HDFS. Архитектура Kylin сочетает технологии построения предварительно агрегированных кубов, индексирования и планирования запросов, чтобы достигать субсекундных или низколатентных ответов для предопределённых сценариев запросов.

Изначально проект возник в экосистеме больших данных как решение для ускорения аналитики на базе Hadoop и систем хранения колонковых форматов. Kylin поддерживает моделирование данных в виде мер и измерений, позволяет строить OLAP-кубы поверх источников фактов и справочников, обеспечивает совместимость с SQL-подобными интерфейсами и протоколами для интеграции с клиентскими BI-инструментами. Система спроектирована для горизонтального масштабирования компонентов вычисления и хранения, а также для управления процессами ETL и обновления кубов в конвейерах обработки данных.

  • Архитектура OLAP: построение многомерных кубов и предварительных агрегатов для ускорения аналитических запросов.
  • Поддержка SQL: интерфейс SQL для выполнения аналитических запросов и совместимость с JDBC/ODBC для подключения BI-инструментов.
  • Интеграция с экосистемой Hadoop: использование HDFS, Hive и других систем хранения и обработки данных в распределённой среде.
  • Масштабируемость: распределённое выполнение задач индексирования и агрегации, возможность горизонтального масштабирования для больших объёмов данных.
  • Оптимизация запросов: планирование и оптимизация выполнения запросов с использованием предварительно вычисленных агрегатов и индексов.
  • Обновление данных: механизмы полной и инкрементальной переработки кубов, поддержка онлайн- и пакетных конвейеров обновления.
  • Безопасность и контроль доступа: интеграция с системами аутентификации и авторизации для управления доступом к данным и кубам.
  • Совместимость с BI: поддержка стандартных протоколов и форматов для подключения визуализационных и аналитических инструментов.
  • Мониторинг и управление: инструменты для отслеживания состояния задач сборки кубов, производительности и использования ресурсов.
  • Гибкость моделирования: возможность определения мер, измерений, иерархий и вычисляемых показателей в модели данных.
Подробнее