Rockset — это облачная аналитическая система управления данными, ориентированная на выполнение интерактивных и аналитических запросов в режиме реального времени. Платформа разработана для работы с полуструктурированными данными, поддерживает хранение и индексирование JSON-подобных документов и обеспечивает быстрый отклик при аналитических операциях за счёт специализированных индексов и распределённой архитектуры. Rockset объединяет возможности потоковой загрузки данных, индексирования и выполнения SQL-запросов, что позволяет аналитикам и разработчикам строить приложения с низкой задержкой ответа по разнообразным источникам данных.
Изначально платформа позиционируется как инструмент для случаев использования, где требуются быстрые ответы на ad-hoc и бизнес-аналитические запросы по данным, поступающим из баз данных, стриминговых систем и хранилищ объектов. Rockset предоставляет средства для подключения к разнообразным источникам, автоматического преобразования и индексирования incoming-данных, а также для масштабируемого выполнения запросов с возможностью горизонтального увеличения ресурсов. Архитектурные решения направлены на упрощение интеграции полуструктурированных форматов с привычным SQL-инструментарием и на поддержку гибридных сценариев аналитики в реальном времени.
- Поддержка полуструктурированных данных: нативная работа с JSON и похожими форматами, автоматическое извлечение полей и вложенных структур.
- Индексирование в реальном времени: создание и использование множества типов индексов для ускорения фильтрации и поиска по данным, включая индексы для полей, токенов и значений.
- SQL-интерфейс: выполнение стандартных SQL-запросов к полуструктурированным данным с расширениями для работы с вложенными объектами и массивами.
- Интеграция со стримами и базами данных: возможности подключений к потоковым источникам и базам данных для непрерывной инвалидации и обновления индексов.
- Масштабируемость и распределённость: горизонтальное масштабирование вычислительных ресурсов и хранение данных в распределённом виде для обеспечения производительности при росте нагрузки.
- Низкая задержка ответов: ориентир на интерактивные запросы и аналитические панели с минимальной задержкой.
- Безопасность и управление доступом: возможности аутентификации, авторизации и управления ролями для контроля доступа к данным и запросам.
- Поддержка векторного поиска: функции и структуры данных, позволяющие хранить векторные представления и выполнять сходные запросы для задач семантического поиска и рекомендаций.
- Инструменты для интеграции и ETL: механизмы преобразования, обогащения и подготовки данных до их индексирования и использования в аналитике.
- Совместимость с облачной инфраструктурой: развертывание и эксплуатация в публичных облаках с учётом практик управления ресурсами и затратами.