Dataiku

Бесплатно
Windows
macOS
Linux

Сайт: www.dataiku.com

Dataiku — платформа для подготовки данных, разработки моделей машинного обучения и развёртывания аналитических решений в корпоративной среде. Программный продукт сочетает визуальные инструменты для построения процессов обработки данных и визуального машинного обучения с возможностью написания кода на популярных языках (Python, R, SQL), обеспечивая интеграцию этапов от доступа к данным до эксплуатации моделей. Dataiku ориентирована на совместную работу команд аналитиков, дата-сайентистов и инженеров данных, предлагая механизмы управления версиями, контроля качества и повторяемости экспериментов.

Платформа поддерживает подключение к различным источникам данных и системам хранения, выполнение распределённых вычислений и автоматизацию рабочих процессов (pipeline). Dataiku предоставляет средства для визуального проектирования потоков обработки, подготовки признаков, отбора моделей и оценки их качества, а также инструменты для развёртывания моделей в продакшн: пакетирование, служебные API и мониторинг производительности. Архитектура предусматривает расширяемость через плагины и интеграцию с облачными сервисами и распределёнными вычислительными средами.

Исторически продукт возник как инструмент, направленный на упрощение практической работы с данными в организациях, снижая порог входа для аналитиков без глубоких навыков программирования, при этом позволяя опытным разработчикам и ученым по данным использовать собственные кодовые модули. В разных версиях реализованы функции управления доступом, аудит действий и поддержка совместной работы, что делает платформу пригодной для корпоративного использования в средах с требованиями к управлению данными и соответствию внутренним политикам.

  • Интеграция источников данных: подключение к базам данных, хранилищам, облачным сервисам и файлам.
  • Визуальное проектирование процессов: конструктор потоков для подготовки данных, очистки и трансформаций без кода.
  • Поддержка кода: выполнение пользовательского кода на Python, R и SQL внутри рабочих процессов.
  • Инструменты для ML: функции автоматизированного и ручного обучения, сравнения моделей и оценки метрик.
  • Развёртывание и эксплуатация: публикация моделей в виде сервисов, API, планирование задач и мониторинг.
  • Управление и безопасность: контроль версий проектов, разграничение прав доступа и аудит действий пользователей.
  • Автоматизация и оркестрация: планирование и автоматический запуск рабочих процессов и сценариев подготовки данных.
  • Расширяемость: плагины и интеграции с внешними инструментами данных и облачными платформами.
  • Совместная работа: средства для обмена проектами, комментариев и совместного анализа результатов.
  • Мониторинг и качество: отслеживание производительности моделей и метрик качества данных в продакшн-окружении.
Подробнее