pandas

pandas — это свободная библиотека на языке Python для анализа и манипуляции данными, ориентированная на работу с табличными и временными рядами. Библиотека предоставляет высокопроизводительные структуры данных и инструменты для упрощения извлечения, очистки, трансформации и агрегирования данных. Основными абстракциями являются объекты Series (одномерные метки-ассоциированные массивы) и DataFrame (двумерные таблицы с метками строк и столбцов), которые объединяют гибкость индексирования с производительностью, близкой к низкоуровневым массивам.

pandas была разработана для решения практических задач анализа данных и обычно используется в сочетании с другими библиотеками экосистемы Python для научных вычислений и визуализации. Библиотека поддерживает чтение и запись данных в разнообразных форматах, предоставляет удобные средства для объединения и изменения наборов данных, работу с пропущенными значениями, группировку и агрегацию, а также функции для обработки временных меток и временных рядов. Благодаря декларативному и выразительному API pandas широко применяется в аналитике, инженерии данных, эконометрике и прикладных исследованиях.

Структуры данных: Series и DataFrame с гибкой системой индексов и меток.
Чтение/запись: импорт и экспорт в форматы CSV, Excel, JSON, HDF5 и др.
Манипуляции: фильтрация, сортировка, переиндексация, объединение (merge, join, concat) и преобразование столбцов.
Обработка пропусков: обнаружение, удаление и заполнение пропущенных значений разными стратегиями.
Группировка и агрегация: операции groupby, агрегирующие и трансформирующие функции для сводных вычислений.
Временные ряды: удобная работа с временными индексами, частотой, ресемплированием и скользящими окнами.
Производительность: векторизированные операции, оптимизация по памяти и совместимость с массивами NumPy.
Интеграция: взаимодействие с библиотеками визуализации, маши́нного обучения и базами данных.
Переобразование данных: melt, pivot, pivot_table и другие средства для реструктуризации таблиц.
Типы данных: поддержка числовых, категориальных, строковых типов и расширяемых типов данных.