Concluding Duplicates Removed Where Possible — термин и название подхода, применяемого в системах очистки и нормализации данных для обнаружения, объединения и удаления дублирующихся записей при сохранении наиболее релевантной информации. В практическом смысле это сочетание алгоритмов идентификации совпадений, эвристик приоритизации и правил слияния, направленных на минимизацию потери данных и сохранение консистентности набора. Исторически методы дедупликации развивались вместе с ростом объёмов данных и необходимостью поддерживать качество информации в бизнес-приложениях, научных базах и государственных реестрах.
Подход предполагает автоматизированную попытку "заключительного" удаления дубликатов там, где это возможно с приемлемым уровнем уверенности, и явную сигнализацию или сохранение нескольких вариантов там, где автоматическое разрешение неоднозначно. Если о конкретной реализации под этим названием недостаточно общедоступной информации, в статье даётся обобщённое описание типичной функциональности и архитектуры таких решений на основе общепринятых практик в области очистки данных.
- Поиск дубликатов: использование точных и нечётких сопоставлений (точный match, fuzzy matching, расстояния Левенштейна, сравнение на основе правил и признаков).
 - Приоритизация записей: критерии выбора "наиболее релевантной" записи: полнота полей, недавность обновления, авторитет источника, согласованность с эталоном.
 - Алгоритмы слияния: правила объединения полей, агрегирование значений, сохранение истории изменений и версионность.
 - Управление неопределённостью: пороговые значения доверия, пометка конфликтов для ручной проверки, создание кандидатов для ревью.
 - Масштабируемость: оптимизация для больших объёмов данных, батчевые и потоковые режимы обработки, индексирование для ускорения поиска совпадений.
 - Интеграция с пайплайном данных: этапы предварительной нормализации, очистки и последующей валидации результатов.
 - Отчётность и аудит: логирование принятых решений, отчёты о количестве и типах удалённых или объединённых записей, возможность отката.
 - Конфигурация и гибкость: настраиваемые правила сопоставления, веса полей и политики слияния под конкретные доменные требования.