BiG-SCAPE — программный инструмент для кластеризации и анализа биосинтетических генетических кластеров (BGC, biosynthetic gene clusters). Он разработан для вычислительного сравнения BGC на основе их генетической композиции и организации генов, что позволяет группировать родственные кластеры в семейства генетических кластеров (GCF, gene cluster families). Подход сочетает профили белков, ортологию доменов и меры похожести на уровне генов и генетической структуры, что делает BiG-SCAPE полезным для систематического обзора разнообразия биосинтетических путей в наборах геномов или метагеномных сборок.
Инструмент обычно применяется в микробиологии, природных продуктах и биоразведке для идентификации и картирования распределения потенциально интересных синтетических путей в популяциях микроорганизмов. BiG-SCAPE генерирует матрицы похожести и сетевые представления, позволяющие визуально и аналитически исследовать взаимосвязи между кластерами; результатами служат группировки кластеров, графы похожести и файлы, пригодные для дальнейшей визуализации и публикации. Исторически BiG-SCAPE возник как часть экосистемы инструментов для анализа BGC, дополняя ручные и автоматизированные методы аннотации и интегрируясь в рабочие процессы анализа геномов и метаболомов.
- Кластеризация BGC: группировка генетических кластеров в семейства (GCF) на основе вычисленных метрик похожести.
- Многоуровневая метрика похожести: сочетание сравнения доменов, порядка генов и профилей белков для оценки сходства между BGC.
- Построение сетей: формирование сетей похожести, где узлы представляют отдельные BGC, а рёбра — их степень родства.
- Поддержка больших наборов данных: масштабирование на сотни и тысячи кластеров для сравнительного анализа крупных геномных коллекций.
- Интеграция с аннотацией: совместная работа с инструментами аннотации BGC для использования выходных данных в последующих анализах.
- Выходные форматы для визуализации: экспорт данных сетей и кластеризации в форматы, пригодные для генерации интерактивных и статичных визуализаций.
- Поддержка таксономического анализа: возможность соотнести распределение GCF с таксономическими метками образцов.
- Настраиваемые параметры: гибкие пороги похожести и параметры объединения, позволяющие адаптировать чувствительность анализа под задачу.