CCNet

Бесплатно
Открытый исходный код
Windows
macOS
Linux

Сайт: github.com/speedinghzl/CCNet

CCNet (Criss-Cross Network) — это нейросетевая модель для семантической сегментации изображений, предложенная в 2018 году группой исследователей из Хуачжунского университета науки и технологии. Основной инновацией является использование механизма кросс-крастного внимания (Criss-Cross Attention), который позволяет эффективно извлекать контекстную информацию по всему изображению, что особенно важно для задач, требующих точного выделения объектов на изображении.

В отличие от традиционных методов, ограниченных локальными рецептивными полями, CCNet использует два последовательных слоя кросс-крастного внимания, которые поочередно захватывают контекстную информацию по горизонтали и вертикали. Это позволяет каждому пикселю учитывать зависимости от всех остальных пикселей изображения, обеспечивая более полное понимание сцены. Дополнительно, введённая категория-согласованная потеря (Category Consistent Loss) способствует улучшению дискриминативных свойств признаков, получаемых моделью.

  • Эффективность использования памяти: по сравнению с традиционными методами, такими как Non-Local Networks, CCNet требует в 11 раз меньше GPU-памяти.
  • Снижение вычислительных затрат: использование кросс-крастного внимания значительно уменьшает количество операций с плавающей точкой (FLOPs) примерно на 85% по сравнению с Non-Local блоками.
  • Высокая производительность: CCNet достигает новых рекордов по метрике mIoU на популярных датасетах, таких как Cityscapes (81,4%), ADE20K (45,22%) и LIP (55,47%).
  • Гибкость и совместимость: модель может быть интегрирована в различные архитектуры сверточных нейросетей, улучшая их способность к семантической сегментации.
  • Простота реализации: CCNet реализован в виде открытого исходного кода, доступного для исследователей и разработчиков.
Подробнее