CoLeaF: A Contrastive-Collaborative Learning Framework for Weakly Supervised Audio-Visual Video Parsing

被引：0

作者：

Sardari, Faegheh ^{[1
]}

Mustafa, Armin ^{[1
]}

Jackson, Philip J. B. ^{[1
]}

Hilton, Adrian ^{[1
]}

机构：

[1] Univ Surrey, Ctr Vis Speech & Signal Proc CVSSP, Guildford, Surrey, England

来源：

COMPUTER VISION - ECCV 2024, PT XI | 2025年 / 15069卷

基金：

英国工程与自然科学研究理事会;

关键词：

Unaligned audio-visual learning; Audio-visual video parsing; Weakly supervised learning; Event detection;

D O I：

10.1007/978-3-031-73247-8_1

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

Weakly supervised audio-visual video parsing (AVVP) methods aim to detect audible-only, visible-only, and audible-visible events using only video-level labels. Existing approaches tackle this by leveraging unimodal and cross-modal contexts. However, we argue that while cross-modal learning is beneficial for detecting audible-visible events, in the weakly supervised scenario, it negatively impacts unaligned audible or visible events by introducing irrelevant modality information. In this paper, we propose CoLeaF, a novel learning framework that optimizes the integration of cross-modal context in the embedding space such that the network explicitly learns to combine cross-modal information for audible-visible events while filtering them out for unaligned events. Additionally, as videos often involve complex class relationships, modelling them improves performance. However, this introduces extra computational costs into the network. Our framework is designed to leverage cross-class relationships during training without incurring additional computations at inference. Furthermore, we propose new metrics to better evaluate a method's capabilities in performing AVVP. Our extensive experiments demonstrate that CoLeaF significantly improves the state-of-the-art results by an average of 1.9% and 2.4% F-score on the LLP and UnAV-100 datasets, respectively. Code is available at: https://github.com/faeghehsardari/coleaf.

引用

页码：1 / 17

页数：17

共 26 条

[1] Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset
Carreira, Joao
Zisserman, Andrew
[J]. 30TH IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2017), 2017, : 4724 - 4733
[2] Joint-Modal Label Denoising for Weakly-Supervised Audio-Visual Video Parsing
Cheng, Haoyue
Liu, Zhaoyang
Zhou, Hang
Qian, Chen
Wu, Wayne
Wang, Limin
[J]. COMPUTER VISION, ECCV 2022, PT XXXIV, 2022, 13694 : 431 - 448
[3] Collecting Cross-Modal Presence-Absence Evidence for Weakly-Supervised Audio-Visual Event Perception
Gao, Junyu
Chen, Mengyuan
Xu, Changsheng
[J]. 2023 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2023, : 18827 - 18836
[4] Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale Benchmark and Baseline
Geng, Tiantian
Wang, Teng
Duan, Jinming
Cong, Runmin
Zheng, Feng
[J]. 2023 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2023, : 22942 - 22951
[5] Gutmann M, 2010, PMLR, V9, P297
[6] Deep Residual Learning for Image Recognition
He, Kaiming
Zhang, Xiangyu
Ren, Shaoqing
Sun, Jian
[J]. 2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2016, : 770 - 778
[7] Hershey S, 2017, INT CONF ACOUST SPEE, P131, DOI 10.1109/ICASSP.2017.7952132
[8] DHHN: Dual Hierarchical Hybrid Network for Weakly-Supervised Audio-Visual Video Parsing
Jiang, Xun
Xu, Xing
Chen, Zhiguo
Zhang, Jingran
Song, Jingkuan
Shen, Fumin
Lu, Huimin
Shen, Heng Tao
[J]. PROCEEDINGS OF THE 30TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA, MM 2022, 2022,
[9] Lai YH, 2023, ADV NEUR IN
[10] Learning to Answer Questions in Dynamic Audio-Visual Scenarios
Li, Guangyao
Wei, Yake
Tian, Yapeng
Xu, Chenliang
Wen, Ji-Rong
Hu, Di
[J]. 2022 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2022), 2022, : 19086 - 19096

← 1 2 3 →