A comparative study on multi-task uncertainty quantification in semantic segmentation and monocular depth estimation

被引:0
作者
Landgraf, Steven [1 ]
Hillemann, Markus [1 ]
Kapler, Theodor [1 ]
Ulrich, Markus [1 ]
机构
[1] Karlsruhe Inst Technol, Inst Photogrammetry & Remote Sensing, D-76131 Karlsruhe, Germany
关键词
deep learning; uncertainty quantification; multi-task learning; semantic segmentation; monocular depth estimation; out-of-domain; Deep Learning; Unsicherheitsquantifizierung; Multi-task-Lernen; Semantische Segmentierung; Monokulare Tiefensch & auml; tzung; Au ss erhalb der Trainingsdom & auml; ne; FRAMEWORK;
D O I
10.1515/teme-2025-0004
中图分类号
TH7 [仪器、仪表];
学科分类号
0804 ; 080401 ; 081102 ;
摘要
Deep neural networks excel in perception tasks such as semantic segmentation and monocular depth estimation, making them indispensable in safety-critical applications like autonomous driving and industrial inspection. However, they often suffer from overconfidence and poor explainability, especially for out-of-domain data. While uncertainty quantification has emerged as a promising solution to these challenges, multi-task settings have yet to be explored. In an effort to shed light on this, we evaluate Monte Carlo Dropout, Deep Sub-Ensembles, and Deep Ensembles for joint semantic segmentation and monocular depth estimation. Thereby, we reveal that Deep Ensembles stand out as the preferred choice, particularly in out-of-domain scenarios, and show the potential benefit of multi-task learning with regard to the uncertainty quality in comparison to solving both tasks separately. Additionally, we highlight the impact of employing different uncertainty thresholds to classify pixels as certain or uncertain, with the median uncertainty emerging as a robust default. Tiefe neuronale Netze zeichnen sich durch ihre exzellenten F & auml;higkeit in Wahrnehmungsaufgaben wie der semantischen Segmentierung und monokularen Tiefensch & auml;tzung aus, was sie f & uuml;r sicherheitskritische Anwendungen wie autonomes Fahren und industrielle Inspektion unverzichtbar macht. Allerdings leiden sie oft unter Selbst & uuml;bersch & auml;tzung und schlechter Erkl & auml;rbarkeit, insbesondere bei dom & auml;nenfremden Daten. W & auml;hrend sich die Quantifizierung von Unsicherheiten als vielversprechende L & ouml;sung f & uuml;r diese Herausforderungen herausgestellt hat, m & uuml;ssen Multi-task-Szenarien noch erforscht werden. Um diese L & uuml;cke in der aktuellen Literatur zu f & uuml;llen, evaluieren wir Monte Carlo Dropout, Deep Sub-Ensembles und Deep Ensembles f & uuml;r die gemeinsame semantische Segmentierung und monokulare Tiefensch & auml;tzung. Dabei zeigt sich, dass deep Ensembles vor allem au ss erhalb des Dom & auml;nenspektrums zu bevorzugen sind und der potenzielle Vorteil von Multi-task-Lernen im Hinblick auf die Qualit & auml;t der Unsicherheit im Vergleich zur getrennten L & ouml;sung beider Aufgaben deutlich wird. Dar & uuml;ber hinaus zeigen wir die Auswirkungen der Verwendung verschiedener Unsicherheitsschwellenwerte zur Klassifizierung von Pixeln als sicher oder unsicher, wobei sich der Median als robuster Standard herausstellt.
引用
收藏
页数:13
相关论文
共 49 条
[1]  
Bruggemann D, 2021, Arxiv, DOI arXiv:2008.10292
[2]   Exploring Relational Context for Multi-Task Dense Prediction [J].
Bruggemann, David ;
Kanakis, Menelaos ;
Obukhov, Anton ;
Georgoulis, Stamatios ;
Van Gool, Luc .
2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV 2021), 2021, :15849-15858
[3]   The Cityscapes Dataset for Semantic Urban Scene Understanding [J].
Cordts, Marius ;
Omran, Mohamed ;
Ramos, Sebastian ;
Rehfeld, Timo ;
Enzweiler, Markus ;
Benenson, Rodrigo ;
Franke, Uwe ;
Roth, Stefan ;
Schiele, Bernt .
2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2016, :3213-3223
[4]  
Deng J, 2009, PROC CVPR IEEE, P248, DOI 10.1109/CVPRW.2009.5206848
[5]   Towards Real-Time Monocular Depth Estimation for Robotics: A Survey[-5pt] [J].
Dong, Xingshuai ;
Garratt, Matthew A. ;
Anavatti, Sreenatha G. ;
Abbass, Hussein A. .
IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS, 2022, 23 (10) :16940-16961
[6]  
Fort S, 2020, Arxiv, DOI [arXiv:1912.02757, 10.48550/arXiv.1912.02757]
[7]  
Gal Y., 2016, Uncertainty in Deep Learning
[8]  
Gal Y, 2017, PR MACH LEARN RES, V70
[9]  
Gal Y, 2016, PR MACH LEARN RES, V48
[10]   CI-Net: a joint depth estimation and semantic segmentation network using contextual information [J].
Gao, Tianxiao ;
Wei, Wu ;
Cai, Zhongbin ;
Fan, Zhun ;
Xie, Sheng Quan ;
Wang, Xinmei ;
Yu, Qiuda .
APPLIED INTELLIGENCE, 2022, 52 (15) :18167-18186