LEARNABLE NONLINEAR COMPRESSION FOR ROBUST SPEAKER VERIFICATION

被引：2

作者：

Liu, Xuechen ^{[1
,2
]}

Sahidullah, Md ^{[2
]}

Kinnunen, Tomi ^{[1
]}

机构：

[1] Univ Eastern Finland, Sch Comp, Joensuu, Finland

[2] Univ Lorraine, INRIA, CNRS, LORIA, F-54000 Nancy, France

来源：

2022 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP) | 2022年

关键词：

Speaker Verification; Nonlinear Compression; Multi-Regime Compression; RECOGNITION;

D O I：

10.1109/ICASSP43922.2022.9747185

中图分类号：

O42 [声学];

学科分类号：

070206 ; 082403 ;

摘要：

In this study, we focus on nonlinear compression methods in spectral features for speaker verification based on deep neural network. We consider different kinds of channel-dependent (CD) nonlinear compression methods optimized in a data-driven manner. Our methods are based on power nonlinearities and dynamic range compression (DRC). We also propose multi-regime (MR) design on the nonlinearities, at improving robustness. Results on VoxCeleb1 and VoxMovies data demonstrate improvements brought by proposed compression methods over both the commonly-used logarithm and their static counterparts, especially for ones based on power function. While CD generalization improves performance on VoxCeleb1, MR provides more robustness on VoxMovies, with a maximum relative equal error rate reduction of 21.6%.

引用

页码：7962 / 7966

页数：5

共 50 条

[41] BOOSTED BINARY FEATURES FOR NOISE-ROBUST SPEAKER VERIFICATION
Roy, Anindya
Magimai-Doss, Mathew
Marcel, Sebastien
2010 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2010, : 4442 - 4445
[42] Intrinsic Variation Robust Speaker Verification based on Sparse Representation
Nie, Yi
Xu, Mingxing
Xianyu, Haishu
2014 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA), 2014,
[43] Adversarial Network Bottleneck Features for Noise Robust Speaker Verification
Yu, Hong
Tan, Zheng-Hua
Ma, Zhanyu
Guo, Jun
18TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2017), VOLS 1-6: SITUATED INTERACTION, 2017, : 1492 - 1496
[44] A Two Stage Mask Estimation Approach to Robust Speaker Verification
Zhao, Yali
Xie, Lei
Fu, Zhonghua
13TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2012 (INTERSPEECH 2012), VOLS 1-3, 2012, : 2653 - 2656
[45] CAM: CONTEXT-AWARE MASKING FOR ROBUST SPEAKER VERIFICATION
Yu, Ya-Qi
Zheng, Siqi
Suo, Hongbin
Lei, Yun
Li, Wu-Jun
2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021), 2021, : 6703 - 6707
[46] Robust End-to-End Speaker Verification Using EEG
Han, Yan
Krishna, Gautam
Tran, Co
Carnahan, Mason
Tewfik, Ahmed H.
28TH EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO 2020), 2021, : 1170 - 1174
[47] Blind Stochastic Feature Transformation for Channel Robust Speaker Verification
K.K. Yiu
M. W. Mak
M. C. Cheung
S. Y. Kung
Journal of VLSI signal processing systems for signal, image and video technology, 2006, 42 : 117 - 126
[48] Blind stochastic feature transformation for channel robust speaker verification
Yiu, KK
Mak, MW
Cheung, MC
Kung, SY
JOURNAL OF VLSI SIGNAL PROCESSING SYSTEMS FOR SIGNAL IMAGE AND VIDEO TECHNOLOGY, 2006, 42 (02): : 117 - 126
[49] Locally Weighted Linear Discriminant Analysis for Robust Speaker Verification
Misra, Abhinav
Ranjan, Shivesh
Hansen, John H. L.
18TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2017), VOLS 1-6: SITUATED INTERACTION, 2017, : 2864 - 2868
[50] DNN-Driven Mixture of PLDA for Robust Speaker Verification
Li, Na
Mak, Man-Wai
Chien, Jen-Tzung
IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2017, 25 (06) : 1371 - 1383

← 1 2 3 4 5 →