Multi-Task Learning using Mismatched Transcription for Under-Resourced Speech Recognition

被引：5

作者：

Van Hai Do ^{[1
,4
]}

Chen, Nancy E. ^{[2
]}

Lim, Boon Pang ^{[2
]}

Hasegawa-Johnson, Mark ^{[1
,3
]}

机构：

[1] Viettel Grp, Hanoi, Vietnam

[2] ASTAR, Inst Infocomm Res, Singapore, Singapore

[3] Univ Illinois, Urbana, IL USA

[4] Adv Digital Sci Ctr, Singapore, Singapore

来源：

18TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2017), VOLS 1-6: SITUATED INTERACTION | 2017年

关键词：

mismatched transcription; probabilistic transcription; multi-task learning; low resourced languages; FEATURES; IMPROVE; ASR;

D O I：

10.21437/Interspeech.2017-788

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

It is challenging to obtain large amounts of native (matched) labels for audio in under-resourced languages. This could be due to a lack of literate speakers of the language or a lack of universally acknowledged orthography. One solution is to increase the amount of labeled data by using mismatched transcription, which employs transcribers who do not speak the language (in place of native speakers), to transcribe what they hear as nonsense speech in their own language (e.g.. Mandarin). This paper presents a multi-task learning framework where the DNN acoustic model is simultaneously trained using both a limited amount of native (matched) transcription and a larger set of mismatched transcription. We find that by using a multi-task learning framework, we achieve improvements over monolingual baselines and previously proposed mismatched transcription adaptation techniques. In addition, we show that using alignments provided by a GMM adapted by mismatched transcription further improves acoustic modeling performance. Our experiments on Georgian data from the IARPA Babel program show the effectiveness of the proposed method.

引用

页码：734 / 738

页数：5

共 50 条

[31] Multi-Task Learning of Speech Recognition and Speech Synthesis Parameters for Ultrasound-based Silent Speech Interfaces
Toth, Laszlo
Gosztolya, Gabor
Grosz, Tamas
Marko, Alexandra
Csapo, Tamas Gabor
19TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2018), VOLS 1-6: SPEECH RESEARCH FOR EMERGING MARKETS IN MULTILINGUAL SOCIETIES, 2018, : 3172 - 3176
[32] Multi-script handwritten digit recognition using multi-task learning
Gondere, Mesay Samuel
Schmidt-Thieme, Lars
Sharma, Durga Prasad
Scholz, Randolf
JOURNAL OF INTELLIGENT & FUZZY SYSTEMS, 2022, 43 (01) : 355 - 364
[33] Attribute Knowledge Integration for Speech Recognition Based on Multi-task Learning Neural Networks
Zheng, Hao
Yang, Zhanlei
Qiao, Liwei
Li, Jianping
Liu, Wenju
16TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2015), VOLS 1-5, 2015, : 543 - 547
[34] MULTI-TASK LEARNING IMPROVES SYNTHETIC SPEECH DETECTION
Mo, Yichuan
Wang, Shilin
2022 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2022, : 6392 - 6396
[35] STATISTICAL PARAMETRIC SPEECH SYNTHESIS USING GENERATIVE ADVERSARIAL NETWORKS UNDER A MULTI-TASK LEARNING FRAMEWORK
Yang, Shan
Xie, Lei
Chen, Xiao
Lou, Xiaoyan
Zhu, Xuan
Huang, Dongyan
Li, Haizhou
2017 IEEE AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING WORKSHOP (ASRU), 2017, : 685 - 691
[36] Adaptive multi-task learning for speech to text translation
Feng, Xin
Zhao, Yue
Zong, Wei
Xu, Xiaona
EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING, 2024, 2024 (01):
[37] IMPROVING SPEECH RECOGNITION IN REVERBERATION USING A ROOM-AWARE DEEP NEURAL NETWORK AND MULTI-TASK LEARNING
Giri, Ritwik
Seltzer, Michael L.
Droppo, Jasha
Yu, Dong
2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), 2015, : 5014 - 5018
[38] JOINT CTC-ATTENTION BASED END-TO-END SPEECH RECOGNITION USING MULTI-TASK LEARNING
Kim, Suyoun
Hori, Takaaki
Watanabe, Shinji
2017 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2017, : 4835 - 4839
[39] Transformer-based transfer learning and multi-task learning for improving the performance of speech emotion recognition
Park, Sunchan
Kim, Hyung Soon
JOURNAL OF THE ACOUSTICAL SOCIETY OF KOREA, 2021, 40 (05): : 515 - 522
[40] Multi-Task Semi-Supervised Adversarial Autoencoding for Speech Emotion Recognition
Latif, Siddique
Rana, Rajib
Khalifa, Sara
Jurdak, Raja
Epps, Julien
Schuller, Bjoern W.
IEEE TRANSACTIONS ON AFFECTIVE COMPUTING, 2022, 13 (02) : 992 - 1004

← 1 2 3 4 5 →