STATE MAPPING FOR CROSS-LANGUAGE SPEAKER ADAPTATION IN TTS

被引：12

作者：

Chen, Yi-Ning ^{[1
]}

Jiao, Yang ^{[1
]}

Qian, Yao ^{[1
]}

Soong, Frank K. ^{[1
]}

机构：

[1] Microsoft Res Asia, Beijing, Peoples R China

来源：

2009 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOLS 1- 8, PROCEEDINGS | 2009年

关键词：

HMM-based TTS; Speaker adaptation; Cross language; Kullback-Leibler divergence;

D O I：

10.1109/ICASSP.2009.4960573

中图分类号：

O42 [声学];

学科分类号：

070206 ; 082403 ;

摘要：

Cross-language speaker adaptation has many interesting applications, e.g. speech-to-speech translation. However, in cross-language speaker adaptation, a common phoneme set, assumed to be used by different speakers of the same language, does not exist any longer. Instead, a nearest neighbor based phoneme mapping from one language to the other has been adopted. In this study, we used our recently proposed sub-phonemic HMM state mapping for cross-language adaptations. The sub-phonemic HMM states, due to their phonetic segment nature, tend to be more sharable across different languages than phonemes. Kullback-Leibler divergence, an information-theoretic measure, is chosen here to measure the similarity between given states in different languages. Experimental results show that new state mapping outperforms the phoneme mapping baseline system in terms of three objective measures: log spectral distance, F0 adaptation error and F0 correlations. In comparing with intra-language adaptation, the cross-language result of the new algorithm is also fairly decent.

引用

页码：4273 / 4276

页数：4

共 50 条

[1] A cross-language state mapping approach to bilingual (Mandarin-English) TTS
Liang, Hui
Qian, Yao
Soong, Frank K.
Liu, Gongshen
2008 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, VOLS 1-12, 2008, : 4641 - +
[2] SPEAKER ADAPTATION OF A MULTILINGUAL ACOUSTIC MODEL FOR CROSS-LANGUAGE SYNTHESIS
Himawan, Ivan
Aryal, Sandesh
Ouyang, Iris
Kang, Sam
Lanchantin, Pierre
King, Simon
2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2020, : 7629 - 7633
[3] A reliable technique for detecting the second subglottal resonance and its use in cross-language speaker adaptation
Wang, Shizhen
Lulich, Steven M.
Alwan, Abeer
INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5, 2008, : 1717 - +
[4] An Analysis of Language Mismatch in HMM State Mapping-Based Cross-Lingual Speaker Adaptation
Liang, Hui
Dines, John
11TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2010 (INTERSPEECH 2010), VOLS 1-2, 2010, : 622 - 625
[5] Phonological Knowledge Guided HMM State Mapping for Cross-Lingual Speaker Adaptation
Liang, Hui
Dines, John
12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5, 2011, : 1836 - +
[6] Speaker Gender Classification in Mono-Language and Cross-Language Using BLSTM Network
Alashban, Adal A.
Alotaibi, Yousef A.
2021 44TH INTERNATIONAL CONFERENCE ON TELECOMMUNICATIONS AND SIGNAL PROCESSING (TSP), 2021, : 66 - 71
[7] Advanced Speaker Embedding with Predictive Variance of Gaussian Distribution for Speaker Adaptation in TTS
Lee, Jaeuk
Chang, Joon-Hyuk
INTERSPEECH 2022, 2022, : 2988 - 2992
[8] UNSUPERVISED SPEAKER ADAPTATION FOR DNN-BASED TTS SYNTHESIS
Fan, Yuchen
Qian, Yao
Soong, Frank K.
He, Lei
2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING PROCEEDINGS, 2016, : 5135 - 5139
[9] Cross-lingual Speaker Adaptation via Gaussian Component Mapping
Cao, Houwei
Lee, Tan
Ching, P. C.
11TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2010 (INTERSPEECH 2010), VOLS 1-2, 2010, : 869 - 872
[10] Cross-language plagiarism detection
Potthast, Martin
Barron-Cedeno, Alberto
Stein, Benno
Rosso, Paolo
LANGUAGE RESOURCES AND EVALUATION, 2011, 45 (01) : 45 - 62

← 1 2 3 4 5 →