High-Individuality Voice Conversion Based on Concatenative Speech Synthesis

被引：0

作者：

Fujii, Kei ^{[1
]}

Okawa, Jun ^{[1
]}

Suigetsu, Kaori ^{[1
]}

机构：

[1] Kumamoto Natl Coll Technol, Dept Informat & Comp Sci, Kohshi City, Kumamoto 8611102, Japan

来源：

PROCEEDINGS OF WORLD ACADEMY OF SCIENCE, ENGINEERING AND TECHNOLOGY, VOL 26, PARTS 1 AND 2, DECEMBER 2007 | 2007年 / 26卷

关键词：

concatenative speech synthesis; join cost; speaker individuality; unit selection; voice conversion;

D O I：

暂无

中图分类号：

TP301 [理论、方法];

学科分类号：

081202 ;

摘要：

Concatenative speech synthesis is a method that can make speech sound which has naturalness and high-individuality of a speaker by introducing a large speech corpus. Based on this method, in this paper, we propose a voice conversion method whose conversion speech has high-individuality and naturalness. The authors also have two subjective evaluation experiments for evaluating individuality and sound quality of conversion speech. From the results, following three facts have be confirmed: (a) the proposal method can convert the individuality of speakers well, (b) employing the framework of unit selection (especially join cost) of concatenative speech synthesis into conventional voice conversion improves the sound quality of conversion speech, and (c) the proposal method is robust against the difference of genders between a source speaker and a target speaker.

引用

页码：483 / 488

页数：6

共 50 条

[31] INDIVIDUALITY-PRESERVING VOICE CONVERSION FOR ARTICULATION DISORDERS BASED ON NON-NEGATIVE MATRIX FACTORIZATION
Aihara, Ryo
Takashima, Ryoichi
Takiguchi, Tetsuya
Ariki, Yasuo
2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2013, : 8037 - 8040
[32] Segment selection method based on tonal validity evaluation using machine learning for concatenative speech synthesis
Yoshida, Akihiro
Mizuno, Hideyuki
Mano, Kazunori
2008 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, VOLS 1-12, 2008, : 4617 - 4620
[33] Iteratively Improving Speech Recognition and Voice Conversion
Singh, Mayank Kumar
Takahashi, Naoya
Onoe, Naoyuki
INTERSPEECH 2023, 2023, : 206 - 210
[34] MODEL-MAPPING BASED VOICE CONVERSION SYSTEM A Novel Approach to Improve Voice Similarity and Naturalness using Model-based Speech Synthesis Techniques
Li, Baojie
Wu, Dalei
Jiang, Hui
BIOSIGNALS 2010: PROCEEDINGS OF THE THIRD INTERNATIONAL CONFERENCE ON BIO-INSPIRED SYSTEMS AND SIGNAL PROCESSING, 2010, : 442 - 446
[35] A ANN BASED HIGH QUALITY METHOD FOR VOICE CONVERSION
Chen, Z.
Zhang, L. H.
2010 6TH INTERNATIONAL CONFERENCE ON WIRELESS COMMUNICATIONS NETWORKING AND MOBILE COMPUTING (WICOM), 2010,
[36] ASSEM-VC: REALISTIC VOICE CONVERSION BY ASSEMBLING MODERN SPEECH SYNTHESIS TECHNIQUES
Kim, Kang-Wook
Park, Seung-Won
Lee, Junhyeok
Joe, Myun-Chul
2022 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2022, : 6997 - 7001
[37] Esophageal Speech Enhancement Based on Statistical Voice Conversion with Gaussian Mixture Models
Doi, Hironori
Nakamura, Keigo
Toda, Tomoki
Saruwatari, Hiroshi
Shikano, Kiyohiro
IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, 2010, E93D (09): : 2472 - 2482
[38] A Comparative Study of Self-Supervised Speech Representation Based Voice Conversion
Huang, Wen-Chin
Yang, Shu-Wen
Hayashi, Tomoki
Toda, Tomoki
IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, 2022, 16 (06) : 1308 - 1318
[39] Voice Conversion without Parallel Speech Corpus Based on Mixtures of Linear Transform
Jian, Zhi-Hua
Yang, Zhen
2007 INTERNATIONAL CONFERENCE ON WIRELESS COMMUNICATIONS, NETWORKING AND MOBILE COMPUTING, VOLS 1-15, 2007, : 2825 - 2828
[40] Admissible stopping in Viterbi beam search for unit selection in concatenative speech synthesis
Sakai, Shinsuke
Kawahara, Tatsuya
Nakamura, Satoshi
2008 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, VOLS 1-12, 2008, : 4613 - 4616

← 1 2 3 4 5 →