LibriTTS-R: A Restored Multi-Speaker Text-to-Speech Corpus

被引：14

作者：

Koizumi, Yuma ^{[1
]}

Zen, Heiga ^{[1
]}

Karita, Shigeki ^{[1
]}

Ding, Yifan ^{[1
]}

Yatabe, Kohei ^{[2
]}

Morioka, Nobuyuki ^{[1
]}

Bacchiani, Michiel ^{[1
]}

Zhang, Yu ^{[3
]}

Han, Wei ^{[3
]}

Bapna, Ankur ^{[3
]}

机构：

[1] Google, Tokyo, Japan

[2] Tokyo Univ Agr Technol, Tokyo, Japan

[3] Google, Mountain View, CA USA

来源：

INTERSPEECH 2023 | 2023年

关键词：

Text-to-speech; dataset; speech restoration;

D O I：

10.21437/Interspeech.2023-1584

中图分类号：

O42 [声学];

学科分类号：

070206 ; 082403 ;

摘要：

This paper introduces a new speech dataset called "LibriTTS-R" designed for text-to-speech (TTS) use. It is derived by applying speech restoration to the LibriTTS corpus, which consists of 585 hours of speech data at 24 kHz sampling rate from 2,456 speakers and the corresponding texts. The constituent samples of LibriTTS-R are identical to those of LibriTTS, with only the sound quality improved. Experimental results show that the LibriTTS-R ground-truth samples showed significantly improved sound quality compared to those in LibriTTS. In addition, neural end-to-end TTS trained with LibriTTS-R achieved speech naturalness on par with that of the ground-truth samples. The corpus is freely available for download from http: //www.openslr.org/141/.

引用

页码：5496 / 5500

页数：5

共 50 条

[41] An Improved Method for Predicting Fundamental Frequency Contour in Mandarin Text-to-Speech System with a Small Corpus [J].

Wang, Liang ;

Zhu, Jie ;

Lv, Yao .

TENCON 2010: 2010 IEEE REGION 10 CONFERENCE, 2010, :751-754

[42] Expressive paragraph text-to-speech synthesis with multi-step variational autoencoder [J].

Li, Xuyuan ;

Shane, Zengqiang ;

Shi, Peiyang ;

Hua, Hua ;

Li, Ta ;

Zhang, Pengyuan .

INTERSPEECH 2024, 2024, :1815-1819

[43] TDASS: Target Domain Adaptation Speech Synthesis Framework for Multi-speaker Low-Resource TTS [J].

Zhang, Xulong ;

Wang, Jianzong ;

Cheng, Ning ;

Xiao, Jing .

2022 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN), 2022,

[44] Cross-lingual Text-To-Speech Synthesis via Domain Adaptation and Perceptual Similarity Regression in Speaker Space [J].

Xin, Detai ;

Saito, Yuki ;

Takamichi, Shinnosuke ;

Koriyama, Tomoki ;

Saruwatari, Hiroshi .

INTERSPEECH 2020, 2020, :2947-2951

[45] MULTI-RATE ATTENTION ARCHITECTURE FOR FAST STREAMABLE TEXT-TO-SPEECH SPECTRUM MODELING [J].

He, Qing ;

Xiu, Zhiping ;

Koehler, Thilo ;

Wu, Jilong .

2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021), 2021, :5689-5693

[46] MULTI-BAND MELGAN: FASTERWAVEFORM GENERATION FOR HIGH-QUALITY TEXT-TO-SPEECH [J].

Yang, Geng ;

Yang, Shan ;

Liu, Kai ;

Fang, Peng ;

Chen, Wei ;

Xie, Lei .

2021 IEEE SPOKEN LANGUAGE TECHNOLOGY WORKSHOP (SLT), 2021, :492-498

[47] Open-source Multi-speaker Speech Corpora for Building Gujarati, Kannada, Malayalam, Marathi, Tamil and Telugu Speech Synthesis Systems [J].

He, Fei ;

Chu, Shan-Hui Cathy ;

Kjartansson, Oddur ;

Rivera, Clara ;

Katanova, Anna ;

Gutkin, Alexander ;

Demirsahin, Isin ;

Johny, Cibu ;

Jansche, Martin ;

Sarin, Supheakmungkol ;

Pipatsrisawat, Knot .

PROCEEDINGS OF THE 12TH INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION (LREC 2020), 2020, :6494-6503

[48] APPLIED LINGUISTICS WITH DEEP LEARNING-BASED DATA-DRIVEN TEXT-TO-SPEECH SYNTHESIZER FOR ARABIC CORPUS [J].

Alshammari, Alya ;

Alotaibi, Shoayee Dlaim ;

Hassan, Abdulkhaleq Q. A. ;

Alrslani, Faheed A. F. ;

Aljohani, Nasser ;

Sultan, Hanan Al ;

Alzaidi, Muhammad Swaileh A. ;

Alzubaidi, Abdulaziz A. .

FRACTALS-COMPLEX GEOMETRY PATTERNS AND SCALING IN NATURE AND SOCIETY, 2024, 32 (09N10)

[49] PROMPTTTS plus plus : CONTROLLING SPEAKER IDENTITY IN PROMPT-BASED TEXT-TO-SPEECH USING NATURAL LANGUAGE DESCRIPTIONS [J].

Shimizu, Reo ;

Yamamoto, Ryuichi ;

Kawamura, Masaya ;

Shirahata, Yuma ;

Doi, Hironori ;

Komatsu, Tatsuya ;

Tachibana, Kentaro .

2024 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2024), 2024, :12672-12676

[50] A Unified Accent Estimation Method Based on Multi-Task Learning for Japanese Text-to-Speech [J].

Park, Byeongseon ;

Yamamoto, Ryuichi ;

Tachibana, Kentaro .

INTERSPEECH 2022, 2022, :1931-1935

← 1 2 3 4 5 →