ASSESSING EVALUATION METRICS FOR SPEECH-TO-SPEECH TRANSLATION

被引：4

作者：

Salesky, Elizabeth ^{[1
]}

Maeder, Julian ^{[2
]}

Klinger, Severin ^{[2
]}

机构：

[1] Johns Hopkins Univ, Baltimore, MD 21218 USA

[2] Swiss Fed Inst Technol, Zurich, Switzerland

来源：

2021 IEEE AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING WORKSHOP (ASRU) | 2021年

关键词：

evaluation; speech synthesis; speech translation; speech-to-speech; dialects;

D O I：

10.1109/ASRU51503.2021.9688073

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

Speech-to-speech translation combines machine translation with speech synthesis, introducing evaluation challenges not present in either task alone. How to automatically evaluate speech-to-speech translation is an open question which has not previously been explored. Translating to speech rather than to text is often motivated by unwritten languages or languages without standardized orthographies. However, we show that the previously used automatic metric for this task is best equipped for standardized high-resource languages only. In this work, we first evaluate current metrics for speech-to-speech translation, and second assess how translation to dialectal variants rather than to standardized languages impacts various evaluation methods.

引用

页码：733 / 740

页数：8

共 50 条

[1] INTENT TRANSFER IN SPEECH-TO-SPEECH MACHINE TRANSLATION
Anumanchipalli, Gopala Krishna
Oliveira, Luis C.
Black, Alan W.
2012 IEEE WORKSHOP ON SPOKEN LANGUAGE TECHNOLOGY (SLT 2012), 2012, : 153 - 158
[2] Evaluation methodology and metrics employed to assess the TRANSTAC two-way, speech-to-speech translation systems
Sanders, Gregory A.
Weiss, Brian A.
Schlenoff, Craig
Steves, Michelle P.
Condon, Sherri
COMPUTER SPEECH AND LANGUAGE, 2013, 27 (02): : 528 - 553
[3] Impacts of machine translation and speech synthesis on speech-to-speech translation
Hashimoto, Kei
Yamagishi, Junichi
Byrne, William
King, Simon
Tokuda, Keiichi
SPEECH COMMUNICATION, 2012, 54 (07) : 857 - 866
[4] AN ANALYSIS OF MACHINE TRANSLATION AND SPEECH SYNTHESIS IN SPEECH-TO-SPEECH TRANSLATION SYSTEM
Hashimoto, Kei
Yamagishi, Junichi
Byrne, William
King, Simon
Tokuda, Keiichi
2011 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2011, : 5108 - 5111
[5] Speech-to-speech Low-resource Translation
Liu, Hsiao-Chuan
Day, Min-Yuh
Wang, Chih-Chien
2023 IEEE 24TH INTERNATIONAL CONFERENCE ON INFORMATION REUSE AND INTEGRATION FOR DATA SCIENCE, IRI, 2023, : 91 - 95
[6] Stress Transfer in Speech-to-Speech Machine Translation
Akarsh, Sai
Narasinga, Vamshiraghusimha
Vuppala, Anil Kumar
INTERSPEECH 2024, 2024, : 995 - 996
[7] SPEECH-TO-SPEECH TRANSLATION BETWEEN UNTRANSCRIBED UNKNOWN LANGUAGES
Tjandra, Andros
Sakti, Sakriani
Nakamura, Satoshi
2019 IEEE AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING WORKSHOP (ASRU 2019), 2019, : 593 - 600
[8] Attempt Towards Stress Transfer in Speech-to-Speech Machine Translation
Akarsh, Sai C.
Narasinga, Vamshiraghusimha
Mondal, Anindita
Vuppala, Anil
2024 INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING AND COMMUNICATIONS, SPCOM 2024, 2024,
[9] Unsupervised features from text for speech synthesis in a speech-to-speech translation system
Watts, Oliver
Zhou, Bowen
12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5, 2011, : 2164 - 2167
[10] AUTOMATIC PRONUNCIATION PREDICTION FOR TEXT-TO-SPEECH SYNTHESIS OF DIALECTAL ARABIC IN A SPEECH-TO-SPEECH TRANSLATION SYSTEM
Ananthakrishnan, Sankaranarayanan
Tsakalidis, Stavros
Prasad, Rohit
Natarajan, Prem
Vembu, Aravind Namandi
2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2012, : 4957 - 4960

← 1 2 3 4 5 →