IMPROVED SPEAKER INDEPENDENT LIP READING USING SPEAKER ADAPTIVE TRAINING AND DEEP NEURAL NETWORKS

被引：0

作者：

Almajai, Ibrahim ^{[1
]}

Cox, Stephen ^{[1
]}

Harvey, Richard ^{[1
]}

Lan, Yuxuan ^{[1
]}

机构：

[1] Univ East Anglia, Sch Comp Sci, Norwich NR7 7TJ, Norfolk, England

来源：

2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING PROCEEDINGS | 2016年

关键词：

Automatic lip-reading; Deep neural networks; Speaker adaptive training;

D O I：

暂无

中图分类号：

O42 [声学];

学科分类号：

070206 ; 082403 ;

摘要：

Recent improvements in tracking and feature extraction mean that speaker-dependent lip-reading of continuous speech using a medium size vocabulary (around 1000 words) is realistic. However, the recognition of previously unseen speakers has been found to be a very challenging task, because of the large variation in lip-shapes across speakers and the lack of large, tracked databases of visual features, which are very expensive to produce. By adapting a technique that is established in speech recognition but has not previously been used in lip-reading, we show that error-rates for speaker-independent lip-reading can be very significantly reduced. Furthermore, we show that error-rates can be even further reduced by the additional use of Deep Neural Networks (DNN). We also find that there is no need to map phonemes to visemes for context-dependent visual speech transcription.

引用

页码：2722 / 2726

页数：5

共 50 条

[1] SPEAKER ADAPTIVE TRAINING USING DEEP NEURAL NETWORKS
Ochiai, Tsubasa
Matsuda, Shigeki
Lu, Xugang
Hori, Chiori
Katagiri, Shigeru
2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2014,
[2] SPEAKER ADAPTIVE TRAINING IN DEEP NEURAL NETWORKS USING SPEAKER DEPENDENT BOTTLENECK FEATURES
Doddipatla, Rama
2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING PROCEEDINGS, 2016, : 5290 - 5294
[3] IMPROVEMENTS TO SPEAKER ADAPTIVE TRAINING OF DEEP NEURAL NETWORKS
Miao, Yajie
Jiang, Lu
Zhang, Hao
Metze, Florian
2014 IEEE WORKSHOP ON SPOKEN LANGUAGE TECHNOLOGY SLT 2014, 2014, : 165 - 170
[4] Ensemble Speaker Modeling using Speaker Adaptive Training Deep Neural Network for Speaker Adaptation
Li, Sheng
Lu, Xugang
Akita, Yuya
Kawahara, Tatsuya
16TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2015), VOLS 1-5, 2015, : 2892 - 2896
[5] Embedding-Based Speaker Adaptive Training of Deep Neural Networks
Cui, Xiaodong
Goel, Vaibhava
Saon, George
18TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2017), VOLS 1-6: SITUATED INTERACTION, 2017, : 122 - 126
[6] SPEAKER ADAPTIVE TRAINING FOR DEEP NEURAL NETWORKS EMBEDDING LINEAR TRANSFORMATION NETWORKS
Ochiai, Tsubasa
Matsuda, Shigeki
Watanabe, Hideyuki
Lu, Xugang
Hori, Chiori
Katagiri, Shigeru
2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), 2015, : 4605 - 4609
[7] On Speaker Adaptive Training of Artificial Neural Networks
Trmal, Jan
Zelinka, Jan
Mueller, Ludek
11TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2010 (INTERSPEECH 2010), VOLS 1-2, 2010, : 554 - 557
[8] VOICE CONVERSION USING DEEP NEURAL NETWORKS WITH SPEAKER-INDEPENDENT PRE-TRAINING
Mohammadi, Seyed Hamidreza
Kain, Alexander
2014 IEEE WORKSHOP ON SPOKEN LANGUAGE TECHNOLOGY SLT 2014, 2014, : 19 - 23
[9] Neural networks for improved text-independent speaker identification
Yue, XC
Ye, DT
Zheng, CX
Wu, XY
IEEE ENGINEERING IN MEDICINE AND BIOLOGY MAGAZINE, 2002, 21 (02): : 53 - 58
[10] SPEAKER CLUSTER-BASED SPEAKER ADAPTIVE TRAINING FOR DEEP NEURAL NETWORK ACOUSTIC MODELING
Chu, Wei
Chen, Ruxin
2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING PROCEEDINGS, 2016, : 5295 - 5299

← 1 2 3 4 5 →