Bangla-BERT: Transformer-Based Efficient Model for Transfer Learning and Language Understanding

被引：17

作者：

Kowsher, M. ^{[1
]}

Sami, Abdullah A. S. ^{[2
]}

Prottasha, Nusrat Jahan ^{[3
]}

Arefin, Mohammad Shamsul ^{[3
,4
]}

Dhar, Pranab Kumar ^{[4
]}

Koshiba, Takeshi ^{[5
]}

机构：

[1] Stevens Inst Technol, Dept Comp Sci, Hoboken, NJ 07030 USA

[2] Chittagong Univ Engn & Technol, Dept Comp Sci & Engn, Chattogram 4349, Bangladesh

[3] Daffodil Int Univ, Dept Comp Sci & Engn, Dhaka 1207, Bangladesh

[4] Chittagong Univ Engn & Technol, Chattogram 4349, Bangladesh

[5] Waseda Univ, Shinjuku Ku, Tokyo 1698050, Japan

来源：

IEEE ACCESS | 2022年 / 10卷

关键词：

Bit error rate; Learning systems; Transformers; Data models; Computational modeling; Internet; Transfer learning; Bangla NLP; BERT-base; large corpus; transformer;

D O I：

10.1109/ACCESS.2022.3197662

中图分类号：

TP [自动化技术、计算机技术];

学科分类号：

0812 ;

摘要：

The advent of pre-trained language models has directed a new era of Natural Language Processing (NLP), enabling us to create powerful language models. Among these models, Transformer-based models like BERT have grown in popularity due to their cutting-edge effectiveness. However, these models heavily rely on resource-intensive languages, forcing other languages into multilingual models(mBERT). The two fundamental challenges with mBERT become significantly more challenging in a resource-constrained language like Bangla. It was trained on a limited and organized dataset and contained weights for all other languages. Besides, current research on other languages suggests that a language-specific BERT model will exceed multilingual ones. This paper introduces Bangla-BERT,a a monolingual BERT model for the Bangla language. Despite the limited data available for NLP tasks in Bangla, we perform pre-training on the largest Bangla language model dataset, BanglaLM, which we constructed using 40 GB of text data. Bangla-BERT achieves the highest results in all datasets and vastly improves the state-of-the-art performance in binary linguistic classification, multilabel extraction, and named entity recognition, outperforming multilingual BERT and other previous research. The pre-trained model is assessed against several non-contextual models such as Bangla fasttext and word2vec the downstream tasks. Finally, this model is evaluated by transfer learning based on hybrid deep learning models such as LSTM, CNN, and CRF in NER, and it is observed that Bangla-BERT outperforms state-of-the-art methods. The proposed Bangla-BERT model is assessed by using benchmark datasets, including Banfakenews, Sentiment Analysis on Bengali News Comments, and Cross-lingual Sentiment Analysis in Bengali. Finally, it is concluded that Bangla-BERT surpasses all prior state-of-the-art results by 3.52%, 2.2%, and 5.3%.

引用

页码：91855 / 91870

页数：16

共 50 条

[11] A Transformer-Based Model for State of Charge Estimation of Electric Vehicle Batteries
Yilmaz, Metin
Cinar, Eyup
Yazici, Ahmet
IEEE ACCESS, 2025, 13 : 33035 - 33048
[12] Transfer Learning of Transformer-Based Speech Recognition Models from Czech to Slovak
Lehecka, Jan
Psutka, Josef, V
Psutka, Josef
TEXT, SPEECH, AND DIALOGUE, TSD 2023, 2023, 14102 : 328 - 338
[13] Efficient Transformer-based Knowledge Tracing for a Personalized Language Education Application
Kim, Dae-Eun
Hong, Changki
Kim, Woo-Hyun
PROCEEDINGS OF THE TENTH ACM CONFERENCE ON LEARNING @ SCALE, L@S 2023, 2023, : 336 - 340
[14] AN EMPIRICAL STUDY OF TRANSFORMER-BASED NEURAL LANGUAGE MODEL ADAPTATION
Li, Ke
Liu, Zhe
He, Tianxing
Huang, Hongzhao
Peng, Fuchun
Povey, Daniel
Khudanpur, Sanjeev
2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2020, : 7934 - 7938
[15] Transformer-Based Single-Cell Language Model: A Survey
Lan, Wei
He, Guohang
Liu, Mingyang
Chen, Qingfeng
Cao, Junyue
Peng, Wei
BIG DATA MINING AND ANALYTICS, 2024, 7 (04): : 1169 - 1186
[16] Transfer Learning and Custom Loss Applied to Transformer-Based Text Translation for Sign Language Animated Subtitles
Aurelrius, Evan
Henrisen Sikoko, Andhira
Rakun, Erdefi
Azizah, Kurniawati
IEEE Access, 2025, 13 : 36858 - 36876
[17] Dementia Detection using Transformer-Based Deep Learning and Natural Language Processing Models
Saltz, Ploypaphat
Lin, Shih Yin
Cheng, Sunny Chieh
Si, Dong
2021 IEEE 9TH INTERNATIONAL CONFERENCE ON HEALTHCARE INFORMATICS (ICHI 2021), 2021, : 509 - 510
[18] Transformer-based map-matching model with limited labeled data using transfer-learning approach
Jin, Zhixiong
Kim, Jiwon
Yeo, Hwasoo
Choi, Seongjin
TRANSPORTATION RESEARCH PART C-EMERGING TECHNOLOGIES, 2022, 140
[19] Transformers-sklearn: a toolkit for medical language understanding with transformer-based models
Feihong Yang
Xuwen Wang
Hetong Ma
Jiao Li
BMC Medical Informatics and Decision Making, 21
[20] BiCalBERT: An Efficient Transformer-based Model for Chinese Question Answering
Han, Yanbo
Zhan, Buchao
Zhang, Bin
Zhao, Chao
Yan, Shankai
2024 8TH INTERNATIONAL CONFERENCE ON INTELLIGENT SYSTEMS, METAHEURISTICS & SWARM INTELLIGENCE, ISMSI 2024, 2024, : 100 - 104

← 1 2 3 4 5 →