Multi-label body constitution recognition via HWmixer-MLP for facial and tongue images

被引：2

作者：

Zhang, Mengjian ^{[1
]}

Wen, Guihua ^{[1
]}

Yang, Pei ^{[1
]}

Wang, Changjun ^{[2
]}

Chen, Chuyun ^{[3
]}

机构：

[1] South China Univ Technol, Sch Comp Sci & Engn, Guangzhou 510006, Peoples R China

[2] Guangdong Acad Med Sci, Guangdong Prov Peoples Hosp, Guangdong Geriatr Inst, Guangzhou, Peoples R China

[3] Guangzhou Med Univ, Affiliated Tradit Chinese Med Hosp, Guangzhou, Peoples R China

来源：

EXPERT SYSTEMS WITH APPLICATIONS | 2025年 / 269卷

关键词：

HWmixer-MLP; Facial and tongue images; Multi-label; Body constitution recognition; Binary cognitive gravitational loss; CLASSIFICATION; ARCHITECTURE;

D O I：

10.1016/j.eswa.2025.126383

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

As an important part of intelligent Traditional Chinese Medicine (TCM), automated body constitution recognition (BCR) using biomedical images is valuable for body constitution regulation and disease prevention. According to the composite constitution theory of TCM, we constructed two new multi-label datasets, namely, a facial image multi-label body constitution (FIMBC) dataset and a tongue image multi-label body constitution (TIMBC) dataset. For the BCR task, we proposed a novel MLP-like architecture called HWmixer-MLP to interact with cross-scale width and height features of extracted medical images and fuse them with width and height channel direction features, respectively. To improve the learning ability of HWmixer-MLP, we proposed a binary cognitive gravity loss (BCGL) for the unbalanced labels. Finally, FIMBC and TIMBC datasets were applied to validate the performance of HWmixer-MLP with 5231 facial images and 11636 tongue images, respectively. The experimental results demonstrated that the proposed approach is superior to four SOTA MLP-like models including Wave-MLP, Vip, Cycle-MLP, Active-MLP, and other Transformer-based as well convolutional neural network (CNN)-based methods with mAP values being 79.65% and 48.01% for BCGL-based HWmixer-MLP-T, respectively. Besides, an open medical image dataset was used to verify the performance of the designed HWmixer-MLP and BCGL.

引用

页数：15

共 69 条

[1] TSRNet: Tongue image segmentation with global and local refinement [J].

Cai, Wenjun ;

Zhang, Mengjian ;

Wen, Guihua ;

Yang, Pei .

DISPLAYS, 2024, 81

[2] A Multi-Label Classification with an Adversarial-Based Denoising Autoencoder for Medical Image Annotation [J].

Chai, Yidong ;

Liu, Hongyan ;

Xu, Jie ;

Samtani, Sagar ;

Jiang, Yuanchun ;

Liu, Haoxin .

ACM TRANSACTIONS ON MANAGEMENT INFORMATION SYSTEMS, 2023, 14 (02)

[3] CycleMLP: A MLP-Like Architecture for Dense Visual Predictions [J].

Chen, Shoufa ;

Xie, Enze ;

Ge, Chongjian ;

Chen, Runjian ;

Liang, Ding ;

Luo, Ping .

IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2023, 45 (12) :14284-14300

[4] ConViT: improving vision transformers with soft convolutional inductive biases [J].

d'Ascoli, Stephane ;

Touvron, Hugo ;

Leavitt, Matthew L. ;

Morcos, Ari S. ;

Biroli, Giulio ;

Sagun, Levent .

JOURNAL OF STATISTICAL MECHANICS-THEORY AND EXPERIMENT, 2022, 2022 (11)

[5]

Dosovitskiy A., 2021, P INT C LEARN REPR, DOI [10.48550/arXiv.2010.11929, DOI 10.48550/ARXIV.2010.11929]

[6] Personalized Body Constitution Inquiry Based on Machine Learning [J].

Fan, Baochao ;

Li, Yanghui ;

Wen, Guihua ;

Ren, Yan ;

Lu, Yantong ;

Wang, Ziying ;

Zhang, Yuan ;

Wang, Changjun .

JOURNAL OF HEALTHCARE ENGINEERING, 2020, 2020

[7] A Survey on Vision Transformer [J].

Han, Kai ;

Wang, Yunhe ;

Chen, Hanting ;

Chen, Xinghao ;

Guo, Jianyuan ;

Liu, Zhenhua ;

Tang, Yehui ;

Xiao, An ;

Xu, Chunjing ;

Xu, Yixing ;

Yang, Zhaohui ;

Zhang, Yiman ;

Tao, Dacheng .

IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2023, 45 (01) :87-110

[8] Deep Residual Learning for Image Recognition [J].

He, Kaiming ;

Zhang, Xiangyu ;

Ren, Shaoqing ;

Sun, Jian .

2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2016, :770-778

[9] Vision Permutator: A Permutable MLP-Like Architecture for Visual Recognition [J].

Hou, Qibin ;

Jiang, Zihang ;

Yuan, Li ;

Cheng, Ming-Ming ;

Yan, Shuicheng ;

Feng, Jiashi .

IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2023, 45 (01) :1328-1334

[10] Searching for MobileNetV3 [J].

Howard, Andrew ;

Sandler, Mark ;

Chu, Grace ;

Chen, Liang-Chieh ;

Chen, Bo ;

Tan, Mingxing ;

Wang, Weijun ;

Zhu, Yukun ;

Pang, Ruoming ;

Vasudevan, Vijay ;

Le, Quoc V. ;

Adam, Hartwig .

2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV 2019), 2019, :1314-1324

← 1 2 3 4 5 6 7 →