基于Labeled-LDA模型的文本分类新算法

被引:97
作者
李文波
孙乐
张大鲲
机构
[1] 中国科学院软件研究所
基金
国家自然科学基金重点项目;
关键词
文本分类; 图模型; 隐含狄利克雷分配; 变分推断;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种能够提取文本隐含主题的非监督学习模型.通过在传统LDA模型中融入文本类别信息,文中提出了一种附加类别标签的LDA模型(Labeled-LDA).基于该模型可以在各类别上协同计算隐含主题的分配量,从而克服了传统LDA模型用于分类时强制分配隐含主题的缺陷.与传统LDA模型的实验对比表明:基于Labeled-LDA模型的文本分类新算法可以有效改进文本分类的性能,在复旦大学中文语料库上micro-F1提高约5.7%,在英文语料库20newsgroup的comp子集上micro-F1提高约3%.
引用
收藏
页码:620 / 627
页数:8
相关论文
共 6 条
[1]   基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859
[2]   训练集类别分布对文本分类的影响 [J].
张启蕊 ;
张凌 ;
董守斌 ;
谭景华 .
清华大学学报(自然科学版), 2005, (S1) :1802-1805
[3]   一种基于潜在语义结构的文本分类模型 [J].
曾雪强 ;
王明文 ;
陈素芬 .
华南理工大学学报(自然科学版), 2004, (S1) :99-102
[4]   A new differential LSI space-based probabilistic document classifier [J].
Chen, L ;
Tokuda, N ;
Nagai, A .
INFORMATION PROCESSING LETTERS, 2003, 88 (05) :203-212
[5]   A comparison of word- and sense-based text categorization using several classification algorithms [J].
Kehagias, A ;
Petridis, V ;
Kaburlasos, VG ;
Fragkou, P .
JOURNAL OF INTELLIGENT INFORMATION SYSTEMS, 2003, 21 (03) :227-247
[6]   An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90