结合seeds集和LDA的半监督文本聚类算法

被引:1
作者
周萍
秦永彬
黄瑞章
机构
[1] 贵州大学计算机科学与技术学院
关键词
机器学习; 半监督学习; 文本聚类; 潜在狄利克雷分配; 算法;
D O I
10.16208/j.issn1000-7024.2014.06.021
中图分类号
TP181 [自动推理、机器学习]; TP391.1 [文字信息处理];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ; 081203 ;
摘要
为了降低半监督聚类算法的数据稀疏度,借鉴seeds集思想,提出了2种基于潜在狄利克雷分配(LDA)的半监督文本聚类算法,Seeded-LDA和Constrained-LDA。Seeded-LDA算法将已知的少量文本标签转化为seeds集信息,根据seeds集信息初始化模型参数;Constrained-LDA在此基础上在聚类过程中限制有标签文本的主题分布,使其与标签相一致。在真实数据集上的实验结果表明,该算法比基于K均值聚类算法衍生的半监督文本聚类算法具有更好的聚类结果和更低的数据稀疏度。
引用
收藏
页码:1994 / 1998
页数:5
相关论文
共 11 条
[1]   一种基于Seeds集和成对约束的半监督聚类算法 [J].
常瑜 ;
梁吉业 ;
高嘉伟 ;
杨静 .
南京大学学报(自然科学版), 2012, 48 (04) :405-411
[2]   基于近邻传播算法的半监督聚类 [J].
肖宇 ;
于剑 .
软件学报, 2008, (11) :2803-2813
[3]   基于LDA模型的中文微博话题意见领袖挖掘 [J].
冯时 ;
景珊 ;
杨卓 ;
王大玲 .
东北大学学报(自然科学版), 2013, 34 (04) :490-494
[4]  
Generative model-based document clustering: a comparative study[J] . Shi Zhong,Joydeep Ghosh. &nbspKnowledge and Information Systems . 2005 (3)
[5]   基于Tri-Training和数据剪辑的半监督聚类算法 [J].
邓超 ;
郭茂祖 .
软件学报, 2008, (03) :663-673
[6]   基于LDA模型的专利信息聚类技术 [J].
范宇 ;
符红光 ;
文奕 .
计算机应用, 2013, 33(S1) (S1) :87-89+93
[7]   基于seeds集和频繁项集挖掘的半监督聚类算法 [J].
赵倩 ;
尚学群 ;
王淼 .
计算机工程与应用, 2010, 46 (08) :123-126+176
[8]   自然语言处理中主题模型的发展 [J].
徐戈 ;
王厚峰 .
计算机学报, 2011, 34 (08) :1423-1436
[9]   一种结合主动学习的半监督文档聚类算法 [J].
赵卫中 ;
马慧芳 ;
李志清 ;
史忠植 .
软件学报, 2012, 23 (06) :1486-1499
[10]  
Shi Zhong,Joydeep Ghosh.  Generative model-based document clustering: a comparative study[J]. Knowledge and Information Systems . 2005 (3)