基于信息熵理论的特征权重算法研究

被引:18
|
作者
郭红钰 [1 ]
机构
[1] 华北计算技术研究所
关键词
信息熵; 特征权重; 特征选择; 文本分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本表示是使用分类算法处理文本时必不可少的环节,文本表示方法的选择对最终的分类精度起着至关重要的作用。针对经典的特征权重计算方法TFIDF(Term Frequency and Inverted Document Frequency)中存在的不足,提出了一种基于信息熵理论的特征权重算法ETFIDF(Entropy based TFIDF)。ETFIDF不仅考虑特征项在文档中出现的频率及该特征项在训练集中的集中度,而且还考虑该特征项在各个类别中的分散度。实验结果表明,采用ETFIDF计算特征权重可以有效地提高文本分类性能,对ETFIDF与特征选择的关系进行了较详细的理论分析和实验研究。实验结果表明,在文本表示阶段考虑特征与类别的关系可以更为准确地表示文本;如果综合考虑精度与效率两个方面因素,ETFIDF算法与特征选择算法一起采用能够得到更好的分类效果。
引用
收藏
页码:140 / 146
页数:7
相关论文
共 7 条
  • [1] 基于文本分类TFIDF方法的改进与应用
    张玉芳
    彭时名
    吕佳
    [J]. 计算机工程, 2006, (19) : 76 - 78
  • [2] An improved TF-IDF approach for text classification[J]. 张云涛,龚玲,王永成.Journal of Zhejiang University Science A(Science in Engineering). 2005(01)
  • [3] 用于文本挖掘的特征选择方法TFIDF及其改进
    景丽萍
    黄厚宽
    石洪波
    [J]. 广西师范大学学报(自然科学版), 2003, (01) : 142 - 145
  • [4] 信息论与编码[M]. 中国科学技术大学出版社 , 姜丹编著, 2001
  • [5] Automatic expansion of domain-specific lexicons by term categorization[J] . Henri Avancini,Alberto Lavelli,Fabrizio Sebastiani,Roberto Zanoli.ACM Transactions on Speech and Language Processing (TSLP) . 2006 (1)
  • [6] Exploring the similarity space[J] . Justin Zobel,Alistair Moffat.ACM SIGIR Forum . 1998 (1)
  • [7] A vector space model for automatic indexing[J] . G. Salton,A. Wong,C. S. Yang.Communications of the ACM . 1975 (11)