基于机器学习的中文微博情感分类实证研究

被引:93
作者
刘志明
刘鲁
机构
[1] 北京航空航天大学经济管理学院
关键词
微博; 情感分类; 机器学习; 特征选取; 特征项权重;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
使用三种机器学习算法、三种特征选取算法以及三种特征项权重计算方法对微博进行了情感分类的实证研究。实验结果表明,针对不同的特征权重计算方法,支持向量机(SVM)和贝叶斯分类算法(Nave Bayes)各有优势,信息增益(IG)特征选取方法相比于其他的方法效果明显要好。综合考虑三种因素,采用SVM和IG,以及TF-IDF(Term Frequency-Inverse Document Frequency)作为特征项权重,三者结合对微博的情感分类效果最好。针对电影领域,比较了微博评论和普通评论之间分类模型的通用性,实验结果表明情感分类性能依赖于评论的风格。
引用
收藏
页码:1 / 4
页数:4
相关论文
共 5 条
[1]   使用机器学习方法进行新闻的情感自动分类 [J].
徐军 ;
丁宇新 ;
王晓龙 .
中文信息学报, 2007, (06) :95-100
[2]   中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32
[3]   几种典型特征选取方法在中文网页分类上的效果比较 [J].
单松巍 ;
冯是聪 ;
李晓明 ;
不详 .
计算机工程与应用 , 2003, (22) :146-148
[4]   On the Optimality of the Simple Bayesian Classifier under Zero-One Loss [J].
Pedro Domingos ;
Michael Pazzani .
Machine Learning, 1997, 29 :103-130
[5]  
Thumbs up or thumbs down?semantic orientation applied to unsupervised classification of re-views .2 TURNEY P. Proceedings of ACL’02 . 2002