面向微博短文本分类的文本向量化方法比较研究

被引：16

作者：

李心蕾

王昊

刘小敏

邓三鸿

机构：

[1] 南京大学信息管理学院

[2] 江苏省数据工程与知识服务重点实验室

来源：

数据分析与知识发现 | 2018年 / 08期

关键词：

短文本分类; Word2Vec; 口语化; 文本词向量; 合成句向量;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

【目的】利用Word2Vec和Sent2Vec算法生成新浪微博的文本的向量化表示形式,以期在文本分类时获得较低的计算成本和较高的分类效果。【方法】使用文本中词的0-1矩阵进行分类,将分类效果作为基准线;采用Word2Vec算法生成词向量并用不同方式合成句子的向量表示,进行文本分类,并与基准线进行对比;利用Sent2Vec算法直接生成句子向量进行分类,综合评价3种方法的优缺点。【结果】研究显示使用Word2Vec算法和Sent2Vec算法能够极大程度上压缩文本特征,对比于使用所有3万多个词作为特征,Word2Vec算法和Sent2Vec算法将特征数压缩在1 000以内。在分类准确率方面,Word2Vec算法的分类准确率比基准线低约3%,准确率为75.14%。Sent2Vec算法的分类效果远不如其他两种方法,准确率只有63.08%。【局限】由于语料有限,Word2Vec算法在计算词向量时可能缺少足够的语义信息,导致词向量的准确性不高,而Sent2Vec算法在中文文本语境下生成句向量的分类结果较差。【结论】Word2Vec算法更适用大规模语料文本分类,在文本量较少时应使用词为特征分类。

引用

页码：41 / 50

页数：10

共 22 条

[1] 改进的基于语义理解的文本情感分类方法研究
王日宏
崔兴梅
周炜
王成龙
李永珺
[J]. 计算机科学, 2017, 44(S2) (S2) : 92 - 97
[2] 基于卷积神经网络的互联网短文本分类方法
郭东亮
刘小明
郑秋生
[J]. 计算机与现代化, 2017, (04) : 78 - 81
[3] 基于句法决策树和SVM的短文本语境识别模型
王峥
刘师培
彭艳兵
[J]. 计算机与现代化, 2017, (03) : 13 - 17
[4] 基于词向量包的自动文摘方法
白淑霞
鲍玉来
张晖
[J]. 现代情报, 2017, (02) : 8 - 13
[5] 基于Word2vec的微博短文本分类研究
张谦
高章敏
刘嘉勇
[J]. 信息网络安全, 2017, (01) : 57 - 62
[6] 基于改进TF-IDF算法的文本分类方法研究
贺科达
朱铮涛
程昱
[J]. 广东工业大学学报, 2016, 33 (05) : 49 - 53
[7] LDA模型下不同分词方法对文本分类性能的影响研究
李湘东
高凡
丁丛
[J]. 计算机应用研究, 2017, 34 (01) : 62 - 66
[8] 基于Adaboost算法的场景中文文本定位
尹芳
郑亮
陈田田
[J]. 计算机工程与应用, 2017, (04) : 200 - 204
[9] 中文短文本自动分类中的汉字特征优化研究
王昊
邓三鸿
苏新宁
[J]. 情报理论与实践, 2015, (06) : 121 - 127
[10] 基于遗传算法及概率论的文本分类算法
宋倩
王东明
[J]. 电脑与电信, 2015, (03) : 49 - 52

← 1 2 3 →