基于TF-IDF与word2vec的台词文本分类研究

被引:4
作者
但宇豪 [1 ]
黄继风 [1 ]
杨琳 [2 ]
高海 [3 ]
机构
[1] 上海师范大学信息与机电工程学院
[2] 上海计算机软件技术开发中心
[3] 上海高创电脑技术工程有限公司
关键词
词频-逆文本频率(TF-IDF); word2vec; 信息熵; 文本分类; 机器学习; 加权;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法 .该方法通过引入信息熵及修正因子,缓解了数据不平衡对分类准确率及召回率造成的不良影响.实验结果表明:所提出的分类方法在准确率及召回率上与word2vec均值模型相比,分别提高7.3%及10.5%.
引用
收藏
页码:89 / 95
页数:7
相关论文
共 14 条
  • [11] Robust truncated hinge loss support vector machines
    Wu, Yichao
    Liu, Yufeng
    [J]. JOURNAL OF THE AMERICAN STATISTICAL ASSOCIATION, 2007, 102 (479) : 974 - 983
  • [12] Robust truncated hinge loss support vector machines
    Wu, Yichao
    Liu, Yufeng
    [J]. JOURNAL OF THE AMERICAN STATISTICAL ASSOCIATION, 2007, 102 (479) : 974 - 983
  • [13] 基于WordNet以及潜在语义分析的文本分类方法[P]. 赵旭,李建强,刘璐,许泽文,莫豪文. 中国专利:CN105045913A,
  • [14] 基于WordNet以及潜在语义分析的文本分类方法[P]. 赵旭,李建强,刘璐,许泽文,莫豪文. 中国专利:CN105045913A,