概率主题模型综述

被引:41
|
作者
韩亚楠 [1 ]
刘建伟 [1 ]
罗雄麟 [1 ]
机构
[1] 中国石油大学(北京)自动化系
关键词
主题模型; 文本挖掘; LDA; 高维数据; 自然语言处理;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
主题模型是当下文本挖掘中最主要的技术之一,广泛应用于数据挖掘、文本分类以及社区发现等.由于其出色的降维能力和灵活的易扩展性,成为自然语言处理领域的一个热门研究方向.Blei等人提出了以Latent Dirichlet Allocation(LDA)为代表的概率主题建模方法,在该模型中主题可以看作是单词的概率分布,主题模型通过单词项在文档级的共现信息提取出与文档语义相关的主题,实现将高维的单词空间映射到低维的主题空间,进而完成对目标文本数据的降维处理,开创了文本挖掘研究的新方向.其中LDA作为一种概率生成模型很容易被扩展为其它各种形式的模型,鉴于概率主题模型的应用价值、理论意义和未来的发展潜力,本文首先系统性地对LDA模型进行介绍,进而对基于LDA模型的各类扩展模型进行详细分类,并对其中各类的典型代表进行详细介绍,指出了各个概率主题模型被提出的原因以及其模型的具体形式、所具有的优缺点、适宜解决的问题等,进而又指出近年来主题模型典型应用场景;此外,本文还对目前概率主题模型常用的几个公认的数据集、评测方法以及典型实验结果进行详细介绍,并在最后指明了概率主题模型在进一步研究中需要解决的问题以及未来可能的发展方向.
引用
收藏
页码:1095 / 1139
页数:45
相关论文
共 43 条
  • [1] 基于深度学习的主题模型研究
    黄佳佳
    李鹏伟
    彭敏
    谢倩倩
    徐超
    [J]. 计算机学报, 2020, 43 (05) : 827 - 855
  • [2] 基于神经网络语言模型的分布式词向量研究进展
    郁可人
    傅云斌
    董启文
    [J]. 华东师范大学学报(自然科学版), 2017, (05) : 52 - 65
  • [3] 基于主题模型的检索结果聚类应用研究
    阮光册
    夏磊
    [J]. 情报杂志, 2017, 36 (03) : 179 - 184
  • [4] 时态主题模型方法及应用研究综述
    桂小庆
    张俊
    张晓民
    于鹏飞
    [J]. 计算机科学, 2017, 44 (02) : 46 - 55
  • [5] 融合词向量特征的双词主题模型
    刘良选
    黄梦醒
    [J]. 计算机应用研究, 2017, 34 (07) : 2055 - 2058
  • [6] 融合内容和链接的网络结构发现概率模型综述
    柴变芳
    贾彩燕
    于剑
    傅玥
    [J]. 小型微型计算机系统, 2013, 34 (11) : 2524 - 2528
  • [7] 自然语言处理中主题模型的发展
    徐戈
    王厚峰
    [J]. 计算机学报, 2011, 34 (08) : 1423 - 1436
  • [8] Constrained Relational Topic Models[J] . Silvia Terragni,Elisabetta Fersini,Enza Messina.Information Sciences . 2020 (C)
  • [9] Incorporating word embeddings into topic modeling of short text
    Gao, Wang
    Peng, Min
    Wang, Hua
    Zhang, Yanchun
    Xie, Qianqian
    Tian, Gang
    [J]. KNOWLEDGE AND INFORMATION SYSTEMS, 2019, 61 (02) : 1123 - 1145
  • [10] Dynamic topic modeling via self-aggregation for short text streams
    Shi, Lei
    Du, Junping
    Liang, Meiyu
    Kou, Feifei
    [J]. PEER-TO-PEER NETWORKING AND APPLICATIONS, 2019, 12 (05) : 1403 - 1417