基于随机森林分类的微博机器用户识别研究

被引:19
|
作者
刘勘 [1 ]
袁蕴英 [1 ]
刘萍 [2 ]
机构
[1] 中南财经政法大学信息与安全工程学院
[2] 武汉大学信息管理学院
关键词
机器用户; 微博; 随机森林;
D O I
10.13209/j.0479-8023.2015.048
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
针对网络上机器用户大量散布谣言,发布虚假信息,误导网民舆论,严重影响网络环境的问题,以微博中的机器用户为研究对象,结合其自动化程度高、伪装能力强、信息发布有针对性的特点,从行为模式、微博内容、用户关系和发布平台4个维度分析机器用户的特征指标,利用信息熵、内容重复率等8个指标构建微博用户的特征向量,通过随机森林算法设计微博中机器用户的识别模型。最后,在真实的新浪微博数据集上进行验证,结果表明本模型识别机器用户的准确度达到96.7%,可以有效地区分微博中的机器用户和普通用户。
引用
收藏
页码:289 / 300
页数:12
相关论文
共 9 条
  • [1] 基于链路预测的微博用户关系分析
    傅颖斌
    陈羽中
    [J]. 计算机科学, 2014, 41 (02) : 201 - 205
  • [2] 微博中基于统计特征与双向投票的垃圾用户发现
    丁兆云
    周斌
    贾焰
    汪祥
    [J]. 计算机研究与发展, 2013, 50 (11) : 2336 - 2348
  • [3] 基于重用检测的微博垃圾用户过滤算法
    赵斌
    吉根林
    曲维光
    顾彦慧
    [J]. 南京大学学报(自然科学), 2013, 49 (04) : 456 - 464
  • [4] 多特征微博垃圾互粉检测方法
    郭浩
    陆余良
    王宇
    杨斌
    [J]. 中国科技论文, 2012, 7 (07) : 548 - 551
  • [5] 国内微博研究现状综述
    王莹莉
    张敏
    [J]. 图书馆学研究, 2012, (12) : 2 - 8
  • [6] Content Mining and Network Analysis of Microblog Spam[J] . Yang,Shen,Shuchen,Li,Xiaoxiao,Ye,Fangping,He.Journal of Convergence Information Technology . 2010 (1)
  • [7] Random forests
    Breiman, L
    [J]. MACHINE LEARNING, 2001, 45 (01) : 5 - 32
  • [8] Measuring regularity by means of a corrected conditional entropy in sympathetic outflow
    Porta, A
    Baselli, G
    Liberati, D
    Montano, N
    Cogliati, C
    Gnecchi-Ruscone, T
    Malliani, A
    Cerutti, S
    [J]. BIOLOGICAL CYBERNETICS, 1998, 78 (01) : 71 - 78
  • [9] Detecting covert timing channels:an entropy-based approach .2 Steven Gianvecchio,Wang Haining. Proceedings of the 14th ACM conference on Computer and communications security . 2007