PDMiner:基于云计算的并行分布式数据挖掘工具平台

被引:27
作者
何清 [1 ]
庄福振 [1 ]
曾立 [1 ,2 ]
赵卫中 [1 ,2 ]
谭庆 [1 ,2 ]
机构
[1] 中国科学院智能信息处理重点实验室,中国科学院计算技术研究所
[2] 中国科学院大学
关键词
云计算; 并行算法; 分布式; 数据挖掘; 大数据;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
随着信息技术和互联网的发展,各种信息呈现爆炸性增长,且包含丰富的知识.从海量数据信息中挖掘得到有用的知识仍然是一个挑战性的课题.近几十年来,数据挖掘技术,作为从海量数据信息中挖掘有用信息的关键技术已经引起了广泛的兴趣和研究.但是由于数据规模的增长,以往的很多研究工作并不能有效地处理大规模数据,因此,开发设计或者扩展已有算法使之能处理大规模数据集,已经成为数据挖掘中非常重要的研究课题.近年来,基于云计算的数据挖掘技术研究已经成为一个热点话题,本文中我们研究开发一个基于大规模数据处理平台Hadoop的并行分布式数据挖掘工具平台PDMiner.在PDMiner中,开发实现了各种并行数据挖掘算法,比如数据预处理、关联规则分析以及分类、聚类等算法.实验结果表明,并行分布式数据挖掘工具平台PDMiner中实现的并行算法:1)能够处理大规模数据集,达到TB级别;2)具有很好的加速比性能;3)大大整合利用已有的计算资源,因为这些算法可以在由这些商用机器构建的并行平台上稳定运行,提高了计算资源的利用效率;4)可以有效地应用到实际海量数据挖掘中.此外,在PDMiner中还开发了工作流子系统,提供友好统一的接口界面方便用户定义数据挖掘任务.更重要的是,我们开放了灵活的接口方便用户开发集成新的并行数据挖掘算法.
引用
收藏
页码:871 / 885
页数:15
相关论文
共 6 条
[1]  
The WEKA data mining software.[J].Mark Hall;Eibe Frank;Geoffrey Holmes;Bernhard Pfahringer;Peter Reutemann;Ian H. Witten.ACM SIGKDD Explorations Newsletter.2009, 1
[2]   A heterogeneous computing system for data mining workflows in multi-agent environments [J].
Luo, Ping ;
Lu, Kevin ;
Huang, Rui ;
He, Qing ;
Shi, Zhongzhi .
EXPERT SYSTEMS, 2006, 23 (05) :258-272
[3]  
Distributed data mining in grid computing environments.[J].Ping Luo;Kevin Lü;Zhongzhi Shi;Qing He.Future Generation Computer Systems.2006, 1
[4]   The flexible hypercube: A new fault-tolerant architecture for parallel computing [J].
Hameenanttila, T ;
Guan, XL ;
Carothers, JD ;
Chen, JX .
JOURNAL OF PARALLEL AND DISTRIBUTED COMPUTING, 1996, 37 (02) :213-220
[5]   一种并行决策树学习方法研究 [J].
宋晓云 ;
苏宏升 .
现代电子技术, 2007, (02) :141-144
[6]  
基于MapReduce模型的并行计算平台的设计与实现.[D].万至臻.浙江大学.2008, 07