上传者: weixin_38747978
|
上传时间:2026/1/16 17:15:45
|
文件大小:1.3MB
|
文件类型:PDF
云环境下基于MapReduce的用户聚类研究与实现
基于大数据背景下海量数据人们无法理解,聚类效率低下等问题,采用MapReduce编程模型将Canopy聚类算法和K-means聚类算法在云环境中相结合,使之能够充分利用Hadoop集群的计算和存储能力。
以淘宝网上海量的购买用户聚类作为应用背景,通过使用Hadoop平台的数据挖掘组件Mahout对用户聚类进行了实例研究,并给出了使用Mahout进行挖掘的一般步骤。
结果表明,基于MapReduce的聚类算法在大规模数据集上具有较好的聚类质量和运行速度。
本软件ID:14946191