登录 | 注册 | 充值 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
基于Spark的Kmeans并行算法研究
  • 摘要

    随着处理数据规模的迅速增长,对算法的执行速度要求越来越高.Kmean是聚类分析分析中的一个经典算法,虽然其已在Hadoop平台上有并行化实现,但Hadoop的计算模型并不适合像Kmeans这种迭代计算.Spark被看作下一代大数据并行处理框架,非常适合进行迭代计算.该文论述了Kmeans算法在Spark平台上的并行原理,给出了实现方法,并通过实验证明该实现能够快速完成在大数据集上的聚类.

  • 作者

    蔡洪山  CAI Hong-shan 

  • 作者单位

    安徽理工大学计算机科学与工程学院,安徽淮南,232001

  • 刊期

    2016年4期

  • 关键词

    Kmeans  并行化  Spark  大数据  聚类 

相似文献 查看更多>>
18.232.124.77