登录 | 注册 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
Spark平台下聚类算法的性能比较
  • 摘要

    通过实验,从运行时间、加速比、可扩展性和规模增长性4个方面比较了Spark平台中3种典型的聚类算法即K-means聚类算法、二分K-means聚类算法和高斯混合聚类算法的性能.实验结果表明:1)随着节点个数的增加,3种算法对百兆以上规模数据集聚类的运行时间明显减少;2)当数据集规模大于500MB时,3种算法的加速比均有明显提高,且随着节点个数的增加,加速比近似于线性增长;3)3种算法的可扩展性随着节点个数的增加而降低,当数据集规模大于500MB时,相对于K-means和高斯混合算法,二分K-means算法的可扩展性最差;4)当数据集规模大于100MB时,高斯混合算法的规模增长性远高于K-means和二分K-means算法.

  • 作者

    海沫  张游  HAI Mo  ZHANG You 

  • 作者单位

    中央财经大学信息学院 北京100081;电子科技大学网络与数据安全四川省重点实验室 成都610054/卡内基梅隆大学海因茨学院信息系统管理系 匹兹堡999039

  • 刊期

    2017年z1期 ISTIC PKU

  • 关键词

    Spark  K-means聚类  二分K-means聚类  高斯混合聚类  运行时间  加速比  可扩展性  规模增长性  Spark  K-means clustering  Bisecting K-means clustering  Gaussian mixture clustering  Runtime  Speedup  Scalability  Sizeup 

相似文献 查看更多>>
18.232.125.29