登录 | 注册 | 充值 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
基于ORC元数据的Hive Join查询Reducer负载均衡方法
  • 摘要

    负载不均衡问题位列影响大规模MapReduce集群性能因素的首位,而 Hive join查询非常容易触发该问题.通用解决方案是基于中间键值对的key频率分布设计能够实现负载均衡的key划分算法.现有工作估算key频率分布时依赖于对map的输出进行监控采样,使得通信开销较大并显著延后了shuffle的启动.针对 Hive join查询,提出了基于ORC元数据的key频率分布估计方法和相应的负载均衡key划分方法.该方法具有计算量小、通信开销小、不影响现有shuffle机制的优点.通过基准测试证明了该方法在key频率分布估算效率上的巨大提升及相应的key划分方法对Hive join查询性能的提升.

  • 作者

    王华进  黎建辉  沈志宏  周园春  WANG Hua-jin  LI Jian-hui  SHEN Zhi-hong  ZHOU Yuan-chun 

  • 作者单位

    中国科学院计算机网络信息中心 北京100190;中国科学院大学 北京100049/中国科学院计算机网络信息中心 北京100190

  • 刊期

    2018年3期 ISTIC PKU

  • 关键词

    负载均衡  MapReduce  Hive  Join  Reducer  ORC  Load balancing  MapReduce  Hive  Join  Reducer  ORC 

相似文献 查看更多>>
18.208.186.19