登录 | 注册 | 充值 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
MALK:一种高效处理大规模键值的MapReduce框架
  • 摘要

    内存申请是引发共享存储系统上MapReduce性能下降的主要瓶颈之一,特别是对于需要处理大量键值的应用尤为严重.为了解决此问题,提出了一种内存开销低、能高效处理大规模键值的MapReduce并行计算框架——MALK(high-efficient MapReduce for applications having large amountof keys).MALK对于离散的大规模键值采用连续的存储管理方法,避免了大量小块内存的申请;通过更细粒度地处理Map阶段的任务和流水化Reduce阶段的任务,来减少系统运行过程中同时活跃的数据量,从而将应用程序对内存的需求控制在一个较小的范围内;并提出一种Hash表的复用机制,通过复用Hash表的存储空间来避免流水过程中Hash表内存的重复申请;MALK还综合考虑了任务的粒度和数量对任务管理开销和整体性能的影响,把Reduce阶段的任务数量设成对系统性能最优的值.实验结果表明:相对于Phoenix++,MALK的性能最高可提升3.8倍(平均2.8倍);在Map和Reduce阶段,MALK最多可节省95.2%和87.8%的存储空间;MALK在Reduce阶段还取得了更好的负载均衡,降低了L2和LLC Cache的缺失率.

  • 作者

    郑亚松  王达  叶笑春  崔慧敏  徐远超  范东睿  Zheng Yasong  Wang Da  Ye Xiaochun  Cui Huimin  Xu Yuanchao  Fan Dongrui 

  • 作者单位

    计算机体系结构国家重点实验室(中国科学院计算技术研究所) 北京100190;中国科学院大学 北京 100049/计算机体系结构国家重点实验室(中国科学院计算技术研究所) 北京100190/计算机体系结构国家重点实验室(中国科学院计算技术研究所) 北京100190;首都师范大学信息工程学院 北京 100048

  • 刊期

    2014年12期 ISTIC EI PKU

  • 关键词

    MapReduce  面向具有大规模键值应用的MapReduce  大规模键值  共享存储多核系统  内存申请  MapReduce  high-efficient MapReduce for applications having large amount of keys (MALK)  large amount of keys  shared-memory multicore system  memory allocation 

参考文献
  • [1] 钱进,苗夺谦,张泽华. 云计算环境下知识约简算法. 计算机学报, 2011,12
  • [2] 鲁伟明,杜晨阳,魏宝刚,沈春辉,叶振超. 基于MapReduce的分布式近邻传播聚类算法. 计算机研究与发展, 2012,8
  • [3] 亓开元,韩燕波,赵卓峰,房俊. 支持高并发数据流处理的MapReduce中间结果缓存. 计算机研究与发展, 2013,1
  • [4] 王珊,王会举,覃雄派,周烜. 架构大数据:挑战、现状与展望. 计算机学报, 2011,10
  • [5] 张书彬,韩冀中,刘志勇,王凯. 基于MapReduce实现空间查询的研究. 高技术通讯, 2010,7
  • [6] Dean J;Ghemawat S. MapReduce:Simplified data processing on large clusters. Communications of the ACM, 2008,01
  • [7] Talbot J;Yoo R M;Kozyrakis C. Phoenix++:Modular mapreduce for shared-memory systems. New York:ACM, 2011
  • [8] Intel. Intel VTune Amplifier XE 2013. http://software.intel.com/en-us/intel-vtune-amplifierxe/, 2013-09-20
  • [9] Zaharia M;Konwinski A;Joseph A. Improving MapReduce performance in heterogeneous environments. New York:ACM, 2008
  • [10] Yang H C;Dasdan A;Hsiao R L. Map-reduce-merge:Simplified relational data processing on large clusters. New York:ACM, 2007
  • [11] Jiang W;Ravi V T;Agrawal G. A map-reduce system with an alternate api for multi-core environments. Piscataway,NJ:IEEE, 2010
  • [12] Hong Chuntao;Chen Dehao;Chen Wenguang. MapCG:Writing parallel program portable between CPU and GPU. New York:ACM, 2010
  • [13] Bialecki A;Cafarella M;Cutting D. Hadoop:A framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. http://hadoop.apache.org/index.html, 2013-09-20
  • [14] Dice D;Garthwaite A. Mostly lock-free malloc. New York:ACM, 2002
  • [15] Berger E D;McKinley K S;Blumofe R D. Hoard:A scalable memory allocator for multithreaded applications. ACM SIGPLAN NOTICES, 2000,11
  • [16] Condie T;Conway N;Alvaro P. MapReduce online. New York:ACM, 2010
  • [17] Ekanayake J;Li Hui;Zhang Bingjing. Twister:A runtime for iterative MapReduce. New York:ACM, 2010
  • [18] Chen Rong;Chen Haibo;Zang Binyu. Tiled-MapReduce:Optimizing resource usages of data-parallel applications on multicore with tiling. New York:ACM, 2010
  • [19] Mao Yandong;Morris R;Frans Kaashoek M. Optimizing mapreduce for multicore architectures,MIT-CSAIL-TR-2010-020. Cambridge,MA:The MIT Press, 2010
  • [20] Mohamed H;Marchand-Maillet S. Enhancing mapreduce using mpi and an optimized data exchange policy. Piscataway,NJ:IEEE, 2012
  • [21] Xiao Zhiwei;Chen Haibo;Zang Binyu. A hierarchical Approach to maximizing mapreduce efficiency. New York:ACM, 2011
  • [22] Hadoop Wiki. Users list of Hadoop. http://wiki.apache.org/hadoop/PoweredBy, 2013-09-20
  • [23] Ranger C;Raghuraman R;Penmetsa A. Evaluating mapreduce for multi-core and multiprocessor systems. Piscataway,NJ:IEEE, 2007
  • [24] Yoo R M;Romano A;Kozyrakis C. Phoenix rebirth:Scalable mapreduce on a large-scale shared memory system. Piscataway,NJ:IEEE, 2009
  • [25] He Bingsheng;Fang Wenbin;Luo Qiong. Mars:A MapReduce framework on graphics processors. New York:ACM, 2008
  • [26] Kruijf M D;Sankaralingam K. MapReduce for the Cell B E Architecture,TR1625. Wisconsin:Department of Computer Sciences,University of Wisconsin-Madison, 2007
  • [27] Lu Xiaoyi;Wang Bing;Zha Li. Can mpi benefit hadoop and mapreduce applications. Piscataway,NJ:IEEE, 2011
查看更多︾
相似文献 查看更多>>
54.91.41.87