登录 | 注册 | 充值 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
基于Hadoop的SQL查询引擎性能研究
  • 摘要

    Apache Hadoop处理超大规模数据集有非常出色的表现,相比较于传统的数据仓库和关系型数据库有不少优势.为了让原有业务能够充分利用Hadoop的优势,SQL-on-Hadoop系统越来越受到工业界和学术界的关注.基于Hadoop的SQL查询引擎种类繁多,各有优势,其运算引擎主要包括三种:①传统的Map/Reduce引擎;②新兴的Spark引擎;③基于shared-nothing架构的MPP引擎.本文选取了其中最有代表性的三种SQL查询引擎 Hive、Spark SQL、Impala,并使用了一种类TPC-H的测试基准对它们的决策支持能力进行测试及评估.从实验结果来看,Impala和Spark SQL相对于传统的Hive都有较大的提高,其中Impala的部分查询比Hive快了10倍以上,并且Impala在完成查询所占用的集群资源也是最少的.然而若从稳定性、易用性、兼容性和性能等多个方面进行对比,并不存在各方面均最优的查询引擎,因此在构建基于Hadoop的数据仓库系统时,推荐采用Hive+ Impala或者Hive+Spark SQL的混合架构.

  • 作者

    吴黎兵  邱鑫  叶璐瑶  王晓栋  聂雷  WU Libing  QIU Xin  YE Luyao  WANG Xiaodong  NIE Lei 

  • 作者单位

    武汉大学计算机学院,武汉,430072/武汉大学计算机学院,武汉430072;英特尔英特尔亚太研发中心,上海201100/英特尔英特尔亚太研发中心,上海,201100

  • 刊期

    2016年2期 ISTIC PKU

  • 关键词

    大数据  SQL-on-Hadoop  数据仓库  Spark SQL  Impala  Hive  big data  SQL-on-Hadoop  data warehouse  Spark SQL  Impala  Hive 

相似文献 查看更多>>
35.172.195.49