华为 Spark SQL on HBase package 开源

2015年10月17日 08:00 236 次阅读 来源: 开源中国 作者: 路人甲
摘要 Spark SQL on HBase package 项目又名 Astro,端到端整合了 Spark,Spark SQL和HBase的能力,有助于推动帮助Spark进入NoSQL的广泛客户群,并提供强大的在线查询和分析以及在垂直企业大规模数据处理能力。Apache HBase 是数据在 HDFS 上的 Key-Value 存储。它用来给 Google 的 Big Table 建模,并提供了 API...

        Spark SQL on HBase package 项目又名 Astro,端到端整合了 Spark,Spark SQL和HBase的能力,有助于推动帮助Spark进入NoSQL的广泛客户群,并提供强大的在线查询和分析以及在垂直企业大规模数据处理能力。


        Apache HBase 是数据在 HDFS 上的 Key-Value 存储。它用来给 Google 的 Big Table 建模,并提供了 API 用于查询数据。这些数据通过它的“row keys”来组织、区分和发布。在每个分区上,数据被指定的“列”数据集合“列族”物理分区。这些数据模型是宽且零散的,在这些表中列是动态的,零散的。


        尽管 HBase 是非常有用的大数据存储,但是它的访问机制非常原始,只能通过客户端的 API,Map/Reduce 接口和交互的 shell。SQL 访问 HBase 数据可通过Map/Reduce 或者接口机制,如 Apache Hive 和 Impala,或者一些“本地的” SQL 技术,如 Apache Phoenix。前者实现和使用起来通常比较便宜,它们的延迟和效率通常不如后者,并且只适用于离线分析。后者,与之相反,通常执行得更好,并且限定多个作为联机引擎。它们通常在特定的执行引擎的顶层。


当前的 Astro 1.0 依赖于 Spark 1.4.0,HBase 0.98,构建方法(要求 Maven):

$ git clone https://github.com/HuaweiBigData/astro
$ cd astro
$ mvn -DskipTests clean install 
$ mvn clean install
$mvn -Phbase,hadoop-2.4 test  #运行测试

关注下方微信公众号“Java精选”(w_z90110),回复关键词领取资料:如Mysql、Hadoop、Dubbo、Spring Boot等,免费领取视频教程、资料文档和项目源码。

Java精选专注程序员推送一些Java开发知识,包括基础知识、各大流行框架(Mybatis、Spring、Spring Boot等)、大数据技术(Storm、Hadoop、MapReduce、Spark等)、数据库(Mysql、Oracle、NoSQL等)、算法与数据结构、面试专题、面试技巧经验、职业规划以及优质开源项目等。其中一部分由小编总结整理,另一部分来源于网络上优质资源,希望对大家的学习和工作有所帮助。
还可以输入136 讨论区:
评 论