可视化分析Hue整合Spark&Hive

前言

下图为我近期研究的结果,计划搭建BI分析平台。

系统架构图.png

原本计划使用Kylin,但发现某些场景Kylin支持得不算好(如:多值维度的统计分析);
发现Hive内置函数explode()是支持行转列的,Spark 1.3后的版本也支持,因此还是考虑回归目前的计算框架。
数据层面也需要进行梳理,计划陆续开展,暂且不谈。

所有环境都是在Macbook Pro(OS X 10.11.6)安装的单机版;
默认Hadoop、Hive、Spark均已安装完毕。


安装Hue

参考:
1.http://gethue.com/start-developing-hue-on-a-mac-in-a-few-minutes/
2.https://github.com/cloudera/hue

重要内容:
1、安装Xcode命令行工具

xcode-select --install

我先按照github上的步骤进行操作,遇到一些奇怪的问题,多为库文件头找不到,如:'openssl/e_os2.h' file not found,浪费了不少精力和时间,后来找到官方的指导(参考2)后才一路畅通。

2、到HUE_HOME目录下编译

make apps

3、修改配置参数

vi ./desktop/conf/pseudo-distributed.ini

若其它组件的端口都是按默认配置安装的,Hue的默认设置无需更改,会自动检测并连接。

4、启动服务

./build/env/bin/hue runserver

这时应该能够访问Hue的页面,初次登录需创建管理员用户及密码。


组件配置

一、HDFS

(默认切换至HADOOP_HOME,下同)
1.开启webhdfs

vi ./etc/hadoop/hdfs-site.xml

添加以下参数:

<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>

测试命令:
curl -i "http://localhost:50070/webhdfs/v1/?user.name=hadoop&op=LISTSTATUS"

2.允许超级用户模拟其他用户

 vi ./etc/hadoop/core-site.xml

添加以下参数:

<property>
<name>hadoop.proxyuser.hue.hosts</name>
<value>*</value>
<description>Allow the superuser hue to impersonate any members of the group group1 and group2</description>
</property>

<property>
<name>hadoop.proxyuser.hue.groups</name>
<value>*</value>
</property>

允许hue用户模拟其他用户,若有其他超级用户,还需添加类似的配置(比如我都是使用Edward启动各类组件的,此处还需加上Edward的文件)
建议新建OS用户hue并划分至hadoop组内,不过我本地习惯单用户,将错就错了 :P

3.添加HDFS权限
hdfs dfs -chmod 777 -R /tmp

注:777仅限本地或测试用;(另准备研究下Hue如何集成账号权限管理Sentry+Kerberos)
配置修改后,记得重启Hadoop集群。

二、Hive

1.启动hiveserver2

./bin/hive --service hiveserver2

若有Spark,此步可略,后文详述。

三、Spark

我的目的很简单,只是希望能够在web端执行Spark SQL。

在官方查阅了几篇文章,有篇建议通过Spark Job Server,能够上传jar并执行任务:
http://gethue.com/a-new-spark-web-ui-spark-app/

有篇是通过Livy Server提供REST接口:
http://gethue.com/how-to-use-the-livy-spark-rest-job-server-for-interactive-spark-2-2/

最终发现通过启动Spark的thriftServer即可

cd ${SPARK_HOME}/sbin
./start-thriftserver.sh --master local

Query Editors页面选择Hive即可。

注: thriftServer是用来替代hiveserver2,根据性能测试结果,建议使用Spark的thriftServer 。

标签: hive, spark, hue, hdfs
返回文章列表 文章二维码
本页链接的二维码
打赏二维码
评论列表
  1. 好文,拜读,以后常看学习。

添加新评论