0%

1 编写UDF类

以简单的处理单个字段的UDF函数为例,开发自定义UDF函数需要继承’org.apache.hadoop.hive.ql.exec.UDF’类.
可以通过Maven添加,pom文件中加入(版本号跟Hive版本一致即可):

<dependency>
<groupId>org.apache.hive</groupId>
<artifactId>hive-exec</artifactId>
<version>0.13.1</version>
</dependency>

1.说明:

  1. 首先要部署好Hadoop集群包括HDFS和YARN,这里不再赘述.
  2. Spark on YARN模式,不需要启动spark的master和worker,master的工作由YARN完成.
  3. 相关路径根据实际情况修改.
  4. 1.4和1.6版本部署过程类似.

2.部署

下载

从官网(http://spark.apache.org/)下载对应Hadoop版本的包,如spark-1.6.1-bin-hadoop2.4.tgz.
解压至某个目录,如”/usr/local/hadoop/spark-1.6.1-bin-hadoop2.4”.
解压后得到如下文件