使用thriftserver/beeline/jdbc等方式连接到SparkSQL

thriftserver和beeline的简单配置和使用

  1. 启动thriftserver: 默认端口是10000 ,可以修改
    $ ./${SPARK_HOME}/sbin/start-thriftserver.sh --master local[2] --jars ~/software/mysql-connector-java-5.1.27-bin.jar
    同样需要通过 --jars 传入mysql驱动
  2. 启动beeline
    beeline -u jdbc:hive2://localhost:10000 -n hadoop
    hadoop为用户名 端口和前面保持一致
  1. 修改thriftserver启动占用的默认端口号:
    1
    2
    3
    4
    ./start-thriftserver.sh  \
    --master local[2] \
    --jars ~/software/mysql-connector-java-5.1.27-bin.jar \
    --hiveconf hive.server2.thrift.port=14000

连接14000上的thriftserver
beeline -u jdbc:hive2://localhost:14000 -n hadoop

thriftserver和普通的spark-shell/spark-sql有什么区别?

  1. 使用thriftserver后,spark-shell、spark-sql都是一个spark application;
  2. 使用thriftserver后,不管你启动多少个客户端(beeline/code),永远都是一个spark application,解决了一个数据共享的问题,多个客户端可以共享数据。

使用jdbc的方式连接

  1. 首先需要在pom.xml文件中添加hive-jdbc的依赖

    1
    2
    3
    4
    5
    6
    <!--添加hive-jdbc依赖-->
    <dependency>
    <groupId>org.spark-project.hive</groupId>
    <artifactId>hive-jdbc</artifactId>
    <version>1.2.1.spark2</version>
    </dependency>
  2. 开发示例代码,这里假设已经启动了thriftserver的14000端口

简单测试 try catch就不写了

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
package com.anthony.spark
import java.sql.DriverManager
/**
* @Description: 使用JDBC的连接sparkSQL
* @Date: Created in 16:29 2018/3/28
* @Author: Anthony_Duan
*/
object SparkSQLThriftServerApp {

def main(args: Array[String]): Unit = {

Class.forName("org.apache.hive.jdbc.HiveDriver")

val conn = DriverManager.getConnection("jdbc:hive2://localhost:14000","duanjiaxing","")
val pstmt = conn.prepareStatement("select empno, ename, sal from emp")
val rs = pstmt.executeQuery()

while (rs.next()) {
println("empno:" + rs.getInt("empno") +
" , ename:" + rs.getString("ename") +
" , sal:" + rs.getDouble("sal"))
}

rs.close()
pstmt.close()
conn.close()

}
}

-------------End Of This ArticleThank You For Reading-------------