Apache Hive

本页面介绍了如何将 Looker 连接到 Apache Hive 2.3+ 和 Apache Hive 3.1.2+。

请注意以下有关 Looker 对不同版本的 Apache Hive 的支持:

  • Looker 支持连接到 Apache Hive 2.3+ 和 Apache Hive 3.1.2+:
    • 对于 Apache Hive 2.3+,Looker 具有 集成级支持
    • 对于 Apache Hive 3.1.2+,Looker 只能与 3.1.2 之后版本的 Apache Hive 3 数据库完全集成。这是因为 Hive 版本 2.4.0 - 3.1.2 存在 查询解析问题,导致 Looker 生成的 SQL 的解析时间非常长。
  • Looker 不支持连接到 Apache Hive 2。对 Apache Hive 2 的连接执行查询会返回错误。

加密网络流量

对 Looker 应用与数据库之间的网络流量进行加密是一种最佳实践。可以考虑启用安全的数据库访问文档页面上介绍的某个选项。

简介

Looker 的架构旨在通过 JDBC 连接到数据库服务器。对于 Hive,这是 Thrift 服务器 (HiveServer2)。如需了解详情,请参阅 Apache 文档

默认情况下,此服务器将侦听端口 10000。

Looker 是一种交互式查询工具,因此它需要与交互式 SQL 引擎搭配使用。如果 Hive 在 MapReduce 上运行(hive.execution.engine 设置为 mr),则 Hive 返回查询结果的速度太慢,无法实际使用。

Looker 已使用 Hive on Tez (hive.execution.engine=tez) 进行测试,但也可以针对 Hive on Spark 运行 Looker。Spark 支持是在 Hive 1.1 版中添加的。(Looker 支持 Hive 1.2.1+。)

永久性派生表 (PDT)

如需在 Looker 中使用 Hive 连接启用 永久性派生表 (PDT),请创建一个临时架构供 Looker 使用。以下是可用于创建 looker_scratch 架构的命令示例:

 CREATE SCHEMA looker_scratch;

Looker 用于连接到 Hive 的用户账号(如果未使用身份验证,则可以是匿名账号)必须在临时架构中具有以下功能:

  • 创建表
  • 修改表
  • 舍弃表

在尝试使用 Hive 创建 PDT 之前,请先使用 JDBC 客户端对此进行测试。

队列

如果您希望 Looker 中的查询进入特定队列,请在 其他 JDBC 参数 字段上 连接设置 页面上输入队列名称参数:

?tez.queue.name=the_bi_queue

您可以在连接设置 页面上的其他 JDBC 参数 字段中以这种方式设置其他 Hive 参数。

使用用户属性,不同用户或不同用户群组的查询可以进入不同的队列。为此,请创建一个名为 queue_name 的用户属性;然后,在其他 JDBC 参数 字段中,添加以下内容:

?tez.queue.name={{ _user_attributes['queue_name'] }}

您还可以使用此功能,根据用户或群组自定义其他 hive-site.xml 参数。

创建 Looker 与数据库的连接

请按照以下步骤创建从 Looker 到数据库的连接:

  1. 在 Looker 的管理 部分中,选择连接 ,然后点击添加连接
  2. 方言 下拉菜单中选择 Apache Hive 2.3+Apache Hive 3.1.2+

  3. 填写连接详情。这些设置中的大多数设置对于大多数数据库方言都是通用的。如需了解详情,请参阅将 Looker 连接到您的数据库文档页面。下面介绍了一些设置:

    • 名称:指定连接的名称。您将在 LookML 项目中以这种方式引用连接。
    • 主机:指定主机名。
    • 端口:指定数据库端口。
    • 数据库:指定数据库名称。
    • 用户名:指定数据库用户名。
    • 密码:指定数据库用户密码。
    • 启用 PDT:使用此开关启用永久性派生表。启用 PDT 后,连接 窗口会显示其他 PDT 设置和 PDT 替换 部分。
    • 临时数据库:指定在本文档页面的永久性派生表 (PDT)部分中创建的临时架构的名称。
    • PDT 构建器连接数上限:指定此连接上可能同时进行的 PDT 构建数。将此值设置得过高可能会对查询时间产生负面影响。如需了解详情,请参阅将 Looker 连接到您的数据库文档页面。
    • 其他 JDBC 参数:添加任何其他 JDBC 参数。如需查看支持的参数列表,请参阅本页面的支持的 JDBC 参数部分。
    • 维护时间表:指定一个 cron 表达式,用于指示 Looker 何时应检查 数据组 和永久性派生表。如需详细了解此设置,请参阅维护时间表文档。
    • SSL:选中此选项可使用 SSL 连接。
    • 验证 SSL:选中此选项可进行主机名验证。
    • 每个节点的最大连接数:此设置最初可以保留默认值。如需了解详情,请参阅将 Looker 连接到您的数据库文档页面。
    • 连接池超时:此设置最初可以保留默认值。如需详细了解此设置,请参阅连接池超时部分的将 Looker 连接到您的数据库文档页面。
    • SQL Runner 预缓存:如需让 SQL Runner 不预加载表信息,并且仅在选择表时加载表信息,请取消选中此选项。如需详细了解此设置,请参阅 SQL Runner 预缓存 部分的 将 Looker 连接到您的数据库 文档页面。
    • 数据库时区:指定数据库中使用的时区。如果您不想进行时区转换,请将此字段留空。如需了解详情,请参阅使用时区设置文档页面。
  4. 如需验证连接是否成功,请点击测试 。如需了解问题排查信息,请参阅测试数据库连接文档页面。

  5. 如需保存这些设置,请点击连接

支持的 JDBC 参数

对于 Apache Hive,Looker 支持连接的 其他 JDBC 参数 字段中的以下 JDBC 参数。如需了解这些参数,请参阅数据库的相关文档。

  • fetchSize
  • httpPath
  • keyStorePassword
  • password
  • principal
  • serviceDiscoveryMode
  • ssl
  • tez.queue.name
  • transportMode
  • twoWay
  • user
  • zooKeeperNamespace

功能支持

如需让 Looker 支持某些功能,您的数据库方言也必须支持这些功能。

Apache Hive 2.3+

截至 Looker 26.8,Apache Hive 2.3+ 支持以下功能:

功能 是否支持?
Looker (Google Cloud Core)
对称聚合
派生表
基于 SQL 的永久性派生表
原生永久性派生表
稳定视图
终止查询
基于 SQL 的数据透视
时区
SSL
小计
其他 JDBC 参数
区分大小写
位置类型
名单类型
百分位
不同值百分位
SQL Runner “Show Processes”
SQL Runner “Describe Table”
SQL Runner “Show Indexes”
SQL Runner “Select 10”
SQL Runner “Count”
SQL “Explain”
OAuth 2.0 凭证
上下文注释
连接池
HLL 草图
汇总感知
增量 PDT
毫秒
微秒
具体化视图
与前一时间段相比的指标
近似计数不同
自定义日历

Apache Hive 3.1.2+

截至 Looker 26.8,Apache Hive 3.1.2+ 支持以下功能:

功能 是否支持?
Looker (Google Cloud Core)
对称聚合
派生表
基于 SQL 的永久性派生表
原生永久性派生表
稳定视图
终止查询
基于 SQL 的数据透视
时区
SSL
小计
其他 JDBC 参数
区分大小写
位置类型
名单类型
百分位
不同值百分位
SQL Runner “Show Processes”
SQL Runner “Describe Table”
SQL Runner “Show Indexes”
SQL Runner “Select 10”
SQL Runner “Count”
SQL “Explain”
OAuth 2.0 凭证
上下文注释
连接池
HLL 草图
汇总感知
增量 PDT
毫秒
微秒
具体化视图
与前一时间段相比的指标
近似计数不同
自定义日历

后续步骤

将数据库连接到 Looker 后,请为用户配置登录选项