Dataproc 可选 Trino 组件

创建 Dataproc 时,您可以安装其他组件,例如 Trino 使用 可选组件 功能。本页介绍了如何在 Dataproc 集群上选择安装 Trino 组件。

Trino 是一个开源分布式 SQL 查询引擎。Trino 服务器 默认情况下,可通过端口 8060(如果已启用 Kerberos,则为端口 7778)访问网页界面 启用)。

默认情况下,Dataproc 上的 Trino 会配置为使用 HiveBigQueryMemoryTPCHTPCDS 连接器

使用 Trino 组件创建集群后,您可以运行查询:

安装组件

在创建 Dataproc 集群时安装组件。

如需查看每个 Dataproc 映像版本中包含的组件版本,请参阅支持的 Dataproc 版本

gcloud 命令

如需创建包含 Trino 组件的 Dataproc 集群,请使用带有 --optional-components 标志的 gcloud dataproc clusters create cluster-name 命令。

gcloud dataproc clusters create cluster-name \
    --optional-components=TRINO \
    --region=region \
    --enable-component-gateway \
    ... other flags

配置属性

--properties 标志添加到 gcloud dataproc clusters create 命令以设置 Trino、Trino-jvm 和 Trino-catalog 配置属性。

  • 应用属性:将集群属性与 trino: 前缀要配置 Trino 应用属性,例如 --properties="trino:join-distribution-type=AUTOMATIC"
  • JVM 配置属性:将集群属性与 trino-jvm: 前缀,用于为 Trino 配置 JVM 属性 协调器和工作器 Java 进程,例如, --properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError"
  • 创建新目录和添加目录资源:使用 trino-catalog:catalog-name.property-name 来配置 Trino 目录。

    示例:以下 `properties` 标志可与 `gcloud dataproc clusters create` 命令配合使用,以创建具有“pro 查找”Hive 目录的 Trino 集群。系统将在 /usr/lib/trino/etc/catalog/ 下创建一个 prodhive.properties 文件,以启用正式目录。

    --properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=localhost:9000"

REST API

可以通过 Dataproc API 使用 SoftwareConfig.Component 将 Trino 组件指定为 clusters.create 请求的一部分。

控制台

    1. 启用组件和组件网关。
      • 在 Google Cloud 控制台中,打开 Dataproc 创建集群页面。选中“设置集群”面板。
      • 在组件部分中执行以下操作:
        • 在“可选组件”下,选择 Trino 和其他可选组件安装在集群上。
        • 在“组件网关”下,选择“启用组件网关”(请参阅查看和访问组件网关网址)。