创建 Dataproc 时,您可以安装其他组件,例如 Trino 使用 可选组件 功能。本页介绍了如何在 Dataproc 集群上选择安装 Trino 组件。
Trino 是一个开源分布式 SQL 查询引擎。Trino 服务器
默认情况下,可通过端口 8060
(如果已启用 Kerberos,则为端口 7778
)访问网页界面
启用)。
默认情况下,Dataproc 上的 Trino 会配置为使用 Hive
、BigQuery
、Memory
、TPCH
和 TPCDS
连接器。
使用 Trino 组件创建集群后,您可以运行查询:
- 从本地终端使用
gcloud dataproc jobs submit trino
命令 - 从集群的第一个主节点上的终端窗口中使用
trino
CLI(命令行界面)- 请参阅将 Trino 与 Dataproc 配合使用。
安装组件
在创建 Dataproc 集群时安装组件。
如需查看每个 Dataproc 映像版本中包含的组件版本,请参阅支持的 Dataproc 版本。
gcloud 命令
如需创建包含 Trino 组件的 Dataproc 集群,请使用带有 --optional-components
标志的 gcloud dataproc clusters create cluster-name 命令。
gcloud dataproc clusters create cluster-name \ --optional-components=TRINO \ --region=region \ --enable-component-gateway \ ... other flags
配置属性
将 --properties
标志添加到 gcloud dataproc clusters create
命令以设置 Trino、Trino-jvm 和 Trino-catalog 配置属性。
-
应用属性:将集群属性与
trino:
前缀要配置 Trino 应用属性,例如--properties="trino:join-distribution-type=AUTOMATIC"
。 - JVM 配置属性:将集群属性与
trino-jvm:
前缀,用于为 Trino 配置 JVM 属性 协调器和工作器 Java 进程,例如,--properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError"
。 - 创建新目录和添加目录资源:使用
trino-catalog:catalog-name.property-name
来配置 Trino 目录。示例:以下 `properties` 标志可与 `gcloud dataproc clusters create` 命令配合使用,以创建具有“pro 查找”Hive 目录的 Trino 集群。系统将在
/usr/lib/trino/etc/catalog/
下创建一个prodhive.properties
文件,以启用正式目录。--properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=localhost:9000"
REST API
可以通过 Dataproc API 使用 SoftwareConfig.Component 将 Trino 组件指定为 clusters.create 请求的一部分。
控制台
- 启用组件和组件网关。
- 在 Google Cloud 控制台中,打开 Dataproc 创建集群页面。选中“设置集群”面板。
- 在组件部分中执行以下操作:
- 在“可选组件”下,选择 Trino 和其他可选组件安装在集群上。
- 在“组件网关”下,选择“启用组件网关”(请参阅查看和访问组件网关网址)。