Dataproc 可选 Presto 组件

使用可选组件功能创建 Dataproc 集群时,可以安装其他组件,例如 Presto。本页面介绍了如何在 Dataproc 集群上选择安装 Presto 组件。

Presto (Trino) 是一个开源分布式 SQL 查询引擎。默认情况下,集群的第一个主节点上的端口8060(如果已启用 Kerberos,则为端口7778)上会提供 Presto 服务器和网页界面。

默认情况下,Dataproc 上的 Presto 配置为使用 HiveBigQueryMemoryTPCHTPCDS connectors

使用 Presto 组件创建集群后,您可以运行查询:

安装组件

在创建 Dataproc 集群时安装组件。 组件可添加到使用 Dataproc 版本 1.3 及更高版本创建的 集群中。

如需查看每个 Dataproc 映像版本中包含的组件版本,请参阅支持的 Dataproc 版本

gcloud 命令

如需创建包含 Presto 组件的 Dataproc 集群,请使用带有 --optional-components 标志的 gcloud dataproc clusters create cluster-name 命令。

gcloud dataproc clusters create cluster-name \
    --optional-components=PRESTO \
    --region=region \
    --enable-component-gateway \
    ... other flags

配置属性

--properties 标志添加到 gcloud dataproc clusters create 命令以设置 Presto、presto-jvm 和 Presto - 目录记录配置属性。

  • 应用属性:使用带有 presto: 前缀的集群属性来配置 Presto 应用属性(例如 --properties="presto:join-distribution-type=AUTOMATIC")。
  • JVM 配置属性:使用具有 presto-jvm: 前缀的集群属性为 Presto 协调器和工作器 Java 进程(例如,--properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError")配置值和时间。
  • 创建新目录并添加目录属性:使用 presto-catalog:catalog-name.property-name 配置 Presto 目录。

    示例:以下 `properties` 标志可与 `gcloud dataproc clusters create` 命令配合使用,以创建具有“pro 查找” Hive 目录的 Presto 集群。系统将在 /usr/lib/presto/etc/catalog/ 下创建一个 prodhive.properties 文件,以启用正式目录。

    --properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083

REST API

可以通过 Dataproc API 使用 SoftwareConfig.Component 将 Presto 组件指定为 clusters.create 请求的一部分。

控制台

    1. 启用组件和组件网关。
      • 在 Google Cloud 控制台中,打开 Dataproc 的创建集群页面。选中“设置集群”面板。
      • 在组件部分中执行以下操作:
        • 在可选组件下,选择 Presto 和其他可选组件安装在集群上。
        • 在“组件网关”下,选择“启用组件网关”(请参阅查看和访问组件网关网址)。