Componente opcional de Trino de Dataproc

Puedes instalar componentes adicionales como Trino cuando creas un clúster de Dataproc con la función Componentes opcionales. En esta página, se describe cómo instalar el componente de Trino de forma opcional en un clúster de Dataproc.

Trino es un motor de consulta en SQL distribuido de código abierto. El servidor de Trino y la IU web están disponibles de forma predeterminada en el puerto 8060 (o en el puerto 7778 si Kerberos está habilitado), en el primer nodo principal del clúster.

De forma predeterminada, Trino en Dataproc está configurado para funcionar con connectors Hive, BigQuery, Memory, TPCH y TPCDS.

Después de crear un clúster con el componente de Trino, puedes ejecutar consultas:

Instala el componente

Instala el componente cuando crees un clúster de Dataproc.

Consulta las versiones compatibles de Dataproc para la versión del componente incluida en cada versión de la imagen de Dataproc.

Comando de gcloud

Para crear un clúster de Dataproc que incluya el componente de Trino, usa el comando gcloud dataproc clusters create cluster-name con la marca --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=TRINO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Configura propiedades

Agrega la marca --properties al comando gcloud dataproc clusters create para configurar las propiedades de configuración de trino, trino-jvm y trino-catalog.

  • Propiedades de la aplicación: Usa las propiedades del clúster con el prefijo trino: para configurar las propiedades de la aplicación de Turino, por ejemplo, --properties="trino:join-distribution-type=AUTOMATIC".
  • Propiedades de configuración de JVM: Usa las propiedades del clúster con el prefijo trino-jvm: a fin de configurar las propiedades de JVM para los procesos trabajadores de Java y coordinador de Trino; por ejemplo, --properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError".
  • Crear catálogos nuevos y agregar propiedades de catálogo: Usa trino-catalog:catalog-name.property-name para configurar catálogos de Trino.

    Ejemplo: La siguiente marca “properties” se puede usar con el comando “gcloud dataproc clusters create” para crear un clúster de Trino con un catálogo “prodhive” de Hive. Se creará un archivo prodhive.properties en /usr/lib/trino/etc/catalog/ para habilitar el catálogo de prodhive.

    --properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=localhost:9000"

API de REST

El componente de Trino se puede especificar mediante la API de Dataproc con SoftwareConfig.Component como parte de una solicitud clusters.create.

Consola

    1. Habilita el componente y la puerta de enlace del componente.
      • En la consola de Google Cloud, abre la página Crear un clúster de Dataproc. Se selecciona el panel Configurar clúster.
      • En la sección Componentes, haz lo siguiente: