Componente Trino opcional de Dataproc

Puedes instalar componentes adicionales, como Trino, al crear un clúster de Dataproc mediante la función Componentes opcionales. En esta página se describe cómo puedes instalar el componente Trino en un clúster de Dataproc (opcional).

Trino es un motor de consulta de SQL distribuido de código abierto. El servidor y la interfaz de usuario web de Trino están disponibles de forma predeterminada en el puerto 8060 (o en el puerto 7778 si Kerberos está habilitado) del primer nodo maestro del clúster.

De forma predeterminada, Trino en Dataproc está configurado para funcionar con los conectores Hive, BigQuery, Memory, TPCH y TPCDS.

Después de crear un clúster con el componente Trino, puedes ejecutar consultas:

Instalar el componente

Instala el componente al crear un clúster de Dataproc.

Consulta las versiones de Dataproc compatibles para ver la versión del componente incluida en cada lanzamiento de imagen de Dataproc.

Consola

  1. En la Google Cloud consola, ve a la página de Dataproc Crear un clúster.

    Ir a Crear un clúster

    El panel Configurar clúster está seleccionado.

  2. En la sección Components (Componentes):
    • En Componentes opcionales, selecciona Trino y otros componentes opcionales que quieras instalar en tu clúster.
    • En Pasarela de componentes, selecciona Habilitar pasarela de componentes (consulta Ver y acceder a URLs de pasarela de componentes).

CLI de gcloud

Para crear un clúster de Dataproc que incluya el componente Trino, usa el comando gcloud dataproc clusters create con la marca --optional-components.

gcloud dataproc clusters create CLUSTER_NAME \
    --optional-components=TRINO \
    --region=region \
    --enable-component-gateway \
    ... other flags
    
Notas:

Configurar propiedades

Añade la marca --properties al comando gcloud dataproc clusters create para definir las propiedades de configuración trino, trino-jvm y trino-catalog.

  • Propiedades de la aplicación: usa propiedades de clúster con el prefijo trino: para configurar propiedades de la aplicación Trino, como --properties="trino:join-distribution-type=AUTOMATIC".
  • Propiedades de configuración de JVM: usa propiedades de clúster con el prefijo trino-jvm: para configurar las propiedades de JVM de los procesos de Java del coordinador y del trabajador de Trino. Por ejemplo, --properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError".
  • Crear catálogos y añadir propiedades de catálogo: usa trino-catalog:catalog-name.property-name para configurar catálogos de Trino.

    Ejemplo: La siguiente marca `properties` se puede usar con el comando `gcloud dataproc clusters create` para crear un clúster de Trino con un catálogo de Hive "prodhive". Se creará un archivo prodhive.properties en /usr/lib/trino/etc/catalog/ para habilitar el catálogo de prodhive.

    --properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=thrift://localhost:9000"

API REST

El componente Trino se puede especificar a través de la API de Dataproc mediante SoftwareConfig.Component como parte de una solicitud clusters.create.