Componente Trino facoltativo di Dataproc

Puoi installare componenti aggiuntivi come Trino quando crei un cluster Dataproc utilizzando la funzionalità Componenti facoltativi. In questa pagina viene descritto come installare facoltativamente il componente Trino su un cluster Dataproc.

Trino è un motore di query SQL distribuito in open source. Il server Trino e Le UI web sono disponibili per impostazione predefinita sulla porta 8060 (o sulla porta 7778 se Kerberos è abilitata) sul primo nodo master del cluster.

Per impostazione predefinita, Trino su Dataproc è configurato in modo da funzionare con Hive, BigQuery, connettori Memory, TPCH e TPCDS.

Dopo aver creato un cluster con il componente Trino, puoi eseguire query:

Installa il componente

Installa il componente quando crei un cluster Dataproc.

Consulta Versioni Dataproc supportate per la versione del componente inclusa in ogni release dell'immagine Dataproc.

Comando g-cloud

Per creare un cluster Dataproc che includa il componente Trino, utilizza il comando cluster-name gcloud dataproc clusters create con il flag --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=TRINO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Configurazione delle proprietà

Aggiungi il flag --properties alla Comando gcloud dataproc clusters create da impostare trino, trino-jvm e trino-catalog.

  • Proprietà dell'applicazione: utilizza le proprietà del cluster con il prefisso trino: per configurare le proprietà dell'applicazione Trino, ad esempio --properties="trino:join-distribution-type=AUTOMATIC".
  • Proprietà di configurazione JVM: utilizza le proprietà del cluster con il prefisso trino-jvm: per configurare le proprietà JVM per i processi Java del coordinatore e dei worker di Trino, ad esempio --properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError".
  • Per creare nuovi cataloghi e aggiungere proprietà del catalogo: utilizza trino-catalog:catalog-name.property-name per configurare i cataloghi Trino.

    Esempio: è possibile utilizzare il seguente flag "properties" con il comando "gcloud dataproc clusters create" per creare un cluster Trino con un "prodhive" Catalogo Hive. Verrà eseguito l'accesso a un file prodhive.properties da creare in /usr/lib/trino/etc/catalog/ per attivare catalogo di prodotti.

    --properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=localhost:9000"

API REST

Il componente Trino può essere specificato tramite l'API Dataproc utilizzando SoftwareConfig.Component nell'ambito di una richiesta clusters.create.

Console

    1. Attiva il componente e il gateway dei componenti.
      • Nella console Google Cloud, apri la pagina Dataproc Crea un cluster. Il riquadro Configura cluster è selezionato.
      • Nella sezione Componenti: