Componente Trino facoltativo di Dataproc

Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Puoi installare componenti aggiuntivi come Trino quando crei un cluster Dataproc utilizzando la funzionalità Componenti facoltativi. Questa pagina descrive come installare facoltativamente il componente Trino su un cluster Dataproc.

Trino è un motore di query SQL distribuito open source. Il server Trino e l'UI web sono disponibili per impostazione predefinita sulla porta 8060 (o sulla porta 7778 se è abilitato Kerberos) sul primo nodo master del cluster.

Per impostazione predefinita, Trino su Dataproc è configurato per funzionare con Hive, BigQuery, Memory, TPCH e TPCDS connettori.

Dopo aver creato un cluster con il componente Trino, puoi eseguire query:

Installa il componente

Installa il componente quando crei un cluster Dataproc.

Consulta la pagina relativa alle versioni di Dataproc supportate per la versione del componente inclusa in ogni release dell'immagine Dataproc.

Comando gcloud

Per creare un cluster Dataproc che include il componente Trino, utilizza il comando gcloud dataproc clusters create cluster-name con il flag --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=TRINO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Configurazione delle proprietà

Aggiungi il flag --properties al comando gcloud dataproc clusters create per impostare le proprietà di configurazione trino, trino-jvm e trino-catalog.

  • Proprietà dell'applicazione: utilizza le proprietà cluster con il prefisso trino: per configurare le proprietà dell'applicazione Trino, ad esempio --properties="trino:join-distribution-type=AUTOMATIC".
  • Proprietà di configurazione JVM: utilizza le proprietà cluster con il prefisso trino-jvm: per configurare le proprietà JVM per i moderatori Trino e i processi Java dei worker, ad esempio --properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError".
  • Creazione di nuovi cataloghi e aggiunta di proprietà del catalogo:utilizza trino-catalog:catalog-name.property-name per configurare i cataloghi Trino.

    Esempio: il seguente flag "properties" può essere utilizzato con il comando "gcloud dataproc clusters create" per creare un cluster Trino con un catalogo "hive" di "prodhive". Verrà creato un file prodhive.properties in /usr/lib/trino/etc/catalog/ per abilitare il catalogo del prodotto.

    --properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=localhost:9000"

API REST

Il componente Trino può essere specificato tramite l'API Dataproc utilizzando SoftwareConfig.Component come parte di una richiesta clusters.create.

Console

    1. Attiva il componente e il gateway del componente.
      • Nella console Google Cloud, apri la pagina Crea un cluster di Dataproc. Viene selezionato il riquadro Configura cluster.
      • Nella sezione Componenti: