Componente Presto facoltativo di Dataproc

Puoi installare componenti aggiuntivi come Presto quando crei un progetto Dataproc utilizzando il cluster Componenti facoltativi funzionalità. Questa pagina descrive come installare facoltativamente il componente Presto su un cluster Dataproc.

Presto (Trino) è un programma aperto motore di query SQL distribuito di origine. Il server Presto e Le UI web sono disponibili per impostazione predefinita sulla porta 8060 (o sulla porta 7778 se Kerberos è abilitata) sul primo nodo master del cluster.

Per impostazione predefinita, Presto su Dataproc è configurato per funzionare con connettori Hive, BigQuery, Memory, TPCH e TPCDS.

Dopo aver creato un cluster con il componente Presto, puoi eseguire query:

Installa il componente

Installa il componente quando crei un cluster Dataproc. I componenti possono essere aggiunti ai cluster creati con Dataproc versione 1.3 e successivi.

Consulta Versioni Dataproc supportate per la versione del componente inclusa in ogni release dell'immagine Dataproc.

Comando g-cloud

Per creare un cluster Dataproc che includa il componente Presto, utilizza il comando cluster-name gcloud dataproc clusters create con il flag --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=PRESTO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Configurazione delle proprietà

Aggiungi il flag --properties alla Comando gcloud dataproc clusters create da impostare presto, presto-jvm e presto-catalog.

  • Proprietà applicazione: utilizza le proprietà del cluster con Prefisso presto: da configurare Proprietà dell'applicazione Presto, ad esempio --properties="presto:join-distribution-type=AUTOMATIC".
  • Proprietà di configurazione JVM: utilizza le proprietà del cluster con il prefisso presto-jvm: per configurare le proprietà JVM per i processi Java del coordinatore e dei worker di Presto, ad esempio --properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError".
  • Per creare nuovi cataloghi e aggiungere proprietà del catalogo: utilizza presto-catalog:catalog-name.property-name per configurare i cataloghi Presto.

    Esempio: il seguente flag "properties" può essere utilizzato con il comando "gcloud dataproc clusters create" per creare un cluster Presto con un catalogo Hive "prodhive". Verrà creato un file prodhive.properties in /usr/lib/presto/etc/catalog/ per attivare il catalogo prodhive.

    --properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083

API REST

Il componente Presto può essere specificato tramite l'API Dataproc utilizzando SoftwareConfig.Component nell'ambito di una richiesta clusters.create.

Console

    1. Attiva il componente e il gateway dei componenti.