Puoi installare componenti aggiuntivi come Presto quando crei un progetto Dataproc utilizzando il cluster Componenti facoltativi funzionalità. Questa pagina descrive come installare facoltativamente il componente Presto su un cluster Dataproc.
Presto (Trino) è un programma aperto
motore di query SQL distribuito di origine. Per impostazione predefinita, il server Presto e la UI web sono disponibili sulla porta 8060
(o sulla porta 7778
se è abilitato Kerberos) sul primo nodo master del cluster.
Per impostazione predefinita, Presto su Dataproc è configurato per funzionare con connettori Hive
, BigQuery
,
Memory
, TPCH
e TPCDS
.
Dopo aver creato un cluster con il componente Presto, puoi eseguire query:
- da un terminale locale con
Comando
gcloud dataproc jobs submit presto
- da una finestra del terminale sul primo nodo master del cluster utilizzando
Interfaccia a riga di comando
presto
(interfaccia a riga di comando): vedi Utilizzo di Trino con Dataproc
Installa il componente
Installa il componente quando crei un cluster Dataproc. I componenti possono essere aggiunti ai cluster creati con Dataproc versione 1.3 e successive.
Consulta Versioni Dataproc supportate per la versione del componente inclusa in ogni release dell'immagine Dataproc.
Comando g-cloud
Per creare un cluster Dataproc che includa il componente Presto,
utilizza il
comando cluster-name
gcloud dataproc clusters create con il flag --optional-components
.
gcloud dataproc clusters create cluster-name \ --optional-components=PRESTO \ --region=region \ --enable-component-gateway \ ... other flags
Configurazione delle proprietà
Aggiungi il flag --properties
alla
Comando gcloud dataproc clusters create
da impostare
presto, presto-jvm e presto-catalog.
-
Proprietà dell'applicazione: utilizza le proprietà del cluster con il prefisso
presto:
per configurare le proprietà dell'applicazione Presto, ad esempio--properties="presto:join-distribution-type=AUTOMATIC"
. - Proprietà di configurazione JVM: utilizza le proprietà del cluster con la classe
Prefisso
presto-jvm:
per configurare le proprietà JVM per Presto i processi Java di coordinatore e worker, ad esempio--properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError"
. - Per creare nuovi cataloghi e aggiungere proprietà del catalogo: utilizza
presto-catalog:catalog-name.property-name
per configurare i cataloghi Presto.Esempio: il seguente flag "properties" può essere utilizzato con il comando "gcloud dataproc clusters create" per creare un cluster Presto con un catalogo Hive "prodhive". Verrà creato un file
prodhive.properties
in/usr/lib/presto/etc/catalog/
per attivare il catalogo prodhive.--properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083
API REST
Il componente Presto può essere specificato tramite l'API Dataproc utilizzando SoftwareConfig.Component nell'ambito di un clusters.create richiesta.
Console
- Attiva il componente e il gateway dei componenti.
- Nella console Google Cloud, apri Dataproc Crea un cluster . Il riquadro Configura cluster è selezionato.
- Nella sezione Componenti:
- In Componenti facoltativi, seleziona Presto e altri facoltativi componenti da installare sul cluster.
- In Gateway dei componenti, seleziona Abilita gateway dei componenti (vedi Visualizzazione e accesso agli URL del gateway dei componenti).