Puoi installare componenti aggiuntivi come Presto quando crei un cluster Dataproc utilizzando la funzionalità Componenti facoltativi. Questa pagina descrive come installare facoltativamente il componente Presto su un cluster Dataproc.
Presto (Trino) è un motore di query SQL distribuito in open source. Il server Presto e la UI web sono disponibili per impostazione predefinita sulla porta 8060
(o sulla porta 7778
se è abilitato Kerberos) sul primo nodo master del cluster.
Per impostazione predefinita, Presto su Dataproc è configurato per funzionare con i connettori Hive
, BigQuery
, Memory
, TPCH
e TPCDS
.
Dopo aver creato un cluster con il componente Presto, puoi eseguire query:
- da un terminale locale con il comando
gcloud dataproc jobs submit presto
- da una finestra del terminale sul primo nodo master del cluster utilizzando l'interfaccia a riga di comando
presto
(Command-Line Interface, interfaccia a riga di comando) vedi Utilizzare Trino con Dataproc
Installare il componente
Installare il componente quando crei un cluster Dataproc. I componenti possono essere aggiunti ai cluster creati con Dataproc versione 1.3 e successive.
Vedi le versioni Dataproc supportate per la versione del componente inclusa in ogni release dell'immagine Dataproc.
Comando gcloud
Per creare un cluster Dataproc che include il componente Presto, utilizza il comando gcloud dataproc clusters create cluster-name con il flag --optional-components
.
gcloud dataproc clusters create cluster-name \ --optional-components=PRESTO \ --region=region \ --enable-component-gateway \ ... other flags
Configurazione delle proprietà
Aggiungi il flag --properties
al comando
gcloud dataproc clusters create
per impostare le proprietà di configurazione
presto, presto-jvm e presto-catalog.
-
Proprietà applicazione: utilizza le proprietà cluster con il prefisso
presto:
per configurare le proprietà dell'applicazione Presto, ad esempio--properties="presto:join-distribution-type=AUTOMATIC"
. - Proprietà della configurazione JVM: utilizza le proprietà cluster con il prefisso
presto-jvm:
per configurare le proprietà JVM per i processi Java e del coordinatore Presto, ad esempio--properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError"
. - Creazione di nuovi cataloghi e aggiunta delle proprietà del catalogo:usa
presto-catalog:catalog-name.property-name
per configurare i cataloghi Presto.Esempio: è possibile utilizzare il seguente flag "properties" con il comando "gcloud dataproc clusters create" per creare un cluster Presto con un catalogo Hive "prodhive". Verrà creato un file
prodhive.properties
in/usr/lib/presto/etc/catalog/
per abilitare il catalogo del prodotto.--properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083
API REST
Il componente Presto può essere specificato tramite l'API Dataproc utilizzando SoftwareConfig.Component nell'ambito di una richiesta clusters.create.
Console
- Abilitare il componente e il gateway del componente.
- Nella console Google Cloud, apri la pagina Crea un cluster di Dataproc. Il riquadro Configurazione cluster è selezionato.
- Nella sezione Componenti:
- In Componenti facoltativi, seleziona Presto e altri componenti facoltativi da installare sul cluster.
- In Gateway componenti, seleziona Abilita gateway del componente (vedi Visualizzazione e accesso agli URL del gateway componente).