Puoi installare componenti aggiuntivi come Presto quando crei un cluster Dataproc utilizzando la funzionalità Componenti facoltativi. In questa pagina viene descritto come installare il componente Presto su un cluster Dataproc.
Presto (Trino) è un motore di query SQL distribuito open source. Il server Presto e la UI web sono disponibili per impostazione predefinita sulla porta 8060
(o sulla porta 7778
se è abilitato Kerberos) sul primo nodo master del cluster.
Per impostazione predefinita, Presto su Dataproc è configurato per funzionare con i connectors Hive
, BigQuery
, Memory
, TPCH
e TPCDS
.
Dopo aver creato un cluster con il componente Presto, puoi eseguire query:
- da un terminale locale con il comando
gcloud dataproc jobs submit presto
- da una finestra del terminale sul primo nodo master del cluster utilizzando
l'interfaccia a riga di comando (interfaccia a riga di comando)
presto
; consulta Utilizzare Trino con Dataproc
Installa il componente
Installa il componente quando crei un cluster Dataproc. Puoi aggiungere componenti ai cluster creati con Dataproc versione 1.3 e successive.
Consulta le versioni di Dataproc supportate per la versione dei componenti inclusa in ogni release di immagine Dataproc.
Comando g-cloud
Per creare un cluster Dataproc che includa il componente Presto, utilizza il comando cluster-name gcloud dataproc clusters create con il flag --optional-components
.
gcloud dataproc clusters create cluster-name \ --optional-components=PRESTO \ --region=region \ --enable-component-gateway \ ... other flags
Configurazione delle proprietà
Aggiungi il flag --properties
al comando gcloud dataproc clusters create
per impostare le proprietà di configurazione presto, presto-jvm e presto-catalog.
-
Proprietà dell'applicazione: utilizza le proprietà del cluster con il prefisso
presto:
per configurare le proprietà dell'applicazione Presto, ad esempio--properties="presto:join-distribution-type=AUTOMATIC"
. - Proprietà di configurazione JVM: utilizza le proprietà del cluster con il prefisso
presto-jvm:
per configurare le proprietà JVM per i processi Java del coordinatore Presto e dei worker, ad esempio--properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError"
. - Creazione di nuovi cataloghi e aggiunta di proprietà di cataloghi: utilizza
presto-catalog:catalog-name.property-name
per configurare i cataloghi Presto.Esempio: il seguente flag "properties" può essere utilizzato con il comando "gcloud dataproc clusters create" per creare un cluster Presto con un catalogo Hive "prodhive". Verrà creato un file
prodhive.properties
in/usr/lib/presto/etc/catalog/
per abilitare il catalogo di produzione.--properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083
API REST
Il componente Presto può essere specificato tramite l'API Dataproc utilizzando SoftwareConfig.Component come parte di una richiesta clusters.create.
Console
- Abilita il gateway del componente e del componente.
- Nella console Google Cloud, apri la pagina Crea un cluster di Dataproc. Il riquadro Configura cluster è selezionato.
- Nella sezione Componenti:
- In Componenti facoltativi, seleziona Presto e altri componenti facoltativi da installare sul cluster.
- In Gateway dei componenti, seleziona Abilita gateway dei componenti (consulta Visualizzazione e accesso agli URL del gateway dei componenti).