Puoi installare componenti aggiuntivi come Trino quando crei un progetto Dataproc utilizzando Componenti facoltativi funzionalità. In questa pagina viene descritto come installare facoltativamente il componente Trino su un cluster Dataproc.
Trino è un servizio aperto
motore di query SQL distribuito di origine. Il server Trino e
Le UI web sono disponibili per impostazione predefinita sulla porta 8060
(o sulla porta 7778
se Kerberos è
abilitata) sul primo nodo master del cluster.
Per impostazione predefinita, Trino su Dataproc è configurato per funzionare con Hive
, BigQuery
,
connettori Memory
, TPCH
e TPCDS
.
Dopo aver creato un cluster con il componente Trino, puoi eseguire query:
- da un terminale locale con
Comando
gcloud dataproc jobs submit trino
- da una finestra del terminale sul primo nodo master del cluster utilizzando
Interfaccia a riga di comando
trino
(interfaccia a riga di comando): vedi Utilizzo di Trino con Dataproc.
Installa il componente
Installa il componente quando crei un cluster Dataproc.
Consulta: Versioni di Dataproc supportate per la versione del componente inclusa in ogni release di immagine Dataproc.
Comando g-cloud
Per creare un cluster Dataproc che includa il componente Trino,
utilizza la
gcloud dataproc clusters create cluster-name
con il flag --optional-components
.
gcloud dataproc clusters create cluster-name \ --optional-components=TRINO \ --region=region \ --enable-component-gateway \ ... other flags
Configurazione delle proprietà
Aggiungi il flag --properties
alla
Comando gcloud dataproc clusters create
da impostare
trino, trino-jvm e trino-catalog.
-
Proprietà applicazione: utilizza le proprietà del cluster con
Prefisso
trino:
da configurare Proprietà dell'applicazione Trino, ad esempio--properties="trino:join-distribution-type=AUTOMATIC"
. - Proprietà di configurazione JVM: utilizza le proprietà del cluster con la classe
Prefisso
trino-jvm:
per configurare le proprietà JVM per Trino i processi Java di coordinatore e worker, ad esempio--properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError"
. - Per creare nuovi cataloghi e aggiungere proprietà del catalogo: utilizza
trino-catalog:catalog-name.property-name
per configurare i cataloghi Trino.Esempio: è possibile utilizzare il seguente flag "properties" con il comando "gcloud dataproc clusters create" per creare un cluster Trino con un "prodhive" Catalogo Hive. Verrà eseguito l'accesso a un file
prodhive.properties
da creare in/usr/lib/trino/etc/catalog/
per attivare catalogo di prodotti.--properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=localhost:9000"
API REST
Il componente Trino può essere specificato tramite l'API Dataproc utilizzando SoftwareConfig.Component nell'ambito di un clusters.create richiesta.
Console
- Attiva il componente e il gateway dei componenti.
- Nella console Google Cloud, apri Dataproc Crea un cluster . Il riquadro Configura cluster è selezionato.
- Nella sezione Componenti:
- In Componenti facoltativi, seleziona Trino e altri componenti facoltativi componenti da installare sul cluster.
- In Gateway dei componenti, seleziona Abilita gateway dei componenti (vedi Visualizzazione e accesso agli URL del gateway dei componenti).