Sie können zusätzliche Komponenten wie Trino installieren, wenn Sie einen Dataproc-Cluster mit der Funktion Optionale Komponenten erstellen. Auf dieser Seite wird beschrieben, wie Sie die Trino-Komponente optional in einem Dataproc-Cluster installieren können.
Trino ist eine verteilte Open-Source-SQL-Abfrage-Engine. Der Trino-Server und die Web-UI sind standardmäßig auf Port 8060
(oder Port 7778
, wenn Kerberos aktiviert ist) auf dem ersten Masterknoten des Clusters verfügbar.
Trino in Dataproc ist standardmäßig so konfiguriert, dass es mit den Connectors Hive
, BigQuery
, Memory
, TPCH
und TPCDS
funktioniert.
Nachdem Sie einen Cluster mit der Trino-Komponente erstellt haben, können Sie Abfragen ausführen:
- aus einem lokalen Terminal mit dem Befehl
gcloud dataproc jobs submit trino
- über ein Terminalfenster auf dem ersten Masterknoten des Clusters über die
trino
-Befehlszeile (Befehlszeilenschnittstelle) – siehe Trio mit Dataproc verwenden.
Komponente installieren
Installieren Sie die Komponente, wenn Sie einen Dataproc-Cluster erstellen.
Informationen zu den Komponentenversionen, die im jeweiligen Dataproc-Image-Release enthalten sind, finden Sie im Abschnitt Unterstützte Dataproc-Versionen.
gcloud-Befehl
Verwenden Sie zum Erstellen eines Dataproc-Clusters, der die Trino-Komponente enthält, den Befehl gcloud dataproc clusters create cluster-name mit dem Flag --optional-components
.
gcloud dataproc clusters create cluster-name \ --optional-components=TRINO \ --region=region \ --enable-component-gateway \ ... other flags
Attribute konfigurieren
Fügen Sie dem gcloud dataproc clusters create
-Befehl das Flag --properties
hinzu, um Trino-, Trino-JVM- und Trino-Katalog-Konfigurationsattribute festzulegen.
-
Anwendungsattribute:Verwenden Sie Clusterattribute mit dem Präfix
trino:
, um Trino-Anwendungsattribute zu konfigurieren, z. B.--properties="trino:join-distribution-type=AUTOMATIC"
. - JVM-Konfigurationsattribute:Verwenden Sie Clusterattribute mit dem Präfix
trino-jvm:
, um JVM-Attribute für Trino-Koordinator- und Java-Worker-Prozesse zu konfigurieren, z. B.--properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError"
. - Neue Kataloge erstellen und Katalog-Properties hinzufügen: Verwende
trino-catalog:catalog-name.property-name
, um Trino-Kataloge zu konfigurieren.Beispiel: Mit dem folgenden Flag „properties“ können Sie mit dem Befehl „gcloud dataproc clusters create“ einen Trino-Cluster mit einem Hive-Katalog „prodhive“ erstellen. Unter
/usr/lib/trino/etc/catalog/
wird eineprodhive.properties
-Datei erstellt, um den Produktkatalog zu aktivieren.--properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=localhost:9000"
REST API
Die Trino-Komponente kann über die Dataproc API mit SoftwareConfig.Component als Teil einer clusters.create-Anfrage angegeben werden.
Console
- Aktivieren Sie die Komponente und das Komponentengateway.
- Öffnen Sie in der Google Cloud Console die Dataproc-Seite Cluster erstellen. Der Bereich „Cluster einrichten“ ist ausgewählt.
- Im Bereich „Komponenten“:
- Wählen Sie unter „Optionale Komponenten“ Trino und andere optionale Komponenten aus, die Sie in Ihrem Cluster installieren möchten.
- Wählen Sie unter Component Gateway „Component Gateway aktivieren“ aus (siehe Component Gateway-URLs ansehen und aufrufen).