Beim Erstellen eines Dataproc können Sie zusätzliche Komponenten wie Trino installieren. mit dem Optionale Komponenten . Auf dieser Seite wird beschrieben, wie Sie optional die Trino-Komponente installieren können. in einem Dataproc-Cluster.
Trino ist offen.
als Quelle der verteilten SQL-Abfrage-Engine. Der Trino-Server und
Die Web-UI ist standardmäßig auf Port 8060
oder Port 7778
verfügbar, wenn Kerberos
aktiviert) auf dem ersten Masterknoten des Clusters an.
Standardmäßig ist Trino in Dataproc so konfiguriert, dass es mit Hive
, BigQuery
,
Memory
-, TPCH
- und TPCDS
-Connectors.
Nachdem Sie einen Cluster mit der Trino-Komponente erstellt haben, können Sie Abfragen ausführen:
- aus einem lokalen Terminal mit dem Befehl
gcloud dataproc jobs submit trino
- in einem Terminalfenster auf dem ersten Masterknoten des Clusters mithilfe der
trino
CLI (Befehlszeile) – siehe Trino mit Dataproc verwenden
Komponente installieren
Installieren Sie die Komponente, wenn Sie einen Dataproc-Cluster erstellen.
Informationen zu den Komponentenversionen, die im jeweiligen Dataproc-Image-Release enthalten sind, finden Sie im Abschnitt Unterstützte Dataproc-Versionen.
gcloud-Befehl
So erstellen Sie einen Dataproc-Cluster, der die Trino-Komponente enthält:
verwenden Sie die
gcloud Dataproc-Cluster erstellen cluster-name
mit dem Flag --optional-components
.
gcloud dataproc clusters create cluster-name \ --optional-components=TRINO \ --region=region \ --enable-component-gateway \ ... other flags
Attribute konfigurieren
Fügen Sie das Flag --properties
Festzulegender gcloud dataproc clusters create
-Befehl
„trino“, „trino-jvm“ und „trino-catalog“.
-
Anwendungsattribute: Verwenden Sie die Clustereigenschaften mit dem
Zu konfigurierendes Präfix
trino:
Trino-Anwendungseigenschaften, z. B.--properties="trino:join-distribution-type=AUTOMATIC"
. - JVM-Konfigurationsattribute: Verwenden Sie Clusterattribute mit der
Präfix
trino-jvm:
zum Konfigurieren von JVM-Attributen für Trino und Worker-Java-Prozesse, z. B.--properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError"
. - Neue Kataloge erstellen und Katalog-Properties hinzufügen: Verwenden Sie
trino-catalog:catalog-name.property-name
Trino-Kataloge zu konfigurieren.Beispiel:Das folgende Flag „properties“ kann verwendet werden. mit dem Befehl „gcloud dataproc clusters create“, um einen Trino-Cluster zu erstellen mit einem „prodhive“ Hive-Katalog: Unter
/usr/lib/trino/etc/catalog/
wird eineprodhive.properties
-Datei erstellt, um den Produktkatalog zu aktivieren.--properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=localhost:9000"
REST API
Die Trino-Komponente kann über die Dataproc API mit SoftwareConfig.Component als Teil einer clusters.create
Console
- Aktivieren Sie die Komponente und das Komponentengateway.
- Öffnen Sie Dataproc in der Google Cloud Console. Cluster erstellen Seite. Der Bereich „Cluster einrichten“ ist ausgewählt.
- Im Bereich „Komponenten“:
- Wählen Sie unter „Optional components“ (Optionale Komponenten) die Option Trino and other optional (Trino und andere optionale Komponenten) aus. Komponenten, die im Cluster installiert werden sollen.
- Wählen Sie unter Component Gateway „Component Gateway aktivieren“ aus (siehe Component Gateway-URLs ansehen und aufrufen).