Optionale Dataproc-Trio-Komponente

Sie können zusätzliche Komponenten wie Trino installieren, wenn Sie einen Dataproc-Cluster mit der Funktion Optionale Komponenten erstellen. Auf dieser Seite wird beschrieben, wie Sie die Trino-Komponente optional in einem Dataproc-Cluster installieren können.

Trino ist eine verteilte Open-Source-SQL-Abfrage-Engine. Der Trino-Server und die Web-UI sind standardmäßig auf Port 8060 (oder Port 7778, wenn Kerberos aktiviert ist) auf dem ersten Masterknoten des Clusters verfügbar.

Trino in Dataproc ist standardmäßig so konfiguriert, dass es mit den Connectors Hive, BigQuery, Memory, TPCH und TPCDS funktioniert.

Nachdem Sie einen Cluster mit der Trino-Komponente erstellt haben, können Sie Abfragen ausführen:

Komponente installieren

Installieren Sie die Komponente, wenn Sie einen Dataproc-Cluster erstellen.

Informationen zu den Komponentenversionen, die im jeweiligen Dataproc-Image-Release enthalten sind, finden Sie im Abschnitt Unterstützte Dataproc-Versionen.

gcloud-Befehl

Verwenden Sie zum Erstellen eines Dataproc-Clusters, der die Trino-Komponente enthält, den Befehl gcloud dataproc clusters create cluster-name mit dem Flag --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=TRINO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Attribute konfigurieren

Fügen Sie dem gcloud dataproc clusters create-Befehl das Flag --properties hinzu, um Trino-, Trino-JVM- und Trino-Katalog-Konfigurationsattribute festzulegen.

  • Anwendungsattribute:Verwenden Sie Clusterattribute mit dem Präfix trino:, um Trino-Anwendungsattribute zu konfigurieren, z. B. --properties="trino:join-distribution-type=AUTOMATIC".
  • JVM-Konfigurationsattribute:Verwenden Sie Clusterattribute mit dem Präfix trino-jvm:, um JVM-Attribute für Trino-Koordinator- und Java-Worker-Prozesse zu konfigurieren, z. B. --properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError".
  • Neue Kataloge erstellen und Katalog-Properties hinzufügen: Verwende trino-catalog:catalog-name.property-name, um Trino-Kataloge zu konfigurieren.

    Beispiel: Mit dem folgenden Flag „properties“ können Sie mit dem Befehl „gcloud dataproc clusters create“ einen Trino-Cluster mit einem Hive-Katalog „prodhive“ erstellen. Unter /usr/lib/trino/etc/catalog/ wird eine prodhive.properties-Datei erstellt, um den Produktkatalog zu aktivieren.

    --properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=localhost:9000"

REST API

Die Trino-Komponente kann über die Dataproc API mit SoftwareConfig.Component als Teil einer clusters.create-Anfrage angegeben werden.

Console

    1. Aktivieren Sie die Komponente und das Komponentengateway.
      • Öffnen Sie in der Google Cloud Console die Dataproc-Seite Cluster erstellen. Der Bereich „Cluster einrichten“ ist ausgewählt.
      • Im Bereich „Komponenten“:
        • Wählen Sie unter „Optionale Komponenten“ Trino und andere optionale Komponenten aus, die Sie in Ihrem Cluster installieren möchten.
        • Wählen Sie unter Component Gateway „Component Gateway aktivieren“ aus (siehe Component Gateway-URLs ansehen und aufrufen).