Optionale Trino-Komponente für Dataproc

Sie können zusätzliche Komponenten wie Trino installieren, wenn Sie einen Dataproc-Cluster mithilfe der Funktion Optionale Komponenten erstellen. Auf dieser Seite wird beschrieben, wie Sie optional die Trino-Komponente in einem Dataproc-Cluster installieren können.

Trino ist eine verteilte Open-Source-SQL-Abfrage-Engine. Der Trino-Server und die Web-UI sind standardmäßig an Port 8060 (oder Port 7778, wenn Kerberos aktiviert ist) auf dem ersten Masterknoten des Clusters verfügbar.

Standardmäßig ist Trino auf Dataproc für die Verwendung mit den connectors Hive, BigQuery, Memory, TPCH und TPCDS konfiguriert.

Nachdem Sie einen Cluster mit der Trino-Komponente erstellt haben, können Sie Abfragen ausführen:

Komponente installieren

Installieren Sie die Komponente, wenn Sie einen Dataproc-Cluster erstellen.

Informationen zu den Komponentenversionen, die im jeweiligen Dataproc-Image-Release enthalten sind, finden Sie im Abschnitt Unterstützte Dataproc-Versionen.

gcloud-Befehl

Um einen Dataproc-Cluster zu erstellen, der die Trino-Komponente enthält, verwenden Sie den Befehl gcloud dataproc clusters create cluster-name mit dem Flag --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=TRINO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Attribute konfigurieren

Fügen Sie dem Befehl gcloud dataproc clusters create das Flag --properties hinzu, um die Konfigurationsattribute von trino, trino-jvm und trino-catalog festzulegen.

  • Anwendungsattribute: Verwenden Sie Clusterattribute mit dem Präfix trino: zum Konfigurieren von Trino-Anwendungsattributen, z. B. --properties="trino:join-distribution-type=AUTOMATIC".
  • JVM-Konfigurationsattribute: Verwenden Sie Clusterattribute mit dem Präfix trino-jvm:, um JVM-Attribute für Java-Prozesse von Trino-Koordinator und Workern zu konfigurieren, z. B. --properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError".
  • Neue Kataloge erstellen und Katalogattribute hinzufügen:Verwenden Sie trino-catalog:catalog-name.property-name, um Trino-Kataloge zu konfigurieren.

    Beispiel: Das folgende Flag "properties" kann mit dem Befehl "gcloud dataproc clusters create" verwendet werden, um einen Trino-Cluster mit einem "produzieren" Hive-Katalog zu erstellen. Unter /usr/lib/trino/etc/catalog/ wird eine prodhive.properties-Datei erstellt, um den Produktkatalog zu aktivieren.

    --properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=localhost:9000"

REST API

Die Trino-Komponente kann über die Dataproc API mit SoftwareConfig.Component im Rahmen einer clusters.create-Anfrage angegeben werden.

Console

    1. Aktivieren Sie das Komponenten- und das Komponentengateway.
      • Rufen Sie in der Google Cloud Console die Dataproc-Seite Cluster erstellen auf. Der Bereich „Cluster einrichten“ ist ausgewählt.
      • Im Bereich „Komponenten“:
        • Wählen Sie unter „Optionale Komponenten“ Trino und andere optionale Komponenten aus, die in Ihrem Cluster installiert werden sollen.
        • Wählen Sie unter Component Gateway „Component Gateway aktivieren“ aus (siehe Component Gateway-URLs ansehen und aufrufen).