Optionale Trino-Komponente für Dataproc

Beim Erstellen eines Dataproc können Sie zusätzliche Komponenten wie Trino installieren. mit dem Optionale Komponenten . Auf dieser Seite wird beschrieben, wie Sie optional die Trino-Komponente installieren können. in einem Dataproc-Cluster.

Trino ist offen. als Quelle der verteilten SQL-Abfrage-Engine. Der Trino-Server und Die Web-UI ist standardmäßig auf Port 8060 oder Port 7778 verfügbar, wenn Kerberos aktiviert) auf dem ersten Masterknoten des Clusters an.

Standardmäßig ist Trino in Dataproc so konfiguriert, dass es mit Hive, BigQuery, Memory-, TPCH- und TPCDS-Connectors.

Nachdem Sie einen Cluster mit der Trino-Komponente erstellt haben, können Sie Abfragen ausführen:

Komponente installieren

Installieren Sie die Komponente, wenn Sie einen Dataproc-Cluster erstellen.

Informationen zu den Komponentenversionen, die im jeweiligen Dataproc-Image-Release enthalten sind, finden Sie im Abschnitt Unterstützte Dataproc-Versionen.

gcloud-Befehl

So erstellen Sie einen Dataproc-Cluster, der die Trino-Komponente enthält: verwenden Sie die gcloud Dataproc-Cluster erstellen cluster-name mit dem Flag --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=TRINO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Attribute konfigurieren

Fügen Sie das Flag --properties Festzulegender gcloud dataproc clusters create-Befehl „trino“, „trino-jvm“ und „trino-catalog“.

  • Anwendungsattribute: Verwenden Sie die Clustereigenschaften mit dem Zu konfigurierendes Präfix trino: Trino-Anwendungseigenschaften, z. B. --properties="trino:join-distribution-type=AUTOMATIC".
  • JVM-Konfigurationsattribute: Verwenden Sie Clusterattribute mit der Präfix trino-jvm: zum Konfigurieren von JVM-Attributen für Trino und Worker-Java-Prozesse, z. B. --properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError".
  • Neue Kataloge erstellen und Katalog-Properties hinzufügen: Verwenden Sie trino-catalog:catalog-name.property-name Trino-Kataloge zu konfigurieren.

    Beispiel:Das folgende Flag „properties“ kann verwendet werden. mit dem Befehl „gcloud dataproc clusters create“, um einen Trino-Cluster zu erstellen mit einem „prodhive“ Hive-Katalog: Unter /usr/lib/trino/etc/catalog/ wird eine prodhive.properties-Datei erstellt, um den Produktkatalog zu aktivieren.

    --properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=localhost:9000"

REST API

Die Trino-Komponente kann über die Dataproc API mit SoftwareConfig.Component als Teil einer clusters.create

Console

    1. Aktivieren Sie die Komponente und das Komponentengateway.
      • Öffnen Sie Dataproc in der Google Cloud Console. Cluster erstellen Seite. Der Bereich „Cluster einrichten“ ist ausgewählt.
      • Im Bereich „Komponenten“:
        • Wählen Sie unter „Optional components“ (Optionale Komponenten) die Option Trino and other optional (Trino und andere optionale Komponenten) aus. Komponenten, die im Cluster installiert werden sollen.
        • Wählen Sie unter Component Gateway „Component Gateway aktivieren“ aus (siehe Component Gateway-URLs ansehen und aufrufen).