Sie können zusätzliche Komponenten wie Presto installieren, wenn Sie einen Dataproc-Cluster mit der Funktion Optionale Komponenten erstellen. Auf dieser Seite wird beschrieben, wie Sie die Presto-Komponente optional in einem Dataproc-Cluster installieren können.
Presto (Trino) ist eine verteilte Open Source-SQL-Abfrage-Engine. Der Presto-Server und die Webbenutzeroberfläche sind standardmäßig an Port 8060
(oder Port 7778
, wenn Kerberos aktiviert ist) auf dem ersten Masterknoten des Clusters verfügbar.
Standardmäßig ist Presto in Dataproc für die Connectoren Hive
, BigQuery
, Memory
, TPCH
und TPCDS
konfiguriert.
Nachdem Sie einen Cluster mit der Presto-Komponente erstellt haben, können Sie Abfragen ausführen:
- aus einem lokalen Terminal mit dem Befehl
gcloud dataproc jobs submit presto
- aus einem Terminalfenster auf dem ersten Masterknoten des Clusters über die
presto
-Befehlszeile: Trino mit Dataproc verwenden
Komponente installieren
Installieren Sie die Komponente, wenn Sie einen Dataproc-Cluster erstellen. Sie können Komponenten in Cluster einfügen, die mit Dataproc Version 1.3 oder höher erstellt wurden.
Informationen zu den Komponentenversionen, die im jeweiligen Dataproc-Image-Release enthalten sind, finden Sie im Abschnitt Unterstützte Dataproc-Versionen.
gcloud-Befehl
Verwenden Sie zum Erstellen eines Dataproc-Clusters, der die Pesto-Komponente enthält, den Befehl gcloud dataproc clusters create cluster-name mit dem Flag --optional-components
.
gcloud dataproc clusters create cluster-name \ --optional-components=PRESTO \ --region=region \ --enable-component-gateway \ ... other flags
Attribute konfigurieren
Fügen Sie dem Befehl gcloud dataproc clusters create
das Flag --properties
hinzu, um die Konfigurationsattribute presto, presto-jvm and presto-catalog festzulegen.
- Anwendungsattribute: Verwenden Sie Clusterattribute mit dem Präfix
presto:
, um Presto-Anwendungsattribute zu konfigurieren, z. B.--properties="presto:join-distribution-type=AUTOMATIC"
. - JVM-Konfigurationsattribute: Verwenden Sie Clusterattribute mit dem Präfix
presto-jvm:
, um JVM-Attribute für Presto-Koordinator- und Worker-Java-Prozesse zu konfigurieren, z. B.--properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError"
. - Neue Kataloge erstellen und Katalogattribute hinzufügen: Mit
presto-catalog:catalog-name.property-name
können Sie Presto-Kataloge konfigurieren.Beispiel: Das folgende Attribut-Flag kann mit dem Befehl "gcloud dataproc clusters create" verwendet werden, um einen Presto-Cluster mit einem "prodhive"-Hive-Katalog zu erstellen. Unter
/usr/lib/presto/etc/catalog/
wird eineprodhive.properties
-Datei erstellt, um den Produktkatalog zu aktivieren.--properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083
REST API
Die Presto-Komponente kann über die Dataproc-API mit SoftwareConfig.Component als Teil einer clusters.create-Anfrage angegeben werden.
Console
- Aktivieren Sie die Komponente und das Komponentengateway.
- Öffnen Sie in der Google Cloud Console die Dataproc-Seite Cluster erstellen. Der Bereich „Cluster einrichten“ ist ausgewählt.
- Im Bereich „Komponenten“:
- Wählen Sie unter „Optionale Komponenten“ Presto und andere optionale Komponenten aus, die auf Ihrem Cluster installiert werden sollen.
- Wählen Sie unter Component Gateway „Component Gateway aktivieren“ aus (siehe Component Gateway-URLs ansehen und aufrufen).