Optionale Dataproc-Komponente für Presto

Sie können zusätzliche Komponenten installieren, wenn Sie einen Dataproc-Cluster mit dem Feature Optionale Komponenten erstellen. Auf dieser Seite wird beschrieben, wie Sie die Presto-Komponente optional in einem Dataproc-Cluster installieren können.

Presto ist eine über Open Source verteilte SQL-Abfrage-Engine. Der Presto-Server und die Webbenutzeroberfläche sind standardmäßig an Port 8060 (oder Port 7778, wenn Kerberos aktiviert ist) auf dem ersten Masterknoten des Clusters verfügbar.

Standardmäßig ist Presto in Dataproc für die Kataloge hive, tpch, tpcds, bigquery und memory konfiguriert.

Nachdem Sie einen Cluster mit der Presto-Komponente erstellt haben, können Sie Abfragen ausführen:

Komponente installieren

Installieren Sie die Komponente, wenn Sie einen Dataproc-Cluster erstellen. Sie können Komponenten in Cluster einfügen, die mit Dataproc Version 1.3 oder höher erstellt wurden.

Informationen zu den Komponentenversionen, die im jeweiligen Dataproc-Image-Release enthalten sind, finden Sie im Abschnitt Unterstützte Dataproc-Versionen.

gcloud-Befehl

Verwenden Sie zum Erstellen eines Dataproc-Clusters, der die Pesto-Komponente enthält, den Befehl gcloud dataproc clusters create cluster-name mit dem Flag --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=PRESTO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Attribute konfigurieren

Fügen Sie dem Befehl gcloud dataproc clusters create das Flag --properties hinzu, um die Konfigurationsattribute presto, presto-jvm and presto-catalog festzulegen.

  • Anwendungsattribute: Verwenden Sie Clusterattribute mit dem Präfix presto:, um Presto-Anwendungsattribute zu konfigurieren, z. B. --properties:presto:join-distribution-type=AUTOMATIC.
  • JVM-Konfigurationsattribute: Verwenden Sie Clusterattribute mit dem Präfix presto-jvm:, um JVM-Attribute für Presto-Koordinator- und Worker-Java-Prozesse zu konfigurieren, z. B. --properties:presto-jvm:XX:+HeapDumpOnOutOfMemoryError.
  • Neue Kataloge erstellen und Katalogattribute hinzufügen: Mit presto-catalog:catalog-name.property-name können Sie Presto-Kataloge konfigurieren.

    Beispiel: Das folgende Attribut-Flag kann mit dem Befehl "gcloud dataproc clusters create" verwendet werden, um einen Presto-Cluster mit einem "prodhive"-Hive-Katalog zu erstellen. Unter $PRESTO_HOME/etc/catalog/ wird eine prodhive.properties-Datei erstellt, um den Produktkatalog zu aktivieren.

    --properties="presto-catalog:prodhive.connecter.name=hive,presto-catalog:prodhive.hive.metastore.uri=localhost:9000"

REST API

Die Presto-Komponente kann über die Dataproc-API mit SoftwareConfig.Component als Teil einer clusters.create-Anfrage angegeben werden.

Console

  1. Aktivieren Sie die Komponente.
    • Öffnen Sie in der Cloud Console die Dataproc-Seite Cluster erstellen. Klicken Sie unten auf der Seite auf "Advanced options" (Erweiterte Optionen), um den Abschnitt "Optional components" (Optionale Komponenten) aufzurufen.

    • Klicken Sie auf "Select component" (Komponente auswählen), um den Auswahlbereich Optional components (Optionale Komponenten) aufzurufen. Wählen Sie "Presto" und andere optionale Komponenten aus, die auf Ihrem Cluster installiert werden sollen.

  2. Aktivieren Sie das Component Gateway (erfordert Image-Version 1.3.29 oder höher), um einfachen Zugriff auf die Presto-Webbenutzeroberfläche und andere Komponenten-Weboberflächen über die Google Cloud Console zu ermöglichen (siehe Component Gateways-URLs ansehen und aufrufen).
    • Klicken Sie im Formular "Cluster erstellen" auf das Kästchen für "Component Gateway".