Workbench zur Datenexploration verwenden

Mit der Workbench zur Datenexploration in Dataplex (Explore) können Sie vollständig regulierte Daten mit einem Klick auf Spark SQL-Skripts und Jupyter-Notebooks interaktiv abfragen. Mit dem Tool „Erkunden“ können Sie teamübergreifend zusammenarbeiten, indem Sie Code-Assets standardmäßig veröffentlichen, freigeben und suchen.

Hier erfahren Sie, wie Sie die serverlose Infrastruktur bereitstellen, skalieren und verwalten, die zum Ausführen Ihrer Spark SQL-Skripts und -Notebooks mit Nutzeranmeldedaten erforderlich ist. Sie können Ihre Arbeit mit serverloser Planung in der Workbench operationalisieren.

In diesem Dokument wird beschrieben, wie Sie die Explore-Features in Dataplex verwenden.

Kosten

Dataplex bietet Explores auf der Premium-Verarbeitungsstufe an.

Terminologie

In diesem Dokument werden die folgenden Begriffe verwendet:

Umgebung

Eine Umgebung stellt serverlose Rechenressourcen für Ihre Spark SQL-Abfragen und -Notebooks zur Ausführung in einem Lake bereit. Ein Dataplex-Administrator erstellt und verwaltet Umgebungen.

Administratoren können einen oder mehrere Nutzer autorisieren, Abfragen und Notebooks in der konfigurierten Umgebung auszuführen, indem sie ihnen die Entwicklerrolle oder die zugehörigen IAM-Berechtigungen erteilen.

Session

Wenn ein autorisierter Nutzer eine Umgebung zum Ausführen seiner Abfragen und Notebooks auswählt, verwendet Dataplex die angegebene Umgebungskonfiguration, um eine nutzerspezifische aktive Sitzung zu erstellen. Wenn eine Sitzung nicht in Verwendung ist, wird sie je nach Umgebungskonfiguration automatisch beendet.

Es dauert einige Minuten, bis eine neue Sitzung pro Nutzer gestartet wird. Nach dem Start einer Sitzung werden nachfolgende Abfragen und Notebooks für denselben Nutzer ausgeführt. Eine Sitzung ist maximal 10 Stunden aktiv.

In einer Umgebung erstellt Dataplex nur eine Sitzung pro Nutzer, die sowohl von Spark SQL-Skripts als auch von Jupyter-Notebooks gemeinsam genutzt wird.

Dataplex verwendet Nutzeranmeldedaten innerhalb einer Sitzung, um Vorgänge wie das Abfragen von Daten aus Cloud Storage und BigQuery auszuführen.

Knoten

Ein Knoten gibt die Rechenkapazität in einer Umgebungskonfiguration an. Ein Knoten ist vier Datenrecheneinheiten (Data Compute Units, DCUs) zugeordnet, die mit 4 vCPUs und 16 GB RAM vergleichbar sind.

Standardumgebung

Sie können eine Standardumgebung pro Lake mit der ID default erstellen. Eine Standardumgebung muss eine Standardkonfiguration verwenden. Eine Standardkonfiguration besteht aus Folgendem:

  • Rechenkapazität von einem Knoten
  • Größe des primären Laufwerks: 100 GB
  • Automatisches Herunterfahren der Sitzung (Zeit für das automatische Herunterfahren) auf 10 Minuten Inaktivität festgelegt
  • Den Parameter sessionSpec.enableFastStartup, der standardmäßig auf true festgelegt ist. Wenn dieser Parameter auf true gesetzt ist, stellt Dataplex die Sitzungen für diese Umgebung vorab bereit, damit sie jederzeit verfügbar sind. Dadurch verkürzt sich die Startzeit der ersten Sitzung.
  • Eine schnelle Startsitzung ist eine Sitzung mit einem einzelnen Knoten. Dataplex berechnet sich ähnlich wie bei einer regulären Sitzung zu SKUs für die Premiumverarbeitung. Für einen schnellen Start ist maximal eine Always-on-Sitzung verfügbar, die auch bei Nichtnutzung Kosten verursacht. Dataplex hält diese vorab erstellte Sitzung 10 Stunden aktiv, bricht sie ab und erstellt eine neue Sitzung.

Wenn Sie keine Umgebung explizit auswählen und zuvor eine Standardumgebung eingerichtet haben, verwendet Dataplex diese zum Erstellen von Sitzungen.

SQL-Script

Ein SQL-Skript ist ein Spark SQL-Skript, das als Inhalt in einem Dataplex-Lake gespeichert wird. Sie können das Skript in einem Lake speichern und für andere Hauptkonten freigeben. Außerdem können Sie die Ausführung als serverlosen Batch-Spark-Job in Dataplex planen. Dataplex ermöglicht den sofort einsatzbereiten Spark SQL-Zugriff auf Tabellen, die Daten in Cloud Storage und BigQuery zugeordnet sind.

Notebook

Ein Python 3-Notebook ist ein Jupyter-Notebook, das Sie als Inhalt in einem Dataplex-Lake speichern. Sie können ein Notebook als Inhalt in einem Lake speichern und für andere Hauptkonten freigeben oder es planen, als Dataproc Serverless Spark-Batchjob in Dataplex auszuführen.

Für Daten in BigQuery können Sie direkt über Spark ohne den magischen Befehl %%bigquery auf BigQuery-Tabellen zugreifen.

Hinweise

Verknüpfen Sie zuerst Ihren Lake mit Dataproc Metastore und gewähren Sie die erforderlichen Rollen.

Lake mit Dataproc Metastore (DPMS) verknüpfen

So verwenden Sie das explorative Analysetool:

  • Verknüpfen Sie eine gRPC-fähige Dataproc Metastore (DPMS)-Instanz in Version 3.1.2 oder höher mit dem Dataplex-Lake.
  • Achten Sie darauf, dass ein Dataproc Metastore und eine Umgebung Ihrem Lake zugeordnet sind.

Dataproc Metastore mit Dataplex einrichten, um auf Metadaten in Spark zuzugreifen

Erforderliche Rollen

Je nach den Aktionen, die Sie ausführen möchten, benötigen Sie die folgenden IAM-Rollen. Alle Umgebungen in einem Lake übernehmen Berechtigungen, die auf Lake-Ebene gewährt wurden.

Dataplex-IAM-Rollen:

  • Dataplex-Betrachter
  • Dataplex-Entwickler
  • Dataplex-Metadatenleser
  • Dataplex-Datenleser

Weitere Rollen:

Logging

Informationen zur Verwendung von „Explore“ finden Sie in den folgenden Dokumenten:

Bekannte Einschränkungen

In diesem Abschnitt werden die bekannten Einschränkungen des Explores beschrieben.

  • Das Explore ist für Lakes in den folgenden Regionen verfügbar:

    • asia-northeast1
    • asia-southeast1
    • europe-west1
    • europe-west2
    • us-central1
    • us-east1
    • us-west1
  • Sie können in einem Projekt bis zu 10 Umgebungen pro Region verwenden. Informationen zum Erhöhen des Kontingentlimits finden Sie unter Mit Kontingenten arbeiten.

  • Sie können Umgebungen mit maximal 150 Knoten erstellen. Die Sitzungsdauer ist für einzelne Nutzersitzungen auf 10 Stunden beschränkt.

  • Spark SQL-Skripts können nur Daten innerhalb eines bestimmten Lakes abfragen. Wenn Sie Daten in einem anderen Lake abfragen möchten, müssen Sie zu diesem Lake wechseln und eine Umgebung in diesem Lake auswählen.

  • Nachdem Sie ein Projekt wiederhergestellt haben, stellt Dataplex keine Inhaltsressourcen wie SQL-Skripts oder Notebooks wieder her. Gehen Sie vorsichtig vor, wenn Sie ein Projekt mit Explore-Inhaltsressourcen löschen.

  • Wenn die Umgebung benutzerdefinierte Pakete enthält, können Sie beim Planen eines Notebooks das Notebook nur über die gcloud CLI planen. Weitere Informationen finden Sie unter Notebooks mit benutzerdefinierten Paketen planen.

  • Wenn Sie eine Umgebung löschen, bevor Sie die Skripts und Notebooks löschen, können Sie nicht auf die Explore-Seite zugreifen. Löschen Sie daher die Skripts und Notebooks, bevor Sie eine Umgebung in Explore löschen.

  • Explore-Sitzungen unterstützen keine Hadoop Distributed File Systems (HDFS). Speichern Sie keine Nutzerdaten in einer Explore-Sitzung, da sie nach dem Ende der Sitzung gelöscht werden.

  • Die maximale Größe für ein Notebook oder ein SQL-Script beträgt 1 MB.

Umgebung erstellen

  1. Rufen Sie in der Google Cloud Console die Dataplex-Seite Lakes verwalten auf.

    Zu Dataplex

  2. Wählen Sie einen Dataplex-Lake aus, für den Sie eine Umgebung erstellen möchten.

  3. Klicken Sie auf den Tab Environments (Umgebungen).

  4. Klicken Sie auf Umgebung erstellen.

  5. Geben Sie im Feld Anzeigename einen Namen für die Umgebung ein.

  6. Geben Sie unter Umgebungs-ID eine eindeutige ID ein.

  7. Optional: Geben Sie eine Beschreibung für die neue Umgebung ein.

  8. Geben Sie im Bereich Computing konfigurieren Folgendes an:

    1. Anzahl der Knoten: Die Anzahl der Knoten, die für Nutzersitzungen für diese Umgebung bereitgestellt werden sollen.
    2. Maximale Anzahl von Knoten: Die maximale Anzahl von Knoten, die Dataplex in den Nutzersitzungen dieser Umgebung automatisch skalieren kann.
    3. Größe des primären Laufwerks: Die Laufwerksgröße, die jedem bereitgestellten Knoten zugeordnet ist.
    4. Zeit für das automatische Herunterfahren: Die Inaktivitätszeit, nach der Dataplex Nutzersitzungen, die mit dieser Umgebung verknüpft sind, automatisch beendet. Sie können ein Minimum von 10 Minuten und ein Maximum von 60 Minuten festlegen.
  9. Im Bereich Softwarepakete (optional) können Sie zusätzliche Python-Pakete, JAR-Dateien und Spark-Attribute angeben, die in Nutzersitzungen installiert werden sollen, die für diese Umgebung bereitgestellt werden.

    Wenn Sie eine Umgebung erstellen und den Cloud Storage-Pfad für Java-JARs oder Python-Pakete angeben, muss der Cloud Dataplex-Dienst-Agent die erforderlichen Berechtigungen für den Zugriff auf die Cloud Storage-Dateien haben, damit Dataplex die JARs oder Pakete installieren kann.

  10. Klicken Sie auf Erstellen.

Notes

  • Ein Knoten ist vier Datenrecheneinheiten (Data Compute Units, DCUs) zugeordnet, die mit 4 vCPUs und 16 GB RAM vergleichbar sind.

  • Sie können eine Umgebung mit einem Knoten oder mit drei oder mehr Knoten erstellen.

  • Als Lake-Administrator können Sie Umgebungen im Voraus einrichten, damit Nutzer ihre Arbeitslasten mit den vordefinierten Konfigurationen ausführen können.

  • Obwohl Umgebungen für mehrere Nutzer freigegeben werden können, erstellt Dataplex mithilfe der Umgebungskonfiguration eine separate Sitzung pro Nutzer.

Standardumgebung erstellen

Siehe Konfigurationsanforderungen für eine Standardumgebung.

Console

  1. Öffnen Sie Dataplex in der Google Cloud Console.

    Zu Dataplex

  2. Rufen Sie die Ansicht Verwalten auf.

  3. Wählen Sie einen Dataplex-Lake aus.

  4. Klicken Sie auf den Tab Environments (Umgebungen).

  5. Klicken Sie auf Standardumgebung erstellen.

gcloud

Führen Sie den folgenden Befehl aus, um eine Standardumgebung mit aktiviertem Schnellstart zu erstellen:

gcloud dataplex environments create default --project=PROJECT_ID --lake=LAKE_ID --location=REGION--os-image-version=latest --session-enable-fast-startup

Daten mit Spark SQL Workbench untersuchen

Verwenden Sie Spark SQL-Skripts, um BigQuery- und Cloud Storage-Daten zu untersuchen.

Script erstellen und speichern

  1. Rufen Sie in der Google Cloud Console die Dataplex-Seite Expl. Datenanalyse auf.

  2. Wählen Sie in der Ansicht Explore den Lake mit den Daten-Assets aus, die Sie untersuchen möchten.

  3. Maximieren Sie den Lake im Ressourcenbrowser. Daraufhin werden die folgenden Ordner angezeigt:

    • Daten: Enthält alle Datenbanken und Tabellen in der DPMS-Instanz, die mit Ihrem Lake verbunden sind, einschließlich der Hudi-, Iceberg- und Delta Lake-Tabellen.
    • Notebooks: Enthält alle Notebooks, die im ausgewählten Lake erstellt wurden.
    • Spark SQL-Skripts: Enthält alle Spark SQL-Skripts, die im ausgewählten Lake erstellt wurden.
  4. Maximieren Sie Daten und wählen Sie die erforderliche Datenbank und die Tabelle aus.

  5. Wenn Sie eine Beispielabfrage verwenden möchten, klicken Sie auf ABFRAGE. Die Spark SQL Workbench füllt einen neuen Tab automatisch mit einer Beispielabfrage.

  6. Klicken Sie zum Erstellen eines neuen Skripts im Spark SQL-Editor auf Neues Skript und geben Sie Ihre Abfragen ein.

  7. Wählen Sie zum Speichern des Scripts Speichern > Script speichern aus.

Skript ausführen

  1. Klicken Sie im Spark SQL-Editor auf den Tab mit der Abfrage, die Sie ausführen möchten.

  2. Klicken Sie auf Umgebung auswählen. Wählen Sie die Umgebung aus, in der Sie die Abfrage ausführen möchten. Wenn Sie keine Umgebung auswählen, verwendet Dataplex die Standardumgebung, um eine Sitzung pro Nutzer zu erstellen.

    Sie können mehrere Spark SQL-Abfragen im selben Skript ausführen. Trennen Sie dazu die Abfragen durch Semikolons.

  3. Klicken Sie auf Ausführen.

  4. Rufen Sie mithilfe der Drop-down-Liste die Ergebnisse des Abfrageverlaufs für jede der Abfragen im Skript auf.

Skript planen

Sie können ein Script so planen, dass es als Dataplex-Aufgabe ausgeführt wird. Weitere Informationen finden Sie unter Zeitpläne für SQL-Skripts erstellen und verwalten.

Script freigeben

Sie können ein Script mithilfe von IAM-Berechtigungen für andere in der Organisation freigeben:

  1. Klicken Sie in der Ansicht Explore auf das Spark SQL-Script, das Sie freigeben möchten.

  2. Klicken Sie im Dreipunkt-Menü auf Freigeben.

  3. Prüfen Sie die Berechtigungen. Betrachter-, Bearbeiter- und Administratorberechtigungen für das freigegebene Skript hinzufügen oder entfernen.

Nachdem Sie ein Script freigegeben haben, können Nutzer mit Lese- oder Bearbeitungsberechtigungen auf Lake-Ebene zum Lake wechseln und das freigegebene Script bearbeiten.

BigQuery- und Cloud Storage-Daten mit Spark SQL untersuchen

Bei jedem BigQuery-Dataset, das einer Zone als Asset hinzugefügt wird, ermöglicht Dataplex den direkten Spark SQL-Zugriff auf alle Tabellen in diesem Dataset. Sie können Daten in Dataplex mit Spark SQL-Skripts oder Notebooks abfragen. Beispiel:

 select * from ZONE_ID.TABLE_ID

Wenn Ihre Assets Cloud Storage-Buckets in derselben Zone zugeordnet sind, bietet Dataplex eine einheitliche Liste von Tabellen, die Sie mit Spark abfragen können.

Daten mithilfe von Notebooks untersuchen

In diesem Abschnitt wird beschrieben, wie Sie Notebooks erstellen, planen, freigeben, importieren und exportieren.

Notebook erstellen und speichern

  1. Rufen Sie in der Google Cloud Console die Dataplex-Seite Expl. Datenanalyse auf.

  2. Wählen Sie in der Ansicht Expl. Datenanalyse einen Lake aus.

  3. Maximieren Sie den Lake und klicken Sie auf den Ordner Notebooks.

  4. Klicken Sie auf Neues Notebook.

  5. Geben Sie im Feld Notebook-Pfad den Namen des Notebooks an.

  6. Optional: Geben Sie im Feld Beschreibung eine Beschreibung für das neue Notebook ein.

  7. Optional: Fügen Sie Labels hinzu.

  8. Klicken Sie auf Notebook erstellen. Ein Notebook wird jetzt erstellt.

  9. Klicken Sie auf Notebook öffnen, um das erstellte Notebook zu öffnen.

  10. Wählen Sie eine Umgebung aus, in der Dataplex beim Erstellen oder Öffnen des Notebooks eine Nutzersitzung erstellen soll. Wählen Sie unbedingt eine Umgebung mit Paketen aus, denen Sie vertrauen.

    Wenn Sie keine Umgebung auswählen, verwendet Dataplex die Standardumgebung. Wenn Sie noch keine Umgebung haben, erstellen Sie eine. Weitere Informationen finden Sie unter Umgebung erstellen.

    Sie können jetzt Ihre Daten untersuchen, indem Sie Python-Code schreiben und das Notebook nach der explorativen Datenanalyse speichern. Später können Sie sich eine Vorschau des erstellten Notebooks anzeigen lassen und seine Ausgabe prüfen, ohne eine Sitzung zu erstellen und den Code auszuführen.

Notebook planen

Sie können ein Notebook so planen, dass es als Dataplex-Aufgabe ausgeführt wird. Weitere Informationen finden Sie unter Zeitpläne für Notebooks erstellen und verwalten.

Notebook freigeben

Sie können ein Notebook mithilfe von IAM-Berechtigungen für andere in der Organisation freigeben:

  1. Klicken Sie in der Ansicht Explore auf den Ordner Notebooks.

  2. Wählen Sie das Jupyter-Notebook aus, das Sie freigeben möchten.

  3. Klicken Sie auf Freigeben.

  4. Prüfen Sie die Berechtigungen. Betrachter-, Bearbeiter- und Administratorberechtigungen für dieses Notebook hinzufügen oder entfernen.

    Nachdem Sie ein Notebook freigegeben haben, können Nutzer mit Lese- oder Bearbeitungsberechtigungen auf Lake-Ebene zum Lake wechseln und an dem freigegebenen Notebook arbeiten.

Notebook importieren

Sie können ein Notebook aus einem Cloud Storage-Bucket importieren:

  1. Klicken Sie in der Ansicht Explore auf den Ordner Notebooks.

  2. Klicken Sie auf Import (Importieren).

  3. Rufen Sie den Cloud Storage-Bucket auf, der das Notebook enthält, das Sie importieren möchten.

  4. Wählen Sie das Notebook aus, geben Sie einen Namen an und klicken Sie auf Importieren.

    Das importierte Notebook wird im Ordner Notebooks erstellt. Sie können das importierte Notebook öffnen, bearbeiten, freigeben und planen.

Notebook exportieren

Sie können ein Notebook in einen Cloud Storage-Bucket exportieren, damit es von anderen Personen in der Organisation mit IAM-Berechtigungen verwendet werden kann.

  1. Klicken Sie in der Ansicht Explore auf den Ordner Notebooks.

  2. Markieren Sie das Notebook, das Sie exportieren möchten.

  3. Klicken Sie auf das Menü und dann auf Exportieren.

  4. Geben Sie den Cloud Storage-Pfad ein, in den Sie das Notebook exportieren möchten.

  5. Klicken Sie auf Notebook exportieren.

Nächste Schritte