Mit der Workbench für explorative Datenanalyse in Dataplex (Explore) können Sie vollständig verwaltete Daten interaktiv abfragen. Sie haben dabei mit nur einem Klick Zugriff auf Spark SQL-Scripts und Jupyter-Notebooks. Mit Explore können Sie teamübergreifend zusammenarbeiten. Dazu stehen Ihnen integrierte Funktionen zum Veröffentlichen, Freigeben und Suchen von Code-Assets zur Verfügung.
Hier erfahren Sie, wie Sie die serverlose Infrastruktur bereitstellen, skalieren und verwalten, die zum Ausführen Ihrer Spark SQL-Scripts und ‑Notebooks mit Nutzeranmeldedaten erforderlich ist. Sie können Ihre Arbeit mit serverlosem Scheduling über die Workbench operationalisieren.
In diesem Dokument wird beschrieben, wie Sie die explorativen Analysefunktionen in Dataplex verwenden.
Kosten
Dataplex bietet Explore auf der Premium-Verarbeitungsstufe an.
Terminologie
In diesem Dokument werden die folgenden Begriffe verwendet:
Umgebung
Eine Umgebung stellt serverlose Rechenressourcen für Ihre Spark SQL-Abfragen und ‑Notebooks bereit, die in einem Lake ausgeführt werden. Ein Dataplex-Administrator erstellt und verwaltet Umgebungen.
Administratoren können einen oder mehrere Nutzer zum Ausführen von Abfragen und Notebooks in der konfigurierten Umgebung autorisieren, indem sie ihnen die Rolle „Dataplex-Entwickler“ oder die zugehörigen IAM-Berechtigungen zuweisen.
Session
Wenn ein autorisierter Nutzer eine Umgebung zum Ausführen seiner Abfragen und Notebooks auswählt, verwendet Dataplex die angegebene Umgebungskonfiguration, um eine nutzerspezifische aktive Sitzung zu erstellen. Je nach Umgebungskonfiguration wird eine Sitzung automatisch beendet, wenn sie nicht verwendet wird.
Es dauert einige Minuten, bis eine neue Sitzung pro Nutzer gestartet wird. Nach dem Starten einer Sitzung werden nachfolgende Abfragen und Notebooks für denselben Nutzer ausgeführt. Eine Sitzung ist maximal 10 Stunden aktiv.
Für eine Umgebung wird in Dataplex nur eine Sitzung pro Nutzer erstellt, die sowohl von Spark SQL-Scripts als auch von Jupyter-Notebooks gemeinsam genutzt wird.
Dataplex verwendet Nutzeranmeldedaten innerhalb einer Sitzung, um Vorgänge auszuführen, z. B. das Abfragen von Daten aus Cloud Storage und BigQuery.
Knoten
Ein Knoten gibt die Rechenkapazität in einer Umgebungskonfiguration an. Ein Knoten entspricht 4 Datenrecheneinheiten (DCU), was mit 4 vCPUs und 16 GB RAM vergleichbar ist.
Standardumgebung
Sie können eine Standardumgebung pro See mit der ID default
erstellen.
Für eine Standardumgebung muss eine Standardkonfiguration verwendet werden. Eine Standardkonfiguration besteht aus folgenden Elementen:
- Rechenkapazität eines Knotens
- Größe des primären Laufwerks: 100 GB
- Automatische Sitzungsbeendigung (Zeit für automatisches Herunterfahren) auf 10 Minuten Inaktivität eingestellt
- Der Parameter
sessionSpec.enableFastStartup
, der standardmäßig auftrue
festgelegt ist. Wenn dieser Parameter auftrue
festgelegt ist, werden die Sitzungen für diese Umgebung vorab bereitgestellt, sodass sie sofort verfügbar sind. Dadurch wird die Startzeit der ersten Sitzung verkürzt. - Eine Sitzung mit schnellem Start ist eine Sitzung mit einem einzelnen Knoten, für die Dataplex ähnliche Preise wie für eine reguläre Sitzung berechnet, die auf der SKU für die Premium-Verarbeitung basieren. Für den schnellen Start ist maximal eine Sitzung mit dauerhafter Aktivität verfügbar. Diese Sitzung verursacht auch dann Kosten, wenn sie nicht verwendet wird. Dataplex hält diese vorab erstellte Sitzung 10 Stunden lang aktiv, schaltet sie dann aus und erstellt eine neue Sitzung.
Wenn Sie keine Umgebung explizit auswählen und zuvor eine Standardumgebung eingerichtet haben, verwendet Dataplex die Standardumgebung zum Erstellen von Sitzungen.
SQL-Script
Ein SQL-Script ist ein Spark SQL-Script, das als Inhalt in einem Dataplex-Datensee gespeichert wird. Sie können das Script in einem Lake speichern und für andere Hauptkonten freigeben. Sie können ihn auch als serverlosen Spark-Batchjob in Dataplex planen. Mit Dataplex können Sie direkt Spark SQL-Zugriff auf Tabellen erhalten, die Daten in Cloud Storage und BigQuery zuordnen.
Notebook
Ein Python 3-Notebook ist ein Jupyter-Notebook, das Sie als Inhalt in einem Dataplex-Lake speichern. Sie können ein Notebook als Inhalt in einem Lake speichern und für andere Nutzer freigeben oder planen, dass es als Dataproc Serverless Spark-Batchjob in Dataplex ausgeführt wird.
Bei Daten in BigQuery können Sie direkt über Spark auf BigQuery-Tabellen zugreifen, ohne den magischen Befehl %%bigquery
zu verwenden.
Hinweise
Bevor Sie beginnen, verknüpfen Sie Ihren Lake mit Dataproc Metastore und gewähren Sie die erforderlichen Rollen.
Data Lake mit Dataproc Metastore (DPMS) verknüpfen
So verwenden Sie Explore:
- Verknüpfen Sie eine gRPC-kompatible Dataproc Metastore-Instanz (DPMS) der Version 3.1.2 oder höher mit dem Dataplex-Lake.
- Achten Sie darauf, dass Ihrem Data Lake ein Dataproc Metastore und eine Umgebung zugewiesen sind.
Informationen zum Einrichten von Dataproc Metastore mit Dataplex, um auf Metadaten in Spark zuzugreifen
Erforderliche Rollen
Je nach den geplanten Aktionen benötigen Sie alle folgenden IAM-Rollen. Alle Umgebungen in einem Lake übernehmen die Berechtigungen, die auf Lake-Ebene gewährt wurden.
- Dataplex-Betrachter
- Dataplex-Entwickler
- Dataplex-Metadatenleser
- Dataplex-Datenleser
Zusätzliche Rollen:
Logging
Weitere Informationen zur Verwendung von Explore finden Sie in den folgenden Dokumenten:
Bekannte Einschränkungen
In diesem Abschnitt werden die bekannten Einschränkungen von Explore beschrieben.
Explore ist für Seen in den folgenden Regionen verfügbar:
asia-northeast1
asia-southeast1
europe-west1
europe-west2
us-central1
us-east1
us-west1
Sie können in einem Projekt bis zu 10 Umgebungen pro Region verwenden. Informationen zum Erhöhen des Kontingentlimits finden Sie unter Mit Kontingenten arbeiten.
Sie können Umgebungen mit maximal 150 Knoten erstellen. Die Sitzungsdauer für einzelne Nutzersitzungen ist auf 10 Stunden beschränkt.
Mit Spark SQL-Scripts können nur Daten in einem bestimmten Data Lake abgefragt werden. Wenn Sie Daten in einem anderen Data Lake abfragen möchten, müssen Sie zu diesem Data Lake wechseln und eine Umgebung darin auswählen.
Wenn Sie die Wiederherstellung eines Projekts rückgängig machen, werden in Dataplex keine Inhaltsressourcen wie SQL-Scripts oder Notebooks wiederhergestellt. Seien Sie vorsichtig, wenn Sie ein Projekt mit Ressourcen für Explore-Inhalte löschen.
Wenn die Umgebung benutzerdefinierte Pakete enthält, können Sie ein Notebook nur mit der gcloud CLI planen. Weitere Informationen finden Sie unter Notebooks mit benutzerdefinierten Paketen planen.
Wenn Sie eine Umgebung löschen, bevor Sie die Scripts und Notebooks löschen, können Sie nicht auf die Seite „Expl. Datenanalyse“ zugreifen. Löschen Sie daher die Scripts und Notebooks, bevor Sie eine Umgebung in Explore löschen.
Explore-Sitzungen unterstützen keine Hadoop Distributed File Systems (HDFS). Speichern Sie keine Nutzerdaten in einer explorativen Datenanalyse, da diese am Ende der Sitzung gelöscht werden.
Die maximale Größe für ein Notebook oder ein SQL-Script beträgt 1 MB.
Umgebung erstellen
Rufen Sie in der Google Cloud Console die Seite Dataplex-Lakes verwalten auf.
Wählen Sie einen Dataplex-Lake aus, für den Sie eine Umgebung erstellen möchten.
Klicken Sie auf den Tab Environments (Umgebungen).
Klicken Sie auf Umgebung erstellen.
Geben Sie im Feld Anzeigename einen Namen für die Umgebung ein.
Geben Sie im Feld Umgebungs-ID eine eindeutige ID ein.
Optional: Geben Sie eine Beschreibung für die neue Umgebung ein.
Geben Sie im Bereich Computing konfigurieren Folgendes an:
- Anzahl der Knoten: Die Anzahl der Knoten, die für Nutzersitzungen bereitgestellt werden sollen, die für diese Umgebung erstellt wurden.
- Maximale Anzahl von Knoten: Die maximale Anzahl von Knoten, die Dataplex in den Nutzersitzungen, die mit dieser Umgebung verknüpft sind, automatisch skalieren kann.
- Größe des primären Laufwerks: Die Größe des Laufwerks, die mit jedem bereitgestellten Knoten verknüpft ist.
- Zeit für automatisches Herunterfahren: Die Inaktivitätsdauer, nach der Dataplex die mit dieser Umgebung verknüpften Nutzersitzungen automatisch beendet. Sie können einen Mindestwert von 10 Minuten und einen Höchstwert von 60 Minuten festlegen.
Im Bereich Softwarepakete (optional) können Sie zusätzliche Python-Pakete, JAR-Dateien und Spark-Properties angeben, die in Nutzersitzungen installiert werden sollen, die für diese Umgebung bereitgestellt werden.
Wenn Sie eine Umgebung erstellen und den Cloud Storage-Pfad für Java-JARs oder Python-Pakete angeben, muss der Cloud Dataplex-Dienst-Agent die erforderlichen Berechtigungen für den Zugriff auf die Cloud Storage-Dateien haben, damit Dataplex die JARs oder Pakete installieren kann.
Klicken Sie auf Erstellen.
Hinweise
Ein Knoten entspricht 4 Datenrecheneinheiten (DCU), was mit 4 vCPUs und 16 GB RAM vergleichbar ist.
Sie können eine Umgebung mit einem oder mit drei oder mehr Knoten erstellen.
Als Administrator eines Datensees können Sie Umgebungen im Voraus einrichten, damit Nutzer ihre Arbeitslasten mit den vorab angegebenen Konfigurationen ausführen können.
Umgebungen können zwar für mehrere Nutzer freigegeben werden, in Dataplex wird jedoch eine separate Sitzung pro Nutzer mithilfe der Umgebungskonfiguration erstellt.
Standardumgebung erstellen
Weitere Informationen finden Sie unter Konfigurationsanforderungen für eine Standardumgebung.
Console
Öffnen Sie Dataplex in der Google Cloud Console.
Rufen Sie die Ansicht Verwalten auf.
Wählen Sie einen Dataplex-Lake aus.
Klicken Sie auf den Tab Environments (Umgebungen).
Klicken Sie auf Standardumgebung erstellen.
gcloud
Führen Sie den folgenden Befehl aus, um eine Standardumgebung mit aktiviertem Schnellstart zu erstellen:
gcloud dataplex environments create default --project=PROJECT_ID --lake=LAKE_ID --location=REGION--os-image-version=latest --session-enable-fast-startup
Daten mit der Spark SQL Workbench untersuchen
Verwenden Sie Spark SQL-Scripts, um BigQuery- und Cloud Storage-Daten zu analysieren.
Script erstellen und speichern
Rufen Sie in der Google Cloud Console die Seite Dataplex Explore auf.
Wählen Sie in der Ansicht Explore den Datensee mit den Datenassets aus, die Sie untersuchen möchten.
Maximieren Sie im Ressourcenbrowser den See. Daraufhin werden die folgenden Ordner angezeigt:
- Daten: Enthält alle Datenbanken und Tabellen in der DPMS-Instanz, die mit Ihrem Data Lake verbunden sind, einschließlich der Hudi-, Iceberg- und Delta Lake-Tabellen.
- Notebooks: Enthält alle Notebooks, die im ausgewählten Datensee erstellt wurden.
- Spark SQL-Scripts: Enthält alle Spark SQL-Scripts, die im ausgewählten Data Lake erstellt wurden.
Maximieren Sie Daten und wählen Sie die gewünschte Datenbank und Tabelle aus.
Wenn Sie eine Beispielabfrage verwenden möchten, klicken Sie auf QUERY. In der Spark SQL-Workbench wird automatisch ein neuer Tab mit einer Beispielabfrage ausgefüllt.
Wenn Sie ein neues Script erstellen möchten, klicken Sie im Spark SQL-Editor auf Neues Script und geben Sie Ihre Abfragen ein.
Wählen Sie Speichern > Script speichern aus, um das Script zu speichern.
Script ausführen
Klicken Sie im Spark SQL-Editor auf den Tab mit der Abfrage, die Sie ausführen möchten.
Klicken Sie auf Umgebung auswählen. Wählen Sie die Umgebung aus, in der Sie die Abfrage ausführen möchten. Wenn Sie keine Umgebung auswählen, verwendet Dataplex die Standardumgebung, um eine Sitzung pro Nutzer zu erstellen.
Sie können mehrere Spark SQL-Abfragen im selben Script ausführen, indem Sie die Abfragen durch Semikolons trennen.
Klicken Sie auf Ausführen.
Über das Drop-down-Menü können Sie sich den Abfrageverlauf für jede der Abfragen im Script ansehen.
Script planen
Sie können ein Script so planen, dass es als Dataplex-Aufgabe ausgeführt wird. Weitere Informationen finden Sie unter Zeitpläne für SQL-Scripts erstellen und verwalten.
Script teilen
Sie können ein Script mit anderen Nutzern in der Organisation über IAM-Berechtigungen freigeben:
Klicken Sie in der Ansicht Expl. Datenanalyse auf das Spark SQL-Script, das Sie freigeben möchten.
Klicken Sie im Dreipunkt-Menü Mehr auf Teilen.
Prüfen Sie die Berechtigungen. Betrachter-, Bearbeiter- und Administratorberechtigungen für das freigegebene Script hinzufügen oder entfernen
Nachdem Sie ein Script freigegeben haben, können Nutzer mit Lese- oder Bearbeitungsberechtigungen auf Ebene des Datensees den Datensee aufrufen und am freigegebenen Script arbeiten.
BigQuery- und Cloud Storage-Daten mit Spark SQL analysieren
Für jeden BigQuery-Datensatz, der einer Zone als Asset hinzugefügt wird, ermöglicht Dataplex den direkten Spark SQL-Zugriff auf alle Tabellen in diesem Datensatz. Sie können Daten in Dataplex mit Spark SQL-Scripts oder ‑Notebooks abfragen. Beispiel:
select * from ZONE_ID.TABLE_ID
Wenn Ihre Assets Cloud Storage-Buckets in derselben Zone zugeordnet sind, bietet Dataplex eine einheitliche Liste von Tabellen, die Sie mit Spark abfragen können.
Daten mit Notebooks analysieren
In diesem Abschnitt wird beschrieben, wie Sie Notebooks erstellen, planen, freigeben, importieren und exportieren.
Notebook erstellen und speichern
Rufen Sie in der Google Cloud Console die Seite Dataplex Explore auf.
Wählen Sie in der Ansicht Expl. Datenanalyse einen See aus.
Maximieren Sie den Ordner „See“ und klicken Sie auf den Ordner Notebooks.
Klicken Sie auf Neues Notebook.
Geben Sie im Feld Notebookpfad den Namen des Notebooks ein.
Optional: Geben Sie im Feld Beschreibung eine Beschreibung für das neue Notizbuch ein.
Optional: Fügen Sie Labels hinzu.
Klicken Sie auf Notizbuch erstellen. Es wird jetzt ein Notebook erstellt.
Klicken Sie auf Notebook öffnen, um das erstellte Notizbuch zu öffnen.
Wählen Sie beim Erstellen oder Öffnen Ihres Notebooks eine Umgebung aus, in der Dataplex eine Nutzersitzung erstellen soll. Achten Sie darauf, dass Sie eine Umgebung mit vertrauenswürdigen Paketen auswählen.
Wenn Sie keine Umgebung auswählen, verwendet Dataplex die Standardumgebung. Falls Sie noch keine Umgebung haben, erstellen Sie eine. Weitere Informationen finden Sie unter Umgebung erstellen.
Sie können jetzt Ihre Daten untersuchen, indem Sie Python-Code schreiben und das Notebook nach der explorativen Datenanalyse speichern. Später können Sie sich eine Vorschau des erstellten Notebooks ansehen und die Ausgabe prüfen, ohne eine Sitzung erstellen und den Code ausführen zu müssen.
Notebook planen
Sie können ein Notebook so planen, dass es als Dataplex-Aufgabe ausgeführt wird. Weitere Informationen finden Sie unter Zeitpläne für Notizen erstellen und verwalten.
Notebook freigeben
Mit IAM-Berechtigungen können Sie ein Notebook für andere Nutzer in der Organisation freigeben:
Klicken Sie in der Ansicht Explore auf den Ordner Notebooks.
Wählen Sie das Jupyter-Notebook aus, das Sie freigeben möchten.
Klicken Sie auf Freigeben.
Prüfen Sie die Berechtigungen. Betrachter-, Bearbeiter- und Administratorberechtigungen für dieses Notebook hinzufügen oder entfernen
Nachdem Sie ein Notebook freigegeben haben, können Nutzer mit Lese- oder Bearbeitungsberechtigungen auf Ebene des Datensees den Datensee aufrufen und am freigegebenen Notebook arbeiten.
Notebook importieren
So importieren Sie ein Notebook aus einem Cloud Storage-Bucket:
Klicken Sie in der Ansicht Explore auf den Ordner Notebooks.
Klicken Sie auf Importieren.
Rufen Sie den Cloud Storage-Bucket auf, der das zu importierende Notebook enthält.
Wählen Sie das Notebook aus, geben Sie einen Namen ein und klicken Sie auf Importieren.
Das importierte Notebook wird im Ordner Notebooks erstellt. Sie können das importierte Notizbuch öffnen, bearbeiten, freigeben und planen.
Notebook exportieren
Sie können ein Notebook in einen Cloud Storage-Bucket exportieren, damit es von anderen Nutzern in der Organisation mit IAM-Berechtigungen verwendet werden kann.
Klicken Sie in der Ansicht Explore auf den Ordner Notebooks.
Markieren Sie das Notizbuch, das Sie exportieren möchten.
Klicken Sie auf das Dreistrich-Menü
und dann auf Exportieren.Geben Sie den Cloud Storage-Pfad ein, in den Sie das Notizbuch exportieren möchten.
Klicken Sie auf Notizbuch exportieren.
Nächste Schritte
- Weitere Informationen finden Sie in der API-Referenz für die Aufgabe.
- Umgebungen verwalten
- Daten entdecken
- SQL-Scripts und Notebooks planen
- Metadaten verwalten