Mit der Workbench für die Datenerkundung in Dataplex (Explore) können Sie interaktiv Vollständig verwaltete Daten mit nur einem Klick auf Spark SQL abfragen Skripts und Jupyter Notebooks erstellen. Mit Explore können Sie dank integrierter Funktionen für die Veröffentlichung, Freigabe und Suche von Code-Assets teamübergreifend zusammenarbeiten.
Hier erfahren Sie, wie Sie die serverlose Infrastruktur bereitstellen, skalieren und verwalten, die zum Ausführen Ihrer Spark SQL-Scripts und ‑Notebooks mit Nutzeranmeldedaten erforderlich ist. Sie können Ihre Arbeit mit serverlosem Scheduling über die Workbench operationalisieren.
In diesem Dokument wird beschrieben, wie Sie die explorativen Analysefunktionen in Dataplex verwenden.
Kosten
Dataplex bietet Explores auf der Premium-Verarbeitungsstufe.
Terminologie
In diesem Dokument werden die folgenden Begriffe verwendet:
Umgebung
Eine Umgebung bietet serverlose Rechenressourcen für Ihre Spark SQL-Abfragen und ‑Notebooks, die in einem Lake ausgeführt werden. Dataplex Umgebungen erstellt und verwaltet.
Administratoren können einen oder mehrere Nutzer zum Ausführen von Abfragen und Notebooks autorisieren konfigurierte Umgebung aktivieren, indem Sie Entwicklerrolle oder zugehörige IAM-Berechtigungen.
Sitzung
Wenn ein autorisierter Nutzer eine Umgebung für seine Abfragen auswählt und Notebooks verwenden, verwendet Dataplex die angegebene Umgebungskonfiguration um eine nutzerspezifische aktive Sitzung zu erstellen. Je nach Umgebungskonfiguration wird eine Sitzung automatisch beendet, wenn sie nicht verwendet wird.
Es dauert einige Minuten, bis eine neue Sitzung pro Nutzer gestartet wird. Einmal pro Sitzung werden nachfolgende Abfragen und Notebooks für denselben Nutzer ausgeführt. Eine Sitzung ist maximal 10 Stunden lang aktiv sein.
Für eine Umgebung wird in Dataplex nur eine Sitzung pro Nutzer erstellt, die sowohl von Spark SQL-Scripts als auch von Jupyter-Notebooks gemeinsam genutzt wird.
Dataplex verwendet Nutzeranmeldedaten in einer Sitzung, um ausgeführt zu werden Operationen wie das Abfragen von Daten aus Cloud Storage BigQuery
Knoten
Ein Knoten gibt die Rechenkapazität in einer Umgebungskonfiguration an. Ein Knoten entspricht 4 Daten-Recheneinheiten (DCU), was mit 4 vCPUs und 16 GB RAM vergleichbar ist.
Standardumgebung
Sie können eine Standardumgebung pro See mit der ID default
erstellen.
Eine Standardumgebung muss eine Standardkonfiguration verwenden. Eine Standardkonfiguration
besteht aus Folgendem:
- Rechenkapazität von einem Knoten
- Größe des primären Laufwerks: 100 GB
- Automatische Sitzungsbeendigung (Zeit für automatisches Herunterfahren) auf 10 Minuten Inaktivität eingestellt
- Der Parameter
sessionSpec.enableFastStartup
, der standardmäßig auftrue
festgelegt ist. Wenn dieser Parameter auftrue
festgelegt ist, werden die Sitzungen für diese Umgebung vorab bereitgestellt, sodass sie sofort verfügbar sind. Dadurch wird die Startzeit der ersten Sitzung verkürzt. - Eine schnelle Startsitzung ist eine Sitzung mit einem einzelnen Knoten, die von Dataplex Gebühren unter SKU „Premium Processing“ ähnlich wie bei einer regulären Sitzung. Für den schnellen Start ist maximal eine Sitzung mit dauerhafter Aktivität verfügbar. Diese Sitzung verursacht auch dann Kosten, wenn sie nicht verwendet wird. Dataplex hält diese vorab erstellte Sitzung 10 Stunden lang aktiv, schaltet sie dann aus und erstellt eine neue Sitzung.
Wenn Sie nicht explizit eine Umgebung auswählen und eine Standardumgebung Umgebung erstellt hat, verwendet Dataplex die Standardumgebung um Sitzungen zu erstellen.
SQL-Script
Ein SQL-Script ist ein Spark SQL-Script, das als Inhalt in einem Dataplex-Lake gespeichert wird. Sie können das Script in einem Lake speichern und für andere Hauptkonten freigeben. Sie können ihn auch als serverlosen Spark-Batchjob in Dataplex planen. Mit Dataplex können Sie direkt Spark SQL-Zugriff auf Tabellen erhalten, die Daten in Cloud Storage und BigQuery zuordnen.
Notebook
Ein Python 3-Notebook ist ein Jupyter-Notebook, das Sie als Inhalt in einem Dataplex-Lake speichern. Sie können ein Notizbuch als Inhalt in und mit anderen Hauptkonten teilen planen, dass sie als serverlosen Spark-Batchjob von Dataproc in Dataplex.
Für Daten in BigQuery können Sie auf BigQuery
Tabellen direkt über Spark, ohne den magischen Befehl %%bigquery
zu verwenden.
Hinweis
Bevor Sie beginnen, verknüpfen Sie Ihren Lake mit Dataproc Metastore und gewähren Sie die erforderlichen Rollen.
Data Lake mit Dataproc Metastore (DPMS) verknüpfen
So verwenden Sie die Funktion „Erkunden“:
- Verknüpfen Sie eine gRPC-kompatible Dataproc Metastore-Instanz (DPMS) der Version 3.1.2 oder höher mit dem Dataplex-Lake.
- Achten Sie darauf, dass Ihrem Data Lake ein Dataproc Metastore und eine Umgebung zugewiesen sind.
Hier erfahren Sie, wie Sie Dataproc Metastore mit Dataplex für den Zugriff auf Metadaten in Spark.
Erforderliche Rollen
Abhängig von den Aktionen, die Sie ausführen möchten, benötigen Sie alle folgenden IAM-Berechtigungen, Rollen. Alle Umgebungen in einem Lake übernehmen die Berechtigungen, die auf Lake-Ebene gewährt wurden.
- Dataplex-Betrachter
- Dataplex-Entwickler
- Dataplex-Metadatenleser
- Dataplex-Datenleser
Weitere Rollen:
Logging
Informationen zur Verwendung von „Erkunden“ finden Sie in den folgenden Dokumenten:
Bekannte Einschränkungen
In diesem Abschnitt werden die bekannten Einschränkungen von Explores beschrieben.
Explore ist für Seen in den folgenden Regionen verfügbar:
asia-northeast1
asia-southeast1
europe-west1
europe-west2
us-central1
us-east1
us-west1
Sie können in einem Projekt bis zu 10 Umgebungen pro Region verwenden. Weitere Informationen zum Erhöhen des Kontingentlimits finden Sie unter Mit Kontingenten arbeiten.
Sie können Umgebungen mit maximal 150 Knoten erstellen. Die Sitzungsdauer für einzelne Nutzersitzungen ist auf 10 Stunden beschränkt.
Mit Spark SQL-Scripts können nur Daten in einem bestimmten Data Lake abgefragt werden. Wenn Sie Daten in einem anderen Data Lake abfragen möchten, müssen Sie zu diesem Data Lake wechseln und eine Umgebung darin auswählen.
Nachdem Sie ein Projekt wiederhergestellt haben, stellt Dataplex keine Inhalte wieder her wie SQL-Skripts oder Notebooks. Gehen Sie vorsichtig vor, wenn Löschen eines Projekts über die Inhaltsressourcen von Explore.
Wenn die Umgebung benutzerdefinierte Pakete enthält, können Sie ein Notebook nur mit der gcloud CLI planen. Weitere Informationen finden Sie unter Notebooks mit benutzerdefinierten Paketen planen.
Wenn Sie eine Umgebung löschen, bevor Sie die Scripts und Notebooks löschen, können Sie nicht auf die Seite „Expl. Datenanalyse“ zugreifen. Achten Sie daher darauf, dass Sie den Skripts und Notebooks vor dem Löschen einer Umgebung im explorativen Analysetool löschen.
Explore-Sitzungen unterstützen nicht Hadoop Distributed File Systems (HDFS). Keine Nutzerdaten in einer Explore-Sitzung speichern, da sie gelöscht werden, wenn wird die Sitzung beendet.
Die maximale Größe für ein Notebook oder ein SQL-Script beträgt 1 MB.
Umgebung erstellen
Rufen Sie in der Google Cloud Console Dataplex auf Seite Lakes verwalten aufrufen.
Wählen Sie einen Dataplex-Lake aus, für den Sie eine Umgebung erstellen möchten.
Klicken Sie auf den Tab Environments (Umgebungen).
Klicken Sie auf Umgebung erstellen.
Geben Sie im Feld Anzeigename einen Namen für die Umgebung ein.
Geben Sie unter Umgebungs-ID eine eindeutige ID ein.
Optional: Geben Sie eine Beschreibung für die neue Umgebung ein.
Geben Sie im Bereich Computing konfigurieren Folgendes an:
- Anzahl der Knoten: Die Anzahl der bereitzustellenden Knoten. für Nutzersitzungen, die für diese Umgebung erstellt wurden.
- Maximale Anzahl von Knoten: Die maximale Anzahl von Knoten, die Dataplex kann in den Nutzersitzungen, die verknüpft sind, automatisch skalieren in dieser Umgebung.
- Größe des primären Laufwerks: Die Größe des Laufwerks, die mit jedem bereitgestellten Knoten verknüpft ist.
- Zeit für automatisches Herunterfahren: Die Inaktivitätsdauer, nach der Dataplex die mit dieser Umgebung verknüpften Nutzersitzungen automatisch beendet. Sie können einen Mindestwert von 10 Minuten und einen Höchstwert von 60 Minuten festlegen.
Im Bereich Softwarepakete (optional) können Sie zusätzliche Python-Pakete, JAR-Dateien und Spark-Properties angeben, die in Nutzersitzungen installiert werden sollen, die für diese Umgebung bereitgestellt werden.
Wenn Sie eine Umgebung erstellen und den Cloud Storage-Pfad für Java-JARs oder Python-Pakete, damit Dataplex die JARs installiert oder Paketen haben, achten Sie darauf, dass Cloud Dataplex Der Dienst-Agent hat die erforderlichen Berechtigungen für den Zugriff auf Cloud Storage -Dateien.
Klicken Sie auf Erstellen.
Hinweise
Ein Knoten entspricht 4 Daten-Recheneinheiten (DCU), was mit 4 vCPUs und 16 GB RAM vergleichbar ist.
Sie können eine Umgebung mit einem oder mit drei oder mehr Knoten erstellen.
Als Administrator eines Datensees können Sie Umgebungen im Voraus einrichten, damit Nutzer ihre Arbeitslasten mit den vorab angegebenen Konfigurationen ausführen können.
Obwohl Umgebungen für mehrere Nutzer freigegeben werden können, erstellt mit der Umgebung eine separate Sitzung pro Nutzer Konfiguration.
Standardumgebung erstellen
Siehe Konfigurationsanforderungen für eine Standardumgebung.
Console
Öffnen Sie Dataplex in der Google Cloud Console.
Rufen Sie die Ansicht Verwalten auf.
Wählen Sie einen Dataplex-Lake aus.
Klicken Sie auf den Tab Environments (Umgebungen).
Klicken Sie auf Standardumgebung erstellen.
gcloud
Führen Sie folgenden Befehl aus, um eine Standardumgebung mit aktiviertem schnellem Start zu erstellen: Befehl:
gcloud dataplex environments create default --project=PROJECT_ID --lake=LAKE_ID --location=REGION--os-image-version=latest --session-enable-fast-startup
Daten mit der Spark SQL Workbench untersuchen
Verwenden Sie Spark SQL, um BigQuery- und Cloud Storage-Daten zu untersuchen Skripts erstellt.
Skript erstellen und speichern
Rufen Sie in der Google Cloud Console die Seite Dataplex Explore auf.
Wählen Sie in der Ansicht Explore den Datensee mit den Datenassets aus, die Sie untersuchen möchten.
Maximieren Sie den Lake im Ressourcenbrowser. Daraufhin wird Folgendes angezeigt: Ordner:
- Daten: Enthält alle Datenbanken und Tabellen in der DPMS-Instanz, die mit Ihrem Data Lake verbunden sind, einschließlich der Hudi-, Iceberg- und Delta Lake-Tabellen.
- Notebooks: Enthält alle Notebooks, die im ausgewählten Lake erstellt wurden.
- Spark SQL-Skripts: Enthält alle Spark SQL-Skripts, die in ausgewählten Lake.
Maximieren Sie Daten und wählen Sie die erforderliche Datenbank und die Tabelle aus.
Wenn Sie eine Beispielabfrage verwenden möchten, klicken Sie auf QUERY. Spark SQL Workbench füllt einen neuen Tab automatisch mit einer Beispielabfrage.
Um ein neues Skript zu erstellen, klicken Sie im Spark SQL Editor auf Neues Skript. und geben Sie Ihre Abfragen ein.
Wählen Sie Speichern > Script speichern aus, um das Script zu speichern.
Script ausführen
Klicken Sie im Spark SQL Editor auf den Tab mit der Abfrage, die Sie ausführen möchten.
Klicken Sie auf Umgebung auswählen. Wählen Sie die Umgebung aus, in der Sie die Abfrage ausführen möchten. Wenn Sie keine Umgebung auswählen, verwendet die Standardumgebung, um eine Sitzung pro Nutzer zu erstellen.
Sie können mehrere Spark SQL-Abfragen im selben Skript ausführen, indem Sie die Abfragen mit Semikolons.
Klicken Sie auf Ausführen.
Über das Drop-down-Menü können Sie sich den Abfrageverlauf für jede der Abfragen im Script ansehen.
Script planen
Sie können ein Script so planen, dass es als Dataplex-Aufgabe ausgeführt wird. Weitere Informationen finden Sie unter Zeitpläne für SQL-Scripts erstellen und verwalten.
Script teilen
Sie können ein Script mit anderen Nutzern in der Organisation über IAM-Berechtigungen freigeben:
Klicken Sie in der Ansicht Expl. Datenanalyse auf das Spark SQL-Script, das Sie freigeben möchten.
Klicken Sie im Dreipunkt-Menü auf Freigeben.
Prüfen Sie die Berechtigungen. Betrachter-, Bearbeiter- und Administratorberechtigungen für das freigegebene Script hinzufügen oder entfernen.
Nachdem Sie ein Script freigegeben haben, können Nutzer mit Lese- oder Bearbeitungsberechtigungen auf Lake-Ebene kann zum Lake navigieren und am gemeinsam genutzten Skript arbeiten.
BigQuery- und Cloud Storage-Daten mit Spark SQL untersuchen
Für jeden BigQuery-Datensatz, der einer Zone als Asset hinzugefügt wird, ermöglicht Dataplex den direkten Spark SQL-Zugriff auf alle Tabellen in diesem Datensatz. Sie können Daten in Dataplex mit Spark SQL-Scripts oder ‑Notebooks abfragen. Beispiel:
select * from ZONE_ID.TABLE_ID
Wenn Ihre Assets Cloud Storage-Buckets in derselben Zone zugeordnet sind, bietet Dataplex eine einheitliche Liste von Tabellen, die Sie mit Spark abfragen können.
Daten mit Notebooks untersuchen
In diesem Abschnitt wird beschrieben, wie Sie Daten erstellen, planen, freigeben, importieren und exportieren. Notizbüchern.
Notebook erstellen und speichern
Rufen Sie in der Google Cloud Console die Dataplex-Funktion Explore auf. Seite.
Wählen Sie in der Ansicht Explore einen Lake aus.
Maximieren Sie den Lake und klicken Sie auf den Ordner Notebooks.
Klicken Sie auf Neues Notebook.
Geben Sie im Feld Notebookpfad den Namen des Notebooks ein.
Optional: Geben Sie im Feld Beschreibung eine Beschreibung für das neue Notizbuch.
Optional: Fügen Sie Labels hinzu.
Klicken Sie auf Notizbuch erstellen. Es wird jetzt ein Notebook erstellt.
Klicken Sie zum Öffnen des erstellten Notebooks auf Notebook öffnen.
Wählen Sie beim Erstellen oder Öffnen Ihres Notebooks eine Umgebung aus, in der Dataplex eine Nutzersitzung erstellen soll. Achten Sie darauf, dass Sie eine Umgebung mit vertrauenswürdigen Paketen auswählen.
Wenn Sie keine Umgebung auswählen, verwendet Dataplex die Standardumgebung zu verbessern. Falls Sie noch keine Umgebung haben, erstellen Sie eine. Weitere Informationen Weitere Informationen finden Sie unter Umgebung erstellen.
Sie können jetzt Ihre Daten untersuchen, indem Sie Python-Code schreiben und das Notebook nach der explorativen Datenanalyse speichern. Später können Sie sich eine Vorschau des erstellten Notebooks ansehen und die Ausgabe prüfen, ohne eine Sitzung erstellen und den Code ausführen zu müssen.
Notebook planen
Sie können ein Notebook so planen, dass es als Dataplex-Aufgabe ausgeführt wird. Weitere Informationen finden Sie unter Zeitpläne für Notizen erstellen und verwalten.
Notebook freigeben
Mit IAM-Berechtigungen können Sie ein Notebook für andere Nutzer in der Organisation freigeben:
Klicken Sie in der Ansicht Explore auf den Ordner Notebooks.
Wählen Sie das Jupyter-Notebook aus, das Sie freigeben möchten.
Klicken Sie auf Freigeben.
Überprüfen Sie die Berechtigungen. Betrachter-, Bearbeiter- und Administratorberechtigungen für dieses Notebook hinzufügen oder entfernen.
Nachdem Sie ein Notebook freigegeben haben, können Nutzer mit Lese- oder Bearbeitungsberechtigungen auf Ebene des Datensees den Datensee aufrufen und am freigegebenen Notebook arbeiten.
Notebook importieren
Sie können ein Notebook aus einem Cloud Storage-Bucket importieren:
Klicken Sie in der Ansicht Explore auf den Ordner Notebooks.
Klicken Sie auf Importieren.
Rufen Sie den Cloud Storage-Bucket auf, der das zu importierende Notebook enthält.
Wählen Sie das Notebook aus, geben Sie einen Namen an und klicken Sie auf Importieren.
Das importierte Notebook wird im Ordner Notebooks erstellt. Sie können das importierte Notizbuch öffnen, bearbeiten, freigeben und planen.
Notebook exportieren
Sie können ein Notebook in einen Cloud Storage-Bucket exportieren, damit es von anderen Nutzern in der Organisation mit IAM-Berechtigungen verwendet werden kann.
Klicken Sie in der Ansicht Explore auf den Ordner Notebooks.
Markieren Sie das Notizbuch, das Sie exportieren möchten.
Klicken Sie auf das Menü
und dann auf Exportieren.Geben Sie den Cloud Storage-Pfad ein, in den Sie das Notizbuch exportieren möchten.
Klicken Sie auf Notebook exportieren.
Nächste Schritte
- Weitere Informationen finden Sie in der API-Referenz für die Aufgabe.
- Umgebungen verwalten
- Daten entdecken
- SQL-Scripts und Notebooks planen
- Metadaten verwalten