Mit der Dataplex-Datenprofilerstellung können Sie allgemeine statistische Merkmale der Spalten in Ihren BigQuery-Tabellen identifizieren. Anhand dieser Informationen können Sie Ihre Daten effektiver verstehen und analysieren.
Informationen wie typische Datenwerte, Datenverteilung und Anzahl der Nullen können die Analyse beschleunigen. In Kombination mit der Datenklassifizierung können mithilfe des Datenprofilings Datenklassen oder vertrauliche Informationen erkannt werden, die wiederum die Zugriffssteuerung ermöglichen.
Dataplex verwendet diese Informationen auch, um Regeln für Datenqualitätsprüfungen zu empfehlen.
Konzeptmodell
Mit Dataplex können Sie das Profil Ihrer Daten besser nachvollziehen, indem Sie einen Datenprofilscan erstellen.
Das folgende Diagramm zeigt, wie Dataplex Daten scannt, um Berichte zu statistischen Merkmalen zu erstellen.
Ein Datenprofilscan ist mit einer BigQuery-Tabelle verknüpft und scannt die Tabelle, um die Datenprofilierungsergebnisse zu generieren. Ein Datenprofilierungs-Scan unterstützt mehrere Konfigurationsoptionen.
Konfigurationsoptionen
In diesem Abschnitt werden die Konfigurationsoptionen beschrieben, die für das Ausführen von Datenprofilierungsscans verfügbar sind.
Planungsoptionen
Sie können einen Datenprofilierungs-Scan mit einer bestimmten Häufigkeit oder auf Anfrage über die API oder die Google Cloud Console planen.
Umfang
Im Rahmen der Spezifikation eines Datenprofilierungs-Scans können Sie den Umfang eines Jobs mit einer der folgenden Optionen angeben:
Ganze Tabelle: Beim Datenprofil-Scan wird die gesamte Tabelle gescannt. Stichprobenerhebung, Zeilenfilter und Spaltenfilter werden auf die gesamte Tabelle angewendet, bevor die Profilierungsstatistiken berechnet werden.
Inkrementell: Die von Ihnen angegebenen inkrementellen Daten werden im Datenprofil-Scan erfasst. Geben Sie in der Tabelle eine
Date
- oderTimestamp
-Spalte an, die als Increment verwendet werden soll. Normalerweise ist dies die Spalte, nach der die Tabelle partitioniert ist. Stichprobenerhebung, Zeilenfilter und Spaltenfilter werden auf die inkrementellen Daten angewendet, bevor die Profilierungsstatistiken berechnet werden.
Daten filtern
Sie können Daten, die für das Profiling gescannt werden sollen, mithilfe von Zeilen- und Spaltenfiltern filtern. Mithilfe von Filtern können Sie die Ausführungszeit und die Kosten reduzieren und sensible und unnötige Daten ausschließen.
Zeilenfilter: Mit Zeilenfiltern können Sie sich auf Daten innerhalb eines bestimmten Zeitraums oder aus einem bestimmten Segment (z. B. einer Region) konzentrieren. Sie können beispielsweise Daten mit einem Zeitstempel vor einem bestimmten Datum herausfiltern.
Spaltenfilter: Mithilfe von Spaltenfiltern können Sie bestimmte Spalten in die Tabelle aufnehmen oder daraus ausschließen, um den Datenprofilierungs-Scan auszuführen.
Beispieldaten
In Dataplex können Sie einen Prozentsatz der Datensätze aus Ihren Daten angeben, die für die Ausführung eines Datenprofil-Scans als Stichprobe verwendet werden sollen. Wenn Sie Datenprofilierungsscans für eine kleinere Datenstichprobe erstellen, können Sie die Ausführungszeit und die Kosten für das Abfragen des gesamten Datensatzes reduzieren.
Mehrere Scans zur Datenprofilerstellung
Mit Dataplex können Sie über die Google Cloud Console mehrere Datenprofilierungsscans gleichzeitig erstellen. Sie können bis zu 100 Tabellen aus einem Dataset auswählen und für jedes Dataset einen Datenprofilierungs-Scan erstellen. Weitere Informationen
Scanergebnisse in BigQuery-Tabelle exportieren
Sie können die Scanergebnisse des Datenprofils zur weiteren Analyse in eine BigQuery-Tabelle exportieren. Wenn Sie Berichte anpassen möchten, können Sie die BigQuery-Tabellendaten mit einem Looker-Dashboard verknüpfen. Sie können einen zusammengefassten Bericht erstellen, indem Sie dieselbe Ergebnistabelle für mehrere Scans verwenden.
Ergebnisse der Datenprofilerstellung
Die Ergebnisse des Datenprofilings enthalten die folgenden Werte:
Spaltentyp | Ergebnisse der Datenprofilerstellung |
---|---|
Numerische Spalte |
|
String-Spalte |
|
Andere nicht verschachtelte Spalten (Datum, Uhrzeit, Zeitstempel, Binär usw.) |
|
Alle anderen verschachtelten oder komplexen Datentypen (z. B. „Record“, „Array“ oder „JSON“) oder Spalten mit dem Modus repeated. |
|
Die Ergebnisse enthalten die Anzahl der Datensätze, die bei jeder Ausführung gescannt wurden.
Berichterstellung und Überwachung
Sie können die Ergebnisse des Datenprofilings mit den folgenden Berichten und Methoden beobachten und analysieren:
Berichte, die mit der Quelltabelle auf den BigQuery- und Data Catalog-Seiten veröffentlicht wurden
Wenn Sie einen Datenprofilscan so konfiguriert haben, dass die Ergebnisse auf den BigQuery- und Data Catalog-Seiten in der Google Cloud Console veröffentlicht werden, können Sie sich die neuesten Ergebnisse des Datenprofilscans auf diesen Seiten auf dem Tab Datenprofil in jedem Projekt ansehen.
Vergangene, pro Job-Bericht in Dataplex
Auf der Seite Dataplex-Profil finden Sie detaillierte Berichte zu den letzten und bisherigen Jobs. Dazu gehören Profilinformationen auf Spaltenebene und die verwendete Konfiguration.
Tab „Analyse“
Auf der Seite Profil von Dataplex können Sie auf dem Tab Analyse die Trends für eine bestimmte Statistik einer Spalte über mehrere Profiljobs hinweg aufrufen. Wenn Sie beispielsweise einen inkrementellen Scan haben, können Sie sehen, wie sich der Mittelwert eines Werts im Zeitverlauf entwickelt hat.
Eigenes Dashboard oder eigene Analysen erstellen
Wenn Sie einen Datenprofilierungs-Scan so konfiguriert haben, dass die Ergebnisse in eine BigQuery-Tabelle exportiert oder gespeichert werden, können Sie mit Tools wie Looker Studio eigene Dashboards erstellen.
Beschränkungen
- Ergebnisse der Datenprofilerstellung werden nicht als Tags in Data Catalog veröffentlicht.
- Das Erstellen von Datenprofilen wird für BigQuery-Tabellen mit allen Spaltentypen mit Ausnahme von
BIGNUMERIC
unterstützt. Ein Scan, der für eine Tabelle mit einerBIGNUMERIC
-Spalte erstellt wurde, führt zu einem Validierungsfehler und wird nicht erstellt. - Die zu scannenden BigQuery-Tabellen dürfen maximal 300 Spalten haben.
Preise
Bei Dataplex wird die SKU für die Premium-Verarbeitung verwendet, um die Kosten für die Datenprofilerstellung in Rechnung zu stellen. Weitere Informationen finden Sie unter Preise.
Die Veröffentlichung von Ergebnissen der Datenprofilerstellung in Data Catalog ist noch nicht möglich. Sobald sie verfügbar ist, wird sie zum gleichen Preis wie die Speicherung von Katalogmetadaten berechnet. Weitere Informationen finden Sie unter Preise.
Die Premium-Verarbeitung von Dataplex für die Datenprofilerstellung wird pro Sekunde abgerechnet, wobei ein Minimum von einer Minute gilt.
Für fehlgeschlagene Profilierungsscans fallen keine Kosten an.
Die Kosten hängen von der Anzahl der Zeilen, der Anzahl der Spalten, der Menge der gescannten Daten, den Partitionierungs- und Clustering-Einstellungen der Tabelle und der Häufigkeit des Scans ab.
Es gibt mehrere Möglichkeiten, die Kosten für Datenprofilscans zu senken:
- Probenahme
- Inkrementelle Scans
- Spaltenfilterung
- Zeilenfilterung
Wenn Sie die Kosten für das Datenprofiling von anderen Kosten in der Dataplex-Premium-Verarbeitungs-SKU trennen möchten, verwenden Sie im Cloud Billing-Bericht das Label
goog-dataplex-workload-type
mit dem WertDATA_PROFILE
.Verwenden Sie die folgenden Labels, um die zusammengefassten Kosten zu filtern:
goog-dataplex-datascan-data-source-dataplex-entity
goog-dataplex-datascan-data-source-dataplex-lake
goog-dataplex-datascan-data-source-dataplex-zone
goog-dataplex-datascan-data-source-project
goog-dataplex-datascan-data-source-region
goog-dataplex-datascan-id
goog-dataplex-datascan-job-id
Nächste Schritte
- Weitere Informationen zur Datenprofilerstellung
- Weitere Informationen zur automatischen Datenqualität
- Weitere Informationen zur Verwendung der automatischen Datenqualität