Mit der Dataplex-Datenprofilerstellung können Sie allgemeine statistische Merkmale der Spalten in Ihren BigQuery-Tabellen identifizieren. Anhand dieser Informationen können Sie Ihre Daten effektiver verstehen und analysieren.
Informationen wie typische Datenwerte, Datenverteilung und Nullwerte können die Analyse beschleunigen. In Kombination mit der Datenklassifizierung können mithilfe von Datenprofilierung Datenklassen oder vertrauliche Informationen erkannt werden, die wiederum die Zugriffssteuerung ermöglichen.
Dataplex verwendet diese Informationen auch, um Regeln für Datenqualitätsprüfungen zu empfehlen.
Konzeptionelles Modell
Mit Dataplex können Sie das Profil Ihrer Daten besser nachvollziehen, indem Sie einen Datenprofilscan erstellen.
Das folgende Diagramm zeigt, wie Dataplex Daten scannt, um Berichte zu statistischen Merkmalen zu erstellen.
Ein Datenprofilerstellungsscan ist einer BigQuery-Tabelle zugeordnet und scannt die Tabelle, um die Ergebnisse der Datenprofilerstellung zu generieren. Ein Datenprofilierungs-Scan unterstützt mehrere Konfigurationsoptionen.
Konfigurationsoptionen
In diesem Abschnitt werden die Konfigurationsoptionen beschrieben, die für das Ausführen von Datenprofilierungsscans verfügbar sind.
Planungsoptionen
Sie können einen Datenprofilierungs-Scan mit einer bestimmten Häufigkeit oder auf Anfrage über die API oder die Google Cloud Console planen.
Umfang
Im Rahmen der Spezifikation eines Datenprofilerstellungsscans können Sie den Bereich eines Jobs als eine der folgenden Optionen:
Vollständige Tabelle: Die gesamte Tabelle wird im Scan zur Datenprofilerstellung gescannt. Stichprobenerhebung, Zeilenfilter und Spaltenfilter werden auf die gesamte Tabelle angewendet, bevor die Profilierungsstatistiken berechnet werden.
Inkrementell: Inkrementelle Daten, die Sie angeben, werden in den Daten gescannt. Profilscan. Geben Sie eine
Date
- oderTimestamp
-Spalte in der Tabelle an, die als Inkrement verwendet. Normalerweise ist dies die Spalte, nach der die Tabelle partitioniert ist. Stichproben sowie Zeilen- und Spaltenfilter werden auf die inkrementelle Daten, bevor Sie die Profiling-Statistik berechnen.
Daten filtern
Sie können Daten, die für das Profiling gescannt werden sollen, mithilfe von Zeilen- und Spaltenfiltern filtern. Mit Filtern können Sie Ausführungszeit und -kosten reduzieren, und sensible und unnützliche Daten ausschließen.
Zeilenfilter: Mit Zeilenfiltern können Sie sich auf Daten innerhalb eines bestimmten Zeitraums konzentrieren. oder aus einem bestimmten Segment wie einer Region stammen. Sie können beispielsweise Daten mit einem Zeitstempel vor einem bestimmten Datum herausfiltern.
Spaltenfilter: Mit Spaltenfiltern können Sie bestimmte Spalten aus der Tabelle, um den Scan zur Datenprofilerstellung auszuführen.
Beispieldaten
In Dataplex können Sie einen Prozentsatz der Datensätze aus Ihren Daten angeben, die für die Ausführung eines Datenprofil-Scans als Stichprobe verwendet werden sollen. Wird erstellt... Datenprofilerstellungs-Scans mit einer kleineren Stichprobe von Daten können die die Ausführungszeit und die Kosten für die Abfrage des gesamten Datasets.
Mehrere Scans zur Datenprofilerstellung
Mit Dataplex können Sie mehrere Scans für die Datenprofilerstellung gleichzeitig erstellen über die Google Cloud Console. Sie können bis zu 100 Tabellen aus einem Dataset auswählen und erstellen Sie für jedes Dataset einen Datenprofil-Scan. Weitere Informationen
Scanergebnisse in BigQuery-Tabelle exportieren
Sie können die Ergebnisse der Scanergebnisse für die Datenprofilerstellung in eine BigQuery-Tabelle exportieren. zur weiteren Analyse an. Um die Berichterstellung anzupassen, können Sie BigQuery-Tabellendaten in ein Looker-Dashboard übertragen. Sie können einen zusammengefassten Bericht erstellen, indem Sie dieselbe Ergebnistabelle für mehrere Scans verwenden.
Ergebnisse der Datenprofilerstellung
Die Ergebnisse der Datenprofilerstellung enthalten die folgenden Werte:
Spaltentyp | Ergebnisse der Datenprofilerstellung |
---|---|
Numerische Spalte |
|
String-Spalte |
|
Andere nicht verschachtelte Spalten (Datum, Uhrzeit, Zeitstempel, Binär usw.) |
|
Alle anderen verschachtelten oder komplexen Spalten des Datentyps (z. B. Record, Array, JSON) oder eine beliebige Spalte mit wiederkehrendem Modus. |
|
Die Ergebnisse enthalten die Anzahl der Datensätze, die bei jeder Ausführung gescannt wurden.
Berichterstellung und Überwachung
Sie können die Ergebnisse des Datenprofilings mit den folgenden Berichten und Methoden beobachten und analysieren:
Berichte, die mit der Quelltabelle auf den BigQuery- und Data Catalog-Seiten veröffentlicht wurden
Wenn Sie einen Datenprofilscan so konfiguriert haben, dass die Ergebnisse auf den BigQuery- und Data Catalog-Seiten in der Google Cloud Console veröffentlicht werden, können Sie sich die neuesten Ergebnisse des Datenprofilscans auf diesen Seiten auf dem Tab Datenprofil in jedem Projekt ansehen.
Vergangene, pro Job-Bericht in Dataplex
Auf der Seite Dataplex-Profil finden Sie detaillierte Berichte zu den letzten und bisherigen Jobs. Dazu gehört auch ein Profil auf Spaltenebene Informationen und die verwendete Konfiguration.
Tab „Analyse“
Auf der Seite Profil von Dataplex können Sie auf dem Tab Analyse die Trends für eine bestimmte Statistik einer Spalte über mehrere Profiljobs hinweg aufrufen. Wenn Sie beispielsweise einen inkrementellen Scan haben, können Sie sehen, wie sich der Mittelwert eines Werts im Zeitverlauf entwickelt hat.
Eigenes Dashboard oder eigene Analysen erstellen
Wenn Sie einen Datenprofil-Scan konfiguriert haben, um Ergebnisse zu exportieren oder in einem BigQuery-Tabelle enthält, können Sie Ihre eigenen Dashboards wie Looker Studio.
Beschränkungen
- Ergebnisse der Datenprofilerstellung werden nicht als Tags in Data Catalog veröffentlicht.
- Die Datenprofilerstellung wird für BigQuery-Tabellen mit allen Spalten unterstützt
Typen außer
BIGNUMERIC
. Ein Scan, der für eine Tabelle mit einerBIGNUMERIC
-Spalte erstellt wurde, führt zu einem Validierungsfehler und wird nicht erstellt. - Die zu scannenden BigQuery-Tabellen dürfen maximal 300 Spalten haben.
Preise
Bei Dataplex wird die SKU für die Premium-Verarbeitung verwendet, um die Kosten für die Datenprofilerstellung in Rechnung zu stellen. Weitere Informationen finden Sie unter Preise.
Das Veröffentlichen von Ergebnissen der Datenprofilerstellung in Data Catalog ist noch nicht möglich. Sobald sie verfügbar ist, wird sie zum gleichen Preis wie die Speicherung von Katalogmetadaten berechnet. Weitere Informationen finden Sie unter Preise.
Die Premium-Verarbeitung von Dataplex für die Datenprofilerstellung wird pro Sekunde abgerechnet, bei einem Minimum von einer Minute.
Für fehlgeschlagene Profilierungsscans fallen keine Kosten an.
Die Kosten hängen von der Anzahl der Zeilen, der Anzahl der Spalten, der Menge der gescannten Daten, den Partitionierungs- und Clustering-Einstellungen der Tabelle und der Häufigkeit des Scans ab.
Es gibt mehrere Möglichkeiten, die Kosten für Datenprofilscans zu senken:
- Probenahme
- Inkrementelle Scans
- Spaltenfilterung
- Zeilenfilterung
Um die Gebühren für die Datenprofilerstellung von anderen Gebühren in Dataplex zu trennen Premium-Artikel zur Verarbeitung in der Cloud Billing-Bericht, verwenden Sie das Label
goog-dataplex-workload-type
mit dem WertDATA_PROFILE
.Verwenden Sie die folgenden Labels, um die zusammengefassten Kosten zu filtern:
goog-dataplex-datascan-data-source-dataplex-entity
goog-dataplex-datascan-data-source-dataplex-lake
goog-dataplex-datascan-data-source-dataplex-zone
goog-dataplex-datascan-data-source-project
goog-dataplex-datascan-data-source-region
goog-dataplex-datascan-id
goog-dataplex-datascan-job-id
Nächste Schritte
- Weitere Informationen zur Datenprofilerstellung
- Weitere Informationen zur Datenqualität
- Weitere Informationen zur Verwendung der automatischen Datenqualität