Datenprofilerstellung

Mit der Dataplex-Datenprofilerstellung können Sie allgemeine statistische Merkmale der Spalten in Ihren BigQuery-Tabellen identifizieren. Anhand dieser Informationen können Sie Ihre Daten effektiver verstehen und analysieren.

Informationen wie typische Datenwerte, Datenverteilung und Anzahl der Nullen können die Analyse beschleunigen. In Kombination mit der Datenklassifizierung können mithilfe des Datenprofilings Datenklassen oder vertrauliche Informationen erkannt werden, die wiederum die Zugriffssteuerung ermöglichen.

Dataplex verwendet diese Informationen auch, um Regeln für Datenqualitätsprüfungen zu empfehlen.

Konzeptmodell

Mit Dataplex können Sie das Profil Ihrer Daten besser nachvollziehen, indem Sie einen Datenprofilscan erstellen.

Das folgende Diagramm zeigt, wie Dataplex Daten scannt, um Berichte zu statistischen Merkmalen zu erstellen.

Bei einem Datenprofilscan werden Tabellendaten analysiert, um Berichte zu statistischen Merkmalen zu erstellen.

Ein Datenprofilscan ist mit einer BigQuery-Tabelle verknüpft und scannt die Tabelle, um die Datenprofilierungsergebnisse zu generieren. Ein Datenprofilierungs-Scan unterstützt mehrere Konfigurationsoptionen.

Konfigurationsoptionen

In diesem Abschnitt werden die Konfigurationsoptionen beschrieben, die für das Ausführen von Datenprofilierungsscans verfügbar sind.

Planungsoptionen

Sie können einen Datenprofilierungs-Scan mit einer bestimmten Häufigkeit oder auf Anfrage über die API oder die Google Cloud Console planen.

Umfang

Im Rahmen der Spezifikation eines Datenprofilierungs-Scans können Sie den Umfang eines Jobs mit einer der folgenden Optionen angeben:

  • Ganze Tabelle: Beim Datenprofil-Scan wird die gesamte Tabelle gescannt. Stichprobenerhebung, Zeilenfilter und Spaltenfilter werden auf die gesamte Tabelle angewendet, bevor die Profilierungsstatistiken berechnet werden.

  • Inkrementell: Die von Ihnen angegebenen inkrementellen Daten werden im Datenprofil-Scan erfasst. Geben Sie in der Tabelle eine Date- oder Timestamp-Spalte an, die als Increment verwendet werden soll. Normalerweise ist dies die Spalte, nach der die Tabelle partitioniert ist. Stichprobenerhebung, Zeilenfilter und Spaltenfilter werden auf die inkrementellen Daten angewendet, bevor die Profilierungsstatistiken berechnet werden.

Daten filtern

Sie können Daten, die für das Profiling gescannt werden sollen, mithilfe von Zeilen- und Spaltenfiltern filtern. Mithilfe von Filtern können Sie die Ausführungszeit und die Kosten reduzieren und sensible und unnötige Daten ausschließen.

  • Zeilenfilter: Mit Zeilenfiltern können Sie sich auf Daten innerhalb eines bestimmten Zeitraums oder aus einem bestimmten Segment (z. B. einer Region) konzentrieren. Sie können beispielsweise Daten mit einem Zeitstempel vor einem bestimmten Datum herausfiltern.

  • Spaltenfilter: Mithilfe von Spaltenfiltern können Sie bestimmte Spalten in die Tabelle aufnehmen oder daraus ausschließen, um den Datenprofilierungs-Scan auszuführen.

Beispieldaten

In Dataplex können Sie einen Prozentsatz der Datensätze aus Ihren Daten angeben, die für die Ausführung eines Datenprofil-Scans als Stichprobe verwendet werden sollen. Wenn Sie Datenprofilierungsscans für eine kleinere Datenstichprobe erstellen, können Sie die Ausführungszeit und die Kosten für das Abfragen des gesamten Datensatzes reduzieren.

Mehrere Scans zur Datenprofilerstellung

Mit Dataplex können Sie über die Google Cloud Console mehrere Datenprofilierungsscans gleichzeitig erstellen. Sie können bis zu 100 Tabellen aus einem Dataset auswählen und für jedes Dataset einen Datenprofilierungs-Scan erstellen. Weitere Informationen

Scanergebnisse in BigQuery-Tabelle exportieren

Sie können die Scanergebnisse des Datenprofils zur weiteren Analyse in eine BigQuery-Tabelle exportieren. Wenn Sie Berichte anpassen möchten, können Sie die BigQuery-Tabellendaten mit einem Looker-Dashboard verknüpfen. Sie können einen zusammengefassten Bericht erstellen, indem Sie dieselbe Ergebnistabelle für mehrere Scans verwenden.

Ergebnisse der Datenprofilerstellung

Die Ergebnisse des Datenprofilings enthalten die folgenden Werte:

Spaltentyp Ergebnisse der Datenprofilerstellung
Numerische Spalte
  • Prozentsatz der Nullwerte.
  • Prozentsatz der ungefähren eindeutigen (unterschiedlichen) Werte.
  • Die zehn häufigsten Werte in der Spalte. Sie kann kleiner als 10 sein, wenn die Anzahl der eindeutigen Werte in der Spalte weniger als 10 beträgt (Nullwerte werden nicht berücksichtigt). Für jeden dieser häufigsten Werte wird der Prozentsatz seiner Häufigkeit in den Daten angezeigt, die im aktuellen Scan gescannt wurden.
  • Mittelwert, Standardabweichung, Minimum, ungefährer Wert des unteren Quartils, ungefährer Medianwert, ungefährer Wert des oberen Quartils und Höchstwert.
String-Spalte
  • Prozentsatz der Nullwerte.
  • Prozentsatz der ungefähren eindeutigen (unterschiedlichen) Werte.
  • Die 10 häufigsten Werte in der Spalte. Wenn die Anzahl der eindeutigen Werte in der Spalte weniger als 10 beträgt, kann die Anzahl der Werte auch unter 10 liegen.
  • Durchschnittliche, minimale und maximale Länge des Strings.
Andere nicht verschachtelte Spalten (Datum, Uhrzeit, Zeitstempel, Binär usw.)
  • Prozentsatz der Nullwerte.
  • Prozentsatz der ungefähren eindeutigen (unterschiedlichen) Werte.
  • Die 10 häufigsten Werte in der Spalte. Wenn die Anzahl der eindeutigen Werte in der Spalte weniger als 10 beträgt, kann die Anzahl der Werte auch unter 10 liegen.
Alle anderen verschachtelten oder komplexen Datentypen (z. B. „Record“, „Array“ oder „JSON“) oder Spalten mit dem Modus repeated.
  • Prozentsatz der Nullwerte.

Die Ergebnisse enthalten die Anzahl der Datensätze, die bei jeder Ausführung gescannt wurden.

Berichterstellung und Überwachung

Sie können die Ergebnisse des Datenprofilings mit den folgenden Berichten und Methoden beobachten und analysieren:

  • Berichte, die mit der Quelltabelle auf den BigQuery- und Data Catalog-Seiten veröffentlicht wurden

    Wenn Sie einen Datenprofilscan so konfiguriert haben, dass die Ergebnisse auf den BigQuery- und Data Catalog-Seiten in der Google Cloud Console veröffentlicht werden, können Sie sich die neuesten Ergebnisse des Datenprofilscans auf diesen Seiten auf dem Tab Datenprofil in jedem Projekt ansehen.

    Veröffentlichte Berichte

  • Vergangene, pro Job-Bericht in Dataplex

    Auf der Seite Dataplex-Profil finden Sie detaillierte Berichte zu den letzten und bisherigen Jobs. Dazu gehören Profilinformationen auf Spaltenebene und die verwendete Konfiguration.

    Bisherige Daten pro Job

  • Tab „Analyse“

    Auf der Seite Profil von Dataplex können Sie auf dem Tab Analyse die Trends für eine bestimmte Statistik einer Spalte über mehrere Profiljobs hinweg aufrufen. Wenn Sie beispielsweise einen inkrementellen Scan haben, können Sie sehen, wie sich der Mittelwert eines Werts im Zeitverlauf entwickelt hat.

    Tab „Analyse“.

  • Eigenes Dashboard oder eigene Analysen erstellen

    Wenn Sie einen Datenprofilierungs-Scan so konfiguriert haben, dass die Ergebnisse in eine BigQuery-Tabelle exportiert oder gespeichert werden, können Sie mit Tools wie Looker Studio eigene Dashboards erstellen.

Beschränkungen

  • Ergebnisse der Datenprofilerstellung werden nicht als Tags in Data Catalog veröffentlicht.
  • Das Erstellen von Datenprofilen wird für BigQuery-Tabellen mit allen Spaltentypen mit Ausnahme von BIGNUMERIC unterstützt. Ein Scan, der für eine Tabelle mit einer BIGNUMERIC-Spalte erstellt wurde, führt zu einem Validierungsfehler und wird nicht erstellt.
  • Die zu scannenden BigQuery-Tabellen dürfen maximal 300 Spalten haben.

Preise

  • Bei Dataplex wird die SKU für die Premium-Verarbeitung verwendet, um die Kosten für die Datenprofilerstellung in Rechnung zu stellen. Weitere Informationen finden Sie unter Preise.

  • Die Veröffentlichung von Ergebnissen der Datenprofilerstellung in Data Catalog ist noch nicht möglich. Sobald sie verfügbar ist, wird sie zum gleichen Preis wie die Speicherung von Katalogmetadaten berechnet. Weitere Informationen finden Sie unter Preise.

  • Die Premium-Verarbeitung von Dataplex für die Datenprofilerstellung wird pro Sekunde abgerechnet, wobei ein Minimum von einer Minute gilt.

  • Für fehlgeschlagene Profilierungsscans fallen keine Kosten an.

  • Die Kosten hängen von der Anzahl der Zeilen, der Anzahl der Spalten, der Menge der gescannten Daten, den Partitionierungs- und Clustering-Einstellungen der Tabelle und der Häufigkeit des Scans ab.

  • Es gibt mehrere Möglichkeiten, die Kosten für Datenprofilscans zu senken:

    • Probenahme
    • Inkrementelle Scans
    • Spaltenfilterung
    • Zeilenfilterung
  • Wenn Sie die Kosten für das Datenprofiling von anderen Kosten in der Dataplex-Premium-Verarbeitungs-SKU trennen möchten, verwenden Sie im Cloud Billing-Bericht das Label goog-dataplex-workload-type mit dem Wert DATA_PROFILE.

  • Verwenden Sie die folgenden Labels, um die zusammengefassten Kosten zu filtern:

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

Nächste Schritte