Datenprofilerstellung

Mit der Dataplex-Datenprofilerstellung können Sie allgemeine statistische Merkmale der Spalten in Ihren BigQuery-Tabellen identifizieren. Anhand dieser Informationen können Sie Ihre Daten effektiver verstehen und analysieren.

Informationen wie typische Datenwerte, Datenverteilung und Nullwerte können die Analyse beschleunigen. In Kombination mit der Datenklassifizierung können mithilfe von Datenprofilierung Datenklassen oder vertrauliche Informationen erkannt werden, die wiederum die Zugriffssteuerung ermöglichen.

Dataplex verwendet diese Informationen auch, um Regeln für Datenqualitätsprüfungen zu empfehlen.

Konzeptionelles Modell

Mit Dataplex können Sie das Profil Ihrer Daten besser nachvollziehen, indem Sie einen Datenprofilscan erstellen.

Das folgende Diagramm zeigt, wie Dataplex Daten scannt, um Berichte zu statistischen Merkmalen zu erstellen.

Bei einem Scan zur Datenprofilerstellung werden Tabellendaten analysiert, um statistische Merkmale zu melden.

Ein Datenprofilerstellungsscan ist einer BigQuery-Tabelle zugeordnet und scannt die Tabelle, um die Ergebnisse der Datenprofilerstellung zu generieren. Ein Datenprofilierungs-Scan unterstützt mehrere Konfigurationsoptionen.

Konfigurationsoptionen

In diesem Abschnitt werden die Konfigurationsoptionen beschrieben, die für das Ausführen von Datenprofilierungsscans verfügbar sind.

Planungsoptionen

Sie können einen Datenprofilierungs-Scan mit einer bestimmten Häufigkeit oder auf Anfrage über die API oder die Google Cloud Console planen.

Umfang

Im Rahmen der Spezifikation eines Datenprofilerstellungsscans können Sie den Bereich eines Jobs als eine der folgenden Optionen:

  • Vollständige Tabelle: Die gesamte Tabelle wird im Scan zur Datenprofilerstellung gescannt. Stichprobenerhebung, Zeilenfilter und Spaltenfilter werden auf die gesamte Tabelle angewendet, bevor die Profilierungsstatistiken berechnet werden.

  • Inkrementell: Inkrementelle Daten, die Sie angeben, werden in den Daten gescannt. Profilscan. Geben Sie eine Date- oder Timestamp-Spalte in der Tabelle an, die als Inkrement verwendet. Normalerweise ist dies die Spalte, nach der die Tabelle partitioniert ist. Stichproben sowie Zeilen- und Spaltenfilter werden auf die inkrementelle Daten, bevor Sie die Profiling-Statistik berechnen.

Daten filtern

Sie können Daten, die für das Profiling gescannt werden sollen, mithilfe von Zeilen- und Spaltenfiltern filtern. Mit Filtern können Sie Ausführungszeit und -kosten reduzieren, und sensible und unnützliche Daten ausschließen.

  • Zeilenfilter: Mit Zeilenfiltern können Sie sich auf Daten innerhalb eines bestimmten Zeitraums konzentrieren. oder aus einem bestimmten Segment wie einer Region stammen. Sie können beispielsweise Daten mit einem Zeitstempel vor einem bestimmten Datum herausfiltern.

  • Spaltenfilter: Mit Spaltenfiltern können Sie bestimmte Spalten aus der Tabelle, um den Scan zur Datenprofilerstellung auszuführen.

Beispieldaten

In Dataplex können Sie einen Prozentsatz der Datensätze aus Ihren Daten angeben, die für die Ausführung eines Datenprofil-Scans als Stichprobe verwendet werden sollen. Wird erstellt... Datenprofilerstellungs-Scans mit einer kleineren Stichprobe von Daten können die die Ausführungszeit und die Kosten für die Abfrage des gesamten Datasets.

Mehrere Scans zur Datenprofilerstellung

Mit Dataplex können Sie mehrere Scans für die Datenprofilerstellung gleichzeitig erstellen über die Google Cloud Console. Sie können bis zu 100 Tabellen aus einem Dataset auswählen und erstellen Sie für jedes Dataset einen Datenprofil-Scan. Weitere Informationen

Scanergebnisse in BigQuery-Tabelle exportieren

Sie können die Ergebnisse der Scanergebnisse für die Datenprofilerstellung in eine BigQuery-Tabelle exportieren. zur weiteren Analyse an. Um die Berichterstellung anzupassen, können Sie BigQuery-Tabellendaten in ein Looker-Dashboard übertragen. Sie können einen zusammengefassten Bericht erstellen, indem Sie dieselbe Ergebnistabelle für mehrere Scans verwenden.

Ergebnisse der Datenprofilerstellung

Die Ergebnisse der Datenprofilerstellung enthalten die folgenden Werte:

Spaltentyp Ergebnisse der Datenprofilerstellung
Numerische Spalte
  • Prozentsatz der Nullwerte.
  • Prozentsatz der ungefähren eindeutigen (unterschiedlichen) Werte.
  • Die zehn häufigsten Werte in der Spalte. Sie kann kleiner als 10 sein, wenn die Anzahl der eindeutigen Werte in der Spalte weniger als 10 beträgt (Nullwerte werden nicht berücksichtigt). Für jeden dieser häufigsten Werte wird der Prozentsatz der Häufigkeit in den Daten angezeigt, die im aktuellen Scan gescannt wurden.
  • Mittelwert, Standardabweichung, Minimum, ungefähres unteres Quartil, ungefährer Median, ungefähres oberes Quartil und Höchstwerte.
String-Spalte
  • Prozentsatz der Nullwerte.
  • Prozentsatz der ungefähren eindeutigen (unterschiedlichen) Werte.
  • Die 10 häufigsten Werte in der Spalte. Wenn die Anzahl der eindeutigen Werte in der Spalte weniger als 10 beträgt, kann die Anzahl der Werte auch unter 10 liegen.
  • Durchschnittliche, minimale und maximale Länge des Strings
Andere nicht verschachtelte Spalten (Datum, Uhrzeit, Zeitstempel, Binär usw.)
  • Prozentsatz der Nullwerte.
  • Prozentsatz der ungefähren eindeutigen (unterschiedlichen) Werte.
  • Die 10 häufigsten Werte in der Spalte. Wenn die Anzahl der eindeutigen Werte in der Spalte weniger als 10 beträgt, kann die Anzahl der Werte auch unter 10 liegen.
Alle anderen verschachtelten oder komplexen Spalten des Datentyps (z. B. Record, Array, JSON) oder eine beliebige Spalte mit wiederkehrendem Modus.
  • Prozentsatz der Nullwerte.

Die Ergebnisse enthalten die Anzahl der Datensätze, die bei jeder Ausführung gescannt wurden.

Berichterstellung und Überwachung

Sie können die Ergebnisse des Datenprofilings mit den folgenden Berichten und Methoden beobachten und analysieren:

  • Berichte, die mit der Quelltabelle auf den BigQuery- und Data Catalog-Seiten veröffentlicht wurden

    Wenn Sie einen Datenprofilscan so konfiguriert haben, dass die Ergebnisse auf den BigQuery- und Data Catalog-Seiten in der Google Cloud Console veröffentlicht werden, können Sie sich die neuesten Ergebnisse des Datenprofilscans auf diesen Seiten auf dem Tab Datenprofil in jedem Projekt ansehen.

    Veröffentlichte Berichte

  • Vergangene, pro Job-Bericht in Dataplex

    Auf der Seite Dataplex-Profil finden Sie detaillierte Berichte zu den letzten und bisherigen Jobs. Dazu gehört auch ein Profil auf Spaltenebene Informationen und die verwendete Konfiguration.

    Bisherige Daten pro Jobbericht.

  • Tab „Analyse“

    Auf der Seite Profil von Dataplex können Sie auf dem Tab Analyse die Trends für eine bestimmte Statistik einer Spalte über mehrere Profiljobs hinweg aufrufen. Wenn Sie beispielsweise einen inkrementellen Scan haben, können Sie sehen, wie sich der Mittelwert eines Werts im Zeitverlauf entwickelt hat.

    Tab „Analyse“.

  • Eigenes Dashboard oder eigene Analysen erstellen

    Wenn Sie einen Datenprofil-Scan konfiguriert haben, um Ergebnisse zu exportieren oder in einem BigQuery-Tabelle enthält, können Sie Ihre eigenen Dashboards wie Looker Studio.

Beschränkungen

  • Ergebnisse der Datenprofilerstellung werden nicht als Tags in Data Catalog veröffentlicht.
  • Die Datenprofilerstellung wird für BigQuery-Tabellen mit allen Spalten unterstützt Typen außer BIGNUMERIC. Ein Scan, der für eine Tabelle mit einer BIGNUMERIC-Spalte erstellt wurde, führt zu einem Validierungsfehler und wird nicht erstellt.
  • Die zu scannenden BigQuery-Tabellen dürfen maximal 300 Spalten haben.

Preise

  • Bei Dataplex wird die SKU für die Premium-Verarbeitung verwendet, um die Kosten für die Datenprofilerstellung in Rechnung zu stellen. Weitere Informationen finden Sie unter Preise.

  • Das Veröffentlichen von Ergebnissen der Datenprofilerstellung in Data Catalog ist noch nicht möglich. Sobald sie verfügbar ist, wird sie zum gleichen Preis wie die Speicherung von Katalogmetadaten berechnet. Weitere Informationen finden Sie unter Preise.

  • Die Premium-Verarbeitung von Dataplex für die Datenprofilerstellung wird pro Sekunde abgerechnet, bei einem Minimum von einer Minute.

  • Für fehlgeschlagene Profilierungsscans fallen keine Kosten an.

  • Die Kosten hängen von der Anzahl der Zeilen, der Anzahl der Spalten, der Menge der gescannten Daten, den Partitionierungs- und Clustering-Einstellungen der Tabelle und der Häufigkeit des Scans ab.

  • Es gibt mehrere Möglichkeiten, die Kosten für Datenprofilscans zu senken:

    • Probenahme
    • Inkrementelle Scans
    • Spaltenfilterung
    • Zeilenfilterung
  • Um die Gebühren für die Datenprofilerstellung von anderen Gebühren in Dataplex zu trennen Premium-Artikel zur Verarbeitung in der Cloud Billing-Bericht, verwenden Sie das Label goog-dataplex-workload-type mit dem Wert DATA_PROFILE.

  • Verwenden Sie die folgenden Labels, um die zusammengefassten Kosten zu filtern:

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

Nächste Schritte