Datenprofilerstellung

Mit der Dataplex-Datenprofilerstellung können Sie gängige statistische Merkmale der Spalten in BigQuery Tabellen. Diese Informationen helfen Ihnen, Ihre Daten zu verstehen und zu analysieren können.

Informationen wie typische Datenwerte, Datenverteilung und Nullwerte können die Analyse zu beschleunigen. In Kombination mit der Datenklassifizierung kann die Datenprofilerstellung Datenklassen oder vertrauliche Informationen erkennen, die wiederum den Zugriff Richtlinien zu steuern.

Dataplex verwendet diese Informationen auch, um Regeln für Datenqualitätsprüfungen zu empfehlen.

Konzeptionelles Modell

Dataplex hilft Ihnen, das Profil Ihrer Daten besser zu verstehen, Erstellen eines Scans für die Datenprofilerstellung.

Das folgende Diagramm zeigt, wie Dataplex Daten scannt, um Berichte darüber zu erstellen statistische Merkmale.

Bei einem Scan zur Datenprofilerstellung werden Tabellendaten analysiert, um statistische Merkmale zu melden.

Ein Datenprofilerstellungsscan ist einer BigQuery-Tabelle zugeordnet und scannt die Tabelle, um die Ergebnisse der Datenprofilerstellung zu generieren. Datenprofilerstellung unterstützt mehrere Konfigurationsoptionen.

Konfigurationsoptionen

In diesem Abschnitt werden die Konfigurationsoptionen beschrieben, die für die Ausführung verfügbar sind. Scans zur Datenprofilerstellung.

Planungsoptionen

Sie können einen Datenprofilerstellungsscan mit einer bestimmten Häufigkeit oder bei Bedarf planen über die API oder die Google Cloud Console.

Umfang

Im Rahmen der Spezifikation eines Datenprofilerstellungsscans können Sie den Bereich eines Jobs als eine der folgenden Optionen:

  • Vollständige Tabelle: Die gesamte Tabelle wird im Scan zur Datenprofilerstellung gescannt. Stichproben, Zeilen- und Spaltenfilter werden auf die gesamte Tabelle angewendet bevor Sie die Profiling-Statistik berechnen.

  • Inkrementell: Inkrementelle Daten, die Sie angeben, werden in den Daten gescannt. Profilscan. Geben Sie eine Date- oder Timestamp-Spalte in der Tabelle an, die als Inkrement verwendet. In der Regel ist dies die Spalte, auf der die Tabelle partitioniert sind. Stichproben sowie Zeilen- und Spaltenfilter werden auf die inkrementelle Daten, bevor Sie die Profiling-Statistik berechnen.

Daten filtern

Sie können Daten filtern, die für die Profilerstellung gescannt werden sollen, indem Sie Zeilenfilter verwenden und Spaltenfiltern. Mit Filtern können Sie Ausführungszeit und -kosten reduzieren, und sensible und unnützliche Daten ausschließen.

  • Zeilenfilter: Mit Zeilenfiltern können Sie sich auf Daten innerhalb eines bestimmten Zeitraums konzentrieren. oder aus einem bestimmten Segment wie einer Region stammen. Beispielsweise können Sie mit einem Zeitstempel vor einem bestimmten Datum.

  • Spaltenfilter: Mit Spaltenfiltern können Sie bestimmte Spalten aus der Tabelle, um den Scan zur Datenprofilerstellung auszuführen.

Beispieldaten

Mit Dataplex können Sie einen Prozentsatz der Datensätze aus Ihren Daten angeben für die Ausführung eines Scans zur Datenprofilerstellung. Wird erstellt... Datenprofilerstellungs-Scans mit einer kleineren Stichprobe von Daten können die die Ausführungszeit und die Kosten für die Abfrage des gesamten Datasets.

Mehrere Scans zur Datenprofilerstellung

Mit Dataplex können Sie mehrere Scans für die Datenprofilerstellung gleichzeitig erstellen mit der Google Cloud Console. Sie können bis zu 100 Tabellen aus einem Dataset auswählen und erstellen Sie für jedes Dataset einen Datenprofil-Scan. Weitere Informationen

Scanergebnisse in BigQuery-Tabelle exportieren

Sie können die Ergebnisse der Scanergebnisse für die Datenprofilerstellung in eine BigQuery-Tabelle exportieren. zur weiteren Analyse an. Um die Berichterstellung anzupassen, können Sie BigQuery-Tabellendaten in ein Looker-Dashboard übertragen. Sie können Erstellen Sie einen aggregierten Bericht, indem Sie dieselbe Ergebnistabelle für mehrere Scans verwenden.

Ergebnisse der Datenprofilerstellung

Die Ergebnisse der Datenprofilerstellung enthalten die folgenden Werte:

Spaltentyp Ergebnisse der Datenprofilerstellung
Numerische Spalte
  • Prozentsatz der Nullwerte.
  • Prozentsatz der ungefähren eindeutigen (unterschiedlichen) Werte.
  • Die 10 häufigsten Werte in der Spalte. Er kann kleiner als 10 sein, wenn der Anzahl der eindeutigen Werte in der Spalte kleiner als 10 ist (Nullwerte sind nicht enthalten. Für jeden dieser häufigsten Werte wird der Prozentsatz der Vorkommen in den beim aktuellen Scan gescannten Daten wird angezeigt.
  • Durchschnitt, Standardabweichung, Minimum, annähernd unteres Quartil, Ungefährer Medianwert, ungefähres oberes Quartil und Maximalwerte.
Stringspalte
  • Prozentsatz der Nullwerte.
  • Prozentsatz der ungefähren eindeutigen (unterschiedlichen) Werte.
  • Die 10 häufigsten Werte in der Spalte, die kleiner als 10 sein können, wenn die Anzahl der eindeutigen Werte in der Spalte kleiner als 10 ist.
  • Durchschnittliche, minimale und maximale Länge des Strings
Andere nicht verschachtelte Spalten (Datum, Uhrzeit, Zeitstempel, binär usw.)
  • Prozentsatz der Nullwerte.
  • Prozentsatz der ungefähren eindeutigen (unterschiedlichen) Werte.
  • Die 10 häufigsten Werte in der Spalte, die kleiner als 10 sein können, wenn die Anzahl der eindeutigen Werte in der Spalte kleiner als 10 ist.
Alle anderen verschachtelten oder komplexen Spalten des Datentyps (z. B. Record, Array, JSON) oder eine beliebige Spalte mit wiederkehrendem Modus.
  • Prozentsatz der Nullwerte.

Die Ergebnisse umfassen die Anzahl der bei jeder Ausführung gescannten Datensätze.

Berichterstellung und Überwachung

Sie können die Ergebnisse der Datenprofilerstellung folgendermaßen überwachen und analysieren: Berichten und Methoden:

  • Berichte, die mit der Quelltabelle auf den Seiten „BigQuery“ und „Data Catalog“ veröffentlicht wurden

    Wenn Sie einen Datenprofilerstellungsscan konfiguriert haben, um die Ergebnisse im BigQuery- und Data Catalog-Seiten in der In der Google Cloud Console können Sie den neuesten Scan für die Datenprofilerstellung ansehen. diesen Seiten auf dem Tab Datenprofil eines beliebigen Projekts angezeigt.

    Veröffentlichte Berichte.

  • Bericht „Bisherige Daten“ pro Job in Dataplex

    Auf der Dataplex-Seite Profil können Sie die detaillierten Berichte für die neuesten und bisherigen Jobs. Dazu gehört auch ein Profil auf Spaltenebene Informationen und die verwendete Konfiguration.

    Bisherige Daten pro Jobbericht.

  • Tab „Analyse“

    Auf der Dataplex-Seite Profil können Sie die Analyse verwenden können Sie die Trends für eine bestimmte Statistik einer Spalte über mehrere für Jobs zu erstellen. Bei einem inkrementellen Scan können Sie z. B. sehen, wie dass der Durchschnitt eines Werts im Laufe der Zeit im Trend liegt.

    Tab „Analyse“.

  • Eigenes Dashboard oder eigene Analysen erstellen

    Wenn Sie einen Datenprofil-Scan konfiguriert haben, um Ergebnisse zu exportieren oder in einem BigQuery-Tabelle enthält, können Sie Ihre eigenen Dashboards wie Looker Studio.

Beschränkungen

  • Ergebnisse der Datenprofilerstellung werden nicht in Data Catalog veröffentlicht als Tags.
  • Die Datenprofilerstellung wird für BigQuery-Tabellen mit allen Spalten unterstützt Typen außer BIGNUMERIC. Scan für eine Tabelle mit einem BIGNUMERIC erstellt Spalte führt zu einem Validierungsfehler und kann nicht erfolgreich erstellt werden.
  • Die zu scannenden BigQuery-Tabellen müssen 300 Spalten haben oder weniger.

Preise

  • Dataplex verwendet die Premium-Verarbeitungs-SKU, um Gebühren für Daten zu erheben Profilerstellung. Weitere Informationen finden Sie unter Preise.

  • Veröffentlichen der Ergebnisse der Datenprofilerstellung in Data Catalog noch nicht verfügbar. Sobald er verfügbar ist, wird er zum gleichen Preis abgerechnet wie Preise für das Speichern von Katalogmetadaten. Weitere Informationen finden Sie unter Preise.

  • Die Abrechnung für die Dataplex-Premiumverarbeitung für die Datenprofilerstellung erfolgt pro bei einem Minimum von einer Minute.

  • Fehlgeschlagene Profilerstellungsscans werden Ihnen nicht in Rechnung gestellt.

  • Die Kosten hängen von der Anzahl der Zeilen, der Anzahl der Spalten, der die gescannten Daten, die Partitionierungs- und Clustering-Einstellungen der Tabelle sowie die Häufigkeit des Scans.

  • Es gibt mehrere Möglichkeiten, die Kosten von Scans zur Datenprofilerstellung zu reduzieren:

    • Probenahme
    • Inkrementelle Scans
    • Spaltenfilterung
    • Zeilenfilterung
  • Um die Gebühren für die Datenprofilerstellung von anderen Gebühren in Dataplex zu trennen Premium-Verarbeitungs-SKU, verwenden Sie das Label goog-dataplex-workload-type mit dem Wert DATA_PROFILE.

  • Verwenden Sie die folgenden Labels, um zusammengefasste Gebühren zu filtern:

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

Nächste Schritte