Dataplex-Datenqualitätsaufgaben mit BigQuery verwenden

Dieses Dokument bietet eine konzeptionelle Übersicht über die Verwendung von BigQuery und Dataplex zum Ausführen von Datenqualitätsaufgaben.

Datenqualitätsaufgaben mit BigQuery

BigQuery verwendet Dataplex, um Ihnen zu ermöglichen, Datenqualitätsprüfungen an BigQuery-Tabellen zu definieren, zu planen und auszuführen. Dies können interne BigQuery-Tabellen, externe Tabellen oder BigLake-Tabellen in anderen Clouds sein.

Eine Anleitung zur Verwendung von Dataplex mit BigQuery finden Sie unter Datenqualitätsaufgaben mit Dataplex erstellen.

Zeitpunkt der Erstellung von Dataplex-Datenqualitätsaufgaben mit BigQuery

Dataplex-Datenqualitätsaufgaben können in den folgenden Szenarien helfen:

  • Datenqualitätstools erstellen. Validieren Sie Daten als Teil einer Datenproduktionspipeline.
  • Datenqualitätsmanagement aufrechterhalten. Überprüfen Sie regelmäßig die Qualität der Datasets im Hinblick auf Ihre Erwartungen.
  • Datenqualitätsmesswerte erfassen. Erstellen Sie Datenqualitätsberichte für rechtliche Anforderungen.

Vorteile

  • Anpassbare Spezifikationen. Sie können die hochflexible YAML-Syntax zum Deklarieren von Datenqualitätsregeln verwenden.
  • Serverlose Implementierung. Dataplex erfordert keine Infrastruktureinrichtung.
  • Nullkopie und automatischer Push-down. YAML-Prüfungen werden in SQL konvertiert und an BigQuery übertragen, sodass keine Datenkopie entsteht.
  • Planbare Prüfungen der Datenqualität. Sie können Datenqualitätsprüfungen über den serverlosen Planer in Dataplex planen oder die Dataplex API über externe Planer wie Cloud Composer für die Pipelineintegration verwenden.
  • Verwaltete Erfahrung. Dataplex verwendet eine Open-Source-Datenqualitäts-Engine, CloudDQ, um Datenqualitätsprüfungen auszuführen. Dataplex bietet jedoch eine nahtlos verwaltete Lösung für die Durchführung Ihrer Datenqualitätsprüfungen.

Funktionsweise

Das folgende Diagramm zeigt, wie Dataplex-Datenqualitätsaufgaben funktionieren:

Image

  • Eingabe von Nutzern
    • YAML-Spezifikation: Eine oder mehrere YAML-Dateien, die Regeln zur Datenqualität anhand der Spezifikationssyntax definieren. Sie speichern die YAML-Dateien in einem Cloud Storage-Bucket in Ihrem Projekt. Nutzer können mehrere Regeln gleichzeitig ausführen. Diese Regeln können auf verschiedene BigQuery-Tabellen angewendet werden, einschließlich Tabellen in verschiedenen Datasets oder Google Cloud-Projekten. Die Spezifikation unterstützt inkrementelle Ausführungen nur für die Validierung neuer Daten. Informationen zum Erstellen einer YAML-Spezifikation finden Sie unter Spezifikationsdatei erstellen.
    • BigQuery-Ergebnistabelle: Eine benutzerdefinierte Tabelle, in der die Ergebnisse der Datenqualitätsvalidierung gespeichert werden. Das Google Cloud-Projekt, in dem sich diese Tabelle befindet, kann ein anderes Projekt sein als das Projekt, in dem die Dataplex-Datenqualitätsaufgabe verwendet wird.
  • Zu validierende Tabellen
    • Innerhalb der YAML-Spezifikation müssen Sie angeben, welche Tabellen Sie für welche Regeln validieren möchten. Dies wird auch als Regelbindung bezeichnet. Die Tabellen können native BigQuery-Tabellen oder externe BigQuery-Tabellen in Cloud Storage sein. Mit der YAML-Spezifikation können Sie Tabellen innerhalb oder außerhalb einer Dataplex-Zone angeben.
    • BigQuery- und Cloud Storage-Tabellen, die in einer einzelnen Ausführung validiert werden, können zu verschiedenen Projekten gehören.
  • Dataplex-Datenqualitätsaufgabe Eine Dataplex-Datenqualitätsaufgabe wird mit einer vordefinierten, verwalteten CloudDQ-PySpark-Binärdatei konfiguriert und verwendet die YAML-Spezifikation und die BigQuery-Ergebnistabelle als Eingabe. Ähnlich wie andere Dataplex-Aufgaben wird die Dataplex-Datenqualitätsaufgabe in einer serverlosen Spark-Umgebung ausgeführt, konvertiert die YAML-Spezifikation in BigQuery-Abfragen und führt diese Abfragen dann auf den Tabellen aus, die in der Spezifikationsdatei definiert sind.

Kosten

Beim Ausführen von Dataplex-Datenqualitätsaufgaben werden Ihnen die Nutzung von BigQuery und Dataproc Serverless (Batches) in Rechnung gestellt.

Für die Verwendung von Dataplex zum Organisieren von Daten oder die Verwendung des serverlosen Planers in Dataplex zum Planen von Datenqualitätsprüfungen fallen keine Gebühren an. Siehe Dataplex-Preise.

Nächste Schritte