Datenherkunft untersuchen

In dieser Anleitung wird gezeigt, wie Sie Cloud Data Fusion für Data-Lineage, dem Ermitteln der Herkunft und Abstammung von Daten sowie deren Bewegung im Zeitverlauf, verwenden können.

Cloud Data Fusion Datenherkunft

Mit Cloud Data Fusion Datenherkunft können Sie:

  • Ursache für fehlerhafte Datenereignisse ermitteln
  • Führen Sie eine Wirkungsanalyse durch, bevor Sie Daten ändern

Cloud Data Fusion zeigt die Herkunft auf Dataset- und Feldebene auf und ist zeitgebunden, um die Herkunft im Zeitverlauf anzuzeigen.

  • Die Herkunft auf Dataset-Ebene zeigt die Beziehung zwischen Datasets und Pipelines in einem ausgewählten Zeitintervall.

  • Die Zeilenebene auf Feldebene zeigt die Vorgänge, die für eine Reihe von Feldern im Quell-Dataset ausgeführt wurden, um einen anderen Satz von Feldern im Ziel-Dataset zu erzeugen.

Anleitungsszenario

In dieser Anleitung arbeiten Sie mit zwei Pipelines:

  • Die Shipment Data Cleansing-Pipeline liest Rohdaten für die Sendung aus einem kleinen Beispiel-Dataset und wendet Transformationen an, um die Daten zu bereinigen.

  • Die Pipeline Delayed Shipments USA liest dann die bereinigten Lieferungsdaten, analysiert sie und findet Lieferungen innerhalb der USA, die um mehr als einen Schwellenwert verzögert wurden.

Diese Anleitungspipelines zeigen ein typisches Szenario, in dem Rohdaten bereinigt und dann zur nachgelagerten Verarbeitung gesendet werden. Dieser Datentrail von den Rohdaten über die bereinigten Lieferungsdaten bis hin zur Ausgabe Analysierter Daten kann mit der Herkunftsfunktion von Cloud Data Fusion untersucht werden.

Ziele

  • Führen Sie Beispielpipelines aus, um danach die Herkunft von Daten verfolgen zu können
  • Herkunft auf Dataset- und Feldebene erkunden
  • Informationen zur Übergabe von Handshakeinformationen aus der vorgelagerten Pipeline an die nachgelagerte Pipeline

Kosten

In dieser Anleitung werden kostenpflichtige Komponenten von Google Cloud verwendet, darunter:

  • Cloud Data Fusion
  • cl
  • BigQuery

Sie können mithilfe des Preisrechners die Kosten für Ihre voraussichtliche Nutzung kalkulieren. Neuen Google Cloud-Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Hinweis

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für Ihr Projekt aktiviert ist.

  4. Cloud Data Fusion, Cloud Storage, Dataproc, and BigQuery APIs aktivieren.

    Aktivieren Sie die APIs

  5. Erstellen Sie eine Cloud Data Fusion-Instanz.
  6. Klicken Sie auf die folgenden Links, um diese kleinen Beispiel-Datasets auf Ihren lokalen Computer herunterzuladen:

Cloud Data Fusion-UI öffnen

Bei Verwendung von Cloud Data Fusion verwenden Sie sowohl die Cloud Console als auch die separate UI von Cloud Data Fusion. In der Cloud Console können Sie ein Cloud Console-Projekt sowie Cloud Data Fusion-Instanzen erstellen und löschen. In der Cloud Data Fusion-Benutzeroberfläche können Sie die verschiedenen Seiten wie Lineage verwenden, um auf Cloud Data Fusion-Features zuzugreifen.

  1. Öffnen Sie in der Cloud Console die Seite Instanzen.

    Zur Seite "Instanzen"

  2. Klicken Sie in der Spalte Aktionen für die Instanz auf den Link Instanz aufrufen. Die Benutzeroberfläche von Cloud Data Fusion wird in einem neuen Browsertab geöffnet.

  3. Klicken Sie im Bereich „Integrieren“ oder im linken Navigationsbereich auf Studio, um die Cloud Data Fusion-Seite Studio zu öffnen.

Pipelines bereitstellen und ausführen

  1. Importieren Sie die Rohlieferungsdaten. Klicken Sie oben rechts auf der Seite Studio auf Importieren (oder klicken Sie auf + → Pipeline → Importieren) und wählen Sie dann die Shipment Data Cleansing-Pipeline, die Sie heruntergeladen haben in Hinweis und importieren Sie diese ..

  2. Stellen Sie die Pipeline bereit. Klicken Sie oben rechts auf der Seite Studio auf „Bereitstellen“. Nach der Bereitstellung wird die Seite Pipeline geöffnet.

  3. Pipeline ausführen. Klicken Sie oben in der Mitte der Seite Pipeline auf „Ausführen“.

  4. Importieren und stellen Sie die Daten und die Pipeline „Delayed Shipments“ ein. Wenn der Status der Bereinigung der Versanddaten „Erfolgreich“ lautet, führen Sie die oben genannten Schritte für die Daten aus, die Sie unter Vorbereitung heruntergeladen haben. Kehren Sie zur Seite Studio zurück, um die Daten zu importieren. Stellen Sie dann diese zweite Pipeline auf der Seite Pipeline bereit und führen Sie sie aus. Nachdem die zweite Pipeline erfolgreich abgeschlossen wurde, können Sie die verbleibenden Schritte unten ausführen.

Datasets erkennen

Sie müssen ein Dataset erst entdecken, bevor Sie sich mit der Herkunft vertraut machen. Wählen Sie im linken Navigationsbereich der Cloud Data Fusion-Benutzeroberfläche die Option Metadaten aus, um die Seite Suche der Metadaten zu öffnen. Da im Dataset „Shipping Data Cleaning Dataset“ der bereinigte Dataset „Cleaned-Ships“ als Referenz-Dataset angegeben wurde, geben Sie „Shipment“ in das Suchfeld ein. Die Suchergebnisse enthalten dieses Dataset.

Datasets mithilfe von Tags erkennen

Eine Metadatensuche sucht Datasets, die von Cloud Data Fusion-Pipelines verbraucht, verarbeitet oder generiert wurden. Pipelines werden auf einem strukturierten Framework ausgeführt, das technische und Betriebsmetadaten generiert und erfasst. Die technischen Metadaten umfassen Dataset-Name, Typ, Schema, Felder, Erstellungszeit und Verarbeitungsinformationen. Diese technischen Informationen werden von den Metadaten- und Zeilenumbruchfunktionen von Cloud Data Fusion verwendet.

Cloud Data Fusion unterstützt auch die Annotation von Datasets mit Geschäftsmetadaten wie Tags und Schlüsselwert-Attribute, die als Suchkriterien verwendet werden können. So fügen Sie beispielsweise eine Geschäfts-Tag-Annotation zum Raw Shipping Data-Dataset hinzu und suchen nach einer solchen Annotation:

  1. Klicken Sie auf der Seite PipelineShipment Data Cleanting“ Pipeline auf die Schaltfläche Properties des Rohdatenknotens zum Versand von Daten, um die Cloud Storage-Attribute zu öffnen. befindet.

  2. Klicken Sie auf Metadaten ansehen, um die Seite Suche zu öffnen.

  3. Klicken Sie unter Geschäfts-Tags auf „+“, fügen Sie einen Tag-Namen ein (alphanumerische Zeichen und Unterstriche sind zulässig) und drücken Sie die Eingabetaste.

Erkunde die Herkunft

Herkunft auf Dataset-Ebene

Klicken Sie auf der Seite "Suche" auf den Namen des Datasets "Cleaned-Shipments" (aus Datasets erkennen) und dann auf den Tab "Herkunft". Die Herkunftsdiagramm zeigt, dass dieses Dataset von der Pipeline "Shipments-Data-Cleansing" generiert wurde, die das Dataset "Raw_Shipping_Data" verwendet hat.

Mit dem Linkspfeil und dem Rechtspfeil können Sie durch die vorherigen oder nachfolgenden Dataset-Herkünfte zurück und vor navigieren. In diesem Beispiel zeigt die Diagramm die vollständige Herkunft für das Dataset "Cleaned-Shipments".

Herkunft der Felder

Die Herkunft der Felder in Cloud Data Fusion zeigt die Beziehung zwischen den Feldern eines Datasets und den Transformationen, die für eine Gruppe von Feldern durchgeführt wurden, um eine andere Gruppe von Feldern zu erzeugen. Wie die Zeilenvorschub auf Dataset-Ebene ist die Herkunft der Felder zeitgebunden und die Ergebnisse ändern sich mit der Zeit.

Fahren Sie mit dem Schritt Herkunft auf Dataset-Ebene fort und klicken Sie im oberen rechten Bereich des Cleaned Shipments-Herkunftsdiagramms für die Dataset-Ebene auf die Schaltfläche "Herkunft auf Feldebene", um das Herkunftsdiagramm auf Feldebene anzuzeigen.

Das Liniendiagramm auf Feldebene zeigt die Verbindungen zwischen Feldern. Sie können ein Feld auswählen, um die Herkunft anzuzeigen. Klicken Sie auf View→Pin field (Anzeigen → Feld anpinnen), um nur die Herkunft des Felds anzuzeigen.

Wählen Sie Ansicht → Wirkung anzeigen aus, um eine Wirkungsanalyse durchzuführen.

Die Ursachen- und Wirkungslinks zeigen die Transformationen auf beiden Seiten eines Felds in einem für Menschen lesbaren Verzeichnis. Diese Informationen können für die Berichterstellung und Governance wichtig sein.

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Nachdem Sie diese Anleitung abgeschlossen haben, bereinigen Sie die in Google Cloud erstellten Ressourcen, damit sie keine kostenpflichtigen Kontingente verbrauchen. In den folgenden Abschnitten erfahren Sie, wie Sie diese Ressourcen löschen oder deaktivieren.

Anleitungs-Dataset löschen

In dieser Anleitung wird ein logistics_demo-Dataset mit mehreren Tabellen in Ihrem Projekt erstellt.

Sie können das Dataset über die BigQuery-Web-UI in der Cloud Console löschen.

Löschen Sie die Cloud Data Fusion-Instanz.

Folgen Sie der Anleitung zum Löschen Ihrer Cloud Data Fusion-Instanz.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.

So löschen Sie das Projekt:

  1. Wechseln Sie in der Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Nächste Schritte