Datenherkunft untersuchen

In dieser Anleitung wird gezeigt, wie Sie mit Data Data Fusion die Herkunft von Daten und ihre Bewegung im Zeitverlauf untersuchen.

Cloud Data Fusion Datenherkunft

Mit Cloud Data Fusion Datenherkunft können Sie:

  • Ursache für fehlerhafte Datenereignisse ermitteln
  • Wirkungsanalyse durchführen, bevor Sie Datenänderungen vornehmen

Cloud Data Fusion zeigt die Herkunft auf Dataset- und Feldebene auf und ist zeitgebunden, um die Herkunft im Zeitverlauf anzuzeigen.

  • Die Herkunft auf Dataset-Ebene zeigt die Beziehung zwischen Datasets und Pipelines in einem ausgewählten Zeitintervall.

  • Die Zeilenebene auf Feldebene zeigt die Vorgänge, die für eine Reihe von Feldern im Quell-Dataset ausgeführt wurden, um einen anderen Satz von Feldern im Ziel-Dataset zu erzeugen.

Anleitungsszenario

In dieser Anleitung arbeiten Sie mit zwei Pipelines:

  • Die Shipment Data Cleansing-Pipeline liest Rohdaten für die Sendung aus einem kleinen Beispiel-Dataset und wendet Transformationen an, um die Daten zu bereinigen.

  • Die Pipeline Delayed Shipments USA liest dann die bereinigten Lieferungsdaten, analysiert sie und findet Lieferungen innerhalb der USA, die um mehr als einen Schwellenwert verzögert wurden.

Diese Anleitungspipelines zeigen ein typisches Szenario, in dem Rohdaten bereinigt und dann zur nachgelagerten Verarbeitung gesendet werden. Dieser Datentrail von den Rohdaten über die bereinigten Lieferungsdaten bis hin zur Ausgabe Analysierter Daten kann mit der Herkunftsfunktion von Cloud Data Fusion untersucht werden.

Lernziele

  • Herkunft durch Ausführen von Beispielpipelines erstellen
  • Herkunft auf Dataset- und Feldebene erkunden
  • Informationen zur Übergabe von Handshakeinformationen aus der vorgelagerten Pipeline an die nachgelagerte Pipeline

Kosten

In dieser Anleitung werden die folgenden kostenpflichtigen Komponenten von Google Cloud verwendet:

  • Cloud Data Fusion
  • Cloud Storage
  • BigQuery

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen. Neuen Google Cloud-Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Hinweis

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für ein Projekt aktiviert ist.

  4. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  5. Die Abrechnung für das Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für ein Projekt aktiviert ist.

  6. Cloud Data Fusion, Cloud Storage, Dataproc, and BigQuery APIs aktivieren.

    Aktivieren Sie die APIs

  7. Erstellen Sie eine Cloud Data Fusion-Instanz.
  8. Klicken Sie auf die folgenden Links, um diese kleinen Beispiel-Datasets auf Ihren lokalen Computer herunterzuladen:

Cloud Data Fusion-UI öffnen

Bei Verwendung von Cloud Data Fusion verwenden Sie die Konsole und die separate Cloud Data Fusion-UI. In der Konsole können Sie ein Konsolenprojekt erstellen und Cloud Data Fusion-Instanzen erstellen und löschen. In der Cloud Data Fusion-Benutzeroberfläche können Sie die verschiedenen Seiten wie Lineage verwenden, um auf Cloud Data Fusion-Features zuzugreifen.

  1. Öffnen Sie in der Konsole die Seite Instanzen.

    Zur Seite „Instanzen“

  2. Klicken Sie in der Spalte Aktionen für die Instanz auf den Link Instanz aufrufen. Die Benutzeroberfläche von Cloud Data Fusion wird in einem neuen Browsertab geöffnet.

  3. Klicken Sie im Bereich Integrieren auf Studio, um die Seite Cloud Data Fusion zu öffnen.

Pipelines bereitstellen und ausführen

  1. Importieren Sie die Rohlieferungsdaten. Klicken Sie auf der Seite Studio auf Importieren oder +> Pipeline->-Import. Wählen Sie dann die Shipment Data Cleaning Pipeline aus, die Sie unter Hinweise heruntergeladen haben, und importieren Sie sie.

  2. Stellen Sie die Pipeline bereit. Klicken Sie oben rechts auf der Seite Studio auf „Bereitstellen“. Nach der Bereitstellung wird die Seite Pipeline geöffnet.

  3. Pipeline ausführen. Klicken Sie oben in der Mitte der Seite Pipeline auf „Ausführen“.

  4. Importieren und stellen Sie die Daten und die Pipeline „Delayed Shipments“ ein. Nachdem der Status der Bereinigung der Versanddaten „Erfolgreich“ angezeigt wird, wenden Sie die vorherigen Schritte auf die Daten aus „verspätete Lieferungen – USA“, die Sie unter Hinweise heruntergeladen haben. Kehren Sie zur Seite Studio zurück, um die Daten zu importieren, und stellen Sie dann diese zweite Pipeline über die Seite Pipeline bereit. Nachdem die zweite Pipeline erfolgreich abgeschlossen wurde, fahren Sie mit den restlichen Schritten fort.

Datasets erkennen

Sie müssen ein Dataset erst entdecken, bevor Sie sich mit der Herkunft vertraut machen. Wählen Sie im linken Navigationsbereich der Cloud Data Fusion-UI die Option Metadaten aus, um die Seite Metadaten der Metadatenseite zu öffnen. Da im Dataset „Shipping Data Cleaning Dataset“ der bereinigte Dataset „Cleaned-Ships“ als Referenz-Dataset angegeben wurde, geben Sie „Shipment“ in das Suchfeld ein. Die Suchergebnisse enthalten dieses Dataset.

Datasets mithilfe von Tags erkennen

Eine Metadatensuche sucht Datasets, die von Cloud Data Fusion-Pipelines verbraucht, verarbeitet oder generiert wurden. Pipelines werden auf einem strukturierten Framework ausgeführt, das technische und Betriebsmetadaten generiert und erfasst. Die technischen Metadaten umfassen Dataset-Name, Typ, Schema, Felder, Erstellungszeit und Verarbeitungsinformationen. Diese technischen Informationen werden von den Metadaten- und Zeilenumbruchfunktionen von Cloud Data Fusion verwendet.

Cloud Data Fusion unterstützt auch die Annotation von Datasets mit Geschäftsmetadaten wie Tags und Schlüsselwert-Attribute, die als Suchkriterien verwendet werden können. So fügen Sie beispielsweise eine Geschäfts-Tag-Annotation zum Raw Shipping Data-Dataset hinzu und suchen nach einer solchen Annotation:

  1. Klicken Sie auf der Schaltfläche Immobilien auf den Knoten Rohversanddaten Pipeline, um die SeiteCloud Storage-Attribute zu öffnen.

  2. Klicken Sie auf Metadaten ansehen, um die Seite Suche zu öffnen.

  3. Klicken Sie unter Unternehmens-Tags auf „+“ und fügen Sie einen Tag-Namen ein (alphanumerische und unterstrichene Zeichen sind zulässig) und drücken Sie die Eingabetaste.

Erkunde die Herkunft

Herkunft auf Dataset-Ebene

Klicken Sie auf der Seite "Suche" auf den Namen des Datasets "Cleaned-Shipments" (aus Datasets erkennen) und dann auf den Tab "Herkunft". Die Herkunftsdiagramm zeigt, dass dieses Dataset von der Pipeline "Shipments-Data-Cleansing" generiert wurde, die das Dataset "Raw_Shipping_Data" verwendet hat.

Mit dem Links- und Rechtspfeil können Sie zwischen den vorherigen oder nachfolgenden Dataset-Zeilen wechseln. In diesem Beispiel zeigt die Diagramm die vollständige Herkunft für das Dataset "Cleaned-Shipments".

Herkunft der Felder

Die Herkunft der Felder in Cloud Data Fusion zeigt die Beziehung zwischen den Feldern eines Datasets und den Transformationen, die für eine Gruppe von Feldern durchgeführt wurden, um eine andere Gruppe von Feldern zu erzeugen. Wie die Zeilenvorschub auf Dataset-Ebene ist die Herkunft der Felder zeitgebunden und die Ergebnisse ändern sich mit der Zeit.

Fahren Sie mit dem Schritt Herkunft auf Dataset-Ebene fort und klicken Sie im oberen rechten Bereich des Cleaned Shipments-Herkunftsdiagramms für die Dataset-Ebene auf die Schaltfläche "Herkunft auf Feldebene", um das Herkunftsdiagramm auf Feldebene anzuzeigen.

Das Liniendiagramm auf Feldebene zeigt die Verbindungen zwischen Feldern. Sie können ein Feld auswählen, um die Herkunft anzuzeigen. Wähle Anzeigen > Anpinnen eines Felds, um nur die Herkunft dieses Feldes anzuzeigen.

Wählen Sie Auswirkung > Wirkung anzeigen aus, um eine Auswirkungsanalyse durchzuführen.

Die Ursachen- und Wirkungslinks zeigen die Transformationen auf beiden Seiten eines Felds in einem für Menschen lesbaren Verzeichnis. Diese Informationen können für die Berichterstellung und Governance wichtig sein.

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Nachdem Sie diese Anleitung abgeschlossen haben, bereinigen Sie die in Google Cloud erstellten Ressourcen, damit sie keine kostenpflichtigen Kontingente verbrauchen. In den folgenden Abschnitten erfahren Sie, wie Sie diese Ressourcen löschen oder deaktivieren.

Anleitungs-Dataset löschen

In dieser Anleitung wird ein logistics_demo-Dataset mit mehreren Tabellen in Ihrem Projekt erstellt.

Sie können das Dataset über die BigQuery-Web-UI in der Console löschen.

Löschen Sie die Cloud Data Fusion-Instanz.

Folgen Sie der Anleitung zum Löschen Ihrer Cloud Data Fusion-Instanz.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.

So löschen Sie das Projekt:

  1. Wechseln Sie in der Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Weitere Informationen