Datenherkunft untersuchen


In dieser Anleitung wird gezeigt, wie Sie mit Cloud Data Fusion die Data Lineage untersuchen: den Ursprung von Daten und ihre Bewegung im Zeitverlauf.

Informationen zur Einbindung von Data Catalog-Asset-Herkunft finden Sie unter Herkunft der Herkunft in Dataplex ansehen.

Data Lineage in Cloud Data Fusion

Sie können Cloud Data Fusion Data Lineage für Folgendes verwenden:

  • Ursache für fehlerhafte Datenereignisse ermitteln

  • Führen Sie eine Wirkungsanalyse durch, bevor Sie Datenänderungen vornehmen.

Cloud Data Fusion zeigt die Herkunft auf Dataset- und Feldebene auf und ist zeitgebunden, um die Herkunft im Zeitverlauf anzuzeigen.

  • Die Herkunft auf Dataset-Ebene zeigt die Beziehung zwischen Datasets und Pipelines in einem ausgewählten Zeitintervall.

  • Die Zeilenebene auf Feldebene zeigt die Vorgänge, die für eine Reihe von Feldern im Quell-Dataset ausgeführt wurden, um einen anderen Satz von Feldern im Ziel-Dataset zu erzeugen.

Anleitungsszenario

In dieser Anleitung arbeiten Sie mit zwei Pipelines:

  • Die Shipment Data Cleansing-Pipeline liest Rohdaten für die Sendung aus einem kleinen Beispiel-Dataset und wendet Transformationen an, um die Daten zu bereinigen.

  • Die Pipeline Delayed Shipments USA liest dann die bereinigten Lieferungsdaten, analysiert sie und findet Lieferungen innerhalb der USA, die um mehr als einen Schwellenwert verzögert wurden.

Diese Anleitungspipelines zeigen ein typisches Szenario, in dem Rohdaten bereinigt und dann zur nachgelagerten Verarbeitung gesendet werden. Dieser Datentrail von den Rohdaten über die bereinigten Lieferungsdaten bis hin zur Ausgabe Analysierter Daten kann mit der Herkunftsfunktion von Cloud Data Fusion untersucht werden.

Lernziele

  • Herkunft durch Ausführen von Beispielpipelines erzeugen
  • Herkunft auf Dataset- und Feldebene erkunden
  • Informationen zur Übergabe von Handshakeinformationen aus der vorgelagerten Pipeline an die nachgelagerte Pipeline

Kosten

In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:

  • Cloud Data Fusion
  • Cloud Storage
  • BigQuery

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen. Neuen Google Cloud-Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Hinweise

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  4. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  5. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  6. Cloud Data Fusion, Cloud Storage, Dataproc, and BigQuery APIs aktivieren.

    Aktivieren Sie die APIs

  7. Erstellen Sie eine Cloud Data Fusion-Instanz.
  8. Klicken Sie auf die folgenden Links, um diese kleinen Beispiel-Datasets auf Ihren lokalen Computer herunterzuladen:

Cloud Data Fusion-UI öffnen

Wenn Sie Cloud Data Fusion verwenden, können Sie sowohl die Google Cloud Console als auch die separate Cloud Data Fusion-UI verwenden. In der Google Cloud Console können Sie ein Google Cloud Console-Projekt sowie Cloud Data Fusion-Instanzen erstellen und löschen. In der Cloud Data Fusion-Benutzeroberfläche können Sie die verschiedenen Seiten wie Lineage verwenden, um auf Cloud Data Fusion-Features zuzugreifen.

  1. Öffnen Sie in der Google Cloud Console die Seite Instanzen.

    Zur Seite „Instanzen“

  2. Klicken Sie in der Spalte Aktionen für die Instanz auf den Link Instanz aufrufen. Die Benutzeroberfläche von Cloud Data Fusion wird in einem neuen Browsertab geöffnet.

  3. Klicken Sie im Bereich Integrieren auf Studio, um die Cloud Data Fusion-Seite Studio zu öffnen.

Pipelines bereitstellen und ausführen

  1. Importieren Sie die Rohlieferungsdaten. Klicken Sie auf der Seite Studio auf Importieren oder klicken Sie auf + > Pipeline > Import. Wählen Sie dann die Pipeline zur Datenbereinigung für die Sendung aus, die Sie unter Vorbereitung heruntergeladen haben, und importieren Sie sie.

  2. Stellen Sie die Pipeline bereit. Klicken Sie oben rechts auf der Seite Studio auf „Bereitstellen“. Nach der Bereitstellung wird die Seite Pipeline geöffnet.

  3. Pipeline ausführen. Klicken Sie oben in der Mitte der Seite Pipeline auf „Ausführen“.

  4. Importieren und stellen Sie die Daten und die Pipeline „Delayed Shipments“ ein. Wenn der Status der Versanddatenbereinigung Succeeded (Erfolgreich) anzeigt, wende die vorherigen Schritte auf die Daten von Delayed Shipments USA an, die du im Abschnitt Vorbereitung heruntergeladen hast. Kehren Sie zur Seite Studio zurück, um die Daten zu importieren. Stellen Sie dann diese zweite Pipeline auf der Seite Pipeline bereit und führen Sie sie aus. Nachdem die zweite Pipeline erfolgreich abgeschlossen wurde, fahren Sie mit den verbleibenden Schritten fort.

Datasets erkennen

Sie müssen ein Dataset erst entdecken, bevor Sie sich mit der Herkunft vertraut machen. Wählen Sie im linken Navigationsbereich der Cloud Data Fusion-UI die Option Metadaten aus, um die Seite Metadaten der Metadatenseite zu öffnen. Da im Dataset zur Bereinigung der Versanddaten Cleaned-Shipments als Referenz-Dataset angegeben ist, geben Sie shipment in das Suchfeld ein. Die Suchergebnisse enthalten dieses Dataset.

Datasets mithilfe von Tags erkennen

Eine Metadatensuche sucht Datasets, die von Cloud Data Fusion-Pipelines verbraucht, verarbeitet oder generiert wurden. Pipelines werden auf einem strukturierten Framework ausgeführt, das technische und Betriebsmetadaten generiert und erfasst. Die technischen Metadaten umfassen Dataset-Name, Typ, Schema, Felder, Erstellungszeit und Verarbeitungsinformationen. Diese technischen Informationen werden von den Metadaten- und Zeilenumbruchfunktionen von Cloud Data Fusion verwendet.

Cloud Data Fusion unterstützt auch die Annotation von Datasets mit Geschäftsmetadaten wie Tags und Schlüsselwert-Attribute, die als Suchkriterien verwendet werden können. So fügen Sie beispielsweise eine Geschäfts-Tag-Annotation zum Raw Shipping Data-Dataset hinzu und suchen nach einer solchen Annotation:

  1. Klicken Sie auf der Schaltfläche Immobilien auf den Knoten Rohversanddaten Pipeline, um die SeiteCloud Storage-Attribute zu öffnen.

  2. Klicken Sie auf Metadaten ansehen, um die Seite Suche zu öffnen.

  3. Klicken Sie unter Business Tags (Geschäfts-Tags) auf +, fügen Sie einen Tag-Namen ein (alphanumerische Zeichen und Unterstriche sind zulässig) und drücken Sie die Eingabetaste.

Erkunde die Herkunft

Herkunft auf Dataset-Ebene

Klicken Sie auf den Namen des Datasets Cleaned-Shipments (in Discover-Datasets) auf der Suchseite und dann auf den Tab „Lineage“ (Herkunft). Die Herkunftsdiagramm zeigt, dass dieses Dataset von der Pipeline "Shipments-Data-Cleansing" generiert wurde, die das Dataset "Raw_Shipping_Data" verwendet hat.

Mit den Links- und Rechtspfeilen können Sie vorwärts und rückwärts durch die vorherige oder nachfolgende Dataset-Herkunft navigieren. In diesem Beispiel zeigt die Diagramm die vollständige Herkunft für das Dataset "Cleaned-Shipments".

Herkunft der Felder

Die Herkunft der Felder in Cloud Data Fusion zeigt die Beziehung zwischen den Feldern eines Datasets und den Transformationen, die für eine Gruppe von Feldern durchgeführt wurden, um eine andere Gruppe von Feldern zu erzeugen. Wie die Zeilenvorschub auf Dataset-Ebene ist die Herkunft der Felder zeitgebunden und die Ergebnisse ändern sich mit der Zeit.

Fahren Sie mit dem Schritt Herkunft auf Dataset-Ebene fort und klicken Sie im oberen rechten Bereich des Cleaned Shipments-Herkunftsdiagramms für die Dataset-Ebene auf die Schaltfläche "Herkunft auf Feldebene", um das Herkunftsdiagramm auf Feldebene anzuzeigen.

Das Liniendiagramm auf Feldebene zeigt die Verbindungen zwischen Feldern. Sie können ein Feld auswählen, um die Herkunft anzuzeigen. Wählen Sie Ansicht > Feld anpinnen aus, um nur die Herkunft dieses Felds zu sehen.

Wählen Sie Anzeigen > Auswirkungen ansehen aus, um eine Wirkungsanalyse durchzuführen.

Die Ursachen- und Wirkungslinks zeigen die Transformationen auf beiden Seiten eines Felds in einem für Menschen lesbaren Verzeichnis. Diese Informationen können für die Berichterstellung und Governance wichtig sein.

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Nachdem Sie diese Anleitung abgeschlossen haben, bereinigen Sie die in Google Cloud erstellten Ressourcen, damit sie keine kostenpflichtigen Kontingente verbrauchen. In den folgenden Abschnitten erfahren Sie, wie Sie diese Ressourcen löschen oder deaktivieren.

Dataset aus Anleitung löschen

In dieser Anleitung wird ein logistics_demo-Dataset mit mehreren Tabellen in Ihrem Projekt erstellt.

Sie können das Dataset in der BigQuery-Web-UI in der Google Cloud Console löschen.

Löschen Sie die Cloud Data Fusion-Instanz.

Folgen Sie der Anleitung zum Löschen einer Cloud Data Fusion-Instanz.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.

So löschen Sie das Projekt:

  1. Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Nächste Schritte