Pipeline für Zielkampagnen erstellen

Hier erfahren Sie, wie Sie mit Cloud Data Fusion Kundendaten bereinigen, umwandeln und verarbeiten können, um Kandidaten für eine Zielkampagne auszuwählen.


Klicken Sie auf Anleitung, um die Schritt-für-Schritt-Anleitung für diese Aufgabe direkt in der Google Cloud Console auszuführen:

Anleitung


Szenario

Sie möchten benutzerdefinierte Marketingmaterialien für eine laufende Werbeaktion erstellen und die Materialien direkt an die privaten Postfächer Ihrer Kunden verteilen.

Ihre Kampagne unterliegt zwei Einschränkungen:

  • Standort: Sie liefern nur an Kunden in Kalifornien, Washington und Oregon.
  • Kosten: Um Kraftstoff zu sparen, liefern Sie schnell erreichbare Kundenhäuser. Sie liefern nur an Kunden, die in Avenues leben.

In dieser Anleitung erfahren Sie, wie Sie die Liste der Kundenadressen für die Kampagne generieren. In dieser Anleitung tun Sie Folgendes:

  1. Bereinigen Sie die Kundendaten: Filtern Sie Kunden, die in einer Avenue in Kalifornien, Washington oder Oregon leben.
  2. Erstellen Sie eine Pipeline, die folgende Aufgaben ausführt:

    • Die gefilterten Kundendaten werden mit einem öffentlichen Dataset verknüpft, das Abkürzungen der Bundesstaaten enthält.
    • Die bereinigten und verknüpften Daten werden in einer BigQuery-Tabelle gespeichert, die Sie über die BigQuery-Weboberfläche abfragen oder analysieren (mit Looker Studio) können.

Lernziele

  • Cloud Data Fusion mit zwei Datenquellen verbinden
  • Grundlegende Transformationen anwenden
  • Die beiden Datenquellen miteinander verbinden
  • Ausgabedaten in eine Senke schreiben

Hinweise

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  4. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  5. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  6. Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs aktivieren.

    Aktivieren Sie die APIs

  7. Erstellen Sie eine Cloud Data Fusion-Instanz.
    In dieser Anleitung wird davon ausgegangen, dass Sie das Compute Engine-Standarddienstkonto verwenden.

Berechtigungen verwalten

Erstellen Sie die erforderlichen benutzerdefinierten Rollen und Berechtigungen und weisen Sie sie zu.

Benutzerdefinierte Rolle erstellen und Berechtigungen hinzufügen

  1. Rufen Sie in der Google Cloud Console die Seite Rollen auf:

    Zur Seite „Rollen“

  2. Klicken Sie auf Rolle erstellen.

  3. Geben Sie im Feld Titel Custom Role-Tutorial ein.

  4. Klicken Sie auf Berechtigungen hinzufügen.

  5. Wählen Sie im Fenster Berechtigungen hinzufügen die folgenden Berechtigungen aus und klicken Sie auf Hinzufügen:

    • bigquery.datasets.create
    • bigquery.jobs.create
    • storage.buckets.create
  6. Klicken Sie auf Erstellen.

Dem Compute Engine-Standarddienstkonto eine benutzerdefinierte Rolle zuweisen

  1. Rufen Sie die Cloud Data Fusion-Seite Instanzen auf:

    Instanz erstellen

  2. Klicken Sie auf den Namen Ihrer Instanz.

  3. Notieren Sie sich das standardmäßige Dataproc-Dienstkonto. Die Seite mit den Instanzdetails enthält diese Informationen.

    Der Name des Dataproc-Dienstkontos hat folgendes Format:

    CUSTOMER_PROJECT_NUMBER-compute@developer.gserviceaccount.com.

    Weitere Informationen zu Dataproc-Dienstkonten

  4. Rufen Sie die IAM-Seite auf.

    Zur Seite „Rollen“

  5. Geben Sie in der Filterleiste den Namen Ihres Dataproc-Standarddienstkontos ein.

  6. Klicken Sie für Ihr Compute Engine-Standarddienstkonto auf Bearbeiten.

  7. Klicken Sie auf Weitere Rolle hinzufügen.

  8. Wählen Sie im Feld Rolle auswählen die Option Anleitung für benutzerdefinierte Rollen aus.

  9. Klicken Sie auf Speichern.

  10. Achten Sie darauf, dass dem Dienstkonto bereits die Rolle „Cloud Data Fusion-Runner“ zugewiesen ist.

Kundendaten vorbereiten

Für diese Anleitung werden die folgenden zwei Eingabe-Datasets benötigt, die beide mit Ihrer Cloud Data Fusion-Instanz bereitgestellt werden:

  • Beispiel-Kundendaten: Eine CSV-Datei mit dem Namen customers.csv.
  • Abkürzungen der Bundesstaaten: Eine BigQuery-Tabelle mit dem Namen state_abbreviations.

Kundendaten laden

  1. Rufen Sie die Cloud Data Fusion-Seite Instanzen auf:

    Zur Seite „VM-Instanzen“

  2. Klicken Sie für die verwendete Cloud Data Fusion-Instanz auf Instanz anzeigen. Die Weboberfläche von Cloud Data Fusion wird in einem neuen Tab geöffnet.

  3. Klicken Sie auf Wrangler. Die Seite Wrapperr wird geöffnet.

  4. Klicken Sie im Bereich Verbindungen auf GCS > Beispiel-Buckets.

  5. Klicken Sie auf campaign-tutorial.

  6. Klicken Sie auf customers.csv.

  7. Geben Sie im Fenster Parsing-Optionen Folgendes an:

    • Format: csv
    • Wert in Anführungszeichen aktivieren: False
    • Erste Zeile als Kopfzeile verwenden: False
    • Dateicodierung: UTF-8
  8. Klicken Sie auf Bestätigen. Kundendaten werden in einen neuen Tab in Wrangler geladen.

    Geladene Kundendaten

Kundendaten bereinigen

Diese umfasst zwei Unteraufgaben:

  • Schema festlegen
  • Kundendaten filtern, um nur die gewünschte Zielgruppe zu präsentieren

Das Schema festlegen

Legen Sie das Schema der Daten fest, indem Sie den Tabellenspalten passende Namen zuweisen. So geben Sie den Spalten wie body_1 und body_2 aussagekräftigere Namen:

  1. Klicken Sie im rechten Bereich auf den Tab Spalten.
  2. Klicken Sie auf das Drop-down-Menü Spaltennamen und wählen Sie Alle festlegen aus.
  3. Geben Sie im Dialogfeld Spaltennamen im Bulk festlegen die folgenden, kommagetrennten Spaltennamen ein:

    Name,StreetAddress,City,State,Country
    
  4. Klicken Sie auf Anwenden.

Daten filtern

Filtern Sie die Daten, um nur Kunden zu sehen, die in Kalifornien, Oregon, oder Washington leben.

Entfernen Sie alle Zeilen, die andere Werte als diese Zustände enthalten:

  1. Klicken Sie auf das Drop-down-Menü der Spalte Status und wählen Sie Filter aus.
  2. Gehen Sie im Filterfenster folgendermaßen vor:

    1. Klicken Sie auf Keep rows.
    2. Klicken Sie auf das Drop-down-Menü Wenn und wählen Sie Wert stimmt mit regulärem Ausdruck überein aus.
    3. Geben Sie den folgenden regulären Ausdruck ein:

      ^(California|Oregon|Washington)$
      
    4. Klicken Sie auf Anwenden.

    Die Werte in der Spalte State sind Kalifornien, Oregon oder Washington.

Filtern Sie die Daten, um nur Kunden anzuzeigen, die in Avenues leben. Behalten Sie nur die Adressen bei, die den String avenue enthalten:

  1. Klicken Sie auf das Drop-down-Menü der Spalte StreetAddress und wählen Sie Filter aus.
  2. Gehen Sie im Filterfenster folgendermaßen vor:

    1. Klicken Sie auf Keep rows.
    2. Klicken Sie auf das Drop-down-Menü Wenn, wählen Sie Wert enthält aus und geben Sie Avenue ein.
    3. Wählen Sie Ignore case (Groß-/Kleinschreibung ignorieren) aus.
    4. Klicken Sie auf Anwenden.

      Daten filtern

Bevor Sie parallele Verarbeitungsjobs für Ihr gesamtes Dataset ausführen, zeigt Wrangler nur die ersten 1.000 Werte Ihres Datasets an. Da Sie einige Daten gefiltert haben, bleiben nur wenige Kunden in der Wrangler-Anzeige.

Batchpipeline erstellen

Sie haben Ihre Daten bereinigt und für eine Teilmenge Ihrer Daten Transformationen ausgeführt. Sie können nun eine Batchpipeline erstellen, um Transformationen für Ihr gesamtes Dataset auszuführen.

Cloud Data Fusion überträgt die in Studio erstellte Pipeline in ein Apache Spark-Programm, das Transformationen parallel auf einem sitzungsspezifischen Dataproc-Cluster ausführt. Mit diesem Prozess können Sie komplexe Transformationen an großen Datenmengen skalierbar und zuverlässig ausführen, ohne sich um die Infrastruktur kümmern zu müssen.

  1. Klicken Sie auf der Wrapperr-Seite auf Pipeline erstellen.
  2. Wählen Sie Batch-Pipeline aus. Die Studio-Seite wird geöffnet.
  3. Achten Sie darauf, dass oben links Datenpipeline – Batch als Pipelinetyp angezeigt wird.

    Pipelinetyp

    Auf der Studio-Seite ist ein GCSFile-Quellknoten mit einem Wrangler-Knoten verbunden.

    GCSFile-Knoten, der mit dem Wrangler-Knoten verbunden ist

    Die auf der Wrapperr-Seite angewendeten Transformationen werden im Handlerr-Knoten der Studio-Seite angezeigt.

  4. Halten Sie den Mauszeiger über den Knoten Wrapperr und klicken Sie auf Eigenschaften, um die angewendeten Transformationen anzuzeigen.

    Die angewendeten Transformationen werden in den Anweisungen angezeigt.

    Angewendete Transformationen ansehen

  5. Klicke auf Validieren.

  6. Klicken Sie auf Schließen.

Sie können weitere Transformationen anwenden. Klicken Sie dazu auf Codierung. Daraufhin gelangen Sie zurück zur Handler-Seite. Die hinzugefügte Transformation wird auf der Studio-Seite angezeigt.

Beispielsweise ist die Spalte Land nicht erforderlich, da der Wert immer „USA“ ist. So löschen Sie die Spalte:

  1. Klicken Sie auf Wrangler.
  2. Klicken Sie neben Country auf den Abwärtspfeil und wählen Sie Delete Column aus.
  3. Klicken Sie auf Anwenden. Die Wrapper-Seite wird geschlossen und das Fenster mit den Wrapper-Eigenschaften auf der Studio-Seite geöffnet. In den Anweisungen wird drop Country angezeigt.
  4. Klicken Sie auf Schließen.

Namen der Bundesstaaten abkürzen

Das Navigationssystem in Ihrem Lieferfahrzeug erkennt nur Adressen, die gekürzte Namen der Bundesstaaten enthalten (CA, nicht Kalifornien), und Ihre Kundendaten enthalten vollständige Namen von Bundesstaaten.

Die öffentliche BigQuery-Tabelle state_abbreviations enthält zwei Spalten: eine mit den vollständigen Namen der Bundesstaaten und eine mit den Abkürzungen. Mithilfe dieser Tabelle können Sie die Namen der Bundesstaaten in Ihren Kundendaten aktualisieren.

Zeigen Sie die Daten zu den Bundesstaatnamen in BigQuery an

  1. Rufen Sie die BigQuery Studio-Seite in einem separaten Tab auf:

    BigQuery aufrufen

  2. Klicken Sie auf SQL-Abfrage erstellen und geben Sie die folgende Abfrage in den Abfrageeditor ein:

    SELECT * FROM `dis-user-guide.campaign_tutorial.state_abbreviations`
    
  3. Klicken Sie auf Ausführen.

    Daraufhin werden die Namen der Bundesstaaten und ihre Abkürzungen angezeigt.

    Namen von Bundesstaaten und ihre Abkürzungen

Greifen Sie auf die BigQuery-Tabelle zu

Fügen Sie der Pipeline eine Quelle hinzu, die auf die BigQuery-Tabelle state_abbreviations zugreift.

  1. Rufen Sie die Cloud Data Fusion Studio-Seite auf und maximieren Sie das Menü Quelle.
  2. Klicken Sie auf BigQuery.

    Ein BigQuery-Quellknoten wird auf dem Canvas zusammen mit den anderen beiden Knoten angezeigt.

  3. Bewegen Sie den Mauszeiger auf den BigQuery-Quellknoten und klicken Sie auf Eigenschaften.

    1. Geben Sie im Feld Dataset-Projekt-ID den Wert dis-user-guide ein.
    2. Geben Sie im Feld Reference Name (Referenzname) state_abbreviations ein.
    3. Geben Sie im Feld Dataset den Wert campaign_tutorial ein.
    4. Geben Sie im Feld Tabelle den Wert state_abbreviations ein.
  4. Füllen Sie das Schema der Tabelle aus BigQuery, indem Sie auf Get Schema klicken.

  5. Klicken Sie auf Schließen.

Die beiden Datenquellen miteinander verbinden

Verbinden Sie die beiden Datenquellen, die Kundendaten und die Abkürzungen der Bundesstaaten, um eine Ausgabe zu generieren, die Kundendaten mit abgekürzten Namen der Bundesstaaten enthält.

  1. Rufen Sie die Cloud Data Fusion Studio-Seite auf und maximieren Sie das Menü Analysen.
  2. Klicken Sie auf Joiner.

    Auf dem Canvas wird ein Joiner-Knoten angezeigt, der eine ähnliche Aktion wie ein SQL-Join darstellt.

  3. Verbinden Sie den Handler-Knoten und den BigQuery-Knoten mit dem Joiner-Knoten. Ziehen Sie dazu einen Verbindungspfeil am rechten Rand des Quellknotens und legen Sie ihn auf dem Zielknoten ab.

    Wrangler- und BigQuery-Knoten mit Joiner-Knoten verknüpfen

  4. Bewegen Sie den Mauszeiger auf den Joiner-Knoten und klicken Sie auf Eigenschaften.

    1. Maximieren Sie im Bereich Felder die Option Wrapperr und BigQuery.

      1. Entfernen Sie das Häkchen aus dem Wrangler-Kästchen state.
      2. Entfernen Sie das Häkchen aus dem Kästchen Name von BigQuery, da Sie nur den abgekürzten Namen des Bundesstaats und nicht den vollständigen Namen des Bundesstaats verwenden möchten.
      3. Lassen Sie das Kästchen BigQuery-Abkürzung angeklickt und ändern Sie den Alias in State.

        Attribute von Joiner-Knoten

    2. Behalten Sie im Feld Join Type den Wert Outer bei. Klicken Sie unter Erforderliche Eingaben das Kästchen Wrangler an.

    3. Wählen Sie im Abschnitt Join-Bedingung für Wrapper die Option Status aus. Wählen Sie für BigQuery Name aus.

    4. Generieren Sie das Schema des resultierenden Joins. Klicken Sie auf Schema abrufen.

    5. Klicke auf Validieren.

    6. Klicken Sie auf Schließen.

Ausgabe in BigQuery speichern

Speichern Sie das Ergebnis der Pipeline in einer BigQuery-Tabelle. Der Ort, an dem Sie die Daten speichern, wird als Senke bezeichnet.

  1. Rufen Sie die Cloud Data Fusion Studio-Seite auf und maximieren Sie Senke.
  2. Klicken Sie auf BigQuery.
  3. Verbinden Sie den Joiner-Knoten mit dem BigQuery-Knoten.

    Joiner-Knoten und BigQuery-Knoten verbinden

  4. Bewegen Sie den Mauszeiger auf den Knoten BigQuery und klicken Sie auf Eigenschaften.

    1. Geben Sie im Feld Dataset den Wert dis_user_guide ein.
    2. Wählen Sie im Feld Tabelle die Option customer_data_abbreviated_states aus.
    3. Klicken Sie auf Schließen.

Pipeline bereitstellen und ausführen

  1. Klicken Sie auf der Studio-Seite auf Pipeline benennen und geben Sie CampaignPipeline ein.

    Pipeline bereitstellen und ausführen

  2. Klicken Sie auf OK.

  3. Klicken Sie oben rechts auf Deploy (Bereitstellen).

  4. Klicken Sie nach Abschluss der Bereitstellung auf Ausführen.

Die Ausführung der Pipeline kann einige Minuten dauern. Während Sie warten, können Sie den Status der Pipeline beobachten: Bereitstellung > Wird gestartet > Wird ausgeführt > Bereitstellung aufheben > Erfolgreich.

Ergebnisse aufrufen

  1. Öffnen Sie in der Google Cloud Console die Seite "BigQuery":

    Zu BigQuery

  2. Klicken Sie auf SQL-Abfrage erstellen.

  3. Fragen Sie die Tabelle customer_data_abbreviated_states ab:

    SELECT * FROM dis_user_guide.customer_data_abbreviated_states LIMIT 1000
    

    Ergebnisse aufrufen

Sie haben eine Datenpipeline erstellt.

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die auf dieser Seite verwendeten Ressourcen in Rechnung gestellt werden.

BigQuery-Dataset löschen

So löschen Sie das BigQuery-Dataset, das Sie in dieser Anleitung erstellt haben:

  1. Rufen Sie in der Google Cloud Console die Seite „BigQuery“ auf.

    BigQuery aufrufen

  2. Wählen Sie das dis_user_guideDataset aus.
  3. Klicken Sie auf Dataset löschen.

Löschen Sie die Cloud Data Fusion-Instanz.

Folgen Sie der Anleitung, um die Cloud Data Fusion-Instanz zu löschen.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.

So löschen Sie das Projekt:

  1. Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Nächste Schritte