Zielkampagnenpipeline erstellen

Informationen zum Bereinigen, Transformieren und Verarbeiten mit Cloud Data Fusion Kundendaten, um Kandidaten für eine angezielte Kampagne auszuwählen.


Klicken Sie auf Anleitung, um eine detaillierte Anleitung für diese Aufgabe direkt in der Google Cloud Console aufzurufen.

Anleitung


Szenario

Sie möchten benutzerdefinierte Marketingmaterialien für eine laufende Werbekampagne erstellen und die Materialien direkt an die privaten Briefkästen Ihrer Kunden verteilen.

Ihre Kampagne unterliegt zwei Einschränkungen:

  • Standort: Sie liefern nur an Kunden in Kalifornien, Washington und Oregon.
  • Kosten: Um Kraftstoff zu sparen, liefern Sie an leicht zu erreichende Kunden. Sie liefern nur an Kunden, die in Avenues leben.

In dieser Anleitung erfahren Sie, wie Sie die Liste der Kundenadressen für die Kampagne generieren. In dieser Anleitung tun Sie Folgendes:

  1. Bereinigen Sie die Kundendaten: Filtern Sie Kunden, die in einer Avenue in Kalifornien, Washington oder Oregon leben.
  2. Erstellen Sie eine Pipeline, die Folgendes ausführt:

    • Die gefilterten Kundendaten werden mit einem öffentlichen Dataset verknüpft, das Abkürzungen der Bundesstaaten enthält.
    • die bereinigten und verbundenen Daten in einer BigQuery-Tabelle speichert. Diese können Sie über die Web-Oberfläche von BigQuery abfragen oder mithilfe von Looker Studio analysieren.

Lernziele

  • Cloud Data Fusion mit zwei Datenquellen verbinden
  • Grundlegende Transformationen anwenden
  • Die beiden Datenquellen miteinander verbinden
  • Ausgabedaten in eine Senke schreiben

Hinweise

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.

    Enable the APIs

  7. Erstellen Sie eine Cloud Data Fusion-Instanz.
    In dieser Anleitung wird davon ausgegangen, dass Sie den Compute Engine-Standarddienst verwenden. Konto.

Berechtigungen verwalten

Erstellen Sie die erforderlichen benutzerdefinierten Rollen und Berechtigungen und weisen Sie sie zu.

Benutzerdefinierte Rolle erstellen und Berechtigungen hinzufügen

  1. Öffnen Sie in der Google Cloud Console die Seite Rollen.

    Zur Seite „Rollen“

  2. Klicken Sie auf Rolle erstellen.

  3. Geben Sie im Feld Titel Custom Role-Tutorial ein.

  4. Klicken Sie auf Berechtigungen hinzufügen.

  5. Wählen Sie im Fenster Berechtigungen hinzufügen die folgenden Berechtigungen aus und klicken Sie auf Hinzufügen:

    • bigquery.datasets.create
    • bigquery.jobs.create
    • storage.buckets.create
  6. Klicken Sie auf Erstellen.

Dem Compute Engine-Standarddienstkonto eine benutzerdefinierte Rolle zuweisen

  1. Rufen Sie die Seite Cloud Data Fusion-Seite Instanzen auf.

    Instanz erstellen

  2. Klicken Sie auf den Namen Ihrer Instanz.

  3. Notieren Sie sich das standardmäßige Dataproc-Dienstkonto. Die Seite mit den Instanzdetails enthält diese Informationen.

    Der Name des Dataproc-Dienstkontos hat folgendes Format:

    CUSTOMER_PROJECT_NUMBER-compute@developer.gserviceaccount.com.

    Weitere Informationen zu Dataproc-Dienstkonten

  4. Rufen Sie die IAM-Seite auf.

    Zur Seite „Rollen“

  5. Geben Sie in der Filterleiste den Namen Ihres Dataproc-Standarddienstkontos ein.

  6. Klicken Sie für Ihr Compute Engine-Standarddienstkonto auf Bearbeiten.

  7. Klicken Sie auf Weitere Rolle hinzufügen.

  8. Wählen Sie im Feld Rolle auswählen die Option Anleitung für benutzerdefinierte Rollen aus.

  9. Klicken Sie auf Speichern.

  10. Achten Sie darauf, dass dem Dienstkonto bereits die Rolle „Cloud Data Fusion-Runner“ zugewiesen ist.

Kundendaten vorbereiten

Für diese Anleitung werden die folgenden zwei Eingabe-Datasets benötigt, die beide mit Ihrer Cloud Data Fusion-Instanz bereitgestellt werden:

  • Beispiel-Kundendaten: Eine CSV-Datei mit dem Namen customers.csv.
  • Abkürzungen der Bundesstaaten: Eine BigQuery-Tabelle mit dem Namen state_abbreviations.

Kundendaten laden

  1. Rufen Sie die Seite Cloud Data Fusion-Seite Instanzen auf.

    Zur Seite „VM-Instanzen“

  2. Klicken Sie für die verwendete Cloud Data Fusion-Instanz auf Instanz anzeigen. Die Weboberfläche von Cloud Data Fusion wird in einem neuen Tab geöffnet.

  3. Klicken Sie auf Wrangler. Die Seite Wrangler wird geöffnet.

  4. Klicken Sie im Bereich Verbindungen auf GCS > Beispiel-Buckets.

  5. Klicken Sie auf campaign-tutorial.

  6. Klicken Sie auf customers.csv.

  7. Geben Sie im Fenster Parsing-Optionen Folgendes an:

    • Format: csv
    • Wert in Anführungszeichen aktivieren: False
    • Erste Zeile als Kopfzeile verwenden:: False
    • Dateicodierung: UTF-8
  8. Klicken Sie auf Bestätigen. Kundendaten werden in einen neuen Tab in Wrangler geladen.

    Geladene Kundendaten

Kundendaten bereinigen

Dies umfasst zwei Unteraufgaben:

  • Schema festlegen
  • Kundendaten filtern, um nur die gewünschte Zielgruppe zu präsentieren

Das Schema festlegen

Legen Sie das Schema der Daten fest, indem Sie den Tabellenspalten passende Namen zuweisen. So geben Sie den Spalten wie body_1 und body_2 aussagekräftigere Namen:

  1. Klicken Sie rechts auf den Tab Spalten.
  2. Klicken Sie auf das Drop-down-Menü Spaltennamen und wählen Sie Alle festlegen aus.
  3. Geben Sie im Dialogfeld Spaltennamen im Bulk festlegen die folgenden kommagetrennten Spaltennamen ein:

    Name,StreetAddress,City,State,Country
    
  4. Klicken Sie auf Anwenden.

Daten filtern

Filtern Sie die Daten, um nur Kunden zu sehen, die in Kalifornien, Oregon, oder Washington leben.

Entfernen Sie alle Zeilen, die andere Werte als diese Staaten enthalten:

  1. Klicken Sie auf das Drop-down-Menü der Spalte Staat und wählen Sie Filter aus.
  2. Gehen Sie im Filterfenster folgendermaßen vor:

    1. Klicken Sie auf Keep rows.
    2. Klicken Sie auf das Drop-down-Menü Wenn und wählen Sie Wert stimmt mit regulärem Ausdruck überein aus.
    3. Geben Sie den folgenden regulären Ausdruck ein: .

      ^(California|Oregon|Washington)$
      
    4. Klicken Sie auf Anwenden.

    Die Werte in der Spalte Staat sind Kalifornien, Oregon oder Washington.

Filtern Sie die Daten, um nur Kunden anzuzeigen, die in Avenues leben. Behalten Sie nur die Adressen bei, die den String Avenue enthalten:

  1. Klicken Sie auf das Drop-down-Menü der Spalte StreetAddress und wählen Sie StreetAddress aus.
  2. Gehen Sie im Filterfenster folgendermaßen vor:
    1. Klicken Sie auf Keep rows.
    2. Wählen Sie im Drop-down-Menü If die Option value contains aus und geben Sie Avenue ein.
    3. Wählen Sie Ignore case (Groß-/Kleinschreibung ignorieren) aus.
    4. Klicken Sie auf Anwenden.

Bevor Sie parallele Verarbeitungsjobs für Ihr gesamtes Dataset ausführen, zeigt Wrangler nur die ersten 1.000 Werte Ihres Datasets an. Da Sie einige Daten gefiltert haben, bleiben nur wenige Kunden in der Wrangler-Anzeige.

Batchpipeline erstellen

Sie haben Ihre Daten bereinigt und für eine Teilmenge Ihrer Daten Transformationen ausgeführt. Sie können nun eine Batchpipeline erstellen, um Transformationen für Ihr gesamtes Dataset auszuführen.

Cloud Data Fusion überträgt die im Studio erstellte Pipeline in ein Apache Spark-Programm, das Transformationen in einem sitzungsspezifischen Dataproc-Cluster parallel ausführt. Bei diesem Prozess können Sie komplexe Transformationen an großen Datenmengen in einer skalierbaren, ohne sich um die Infrastruktur kümmern zu müssen.

  1. Klicken Sie auf der Wrangler-Seite auf Pipeline erstellen.
  2. Wählen Sie Batch-Pipeline aus. Die Studio-Seite wird geöffnet.
  3. Auf der Studio-Seite ist ein GCSFile-Quellknoten mit einem GCSFile-Knoten verbunden.

    GCSFile-Knoten ist mit Wrangler-Knoten verbunden

    Die auf der Wrangler-Seite angewendeten Transformationen werden im Wrangler-Knoten der Studio-Seite angezeigt.

  4. Bewegen Sie den Mauszeiger über den Knoten Wrangler und klicken Sie auf Eigenschaften, um die angewendeten Transformationen anzuzeigen.

    Die angewendeten Transformationen werden in den Anweisungen angezeigt.

    Angewandte Transformationen ansehen

  5. Klicke auf Validieren.

  6. Klicken Sie auf Schließen.

Sie können weitere Transformationen anwenden. Klicken Sie dazu auf Wrangle. Sie gelangen zurück auf die Wrangler-Seite. Die von Ihnen hinzugefügte Transformation wird in Studio Seite.

Beispielsweise ist die Spalte Land nicht erforderlich, da der Wert immer USA ist. So löschen Sie die Spalte:

  1. Klicken Sie auf Wrangler.
  2. Klicken Sie neben Country auf den Abwärtspfeil und wählen Sie Delete Column aus.
  3. Klicken Sie auf Anwenden. Die Wrangler-Seite wird geschlossen und das Fenster „Wrangler-Properties“ wird auf der Studio-Seite geöffnet. In den Anweisungen wird drop Country angezeigt.
  4. Klicken Sie auf Schließen.

Namen der Bundesstaaten abkürzen

Das Navigationssystem in Ihrem Lieferfahrzeug erkennt nur Adressen, die gekürzte Namen der Bundesstaaten enthalten (CA, nicht Kalifornien), und Ihre Kundendaten enthalten vollständige Namen der Bundesstaaten.

Die öffentliche BigQuery-Tabelle state_abbreviations enthält zwei Spalten: eine mit den vollständigen Namen der Bundesstaaten und eine mit den Abkürzungen. Mithilfe dieser Tabelle können Sie die Namen der Bundesstaaten in Ihren Kundendaten aktualisieren.

Zeigen Sie die Daten zu den Bundesstaatnamen in BigQuery an

  1. Rufen Sie die BigQuery Studio-Seite in einem separaten Tab auf:

    BigQuery aufrufen

  2. Klicken Sie auf SQL-Abfrage erstellen und geben Sie die folgende Abfrage in den Abfrageeditor ein:

    SELECT * FROM `dis-user-guide.campaign_tutorial.state_abbreviations`
    
  3. Klicken Sie auf Ausführen.

    BigQuery zeigt eine Liste mit Namen von Bundesstaaten und deren Abkürzungen.

Greifen Sie auf die BigQuery-Tabelle zu

Fügen Sie der Pipeline eine Quelle hinzu, um auf diese BigQuery-Tabelle state_abbreviations zuzugreifen.

  1. Rufen Sie die Cloud Data Fusion Studio-Seite auf und maximieren Sie das Menü Quelle.
  2. Klicken Sie auf BigQuery.

    Im Canvas wird ein BigQuery-Quellknoten und die beiden anderen Knoten angezeigt.

  3. Halten Sie den Mauszeiger auf den Quellknoten BigQuery und klicken Sie auf Properties.

    1. Geben Sie im Feld Dataset-Projekt-ID den Wert dis-user-guide ein.
    2. Geben Sie im Feld Referenzname state_abbreviations ein.
    3. Geben Sie im Feld Dataset den Wert campaign_tutorial ein.
    4. Geben Sie im Feld Tabelle den Wert state_abbreviations ein.
  4. Füllen Sie das Schema der Tabelle aus BigQuery, indem Sie auf Get Schema klicken.

  5. Klicken Sie auf Schließen.

Die beiden Datenquellen miteinander verbinden

Verbinden Sie die beiden Datenquellen, die Kundendaten und die Abkürzungen der Bundesstaaten, um eine Ausgabe zu generieren, die Kundendaten mit abgekürzten Namen der Bundesstaaten enthält.

  1. Rufen Sie die Cloud Data Fusion Studio-Seite auf und maximieren Sie das Menü Analysen.
  2. Klicken Sie auf Joiner.

    Auf dem Canvas wird ein Joiner-Knoten angezeigt, der eine ähnliche Aktion wie ein SQL-Join darstellt.

  3. Verbinden Sie den Wrangler-Knoten und den BigQuery -Knoten mit dem Joiner- Knoten: Ziehen Sie einen Verbindungspfeil am rechten Ecke des Quellknotens und legen Sie ihn auf dem Zielknoten ab.

    Wrangler- und BigQuery-Knoten mit Joiner-Knoten verbinden

  4. Halten Sie den Mauszeiger über den Knoten Joiner und klicken Sie auf Attribute.

    1. Maximieren Sie im Bereich Felder die Option Wrangler und BigQuery.

      1. Entfernen Sie das Häkchen aus dem Wrangler-Kästchen state.
      2. Entfernen Sie das Häkchen aus dem Kästchen Name von BigQuery, da Sie nur den abgekürzten Namen des Bundesstaats und nicht den vollständigen Bundesstaat verwenden möchten.
      3. Lassen Sie das Kästchen BigQuery-Abkürzung angeklickt und ändern Sie den Alias in State.

        Eigenschaften von Verbindungsknoten

    2. Behalten Sie im Feld Join Type den Wert Outer bei. Klicken Sie unter Erforderliche Eingaben das Kästchen Wrangler an.

    3. Wählen Sie im Abschnitt Join-Bedingung für Wrangler die Option Status aus. Wählen Sie für BigQuery Name aus.

    4. Generieren Sie das Schema des resultierenden Joins. Klicken Sie auf Schema abrufen.

    5. Klicke auf Validieren.

    6. Klicken Sie auf Schließen.

Ausgabe in BigQuery speichern

Speichern Sie das Ergebnis der Pipeline in einer BigQuery-Tabelle. Der Ort, an dem Sie die Daten speichern, wird als Senke bezeichnet.

  1. Rufen Sie die Seite „Cloud Data Fusion Studio“ auf und maximieren Sie Senke.
  2. Klicken Sie auf BigQuery.
  3. Verbinden Sie den Joiner-Knoten mit dem BigQuery-Knoten.

    Joiner-Knoten und BigQuery-Knoten verbinden

  4. Halten Sie den Mauszeiger über den Knoten BigQuery und klicken Sie auf Attribute.

    1. Geben Sie im Feld Dataset den Wert dis_user_guide ein.
    2. Wählen Sie im Feld Tabelle die Option customer_data_abbreviated_states aus.
    3. Klicken Sie auf Schließen.

Pipeline bereitstellen und ausführen

  1. Klicken Sie auf der Studio-Seite auf Pipeline benennen und geben Sie CampaignPipeline ein.
  2. Klicken Sie auf Speichern.
  3. Klicken Sie oben rechts auf Deploy (Bereitstellen).
  4. Klicken Sie nach Abschluss der Bereitstellung auf Ausführen.

Die Ausführung der Pipeline kann einige Minuten dauern. Während Sie warten, können Sie beobachten, wie Status des Pipeline von Wird bereitgestellt > Wird gestartet > Wird ausgeführt > Bereitstellung wird aufgehoben > Erfolgreich wechselt.

Ergebnisse aufrufen

  1. Öffnen Sie in der Google Cloud Console die Seite "BigQuery":

    BigQuery aufrufen

  2. Klicken Sie auf SQL-Abfrage erstellen.

  3. Tabelle customer_data_abbreviated_states abfragen

    SELECT * FROM dis_user_guide.customer_data_abbreviated_states LIMIT 1000
    

    Ergebnisse aufrufen

Sie haben einen Daten-Pipeline erstellt

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:

BigQuery-Dataset löschen

So löschen Sie das BigQuery-Dataset, das Sie in dieser Anleitung erstellt haben:

  1. Rufen Sie in der Google Cloud Console die Seite „BigQuery“ auf.

    BigQuery aufrufen

  2. Wählen Sie das dis_user_guideDataset aus.
  3. Klicken Sie auf Dataset löschen.

Löschen Sie die Cloud Data Fusion-Instanz.

Folgen Sie der Anleitung, um die Cloud Data Fusion-Instanz zu löschen.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.

So löschen Sie das Projekt:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Nächste Schritte