Pipeline für Targeting-Kampagnen

In dieser Anleitung erfahren Sie, wie Sie mit Cloud Data Fusion Kundendaten bereinigen, transformieren und verarbeiten, um Kandidaten für eine angezielte-Kampagne auszuwählen.

Szenario

Sie möchten benutzerdefinierte Marketingmaterialien für eine laufende Werbekampagne erstellen und die Materialien direkt an die privaten Briefkästen Ihrer Kunden verteilen.

Ihre Kampagne unterliegt zwei Einschränkungen:

  • Standort: Sie liefern nur an Kunden in Kalifornien, Washington und Oregon.
  • Kosten: Um Kraftstoff zu sparen, liefern Sie an leicht zu erreichende Kunden. Sie liefern nur an Kunden, die in Avenues leben.

In dieser Anleitung erfahren Sie, wie Sie die Liste der Kundenadressen für die Kampagne generieren. In dieser Anleitung tun Sie Folgendes:

  1. Bereinigen Sie die Kundendaten: Filtern Sie Kunden, die in einer Avenue in Kalifornien, Washington oder Oregon leben.
  2. Erstellen Sie eine Pipeline, die Folgendes ausführt:
    • Die gefilterten Kundendaten werden mit einem öffentlichen Dataset verknüpft, das Abkürzungen der Bundesstaaten enthält.
    • speichert die bereinigten und verbundenen Daten in einer BigQuery-Tabelle. Diese können Sie über die Web-UI von BigQuery abfragen oder mithilfe von Data Studio analysieren.

Ziele

  • Cloud Data Fusion mit zwei Datenquellen verbinden
  • Grundlegende Transformationen anwenden
  • Die beiden Datenquellen miteinander verbinden
  • Ausgabedaten in eine Senke schreiben

Kosten

In dieser Anleitung werden kostenpflichtige Komponenten von Google Cloud verwendet, darunter:

Bei jedem Durchlauf dieser Anleitung wird ein Dataproc-Cluster mit 3 Knoten (1 Master, 2 Worker) ausgeführt, der etwa 6 Minuten lang ausgeführt wird, um etwa 6 MB Daten in BigQuery zu schreiben. Da Sie nur eine kleine Datenmenge in BigQuery speichern, werden die Kosten für BigQuery im Rahmen dieser Schätzung ignoriert. Auf Grundlage dieser Zahlen lassen sich Ihre Kosten für eine einmalige Ausführung der Pipeline schätzen:

Gesamtkosten = Kosten für Cloud Data Fusion + Dataproc-Kosten

Jede Komponente dieser Formel kann folgendermaßen aufgeschlüsselt werden:

Kosten für Cloud Data Fusion = (Zeit * Cloud Data Fusion-Preis)

Dataproc-Kosten = (Zeit * Anzahl der VMs * (Compute Engine-Rate + Dataproc-Rate))

Nehmen wir als Beispiel diese Kostenschätzung für einen 6-minütigen Job unter Verwendung des Compute Engine-Standardprofils in Cloud Data Fusion mit drei n1-standard4-VMs in der Region us-west1.

  • Zeit = 0,1 Stunden
  • Data Fusion-Rate = 1,80 $/Stunde
  • Anzahl der VMs = 3
  • Compute Engine-Rate = 0,19 $/Stunde/VM
  • Dataproc-Rate = 0,01 $/Stunde/VM

Die Verwendung dieser Werte in der Kostenformel ergibt folgende Gesamtkosten:

(0,1 * 1,8) + (0,1 * 3 * (0,1900 + 0,01)) = $0,24 (24 cent)

Sie können mithilfe des Preisrechners die Kosten für Ihre voraussichtliche Nutzung kalkulieren. Neuen Google Cloud-Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Hinweis

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für Ihr Projekt aktiviert ist.

  4. Cloud Data Fusion, Cloud Storage, BigQuery and Cloud Dataproc APIs aktivieren.

    Aktivieren Sie die APIs

  5. Erstellen Sie eine Cloud Data Fusion-Instanz.

Kundendaten vorbereiten

Für diese Anleitung werden die folgenden zwei Eingabe-Datasets benötigt, die beide mit Ihrer Cloud Data Fusion-Instanz bereitgestellt werden:

  • Beispiel-Kundendaten: Eine CSV-Datei mit dem Namen customers.csv.
  • Abkürzungen der Bundesstaaten: Eine BigQuery-Tabelle mit dem Namen state_abbreviations.

Kundendaten laden

  1. Rufen Sie die Web-UI von Cloud Data Fusion auf.
  2. Rufen Sie die Wrangler-Seite der Web-UI auf.
  3. Klicken Sie im linken Bereich unter Google Cloud Storage auf Sample-Buckets.
  4. Klicken Sie auf campaign-tutorial.
  5. Klicken Sie auf customers.csv. Die Kundendaten werden angezeigt.

Kundendaten bereinigen

Parsen Sie die Kundendaten in ein Tabellenformat, legen Sie das Schema fest und filtern Sie die Kundendaten, sodass nur die gewünschte Zielgruppe angezeigt wird.

Parsen Sie die Daten

  1. Klicken Sie auf das Drop-down-Menü der Spalte Body (Text).
  2. Wählen Sie Parse > CSV aus.
  3. Wählen Sie als Trennzeichen comma aus und klicken Sie auf Apply. Bild
  4. Die Daten werden in mehrere Spalten aufgeteilt. Die ursprüngliche Body-Spalte wird also nicht mehr benötigt. Klicken Sie auf das Drop-down-Menü Body und wählen Sie Spalte löschen aus.

Das Schema festlegen

Legen Sie das Schema der Daten fest, indem Sie den Tabellenspalten passende Namen zuweisen. Benennen Sie die Spalten statt bodyXX um, um die vorhandenen Informationen zu beschreiben.

  1. Klicken Sie rechts auf dem Tab Columns auf das Drop-down-Menü Column names und wählen Sie Set all aus.
  2. Geben Sie im Dialogfeld Bulk set column names den folgenden durch Kommas getrennten Text ein: Name,StreetAddress,City,State,Country.
  3. Klicken Sie auf Anwenden.

Daten filtern

Filtern Sie die Daten, um nur Kunden zu sehen, die in Kalifornien, Oregon, oder Washington leben. Entfernen Sie dazu alle Zeilen, die andere Werte als diese drei Staaten enthalten.

  1. Klicken Sie auf das Drop-down-Menü der Spalte State .
  2. Filter auswählen
  3. Gehen Sie im Filterfenster folgendermaßen vor:

    1. Klicken Sie auf Keep rows.
    2. Wählen Sie im Drop-down-Menü If die Option value matches regex aus.
    3. Geben Sie den folgenden regulären Ausdruck ein: ^(California|Oregon|Washington)$.
    4. Klicken Sie auf Anwenden.

    Die Werte in der Spalte State sind „California“, „Oregon“ oder „Washington“.

Filtern Sie die Daten, um nur Kunden anzuzeigen, die in Avenues leben. Behalten Sie dazu nur die Adressen bei, die den String "avenue" enthalten.

  1. Klicken Sie links neben der Spalte StreetAddress auf den Abwärtspfeil und wählen Sie dann Filter aus.
  2. Wählen Sie im Drop-down-Menü If die Option value contains aus und geben Sie Avenue ein.
  3. Wählen Sie Ignore case (Groß-/Kleinschreibung ignorieren) aus.

Bevor Sie parallele Verarbeitungsjobs für Ihr gesamtes Dataset ausführen, zeigt Wrangler nur die ersten 1.000 Werte Ihres Datasets an. Da Sie einige Daten gefiltert haben, bleiben nur wenige Kunden in der Wrangler-Anzeige.

Pipeline erstellen

Sie haben Ihre Daten bereinigt und für eine Teilmenge Ihrer Daten Transformationen ausgeführt. Sie können nun eine Batchpipeline erstellen, um Transformationen für Ihr gesamtes Dataset auszuführen.

  1. Klicken Sie in Wrangler rechts oben auf Create pipeline.
  2. Wählen Sie Batch-Pipeline aus. Sie werden zur Seite „Pipeline Studio“ weitergeleitet.
  3. Vergewissern Sie sich, dass oben links Data pipeline - Batch als Pipeline-Typ angezeigt wird.

Im Pipeline Studio-Canvas ist ein GCSFile-Quellknoten mit einem Wrangler-Knoten verbunden.

Alle Transformationen, die Sie in der Wrangler-Ansicht angewendet haben, werden im Knoten Wrangler des Pipeline Studio-Canvas angezeigt. Um die angewendeten Transformationen zu sehen, bewegen Sie den Mauszeiger auf den Knoten Wrangler und klicken Sie auf Eigenschaften. Unter Anweisungen werden die angewendeten Transformationen angezeigt.

Sie können weitere Transformationen anwenden, indem Sie auf Wrangle klicken. Dadurch kehren Sie zur Wrangler-Seite zurück. Wenn Sie zu den Knoteneigenschaften in der Pipeline Studio-Ansicht zurückkehren, sehen Sie die neue Transformation.

Beispielsweise ist die Spalte Land nicht erforderlich, da der Wert immer „USA“ ist. So löschen Sie die Spalte:

  1. Klicken Sie auf Wrangler.
  2. Klicken Sie neben Country auf den Abwärtspfeil und wählen Sie Delete Column aus.
  3. Klicken Sie auf Anwenden. Dadurch wird die Wrangler-Ansicht geschlossen und zum Fenster "Wrangler-Properties" in Pipeline Studio zurückgekehrt. Im Abschnitt Directives wird drop Country angezeigt.
  4. Klicken Sie auf die Schaltfläche X.

Kürzen Sie die Namen der Bundesstaaten ab

Das Navigationssystem Ihres Lieferfahrzeugs erkennt nur Adressen mit abgekürzten Namen der Bundesstaaten, d. h. CA und nicht Kalifornien. Und Ihre Kundendaten enthalten derzeit vollständige Bundesstaatennamen.

Die öffentliche BigQuery-Tabelle state_abbreviations enthält zwei Spalten: eine mit den vollständigen Namen der Bundesstaaten und eine mit den Abkürzungen. Mithilfe dieser Tabelle aktualisieren Sie nun die Namen der Bundesstaaten in den Kundendaten.

Zeigen Sie die Daten zu den Bundesstaatnamen in BigQuery an

  1. Öffnen Sie in einem neuen Tab die BigQuery-UI in der Cloud Console.

    Zur BigQuery-UI

  2. Geben Sie im Abfrageeditor die folgende Abfrage ein und klicken Sie auf Ausführen:

    SELECT * FROM `dis-user-guide.campaign_tutorial.state_abbreviations`
    

Greifen Sie auf die BigQuery-Tabelle zu

Fügen Sie der Pipeline eine Quelle hinzu, um auf diese BigQuery-Tabelle state_abbreviations zuzugreifen.

  1. Klicken Sie auf dem Tab "Cloud Data Fusion" in Pipeline Studio im Plug-in-Bereich links auf Source.
  2. Klicken Sie auf "BigQuery".

    Im Canvas wird ein BigQuery-Quellknoten und die beiden anderen Knoten angezeigt.

  3. Halten Sie den Mauszeiger auf den Quellknoten BigQuery und klicken Sie auf Properties.
    1. Geben Sie unter Reference Name den Wert state_abbreviations ein.
    2. Geben Sie unter Dataset Project ID Name den Wert dis-user-guide ein.
    3. Geben Sie unter Dataset den Wert campaign_tutorial ein.
    4. Geben Sie unter Table den Wert state_abbreviations ein.
  4. Füllen Sie das Schema der Tabelle aus BigQuery, indem Sie auf Get Schema klicken.
  5. Klicken Sie auf die Schaltfläche X.

Die beiden Datenquellen miteinander verbinden

Verknüpfen Sie die beiden Datenquellen, die Kundendaten und die Abkürzungen der Bundesstaaten, um eine Ausgabe zu generieren, die Kundendaten mit abgekürzten Namen der Bundesstaaten enthält.

  1. Klicken Sie im Pipeline Studio links im Abschnitt Plug-in auf Analytics.
  2. Klicken Sie auf Joiner.

    Ein Joiner- Knoten, der eine Aktion darstellt, die einem SQL-Join ähnelt, wird auf dem Canvas angezeigt.

  3. Verbinden Sie den Wrangler -Knoten und den BigQuery -Knoten mit dem Joiner - Knoten: Ziehen Sie einen Verbindungspfeil am rechten Ecke des Quellknotens und legen Sie ihn auf dem Zielknoten ab.
  4. Bewegen Sie den Mauszeiger auf den Knoten Joiner und klicken Sie auf Properties.
    1. Erweitern Sie unter Join Wrangler und BigQuery.
      1. Heben Sie die Auswahl des Felds State unter Wrangler und des Felds name unter BigQuery auf, da Sie nur den verkürzten Bundesstaatsnamen verwenden möchten nicht den vollständigen.
      2. Ändern Sie unter BigQuery das Alias für das Feld abbreviation in State, damit es leicht zu identifizieren ist.
    2. Behalten Sie unter Join Type den Wert Outer bei. Wählen Sie unter Required Inputs die Option Wrangler aus.
    3. Legen Sie unter Join-Condition die Join-Bedingung fest, um die Spalte State im Knoten Wrangler mit der Spalte name im Knoten BigQuery zu verknüpfen.
    4. Generieren Sie das Schema des resultierenden Joins. Klicken Sie auf Schema abrufen.
    5. Klicken Sie auf die Schaltfläche X.

Ausgabe in BigQuery speichern

Speichern Sie das Ergebnis der Pipeline in einer BigQuery-Tabelle. Der Ort, an dem Sie die Daten speichern, wird als Senke bezeichnet.

  1. Klicken Sie in Pipeline Studio links im Abschnitt Plug-in auf Sink (Senke).
  2. Klicken Sie auf BigQuery-Table.
  3. Verbinden Sie den Knoten Joiner mit dem Knoten BigQuery Table.
  4. Bewegen Sie den Mauszeiger auf den Knoten BigQuery Table und klicken Sie auf Properties.
    1. Geben Sie unter Reference Name den Wert customer_data_abbreviated_states ein.
    2. Geben Sie unter Dataset den Wert dis_user_guide ein.
    3. Wählen Sie unter Table die Option customer_data_abbreviated_states aus.
    4. Klicken Sie auf die Schaltfläche X.

Pipeline bereitstellen und ausführen

  1. Klicken Sie in Pipeline Studio auf Name your pipeline und geben Sie CampaignPipeline ein.
  2. Klicken Sie oben rechts auf Deploy (Bereitstellen).
  3. Klicken Sie nach Abschluss der Bereitstellung auf Ausführen. Die Ausführung der Pipeline kann einige Minuten dauern. In der Zwischenzeit können Sie den Status des Pipelineübergangs von Bereitstellung, Start und Aktiv zu Bereitstellung aufheben auf Erfolgreich beobachten.

Ergebnisse aufrufen

  1. Fragen Sie die Tabelle campaign_targets in der BigQuery-UI ab.

    Zur BigQuery-UI

  2. Ersetzen Sie dabei in der Abfrage unten den Projektnamen durch Ihren eigenen Projektnamen.

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.

So löschen Sie das Projekt:

  1. Wechseln Sie in der Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Löschen Sie die Cloud Data Fusion-Instanz.

Folgen Sie der Anleitung, um die Cloud Data Fusion-Instanz zu löschen.

Löschen Sie das BigQuery-Dataset:

So löschen Sie das BigQuery-Dataset, das Sie im Rahmen dieser Anleitung erstellt haben:

  1. Rufen Sie in der Cloud Console die BigQuery-Seite auf.

    Weiter zur BigQuery-Seite

  2. Wählen Sie das dis_user_guideDataset aus.
  3. Klicken Sie auf Dataset löschen.

Nächste Schritte