Zielkampagnenpipeline erstellen
Informationen zum Bereinigen, Transformieren und Verarbeiten mit Cloud Data Fusion Kundendaten, um Kandidaten für eine angezielte Kampagne auszuwählen.
Klicken Sie auf Anleitung, um eine detaillierte Anleitung für diese Aufgabe direkt in der Google Cloud Console aufzurufen.
Szenario
Sie möchten benutzerdefinierte Marketingmaterialien für eine laufende Werbekampagne erstellen und die Materialien direkt an die privaten Briefkästen Ihrer Kunden verteilen.
Ihre Kampagne unterliegt zwei Einschränkungen:
- Standort: Sie liefern nur an Kunden in Kalifornien, Washington und Oregon.
- Kosten: Um Kraftstoff zu sparen, liefern Sie an leicht zu erreichende Kunden. Sie liefern nur an Kunden, die in Avenues leben.
In dieser Anleitung erfahren Sie, wie Sie die Liste der Kundenadressen für die Kampagne generieren. In dieser Anleitung tun Sie Folgendes:
- Bereinigen Sie die Kundendaten: Filtern Sie Kunden, die in einer Avenue in Kalifornien, Washington oder Oregon leben.
Erstellen Sie eine Pipeline, die Folgendes ausführt:
- Die gefilterten Kundendaten werden mit einem öffentlichen Dataset verknüpft, das Abkürzungen der Bundesstaaten enthält.
- die bereinigten und verbundenen Daten in einer BigQuery-Tabelle speichert. Diese können Sie über die Web-Oberfläche von BigQuery abfragen oder mithilfe von Looker Studio analysieren.
Lernziele
- Cloud Data Fusion mit zwei Datenquellen verbinden
- Grundlegende Transformationen anwenden
- Die beiden Datenquellen miteinander verbinden
- Ausgabedaten in eine Senke schreiben
Hinweise
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.
- Erstellen Sie eine Cloud Data Fusion-Instanz.
In dieser Anleitung wird davon ausgegangen, dass Sie den Compute Engine-Standarddienst verwenden. Konto.
Berechtigungen verwalten
Erstellen Sie die erforderlichen benutzerdefinierten Rollen und Berechtigungen und weisen Sie sie zu.
Benutzerdefinierte Rolle erstellen und Berechtigungen hinzufügen
Öffnen Sie in der Google Cloud Console die Seite Rollen.
Klicken Sie auf
Rolle erstellen.Geben Sie im Feld Titel
Custom Role-Tutorial
ein.Klicken Sie auf
Berechtigungen hinzufügen.Wählen Sie im Fenster Berechtigungen hinzufügen die folgenden Berechtigungen aus und klicken Sie auf Hinzufügen:
bigquery.datasets.create
bigquery.jobs.create
storage.buckets.create
Klicken Sie auf Erstellen.
Dem Compute Engine-Standarddienstkonto eine benutzerdefinierte Rolle zuweisen
Rufen Sie die Seite Cloud Data Fusion-Seite Instanzen auf.
Klicken Sie auf den Namen Ihrer Instanz.
Notieren Sie sich das standardmäßige Dataproc-Dienstkonto. Die Seite mit den Instanzdetails enthält diese Informationen.
Der Name des Dataproc-Dienstkontos hat folgendes Format:
CUSTOMER_PROJECT_NUMBER-compute@developer.gserviceaccount.com
.Rufen Sie die IAM-Seite auf.
Geben Sie in der Filterleiste den Namen Ihres Dataproc-Standarddienstkontos ein.
Klicken Sie für Ihr Compute Engine-Standarddienstkonto auf
Bearbeiten.Klicken Sie auf
Weitere Rolle hinzufügen.Wählen Sie im Feld Rolle auswählen die Option Anleitung für benutzerdefinierte Rollen aus.
Klicken Sie auf Speichern.
Achten Sie darauf, dass dem Dienstkonto bereits die Rolle „Cloud Data Fusion-Runner“ zugewiesen ist.
Kundendaten vorbereiten
Für diese Anleitung werden die folgenden zwei Eingabe-Datasets benötigt, die beide mit Ihrer Cloud Data Fusion-Instanz bereitgestellt werden:
- Beispiel-Kundendaten: Eine CSV-Datei mit dem Namen
customers.csv
. - Abkürzungen der Bundesstaaten: Eine BigQuery-Tabelle mit dem Namen
state_abbreviations
.
Kundendaten laden
Rufen Sie die Seite Cloud Data Fusion-Seite Instanzen auf.
Klicken Sie für die verwendete Cloud Data Fusion-Instanz auf Instanz anzeigen. Die Weboberfläche von Cloud Data Fusion wird in einem neuen Tab geöffnet.
Klicken Sie auf Wrangler. Die Seite Wrangler wird geöffnet.
Klicken Sie im Bereich Verbindungen auf GCS > Beispiel-Buckets.
Klicken Sie auf campaign-tutorial.
Klicken Sie auf customers.csv.
Geben Sie im Fenster Parsing-Optionen Folgendes an:
- Format:
csv
- Wert in Anführungszeichen aktivieren:
False
- Erste Zeile als Kopfzeile verwenden::
False
- Dateicodierung:
UTF-8
- Format:
Klicken Sie auf Bestätigen. Kundendaten werden in einen neuen Tab in Wrangler geladen.
Kundendaten bereinigen
Dies umfasst zwei Unteraufgaben:
- Schema festlegen
- Kundendaten filtern, um nur die gewünschte Zielgruppe zu präsentieren
Das Schema festlegen
Legen Sie das Schema der Daten fest, indem Sie den Tabellenspalten passende Namen zuweisen. So geben Sie den Spalten wie body_1
und body_2
aussagekräftigere Namen:
- Klicken Sie rechts auf den Tab Spalten.
- Klicken Sie auf das Drop-down-Menü Spaltennamen und wählen Sie Alle festlegen aus.
Geben Sie im Dialogfeld Spaltennamen im Bulk festlegen die folgenden kommagetrennten Spaltennamen ein:
Name,StreetAddress,City,State,Country
Klicken Sie auf Anwenden.
Daten filtern
Filtern Sie die Daten, um nur Kunden zu sehen, die in Kalifornien, Oregon, oder Washington leben.
Entfernen Sie alle Zeilen, die andere Werte als diese Staaten enthalten:
- Klicken Sie auf das Drop-down-Menü der Spalte Staat und wählen Sie Filter aus.
Gehen Sie im Filterfenster folgendermaßen vor:
- Klicken Sie auf Keep rows.
- Klicken Sie auf das Drop-down-Menü Wenn und wählen Sie Wert stimmt mit regulärem Ausdruck überein aus.
Geben Sie den folgenden regulären Ausdruck ein: .
^(California|Oregon|Washington)$
Klicken Sie auf Anwenden.
Die Werte in der Spalte Staat sind Kalifornien, Oregon oder Washington.
Filtern Sie die Daten, um nur Kunden anzuzeigen, die in Avenues leben. Behalten Sie nur die Adressen bei, die den String Avenue
enthalten:
- Klicken Sie auf das Drop-down-Menü der Spalte StreetAddress und wählen Sie StreetAddress aus.
- Gehen Sie im Filterfenster folgendermaßen vor:
- Klicken Sie auf Keep rows.
- Wählen Sie im Drop-down-Menü If die Option value contains aus und geben Sie
Avenue
ein. - Wählen Sie Ignore case (Groß-/Kleinschreibung ignorieren) aus.
- Klicken Sie auf Anwenden.
Bevor Sie parallele Verarbeitungsjobs für Ihr gesamtes Dataset ausführen, zeigt Wrangler nur die ersten 1.000 Werte Ihres Datasets an. Da Sie einige Daten gefiltert haben, bleiben nur wenige Kunden in der Wrangler-Anzeige.
Batchpipeline erstellen
Sie haben Ihre Daten bereinigt und für eine Teilmenge Ihrer Daten Transformationen ausgeführt. Sie können nun eine Batchpipeline erstellen, um Transformationen für Ihr gesamtes Dataset auszuführen.
Cloud Data Fusion überträgt die im Studio erstellte Pipeline in ein Apache Spark-Programm, das Transformationen in einem sitzungsspezifischen Dataproc-Cluster parallel ausführt. Bei diesem Prozess können Sie komplexe Transformationen an großen Datenmengen in einer skalierbaren, ohne sich um die Infrastruktur kümmern zu müssen.
- Klicken Sie auf der Wrangler-Seite auf Pipeline erstellen.
- Wählen Sie Batch-Pipeline aus. Die Studio-Seite wird geöffnet.
Auf der Studio-Seite ist ein GCSFile-Quellknoten mit einem GCSFile-Knoten verbunden.
Die auf der Wrangler-Seite angewendeten Transformationen werden im Wrangler-Knoten der Studio-Seite angezeigt.
Bewegen Sie den Mauszeiger über den Knoten Wrangler und klicken Sie auf Eigenschaften, um die angewendeten Transformationen anzuzeigen.
Die angewendeten Transformationen werden in den Anweisungen angezeigt.
Klicke auf Validieren.
Klicken Sie auf
Schließen.
Beispielsweise ist die Spalte Land nicht erforderlich, da der Wert immer USA
ist. So löschen Sie die Spalte:
- Klicken Sie auf Wrangler.
- Klicken Sie neben Country auf den Abwärtspfeil und wählen Sie Delete Column aus.
- Klicken Sie auf Anwenden. Die Wrangler-Seite wird geschlossen und das Fenster „Wrangler-Properties“ wird auf der Studio-Seite geöffnet. In den Anweisungen wird
drop Country
angezeigt. - Klicken Sie auf Schließen.
Namen der Bundesstaaten abkürzen
Das Navigationssystem in Ihrem Lieferfahrzeug erkennt nur Adressen, die gekürzte Namen der Bundesstaaten enthalten (CA, nicht Kalifornien), und Ihre Kundendaten enthalten vollständige Namen der Bundesstaaten.
Die öffentliche BigQuery-Tabelle state_abbreviations
enthält zwei Spalten: eine mit den vollständigen Namen der Bundesstaaten und eine mit den Abkürzungen.
Mithilfe dieser Tabelle können Sie die Namen der Bundesstaaten in Ihren Kundendaten aktualisieren.
Zeigen Sie die Daten zu den Bundesstaatnamen in BigQuery an
Rufen Sie die BigQuery Studio-Seite in einem separaten Tab auf:
Klicken Sie auf SQL-Abfrage erstellen und geben Sie die folgende Abfrage in den Abfrageeditor ein:
SELECT * FROM `dis-user-guide.campaign_tutorial.state_abbreviations`
Klicken Sie auf Ausführen.
BigQuery zeigt eine Liste mit Namen von Bundesstaaten und deren Abkürzungen.
Greifen Sie auf die BigQuery-Tabelle zu
Fügen Sie der Pipeline eine Quelle hinzu, um auf diese BigQuery-Tabelle state_abbreviations
zuzugreifen.
- Rufen Sie die Cloud Data Fusion Studio-Seite auf und maximieren Sie das Menü Quelle.
Klicken Sie auf BigQuery.
Im Canvas wird ein BigQuery-Quellknoten und die beiden anderen Knoten angezeigt.
Halten Sie den Mauszeiger auf den Quellknoten BigQuery und klicken Sie auf Properties.
- Geben Sie im Feld Dataset-Projekt-ID den Wert
dis-user-guide
ein. - Geben Sie im Feld Referenzname
state_abbreviations
ein. - Geben Sie im Feld Dataset den Wert
campaign_tutorial
ein. - Geben Sie im Feld Tabelle den Wert
state_abbreviations
ein.
- Geben Sie im Feld Dataset-Projekt-ID den Wert
Füllen Sie das Schema der Tabelle aus BigQuery, indem Sie auf Get Schema klicken.
Klicken Sie auf
Schließen.
Die beiden Datenquellen miteinander verbinden
Verbinden Sie die beiden Datenquellen, die Kundendaten und die Abkürzungen der Bundesstaaten, um eine Ausgabe zu generieren, die Kundendaten mit abgekürzten Namen der Bundesstaaten enthält.
- Rufen Sie die Cloud Data Fusion Studio-Seite auf und maximieren Sie das Menü Analysen.
Klicken Sie auf Joiner.
Auf dem Canvas wird ein Joiner-Knoten angezeigt, der eine ähnliche Aktion wie ein SQL-Join darstellt.
Verbinden Sie den Wrangler-Knoten und den BigQuery -Knoten mit dem Joiner- Knoten: Ziehen Sie einen Verbindungspfeil am rechten Ecke des Quellknotens und legen Sie ihn auf dem Zielknoten ab.
Halten Sie den Mauszeiger über den Knoten Joiner und klicken Sie auf Attribute.
Maximieren Sie im Bereich Felder die Option Wrangler und BigQuery.
- Entfernen Sie das Häkchen aus dem Wrangler-Kästchen state.
- Entfernen Sie das Häkchen aus dem Kästchen Name von BigQuery, da Sie nur den abgekürzten Namen des Bundesstaats und nicht den vollständigen Bundesstaat verwenden möchten.
Lassen Sie das Kästchen BigQuery-Abkürzung angeklickt und ändern Sie den Alias in
State
.
Behalten Sie im Feld Join Type den Wert Outer bei. Klicken Sie unter Erforderliche Eingaben das Kästchen Wrangler an.
Wählen Sie im Abschnitt Join-Bedingung für Wrangler die Option Status aus. Wählen Sie für BigQuery Name aus.
Generieren Sie das Schema des resultierenden Joins. Klicken Sie auf Schema abrufen.
Klicke auf Validieren.
Klicken Sie auf
Schließen.
Ausgabe in BigQuery speichern
Speichern Sie das Ergebnis der Pipeline in einer BigQuery-Tabelle. Der Ort, an dem Sie die Daten speichern, wird als Senke bezeichnet.
- Rufen Sie die Seite „Cloud Data Fusion Studio“ auf und maximieren Sie Senke.
- Klicken Sie auf BigQuery.
Verbinden Sie den Joiner-Knoten mit dem BigQuery-Knoten.
Halten Sie den Mauszeiger über den Knoten BigQuery und klicken Sie auf Attribute.
- Geben Sie im Feld Dataset den Wert
dis_user_guide
ein. - Wählen Sie im Feld Tabelle die Option
customer_data_abbreviated_states
aus. - Klicken Sie auf Schließen.
- Geben Sie im Feld Dataset den Wert
Pipeline bereitstellen und ausführen
- Klicken Sie auf der Studio-Seite auf Pipeline benennen und geben Sie
CampaignPipeline
ein. - Klicken Sie auf Speichern.
- Klicken Sie oben rechts auf Deploy (Bereitstellen).
- Klicken Sie nach Abschluss der Bereitstellung auf Ausführen.
Die Ausführung der Pipeline kann einige Minuten dauern. Während Sie warten, können Sie beobachten, wie Status des Pipeline von Wird bereitgestellt > Wird gestartet > Wird ausgeführt > Bereitstellung wird aufgehoben > Erfolgreich wechselt.
Ergebnisse aufrufen
Öffnen Sie in der Google Cloud Console die Seite "BigQuery":
Klicken Sie auf SQL-Abfrage erstellen.
Tabelle
customer_data_abbreviated_states
abfragenSELECT * FROM dis_user_guide.customer_data_abbreviated_states LIMIT 1000
Sie haben einen Daten-Pipeline erstellt
Bereinigen
Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:
BigQuery-Dataset löschen
So löschen Sie das BigQuery-Dataset, das Sie in dieser Anleitung erstellt haben:
- Rufen Sie in der Google Cloud Console die Seite „BigQuery“ auf.
- Wählen Sie das
dis_user_guide
Dataset aus. - Klicken Sie auf delete Dataset löschen.
Löschen Sie die Cloud Data Fusion-Instanz.
Folgen Sie der Anleitung, um die Cloud Data Fusion-Instanz zu löschen.
Projekt löschen
Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.
So löschen Sie das Projekt:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Nächste Schritte
- Weitere Informationen zu Cloud Data Fusion