Membuat pipeline kampanye target
Pelajari cara menggunakan Cloud Data Fusion untuk membersihkan, mentransformasi, dan memproses data pelanggan guna memilih kandidat untuk kampanye target.
Jika ingin mengikuti panduan langkah demi langkah untuk tugas ini langsung di Konsol Google Cloud, klik Pandu saya:
Skenario
Anda ingin membuat materi pemasaran kustom untuk promosi kampanye yang sedang berlangsung, dan ingin mendistribusikan materi tersebut langsung ke kotak surat rumah pelanggan.
Kampanye Anda memiliki dua batasan:
- Lokasi: Anda hanya mengirimkan ke pelanggan di California, Washington, dan Oregon.
- Biaya: Untuk menghemat bahan bakar, Anda mengirimkan ke rumah pelanggan yang dapat diakses dengan cepat. Anda hanya mengirim ke pelanggan yang tinggal di jalan raya.
Tutorial ini menunjukkan cara membuat daftar alamat pelanggan untuk kampanye. Dalam tutorial ini, Anda akan melakukan beberapa hal berikut:
- Bersihkan data pelanggan: filter pelanggan yang tinggal di jalan di California, Washington, atau Oregon.
Buat pipeline yang melakukan hal berikut:
- Menggabungkan data pelanggan yang difilter dengan set data publik yang berisi singkatan negara bagian.
- Menyimpan data yang dibersihkan dan digabungkan dalam tabel BigQuery yang dapat Anda buat kuerinya (menggunakan antarmuka web BigQuery) atau analisis (menggunakan Looker Studio).
Tujuan
- Menghubungkan Cloud Data Fusion ke dua sumber data
- Menerapkan transformasi dasar
- Menggabungkan kedua sumber data
- Menulis data output ke sink
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.
-
Buat instance Cloud Data Fusion.
Tutorial ini mengasumsikan bahwa Anda menggunakan akun layanan Compute Engine default.
Kelola izin
Buat dan tetapkan peran dan izin khusus yang diperlukan.
Membuat peran khusus dan menambahkan izin
Di konsol Google Cloud, buka halaman Roles:
Klik
Buat peran.Di kolom Title, masukkan
Custom Role-Tutorial
.Klik
Tambahkan izin.Di jendela Add permissions, pilih izin berikut, lalu klik Add:
bigquery.datasets.create
bigquery.jobs.create
storage.buckets.create
Klik Create.
Menetapkan peran khusus ke akun layanan Compute Engine default
Buka halaman Instance Cloud Data Fusion:
Klik nama instance Anda.
Catat Akun Layanan Dataproc default. Halaman detail instance berisi informasi ini.
Berikut adalah format nama akun layanan Dataproc:
CUSTOMER_PROJECT_NUMBER-compute@developer.gserviceaccount.com
.Pelajari akun layanan Dataproc lebih lanjut.
Buka halaman IAM:
Di panel Filter, masukkan nama akun layanan Dataproc default Anda.
Untuk akun layanan Compute Engine default, klik
Edit.Klik
Tambahkan peran lain.Di kolom Select a role, pilih Custom Role-Tutorial.
Klik Simpan.
Pastikan akun layanan sudah ditetapkan peran Runner Cloud Data Fusion.
Menyiapkan data pelanggan
Tutorial ini memerlukan dua set data input berikut, yang keduanya disediakan dengan instance Cloud Data Fusion Anda:
- Contoh data pelanggan: File CSV bernama
customers.csv
. - Singkatan negara bagian: Tabel BigQuery bernama
state_abbreviations
.
Memuat data pelanggan
Buka halaman Instance Cloud Data Fusion:
Untuk instance Cloud Data Fusion yang Anda gunakan, klik Lihat instance. Antarmuka web Cloud Data Fusion akan terbuka di tab baru.
Klik Wrangler. Halaman Wrangler akan terbuka.
Di panel Koneksi, GCS > Sample Buckets.
Klik campaign-tutorial.
Klik customers.csv.
Di jendela Parsing options, tentukan hal berikut:
- Format:
csv
- Aktifkan nilai yang diapit tanda kutip:
False
- Gunakan baris pertama sebagai header:
False
- File-encoding:
UTF-8
- Format:
Klik Konfirmasi. Data pelanggan dimuat di tab baru di Wrangler.
Membersihkan data pelanggan
Tahap ini berisi dua sub-tugas:
- Menetapkan skema
- Memfilter data pelanggan untuk hanya menampilkan target audiens yang Anda butuhkan
Menetapkan skema
Tetapkan skema data dengan menetapkan nama yang sesuai ke kolom
tabel. Untuk memberi kolom, seperti body_1
dan body_2
, nama yang lebih informatif, ikuti langkah-langkah berikut:.
- Di panel kanan, klik tab Kolom.
- Klik drop-down Nama kolom, lalu pilih Tetapkan semua.
Pada dialog Bulk set column names, masukkan nama kolom berikut yang dipisahkan koma:
Name,StreetAddress,City,State,Country
Klik Terapkan.
Memfilter data
Filter data untuk hanya menampilkan pelanggan yang tinggal di California, Oregon, atau Washington.
Hapus semua baris yang berisi nilai selain status tersebut:
- Klik drop-down kolom Status, lalu pilih Filter.
Di jendela filter, lakukan tindakan berikut:
- Klik Simpan baris.
- Klik drop-down Jika, lalu pilih nilai cocok dengan ekspresi reguler.
Masukkan ekspresi reguler berikut:
^(California|Oregon|Washington)$
Klik Terapkan.
Nilai di kolom Status adalah California, Oregon, atau Washington.
Filter data untuk hanya menampilkan pelanggan yang tinggal di jalan raya. Hanya simpan alamat yang berisi string Avenue
:
- Klik drop-down kolom StreetAddress, lalu pilih Filter.
- Di jendela filter, lakukan tindakan berikut:
- Klik Simpan baris.
- Klik drop-down Jika, pilih value contains, lalu masukkan
Avenue
. - Pilih Abaikan huruf besar/kecil.
- Klik Terapkan.
Sebelum melakukan tugas pemrosesan paralel di seluruh set data, Wrangler hanya menampilkan 1.000 nilai pertama set data Anda. Karena Anda memfilter beberapa data, hanya beberapa pelanggan yang tetap ditampilkan di Wrangler.
Membuat pipeline batch
Anda telah membersihkan data dan menjalankan transformasi pada sebagian data. Sekarang Anda dapat membuat pipeline batch untuk menjalankan transformasi pada seluruh set data.
Cloud Data Fusion menerjemahkan pipeline yang Anda build di Studio menjadi program Apache Spark yang menjalankan transformasi secara paralel di cluster Dataproc sementara. Proses ini memungkinkan Anda menjalankan transformasi kompleks pada data dalam jumlah besar dengan cara yang skalabel dan andal, tanpa harus menangani infrastruktur.
- Di halaman Wrangler, klik Create a pipeline.
- Pilih Pipeline batch. Halaman Studio akan terbuka.
Di halaman Studio, node sumber GCSFile terhubung ke node Wrangler.
Transformasi yang Anda terapkan di halaman Wrangler akan muncul di node Wrangler di halaman Studio.
Untuk melihat transformasi yang Anda terapkan, arahkan kursor ke node Wrangler, lalu klik Properties.
Transformasi yang Anda terapkan akan muncul di Perintah.
Klik Validasi.
Klik
Tutup.
Misalnya, Anda menyadari bahwa kolom Country tidak diperlukan karena nilainya
selalu USA
. Anda dapat menghapus kolom dengan mengikuti langkah-langkah berikut:
- Klik Wrangle.
- Klik panah bawah di samping Negara, lalu pilih Hapus Kolom.
- Klik Terapkan. Halaman Wrangler akan tertutup dan jendela Wrangler Properties
akan terbuka di halaman Studio. Di Perintah,
drop Country
akan muncul. - Klik Tutup.
Menyingkat nama negara bagian
Sistem navigasi di kendaraan pengiriman Anda hanya mengenali alamat yang berisi nama negara bagian yang disingkat (CA, bukan California), dan data pelanggan Anda berisi nama negara bagian lengkap.
Tabel state_abbreviations
BigQuery publik berisi dua kolom: satu dengan nama negara bagian lengkap dan satu lagi dengan nama negara bagian singkat.
Anda dapat menggunakan tabel ini untuk memperbarui nama negara bagian dalam data pelanggan.
Melihat data nama negara bagian di BigQuery
Di tab terpisah, buka halaman BigQuery Studio:
Klik Buat kueri SQL dan masukkan kueri berikut di editor kueri:
SELECT * FROM `dis-user-guide.campaign_tutorial.state_abbreviations`
Klik Run.
BigQuery menampilkan daftar nama negara bagian dan singkatannya.
Mengakses tabel BigQuery
Tambahkan sumber di pipeline yang akan mengakses tabel state_abbreviations
BigQuery.
- Buka halaman Cloud Data Fusion Studio dan luaskan menu Sumber.
Klik BigQuery.
Node sumber BigQuery akan muncul di kanvas, bersama dengan dua node lainnya.
Arahkan kursor ke node sumber BigQuery, lalu klik Properti.
- Di kolom Dataset Project ID, masukkan
dis-user-guide
. - Di kolom Reference Name, masukkan
state_abbreviations
. - Di kolom Set data, masukkan
campaign_tutorial
. - Di kolom Tabel, masukkan
state_abbreviations
.
- Di kolom Dataset Project ID, masukkan
Isi skema tabel dari BigQuery dengan mengklik Get Schema.
Klik
Tutup.
Menggabungkan kedua sumber data
Untuk menghasilkan output yang berisi data pelanggan dengan nama negara bagian yang disingkat, gabungkan dua sumber data, data pelanggan, dan singkatan negara bagian.
- Buka halaman Studio Cloud Data Fusion dan luaskan menu Analytics.
Klik Penggabung.
Node Joiner, yang mewakili tindakan yang mirip dengan Join SQL, muncul di kanvas.
Hubungkan node Wrangler dan node BigQuery ke node Joiner: Tarik panah koneksi di tepi kanan node sumber dan lepaskan ke node tujuan.
Arahkan kursor ke node Joiner, lalu klik Properties.
Di bagian Kolom, luaskan Wrangler dan BigQuery.
- Hapus centang pada kotak status Wrangler.
- Hapus centang pada kotak name BigQuery karena Anda hanya ingin nama negara bagian yang disingkat, bukan nama negara bagian lengkap.
Biarkan kotak centang singkatan BigQuery tetap dicentang, dan ubah alias menjadi
State
.
Di kolom Join Type, biarkan nilainya sebagai Outer. Untuk Input yang diperlukan, centang kotak Wrangler.
Di bagian Join condition, untuk Wrangler, pilih State. Untuk BigQuery, pilih name.
Buat skema join yang dihasilkan. Klik Dapatkan Skema.
Klik Validasi.
Klik
Tutup.
Menyimpan output ke BigQuery
Simpan hasil pipeline Anda ke dalam tabel BigQuery. Tempat Anda menyimpan data disebut sink.
- Buka halaman Cloud Data Fusion Studio dan luaskan Sink.
- Klik BigQuery.
Hubungkan node Joiner ke node BigQuery.
Arahkan kursor ke node BigQuery, lalu klik Properties.
- Di kolom Set data, masukkan
dis_user_guide
. - Di kolom Table, pilih
customer_data_abbreviated_states
. - Klik Tutup.
- Di kolom Set data, masukkan
Men-deploy dan menjalankan pipeline
- Di halaman Studio, klik Beri nama pipeline Anda, lalu masukkan
CampaignPipeline
. - Klik Simpan.
- Di pojok kanan atas, klik Deploy.
- Setelah deployment selesai, klik Run.
Menjalankan pipeline dapat memerlukan waktu beberapa menit. Sambil menunggu, Anda dapat mengamati Status transisi pipeline dari Penyediaan > Dimulai > Berjalan > Penghentian penyediaan > Berhasil.
Melihat hasil
Di konsol Google Cloud, buka halaman BigQuery:
Klik Buat kueri SQL.
Buat kueri tabel
customer_data_abbreviated_states
:SELECT * FROM dis_user_guide.customer_data_abbreviated_states LIMIT 1000
Anda telah berhasil membuat pipeline data.
Pembersihan
Agar tidak menimbulkan biaya pada akun Google Cloud Anda untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.
Menghapus set data BigQuery
Untuk menghapus set data BigQuery yang Anda buat dalam tutorial ini, lakukan hal berikut:
- Di konsol Google Cloud, buka halaman BigQuery.
- Pilih set data
dis_user_guide
. - Klik delete Hapus set data.
Menghapus instance Cloud Data Fusion
Ikuti petunjuk ini untuk menghapus instance Cloud Data Fusion.
Menghapus project
Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.
Untuk menghapus project:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Langkah selanjutnya
- Pelajari Cloud Data Fusion lebih lanjut.