Membuat pipeline kampanye target

Pelajari cara menggunakan Cloud Data Fusion untuk membersihkan, mengubah, dan memproses data pelanggan guna memilih kandidat untuk kampanye target.


Jika ingin mengikuti panduan langkah demi langkah untuk tugas ini langsung di Konsol Google Cloud, klik Pandu saya:

Pandu saya


Skenario

Anda ingin membuat materi pemasaran kustom untuk promosi kampanye berkelanjutan, dan mendistribusikan materi tersebut langsung ke kotak surat rumah pelanggan.

Kampanye Anda memiliki dua batasan:

  • Lokasi: Anda hanya melakukan pengiriman ke pelanggan di California, Washington, dan Oregon.
  • Biaya: Untuk menghemat bahan bakar, Anda mengirim ke rumah pelanggan yang dapat diakses dengan cepat. Anda melakukan pengiriman hanya kepada pelanggan yang tinggal di lokasi.

Tutorial ini menunjukkan cara membuat daftar alamat pelanggan untuk kampanye. Dalam tutorial ini, Anda akan melakukan beberapa hal berikut:

  1. Bersihkan data pelanggan: filter pelanggan yang berdomisili di California, Washington, atau Oregon.
  2. Buat pipeline yang melakukan hal berikut:

    • Menggabungkan data pelanggan yang difilter dengan set data publik yang berisi singkatan negara.
    • Menyimpan data yang telah dibersihkan dan digabungkan dalam tabel BigQuery yang dapat dibuat kuerinya (dengan menggunakan antarmuka web BigQuery) atau dianalisis (dengan menggunakan Looker Studio).

Tujuan

  • Menghubungkan Cloud Data Fusion ke dua sumber data
  • Menerapkan transformasi dasar
  • Menggabungkan kedua sumber data
  • Menulis data output ke sink

Sebelum memulai

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Aktifkan API Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc.

    Mengaktifkan API

  7. Membuat instance Cloud Data Fusion.
    Tutorial ini mengasumsikan bahwa Anda menggunakan akun layanan Compute Engine default.

Kelola izin

Buat serta tetapkan peran dan izin khusus yang diperlukan.

Membuat peran khusus dan menambahkan izin

  1. Di konsol Google Cloud, buka halaman Roles:

    Buka halaman Peran

  2. Klik Buat peran.

  3. Di kolom Title, masukkan Custom Role-Tutorial.

  4. Klik Tambahkan izin.

  5. Di jendela Add permissions, pilih izin berikut, lalu klik Add:

    • bigquery.datasets.create
    • bigquery.jobs.create
    • storage.buckets.create
  6. Klik Create.

Menetapkan peran khusus ke akun layanan Compute Engine default

  1. Buka halaman Instance Cloud Data Fusion:

    Membuat instance

  2. Klik nama instance Anda.

  3. Catat Akun Layanan Dataproc default. Halaman detail instance berisi informasi ini.

    Berikut adalah format nama akun layanan Dataproc:

    CUSTOMER_PROJECT_NUMBER-compute@developer.gserviceaccount.com.

    Pelajari akun layanan Dataproc lebih lanjut.

  4. Buka halaman IAM:

    Buka halaman Peran

  5. Di panel Filter, masukkan nama akun layanan Dataproc default Anda.

  6. Untuk akun layanan Compute Engine default Anda, klik Edit.

  7. Klik Tambahkan peran lain.

  8. Di kolom Select a role, pilih Custom Role-Tutorial.

  9. Klik Simpan.

  10. Pastikan akun layanan sudah diberi peran Cloud Data Fusion Runner.

Menyiapkan data pelanggan

Tutorial ini memerlukan dua set data input berikut, yang keduanya disediakan bersama instance Cloud Data Fusion Anda:

  • Contoh data pelanggan: File CSV bernama customers.csv.
  • Singkatan status: Tabel BigQuery bernama state_abbreviations.

Memuat data pelanggan

  1. Buka halaman Instance Cloud Data Fusion:

    Buka Instance

  2. Untuk instance Cloud Data Fusion yang Anda gunakan, klik View instance. Antarmuka web Cloud Data Fusion akan terbuka di tab baru.

  3. Klik Wrangler. Halaman Wrangler akan terbuka.

  4. Di panel Connections, GCS > Sample Buckets.

  5. Klik tutorial kampanye.

  6. Klik customers.csv.

  7. Di jendela Parsing options, tentukan hal berikut:

    • Format: csv
    • Aktifkan nilai kutipan: False
    • Gunakan baris pertama sebagai header: False
    • Encoding file: UTF-8
  8. Klik Confirm. Data pelanggan dimuat di tab baru di Wrangler.

    Data pelanggan yang dimuat

Membersihkan data pelanggan

Ini berisi dua sub-tugas:

  • Menetapkan skema
  • Memfilter data pelanggan untuk menampilkan target audiens yang Anda perlukan saja

Menetapkan skema

Tetapkan skema data dengan menetapkan nama yang sesuai ke kolom tabel. Untuk memberikan nama yang lebih informatif untuk kolom, seperti body_1 dan body_2, ikuti langkah-langkah berikut:

  1. Di panel kanan, klik tab Columns.
  2. Klik drop-down Nama kolom dan pilih Set all.
  3. Pada dialog Bulk set column names, masukkan nama kolom berikut yang dipisahkan koma:

    Name,StreetAddress,City,State,Country
    
  4. Klik Apply.

Memfilter data

Filter data agar hanya menampilkan pelanggan yang tinggal di California, Oregon, atau Washington.

Hapus semua baris yang berisi nilai selain status tersebut:

  1. Klik drop-down kolom State lalu pilih Filter.
  2. Di jendela filter, lakukan tindakan berikut:

    1. Klik Pertahankan baris.
    2. Klik drop-down Jika, lalu pilih nilai cocok dengan ekspresi reguler.
    3. Masukkan ekspresi reguler berikut:

      ^(California|Oregon|Washington)$
      
    4. Klik Apply.

    Nilai di kolom Negara Bagian adalah California, Oregon, atau Washington.

Filter data agar hanya menampilkan pelanggan yang tinggal di jalan. Hanya simpan alamat yang berisi string avenue:

  1. Klik drop-down kolom StreetAddress, lalu pilih Filter.
  2. Di jendela filter, lakukan tindakan berikut:

    1. Klik Pertahankan baris.
    2. Klik drop-down Jika, pilih nilai berisi, dan masukkan Avenue.
    3. Pilih Abaikan huruf besar/kecil.
    4. Klik Apply.

      Memfilter data

Sebelum melakukan tugas pemrosesan paralel di seluruh set data, Wrangler hanya menampilkan 1.000 nilai pertama set data Anda. Karena Anda memfilter beberapa data, hanya beberapa pelanggan yang tetap berada di layar Wrangler.

Membuat pipeline batch

Anda telah membersihkan data dan menjalankan transformasi pada subset data Anda. Anda kini dapat membuat pipeline batch untuk menjalankan transformasi di seluruh set data.

Cloud Data Fusion menerjemahkan pipeline yang Anda build di Studio menjadi program Apache Spark yang menjalankan transformasi secara paralel pada cluster Dataproc efemeral. Proses ini memungkinkan Anda mengeksekusi transformasi kompleks atas sejumlah besar data dengan cara yang skalabel dan andal, tanpa harus menangani infrastruktur.

  1. Di halaman Wrangler, klik Create a pipeline.
  2. Pilih Pipeline batch. Halaman Studio akan terbuka.
  3. Di kiri atas, pastikan Pipeline Data - Batch ditampilkan sebagai jenis pipeline.

    Jenis pipeline

    Di halaman Studio, node sumber GCSFile terhubung ke node Wrangler.

    Node GCSFile yang terhubung ke node Wrangler

    Transformasi yang Anda terapkan pada halaman Wrangler akan muncul di node Wrangler pada halaman Studio.

  4. Untuk melihat transformasi yang Anda terapkan, tahan kursor ke node Wrangler, lalu klik Properties.

    Transformasi yang Anda terapkan akan muncul di Directives.

    Melihat transformasi yang diterapkan

  5. Klik Validasi.

  6. Klik Tutup.

Anda dapat menerapkan lebih banyak transformasi dengan mengklik Wrangle, yang akan membawa Anda kembali ke halaman Wrangler. Transformasi yang Anda tambahkan akan muncul di halaman Studio.

Misalnya, Anda menyadari bahwa kolom Country tidak diperlukan karena nilainya selalu 'USA'. Hapus kolom tersebut dengan mengikuti langkah-langkah berikut:

  1. Klik Wrangle.
  2. Klik panah bawah di samping Country lalu pilih Delete Column.
  3. Klik Apply. Halaman Wrangler ditutup dan jendela Wrangler Properties terbuka di halaman Studio. Di Directives, drop Country akan muncul.
  4. Klik Tutup.

Singkat nama negara bagian

Sistem navigasi di kendaraan pengiriman Anda hanya mengenali alamat yang berisi nama negara bagian yang disingkat (CA, bukan California), dan data pelanggan Anda berisi nama negara bagian yang lengkap.

Tabel state_abbreviations BigQuery publik berisi dua kolom: satu dengan nama status lengkap dan satu lagi dengan nama status yang disingkat. Anda dapat menggunakan tabel ini untuk memperbarui nama negara bagian di data pelanggan.

Melihat data nama status di BigQuery

  1. Pada tab terpisah, buka halaman BigQuery Studio:

    Buka BigQuery

  2. Klik Buat kueri SQL dan masukkan kueri berikut di editor kueri:

    SELECT * FROM `dis-user-guide.campaign_tutorial.state_abbreviations`
    
  3. Klik Run.

    Kolom ini akan menampilkan nama negara bagian dan singkatannya.

    Nama negara bagian dan singkatannya

Mengakses tabel BigQuery

Tambahkan sumber di pipeline Anda yang akan mengakses tabel state_abbreviations BigQuery.

  1. Buka halaman Cloud Data Fusion Studio dan luaskan menu Sumber.
  2. Klik BigQuery.

    Node sumber BigQuery muncul di kanvas, bersama dengan dua node lainnya.

  3. Tahan kursor ke node sumber BigQuery, lalu klik Properties.

    1. Di kolom Dataset Project ID, masukkan dis-user-guide.
    2. Di kolom Reference Name, masukkan state_abbreviations.
    3. Di kolom Dataset, masukkan campaign_tutorial.
    4. Di kolom Table, masukkan state_abbreviations.
  4. Isi skema tabel dari BigQuery dengan mengklik Get Schema.

  5. Klik Tutup.

Menggabungkan kedua sumber data

Untuk menghasilkan output yang berisi data pelanggan dengan nama status yang disingkat, gabungkan dua sumber data, data pelanggan, dan singkatan status.

  1. Buka halaman Cloud Data Fusion Studio dan luaskan menu Analytics.
  2. Klik Penggabungan.

    Node Joiner, yang mewakili tindakan yang mirip dengan SQL Join, akan muncul di kanvas.

  3. Hubungkan node Wrangler dan node BigQuery ke node Joiner: Tarik panah koneksi di tepi kanan node sumber, lalu lepaskan ke node tujuan.

    Menggabungkan node Wrangler dan BigQuery ke node Joiner

  4. Tahan kursor ke node Joiner dan klik Properties.

    1. Di bagian Kolom, luaskan Wrangler dan BigQuery.

      1. Kosongkan kotak centang state Wrangler.
      2. Hapus centang pada kotak name BigQuery karena Anda hanya menginginkan nama status singkat, bukan nama status lengkap.
      3. Biarkan kotak centang singkatan BigQuery dipilih, lalu ubah alias menjadi State.

        Properti node joiner

    2. Di kolom Join Type, biarkan nilai sebagai Outer. Untuk Input yang diperlukan, centang kotak Wrangler.

    3. Di bagian Join condition, untuk Wrangler, pilih State. Untuk BigQuery, pilih Name.

    4. Buat skema gabungan yang dihasilkan. Klik Get Schema.

    5. Klik Validasi.

    6. Klik Tutup.

Menyimpan output ke BigQuery

Simpan hasil pipeline Anda ke dalam tabel BigQuery. Tempat Anda menyimpan data disebut {i>sink<i}.

  1. Buka halaman Cloud Data Fusion Studio dan luaskan Sink.
  2. Klik BigQuery.
  3. Hubungkan node Penggabungan ke node BigQuery.

    Menghubungkan node Joiner dan node BigQuery

  4. Tahan kursor ke node BigQuery, lalu klik Properties.

    1. Di kolom Dataset, masukkan dis_user_guide.
    2. Di kolom Table, pilih customer_data_abbreviated_states.
    3. Klik Tutup.

Men-deploy dan menjalankan pipeline

  1. Di halaman Studio, klik Name your pipeline dan masukkan CampaignPipeline.

    Men-deploy dan menjalankan pipeline

  2. Klik Oke.

  3. Di pojok kanan atas, klik Deploy.

  4. Setelah deployment selesai, klik Run.

Menjalankan pipeline dapat memerlukan waktu beberapa menit. Selagi menunggu, Anda dapat mengamati Status transisi pipeline dari Penyediaan > Mulai > Berjalan > Pencabutan Akses > Berhasil.

Melihat hasil

  1. Di konsol Google Cloud, buka halaman BigQuery:

    Buka BigQuery

  2. Klik Create SQL query.

  3. Buat kueri tabel customer_data_abbreviated_states:

    SELECT * FROM dis_user_guide.customer_data_abbreviated_states LIMIT 1000
    

    Melihat hasil

Anda telah berhasil membuat pipeline data.

Pembersihan

Agar akun Google Cloud Anda tidak dikenakan biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

Menghapus set data BigQuery

Untuk menghapus set data BigQuery yang Anda buat dalam tutorial ini, lakukan langkah berikut:

  1. Di konsol Google Cloud, buka halaman BigQuery.

    Buka BigQuery

  2. Pilih set data dis_user_guide.
  3. Klik Hapus set data.

Menghapus instance Cloud Data Fusion

Ikuti petunjuk ini untuk menghapus instance Cloud Data Fusion.

Menghapus project

Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.

Untuk menghapus project:

  1. Di konsol Google Cloud, buka halaman Manage resource.

    Buka Manage resource

  2. Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
  3. Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Langkah selanjutnya