Mengimplementasikan Datastream dan Dataflow untuk analisis

Datastream

Datastream mendukung streaming data dari database Oracle, MySQL, dan PostgreSQL langsung ke set data BigQuery. Namun, jika memerlukan kontrol lebih besar atas logika pemrosesan streaming, seperti transformasi data atau setelan manual kunci utama logis, Anda dapat mengintegrasikan Datastream dengan template tugas Dataflow.

Tutorial ini menunjukkan cara Datastream terintegrasi dengan Dataflow menggunakan template tugas Dataflow untuk melakukan streaming tampilan terwujud terbaru di BigQuery untuk analisis.

Untuk organisasi dengan banyak sumber data yang terisolasi, akses ke data perusahaan di seluruh organisasi, terutama secara real-time, dapat menjadi terbatas dan lambat. Hal ini membatasi kemampuan organisasi untuk introspeksi.

Datastream menyediakan akses yang mendekati real-time untuk mengubah data dari berbagai sumber data lokal dan berbasis cloud. Datastream memberikan pengalaman penyiapan di mana Anda tidak perlu melakukan banyak konfigurasi untuk data streaming; Datastream yang melakukannya untuk Anda. Datastream juga memiliki API konsumsi terpadu yang mendemokrasikan akses organisasi Anda ke data perusahaan terbaru yang tersedia untuk membuat skenario terintegrasi.

Salah satu skenario tersebut adalah mentransfer data dari database sumber ke layanan penyimpanan berbasis cloud atau antrean pesan. Setelah Datastream mengalirkan data, data tersebut diubah menjadi formulir yang dapat dibaca oleh aplikasi dan layanan lain. Dalam tutorial ini, Dataflow adalah layanan web yang berkomunikasi dengan layanan penyimpanan atau antrean pesan untuk mengambil dan memproses data di Google Cloud.

Anda akan mempelajari cara menggunakan Datastream untuk mengalirkan perubahan (data yang disisipkan, diperbarui, atau dihapus) dari database MySQL sumber ke dalam folder di bucket Cloud Storage. Kemudian, Anda akan mengonfigurasi bucket Cloud Storage untuk mengirim notifikasi yang digunakan Dataflow untuk mempelajari file baru apa pun yang berisi perubahan data yang mengalirkan Datastream dari database sumber. Tugas Dataflow kemudian memproses file dan mentransfer perubahannya ke BigQuery.

diagram alur pengguna integrasi

Tujuan

Dalam tutorial ini, Anda telah:

  • Membuat bucket di Cloud Storage. Ini adalah bucket tujuan tempat Datastream mengalirkan skema, tabel, dan data dari database MySQL sumber.
  • Aktifkan notifikasi Pub/Sub untuk bucket Cloud Storage. Dengan begitu, Anda mengonfigurasi bucket untuk mengirim notifikasi yang digunakan Dataflow untuk mempelajari file baru yang siap diproses. File ini berisi perubahan pada data yang di-streaming Datastream dari database sumber ke dalam bucket.
  • Membuat set data di BigQuery. BigQuery menggunakan set data untuk menampung data yang diterima dari Dataflow. Data ini mewakili perubahan dalam database sumber yang di-streaming Datastream ke dalam bucket Cloud Storage.
  • Membuat dan mengelola profil koneksi untuk database sumber dan bucket tujuan di Cloud Storage. Aliran data di Datastream menggunakan informasi dalam profil koneksi untuk mentransfer data dari database sumber ke dalam bucket.
  • Buat dan mulai streaming. Aliran data ini mentransfer data, skema, dan tabel dari database sumber ke dalam bucket.
  • Pastikan Datastream mentransfer data dan tabel yang terkait dengan skema database sumber ke dalam bucket.
  • Buat tugas di Dataflow. Setelah Datastream mengalirkan perubahan data dari database sumber ke bucket Cloud Storage, notifikasi tentang file baru yang berisi perubahan tersebut akan dikirim ke Dataflow. Tugas Dataflow memproses file dan mentransfer perubahan ke BigQuery.
  • Pastikan Dataflow memproses file yang berisi perubahan yang terkait dengan data ini, dan mentransfer perubahan tersebut ke BigQuery. Hasilnya, Anda memiliki integrasi menyeluruh antara Datastream dan BigQuery.
  • Bersihkan resource yang Anda buat di Datastream, Cloud Storage, Pub/Sub, Dataflow, dan BigQuery agar tidak menghabiskan kuota dan Anda tidak akan ditagih di masa mendatang.

Biaya

Dalam dokumen ini, Anda menggunakan komponen Google Cloud yang dapat ditagih berikut:

  • Datastream
  • Cloud Storage
  • Pub/Sub
  • Dataflow
  • BigQuery

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga. Pengguna baru Google Cloud mungkin memenuhi syarat untuk mendapatkan uji coba gratis.

Sebelum memulai

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  4. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  5. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  6. Mengaktifkan Datastream API.

    Mengaktifkan API

  7. Pastikan Anda memiliki peran Admin Datastream yang diberikan ke akun pengguna Anda.

    Buka halaman IAM

  8. Pastikan Anda memiliki database MySQL sumber yang dapat diakses Datastream. Selain itu, pastikan Anda memiliki data, tabel, dan skema di database.
  9. Konfigurasikan database MySQL Anda untuk mengizinkan koneksi masuk dari alamat IP publik Datastream. Untuk mengetahui daftar semua region Datastream dan alamat IP publik terkaitnya, lihat Daftar dan wilayah yang diizinkan IP.
  10. Menyiapkan pengambilan data perubahan (CDC) untuk database sumber. Untuk mengetahui informasi selengkapnya, lihat Mengonfigurasi database MySQL sumber.
  11. Pastikan Anda memenuhi semua prasyarat untuk mengaktifkan notifikasi Pub/Sub untuk Cloud Storage.

    Dalam tutorial ini, Anda akan membuat bucket tujuan di Cloud Storage dan mengaktifkan notifikasi Pub/Sub untuk bucket tersebut. Dengan melakukan hal ini, Dataflow dapat menerima notifikasi tentang file baru yang ditulis Datastream ke bucket. File ini berisi perubahan pada data yang di-streaming Datastream dari database sumber ke dalam bucket.

Persyaratan

Datastream menawarkan berbagai opsi sumber, opsi tujuan, dan metode konektivitas jaringan.

Untuk tutorial ini, kami berasumsi bahwa Anda menggunakan database MySQL mandiri dan layanan Cloud Storage tujuan. Untuk database sumber, Anda harus dapat mengonfigurasi jaringan untuk menambahkan aturan firewall masuk. Database sumber dapat berupa lokal atau di penyedia cloud. Untuk tujuan Cloud Storage, konfigurasi konektivitas tidak diperlukan.

Karena kami tidak dapat mengetahui secara spesifik lingkungan Anda, kami tidak dapat memberikan langkah-langkah mendetail mengenai konfigurasi jaringan Anda.

Untuk tutorial ini, Anda memilih Daftar IP yang diizinkan sebagai metode konektivitas jaringan. Pemberian izin IP adalah fitur keamanan yang sering digunakan untuk membatasi dan mengontrol akses ke data di database sumber Anda untuk pengguna tepercaya. Anda dapat menggunakan daftar IP yang diizinkan untuk membuat daftar alamat IP atau rentang IP tepercaya tempat pengguna dan layanan Google Cloud lainnya seperti Datastream dapat mengakses data ini. Untuk menggunakan daftar IP yang diizinkan, Anda harus membuka database sumber atau firewall ke koneksi masuk dari Datastream.

Membuat bucket di Cloud Storage

Membuat bucket tujuan di Cloud Storage tempat Datastream mengalirkan skema, tabel, dan data dari database MySQL sumber.

  1. Di konsol Google Cloud, buka halaman Browser untuk Cloud Storage.

    Buka halaman Browser

  2. Klik Create bucket. Halaman Create a bucket akan muncul.

  3. Di kolom teks untuk region Name your bucket, masukkan my-integration-bucket, lalu klik Continue.

  4. Gunakan setelan default untuk setiap wilayah halaman yang tersisa. Di bagian akhir setiap wilayah, klik Lanjutkan.

  5. Klik Create.

Mengaktifkan notifikasi Pub/Sub untuk bucket Cloud Storage

Di bagian ini, Anda akan mengaktifkan notifikasi Pub/Sub untuk bucket Cloud Storage yang Anda buat. Dengan melakukan ini, Anda mengonfigurasi bucket untuk memberi tahu Dataflow tentang file baru yang ditulis Datastream ke bucket. File ini berisi perubahan pada data yang mengalirkan Datastream dari database MySQL sumber ke dalam bucket.

  1. Mengakses bucket Cloud Storage yang Anda buat. Halaman Bucket details akan muncul.

  2. Klik Activate Cloud Shell.

  3. Ketika diminta, masukkan perintah berikut:

    gsutil notification create -t my_integration_notifs -f json -p integration/tutorial/ gs://my-integration-bucket

  4. Opsional: Jika jendela Authorize Cloud Shell muncul, klik Authorize.

  5. Pastikan Anda melihat baris kode berikut:

    Created Cloud Pub/Sub topic projects/project-name/topics/my_integration_notifs
    Created notification config projects/_/buckets/my-integration-bucket/notificationConfigs/1
    
  6. Di konsol Google Cloud, buka halaman Topics untuk Pub/Sub.

    Buka halaman Topics

  7. Klik topik my_integration_notifs yang sudah Anda buat.

  8. Di halaman my_integration_notifs, scroll ke bagian bawah halaman. Pastikan tab Langganan aktif dan pesan Tidak ada langganan untuk ditampilkan muncul.

  9. Klik Buat langganan.

  10. Di menu yang muncul, pilih Buat langganan.

  11. Di halaman Add subscription to topic:

    1. Di kolom ID Langganan, masukkan my_integration_notifs_sub.
    2. Tetapkan nilai Acknowledgement deadline ke 120 detik. Hal ini memberi Dataflow cukup waktu untuk mengonfirmasi file yang telah diproses, dan membantu meningkatkan performa tugas Dataflow secara keseluruhan. Untuk informasi selengkapnya tentang properti langganan Pub/Sub, lihat Properti langganan.
    3. Biarkan semua nilai default lainnya di halaman tersebut.
    4. Klik Create.

Nanti dalam tutorial ini, Anda akan membuat tugas Dataflow. Sebagai bagian dari pembuatan tugas ini, Anda menetapkan Dataflow untuk menjadi pelanggan langganan my_integration_notifs_sub. Dengan melakukan hal ini, Dataflow dapat menerima notifikasi tentang file baru yang ditulis Datastream ke Cloud Storage, memproses file tersebut, dan mentransfer perubahan data ke BigQuery.

Membuat set data di BigQuery

Di bagian ini, Anda akan membuat set data di BigQuery. BigQuery menggunakan set data untuk menampung data yang diterima dari Dataflow. Data ini menunjukkan perubahan pada database MySQL sumber yang di-streaming Datastream ke bucket Cloud Storage Anda.

  1. Buka halaman SQL workspace untuk BigQuery di Konsol Google Cloud.

    Buka halaman Workspace SQL

  2. Di panel Explorer, di samping nama project Google Cloud Anda, klik View actions.

  3. Pada menu yang muncul, pilih Create dataset.

  4. Di jendela Create dataset:

    1. Di kolom Dataset ID, masukkan ID untuk set data. Untuk tutorial ini, masukkan My_integration_dataset_log dalam kolom.
    2. Biarkan semua nilai default lainnya di jendela.
    3. Klik Create dataset.
  5. Di panel Explorer, di samping nama project Google Cloud Anda, klik Expand node, lalu pastikan Anda melihat set data yang telah dibuat.

  6. Gunakan langkah-langkah dalam prosedur ini untuk membuat set data kedua: My_integration_dataset_final.

  7. Di samping setiap set data, luaskan Perluas node.

  8. Pastikan setiap set data kosong.

Setelah Datastream mengalirkan perubahan data dari database sumber ke bucket Cloud Storage Anda, tugas Dataflow akan memproses file yang berisi perubahan tersebut dan mentransfer perubahan tersebut ke dalam set data BigQuery.

Membuat profil koneksi di Datastream

Di bagian ini, Anda akan membuat profil koneksi di Datastream untuk database sumber dan tujuan. Sebagai bagian dari pembuatan profil koneksi, Anda dapat memilih MySQL sebagai jenis profil untuk profil koneksi sumber dan Cloud Storage sebagai jenis profil untuk profil koneksi tujuan.

Datastream menggunakan informasi yang ditentukan dalam profil koneksi untuk terhubung ke sumber dan tujuan sehingga dapat mengalirkan data dari database sumber ke bucket tujuan Anda di Cloud Storage.

Membuat profil koneksi sumber untuk database MySQL Anda

  1. Di konsol Google Cloud, buka halaman Connection profiles untuk Datastream.

    Buka halaman Connection profile

  2. Klik Buat profil.

  3. Untuk membuat profil koneksi sumber untuk database MySQL Anda, di halaman Create a connection profile, klik jenis profil MySQL.

  4. Di bagian Define connection settings pada halaman Buat profil MySQL, berikan informasi berikut:

    • Di kolom Connection profile name, masukkan My Source Connection Profile.
    • Simpan ID profil koneksi yang dibuat otomatis.
    • Pilih Region tempat Anda ingin menyimpan profil koneksi.

    • Masukkan Detail koneksi:

      • Di kolom Nama host atau IP, masukkan nama host atau alamat IP publik yang dapat digunakan Datastream untuk terhubung ke database sumber. Anda memberikan alamat IP publik karena menggunakan pemberian izin IP sebagai metode konektivitas jaringan untuk tutorial ini.
      • Di kolom Port, masukkan nomor port yang direservasi untuk database sumber. Untuk database MySQL, port defaultnya biasanya 3306.
      • Masukkan Username dan Password untuk melakukan autentikasi ke database sumber.
  5. Di bagian Tentukan setelan koneksi, klik Lanjutkan. Bagian Mengamankan koneksi ke sumber Anda di halaman Buat profil MySQL aktif.

  6. Dari menu Jenis enkripsi, pilih Tidak ada. Untuk mengetahui informasi selengkapnya tentang menu ini, lihat Membuat profil koneksi untuk database MySQL.

  7. Di bagian Amankan koneksi ke sumber, klik Lanjutkan. Bagian Menentukan metode konektivitas di halaman Buat profil MySQL aktif.

  8. Di drop-down Metode konektivitas, pilih metode jaringan yang ingin Anda gunakan untuk membuat konektivitas antara Datastream dan database sumber. Untuk tutorial ini, pilih Pemberian izin IP sebagai metode konektivitas.

  9. Konfigurasikan database sumber Anda untuk mengizinkan koneksi masuk dari alamat IP publik Datastream yang muncul.

  10. Di bagian Tentukan metode konektivitas, klik Lanjutkan. Bagian Profil pengujian koneksi di halaman Buat profil MySQL aktif.

  11. Klik Run test untuk memverifikasi bahwa database sumber dan Datastream dapat saling berkomunikasi.

  12. Pastikan Anda melihat status Pengujian lulus.

  13. Klik Create.

Membuat profil koneksi tujuan untuk Cloud Storage

  1. Di konsol Google Cloud, buka halaman Connection profiles untuk Datastream.

    Buka halaman Connection profile

  2. Klik Buat profil.

  3. Untuk membuat profil koneksi tujuan untuk Cloud Storage, di halaman Create a connection profile, klik jenis profil Cloud Storage.

  4. Di halaman Create Cloud Storage profile, berikan informasi berikut:

    • Di kolom Connection profile name, masukkan My Destination Connection Profile.
    • Simpan ID profil koneksi yang dibuat otomatis.
    • Pilih Region tempat Anda ingin menyimpan profil koneksi.
    • Di panel Connection details, klik Browse untuk memilih my-integration-bucket yang Anda buat sebelumnya dalam tutorial ini. Ini adalah bucket tempat Datastream mentransfer data dari database sumber. Setelah menentukan pilihan, klik Pilih.

      Bucket Anda akan muncul di kolom Bucket name pada panel Connection details.

    • Di kolom Connection profile pathPrefix, berikan awalan untuk jalur yang ingin Anda tambahkan ke nama bucket saat Datastream mengalirkan data ke tujuan. Pastikan Datastream menulis data ke jalur di dalam bucket, bukan ke folder root bucket. Untuk tutorial ini, gunakan jalur yang Anda tentukan saat mengonfigurasi notifikasi Pub/Sub. Masukkan /integration/tutorial dalam kolom.

  5. Klik Create.

Setelah membuat profil koneksi sumber untuk database MySQL dan profil koneksi tujuan untuk Cloud Storage, Anda dapat menggunakannya untuk membuat aliran data.

Membuat aliran data di Datastream

Di bagian ini, Anda akan membuat streaming. Aliran data ini menggunakan informasi dalam profil koneksi untuk mentransfer data dari database MySQL sumber ke bucket tujuan di Cloud Storage.

Menentukan setelan untuk streaming

  1. Di konsol Google Cloud, buka halaman Streams untuk Datastream.

    Buka halaman Forum

  2. Klik Buat aliran.

  3. Berikan informasi berikut di panel Tentukan detail aliran data di halaman Buat streaming:

    • Di kolom Nama aliran data, masukkan My Stream.
    • Simpan ID Aliran Data yang dibuat otomatis.
    • Dari menu Region, pilih region tempat Anda membuat profil koneksi sumber dan tujuan.
    • Dari menu Source type, pilih jenis profil MySQL.
    • Dari menu Destination type, pilih jenis profil Cloud Storage.
  4. Tinjau prasyarat yang diperlukan yang dibuat secara otomatis guna mencerminkan cara mempersiapkan lingkungan Anda untuk streaming. Prasyarat ini dapat mencakup cara mengonfigurasi database sumber dan cara menghubungkan Datastream ke bucket tujuan di Cloud Storage.

  5. Klik Lanjutkan. Panel Tentukan profil koneksi MySQL di halaman Buat aliran data akan muncul.

Menentukan informasi tentang profil koneksi sumber

Di bagian ini, Anda akan memilih profil koneksi yang dibuat untuk database sumber (profil koneksi sumber). Untuk tutorial ini, lihatlah Profil Koneksi Sumber Saya.

  1. Dari menu Source connection profile, pilih profil koneksi sumber untuk database MySQL.

  2. Klik Run test untuk memverifikasi bahwa database sumber dan Datastream dapat saling berkomunikasi.

    Jika pengujian gagal, masalah yang terkait dengan profil koneksi akan muncul. Lihat halaman Diagnosis masalah untuk mengetahui langkah-langkah pemecahan masalah. Buat perubahan yang diperlukan untuk memperbaiki masalah, lalu uji kembali.

  3. Klik Lanjutkan. Panel Konfigurasi sumber streaming di halaman Buat streaming akan muncul.

Mengonfigurasi informasi tentang database sumber untuk aliran data

Di bagian ini, Anda akan mengonfigurasi informasi tentang database sumber untuk aliran data dengan menentukan tabel dan skema di database sumber yang Datastream:

  • Dapat ditransfer ke tujuan.
  • Dibatasi agar tidak dapat ditransfer ke tujuan.

Anda juga menentukan apakah Datastream mengisi ulang data historis, serta mengalirkan perubahan yang sedang berlangsung ke tujuan, atau hanya mengalirkan perubahan pada data.

  1. Gunakan menu Objects to include untuk menentukan tabel dan skema di database sumber yang dapat ditransfer Datastream ke dalam folder di bucket tujuan di Cloud Storage. Menu hanya dimuat jika database Anda memiliki hingga 5.000 objek.

    Untuk tutorial ini, Anda ingin Datastream mentransfer semua tabel dan skema. Oleh karena itu, pilih Semua tabel dari semua skema dari menu.

  2. Pastikan panel Pilih objek yang akan dikecualikan ditetapkan ke Tidak ada. Anda tidak ingin membatasi Datastream agar tidak mentransfer tabel dan skema apa pun di database sumber ke Cloud Storage.

  3. Pastikan panel Pilih mode pengisian ulang untuk data historis disetel ke Otomatis. Datastream mengalirkan semua data yang ada, selain perubahan pada data, dari sumber ke tujuan.

  4. Klik Lanjutkan. Panel Define Cloud Storage connection profile di halaman Buat aliran data akan muncul.

Pilih profil koneksi tujuan

Di bagian ini, Anda memilih profil koneksi yang Anda buat untuk Cloud Storage (profil koneksi tujuan). Untuk tutorial ini, nama adalah My Destination Connection Profile.

  1. Dari menu Destination connection profile, pilih profil koneksi tujuan untuk Cloud Storage.

  2. Klik Lanjutkan. Panel Konfigurasi tujuan streaming di halaman Buat streaming akan muncul.

Mengonfigurasi informasi tentang tujuan untuk aliran data

Di bagian ini, Anda akan mengonfigurasi informasi tentang bucket tujuan untuk streaming. Informasi ini mencakup:

  • Format output file yang ditulis ke Cloud Storage.
  • Folder bucket tujuan tempat Datastream mentransfer skema, tabel, dan data dari database sumber.
  1. Di kolom Output format, pilih format file yang ditulis ke Cloud Storage. Datastream mendukung dua format output: Avro dan JSON. Untuk tutorial ini, Avro adalah format file.

  2. Klik Lanjutkan. Panel Tinjau detail aliran data dan buat di halaman Buat aliran data akan muncul.

Membuat feed

  1. Verifikasi detail tentang aliran data serta profil koneksi sumber dan tujuan yang digunakan aliran data untuk mentransfer data dari database MySQL sumber ke bucket tujuan di Cloud Storage.

  2. Untuk memvalidasi streaming, klik Jalankan validasi. Dengan memvalidasi streaming, Datastream memeriksa apakah sumber telah dikonfigurasi dengan benar, memvalidasi bahwa streaming dapat terhubung ke sumber dan tujuan, serta memverifikasi konfigurasi streaming secara menyeluruh.

  3. Setelah semua pemeriksaan validasi lulus, klik Buat.

  4. Dalam dialog Create stream?, klik Create.

Memulai streaming

Untuk tutorial ini, Anda akan membuat dan memulai streaming secara terpisah jika proses pembuatan streaming mengakibatkan peningkatan beban pada database sumber Anda. Untuk menunda beban tersebut, Anda harus membuat streaming tanpa memulainya, lalu memulai streaming saat database Anda dapat menangani beban.

Dengan memulai aliran data, Datastream dapat mentransfer data, skema, dan tabel dari database sumber ke tujuan.

  1. Di konsol Google Cloud, buka halaman Streams untuk Datastream.

    Buka halaman Forum

  2. Pilih kotak centang di samping streaming yang ingin Anda mulai. Untuk tutorial ini, pusatnya adalah Aliran Saya.

  3. Klik Start.

  4. Dalam dialog, klik Start. Status aliran data berubah dari Not started menjadi Starting menjadi Running.

Setelah memulai aliran data, Anda dapat memverifikasi bahwa Datastream telah mentransfer data dari database sumber ke tujuan.

Verifikasi aliran data

Di bagian ini, Anda mengonfirmasi bahwa Datastream mentransfer data dari semua tabel database MySQL sumber ke folder /integration/tutorial di bucket tujuan Cloud Storage Anda. Untuk tutorial ini, nama bucket Anda adalah my-integration-bucket.

  1. Di konsol Google Cloud, buka halaman Streams untuk Datastream.

    Buka halaman Forum

  2. Klik streaming yang Anda buat. Untuk tutorial ini, pusatnya adalah Aliran Saya.

  3. Di halaman Detail streaming, klik link my-integration-bucket/integration/tutorial. Link ini muncul setelah kolom Jalur penulisan tujuan. Halaman Bucket details pada Cloud Storage akan terbuka di tab terpisah.

  4. Pastikan Anda melihat folder yang merepresentasikan tabel database sumber.

  5. Klik salah satu folder tabel, lalu klik setiap subfolder hingga Anda melihat data yang terkait dengan tabel tersebut.

Membuat tugas Dataflow

Di bagian ini, Anda akan membuat tugas di Dataflow. Setelah Datastream mengalirkan perubahan data dari database MySQL sumber ke bucket Cloud Storage Anda, Pub/Sub akan mengirimkan notifikasi ke Dataflow tentang file baru yang berisi perubahan tersebut. Tugas Dataflow memproses file dan mentransfer perubahan ke BigQuery.

  1. Di konsol Google Cloud, buka halaman Tugas untuk Dataflow.

    Buka halaman Tugas

  2. Klik Create job from template.

  3. Di kolom Job name di halaman Create job from template, masukkan nama untuk tugas Dataflow yang Anda buat. Untuk tutorial ini, masukkan my-dataflow-integration-job dalam kolom.

  4. Dari menu Regional endpoint, pilih region tempat Anda ingin menyimpan tugas. Region ini sama dengan region yang Anda pilih untuk profil koneksi sumber, profil koneksi tujuan, dan streaming yang telah dibuat.

  5. Dari menu Dataflow template, pilih template yang Anda gunakan untuk membuat tugas. Untuk tutorial ini, pilih Datastream to BigQuery.

    Setelah memilih ini, kolom tambahan yang terkait dengan template ini akan muncul.

  6. Di kolom File location for Datastream file output in Cloud Storage., masukkan jalur yang berisi nama bucket Cloud Storage Anda. Untuk tutorial ini, masukkan gs://my-integration-bucket.

  7. Di kolom Pub/Sub be used in a Cloud Storage notifikasi policy., masukkan jalur yang berisi nama langganan Pub/Sub Anda. Untuk tutorial ini, masukkan projects/project-name/subscriptions/my_integration_notifs_sub.

  8. Di kolom Datastream output file format (avro/json)., masukkan avro karena, untuk tutorial ini, Avro adalah format file dari file yang ditulis Datastream ke Cloud Storage.

  9. Di kolom Name or template for the dataset to contain staging tables., masukkan My_integration_dataset_log karena Dataflow menggunakan set data ini untuk menyusun perubahan data yang diterimanya dari Datastream.

  10. Di kolom Template untuk set data yang akan berisi tabel replika., masukkan My_integration_dataset_final karena ini adalah set data tempat perubahan yang ditahapkan dalam set data My_integration_dataset_log digabungkan untuk membuat replika tabel one-to-one dalam database sumber.

  11. Di kolom Dead letter queue directory., masukkan jalur yang berisi nama bucket Cloud Storage Anda dan folder untuk antrean huruf yang dihentikan. Pastikan Anda tidak menggunakan jalur di folder root, dan jalur tersebut berbeda dengan jalur tempat Datastream menulis data. Setiap perubahan data yang gagal ditransfer Dataflow ke BigQuery akan disimpan dalam antrean. Anda dapat memperbaiki konten dalam antrean sehingga Dataflow dapat memproses ulang.

    Untuk tutorial ini, masukkan gs://my-integration-bucket/dlq di kolom Dead surat queue directory. (dengan dlq adalah folder untuk antrean huruf mati).

  12. Klik Run job.

Memverifikasi integrasi

Di bagian Memverifikasi streaming pada tutorial ini, Anda mengonfirmasi bahwa Datastream mentransfer data dari semua tabel database MySQL sumber ke folder /integration/tutorial di bucket tujuan Cloud Storage Anda.

Di bagian ini, Anda akan memverifikasi bahwa Dataflow memproses file yang berisi perubahan yang terkait dengan data ini, dan mentransfer perubahan tersebut ke BigQuery. Hasilnya, Anda memiliki integrasi menyeluruh antara Datastream dan BigQuery.

  1. Di konsol Google Cloud, buka halaman SQL workspace untuk BigQuery.

    Buka halaman Workspace SQL

  2. Di panel Explorer, luaskan node di samping nama project Google Cloud Anda.

  3. Luaskan node di samping set data My_integration_dataset_log dan My_integration_dataset_final.

  4. Pastikan setiap {i>dataset<i} sekarang berisi data. Hal ini mengonfirmasi bahwa Dataflow memproses file yang berisi perubahan terkait data yang di-streaming Datastream ke Cloud Storage, dan mentransfer perubahan ini ke BigQuery.

Pembersihan

Agar tidak menimbulkan biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, gunakan Konsol Google Cloud untuk melakukan hal berikut:

  • Hapus profil project, aliran Datastream, dan koneksi Datastream Anda.
  • Hentikan tugas Dataflow.
  • Menghapus set data BigQuery, topik dan langganan Pub/Sub, serta bucket Cloud Storage.

Dengan membersihkan resource yang Anda buat di Datastream, Dataflow, BigQuery, Pub/Sub, dan Cloud Storage, Anda dapat mencegah agar resource tidak menghabiskan kuota dan Anda tidak akan ditagih di masa mendatang.

Menghapus project Anda

Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial ini.

  1. Pada Konsol Google Cloud, buka halaman Kelola resource

    Buka halaman Kelola resource

  2. Dalam daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.

  3. Untuk menghapus project, pada dialog, ketik project ID, lalu klik Shut down.

Menghapus feed

  1. Di konsol Google Cloud, buka halaman Streams untuk Datastream.

    Buka halaman Forum

  2. Klik aliran data yang ingin dihapus. Untuk tutorial ini, pusatnya adalah Aliran Saya.

  3. Klik Jeda.

  4. Di dialog, klik Jeda.

  5. Di panel Status streaming di halaman Detail streaming, pastikan status streaming adalah Paused.

  6. Klik Delete.

  7. Di dialog, di kolom teks, masukkan Delete, lalu klik Delete.

Menghapus profil koneksi

  1. Di konsol Google Cloud, buka halaman Connection profiles untuk Datastream.

    Buka halaman Connection profile

  2. Pilih kotak centang untuk setiap profil koneksi yang ingin Anda hapus: My Source Connection Profile dan My Destination Connection Profile.

  3. Klik Delete.

  4. Pada dialog, klik Hapus.

Menghentikan tugas Dataflow

  1. Di konsol Google Cloud, buka halaman Tugas untuk Dataflow.

    Buka halaman Tugas

  2. Klik tugas yang ingin Anda hentikan. Untuk tutorial ini, ini adalah my-dataflow-integration-job.

  3. Klik Stop.

  4. Pada dialog Stop job, pilih opsi Drain, lalu klik Stop job.

Menghapus set data BigQuery

  1. Di konsol Google Cloud, buka halaman SQL workspace untuk BigQuery.

    Buka halaman Workspace SQL

  2. Di panel Explorer, luaskan node di samping nama project Google Cloud Anda.

  3. Klik tombol View actions di sebelah kanan salah satu set data yang telah Anda buat di Create dataset in BigQuery. Tombol ini terlihat seperti elipsis vertikal.

    Untuk tutorial ini, klik tombol View actions di sebelah kanan My_integration_dataset_log.

  4. Pilih Hapus dari menu drop-down yang muncul.

  5. Di dialog Delete dataset?, masukkan delete di kolom teks, lalu klik Delete.

  6. Ulangi langkah-langkah dalam prosedur ini untuk menghapus set data kedua yang Anda buat: My_integration_dataset_final.

Menghapus langganan dan topik Pub/Sub

  1. Di konsol Google Cloud, buka halaman Langganan untuk Pub/Sub.

    Buka halaman Subscription

  2. Klik kotak centang di samping langganan yang ingin dihapus. Untuk tutorial ini, klik kotak centang di samping langganan my_integration_notifs_sub.

  3. Klik Delete.

  4. Pada dialog Hapus langganan, klik Hapus.

  5. Di konsol Google Cloud, buka halaman Topics untuk Pub/Sub.

    Buka halaman Topics

  6. Klik kotak centang di samping topik my_integration_notifs.

  7. Klik Delete.

  8. Pada dialog Delete topic, masukkan delete di kolom teks, lalu klik Delete.

Menghapus bucket Cloud Storage

  1. Di konsol Google Cloud, buka halaman Browser untuk Cloud Storage.

    Buka halaman Browser

  2. Pilih kotak centang di samping bucket Anda. Untuk tutorial ini, adalah my-integration-bucket.

  3. Klik Delete.

  4. Pada dialog, masukkan Delete di kolom teks, lalu klik Delete.

Langkah selanjutnya