Datastream mendukung streaming data dari database Oracle, MySQL, dan PostgreSQL langsung ke set data BigQuery. Namun, jika Anda memerlukan kontrol lebih besar atas logika pemrosesan streaming, seperti transformasi data atau setelan kunci utama logis secara manual, Anda dapat mengintegrasikan Datastream dengan template tugas Dataflow.
Tutorial ini menunjukkan cara Datastream berintegrasi dengan Dataflow menggunakan template tugas Dataflow untuk melakukan streaming tampilan yang diwujudkan terbaru di BigQuery untuk analisis.
Untuk organisasi dengan banyak sumber data terisolasi, akses ke data perusahaan di seluruh organisasi, terutama secara real-time, dapat dibatasi dan lambat. Hal ini membatasi kemampuan organisasi untuk melakukan introspeksi.
Datastream memberikan akses hampir real-time untuk mengubah data dari berbagai sumber data lokal dan berbasis cloud. Datastream menyediakan pengalaman penyiapan yang memungkinkan Anda tidak perlu melakukan banyak konfigurasi untuk streaming data; Datastream akan melakukannya untuk Anda. Datastream juga memiliki API penggunaan terpadu yang mendemokratisasi akses organisasi Anda ke data perusahaan terbaru yang tersedia untuk membuat skenario terintegrasi.
Salah satu skenario tersebut adalah mentransfer data dari database sumber ke layanan penyimpanan atau antrean pesan berbasis cloud. Setelah Datastream melakukan streaming data, data akan diubah menjadi bentuk yang dapat dibaca oleh aplikasi dan layanan lain. Dalam tutorial ini, Dataflow adalah layanan web yang berkomunikasi dengan layanan penyimpanan atau antrean pesan untuk mengambil dan memproses data di Google Cloud.
Anda akan mempelajari cara menggunakan Datastream untuk melakukan streaming perubahan (data yang disisipkan, diperbarui, atau dihapus) dari database MySQL sumber ke folder di bucket Cloud Storage. Kemudian, Anda mengonfigurasi bucket Cloud Storage untuk mengirim notifikasi yang digunakan Dataflow untuk mempelajari file baru yang berisi perubahan data yang di-streaming Datastream dari database sumber. Tugas Dataflow kemudian memproses file dan mentransfer perubahan ke BigQuery.
Tujuan
Dalam tutorial ini, Anda telah:- Membuat bucket di Cloud Storage. Ini adalah bucket tujuan tempat Datastream melakukan streaming skema, tabel, dan data dari database MySQL sumber.
- Aktifkan notifikasi Pub/Sub untuk bucket Cloud Storage. Dengan melakukan hal ini, Anda mengonfigurasi bucket untuk mengirim notifikasi yang digunakan Dataflow untuk mempelajari file baru yang siap diproses. File ini berisi perubahan pada data yang di-streaming Datastream dari database sumber ke bucket.
- Membuat set data di BigQuery. BigQuery menggunakan set data untuk menyimpan data yang diterima dari Dataflow. Data ini mewakili perubahan dalam database sumber yang di-streaming Datastream ke bucket Cloud Storage.
- Membuat dan mengelola profil koneksi untuk database sumber dan bucket tujuan di Cloud Storage. Aliran data di Datastream menggunakan informasi dalam profil koneksi untuk mentransfer data dari database sumber ke bucket.
- Membuat dan memulai streaming. Aliran ini mentransfer data, skema, dan tabel dari database sumber ke bucket.
- Pastikan Datastream mentransfer data dan tabel yang terkait dengan skema database sumber ke bucket.
- Buat tugas di Dataflow. Setelah Datastream melakukan streaming perubahan data dari database sumber ke bucket Cloud Storage, notifikasi akan dikirim ke Dataflow tentang file baru yang berisi perubahan tersebut. Tugas Dataflow memproses file dan mentransfer perubahan ke BigQuery.
- Pastikan Dataflow memproses file yang berisi perubahan yang terkait dengan data ini, dan mentransfer perubahan ke BigQuery. Hasilnya, Anda memiliki integrasi menyeluruh antara Datastream dan BigQuery.
- Bersihkan resource yang Anda buat di Datastream, Cloud Storage, Pub/Sub, Dataflow, dan BigQuery agar tidak menggunakan kuota dan Anda tidak ditagih di masa mendatang.
Biaya
Dalam dokumen ini, Anda akan menggunakan komponen Google Cloudyang dapat ditagih berikut:
- Datastream
- Cloud Storage
- Pub/Sub
- Dataflow
- BigQuery
Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda,
gunakan kalkulator harga.
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
- Aktifkan Datastream API.
- Pastikan Anda memiliki peran Datastream Admin yang diberikan ke akun pengguna Anda.
- Pastikan Anda memiliki database MySQL sumber yang dapat diakses Datastream. Selain itu, pastikan Anda memiliki data, tabel, dan skema di database.
- Konfigurasikan database MySQL Anda untuk mengizinkan koneksi masuk dari alamat IP publik Datastream. Untuk daftar semua region Datastream dan alamat IP publik terkait, lihat Daftar yang diizinkan dan region IP.
- Siapkan pengambilan data perubahan (CDC) untuk database sumber. Untuk informasi selengkapnya, lihat Mengonfigurasi database MySQL sumber.
Pastikan Anda memenuhi semua prasyarat untuk mengaktifkan notifikasi Pub/Sub untuk Cloud Storage.
Dalam tutorial ini, Anda akan membuat bucket tujuan di Cloud Storage dan mengaktifkan notifikasi Pub/Sub untuk bucket tersebut. Dengan melakukan hal ini, Dataflow dapat menerima notifikasi tentang file baru yang ditulis Datastream ke bucket. File ini berisi perubahan pada data yang di-streaming Datastream dari database sumber ke bucket.
Persyaratan
Datastream menawarkan berbagai opsi sumber, opsi tujuan, dan metode konektivitas jaringan.
Untuk tutorial ini, kami mengasumsikan bahwa Anda menggunakan database MySQL mandiri dan layanan Cloud Storage tujuan. Untuk database sumber, Anda harus dapat mengonfigurasi jaringan untuk menambahkan aturan firewall masuk. Database sumber dapat berada di lokal atau di penyedia cloud. Untuk tujuan Cloud Storage, tidak diperlukan konfigurasi konektivitas.
Karena kami tidak dapat mengetahui secara spesifik lingkungan Anda, kami tidak dapat memberikan langkah-langkah mendetail mengenai konfigurasi jaringan Anda.
Untuk tutorial ini, Anda memilih IP allowlisting sebagai metode konektivitas jaringan. Daftar IP yang diizinkan adalah fitur keamanan yang sering digunakan untuk membatasi dan mengontrol akses ke data di database sumber Anda kepada pengguna tepercaya. Anda dapat menggunakan daftar IP yang diizinkan untuk membuat daftar alamat IP atau rentang IP tepercaya yang dapat digunakan oleh pengguna dan layanan Google Cloud lainnya seperti Datastream untuk mengakses data ini. Untuk menggunakan daftar IP yang diizinkan, Anda harus membuka database sumber atau firewall ke koneksi masuk dari Datastream.
Membuat bucket di Cloud Storage
Buat bucket tujuan di Cloud Storage tempat Datastream melakukan streaming skema, tabel, dan data dari database MySQL sumber.
Di konsol Google Cloud , buka halaman Browser untuk Cloud Storage.
Klik Create bucket. Halaman Create a bucket akan muncul.
Di kolom teks wilayah Name your bucket, masukkan nama unik untuk bucket Anda, lalu klik Continue.
Terima setelan default untuk setiap wilayah halaman yang tersisa. Di akhir setiap wilayah, klik Lanjutkan.
Klik Buat.
Mengaktifkan notifikasi Pub/Sub untuk bucket Cloud Storage
Di bagian ini, Anda akan mengaktifkan notifikasi Pub/Sub untuk bucket Cloud Storage yang Anda buat. Dengan melakukan ini, Anda mengonfigurasi bucket untuk memberi tahu Dataflow tentang file baru yang ditulis Datastream ke bucket. File ini berisi perubahan pada data yang di-streaming Datastream dari database MySQL sumber ke bucket.
Akses bucket Cloud Storage yang Anda buat. Halaman Bucket details akan muncul.
Klik
Aktifkan Cloud Shell.Pada perintah, masukkan perintah berikut:
gcloud storage buckets notifications create gs://bucket-name --topic=my_integration_notifs --payload-format=json --object-prefix=integration/tutorial/
Opsional: Jika jendela Izinkan Cloud Shell muncul, klik Izinkan.
Pastikan Anda melihat baris kode berikut:
Created Cloud Pub/Sub topic projects/project-name/topics/my_integration_notifs Created notification config projects/_/buckets/bucket-name/notificationConfigs/1
Di Google Cloud console, buka halaman Topics untuk Pub/Sub.
Klik topik my_integration_notifs yang Anda buat.
Di halaman my_integration_notifs, scroll ke bagian bawah halaman. Pastikan tab Langganan aktif dan pesan Tidak ada langganan untuk ditampilkan muncul.
Klik Buat langganan.
Di menu yang muncul, pilih Buat langganan.
Di halaman Add subscription to topic:
- Di kolom Subscription ID, masukkan
my_integration_notifs_sub
. - Tetapkan nilai Batas waktu konfirmasi ke
120
detik. Hal ini memungkinkan Dataflow memiliki waktu yang cukup untuk mengonfirmasi file yang telah diproses, dan membantu meningkatkan performa keseluruhan tugas Dataflow. Untuk mengetahui informasi selengkapnya tentang properti langganan Pub/Sub, lihat Properti langganan. - Biarkan semua nilai default lainnya di halaman.
- Klik Buat.
- Di kolom Subscription ID, masukkan
Nantinya dalam tutorial ini, Anda akan membuat tugas Dataflow. Sebagai bagian dari pembuatan tugas ini, Anda menetapkan Dataflow sebagai pelanggan langganan my_integration_notifs_sub. Dengan melakukan hal ini, Dataflow dapat menerima notifikasi tentang file baru yang ditulis Datastream ke Cloud Storage, memproses file, dan mentransfer perubahan data ke BigQuery.
Membuat set data di BigQuery
Di bagian ini, Anda akan membuat set data di BigQuery. BigQuery menggunakan set data untuk menyimpan data yang diterima dari Dataflow. Data ini mewakili perubahan dalam database MySQL sumber yang di-streaming Datastream ke bucket Cloud Storage Anda.
Buka halaman SQL workspace untuk BigQuery di Google Cloud konsol.
Di panel Explorer, di samping Google Cloud nama project, klik
View actions.Di menu yang muncul, pilih Buat set data.
Di jendela Create dataset:
- Di kolom Dataset ID, masukkan ID untuk set data. Untuk tutorial ini, masukkan
My_integration_dataset_log
di kolom. - Biarkan semua nilai default lainnya di jendela.
- Klik Create dataset.
- Di kolom Dataset ID, masukkan ID untuk set data. Untuk tutorial ini, masukkan
Di panel Explorer, di samping Google Cloud nama project, klik
Expand node, lalu pastikan Anda melihat set data yang Anda buat.Gunakan langkah-langkah dalam prosedur ini untuk membuat set data kedua: My_integration_dataset_final.
Di samping setiap set data, luaskan
Luaskan node.Pastikan setiap set data kosong.
Setelah Datastream melakukan streaming perubahan data dari database sumber ke bucket Cloud Storage Anda, tugas Dataflow akan memproses file yang berisi perubahan dan mentransfer perubahan tersebut ke set data BigQuery.
Membuat profil koneksi di Datastream
Di bagian ini, Anda akan membuat profil koneksi di Datastream untuk database sumber dan tujuan. Sebagai bagian dari pembuatan profil koneksi, Anda memilih MySQL sebagai jenis profil untuk profil koneksi sumber dan Cloud Storage sebagai jenis profil untuk profil koneksi tujuan.
Datastream menggunakan informasi yang ditentukan dalam profil koneksi untuk terhubung ke sumber dan tujuan sehingga dapat melakukan streaming data dari database sumber ke bucket tujuan di Cloud Storage.
Membuat profil koneksi sumber untuk database MySQL
Di Google Cloud console, buka halaman Profil koneksi untuk Datastream.
Klik Buat profil.
Untuk membuat profil koneksi sumber untuk database MySQL, di halaman Create a connection profile, klik jenis profil MySQL.
Di bagian Tentukan setelan koneksi pada halaman Buat profil MySQL, berikan informasi berikut:
- Di kolom Nama profil koneksi, masukkan
My Source Connection Profile
. - Pertahankan Connection profile ID yang dibuat secara otomatis.
Pilih Region tempat Anda ingin menyimpan profil koneksi.
Masukkan Detail koneksi:
- Di kolom Hostname or IP, masukkan nama host atau alamat IP publik yang dapat digunakan Datastream untuk terhubung ke database sumber. Anda memberikan alamat IP publik karena menggunakan daftar IP yang diizinkan sebagai metode konektivitas jaringan untuk tutorial ini.
- Di kolom Port, masukkan nomor port yang dicadangkan untuk database sumber. Untuk database MySQL, port default biasanya
3306
. - Masukkan Username dan Password untuk mengautentikasi ke database sumber Anda.
- Di kolom Nama profil koneksi, masukkan
Di bagian Define connection settings, klik Continue. Bagian Amankan koneksi ke sumber Anda di halaman Buat profil MySQL aktif.
Dari menu Jenis enkripsi, pilih Tidak ada. Untuk informasi selengkapnya tentang menu ini, lihat Membuat profil koneksi untuk database MySQL.
Di bagian Secure your connection to your source, klik Continue. Bagian Menentukan metode konektivitas di halaman Buat profil MySQL aktif.
Di menu drop-down Metode konektivitas, pilih metode jaringan yang ingin Anda gunakan untuk membangun konektivitas antara Datastream dan database sumber. Untuk tutorial ini, pilih IP allowlisting sebagai metode konektivitas.
Konfigurasikan database sumber Anda untuk mengizinkan koneksi masuk dari alamat IP publik Datastream yang muncul.
Di bagian Define connectivity method, klik Continue. Bagian Uji profil koneksi di halaman Buat profil MySQL aktif.
Klik Run test untuk memverifikasi bahwa database sumber dan Datastream dapat saling berkomunikasi.
Pastikan Anda melihat status Pengujian lulus.
Klik Buat.
Membuat profil koneksi tujuan untuk Cloud Storage
Di Google Cloud console, buka halaman Profil koneksi untuk Datastream.
Klik Buat profil.
Untuk membuat profil koneksi tujuan untuk Cloud Storage, di halaman Create a connection profile, klik jenis profil Cloud Storage.
Di halaman Create Cloud Storage profile, berikan informasi berikut:
- Di kolom Nama profil koneksi, masukkan
My Destination Connection Profile
. - Pertahankan Connection profile ID yang dibuat secara otomatis.
- Pilih Region tempat Anda ingin menyimpan profil koneksi.
Di panel Detail koneksi, klik Jelajahi untuk memilih bucket Cloud Storage yang Anda buat sebelumnya dalam tutorial ini. Ini adalah bucket tempat Datastream mentransfer data dari database sumber. Setelah memilih, klik Select.
Bucket Anda akan muncul di kolom Nama bucket pada panel Detail koneksi.
Di kolom Awal jalur profil koneksi, berikan awalan untuk jalur yang ingin ditambahkan ke nama bucket saat Datastream melakukan streaming data ke tujuan. Pastikan Datastream menulis data ke jalur di dalam bucket, bukan ke folder root bucket. Untuk tutorial ini, gunakan jalur yang Anda tentukan saat mengonfigurasi notifikasi Pub/Sub. Masukkan
/integration/tutorial
di kolom.
- Di kolom Nama profil koneksi, masukkan
Klik Buat.
Setelah membuat profil koneksi sumber untuk database MySQL dan profil koneksi tujuan untuk Cloud Storage, Anda dapat menggunakannya untuk membuat streaming.
Membuat aliran data di Datastream
Di bagian ini, Anda akan membuat streaming. Streaming ini menggunakan informasi dalam profil koneksi untuk mentransfer data dari database MySQL sumber ke bucket tujuan di Cloud Storage.
Menentukan setelan untuk streaming
Di Google Cloud console, buka halaman Streams untuk Datastream.
Klik Buat aliran data.
Berikan informasi berikut di panel Define stream details di halaman Create stream:
- Di kolom Nama aliran data, masukkan
My Stream
. - Simpan ID Aliran Data yang dibuat secara otomatis.
- Dari menu Region, pilih region tempat Anda membuat profil koneksi sumber dan tujuan.
- Dari menu Jenis sumber, pilih jenis profil MySQL.
- Dari menu Jenis tujuan, pilih jenis profil Cloud Storage.
- Di kolom Nama aliran data, masukkan
Tinjau prasyarat yang diperlukan yang dibuat secara otomatis guna mencerminkan cara lingkungan Anda harus disiapkan untuk streaming. Prasyarat ini dapat mencakup cara mengonfigurasi database sumber dan cara menghubungkan Datastream ke bucket tujuan di Cloud Storage.
Klik Lanjutkan. Panel Tentukan profil koneksi MySQL di halaman Buat aliran data akan muncul.
Menentukan informasi tentang profil koneksi sumber
Di bagian ini, Anda memilih profil koneksi yang Anda buat untuk database sumber (profil koneksi sumber). Untuk tutorial ini, nama profilnya adalah Profil Koneksi Sumber Saya.
Dari menu Source connection profile, pilih profil koneksi sumber untuk database MySQL.
Klik Run test untuk memverifikasi bahwa database sumber dan Datastream dapat saling berkomunikasi.
Jika pengujian gagal, masalah yang terkait dengan profil koneksi akan muncul. Lihat halaman Mendiagnosis masalah untuk mengetahui langkah-langkah pemecahan masalah. Lakukan perubahan yang diperlukan untuk memperbaiki masalah, lalu uji ulang.
Klik Lanjutkan. Panel Konfigurasi sumber aliran data di halaman Buat aliran data akan muncul.
Mengonfigurasi informasi tentang database sumber untuk aliran data
Di bagian ini, Anda mengonfigurasi informasi tentang database sumber untuk aliran data dengan menentukan tabel dan skema di database sumber yang ditransfer oleh Datastream:
- Dapat ditransfer ke tujuan.
- Dibatasi untuk ditransfer ke tujuan.
Anda juga menentukan apakah Datastream akan mengisi ulang data historis, serta melakukan streaming perubahan yang sedang berlangsung ke tujuan, atau hanya melakukan streaming perubahan pada data.
Gunakan menu Objects to include untuk menentukan tabel dan skema di database sumber yang dapat ditransfer Datastream ke folder di bucket tujuan di Cloud Storage. Menu hanya dimuat jika database Anda memiliki hingga 5.000 objek.
Untuk tutorial ini, Anda ingin Datastream mentransfer semua tabel dan skema. Oleh karena itu, pilih Semua tabel dari semua skema dari menu.
Pastikan panel Select objects to exclude disetel ke None. Anda tidak ingin membatasi Datastream agar tidak mentransfer tabel dan skema apa pun di database sumber ke Cloud Storage.
Pastikan panel Choose backfill mode for historical data disetel ke Automatic. Datastream mengalirkan semua data yang ada, selain perubahan pada data, dari sumber ke tujuan.
Klik Lanjutkan. Panel Tentukan profil koneksi Cloud Storage di halaman Buat aliran data akan muncul.
Memilih profil koneksi tujuan
Di bagian ini, Anda memilih profil koneksi yang dibuat untuk Cloud Storage (profil koneksi tujuan). Untuk tutorial ini, nama profilnya adalah Profil Koneksi Tujuan Saya.
Dari menu Destination connection profile, pilih profil koneksi tujuan untuk Cloud Storage.
Klik Lanjutkan. Panel Konfigurasi tujuan aliran data di halaman Buat aliran data akan muncul.
Mengonfigurasi informasi tentang tujuan untuk aliran data
Di bagian ini, Anda akan mengonfigurasi informasi tentang bucket tujuan untuk aliran data. Informasi ini mencakup:
- Format output file yang ditulis ke Cloud Storage.
- Folder bucket tujuan tempat Datastream mentransfer skema, tabel, dan data dari database sumber.
Di kolom Output format, pilih format file yang ditulis ke Cloud Storage. Datastream mendukung dua format output: Avro dan JSON. Untuk tutorial ini, Avro adalah format file.
Klik Lanjutkan. Panel Tinjau detail aliran data dan buat di halaman Buat aliran data akan muncul.
Membuat aliran data
Verifikasi detail tentang aliran data serta profil koneksi sumber dan tujuan yang digunakan aliran data untuk mentransfer data dari database MySQL sumber ke bucket tujuan di Cloud Storage.
Untuk memvalidasi streaming, klik Jalankan validasi. Dengan memvalidasi streaming, Datastream akan memeriksa apakah sumber dikonfigurasi dengan benar, memvalidasi apakah streaming dapat terhubung ke sumber dan tujuan, serta memverifikasi konfigurasi menyeluruh streaming.
Setelah semua pemeriksaan validasi lulus, klik Buat.
Dalam dialog Create stream?, klik Create.
Memulai streaming
Untuk tutorial ini, Anda akan membuat dan memulai aliran data secara terpisah jika proses pembuatan aliran data menyebabkan peningkatan beban pada database sumber. Untuk menunda pemuatan tersebut, Anda membuat streaming tanpa memulainya, lalu memulai streaming saat database dapat menangani pemuatan.
Dengan memulai streaming, Datastream dapat mentransfer data, skema, dan tabel dari database sumber ke tujuan.
Di Google Cloud console, buka halaman Streams untuk Datastream.
Centang kotak di samping streaming yang ingin Anda mulai. Untuk tutorial ini, nama channel-nya adalah My Stream.
Klik Start.
Dalam dialog, klik Mulai. Status streaming berubah dari
Not started
menjadiStarting
menjadiRunning
.
Setelah memulai streaming, Anda dapat memverifikasi bahwa Datastream mentransfer data dari database sumber ke tujuan.
Memverifikasi streaming
Di bagian ini, Anda mengonfirmasi bahwa Datastream mentransfer data dari semua tabel database MySQL sumber ke folder /integration/tutorial di bucket tujuan Cloud Storage Anda.
Di Google Cloud console, buka halaman Streams untuk Datastream.
Klik streaming yang Anda buat. Untuk tutorial ini, nama channel-nya adalah My Stream.
Di halaman Detail aliran data, klik link bucket-name/integration/tutorial, dengan bucket-name adalah nama yang Anda berikan ke bucket Cloud Storage. Link ini muncul setelah kolom Jalur tulis tujuan. Halaman Bucket details Cloud Storage akan terbuka di tab terpisah.
Pastikan Anda melihat folder yang mewakili tabel database sumber.
Klik salah satu folder tabel, lalu klik setiap subfolder hingga Anda melihat data yang terkait dengan tabel.
Membuat tugas Dataflow
Di bagian ini, Anda akan membuat tugas di Dataflow. Setelah Datastream melakukan streaming perubahan data dari database MySQL sumber ke bucket Cloud Storage Anda, Pub/Sub akan mengirimkan notifikasi ke Dataflow tentang file baru yang berisi perubahan tersebut. Tugas Dataflow memproses file dan mentransfer perubahan ke BigQuery.
Di Google Cloud console, buka halaman Jobs untuk Dataflow.
Klik Buat tugas dari template.
Di kolom Job name di halaman Create job from template, masukkan nama untuk tugas Dataflow yang Anda buat. Untuk tutorial ini, masukkan
my-dataflow-integration-job
di kolom.Dari menu Endpoint regional, pilih region tempat Anda ingin menyimpan tugas. Ini adalah region yang sama dengan yang Anda pilih untuk profil koneksi sumber, profil koneksi tujuan, dan aliran data yang Anda buat.
Dari menu Template dataflow, pilih template yang Anda gunakan untuk membuat tugas. Untuk tutorial ini, pilih Datastream to BigQuery.
Setelah membuat pilihan ini, kolom tambahan yang terkait dengan template ini akan muncul.
Di kolom File location for Datastream file output in Cloud Storage., masukkan nama bucket Cloud Storage Anda menggunakan format berikut:
gs://bucket-name
.Di kolom Pub/Sub subscription being used in a Cloud Storage notification policy., masukkan jalur yang berisi nama langganan Pub/Sub Anda. Untuk tutorial ini, masukkan
projects/project-name/subscriptions/my_integration_notifs_sub
.Di kolom Format file output Datastream (avro/json)., masukkan
avro
karena, untuk tutorial ini, Avro adalah format file yang ditulis Datastream ke Cloud Storage.Di kolom Nama atau template untuk set data yang akan berisi tabel staging., masukkan
My_integration_dataset_log
karena Dataflow menggunakan set data ini untuk melakukan staging perubahan data yang diterima dari Datastream.Di kolom Template for the dataset to contain replica tables., masukkan
My_integration_dataset_final
karena ini adalah set data tempat perubahan yang di-staging di set data My_integration_dataset_log digabungkan untuk membuat replika satu per satu tabel di database sumber.Di kolom Dead letter queue directory., masukkan jalur yang berisi nama bucket Cloud Storage dan folder untuk antrean pesan yang tidak terkirim. Pastikan Anda tidak menggunakan jalur di folder root, dan jalur tersebut berbeda dengan jalur tempat Datastream menulis data. Setiap perubahan data yang gagal ditransfer Dataflow ke BigQuery akan disimpan dalam antrean. Anda dapat memperbaiki konten dalam antrean sehingga Dataflow dapat memprosesnya ulang.
Untuk tutorial ini, masukkan
gs://bucket-name/dlq
di kolom Dead letter queue directory. (dengan bucket-name adalah nama bucket Anda dan dlq adalah folder untuk antrean pesan yang tidak terkirim).Klik Run job.
Memverifikasi integrasi
Di bagian Memverifikasi aliran data dalam tutorial ini, Anda mengonfirmasi bahwa Datastream telah mentransfer data dari semua tabel database MySQL sumber ke folder /integration/tutorial di bucket tujuan Cloud Storage Anda.
Di bagian ini, Anda akan memverifikasi bahwa Dataflow memproses file yang berisi perubahan yang terkait dengan data ini, dan mentransfer perubahan tersebut ke BigQuery. Hasilnya, Anda memiliki integrasi menyeluruh antara Datastream dan BigQuery.
Di Google Cloud konsol, buka halaman SQL workspace untuk BigQuery.
Di panel Explorer, luaskan node di samping nama project Google Cloud Anda.
Luaskan node di samping set data My_integration_dataset_log dan My_integration_dataset_final.
Pastikan setiap set data kini berisi data. Hal ini mengonfirmasi bahwa Dataflow memproses file yang berisi perubahan yang terkait dengan data yang di-streaming Datastream ke Cloud Storage, dan mentransfer perubahan ini ke BigQuery.
Pembersihan
Agar tidak menimbulkan biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, gunakan konsol Google Cloud untuk melakukan hal berikut:
- Hapus project, aliran Datastream, dan profil koneksi Datastream Anda.
- Hentikan tugas Dataflow.
- Hapus set data BigQuery, topik dan langganan Pub/Sub, serta bucket Cloud Storage.
Dengan membersihkan resource yang Anda buat di Datastream, Dataflow, BigQuery, Pub/Sub, dan Cloud Storage, Anda mencegah resource tersebut menggunakan kuota dan Anda tidak akan ditagih untuk resource tersebut di masa mendatang.
Menghapus project Anda
Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial ini.
Di Google Cloud konsol, buka halaman Manage resources.
Dalam daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
Untuk menghapus project, ketik project ID di dialog, lalu klik Shut down.
Menghapus aliran data
Di Google Cloud console, buka halaman Streams untuk Datastream.
Klik streaming yang ingin dihapus. Untuk tutorial ini, nama channel-nya adalah My Stream.
Klik Jeda.
Pada dialog, klik Pause.
Di panel Status aliran data pada halaman Detail aliran data, pastikan status aliran data adalah
Paused
.Klik Delete.
Pada dialog, di kolom teks, masukkan
Delete
, lalu klik Hapus.
Menghapus profil koneksi
Di Google Cloud console, buka halaman Profil koneksi untuk Datastream.
Pilih kotak centang untuk setiap profil koneksi yang ingin Anda hapus: Profil Koneksi Sumber Saya dan Profil Koneksi Tujuan Saya.
Klik Delete.
Pada dialog, klik Hapus.
Menghentikan tugas Dataflow
Di Google Cloud console, buka halaman Jobs untuk Dataflow.
Klik tugas yang ingin Anda hentikan. Untuk tutorial ini, nama tugasnya adalah my-dataflow-integration-job.
Klik Stop.
Pada dialog Stop job, pilih opsi Drain, lalu klik Stop job.
Menghapus set data BigQuery
Di Google Cloud konsol, buka halaman SQL workspace untuk BigQuery.
Di panel Explorer, luaskan node di samping nama project Google Cloud Anda.
Klik tombol Lihat tindakan di sebelah kanan salah satu set data yang Anda buat di Membuat set data di BigQuery. Tombol ini terlihat seperti elipsis vertikal.
Untuk tutorial ini, klik tombol View actions di sebelah kanan My_integration_dataset_log.
Pilih Hapus dari menu drop-down yang muncul.
Pada dialog Delete dataset?, masukkan
delete
di kolom teks, lalu klik Delete.Ulangi langkah-langkah dalam prosedur ini untuk menghapus set data kedua yang Anda buat: My_integration_dataset_final.
Menghapus langganan dan topik Pub/Sub
Di Google Cloud console, buka halaman Subscriptions untuk Pub/Sub.
Klik kotak centang di samping langganan yang ingin Anda hapus. Untuk tutorial ini, klik kotak centang di samping langganan my_integration_notifs_sub.
Klik Delete.
Pada dialog Hapus langganan, klik Hapus.
Di Google Cloud console, buka halaman Topics untuk Pub/Sub.
Centang kotak di samping topik my_integration_notifs.
Klik Delete.
Pada dialog Delete topic, masukkan
delete
di kolom teks, lalu klik Delete.
Menghapus bucket Cloud Storage
Di konsol Google Cloud , buka halaman Browser untuk Cloud Storage.
Pilih kotak centang di samping bucket Anda.
Klik Delete.
Pada dialog, masukkan
Delete
di kolom teks, lalu klik Hapus.
Langkah selanjutnya
- Pelajari Datastream lebih lanjut.
- Gunakan API streaming lama untuk menjalankan kemampuan lanjutan dengan streaming data ke BigQuery.
- Coba sendiri fitur Google Cloud lainnya. Lihat tutorial kami.