Pelajari cara mereplikasi data dari database sumber ke set data BigQuery menggunakan Datastream.
Jika ingin mengikuti panduan langkah demi langkah untuk tugas ini langsung di Konsol Google Cloud, klik Pandu saya:
Sebelum memulai
- Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Aktifkan Datastream API.
- Pastikan Anda memiliki peran Admin Datastream yang ditetapkan ke akun pengguna.
Jika ingin membuat konfigurasi konektivitas pribadi untuk jaringan VPC standar atau bersama, Anda harus menyelesaikan prasyarat tambahan. Untuk mengetahui informasi selengkapnya, lihat Membuat konfigurasi konektivitas pribadi.
Persyaratan
Datastream menawarkan berbagai opsi sumber, opsi tujuan, dan metode konektivitas jaringan.
Dalam panduan memulai ini, kami asumsikan Anda mereplikasi data dari database Cloud SQL untuk PostgreSQL ke BigQuery. Untuk database sumber, Anda harus dapat mengonfigurasi instance database untuk menerima koneksi dari alamat IP publik Datastream.
Karena kami tidak dapat mengetahui secara spesifik lingkungan Anda, kami tidak dapat memberikan langkah-langkah mendetail mengenai konfigurasi jaringan Anda.
Untuk panduan memulai ini, Anda harus memilih Pemberian izin IP sebagai metode konektivitas jaringan. Pemberian izin IP adalah fitur keamanan yang sering digunakan untuk membatasi dan mengontrol akses ke data di database sumber Anda untuk pengguna tepercaya. Anda dapat menggunakan daftar IP yang diizinkan untuk membuat daftar alamat IP atau rentang IP tepercaya tempat pengguna dan layanan Cloud lainnya seperti Datastream dapat mengakses data ini. Untuk menggunakan daftar IP yang diizinkan, Anda harus membuka database Cloud SQL sumber ke koneksi masuk dari Datastream.
Membuat profil koneksi
Dengan membuat profil koneksi, Anda menyimpan beberapa informasi dasar tentang sumber dan tujuan dalam Datastream. Selanjutnya, Anda dapat menggunakan kembali informasi ini di beberapa feed.
Di panduan memulai ini, Anda akan memilih PostgreSQL sebagai jenis profil untuk profil koneksi sumber, dan BigQuery sebagai jenis profil untuk profil koneksi tujuan. Datastream menggunakan informasi dalam profil koneksi untuk terhubung ke database sumber dan BigQuery.
Membuat profil koneksi sumber untuk database PostgreSQL
Buka halaman Connection profile untuk Datastream di Google Cloud Console.
Klik BUAT PROFIL.
Di halaman Create a connection profile, klik jenis profil PostgreSQL (karena Anda ingin membuat profil koneksi sumber untuk database PostgreSQL).
Berikan informasi berikut di bagian Menentukan setelan koneksi di halaman Membuat profil PostgreSQL:
- Masukkan
My Source Connection Profile
sebagai Nama profil koneksi untuk database sumber Anda. - Simpan ID profil koneksi yang dibuat otomatis.
Pilih Region tempat profil koneksi akan disimpan.
Masukkan Detail koneksi:
- Di kolom Hostname atau IP, masukkan nama host atau alamat IP publik yang dapat digunakan Datastream untuk terhubung ke database PostgreSQL sumber. Anda memberikan alamat IP publik karena daftar IP yang diizinkan akan digunakan sebagai metode konektivitas jaringan untuk panduan memulai ini.
- Di kolom Port, masukkan nomor port yang direservasi untuk database sumber. Untuk database PostgreSQL, port defaultnya biasanya
5432
. - Masukkan Username dan Password untuk melakukan autentikasi ke database sumber.
- Di kolom Database, masukkan nama yang mengidentifikasi instance database. Untuk database PostgreSQL, ini biasanya
postgres
.
- Masukkan
Di bagian Tentukan setelan koneksi, klik LANJUTKAN. Bagian Tentukan metode konektivitas di halaman Buat profil PostgreSQL aktif.
Pilih metode jaringan yang ingin Anda gunakan untuk membuat konektivitas antara database sumber dan Datastream. Untuk panduan memulai ini, gunakan menu drop-down Metode konektivitas untuk memilih Daftar IP yang diizinkan sebagai metode jaringan.
Konfigurasikan database sumber Anda untuk mengizinkan koneksi masuk dari alamat IP publik Datastream yang muncul.
Di bagian Tentukan metode konektivitas, klik LANJUTKAN. Bagian Test connection profile di halaman Buat profil PostgreSQL aktif.
Klik RUN TEST untuk memverifikasi bahwa database PostgreSQL sumber dan Datastream dapat saling berkomunikasi.
Pastikan status "Pengujian lulus" muncul.
Jika pengujian gagal, Anda dapat mengatasi masalah di bagian alur yang sesuai, kemudian kembali untuk menguji ulang. Lihat halaman Diagnosis masalah untuk mengetahui langkah-langkah pemecahan masalah.
Klik CREATE.
Membuat profil koneksi tujuan untuk BigQuery
Buka halaman Connection profile untuk Datastream di Google Cloud Console.
Klik BUAT PROFIL.
Di halaman Create a connection profile, klik jenis profil BigQuery (karena Anda ingin membuat profil koneksi tujuan untuk BigQuery).
Berikan informasi berikut di halaman Create BigQuery profile:
- Masukkan
My Destination Connection Profile
sebagai Connection profile name untuk layanan BigQuery tujuan Anda. - Simpan ID profil koneksi yang dibuat otomatis.
- Pilih Region tempat profil koneksi akan disimpan.
- Masukkan
Klik CREATE.
Setelah membuat profil koneksi sumber untuk database PostgreSQL dan profil koneksi tujuan untuk BigQuery, Anda dapat menggunakannya untuk membuat aliran data.
Membuat stream
Di bagian ini, Anda akan membuat aliran data untuk mereplikasi data dari database PostgreSQL sumber ke BigQuery.
Membuat streaming mencakup:
- Menentukan setelan untuk streaming.
- Memilih profil koneksi yang Anda buat untuk database sumber (profil koneksi sumber). Untuk panduan memulai, panduan ini adalah Profil Koneksi My Source.
- Mengonfigurasi informasi tentang database sumber untuk aliran data dengan menentukan properti replikasi, serta tabel dan skema di database sumber yang Datastream:
- Dapat ditransfer ke tujuan.
- Dibatasi agar tidak dapat ditransfer ke tujuan.
- Menentukan apakah Datastream akan mengisi ulang data historis, serta mengalirkan perubahan yang sedang berlangsung ke tujuan, atau hanya mengalirkan perubahan pada data.
- Memilih profil koneksi yang Anda buat untuk BigQuery (profil koneksi tujuan). Untuk panduan memulai, ini adalah Profil Koneksi Destinasi Saya.
- Mengonfigurasi informasi tentang tujuan aliran data, seperti mengonfigurasi set data BigQuery.
- Memvalidasi streaming.
Menentukan setelan untuk streaming
Buka halaman Streams untuk Datastream di Google Cloud Console.
Klik BUAT STREAMING.
Berikan informasi berikut di panel Tentukan detail aliran data di halaman Buat streaming:
- Masukkan
My Stream
sebagai Nama aliran data. - Simpan ID Aliran Data yang dibuat otomatis.
- Dari menu Region, pilih region tempat Anda membuat profil koneksi sumber.
- Dari menu Source type, pilih jenis profil PostgreSQL.
- Dari menu Jenis tujuan, pilih jenis profil BigQuery.
- Masukkan
Tinjau prasyarat yang diperlukan yang dibuat secara otomatis guna mencerminkan cara mempersiapkan lingkungan Anda untuk streaming. Prasyarat ini mencakup cara mengonfigurasi database sumber dan cara mengonfigurasi BigQuery.
Klik CONTINUE. Panel Define PostgreSQL connection profile di halaman Create stream akan muncul.
Menentukan informasi tentang profil koneksi sumber
Dari menu Source connection profile, pilih profil koneksi sumber untuk database PostgreSQL.
Klik RUN TEST untuk memverifikasi bahwa database sumber dan Datastream dapat saling berkomunikasi.
Jika pengujian gagal, masalah yang terkait dengan profil koneksi akan muncul. Lihat halaman Diagnosis masalah untuk mengetahui langkah-langkah pemecahan masalah. Buat perubahan yang diperlukan untuk memperbaiki masalah, lalu uji kembali.
Klik CONTINUE. Panel Konfigurasi sumber streaming di halaman Buat streaming akan muncul.
Mengonfigurasi informasi tentang database sumber untuk aliran data
Berikan nama Slot replikasi dan Publikasi untuk database sumber Anda. Slot replikasi dan publikasi dibuat saat mengonfigurasi database PostgreSQL.
Gunakan menu Objects to include untuk menentukan tabel dan skema di database sumber yang akan direplikasi oleh Datastream ke dalam BigQuery. Menu hanya dimuat jika database Anda memiliki hingga 5.000 objek.
Untuk panduan memulai ini, Anda ingin Datastream mentransfer semua tabel dan skema. Oleh karena itu, pilih Semua tabel dari semua skema dari menu.
Klik CONTINUE. Panel Tentukan profil koneksi BigQuery di halaman Buat aliran data akan muncul.
Pilih profil koneksi tujuan
Dari menu Destination connection profile, pilih profil koneksi tujuan untuk BigQuery.
Klik CONTINUE. Panel Konfigurasi tujuan streaming di halaman Buat streaming akan muncul.
Mengonfigurasi informasi tentang tujuan untuk aliran data
Pilih opsi Set data untuk setiap skema, sehingga Datastream secara otomatis membuat set data di BigQuery untuk setiap skema dalam database sumber.
Pilih Lokasi tempat set data akan dibuat di BigQuery. Lokasi ini tidak harus sama dengan region tempat aliran Datastream dibuat.
Tetapkan Awalan ke
quickstart-
. Datastream akan menambahkan string ini ke awal setiap set data yang dibuatnya di BigQuery.Biarkan nilai di menu drop-down Tentukan batas data yang tidak berlaku ditetapkan ke 15 menit. BigQuery menggunakan nilai ini untuk menentukan seberapa usang data Anda saat dikueri.
Klik CONTINUE. Panel Tinjau detail aliran data dan buat di halaman Buat aliran data akan muncul.
Membuat feed
Verifikasi detail tentang aliran data serta profil koneksi sumber dan tujuan yang akan digunakan aliran data tersebut untuk mentransfer data dari database PostgreSQL sumber ke BigQuery.
Klik JALANKAN VALIDASI untuk memvalidasi streaming. Dengan memvalidasi streaming, Datastream memeriksa apakah sumber telah dikonfigurasi dengan benar, memvalidasi bahwa streaming dapat terhubung ke sumber dan tujuan, serta memverifikasi konfigurasi streaming secara menyeluruh.
Setelah semua pemeriksaan validasi lulus, klik BUAT.
Di kotak dialog Create stream?, klik CREATE.
Memulai streaming
Di bagian sebelumnya dalam panduan memulai, Anda telah membuat streaming, tetapi tidak memulainya. Anda dapat melakukannya sekarang.
Untuk panduan memulai ini, Anda akan membuat dan memulai streaming secara terpisah jika proses pembuatan streaming menyebabkan peningkatan beban pada database sumber Anda. Untuk menunda beban tersebut, buat streaming tanpa memulainya, lalu mulai streaming saat beban bisa terjadi.
Dengan memulai aliran data, Datastream dapat mentransfer data, skema, dan tabel dari database sumber ke tujuan.
Buka halaman Streams untuk Datastream di Google Cloud Console.
Centang kotak di sebelah kiri streaming yang ingin Anda mulai. Untuk panduan memulai ini, buka Streaming Saya.
Klik MULAI.
Di kotak dialog, klik MULAI. Status aliran data berubah dari
Not started
menjadiStarting
menjadiRunning
.Setelah memulai aliran data, Anda dapat memverifikasi bahwa Datastream telah mentransfer data dari database sumber ke tujuan.
Verifikasi aliran data
Di bagian ini, Anda mengonfirmasi bahwa Datastream mentransfer data dari semua tabel database PostgreSQL sumber ke BigQuery.
Buka halaman Streams untuk Datastream di Google Cloud Console.
Klik streaming yang Anda buat. Untuk panduan memulai ini, buka Streaming Saya.
Di halaman Detail aliran data, klik link yang muncul di bawah kolom Jalur penulisan tujuan. BigQuery Studio akan terbuka di tab terpisah.
Pastikan Anda melihat set data dan tabel yang mewakili skema dan tabel database PostgreSQL sumber Anda.
Klik salah satu tabel untuk melihat pratinjau data Anda.
Pembersihan
Agar akun Google Cloud Anda tidak dikenakan biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.
- Gunakan Konsol Google Cloud untuk menghapus project, aliran data dan profil koneksi Datastream, serta set data BigQuery.
Dengan membersihkan resource yang Anda buat di Datastream, resource tersebut tidak akan menghabiskan kuota dan Anda tidak akan ditagih di masa mendatang. Bagian berikut menjelaskan cara menghapus atau menonaktifkan referensi ini.
Menghapus project Anda
Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk panduan memulai ini.
Di Cloud Console, buka halaman Manage resources.
Dalam daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
Di kotak dialog, ketik project ID, lalu klik Shut down untuk menghapus project.
Menghapus feed
Buka halaman Streams untuk Datastream di Google Cloud Console.
Klik aliran data yang ingin dihapus. Untuk panduan memulai ini, buka Streaming Saya.
Klik JEDA.
Di kotak dialog, klik JEDA.
Di panel Status streaming di halaman Detail streaming, pastikan status streaming adalah
Paused
.Klik HAPUS.
Di kotak dialog, masukkan
Delete
di kolom teks, lalu klik HAPUS.
Menghapus profil koneksi
Buka halaman Connection profile untuk Datastream di Google Cloud Console.
Centang kotak untuk setiap profil koneksi yang ingin Anda hapus. Untuk panduan memulai ini, centang kotak My Source Connection Profile dan My Destination Connection Profile.
Klik HAPUS.
Di kotak dialog, klik HAPUS.
Menghapus set data BigQuery Anda
Buka halaman BigQuery Studio di Konsol Google Cloud.
Luaskan node project tempat Anda membuat panduan memulai ini.
Untuk setiap set data yang ingin Anda hapus, klik menu View actions, lalu klik Delete.
Di kotak dialog, masukkan
delete
di kolom teks, lalu klik HAPUS.
Langkah selanjutnya
- Pelajari Datastream lebih lanjut.
- Coba sendiri fitur Google Cloud lainnya. Lihat panduan memulai kami.
- Pelajari cara menggunakan tabel pengambilan data perubahan di BigQuery.