Pelajari cara mereplikasi data dari database sumber ke set data BigQuery menggunakan Datastream.
Jika ingin mengikuti panduan langkah demi langkah untuk tugas ini langsung di Konsol Google Cloud, klik Pandu saya:
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Datastream API.
- Pastikan Anda memiliki peran Datastream Admin yang ditetapkan ke akun pengguna Anda.
Jika ingin membuat konfigurasi konektivitas pribadi untuk jaringan VPC standar atau bersama, Anda harus menyelesaikan prasyarat tambahan. Untuk informasi selengkapnya, lihat Membuat konfigurasi konektivitas pribadi.
Persyaratan
Datastream menawarkan berbagai opsi sumber, opsi tujuan, dan metode konektivitas jaringan.
Dalam panduan memulai ini, kami mengasumsikan bahwa Anda mereplikasi data dari database Cloud SQL untuk PostgreSQL ke BigQuery. Untuk database sumber, Anda harus dapat mengonfigurasi instance database agar dapat menerima koneksi dari alamat IP publik Datastream.
Karena kami tidak dapat mengetahui secara spesifik lingkungan Anda, kami tidak dapat memberikan langkah-langkah mendetail mengenai konfigurasi jaringan Anda.
Untuk panduan memulai ini, Anda akan memilih IP allowlisting sebagai metode konektivitas jaringan. Daftar IP yang diizinkan adalah fitur keamanan yang sering digunakan untuk membatasi dan mengontrol akses ke data di database sumber Anda kepada pengguna tepercaya. Anda dapat menggunakan daftar IP yang diizinkan untuk membuat daftar alamat IP atau rentang IP terpercaya yang dapat digunakan oleh pengguna dan layanan Cloud lainnya seperti Datastream untuk mengakses data ini. Untuk menggunakan daftar IP yang diizinkan, Anda harus membuka database Cloud SQL sumber ke koneksi masuk dari Datastream.
Membuat profil koneksi
Dengan membuat profil koneksi, Anda menyimpan beberapa informasi dasar tentang sumber dan tujuan di Datastream. Kemudian, Anda dapat menggunakan kembali informasi ini di beberapa aliran.
Dalam panduan memulai ini, Anda akan memilih PostgreSQL sebagai jenis profil untuk profil koneksi sumber, dan BigQuery sebagai jenis profil untuk profil koneksi tujuan. Datastream menggunakan informasi dalam profil koneksi untuk terhubung ke database sumber dan ke BigQuery.
Membuat profil koneksi sumber untuk database PostgreSQL
Buka halaman Profil koneksi untuk Datastream di Google Cloud Konsol.
Klik BUAT PROFIL.
Di halaman Create a connection profile, klik jenis profil PostgreSQL (karena Anda ingin membuat profil koneksi sumber untuk database PostgreSQL).
Berikan informasi berikut di bagian Tentukan setelan koneksi di halaman Buat profil PostgreSQL:
- Masukkan
My Source Connection Profile
sebagai Nama profil koneksi untuk database sumber Anda. - Simpan ID profil koneksi yang dibuat secara otomatis.
Pilih Region tempat profil koneksi akan disimpan.
Masukkan Detail koneksi:
- Di kolom Hostname or IP, masukkan nama host atau alamat IP publik yang dapat digunakan Datastream untuk terhubung ke database PostgreSQL sumber. Anda memberikan alamat IP publik karena daftar IP yang diizinkan akan digunakan sebagai metode konektivitas jaringan untuk memulai cepat ini.
- Di kolom Port, masukkan nomor port yang dicadangkan untuk database sumber. Untuk database PostgreSQL, port default biasanya
5432
. - Masukkan Username dan Password untuk mengautentikasi ke database sumber Anda.
- Di kolom Database, masukkan nama yang mengidentifikasi instance database. Untuk database PostgreSQL, biasanya ini adalah
postgres
.
- Masukkan
Di bagian Define connection settings, klik CONTINUE. Bagian Menentukan metode konektivitas di halaman Membuat profil PostgreSQL aktif.
Pilih metode jaringan yang ingin Anda gunakan untuk membangun konektivitas antara database sumber dan Datastream. Untuk panduan memulai ini, gunakan menu drop-down Metode konektivitas untuk memilih IP allowlisting sebagai metode jaringan.
Konfigurasikan database sumber Anda untuk mengizinkan koneksi masuk dari alamat IP publik Datastream yang muncul.
Di bagian Define connectivity method, klik CONTINUE. Bagian Uji profil koneksi di halaman Buat profil PostgreSQL aktif.
Klik RUN TEST untuk memverifikasi bahwa database PostgreSQL sumber dan Datastream dapat saling berkomunikasi.
Pastikan status "Pengujian lulus" muncul.
Jika pengujian gagal, Anda dapat mengatasi masalah tersebut di bagian alur yang sesuai, lalu kembali untuk menguji ulang. Lihat halaman Mendiagnosis masalah untuk mengetahui langkah-langkah pemecahan masalah.
Klik BUAT.
Membuat profil koneksi tujuan untuk BigQuery
Buka halaman Profil koneksi untuk Datastream di Google Cloud Konsol.
Klik BUAT PROFIL.
Di halaman Create a connection profile, klik jenis profil BigQuery (karena Anda ingin membuat profil koneksi tujuan untuk BigQuery).
Berikan informasi berikut di halaman Buat profil BigQuery:
- Masukkan
My Destination Connection Profile
sebagai Nama profil koneksi untuk layanan BigQuery tujuan Anda. - Simpan ID profil koneksi yang dibuat secara otomatis.
- Pilih Region tempat profil koneksi akan disimpan.
- Masukkan
Klik BUAT.
Setelah membuat profil koneksi sumber untuk database PostgreSQL dan profil koneksi tujuan untuk BigQuery, Anda dapat menggunakannya untuk membuat aliran data.
Membuat stream
Di bagian ini, Anda akan membuat aliran data untuk mereplikasi data dari database PostgreSQL sumber ke BigQuery.
Membuat streaming mencakup:
- Menentukan setelan untuk streaming.
- Memilih profil koneksi yang Anda buat untuk database sumber (profil koneksi sumber). Untuk panduan memulai ini, ini adalah Profil Koneksi Sumber Saya.
- Mengonfigurasi informasi tentang database sumber untuk aliran data dengan menentukan properti replikasi, serta tabel dan skema di database sumber yang ditransfer oleh Datastream:
- Dapat ditransfer ke tujuan.
- Dibatasi untuk ditransfer ke tujuan.
- Menentukan apakah Datastream akan mengisi ulang data historis, serta melakukan streaming perubahan yang sedang berlangsung ke tujuan, atau hanya melakukan streaming perubahan pada data.
- Memilih profil koneksi yang Anda buat untuk BigQuery (profil koneksi tujuan). Untuk panduan memulai ini, nama profilnya adalah Profil Koneksi Tujuan Saya.
- Mengonfigurasi informasi tentang tujuan untuk streaming, seperti mengonfigurasi set data BigQuery.
- Memvalidasi streaming.
Menentukan setelan untuk streaming
Buka halaman Aliran Data untuk Datastream di Google Cloud Konsol.
Klik BUAT ARUS DATA.
Berikan informasi berikut di panel Define stream details di halaman Create stream:
- Masukkan
My Stream
sebagai Nama aliran data. - Tetap gunakan ID Aliran Data yang dibuat secara otomatis.
- Dari menu Region, pilih region tempat Anda membuat profil koneksi sumber.
- Dari menu Jenis sumber, pilih jenis profil PostgreSQL.
- Dari menu Destination type, pilih jenis profil BigQuery.
- Masukkan
Tinjau prasyarat yang diperlukan yang dibuat secara otomatis guna mencerminkan cara lingkungan Anda harus disiapkan untuk streaming. Prasyarat ini mencakup cara mengonfigurasi database sumber dan cara mengonfigurasi BigQuery.
Klik CONTINUE. Panel Define PostgreSQL connection profile di halaman Create stream akan muncul.
Menentukan informasi tentang profil koneksi sumber
Dari menu Source connection profile, pilih profil koneksi sumber untuk database PostgreSQL.
Klik RUN TEST untuk memverifikasi bahwa database sumber dan Datastream dapat saling berkomunikasi.
Jika pengujian gagal, masalah yang terkait dengan profil koneksi akan muncul. Lihat halaman Mendiagnosis masalah untuk mengetahui langkah-langkah pemecahan masalah. Lakukan perubahan yang diperlukan untuk memperbaiki masalah, lalu uji ulang.
Klik CONTINUE. Panel Konfigurasi sumber aliran data di halaman Buat aliran data akan muncul.
Mengonfigurasi informasi tentang database sumber untuk aliran data
Berikan nama Slot replikasi dan Publikasi untuk database sumber Anda. Slot replikasi dan publikasi dibuat saat mengonfigurasi database PostgreSQL.
Gunakan menu Objects to include untuk menentukan tabel dan skema di database sumber yang akan direplikasi Datastream ke BigQuery. Menu hanya dimuat jika database Anda memiliki hingga 5.000 objek.
Untuk panduan memulai ini, Anda ingin Datastream mentransfer semua tabel dan skema. Oleh karena itu, pilih Semua tabel dari semua skema dari menu.
Klik CONTINUE. Panel Tentukan profil koneksi BigQuery di halaman Buat aliran data akan muncul.
Memilih profil koneksi tujuan
Dari menu Destination connection profile, pilih profil koneksi tujuan untuk BigQuery.
Klik CONTINUE. Panel Konfigurasi tujuan aliran data di halaman Buat aliran data akan muncul.
Mengonfigurasi informasi tentang tujuan untuk aliran data
Pilih opsi Dataset for each schema, sehingga Datastream akan otomatis membuat set data di BigQuery untuk setiap skema di database sumber.
Pilih Jenis lokasi tempat set data akan dibuat di BigQuery. Meskipun lokasi ini tidak harus sama dengan region tempat aliran Datastream dibuat, sebaiknya simpan semua resource, serta set data, di region yang sama untuk pengoptimalan biaya dan performa.
Tetapkan Prefix ke
quickstart-
. Datastream akan menambahkan string ini ke awal setiap set data yang dibuatnya di BigQuery.Biarkan nilai di Mode tulis streaming ditetapkan ke Gabungkan. Dengan cara ini, tabel di BigQuery tetap disinkronkan dengan sumber.
Biarkan nilai dalam menu drop-down Tentukan batas keusangan data ditetapkan ke 15 menit. BigQuery menggunakan nilai ini untuk menentukan seberapa usang data Anda saat dikueri.
Klik CONTINUE. Panel Tinjau detail aliran data dan buat di halaman Buat aliran data akan muncul.
Membuat aliran data
Verifikasi detail tentang aliran data serta profil koneksi sumber dan tujuan yang akan digunakan aliran data untuk mentransfer data dari database PostgreSQL sumber ke BigQuery.
Klik RUN VALIDATION untuk memvalidasi aliran data. Dengan memvalidasi streaming, Datastream akan memeriksa apakah sumber dikonfigurasi dengan benar, memvalidasi bahwa streaming dapat terhubung ke sumber dan tujuan, serta memverifikasi konfigurasi menyeluruh streaming.
Setelah semua pemeriksaan validasi lulus, klik BUAT.
Di kotak dialog Buat aliran data?, klik BUAT.
Memulai streaming
Di bagian sebelumnya dalam panduan memulai, Anda telah membuat streaming, tetapi tidak memulainya. Anda dapat melakukannya sekarang.
Untuk memulai cepat ini, Anda membuat dan memulai aliran data secara terpisah jika proses pembuatan aliran data menyebabkan peningkatan beban pada database sumber. Untuk menunda beban tersebut, Anda membuat aliran data tanpa memulainya, lalu memulai aliran data saat beban dapat terjadi.
Dengan memulai streaming, Datastream dapat mentransfer data, skema, dan tabel dari database sumber ke tujuan.
Buka halaman Streams untuk Datastream di Google Cloud Konsol.
Centang kotak di sebelah kiri streaming yang ingin Anda mulai. Untuk panduan memulai ini, nama channel-nya adalah My Stream.
Klik MULAI.
Dalam dialog, klik MULAI. Status streaming berubah dari
Not started
menjadiStarting
menjadiRunning
.Setelah memulai streaming, Anda dapat memverifikasi bahwa Datastream mentransfer data dari database sumber ke tujuan.
Memverifikasi streaming
Di bagian ini, Anda akan mengonfirmasi bahwa Datastream mentransfer data dari semua tabel database PostgreSQL sumber ke BigQuery.
Buka halaman Aliran Data untuk Datastream di Google Cloud Konsol.
Klik streaming yang Anda buat. Untuk panduan memulai ini, nama channel-nya adalah My Stream.
Di halaman Detail aliran data, klik link yang muncul di bawah kolom Jalur tulis tujuan. BigQuery Studio akan terbuka di tab terpisah.
Pastikan Anda melihat set data dan tabel yang mewakili skema dan tabel database PostgreSQL sumber.
Klik salah satu tabel untuk melihat pratinjau data Anda.
Pembersihan
Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan di halaman ini, ikuti langkah-langkah berikut.
- Gunakan konsol Google Cloud untuk menghapus project, streaming Datastream, profil koneksi, dan set data BigQuery Anda.
Dengan membersihkan resource yang Anda buat di Datastream, resource tersebut tidak akan menghabiskan kuota dan Anda tidak akan ditagih di masa mendatang. Bagian berikut menjelaskan cara menghapus atau menonaktifkan resource ini.
Menghapus project Anda
Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk panduan memulai ini.
Di Cloud Console, buka halaman Manage resources.
Dalam daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
Di kotak dialog, ketik project ID, lalu klik Shut down untuk menghapus project.
Menghapus aliran data
Buka halaman Streams untuk Datastream di Google Cloud Konsol.
Klik streaming yang ingin dihapus. Untuk panduan memulai ini, nama channel-nya adalah My Stream.
Klik JEDA.
Di kotak dialog, klik JEDA.
Di panel Status aliran data pada halaman Detail aliran data, pastikan status aliran data adalah
Paused
.Klik HAPUS.
Di kotak dialog, masukkan
Delete
di kolom teks, lalu klik DELETE.
Menghapus profil koneksi
Buka halaman Profil koneksi untuk Datastream di Google Cloud Konsol.
Centang kotak untuk setiap profil koneksi yang ingin Anda hapus. Untuk memulai cepat ini, centang kotak My Source Connection Profile dan My Destination Connection Profile.
Klik HAPUS.
Di kotak dialog, klik HAPUS.
Menghapus set data BigQuery
Buka halaman BigQuery Studio di Google Cloud Konsol.
Luaskan node project tempat Anda membuat panduan memulai ini.
Untuk setiap set data yang ingin Anda hapus, klik menu Lihat tindakan, lalu klik Hapus.
Di kotak dialog, masukkan
delete
di kolom teks, lalu klik DELETE.
Langkah selanjutnya
- Pelajari Datastream lebih lanjut.
- Coba sendiri fitur Google Cloud lainnya. Lihat panduan memulai kami.
- Pelajari cara menggunakan tabel capture data perubahan di BigQuery.