Mereplikasi data ke BigQuery secara mendekati real-time dengan Datastream

Pelajari cara mereplikasi data dari database sumber ke set data BigQuery menggunakan Datastream.


Jika ingin mengikuti panduan langkah demi langkah untuk tugas ini langsung di Konsol Google Cloud, klik Pandu saya:

Pandu saya


Sebelum memulai

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  4. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  5. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  6. Aktifkan Datastream API.

    Mengaktifkan API

  7. Pastikan Anda memiliki peran Admin Datastream yang ditetapkan ke akun pengguna.

    Buka halaman IAM

Jika ingin membuat konfigurasi konektivitas pribadi untuk jaringan VPC standar atau bersama, Anda harus menyelesaikan prasyarat tambahan. Untuk mengetahui informasi selengkapnya, lihat Membuat konfigurasi konektivitas pribadi.

Persyaratan

Datastream menawarkan berbagai opsi sumber, opsi tujuan, dan metode konektivitas jaringan.

Dalam panduan memulai ini, kami asumsikan Anda mereplikasi data dari database Cloud SQL untuk PostgreSQL ke BigQuery. Untuk database sumber, Anda harus dapat mengonfigurasi instance database untuk menerima koneksi dari alamat IP publik Datastream.

Karena kami tidak dapat mengetahui secara spesifik lingkungan Anda, kami tidak dapat memberikan langkah-langkah mendetail mengenai konfigurasi jaringan Anda.

Untuk panduan memulai ini, Anda harus memilih Pemberian izin IP sebagai metode konektivitas jaringan. Pemberian izin IP adalah fitur keamanan yang sering digunakan untuk membatasi dan mengontrol akses ke data di database sumber Anda untuk pengguna tepercaya. Anda dapat menggunakan daftar IP yang diizinkan untuk membuat daftar alamat IP atau rentang IP tepercaya tempat pengguna dan layanan Cloud lainnya seperti Datastream dapat mengakses data ini. Untuk menggunakan daftar IP yang diizinkan, Anda harus membuka database Cloud SQL sumber ke koneksi masuk dari Datastream.

Membuat profil koneksi

Dengan membuat profil koneksi, Anda menyimpan beberapa informasi dasar tentang sumber dan tujuan dalam Datastream. Selanjutnya, Anda dapat menggunakan kembali informasi ini di beberapa feed.

Di panduan memulai ini, Anda akan memilih PostgreSQL sebagai jenis profil untuk profil koneksi sumber, dan BigQuery sebagai jenis profil untuk profil koneksi tujuan. Datastream menggunakan informasi dalam profil koneksi untuk terhubung ke database sumber dan BigQuery.

Membuat profil koneksi sumber untuk database PostgreSQL

  1. Buka halaman Connection profile untuk Datastream di Google Cloud Console.

    Buka halaman Connection profile

  2. Klik BUAT PROFIL.

  3. Di halaman Create a connection profile, klik jenis profil PostgreSQL (karena Anda ingin membuat profil koneksi sumber untuk database PostgreSQL).

  4. Berikan informasi berikut di bagian Menentukan setelan koneksi di halaman Membuat profil PostgreSQL:

    • Masukkan My Source Connection Profile sebagai Nama profil koneksi untuk database sumber Anda.
    • Simpan ID profil koneksi yang dibuat otomatis.
    • Pilih Region tempat profil koneksi akan disimpan.

    • Masukkan Detail koneksi:

      • Di kolom Hostname atau IP, masukkan nama host atau alamat IP publik yang dapat digunakan Datastream untuk terhubung ke database PostgreSQL sumber. Anda memberikan alamat IP publik karena daftar IP yang diizinkan akan digunakan sebagai metode konektivitas jaringan untuk panduan memulai ini.
      • Di kolom Port, masukkan nomor port yang direservasi untuk database sumber. Untuk database PostgreSQL, port defaultnya biasanya 5432.
      • Masukkan Username dan Password untuk melakukan autentikasi ke database sumber.
      • Di kolom Database, masukkan nama yang mengidentifikasi instance database. Untuk database PostgreSQL, ini biasanya postgres.
  5. Di bagian Tentukan setelan koneksi, klik LANJUTKAN. Bagian Tentukan metode konektivitas di halaman Buat profil PostgreSQL aktif.

  6. Pilih metode jaringan yang ingin Anda gunakan untuk membuat konektivitas antara database sumber dan Datastream. Untuk panduan memulai ini, gunakan menu drop-down Metode konektivitas untuk memilih Daftar IP yang diizinkan sebagai metode jaringan.

  7. Konfigurasikan database sumber Anda untuk mengizinkan koneksi masuk dari alamat IP publik Datastream yang muncul.

  8. Di bagian Tentukan metode konektivitas, klik LANJUTKAN. Bagian Test connection profile di halaman Buat profil PostgreSQL aktif.

  9. Klik RUN TEST untuk memverifikasi bahwa database PostgreSQL sumber dan Datastream dapat saling berkomunikasi.

  10. Pastikan status "Pengujian lulus" muncul.

  11. Jika pengujian gagal, Anda dapat mengatasi masalah di bagian alur yang sesuai, kemudian kembali untuk menguji ulang. Lihat halaman Diagnosis masalah untuk mengetahui langkah-langkah pemecahan masalah.

  12. Klik CREATE.

Membuat profil koneksi tujuan untuk BigQuery

  1. Buka halaman Connection profile untuk Datastream di Google Cloud Console.

    Buka halaman Connection profile

  2. Klik BUAT PROFIL.

  3. Di halaman Create a connection profile, klik jenis profil BigQuery (karena Anda ingin membuat profil koneksi tujuan untuk BigQuery).

  4. Berikan informasi berikut di halaman Create BigQuery profile:

    • Masukkan My Destination Connection Profile sebagai Connection profile name untuk layanan BigQuery tujuan Anda.
    • Simpan ID profil koneksi yang dibuat otomatis.
    • Pilih Region tempat profil koneksi akan disimpan.
  5. Klik CREATE.

Setelah membuat profil koneksi sumber untuk database PostgreSQL dan profil koneksi tujuan untuk BigQuery, Anda dapat menggunakannya untuk membuat aliran data.

Membuat stream

Di bagian ini, Anda akan membuat aliran data untuk mereplikasi data dari database PostgreSQL sumber ke BigQuery.

Membuat streaming mencakup:

  • Menentukan setelan untuk streaming.
  • Memilih profil koneksi yang Anda buat untuk database sumber (profil koneksi sumber). Untuk panduan memulai, panduan ini adalah Profil Koneksi My Source.
  • Mengonfigurasi informasi tentang database sumber untuk aliran data dengan menentukan properti replikasi, serta tabel dan skema di database sumber yang Datastream:
    • Dapat ditransfer ke tujuan.
    • Dibatasi agar tidak dapat ditransfer ke tujuan.
  • Menentukan apakah Datastream akan mengisi ulang data historis, serta mengalirkan perubahan yang sedang berlangsung ke tujuan, atau hanya mengalirkan perubahan pada data.
  • Memilih profil koneksi yang Anda buat untuk BigQuery (profil koneksi tujuan). Untuk panduan memulai, ini adalah Profil Koneksi Destinasi Saya.
  • Mengonfigurasi informasi tentang tujuan aliran data, seperti mengonfigurasi set data BigQuery.
  • Memvalidasi streaming.

Menentukan setelan untuk streaming

  1. Buka halaman Streams untuk Datastream di Google Cloud Console.

    Buka halaman Forum

  2. Klik BUAT STREAMING.

  3. Berikan informasi berikut di panel Tentukan detail aliran data di halaman Buat streaming:

    • Masukkan My Stream sebagai Nama aliran data.
    • Simpan ID Aliran Data yang dibuat otomatis.
    • Dari menu Region, pilih region tempat Anda membuat profil koneksi sumber.
    • Dari menu Source type, pilih jenis profil PostgreSQL.
    • Dari menu Jenis tujuan, pilih jenis profil BigQuery.
  4. Tinjau prasyarat yang diperlukan yang dibuat secara otomatis guna mencerminkan cara mempersiapkan lingkungan Anda untuk streaming. Prasyarat ini mencakup cara mengonfigurasi database sumber dan cara mengonfigurasi BigQuery.

  5. Klik CONTINUE. Panel Define PostgreSQL connection profile di halaman Create stream akan muncul.

Menentukan informasi tentang profil koneksi sumber

  1. Dari menu Source connection profile, pilih profil koneksi sumber untuk database PostgreSQL.

  2. Klik RUN TEST untuk memverifikasi bahwa database sumber dan Datastream dapat saling berkomunikasi.

    Jika pengujian gagal, masalah yang terkait dengan profil koneksi akan muncul. Lihat halaman Diagnosis masalah untuk mengetahui langkah-langkah pemecahan masalah. Buat perubahan yang diperlukan untuk memperbaiki masalah, lalu uji kembali.

  3. Klik CONTINUE. Panel Konfigurasi sumber streaming di halaman Buat streaming akan muncul.

Mengonfigurasi informasi tentang database sumber untuk aliran data

  1. Berikan nama Slot replikasi dan Publikasi untuk database sumber Anda. Slot replikasi dan publikasi dibuat saat mengonfigurasi database PostgreSQL.

  2. Gunakan menu Objects to include untuk menentukan tabel dan skema di database sumber yang akan direplikasi oleh Datastream ke dalam BigQuery. Menu hanya dimuat jika database Anda memiliki hingga 5.000 objek.

    Untuk panduan memulai ini, Anda ingin Datastream mentransfer semua tabel dan skema. Oleh karena itu, pilih Semua tabel dari semua skema dari menu.

  3. Klik CONTINUE. Panel Tentukan profil koneksi BigQuery di halaman Buat aliran data akan muncul.

Pilih profil koneksi tujuan

  1. Dari menu Destination connection profile, pilih profil koneksi tujuan untuk BigQuery.

  2. Klik CONTINUE. Panel Konfigurasi tujuan streaming di halaman Buat streaming akan muncul.

Mengonfigurasi informasi tentang tujuan untuk aliran data

  1. Pilih opsi Set data untuk setiap skema, sehingga Datastream secara otomatis membuat set data di BigQuery untuk setiap skema dalam database sumber.

  2. Pilih Lokasi tempat set data akan dibuat di BigQuery. Lokasi ini tidak harus sama dengan region tempat aliran Datastream dibuat.

  3. Tetapkan Awalan ke quickstart-. Datastream akan menambahkan string ini ke awal setiap set data yang dibuatnya di BigQuery.

  4. Biarkan nilai di menu drop-down Tentukan batas data yang tidak berlaku ditetapkan ke 15 menit. BigQuery menggunakan nilai ini untuk menentukan seberapa usang data Anda saat dikueri.

  5. Klik CONTINUE. Panel Tinjau detail aliran data dan buat di halaman Buat aliran data akan muncul.

Membuat feed

  1. Verifikasi detail tentang aliran data serta profil koneksi sumber dan tujuan yang akan digunakan aliran data tersebut untuk mentransfer data dari database PostgreSQL sumber ke BigQuery.

  2. Klik JALANKAN VALIDASI untuk memvalidasi streaming. Dengan memvalidasi streaming, Datastream memeriksa apakah sumber telah dikonfigurasi dengan benar, memvalidasi bahwa streaming dapat terhubung ke sumber dan tujuan, serta memverifikasi konfigurasi streaming secara menyeluruh.

  3. Setelah semua pemeriksaan validasi lulus, klik BUAT.

  4. Di kotak dialog Create stream?, klik CREATE.

Memulai streaming

Di bagian sebelumnya dalam panduan memulai, Anda telah membuat streaming, tetapi tidak memulainya. Anda dapat melakukannya sekarang.

Untuk panduan memulai ini, Anda akan membuat dan memulai streaming secara terpisah jika proses pembuatan streaming menyebabkan peningkatan beban pada database sumber Anda. Untuk menunda beban tersebut, buat streaming tanpa memulainya, lalu mulai streaming saat beban bisa terjadi.

Dengan memulai aliran data, Datastream dapat mentransfer data, skema, dan tabel dari database sumber ke tujuan.

  1. Buka halaman Streams untuk Datastream di Google Cloud Console.

    Buka halaman Forum

  2. Centang kotak di sebelah kiri streaming yang ingin Anda mulai. Untuk panduan memulai ini, buka Streaming Saya.

  3. Klik MULAI.

  4. Di kotak dialog, klik MULAI. Status aliran data berubah dari Not started menjadi Starting menjadi Running.

    Setelah memulai aliran data, Anda dapat memverifikasi bahwa Datastream telah mentransfer data dari database sumber ke tujuan.

Verifikasi aliran data

Di bagian ini, Anda mengonfirmasi bahwa Datastream mentransfer data dari semua tabel database PostgreSQL sumber ke BigQuery.

  1. Buka halaman Streams untuk Datastream di Google Cloud Console.

    Buka halaman Forum

  2. Klik streaming yang Anda buat. Untuk panduan memulai ini, buka Streaming Saya.

  3. Di halaman Detail aliran data, klik link yang muncul di bawah kolom Jalur penulisan tujuan. BigQuery Studio akan terbuka di tab terpisah.

  4. Pastikan Anda melihat set data dan tabel yang mewakili skema dan tabel database PostgreSQL sumber Anda.

  5. Klik salah satu tabel untuk melihat pratinjau data Anda.

Pembersihan

Agar akun Google Cloud Anda tidak dikenakan biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

  1. Gunakan Konsol Google Cloud untuk menghapus project, aliran data dan profil koneksi Datastream, serta set data BigQuery.

Dengan membersihkan resource yang Anda buat di Datastream, resource tersebut tidak akan menghabiskan kuota dan Anda tidak akan ditagih di masa mendatang. Bagian berikut menjelaskan cara menghapus atau menonaktifkan referensi ini.

Menghapus project Anda

Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk panduan memulai ini.

  1. Di Cloud Console, buka halaman Manage resources.

    Buka halaman Kelola resource

  2. Dalam daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.

  3. Di kotak dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Menghapus feed

  1. Buka halaman Streams untuk Datastream di Google Cloud Console.

    Buka halaman Forum

  2. Klik aliran data yang ingin dihapus. Untuk panduan memulai ini, buka Streaming Saya.

  3. Klik JEDA.

  4. Di kotak dialog, klik JEDA.

  5. Di panel Status streaming di halaman Detail streaming, pastikan status streaming adalah Paused.

  6. Klik HAPUS.

  7. Di kotak dialog, masukkan Delete di kolom teks, lalu klik HAPUS.

Menghapus profil koneksi

  1. Buka halaman Connection profile untuk Datastream di Google Cloud Console.

    Buka halaman Connection profile

  2. Centang kotak untuk setiap profil koneksi yang ingin Anda hapus. Untuk panduan memulai ini, centang kotak My Source Connection Profile dan My Destination Connection Profile.

  3. Klik HAPUS.

  4. Di kotak dialog, klik HAPUS.

Menghapus set data BigQuery Anda

  1. Buka halaman BigQuery Studio di Konsol Google Cloud.

    Buka BigQuery Studio

  2. Luaskan node project tempat Anda membuat panduan memulai ini.

  3. Untuk setiap set data yang ingin Anda hapus, klik menu View actions, lalu klik Delete.

  4. Di kotak dialog, masukkan delete di kolom teks, lalu klik HAPUS.

Langkah selanjutnya