Mereplikasi data dari SQL Server ke BigQuery


Tutorial ini menunjukkan cara membuat dan men-deploy tugas yang terus-menerus mereplikasi data yang berubah dari database Microsoft SQL Server ke tabel BigQuery.

Tujuan

Dalam tutorial ini, Anda telah:

  1. Aktifkan Pengambilan Data Perubahan (CDC) di database SQL Server Anda.
  2. Buat dan jalankan tugas replikasi Cloud Data Fusion.
  3. Lihat hasilnya di BigQuery.

Biaya

Dalam dokumen ini, Anda akan menggunakan komponen Google Cloudyang dapat ditagih berikut:

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga.

Pengguna Google Cloud baru mungkin memenuhi syarat untuk mendapatkan uji coba gratis.

Saat Replikasi berjalan, Anda akan dikenai biaya untuk cluster Dataproc dan dikenai biaya pemrosesan untuk BigQuery. Untuk mengoptimalkan biaya ini, sebaiknya gunakan harga tarif datar BigQuery.

Sebelum memulai

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Make sure that billing is enabled for your Google Cloud project.

  3. Enable the Cloud Data Fusion, BigQuery, and Cloud Storage APIs.

    Enable the APIs

  4. Buat instance Cloud Data Fusion publikdi versi 6.3.0 atau yang lebih baru. Jika Anda membuat instance pribadi, siapkan peering jaringan VPC.
    • Saat Anda membuat instance, aktifkan Replikasi dengan mengklik Tambahkan Akselerator dan mencentang kotak Replikasi.
    • Untuk mengaktifkannya di instance yang ada, lihat Mengaktifkan Replikasi.
  5. Untuk mengetahui informasi selengkapnya tentang jaringan, lihat Menggunakan HAProxy dengan Cloud Data Fusion untuk Menavigasi Topologi Jaringan yang Kompleks.

    Peran yang diperlukan

    Untuk mendapatkan izin yang Anda perlukan untuk tutorial ini, lihat Kontrol akses dengan IAM dan Memberi izin pengguna akun layanan.

Opsional: Siapkan instance VM SQL Server

  1. Buat instance SQL Server.

  2. Download database AdventureWorks2017 (OLTP) dan muat data ke instance SQL Server Anda.

Mengaktifkan CDC di database SQL Server Anda

Untuk replikasi, aktifkan Pengambilan Data Perubahan (CDC) di database dan tabel yang ingin direplikasi.

Membuat dan menjalankan tugas replikasi Cloud Data Fusion

Mengupload driver JDBC

  1. Download driver JDBC SQL Server ke komputer lokal Anda.

  2. Di antarmuka web Cloud Data Fusion, upload driver JDBC. Gunakan nilai ini untuk mengonfigurasi driver JDBC:

    • Di kolom Name, masukkan sqlserver.
    • Di kolom Class Name, masukkan com.microsoft.sqlserver.jdbc.SQLServerDriver.
    • Di kolom Versi, gunakan nilai default.

Buat tugas

  1. Di antarmuka web Cloud Data Fusion, klik Replication.

  2. Klik Buat tugas replikasi.

  3. Di halaman Create new replication job, tentukan Nama tugas replikasi, lalu klik Berikutnya.

  4. Konfigurasi sumber:

    1. Pilih Microsoft SQL Server sebagai sumber.
    2. Untuk Host, masukkan nama host SQL Server yang akan dibaca.
    3. Untuk Port, masukkan port yang akan digunakan untuk terhubung ke SQL Server: 1433.
    4. Untuk JDBC Plugin Name, pilih sqlserveratau nama yang Anda tentukan saat Anda mengonfigurasi driver JDBC.
    5. Untuk Database name, masukkan AdventureWorks2017.
    6. Di bagian Kredensial, masukkan nama pengguna dan sandi Anda untuk mengakses SQL Server.
  5. Klik Berikutnya.

  6. Konfigurasikan target:

    1. Pilih target BigQuery.
    2. Project ID dan Kunci Akun Layanan akan terdeteksi secara otomatis. Jangan ubah nilai default-nya.
    3. Opsional: Di bagian Lanjutan, Anda dapat mengonfigurasi nama dan lokasi bucket Cloud Storage, interval pemuatan, awalan tabel penahapan, dan perilaku saat tabel atau database dihapus.
  7. Klik Berikutnya.

  8. Jika koneksi berhasil, daftar tabel AdventureWorks2017 akan ditampilkan. Untuk tutorial ini, pilih beberapa tabel dan peristiwa, seperti peristiwa Insert, Update, dan Delete.

  9. Opsional: Konfigurasi properti lanjutan. Untuk tutorial ini, Anda dapat menerima setelan default.

  10. Klik Berikutnya.

  11. Di halaman Tinjau penilaian, klik Lihat pemetaan di salah satu tabel untuk penilaian masalah skema, fitur yang tidak ada, atau masalah konektivitas yang mungkin terjadi selama replikasi. Masalah harus diselesaikan sebelum Anda dapat melanjutkan. Untuk tutorial ini, jika ada tabel yang bermasalah, kembali ke langkah saat Anda memilih tabel dan pilih tabel atau peristiwa tanpa masalah.

    Untuk mengetahui informasi selengkapnya tentang konversi jenis data dari database sumber ke tujuan BigQuery, lihat Jenis data replikasi.

  12. Klik Back.

  13. Klik Berikutnya.

  14. Tinjau detail tugas replikasi ringkasan, lalu klik Deploy replication job.

Mulai tugas

  • Dari halaman detail tugas replikasi, klik Mulai.

Pekerjaan replikasi akan bertransisi dari status Provisioning ke Starting ke status Running. Dalam status berjalan, tugas replikasi memuat snapshot awal data tabel yang Anda pilih (misalnya, tabel People) ke BigQuery. Dalam status ini, status tabel People dicantumkan sebagai Snapshotting. Setelah snapshot awal dimuat ke BigQuery, setiap perubahan yang dilakukan pada tabel Orang akan direplikasi ke BigQuery. Status tabel tercantum sebagai Mereplikasi.

Memantau tugas

Anda dapat memulai dan menghentikan tugas replikasi, meninjau konfigurasi dan log-nya, serta memantau tugas replikasi.

Anda dapat memantau aktivitas tugas replikasi dari halaman Detail tugas replikasi.

  1. Dari halaman Replication, klik Name tugas replikasi.

  2. Klik Monitoring.

Melihat hasil di BigQuery

Tugas replikasi membuat set data dan tabel yang direplikasi di BigQuery, dengan nama yang diwarisi dari nama tabel dan database SQL Server yang sesuai.

  1. Buka BigQuery di konsol Google Cloud .

  2. Di panel kiri, klik nama project untuk meluaskan daftar set data.

  3. Pilih set data adventureworks2017, lalu pilih tabel yang akan dilihat.

Untuk mengetahui informasi selengkapnya, lihat dokumentasi BigQuery.

Pembersihan

Agar tidak perlu membayar biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource.

Setelah menyelesaikan tutorial, hapus resource yang Anda buat di Google Cloud.

Hapus instance VM

  1. In the Google Cloud console, go to the VM instances page.

    Go to VM instances

  2. Select the checkbox for the instance that you want to delete.
  3. To delete the instance, click More actions, click Delete, and then follow the instructions.

Menghapus instance Cloud Data Fusion

Ikuti petunjuk untuk menghapus instance Cloud Data Fusion Anda.

Menghapus project

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Langkah berikutnya