Mereplikasi data dari SQL Server ke BigQuery


Tutorial ini menunjukkan cara membuat dan men-deploy tugas yang terus-menerus mereplikasi data yang diubah dari database Microsoft SQL Server ke tabel BigQuery.

Tujuan

Dalam tutorial ini, Anda telah:

  1. Mengaktifkan Change Data Capture (CDC) di database SQL Server Anda.
  2. Membuat dan menjalankan tugas replikasi Cloud Data Fusion.
  3. Lihat hasilnya di BigQuery.

Biaya

Dalam dokumen ini, Anda menggunakan komponen Google Cloud yang dapat ditagih berikut:

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga. Pengguna baru Google Cloud mungkin memenuhi syarat untuk mendapatkan uji coba gratis.

Saat Replikasi berjalan, Anda akan ditagih untuk cluster Dataproc dan biaya pemrosesan untuk BigQuery akan dikenakan. Untuk mengoptimalkan biaya ini, sebaiknya gunakan harga tetap BigQuery.

Sebelum memulai

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  4. Enable the Cloud Data Fusion, BigQuery, and Cloud Storage APIs.

    Enable the APIs

  5. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  6. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  7. Enable the Cloud Data Fusion, BigQuery, and Cloud Storage APIs.

    Enable the APIs

  8. Buat instance Cloud Data Fusion publik dalam versi 6.3.0 atau yang lebih baru. Jika Anda membuat instance pribadi, siapkan peering jaringan VPC.
    • Saat Anda membuat instance, aktifkan Replikasi dengan mengklik Add Accelerators dan mencentang kotak Replication.
    • Untuk mengaktifkannya dalam instance yang ada, lihat Mengaktifkan Replikasi.

Untuk mengetahui informasi selengkapnya tentang jaringan, lihat Menggunakan HAProxy dengan Cloud Data Fusion untuk Menavigasi Topologi Jaringan yang Kompleks.

Peran yang diperlukan

Untuk mendapatkan izin yang Anda perlukan untuk tutorial ini, lihat Kontrol akses dengan IAM dan Memberikan izin pengguna akun layanan.

Opsional: Menyiapkan instance VM SQL Server

  1. Membuat instance SQL Server.

  2. Download database AdventureWorks2017 (OLTP) dan muat data ke instance SQL Server Anda.

Mengaktifkan CDC di database SQL Server Anda

Untuk replikasi, aktifkan Pengambilan Data Perubahan (CDC) di database dan tabel yang ingin Anda replikasi.

Membuat dan menjalankan tugas replikasi Cloud Data Fusion

Upload driver JDBC

  1. Download driver JDBC SQL Server ke komputer lokal Anda.

  2. Di antarmuka web Cloud Data Fusion, upload driver JDBC. Gunakan nilai berikut untuk mengonfigurasi driver JDBC:

    • Di kolom Name, masukkan sqlserver.
    • Di kolom Class Name, masukkan com.microsoft.sqlserver.jdbc.SQLServerDriver.
    • Di kolom Version, gunakan nilai default.

Buat tugas

  1. Di antarmuka web Cloud Data Fusion, klik Replikasi.

  2. Klik Create a replication job.

  3. Di halaman Create new replication job, tentukan tugas replikasi Name, lalu klik Next.

  4. Konfigurasikan sumber:

    1. Pilih Microsoft SQL Server sebagai sumber.
    2. Untuk Host, masukkan nama host Server SQL yang akan dibaca.
    3. Untuk Port, masukkan port yang akan digunakan untuk terhubung ke SQL Server: 1433.
    4. Untuk JDBC Plugin Name, pilih sqlserveratau nama yang Anda tentukan saat mengonfigurasi driver JDBC.
    5. Untuk Database name, masukkan AdventureWorks2017.
    6. Di bagian Credentials, masukkan nama pengguna dan sandi Anda untuk mengakses SQL Server.
  5. Klik Next.

  6. Konfigurasikan target:

    1. Pilih target BigQuery.
    2. Project ID dan Kunci Akun Layanan akan terdeteksi secara otomatis. Biarkan nilai default tersebut.
    3. Opsional: Di bagian Lanjutan, Anda dapat mengonfigurasi nama dan lokasi bucket Cloud Storage, interval pemuatan, awalan tabel staging, dan perilaku saat tabel atau database dihapus.
  7. Klik Next.

  8. Jika koneksi berhasil, daftar tabel AdventureWorks2017 akan ditampilkan. Untuk tutorial ini, pilih beberapa tabel dan peristiwa, seperti peristiwa Insert, Update, dan Delete.

  9. Opsional: Konfigurasikan properti lanjutan. Untuk tutorial ini, Anda dapat menerima setelan default.

  10. Klik Next.

  11. Di halaman Tinjau penilaian, klik Lihat pemetaan dengan salah satu tabel untuk penilaian masalah skema, fitur yang tidak ada, atau masalah konektivitas yang mungkin terjadi selama replikasi. Masalah harus diselesaikan sebelum Anda dapat melanjutkan. Untuk tutorial ini, jika salah satu tabel mengalami masalah, kembali ke langkah saat Anda memilih tabel, lalu pilih tabel atau peristiwa tanpa masalah.

    Untuk mengetahui informasi selengkapnya tentang konversi jenis data dari database sumber ke tujuan BigQuery, lihat Jenis data replikasi.

  12. Klik Back.

  13. Klik Next.

  14. Tinjau detail tugas replikasi ringkasan, lalu klik Deploy replication job.

Memulai tugas

  • Dari halaman detail tugas replikasi, klik Start.

Tugas replikasi beralih dari status Provisioning ke Starting ke Running. Dalam status yang sedang berjalan, tugas replikasi memuat snapshot awal dari data tabel yang Anda pilih (misalnya, tabel Orang) ke BigQuery. Dalam status ini, status tabel People tercantum sebagai Snapshotting. Setelah snapshot awal dimuat ke BigQuery, setiap perubahan yang dilakukan pada tabel People akan direplikasi ke BigQuery. Status tabel tercantum sebagai Replicating.

Memantau tugas

Anda dapat memulai dan menghentikan tugas replikasi, meninjau konfigurasi dan log-nya, serta memantau tugas replikasi Anda.

Anda dapat memantau aktivitas tugas replikasi dari halaman Detail tugas replikasi.

  1. Dari halaman Replication, klik tugas replikasi Name.

  2. Klik Monitoring.

Lihat hasil di BigQuery

Tugas replikasi akan membuat set data dan tabel replika di BigQuery, dengan nama yang diwariskan dari nama database dan tabel SQL Server yang sesuai.

  1. Buka BigQuery di Konsol Google Cloud.

  2. Di panel kiri, klik nama project untuk meluaskan daftar set data.

  3. Pilih set data adventureworks2017, lalu pilih tabel untuk dilihat.

Untuk mengetahui informasi selengkapnya, baca dokumentasi BigQuery.

Pembersihan

Agar tidak dikenakan biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource-nya.

Setelah menyelesaikan tutorial, hapus resource yang Anda buat di Google Cloud.

Menghapus instance VM

  1. Di konsol Google Cloud, buka halaman Instance VM.

    Buka VM instances

  2. Pilih kotak centang untuk instance yang ingin Anda hapus.
  3. Untuk menghapus instance, klik Tindakan lainnya, klik Hapus, lalu ikuti petunjuknya.

Menghapus instance Cloud Data Fusion

Ikuti petunjuk untuk menghapus instance Cloud Data Fusion.

Menghapus project

  1. Di konsol Google Cloud, buka halaman Manage resource.

    Buka Manage resource

  2. Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
  3. Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Langkah selanjutnya