Ringkasan replikasi

Replikasi Cloud Data Fusion memungkinkan Anda membuat salinan data secara terus-menerus dan secara real time dari datastore operasional, seperti SQL Server dan MySQL, ke BigQuery.

Untuk menggunakan Replikasi, pilih salah satu cara berikut:

  • Buat instance Cloud Data Fusion baru dan tambahkan aplikasi Replikasi.
  • Tambahkan aplikasi Replikasi ke instance yang ada.

Manfaatnya meliputi:

  • Mengidentifikasi inkompatibilitas skema, masalah konektivitas, dan fitur yang hilang sebelum memulai replikasi, lalu memberikan tindakan korektif.

  • Menggunakan data operasional terbaru secara real time untuk analisis dalam BigQuery. Anda menggunakan replikasi berbasis log langsung ke BigQuery dari Microsoft SQL Server (menggunakan SQL Server CDC) dan MySQL (menggunakan MySQL Binary Log).

  • Pengambilan data perubahan (CDC) yang memberikan representasi data yang telah berubah dalam streaming, sehingga komputasi dan pemrosesan dapat berfokus secara khusus pada data yang baru-baru ini diubah. Hal ini meminimalkan tagihan data keluar di sistem produksi sensitif.

  • Skalabilitas perusahaan yang mendukung database transaksional bervolume tinggi Pemuatan awal data ke BigQuery didukung dengan replikasi snapshot tanpa waktu tunggu, sehingga data warehouse siap menggunakan perubahan secara berkelanjutan. Setelah snapshot awal selesai, replikasi perubahan berkelanjutan dengan throughput tinggi akan dimulai secara real time.

  • Dasbor yang membantu Anda mendapatkan insight real-time tentang performa replikasi. Alat ini berguna untuk mengidentifikasi bottleneck dan memantau SLA pengiriman data.

  • Termasuk dukungan untuk Residensi Data, Kunci Enkripsi yang Dikelola Pelanggan (CMEK), dan Kontrol Layanan VPC. Integrasi Cloud Data Fusion dalam Google Cloud memastikan bahwa tingkat keamanan dan privasi perusahaan tertinggi diamati sekaligus menyediakan data terbaru di warehouse data Anda untuk analisis.

Saat Replikasi berjalan, Anda akan dikenai biaya untuk cluster Dataproc dan dikenai biaya pemrosesan untuk BigQuery. Untuk mengoptimalkan biaya ini, sebaiknya gunakan harga tarif tetap BigQuery.

Untuk mengetahui informasi selengkapnya, lihat halaman Harga Cloud Data Fusion.

Entitas replikasi

Entity Deskripsi
Replikasi Replikasi adalah kemampuan Cloud Data Fusion yang memungkinkan replikasi data secara berkelanjutan dengan latensi rendah dari datastore operasional ke dalam data warehouse analitis. Buat tugas replikasi dengan mengonfigurasi sumber dan target dengan transformasi opsional.
Sumber Membaca peristiwa perubahan database, tabel, atau kolom dan menyediakannya untuk pemrosesan lebih lanjut dalam tugas replikasi. Tugas replikasi berisi satu sumber, yang mengandalkan solusi pengambilan perubahan untuk menyediakan perubahan. Mungkin ada beberapa sumber untuk database, masing-masing dengan solusi pengambilan perubahan yang berbeda. Sumber adalah modul plug-in yang dibuat menggunakan arsitektur plugin CDAP. Jika sumber tidak tersedia untuk memenuhi kebutuhan Anda, Anda dapat membuat sumber sendiri dengan menerapkan antarmuka sumber, lalu menguploadnya ke CDAP atau Cloud Data Fusion.
Target Menulis perubahan yang diterima dari sumber ke database target. Tugas replikasi berisi satu target. Target adalah modul plug-in yang dibuat menggunakan arsitektur plugin CDAP. Jika target tidak tersedia untuk memenuhi kebutuhan Anda, Anda dapat membuat target sendiri dengan menerapkan antarmuka target, lalu menguploadnya ke CDAP atau Cloud Data Fusion.
Properti sumber Mengonfigurasi sumber, termasuk detail koneksi, nama database dan tabel sumber, kredensial, dan properti lainnya.
Properti target Mengonfigurasi target, termasuk detail koneksi, nama database dan tabel target, kredensial, dan properti lainnya.
Properti tugas replikasi Mengonfigurasi tugas replikasi termasuk nilai minimum kegagalan, area staging, notifikasi, dan setelan validasi.
Draf Tugas replikasi yang disimpan dan selesai sebagian. Setelah selesai, penentuan tugas replikasi dapat dimulai.
Acara Ubah peristiwa di sumber agar direplikasi ke target. Peristiwa mencakup penyisipan, pembaruan, penghapusan, dan perubahan DDL (Data Definition Language).
Sisipkan Penambahan data baru di sumber.
Perbarui Memperbarui data yang ada di sumber.
Hapus Penghapusan data yang ada di sumber.
Perubahan DDL Peristiwa yang berisi perubahan skema, seperti perubahan jenis atau nama data.
Log Log operasional tugas replikasi.
Detail tugas replikasi Halaman detail dengan informasi tugas replikasi, seperti statusnya saat ini, metrik operasional, tampilan historis dari waktu ke waktu, hasil validasi, dan konfigurasinya.
Dasbor Halaman yang mencantumkan status semua aktivitas pengambilan data perubahan, termasuk throughput, latensi, rasio kegagalan, dan hasil validasi.

Tindakan

Tindakan Deskripsi
Deploy Membuat tugas replikasi baru dengan mengikuti alur antarmuka web untuk menentukan sumber, target, dan konfigurasinya.
Simpan Menyimpan tugas replikasi yang dibuat sebagian untuk melanjutkan pembuatannya nanti.
Hapus Menghapus tugas replikasi yang ada. Hanya pipeline yang berhenti yang dapat dihapus.
Mulai Memulai tugas replikasi. Jika ada perubahan yang akan diproses, tugas replikasi akan memasuki status `aktif`; jika tidak, tugas akan memasuki status `menunggu`.
Hentikan Menghentikan tugas replikasi. Tugas replikasi berhenti memproses perubahan dari sumber.
Melihat log Melihat log tugas replikasi untuk proses debug atau analisis lainnya.
Telusuri Menelusuri tugas replikasi berdasarkan nama, deskripsi, atau metadata tugas replikasi lainnya.
Nilai Menilai dampak replikasi sebelum memulai replikasi. Menilai tugas replikasi akan menghasilkan laporan penilaian yang menandai inkompatibilitas skema dan fitur yang hilang.

Pemantauan

Status replikator Deskripsi
Di-deploy Tugas replikasi di-deploy, tetapi tidak dimulai. Dalam status ini, tugas replikasi tidak mereplikasi peristiwa.
Memulai Tugas replikasi sedang diinisialisasi, dan belum siap untuk mereplikasi perubahan.
Berjalan Tugas replikasi dimulai, dan mereplikasi perubahan.
Menghentikan Tugas replikasi dihentikan.
Dihentikan Tugas replikasi dihentikan.
Gagal Tugas replikasi gagal karena error fatal.

Status tabel

Konsep Deskripsi
Mengambil snapshot Tugas replikasi mengambil snapshot status tabel saat ini sebelum mereplikasi perubahan.
Mereplikasi Tugas replikasi mereplikasi perubahan dari tabel sumber ke tabel tujuan.
Gagal Tugas replikasi gagal mereplikasi perubahan dari tabel sumber karena error.

Metrik

Konsep Deskripsi
Penyisipan Jumlah penyisipan yang diterapkan ke target dalam jangka waktu yang dipilih.
Update Jumlah update yang diterapkan ke target dalam jangka waktu yang dipilih.
Penghapusan Jumlah penghapusan yang diterapkan ke target dalam jangka waktu yang dipilih.
DDL Jumlah perubahan DDL yang diterapkan ke target dalam jangka waktu yang dipilih.
Throughput Jumlah peristiwa dan jumlah byte yang direplikasi ke target dalam jangka waktu yang dipilih.
Latensi Latensi saat data direplikasi ke target dalam periode waktu yang dipilih.

Komponen

Komponen Deskripsi
Layanan Mengawasi orkestrasi menyeluruh tugas replikasi, dan menyediakan kemampuan untuk mendesain, men-deploy, mengelola, dan memantau tugas replikasi. Fungsi ini berjalan di dalam project tenant Cloud Data Fusion (project tenant disembunyikan dari pengguna). Statusnya ditampilkan di halaman **System Admin** pada antarmuka web Cloud Data Fusion.
Pengelolaan Status Layanan ini mengelola status setiap tugas replikasi di bucket Cloud Storage dalam project pelanggan. Bucket dapat dikonfigurasi saat tugas replikasi dibuat. Tabel ini menyimpan offset saat ini dan status replikasi dari setiap tugas replikasi.
Eksekusi Cluster Dataproc menyediakan lingkungan eksekusi tugas replikasi, yang berjalan di project Anda. tugas replikasi dijalankan menggunakan pekerja CDAP. Ukuran dan karakteristik lingkungan eksekusi dikonfigurasi dengan profil Compute Engine.
Database sumber Database operasional produksi yang direplikasi ke database target. Database ini dapat berada di lokal atau di Google Cloud. Replikasi Cloud Data Fusion mendukung database sumber MySQL, Microsoft SQL Server, dan Oracle.
Mengubah solusi pelacakan Alih-alih berjalan di agen yang berjalan di database sumber, Cloud Data Fusion mengandalkan solusi pelacakan perubahan untuk membaca perubahan di database sumber. Solusi dapat berupa komponen database sumber atau solusi pihak ketiga berlisensi terpisah. Dalam kasus kedua, solusi pelacakan perubahan berjalan secara lokal, ditempatkan bersama dengan database sumber, atau di Google Cloud. Setiap sumber harus dikaitkan dengan solusi pelacakan perubahan.
  1. SQL Server
    • Solusi yang didukung: SQL Server CDC (tabel pelacakan perubahan)
    • Software tambahan: Tidak
    • Lisensi/biaya: T/A
    • Komentar: Tersedia di SQL Server 2016 dan yang lebih baru
  2. MySQL
    • Solusi yang didukung: Log biner MySQL
    • Software tambahan: Tidak
    • Lisensi/biaya: T/A
    • Komentar: T/A
  3. Oracle
Database target Lokasi tujuan untuk replikasi dan analisis. Cloud Data Fusion mendukung database target BigQuery.
Autentikasi Mekanisme autentikasi bervariasi sesuai dengan database sumber atau software pelacakan perubahan. Saat menggunakan kemampuan bawaan database sumber, seperti SQL Server dan MySQL, login database digunakan untuk autentikasi. Saat menggunakan software pelacakan perubahan, mekanisme autentikasi software akan digunakan.

Konektivitas

Tabel berikut menjelaskan koneksi jaringan yang diperlukan untuk Replikasi, dan mekanisme keamanan yang digunakannya.

Dari Menjadi Opsional Protokol Network Keamanan Auth Tujuan
Layanan (Project Tenant) DB Sumber Ya Bergantung pada Sumber replikasi. JDBC untuk koneksi database langsung. Peering + Aturan firewall + VPN/Interconnect + Router Login DB Diperlukan pada waktu desain, bukan eksekusi Fungsi: Listingan tabel, Penilaian (langkah opsional; replikasi dapat berlanjut tanpanya)
Layanan (Project Tenant) Cloud Storage Tidak Cloud API VPC-SC IAM Pengelolaan Status: Offset, Status replikasi
Dataproc (project Anda) DB Sumber Tidak Bergantung pada sumber. JDBC untuk koneksi DB langsung. Peering + Aturan firewall + VPN/Interconnect + Router Login DB Diperlukan pada waktu eksekusi, untuk membaca perubahan dari DB sumber untuk direplikasi ke target
Dataproc (project Anda) Cloud Storage Tidak Cloud API VPC-SC IAM Pengelolaan Status: Offset, Status replikasi
Dataproc (project Anda) BigQuery Tidak Cloud API VPC-SC IAM Diperlukan pada waktu eksekusi untuk menerapkan perubahan dari DB sumber ke target

Langkah selanjutnya