Replikasi

Dengan Replikasi Cloud Data Fusion, Anda dapat mereplikasi data secara berkelanjutan dan real time dari datastore operasional, seperti SQL Server dan MySQL, ke BigQuery.

Untuk menggunakan Replikasi, pilih salah satu cara berikut:

  • Buat instance Cloud Data Fusion baru dan tambahkan aplikasi Replikasi.
  • Tambahkan aplikasi Replikasi ke instance yang ada.

Lihat tutorial untuk MySQL, SQL Server, dan Oracle.

Manfaatnya meliputi:

  • Antarmuka sederhana bagi developer ETL dan analis data untuk menyiapkan tugas replikasi.

  • Membantu Anda mengidentifikasi inkompatibilitas skema, masalah konektivitas, dan fitur yang hilang sebelum memulai replikasi, lalu memberikan tindakan korektif.

  • Anda dapat menggunakan data operasional terbaru secara real time untuk melakukan analisis di dalam BigQuery. Anda menggunakan replikasi berbasis log langsung ke BigQuery dari Microsoft SQL Server (menggunakan SQL Server CDC) dan MySQL (menggunakan MySQL Binary Log).

  • Pengambilan data perubahan (CDC) memberikan representasi data yang telah berubah dalam aliran, yang memungkinkan komputasi dan pemrosesan berfokus secara khusus pada data yang terakhir diubah. Hal ini meminimalkan biaya data keluar pada sistem produksi yang sensitif.

  • Skalabilitas perusahaan untuk mendukung database transaksional bervolume tinggi Pemuatan data awal ke BigQuery didukung dengan replikasi snapshot tanpa periode nonaktif, agar data warehouse siap untuk menerima perubahan secara berkelanjutan. Setelah snapshot awal selesai, replikasi perubahan berkelanjutan dengan throughput tinggi akan dimulai secara real time.

  • Dasbor membantu Anda mendapatkan insight real-time tentang performa replikasi. Alat ini berguna untuk mengidentifikasi bottleneck dan memantau SLA pengiriman data.

  • Termasuk dukungan untuk Residensi Data, Kunci Enkripsi yang Dikelola Pelanggan (CMEK), dan Kontrol Layanan VPC. Integrasi Cloud Data Fusion dalam Google Cloud memastikan tingkat keamanan dan privasi perusahaan tertinggi diamati sambil menyediakan data terbaru di data warehouse untuk analisis.

Saat Replikasi dijalankan, Anda akan ditagih untuk cluster Dataproc, dan Anda juga dikenai biaya pemrosesan untuk BigQuery. Untuk mengoptimalkan biaya ini, sebaiknya Anda menggunakan harga tetap BigQuery.

Untuk mengetahui informasi selengkapnya, lihat halaman Harga Cloud Data Fusion.

Entitas replikasi

Entity Deskripsi
Replikasi Replikasi adalah kemampuan Cloud Data Fusion yang memungkinkan replikasi data secara terus-menerus dengan latensi rendah dari datastore operasional ke data warehouse analisis. Buat tugas replikasi dengan mengonfigurasi sumber dan target dengan transformasi opsional.
Asal Membaca peristiwa perubahan database, tabel, atau kolom dan menyediakannya untuk diproses lebih lanjut dalam tugas replikasi. Tugas replikasi berisi satu sumber, yang mengandalkan solusi pengambilan perubahan untuk menyediakan perubahan. Database dapat memiliki beberapa sumber, masing-masing dengan solusi perekaman perubahan yang berbeda. Sumber adalah modul yang dapat dicocokkan dan dibuat menggunakan arsitektur plugin CDAP. Jika sumber tidak tersedia untuk memenuhi kebutuhan Anda, Anda dapat membuatnya sendiri dengan mengimplementasikan antarmuka sumber, lalu menguploadnya ke CDAP atau Cloud Data Fusion.
Target Menulis perubahan yang diterima dari sumber ke dalam database target. Tugas replikasi berisi satu target. Target adalah modul yang dapat dicocokkan dan dibuat menggunakan arsitektur plugin CDAP. Jika target tidak tersedia untuk memenuhi kebutuhan Anda, Anda dapat membuat sendiri dengan mengimplementasikan antarmuka target, lalu menguploadnya ke CDAP atau Cloud Data Fusion.
Properti sumber Mengonfigurasi sumber, termasuk detail koneksi, database sumber, nama tabel, kredensial, serta properti lainnya.
Properti target Mengonfigurasi target, termasuk detail koneksi, nama tabel dan database target, kredensial, serta properti lainnya.
Properti tugas replikasi Mengonfigurasi tugas replikasi termasuk ambang batas kegagalan, area staging, notifikasi, dan setelan validasi.
Draf Tugas replikasi yang tersimpan dan selesai sebagian. Setelah definisi tugas replikasi selesai, tugas dapat dimulai.
Acara Mengubah peristiwa di sumber untuk direplikasi ke target. Peristiwa mencakup penyisipan, pembaruan, penghapusan, dan perubahan DDL (Data Definition Language).
Sisipkan Penambahan record baru dalam sumber.
Pembaruan Pembaruan ke data yang ada di sumber.
Hapus Penghapusan catatan yang ada di sumber.
Perubahan DDL Peristiwa yang berisi perubahan skema, seperti perubahan jenis atau nama data.
Log Log operasional tugas replikasi.
Detail tugas replikasi Halaman detail yang berisi informasi tugas replikasi, seperti status saat ini, metrik operasional, tampilan historis dari waktu ke waktu, hasil validasi, dan konfigurasinya.
Dasbor Halaman yang mencantumkan status semua aktivitas pengambilan data perubahan, termasuk throughput, latensi, tingkat kegagalan, dan hasil validasi.

Tindakan

Tindakan Deskripsi
Deploy Membuat tugas replikasi baru dengan mengikuti alur antarmuka web untuk menentukan sumber, target, dan konfigurasinya.
Save Menyimpan tugas replikasi yang dibuat sebagian untuk melanjutkan pembuatan nanti.
Hapus Menghapus tugas replikasi yang ada. Hanya pipeline yang dihentikan yang dapat dihapus.
Mulai Memulai tugas replikasi. Jika ada perubahan yang akan diproses, tugas replikasi akan memasuki status `active`; jika tidak, tugas replikasi akan memasuki status `waiting`.
Hentikan Menghentikan tugas replikasi. Tugas replikasi berhenti memproses perubahan dari sumber.
Lihat log Melihat log tugas replikasi untuk proses debug atau analisis lainnya.
Penelusuran Mencari tugas replikasi berdasarkan nama, deskripsi, atau metadata tugas replikasi lainnya.
Menilai Menilai dampak replikasi sebelum memulai replikasi. Penilaian tugas replikasi akan menghasilkan laporan penilaian yang menandai ketidaksesuaian skema dan fitur yang tidak ada.

Monitoring

Status replika Deskripsi
Di-deploy Tugas replikasi telah di-deploy, tetapi belum dimulai. Dalam status ini, tugas replikasi tidak mereplikasi peristiwa.
Memulai Tugas replikasi sedang diinisialisasi, dan belum siap untuk mereplikasi perubahan.
Berjalan Tugas replikasi dimulai, dan sedang mereplikasi perubahan.
Penghentian Tugas replikasi berhenti.
Dihentikan Tugas replikasi dihentikan.
Gagal Tugas replikasi gagal karena error fatal.

Status tabel

Konsep Deskripsi
Mengambil snapshot Tugas replikasi mengambil snapshot status tabel saat ini sebelum mereplikasi perubahan.
Mereplikasi Tugas replikasi mereplikasi perubahan dari tabel sumber ke tabel tujuan.
Gagal Tugas replikasi gagal mereplikasi perubahan dari tabel sumber karena terjadi error.

Metrik

Konsep Deskripsi
Sisipkan Jumlah penyisipan yang diterapkan pada target dalam jangka waktu yang dipilih.
Update Jumlah update yang diterapkan pada target dalam jangka waktu yang dipilih.
Penghapusan Jumlah penghapusan yang diterapkan ke target dalam jangka waktu yang dipilih.
DDL Jumlah perubahan DDL yang diterapkan pada target dalam jangka waktu yang dipilih.
Throughput Jumlah peristiwa dan jumlah byte yang direplikasi ke target dalam jangka waktu yang dipilih.
Latensi Latensi saat data direplikasi ke target dalam jangka waktu yang dipilih.

Komponen

Komponen Deskripsi
Layanan Mengawasi orkestrasi tugas replikasi end-to-end, dan memberikan kemampuan untuk merancang, men-deploy, mengelola, dan memantau tugas replikasi. Dependensi ini berjalan di dalam project tenant Cloud Data Fusion (project tenant disembunyikan dari pengguna). Statusnya ditampilkan di halaman **System Admin** pada antarmuka web Cloud Data Fusion.
Pengelolaan Status Layanan mengelola status setiap tugas replikasi di bucket Cloud Storage di project pelanggan. Bucket dapat dikonfigurasi saat tugas replikasi dibuat. Fungsi ini menyimpan offset dan status replikasi saat ini dari setiap tugas replikasi.
Eksekusi Cluster Dataproc menyediakan lingkungan eksekusi tugas replikasi, yang berjalan di project Anda. tugas replikasi dijalankan menggunakan pekerja CDAP. Ukuran dan karakteristik lingkungan eksekusi dikonfigurasi dengan profil Compute Engine.
Database sumber Database operasional produksi Anda yang direplikasi ke dalam database target Anda. Database ini dapat ditempatkan di infrastruktur lokal atau Google Cloud. Replikasi Cloud Data Fusion mendukung database sumber MySQL, Microsoft SQL Server, dan Oracle.
Solusi pelacakan perubahan Cloud Data Fusion mengandalkan solusi pelacakan perubahan untuk membaca perubahan dalam database sumber, bukan menjalankannya pada agen yang berjalan pada database sumber. Solusi dapat berupa komponen database sumber atau solusi pihak ketiga berlisensi terpisah. Pada kasus terakhir, solusi pelacakan perubahan berjalan di infrastruktur lokal, ditempatkan bersama dengan database sumber, atau di Google Cloud. Setiap sumber harus dikaitkan dengan solusi pelacakan perubahan.
  1. SQL Server
    • Solusi yang didukung: SQL Server CDC (tabel pelacakan perubahan)
    • Software tambahan: Tidak
    • Lisensi/biaya: T/A
    • Komentar: Tersedia SQL Server 2016 dan yang lebih baru
  2. MySQL
    • Solusi yang didukung: Log biner MySQL
    • Software tambahan: Tidak
    • Lisensi/biaya: T/A
    • Komentar: T/A
  3. Oracle
Database target Lokasi tujuan untuk replikasi dan analisis. Cloud Data Fusion mendukung database target BigQuery.
Authentication Mekanisme autentikasi bervariasi sesuai dengan database sumber atau software pelacakan perubahan. Saat menggunakan kemampuan bawaan database sumber, seperti SQL Server dan MySQL, login database digunakan untuk autentikasi. Saat menggunakan software pelacakan perubahan, mekanisme autentikasi software digunakan.

Konektivitas

Tabel berikut menjelaskan koneksi jaringan yang diperlukan untuk Replikasi, dan mekanisme keamanan yang digunakannya.

Dari Kepada Opsional Protocol Jaringan Keamanan Auth Tujuan
Layanan (Project Penyewa) DB Sumber Ya Tergantung pada sumber Replikasi. JDBC untuk koneksi database langsung. Aturan Peering + Firewall + VPN/Interkoneksi + Router Login DB Diperlukan pada fungsi desain, bukan eksekusi, waktu: Listingan tabel, Penilaian (langkah opsional; replikasi dapat berlanjut tanpa langkah-langkah tersebut)
Layanan (Project Penyewa) Cloud Storage Tidak API Cloud VPC-SC IAM Pengelolaan Status: Offset, Status Replikasi
Dataproc (project Anda) DB Sumber Tidak Tergantung pada sumber. JDBC untuk koneksi DB langsung. Aturan Peering + Firewall + VPN/Interkoneksi + Router Login DB Diperlukan pada waktu eksekusi, untuk membaca perubahan dari DB sumber untuk direplikasi ke target
Dataproc (project Anda) Cloud Storage Tidak API Cloud VPC-SC IAM Pengelolaan Status: Offset, Status Replikasi
Dataproc (project Anda) BigQuery Tidak API Cloud VPC-SC IAM Diperlukan pada waktu eksekusi untuk menerapkan perubahan dari DB sumber ke target

Langkah selanjutnya