Replikasi Cloud Data Fusion memungkinkan Anda membuat salinan data secara terus-menerus dan secara real time dari datastore operasional, seperti SQL Server dan MySQL, ke BigQuery.
Untuk menggunakan Replikasi, pilih salah satu cara berikut:
- Buat instance Cloud Data Fusion baru dan tambahkan aplikasi Replikasi.
- Tambahkan aplikasi Replikasi ke instance yang ada.
Manfaatnya meliputi:
Mengidentifikasi inkompatibilitas skema, masalah konektivitas, dan fitur yang hilang sebelum memulai replikasi, lalu memberikan tindakan korektif.
Menggunakan data operasional terbaru secara real time untuk analisis dalam BigQuery. Anda menggunakan replikasi berbasis log langsung ke BigQuery dari Microsoft SQL Server (menggunakan SQL Server CDC) dan MySQL (menggunakan MySQL Binary Log).
Pengambilan data perubahan (CDC) yang memberikan representasi data yang telah berubah dalam streaming, sehingga komputasi dan pemrosesan dapat berfokus secara khusus pada data yang baru-baru ini diubah. Hal ini meminimalkan tagihan data keluar di sistem produksi sensitif.
Skalabilitas perusahaan yang mendukung database transaksional bervolume tinggi Pemuatan awal data ke BigQuery didukung dengan replikasi snapshot tanpa waktu tunggu, sehingga data warehouse siap menggunakan perubahan secara berkelanjutan. Setelah snapshot awal selesai, replikasi perubahan berkelanjutan dengan throughput tinggi akan dimulai secara real time.
Dasbor yang membantu Anda mendapatkan insight real-time tentang performa replikasi. Alat ini berguna untuk mengidentifikasi bottleneck dan memantau SLA pengiriman data.
Termasuk dukungan untuk Residensi Data, Kunci Enkripsi yang Dikelola Pelanggan (CMEK), dan Kontrol Layanan VPC. Integrasi Cloud Data Fusion dalam Google Cloud memastikan bahwa tingkat keamanan dan privasi perusahaan tertinggi diamati sekaligus menyediakan data terbaru di warehouse data Anda untuk analisis.
Harga yang direkomendasikan
Saat Replikasi berjalan, Anda akan dikenai biaya untuk cluster Dataproc dan dikenai biaya pemrosesan untuk BigQuery. Untuk mengoptimalkan biaya ini, sebaiknya gunakan harga tarif tetap BigQuery.
Untuk mengetahui informasi selengkapnya, lihat halaman Harga Cloud Data Fusion.
Entitas replikasi
Entity | Deskripsi |
---|---|
Replikasi | Replikasi adalah kemampuan Cloud Data Fusion yang memungkinkan replikasi data secara berkelanjutan dengan latensi rendah dari datastore operasional ke dalam data warehouse analitis. Buat tugas replikasi dengan mengonfigurasi sumber dan target dengan transformasi opsional. |
Sumber | Membaca peristiwa perubahan database, tabel, atau kolom dan menyediakannya untuk pemrosesan lebih lanjut dalam tugas replikasi. Tugas replikasi berisi satu sumber, yang mengandalkan solusi pengambilan perubahan untuk menyediakan perubahan. Mungkin ada beberapa sumber untuk database, masing-masing dengan solusi pengambilan perubahan yang berbeda. Sumber adalah modul plug-in yang dibuat menggunakan arsitektur plugin CDAP. Jika sumber tidak tersedia untuk memenuhi kebutuhan Anda, Anda dapat membuat sumber sendiri dengan menerapkan antarmuka sumber, lalu menguploadnya ke CDAP atau Cloud Data Fusion. |
Target | Menulis perubahan yang diterima dari sumber ke database target. Tugas replikasi berisi satu target. Target adalah modul plug-in yang dibuat menggunakan arsitektur plugin CDAP. Jika target tidak tersedia untuk memenuhi kebutuhan Anda, Anda dapat membuat target sendiri dengan menerapkan antarmuka target, lalu menguploadnya ke CDAP atau Cloud Data Fusion. |
Properti sumber | Mengonfigurasi sumber, termasuk detail koneksi, nama database dan tabel sumber, kredensial, dan properti lainnya. |
Properti target | Mengonfigurasi target, termasuk detail koneksi, nama database dan tabel target, kredensial, dan properti lainnya. |
Properti tugas replikasi | Mengonfigurasi tugas replikasi termasuk nilai minimum kegagalan, area staging, notifikasi, dan setelan validasi. |
Draf | Tugas replikasi yang disimpan dan selesai sebagian. Setelah selesai, penentuan tugas replikasi dapat dimulai. |
Acara | Ubah peristiwa di sumber agar direplikasi ke target. Peristiwa mencakup penyisipan, pembaruan, penghapusan, dan perubahan DDL (Data Definition Language). |
Sisipkan | Penambahan data baru di sumber. |
Perbarui | Memperbarui data yang ada di sumber. |
Hapus | Penghapusan data yang ada di sumber. |
Perubahan DDL | Peristiwa yang berisi perubahan skema, seperti perubahan jenis atau nama data. |
Log | Log operasional tugas replikasi. |
Detail tugas replikasi | Halaman detail dengan informasi tugas replikasi, seperti statusnya saat ini, metrik operasional, tampilan historis dari waktu ke waktu, hasil validasi, dan konfigurasinya. |
Dasbor | Halaman yang mencantumkan status semua aktivitas pengambilan data perubahan, termasuk throughput, latensi, rasio kegagalan, dan hasil validasi. |
Tindakan
Tindakan | Deskripsi |
---|---|
Deploy | Membuat tugas replikasi baru dengan mengikuti alur antarmuka web untuk menentukan sumber, target, dan konfigurasinya. |
Simpan | Menyimpan tugas replikasi yang dibuat sebagian untuk melanjutkan pembuatannya nanti. |
Hapus | Menghapus tugas replikasi yang ada. Hanya pipeline yang berhenti yang dapat dihapus. |
Mulai | Memulai tugas replikasi. Jika ada perubahan yang akan diproses, tugas replikasi akan memasuki status `aktif`; jika tidak, tugas akan memasuki status `menunggu`. |
Hentikan | Menghentikan tugas replikasi. Tugas replikasi berhenti memproses perubahan dari sumber. |
Melihat log | Melihat log tugas replikasi untuk proses debug atau analisis lainnya. |
Telusuri | Menelusuri tugas replikasi berdasarkan nama, deskripsi, atau metadata tugas replikasi lainnya. |
Nilai | Menilai dampak replikasi sebelum memulai replikasi. Menilai tugas replikasi akan menghasilkan laporan penilaian yang menandai inkompatibilitas skema dan fitur yang hilang. |
Pemantauan
Status replikator | Deskripsi |
---|---|
Di-deploy | Tugas replikasi di-deploy, tetapi tidak dimulai. Dalam status ini, tugas replikasi tidak mereplikasi peristiwa. |
Memulai | Tugas replikasi sedang diinisialisasi, dan belum siap untuk mereplikasi perubahan. |
Berjalan | Tugas replikasi dimulai, dan mereplikasi perubahan. |
Menghentikan | Tugas replikasi dihentikan. |
Dihentikan | Tugas replikasi dihentikan. |
Gagal | Tugas replikasi gagal karena error fatal. |
Status tabel
Konsep | Deskripsi |
---|---|
Mengambil snapshot | Tugas replikasi mengambil snapshot status tabel saat ini sebelum mereplikasi perubahan. |
Mereplikasi | Tugas replikasi mereplikasi perubahan dari tabel sumber ke tabel tujuan. |
Gagal | Tugas replikasi gagal mereplikasi perubahan dari tabel sumber karena error. |
Metrik
Konsep | Deskripsi |
---|---|
Penyisipan | Jumlah penyisipan yang diterapkan ke target dalam jangka waktu yang dipilih. |
Update | Jumlah update yang diterapkan ke target dalam jangka waktu yang dipilih. |
Penghapusan | Jumlah penghapusan yang diterapkan ke target dalam jangka waktu yang dipilih. |
DDL | Jumlah perubahan DDL yang diterapkan ke target dalam jangka waktu yang dipilih. |
Throughput | Jumlah peristiwa dan jumlah byte yang direplikasi ke target dalam jangka waktu yang dipilih. |
Latensi | Latensi saat data direplikasi ke target dalam periode waktu yang dipilih. |
Komponen
Komponen | Deskripsi |
---|---|
Layanan | Mengawasi orkestrasi menyeluruh tugas replikasi, dan menyediakan kemampuan untuk mendesain, men-deploy, mengelola, dan memantau tugas replikasi. Fungsi ini berjalan di dalam project tenant Cloud Data Fusion (project tenant disembunyikan dari pengguna). Statusnya ditampilkan di halaman **System Admin** pada antarmuka web Cloud Data Fusion. |
Pengelolaan Status | Layanan ini mengelola status setiap tugas replikasi di bucket Cloud Storage dalam project pelanggan. Bucket dapat dikonfigurasi saat tugas replikasi dibuat. Tabel ini menyimpan offset saat ini dan status replikasi dari setiap tugas replikasi. |
Eksekusi | Cluster Dataproc menyediakan lingkungan eksekusi tugas replikasi, yang berjalan di project Anda. tugas replikasi dijalankan menggunakan pekerja CDAP. Ukuran dan karakteristik lingkungan eksekusi dikonfigurasi dengan profil Compute Engine. |
Database sumber | Database operasional produksi yang direplikasi ke database target. Database ini dapat berada di lokal atau di Google Cloud. Replikasi Cloud Data Fusion mendukung database sumber MySQL, Microsoft SQL Server, dan Oracle. |
Mengubah solusi pelacakan | Alih-alih berjalan di agen yang berjalan di database sumber,
Cloud Data Fusion mengandalkan solusi pelacakan perubahan untuk
membaca perubahan di database sumber. Solusi dapat berupa komponen database sumber atau solusi pihak ketiga berlisensi terpisah. Dalam kasus kedua, solusi pelacakan perubahan berjalan
secara lokal, ditempatkan bersama dengan database sumber, atau di
Google Cloud. Setiap sumber harus dikaitkan dengan solusi pelacakan perubahan.
|
Database target | Lokasi tujuan untuk replikasi dan analisis. Cloud Data Fusion mendukung database target BigQuery. |
Autentikasi | Mekanisme autentikasi bervariasi sesuai dengan database sumber atau software pelacakan perubahan. Saat menggunakan kemampuan bawaan database sumber, seperti SQL Server dan MySQL, login database digunakan untuk autentikasi. Saat menggunakan software pelacakan perubahan, mekanisme autentikasi software akan digunakan. |
Konektivitas
Tabel berikut menjelaskan koneksi jaringan yang diperlukan untuk Replikasi, dan mekanisme keamanan yang digunakannya.
Dari | Menjadi | Opsional | Protokol | Network | Keamanan Auth | Tujuan |
---|---|---|---|---|---|---|
Layanan (Project Tenant) | DB Sumber | Ya | Bergantung pada Sumber replikasi. JDBC untuk koneksi database langsung. | Peering + Aturan firewall + VPN/Interconnect + Router | Login DB | Diperlukan pada waktu desain, bukan eksekusi Fungsi: Listingan tabel, Penilaian (langkah opsional; replikasi dapat berlanjut tanpanya) |
Layanan (Project Tenant) | Cloud Storage | Tidak | Cloud API | VPC-SC | IAM | Pengelolaan Status: Offset, Status replikasi |
Dataproc (project Anda) | DB Sumber | Tidak | Bergantung pada sumber. JDBC untuk koneksi DB langsung. | Peering + Aturan firewall + VPN/Interconnect + Router | Login DB | Diperlukan pada waktu eksekusi, untuk membaca perubahan dari DB sumber untuk direplikasi ke target |
Dataproc (project Anda) | Cloud Storage | Tidak | Cloud API | VPC-SC | IAM | Pengelolaan Status: Offset, Status replikasi |
Dataproc (project Anda) | BigQuery | Tidak | Cloud API | VPC-SC | IAM | Diperlukan pada waktu eksekusi untuk menerapkan perubahan dari DB sumber ke target |
Langkah selanjutnya
- Lihat referensi Replication API.
- Lihat pemetaan jenis data untuk Replikasi.