Dengan Replikasi Cloud Data Fusion, Anda dapat mereplikasi data secara berkelanjutan dan real time dari datastore operasional, seperti SQL Server dan MySQL, ke BigQuery.
Untuk menggunakan Replikasi, pilih salah satu cara berikut:
- Buat instance Cloud Data Fusion baru dan tambahkan aplikasi Replikasi.
- Tambahkan aplikasi Replikasi ke instance yang ada.
Lihat tutorial untuk MySQL, SQL Server, dan Oracle.
Manfaatnya meliputi:
Antarmuka sederhana bagi developer ETL dan analis data untuk menyiapkan tugas replikasi.
Membantu Anda mengidentifikasi inkompatibilitas skema, masalah konektivitas, dan fitur yang hilang sebelum memulai replikasi, lalu memberikan tindakan korektif.
Anda dapat menggunakan data operasional terbaru secara real time untuk melakukan analisis di dalam BigQuery. Anda menggunakan replikasi berbasis log langsung ke BigQuery dari Microsoft SQL Server (menggunakan SQL Server CDC) dan MySQL (menggunakan MySQL Binary Log).
Pengambilan data perubahan (CDC) memberikan representasi data yang telah berubah dalam aliran, yang memungkinkan komputasi dan pemrosesan berfokus secara khusus pada data yang terakhir diubah. Hal ini meminimalkan biaya data keluar pada sistem produksi yang sensitif.
Skalabilitas perusahaan untuk mendukung database transaksional bervolume tinggi Pemuatan data awal ke BigQuery didukung dengan replikasi snapshot tanpa periode nonaktif, agar data warehouse siap untuk menerima perubahan secara berkelanjutan. Setelah snapshot awal selesai, replikasi perubahan berkelanjutan dengan throughput tinggi akan dimulai secara real time.
Dasbor membantu Anda mendapatkan insight real-time tentang performa replikasi. Alat ini berguna untuk mengidentifikasi bottleneck dan memantau SLA pengiriman data.
Termasuk dukungan untuk Residensi Data, Kunci Enkripsi yang Dikelola Pelanggan (CMEK), dan Kontrol Layanan VPC. Integrasi Cloud Data Fusion dalam Google Cloud memastikan tingkat keamanan dan privasi perusahaan tertinggi diamati sambil menyediakan data terbaru di data warehouse untuk analisis.
Harga yang direkomendasikan
Saat Replikasi dijalankan, Anda akan ditagih untuk cluster Dataproc, dan Anda juga dikenai biaya pemrosesan untuk BigQuery. Untuk mengoptimalkan biaya ini, sebaiknya Anda menggunakan harga tetap BigQuery.
Untuk mengetahui informasi selengkapnya, lihat halaman Harga Cloud Data Fusion.
Entitas replikasi
Entity | Deskripsi |
---|---|
Replikasi | Replikasi adalah kemampuan Cloud Data Fusion yang memungkinkan replikasi data secara terus-menerus dengan latensi rendah dari datastore operasional ke data warehouse analisis. Buat tugas replikasi dengan mengonfigurasi sumber dan target dengan transformasi opsional. |
Asal | Membaca peristiwa perubahan database, tabel, atau kolom dan menyediakannya untuk diproses lebih lanjut dalam tugas replikasi. Tugas replikasi berisi satu sumber, yang mengandalkan solusi pengambilan perubahan untuk menyediakan perubahan. Database dapat memiliki beberapa sumber, masing-masing dengan solusi perekaman perubahan yang berbeda. Sumber adalah modul yang dapat dicocokkan dan dibuat menggunakan arsitektur plugin CDAP. Jika sumber tidak tersedia untuk memenuhi kebutuhan Anda, Anda dapat membuatnya sendiri dengan mengimplementasikan antarmuka sumber, lalu menguploadnya ke CDAP atau Cloud Data Fusion. |
Target | Menulis perubahan yang diterima dari sumber ke dalam database target. Tugas replikasi berisi satu target. Target adalah modul yang dapat dicocokkan dan dibuat menggunakan arsitektur plugin CDAP. Jika target tidak tersedia untuk memenuhi kebutuhan Anda, Anda dapat membuat sendiri dengan mengimplementasikan antarmuka target, lalu menguploadnya ke CDAP atau Cloud Data Fusion. |
Properti sumber | Mengonfigurasi sumber, termasuk detail koneksi, database sumber, nama tabel, kredensial, serta properti lainnya. |
Properti target | Mengonfigurasi target, termasuk detail koneksi, nama tabel dan database target, kredensial, serta properti lainnya. |
Properti tugas replikasi | Mengonfigurasi tugas replikasi termasuk ambang batas kegagalan, area staging, notifikasi, dan setelan validasi. |
Draf | Tugas replikasi yang tersimpan dan selesai sebagian. Setelah definisi tugas replikasi selesai, tugas dapat dimulai. |
Acara | Mengubah peristiwa di sumber untuk direplikasi ke target. Peristiwa mencakup penyisipan, pembaruan, penghapusan, dan perubahan DDL (Data Definition Language). |
Sisipkan | Penambahan record baru dalam sumber. |
Pembaruan | Pembaruan ke data yang ada di sumber. |
Hapus | Penghapusan catatan yang ada di sumber. |
Perubahan DDL | Peristiwa yang berisi perubahan skema, seperti perubahan jenis atau nama data. |
Log | Log operasional tugas replikasi. |
Detail tugas replikasi | Halaman detail yang berisi informasi tugas replikasi, seperti status saat ini, metrik operasional, tampilan historis dari waktu ke waktu, hasil validasi, dan konfigurasinya. |
Dasbor | Halaman yang mencantumkan status semua aktivitas pengambilan data perubahan, termasuk throughput, latensi, tingkat kegagalan, dan hasil validasi. |
Tindakan
Tindakan | Deskripsi |
---|---|
Deploy | Membuat tugas replikasi baru dengan mengikuti alur antarmuka web untuk menentukan sumber, target, dan konfigurasinya. |
Save | Menyimpan tugas replikasi yang dibuat sebagian untuk melanjutkan pembuatan nanti. |
Hapus | Menghapus tugas replikasi yang ada. Hanya pipeline yang dihentikan yang dapat dihapus. |
Mulai | Memulai tugas replikasi. Jika ada perubahan yang akan diproses, tugas replikasi akan memasuki status `active`; jika tidak, tugas replikasi akan memasuki status `waiting`. |
Hentikan | Menghentikan tugas replikasi. Tugas replikasi berhenti memproses perubahan dari sumber. |
Lihat log | Melihat log tugas replikasi untuk proses debug atau analisis lainnya. |
Penelusuran | Mencari tugas replikasi berdasarkan nama, deskripsi, atau metadata tugas replikasi lainnya. |
Menilai | Menilai dampak replikasi sebelum memulai replikasi. Penilaian tugas replikasi akan menghasilkan laporan penilaian yang menandai ketidaksesuaian skema dan fitur yang tidak ada. |
Monitoring
Status replika | Deskripsi |
---|---|
Di-deploy | Tugas replikasi telah di-deploy, tetapi belum dimulai. Dalam status ini, tugas replikasi tidak mereplikasi peristiwa. |
Memulai | Tugas replikasi sedang diinisialisasi, dan belum siap untuk mereplikasi perubahan. |
Berjalan | Tugas replikasi dimulai, dan sedang mereplikasi perubahan. |
Penghentian | Tugas replikasi berhenti. |
Dihentikan | Tugas replikasi dihentikan. |
Gagal | Tugas replikasi gagal karena error fatal. |
Status tabel
Konsep | Deskripsi |
---|---|
Mengambil snapshot | Tugas replikasi mengambil snapshot status tabel saat ini sebelum mereplikasi perubahan. |
Mereplikasi | Tugas replikasi mereplikasi perubahan dari tabel sumber ke tabel tujuan. |
Gagal | Tugas replikasi gagal mereplikasi perubahan dari tabel sumber karena terjadi error. |
Metrik
Konsep | Deskripsi |
---|---|
Sisipkan | Jumlah penyisipan yang diterapkan pada target dalam jangka waktu yang dipilih. |
Update | Jumlah update yang diterapkan pada target dalam jangka waktu yang dipilih. |
Penghapusan | Jumlah penghapusan yang diterapkan ke target dalam jangka waktu yang dipilih. |
DDL | Jumlah perubahan DDL yang diterapkan pada target dalam jangka waktu yang dipilih. |
Throughput | Jumlah peristiwa dan jumlah byte yang direplikasi ke target dalam jangka waktu yang dipilih. |
Latensi | Latensi saat data direplikasi ke target dalam jangka waktu yang dipilih. |
Komponen
Komponen | Deskripsi |
---|---|
Layanan | Mengawasi orkestrasi tugas replikasi end-to-end, dan memberikan kemampuan untuk merancang, men-deploy, mengelola, dan memantau tugas replikasi. Dependensi ini berjalan di dalam project tenant Cloud Data Fusion (project tenant disembunyikan dari pengguna). Statusnya ditampilkan di halaman **System Admin** pada antarmuka web Cloud Data Fusion. |
Pengelolaan Status | Layanan mengelola status setiap tugas replikasi di bucket Cloud Storage di project pelanggan. Bucket dapat dikonfigurasi saat tugas replikasi dibuat. Fungsi ini menyimpan offset dan status replikasi saat ini dari setiap tugas replikasi. |
Eksekusi | Cluster Dataproc menyediakan lingkungan eksekusi tugas replikasi, yang berjalan di project Anda. tugas replikasi dijalankan menggunakan pekerja CDAP. Ukuran dan karakteristik lingkungan eksekusi dikonfigurasi dengan profil Compute Engine. |
Database sumber | Database operasional produksi Anda yang direplikasi ke dalam database target Anda. Database ini dapat ditempatkan di infrastruktur lokal atau Google Cloud. Replikasi Cloud Data Fusion mendukung database sumber MySQL, Microsoft SQL Server, dan Oracle. |
Solusi pelacakan perubahan | Cloud Data Fusion mengandalkan solusi pelacakan perubahan untuk membaca perubahan dalam database sumber, bukan menjalankannya pada agen yang berjalan pada database sumber. Solusi dapat berupa komponen database sumber atau solusi pihak ketiga berlisensi terpisah. Pada kasus terakhir, solusi pelacakan perubahan berjalan
di infrastruktur lokal, ditempatkan bersama dengan database sumber, atau
di Google Cloud. Setiap sumber harus dikaitkan dengan solusi
pelacakan perubahan.
|
Database target | Lokasi tujuan untuk replikasi dan analisis. Cloud Data Fusion mendukung database target BigQuery. |
Authentication | Mekanisme autentikasi bervariasi sesuai dengan database sumber atau software pelacakan perubahan. Saat menggunakan kemampuan bawaan database sumber, seperti SQL Server dan MySQL, login database digunakan untuk autentikasi. Saat menggunakan software pelacakan perubahan, mekanisme autentikasi software digunakan. |
Konektivitas
Tabel berikut menjelaskan koneksi jaringan yang diperlukan untuk Replikasi, dan mekanisme keamanan yang digunakannya.
Dari | Kepada | Opsional | Protocol | Jaringan | Keamanan Auth | Tujuan |
---|---|---|---|---|---|---|
Layanan (Project Penyewa) | DB Sumber | Ya | Tergantung pada sumber Replikasi. JDBC untuk koneksi database langsung. | Aturan Peering + Firewall + VPN/Interkoneksi + Router | Login DB | Diperlukan pada fungsi desain, bukan eksekusi, waktu: Listingan tabel, Penilaian (langkah opsional; replikasi dapat berlanjut tanpa langkah-langkah tersebut) |
Layanan (Project Penyewa) | Cloud Storage | Tidak | API Cloud | VPC-SC | IAM | Pengelolaan Status: Offset, Status Replikasi |
Dataproc (project Anda) | DB Sumber | Tidak | Tergantung pada sumber. JDBC untuk koneksi DB langsung. | Aturan Peering + Firewall + VPN/Interkoneksi + Router | Login DB | Diperlukan pada waktu eksekusi, untuk membaca perubahan dari DB sumber untuk direplikasi ke target |
Dataproc (project Anda) | Cloud Storage | Tidak | API Cloud | VPC-SC | IAM | Pengelolaan Status: Offset, Status Replikasi |
Dataproc (project Anda) | BigQuery | Tidak | API Cloud | VPC-SC | IAM | Diperlukan pada waktu eksekusi untuk menerapkan perubahan dari DB sumber ke target |
Langkah selanjutnya
- Selesaikan tutorial Mereplikasi data dari SQL Server ke BigQuery.
- Ikuti tutorial Mereplikasi data dari MySQL ke BigQuery.
- Ikuti tutorial Mereplikasi data dari Oracle ke BigQuery.
- Lihat referensi Replikasi API.
- Lihat pemetaan jenis data untuk Replikasi.