Tutorial ini menunjukkan cara men-deploy tugas yang terus mereplikasi data yang berubah dari database Oracle ke set data BigQuery, menggunakan Replikasi Cloud Data Fusion. Fitur ini didukung oleh Datastream.
Tujuan
Dalam tutorial ini, Anda telah:
- Konfigurasikan database Oracle untuk mengaktifkan logging tambahan.
- Buat dan jalankan tugas replikasi Cloud Data Fusion.
- Lihat hasilnya di BigQuery.
Biaya
Dalam dokumen ini, Anda akan menggunakan komponen Google Cloud yang dapat ditagih berikut:
Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda,
gunakan kalkulator harga.
Saat Replikasi berjalan, Anda akan ditagih untuk cluster Dataproc dan Cloud Storage, serta dikenai biaya pemrosesan untuk Datastream dan BigQuery. Untuk mengoptimalkan biaya ini, sebaiknya gunakan harga tarif tetap BigQuery.
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.
- Buat instance Cloud Data Fusion publik dalam versi 6.3.0 atau yang lebih baru. Jika Anda
membuat instance
pribadi, siapkan peering jaringan VPC.
- Saat Anda membuat instance, aktifkan Replikasi dengan mengklik Tambahkan Akselerator dan memilih kotak centang Replikasi.
- Untuk mengaktifkannya di instance yang ada, lihat Mengaktifkan Replikasi.
Peran yang diperlukan
Untuk mendapatkan izin yang diperlukan untuk terhubung ke database Oracle, minta administrator untuk memberi Anda peran IAM berikut:
- Dataproc Worker (
roles/dataproc.worker
) di akun layanan Dataproc dalam project yang berisi cluster - Cloud Data Fusion Runner di akun layanan Dataproc dalam project yang berisi cluster
- DataStream Admin (
roles/datastream.admin
) di akun layanan Cloud Data Fusion dan akun layanan Dataproc
Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Opsional: Menginstal Oracle di Compute Engine
Bagian ini menunjukkan cara menyiapkan contoh database. Jika sudah menginstal database Oracle, Anda dapat melewati bagian ini.
Download image Docker Server Oracle.
Untuk mengetahui batasan image Oracle Express Edition 11g ini, lihat Edisi Oracle Database.
Deploy image Docker Anda di instance VM baru.
Di halaman Disk Compute Engine, ubah ukuran disk menjadi
500 GB
dan mulai ulang VM.Instal skema contoh HR.
Membuat aturan firewall atau peering jaringan VPC untuk server Oracle Anda
Jika Database Oracle Anda tidak mengizinkan traffic masuk dari alamat IP publik, siapkan peering jaringan VPC antara VPC Datastream dan VPC tempat database Oracle Anda dapat diakses. Untuk informasi selengkapnya, lihat Membuat konfigurasi konektivitas pribadi.
Jika database Oracle Anda mengizinkan traffic masuk dari alamat IP publik, buat aturan firewall untuk instance VM agar mengizinkan traffic masuk dari IP publik Datastream.
Mengonfigurasi Server Oracle untuk mengaktifkan logging tambahan
Ikuti langkah-langkah untuk mengonfigurasi database Oracle sumber.
Membuat dan menjalankan tugas replikasi Cloud Data Fusion
Buat tugas
Di antarmuka web Cloud Data Fusion, klik Replikasi.
Klik
Create a replication job.Di halaman Create new replication job, tentukan Name tugas replikasi, lalu klik Next.
Konfigurasikan sumber:
Pilih Oracle (by Datastream) sebagai sumber.
Untuk Metode Konektivitas, jika server Oracle Anda mengizinkan traffic masuk dari IP publik Datastream, pilih Daftar IP yang diizinkan. Jika tidak, untuk Nama Koneksi Pribadi, pilih Konektivitas pribadi (peering VPC) dan masukkan nama peering VPC yang Anda buat di bagian Membuat aturan firewall atau peering jaringan VPC untuk Server Oracle.
Untuk Host, masukkan nama host Server Oracle yang akan dibaca.
Untuk Port, masukkan port yang akan digunakan untuk terhubung ke Server Oracle: 1521.
Untuk System Identity, masukkan
xe
(nama database contoh dari server Oracle).Di bagian kredensial, masukkan nama pengguna dan sandi Anda untuk mengakses Server Oracle.
Biarkan semua properti lainnya sebagaimana adanya.
Klik Berikutnya.
Konfigurasikan target:
Pilih target BigQuery.
Project ID dan Service Account Key otomatis terdeteksi. Pertahankan nilai default seperti apa adanya.
Opsional: Di bagian Lanjutan, Anda dapat mengonfigurasi hal berikut:
- Nama dan lokasi bucket staging
- Interval pemuatan
- Awalan tabel staging
- Perilaku saat tabel atau database dihapus
Klik Berikutnya.
Jika koneksi berhasil, daftar tabel akan ditampilkan. Untuk tutorial ini, pilih beberapa tabel.
Klik Berikutnya.
Di halaman Tinjau penilaian, klik Lihat pemetaan di salah satu tabel untuk mendapatkan penilaian masalah skema, fitur yang tidak ada, atau masalah konektivitas yang mungkin terjadi selama Replikasi.
Jika ada masalah, Anda harus mengatasinya sebelum melanjutkan. Untuk tutorial ini, jika ada tabel yang mengalami masalah, lakukan hal berikut:
- Kembali ke langkah saat Anda memilih tabel.
- Pilih tabel atau peristiwa (Sisipkan, Perbarui, atau Hapus) tanpa masalah.
Untuk mengetahui informasi selengkapnya tentang konversi jenis data dari database sumber ke tujuan BigQuery, lihat Jenis data replikasi.
Klik Back.
Klik Berikutnya.
Tinjau detail tugas replikasi ringkasan, lalu klik Deploy tugas replikasi.
Memulai tugas
Di antarmuka web Cloud Data Fusion, buka halaman detail tugas replikasi.
Klik Mulai.
Tugas replikasi bertransisi dari status Penyediaan ke Dimulai ke Berjalan. Dalam status berjalan, tugas replikasi memuat snapshot awal data tabel yang Anda pilih ke BigQuery. Dalam status ini, status tabel dicantumkan sebagai Snapshotting. Setelah snapshot awal dimuat ke BigQuery, setiap perubahan yang dilakukan pada tabel akan direplikasi ke BigQuery, dan status tabel akan tercantum sebagai Replikasi.
Memantau tugas
Anda dapat memulai dan menghentikan tugas replikasi, meninjau konfigurasi dan lognya, serta memantau tugas replikasi.
Anda dapat memantau aktivitas tugas replikasi dari halaman detail tugas replikasi.
Dari halaman Replication, klik Name tugas replikasi yang diinginkan.
Klik Monitoring.
Melihat hasil di BigQuery
Tugas replikasi membuat set data dan tabel yang direplikasi di BigQuery, dengan nama yang diwarisi dari nama tabel dan database Oracle yang sesuai.
Di konsol Google Cloud, buka halaman BigQuery.
Di panel kiri, klik nama project Anda untuk meluaskan daftar set data.
Pilih set data
xe
, lalu pilih tabel yang akan dilihat.
Untuk informasi selengkapnya, lihat dokumentasi BigQuery.
Pembersihan
Agar tidak perlu membayar biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource.
Setelah menyelesaikan tutorial, bersihkan resource yang dibuat di Google Cloud sehingga resource tersebut tidak akan menggunakan kuota dan Anda tidak akan ditagih di masa mendatang. Bagian berikut menjelaskan cara menghapus atau menonaktifkan resource ini.
Menghapus instance VM
Di konsol Google Cloud, buka halaman Instance VM.
Pilih kotak centang untuk instance yang ingin Anda hapus.
Untuk menghapus instance, klik Hapus.
Menghapus instance Cloud Data Fusion
Ikuti petunjuk untuk menghapus instance Cloud Data Fusion.
Menghapus project
Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.
Untuk menghapus project:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Langkah selanjutnya
- Pelajari Datastream lebih lanjut.
- Pelajari Replikasi di Cloud Data Fusion lebih lanjut.
- Lihat referensi Replication API.
- Lihat referensi replikasi Oracle.
- Ikuti tutorial untuk Mereplikasi data dari MySQL ke BigQuery.
- Ikuti tutorial untuk Mereplikasi data dari SQL Server ke BigQuery.