Mereplikasi data dari database Oracle ke BigQuery


Tutorial ini menunjukkan cara men-deploy tugas yang terus mereplikasi data yang berubah dari database Oracle ke set data BigQuery, menggunakan Replikasi Cloud Data Fusion. Fitur ini didukung oleh Datastream.

Tujuan

Dalam tutorial ini, Anda telah:

  1. Konfigurasikan database Oracle untuk mengaktifkan logging tambahan.
  2. Buat dan jalankan tugas replikasi Cloud Data Fusion.
  3. Lihat hasilnya di BigQuery.

Biaya

Dalam dokumen ini, Anda akan menggunakan komponen Google Cloud yang dapat ditagih berikut:

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga. Pengguna baru Google Cloud mungkin memenuhi syarat untuk mendapatkan uji coba gratis.

Saat Replikasi berjalan, Anda akan ditagih untuk cluster Dataproc dan Cloud Storage, serta dikenai biaya pemrosesan untuk Datastream dan BigQuery. Untuk mengoptimalkan biaya ini, sebaiknya gunakan harga tarif tetap BigQuery.

Sebelum memulai

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.

    Enable the APIs

  8. Buat instance Cloud Data Fusion publik dalam versi 6.3.0 atau yang lebih baru. Jika Anda membuat instance pribadi, siapkan peering jaringan VPC.
    • Saat Anda membuat instance, aktifkan Replikasi dengan mengklik Tambahkan Akselerator dan memilih kotak centang Replikasi.
    • Untuk mengaktifkannya di instance yang ada, lihat Mengaktifkan Replikasi.

Peran yang diperlukan

Untuk mendapatkan izin yang diperlukan untuk terhubung ke database Oracle, minta administrator untuk memberi Anda peran IAM berikut:

  • Dataproc Worker (roles/dataproc.worker) di akun layanan Dataproc dalam project yang berisi cluster
  • Cloud Data Fusion Runner di akun layanan Dataproc dalam project yang berisi cluster
  • DataStream Admin (roles/datastream.admin) di akun layanan Cloud Data Fusion dan akun layanan Dataproc

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Opsional: Menginstal Oracle di Compute Engine

Bagian ini menunjukkan cara menyiapkan contoh database. Jika sudah menginstal database Oracle, Anda dapat melewati bagian ini.

  1. Download image Docker Server Oracle.

    Untuk mengetahui batasan image Oracle Express Edition 11g ini, lihat Edisi Oracle Database.

  2. Deploy image Docker Anda di instance VM baru.

  3. Di halaman Disk Compute Engine, ubah ukuran disk menjadi 500 GB dan mulai ulang VM.

    Buka Disk

  4. Instal skema contoh HR.

Membuat aturan firewall atau peering jaringan VPC untuk server Oracle Anda

Jika Database Oracle Anda tidak mengizinkan traffic masuk dari alamat IP publik, siapkan peering jaringan VPC antara VPC Datastream dan VPC tempat database Oracle Anda dapat diakses. Untuk informasi selengkapnya, lihat Membuat konfigurasi konektivitas pribadi.

Jika database Oracle Anda mengizinkan traffic masuk dari alamat IP publik, buat aturan firewall untuk instance VM agar mengizinkan traffic masuk dari IP publik Datastream.

Mengonfigurasi Server Oracle untuk mengaktifkan logging tambahan

Ikuti langkah-langkah untuk mengonfigurasi database Oracle sumber.

Membuat dan menjalankan tugas replikasi Cloud Data Fusion

Buat tugas

  1. Di antarmuka web Cloud Data Fusion, klik Replikasi.

  2. Klik Create a replication job.

  3. Di halaman Create new replication job, tentukan Name tugas replikasi, lalu klik Next.

  4. Konfigurasikan sumber:

    1. Pilih Oracle (by Datastream) sebagai sumber.

    2. Untuk Metode Konektivitas, jika server Oracle Anda mengizinkan traffic masuk dari IP publik Datastream, pilih Daftar IP yang diizinkan. Jika tidak, untuk Nama Koneksi Pribadi, pilih Konektivitas pribadi (peering VPC) dan masukkan nama peering VPC yang Anda buat di bagian Membuat aturan firewall atau peering jaringan VPC untuk Server Oracle.

    3. Untuk Host, masukkan nama host Server Oracle yang akan dibaca.

    4. Untuk Port, masukkan port yang akan digunakan untuk terhubung ke Server Oracle: 1521.

    5. Untuk System Identity, masukkan xe (nama database contoh dari server Oracle).

    6. Di bagian kredensial, masukkan nama pengguna dan sandi Anda untuk mengakses Server Oracle.

    7. Biarkan semua properti lainnya sebagaimana adanya.

  5. Klik Berikutnya.

  6. Konfigurasikan target:

    1. Pilih target BigQuery.

    2. Project ID dan Service Account Key otomatis terdeteksi. Pertahankan nilai default seperti apa adanya.

    3. Opsional: Di bagian Lanjutan, Anda dapat mengonfigurasi hal berikut:

      • Nama dan lokasi bucket staging
      • Interval pemuatan
      • Awalan tabel staging
      • Perilaku saat tabel atau database dihapus
  7. Klik Berikutnya.

  8. Jika koneksi berhasil, daftar tabel akan ditampilkan. Untuk tutorial ini, pilih beberapa tabel.

  9. Klik Berikutnya.

  10. Di halaman Tinjau penilaian, klik Lihat pemetaan di salah satu tabel untuk mendapatkan penilaian masalah skema, fitur yang tidak ada, atau masalah konektivitas yang mungkin terjadi selama Replikasi.

    Jika ada masalah, Anda harus mengatasinya sebelum melanjutkan. Untuk tutorial ini, jika ada tabel yang mengalami masalah, lakukan hal berikut:

    1. Kembali ke langkah saat Anda memilih tabel.
    2. Pilih tabel atau peristiwa (Sisipkan, Perbarui, atau Hapus) tanpa masalah.

    Untuk mengetahui informasi selengkapnya tentang konversi jenis data dari database sumber ke tujuan BigQuery, lihat Jenis data replikasi.

  11. Klik Back.

  12. Klik Berikutnya.

  13. Tinjau detail tugas replikasi ringkasan, lalu klik Deploy tugas replikasi.

Memulai tugas

  1. Di antarmuka web Cloud Data Fusion, buka halaman detail tugas replikasi.

  2. Klik Mulai.

Tugas replikasi bertransisi dari status Penyediaan ke Dimulai ke Berjalan. Dalam status berjalan, tugas replikasi memuat snapshot awal data tabel yang Anda pilih ke BigQuery. Dalam status ini, status tabel dicantumkan sebagai Snapshotting. Setelah snapshot awal dimuat ke BigQuery, setiap perubahan yang dilakukan pada tabel akan direplikasi ke BigQuery, dan status tabel akan tercantum sebagai Replikasi.

Memantau tugas

Anda dapat memulai dan menghentikan tugas replikasi, meninjau konfigurasi dan lognya, serta memantau tugas replikasi.

Anda dapat memantau aktivitas tugas replikasi dari halaman detail tugas replikasi.

  1. Dari halaman Replication, klik Name tugas replikasi yang diinginkan.

  2. Klik Monitoring.

Melihat hasil di BigQuery

Tugas replikasi membuat set data dan tabel yang direplikasi di BigQuery, dengan nama yang diwarisi dari nama tabel dan database Oracle yang sesuai.

  1. Di konsol Google Cloud, buka halaman BigQuery.

  2. Di panel kiri, klik nama project Anda untuk meluaskan daftar set data.

  3. Pilih set data xe, lalu pilih tabel yang akan dilihat.

Untuk informasi selengkapnya, lihat dokumentasi BigQuery.

Pembersihan

Agar tidak perlu membayar biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource.

Setelah menyelesaikan tutorial, bersihkan resource yang dibuat di Google Cloud sehingga resource tersebut tidak akan menggunakan kuota dan Anda tidak akan ditagih di masa mendatang. Bagian berikut menjelaskan cara menghapus atau menonaktifkan resource ini.

Menghapus instance VM

  1. Di konsol Google Cloud, buka halaman Instance VM.

    Buka instance VM

  2. Pilih kotak centang untuk instance yang ingin Anda hapus.

  3. Untuk menghapus instance, klik Hapus.

Menghapus instance Cloud Data Fusion

Ikuti petunjuk untuk menghapus instance Cloud Data Fusion.

Menghapus project

Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.

Untuk menghapus project:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Langkah selanjutnya