Mereplikasi data dari database Oracle ke BigQuery


Tutorial ini menunjukkan cara men-deploy tugas yang terus mereplikasi data yang diubah dari database Oracle ke set data BigQuery, menggunakan Replikasi Cloud Data Fusion. Fitur ini didukung oleh Datastream.

Tujuan

Dalam tutorial ini, Anda telah:

  1. Konfigurasi database Oracle Anda untuk mengaktifkan logging tambahan.
  2. Membuat dan menjalankan tugas replikasi Cloud Data Fusion.
  3. Lihat hasil di BigQuery.

Biaya

Dalam dokumen ini, Anda menggunakan komponen Google Cloud yang dapat ditagih berikut:

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga. Pengguna baru Google Cloud mungkin memenuhi syarat untuk mendapatkan uji coba gratis.

Saat Replikasi dijalankan, Anda akan ditagih untuk cluster Dataproc dan Cloud Storage, serta biaya pemrosesan untuk Datastream dan BigQuery. Untuk mengoptimalkan biaya ini, sebaiknya gunakan harga tetap BigQuery.

Sebelum memulai

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Aktifkan API Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage.

    Mengaktifkan API

  5. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Aktifkan API Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage.

    Mengaktifkan API

  8. Buat instance Cloud Data Fusion publik menggunakan versi 6.3.0 atau yang lebih baru. Jika Anda membuat instance pribadi, siapkan peering jaringan VPC.
    • Saat Anda membuat instance, aktifkan Replikasi dengan mengklik Tambahkan Akselerator dan mencentang kotak Replikasi.
    • Untuk mengaktifkannya pada instance yang ada, lihat Mengaktifkan Replikasi.

Peran yang diperlukan

Untuk mendapatkan izin yang diperlukan untuk terhubung ke database Oracle, minta administrator untuk memberi Anda peran IAM berikut:

  • Pekerja Dataproc (roles/dataproc.worker) di akun layanan Dataproc dalam project yang berisi cluster
  • Cloud Data Fusion Runner di akun layanan Dataproc dalam project yang berisi cluster
  • DataStream Admin (roles/datastream.admin) di akun layanan Cloud Data Fusion dan akun layanan Dataproc

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran standar lainnya.

Opsional: Menginstal Oracle di Compute Engine

Bagian ini menunjukkan cara menyiapkan database contoh. Jika sudah menginstal database Oracle, Anda dapat melewati bagian ini.

  1. Download image Docker Oracle Server.

    Untuk mengetahui batasan image Oracle Express Edition 11g ini, lihat Edisi Database Oracle.

  2. Deploy image Docker Anda pada instance VM baru.

  3. Di halaman Disks Compute Engine, ubah ukuran disk menjadi 500 GB dan mulai ulang VM.

    Buka Disk

  4. Instal skema sampel SDM.

Buat aturan firewall atau peering jaringan VPC untuk server Oracle Anda

Jika Database Oracle Anda tidak mengizinkan traffic masuk dari alamat IP publik, siapkan peering jaringan VPC antara VPC Datastream dan VPC tempat database Oracle Anda dapat diakses. Untuk mengetahui informasi selengkapnya, lihat Membuat konfigurasi konektivitas pribadi.

Jika database Oracle Anda mengizinkan traffic masuk dari alamat IP publik, buat aturan firewall untuk instance VM tersebut agar traffic masuk dari IP publik Datastream.

Mengonfigurasi Server Oracle Anda untuk mengaktifkan logging tambahan

Ikuti langkah-langkah untuk mengonfigurasi database Oracle sumber.

Membuat dan menjalankan tugas replikasi Cloud Data Fusion

Buat tugas

  1. Di antarmuka web Cloud Data Fusion, klik Replikasi.

  2. Klik Create a replication job.

  3. Di halaman Create new replication job, tentukan tugas replikasi Name, lalu klik Next.

  4. Konfigurasikan sumber:

    1. Pilih Oracle (by Datastream) sebagai sumber.

    2. Untuk Connectivity Method, jika server Oracle Anda mengizinkan traffic masuk dari IP publik Datastream, pilih Daftar IP yang diizinkan. Jika tidak, untuk Nama Koneksi Pribadi, pilih Konektivitas pribadi (peering VPC) dan masukkan nama peering VPC yang Anda buat di bagian Membuat aturan firewall atau peering jaringan VPC untuk Server Oracle Anda.

    3. Untuk Host, masukkan nama host Server Oracle yang akan dibaca.

    4. Untuk Port, masukkan port yang akan digunakan agar dapat terhubung ke Oracle Server: 1521.

    5. Untuk System Identity, masukkan xe (nama database contoh server Oracle).

    6. Di bagian kredensial, masukkan nama pengguna dan sandi Anda untuk mengakses Oracle Server.

    7. Biarkan semua properti lain apa adanya.

  5. Klik Next.

  6. Konfigurasikan target:

    1. Pilih target BigQuery.

    2. Project ID dan Kunci Akun Layanan akan terdeteksi secara otomatis. Pertahankan nilai default apa adanya.

    3. Opsional: Di bagian Lanjutan, Anda dapat mengonfigurasi hal berikut:

      • Nama dan lokasi bucket staging
      • Interval muatan
      • Awalan tabel staging
      • Perilaku saat tabel atau database dihapus
  7. Klik Next.

  8. Jika koneksi berhasil, daftar tabel akan ditampilkan. Untuk tutorial ini, pilih beberapa tabel.

  9. Klik Next.

  10. Di halaman Penilaian Tinjau, klik Lihat pemetaan oleh salah satu tabel untuk mendapatkan penilaian masalah skema, fitur yang tidak ada, atau masalah konektivitas yang mungkin terjadi selama Replikasi.

    Jika terjadi masalah, Anda harus mengatasinya sebelum melanjutkan. Untuk tutorial ini, jika salah satu tabel mengalami masalah, lakukan langkah berikut:

    1. Kembali ke langkah tempat Anda memilih tabel.
    2. Pilih tabel atau peristiwa (Sisipkan, Pembaruan, atau Penghapusan) tanpa masalah.

    Untuk mengetahui informasi selengkapnya tentang konversi jenis data dari database sumber ke tujuan BigQuery, lihat Jenis data replikasi.

  11. Klik Back.

  12. Klik Next.

  13. Tinjau detail tugas replikasi, lalu klik Deploy replication job.

Memulai tugas

  1. Di antarmuka web Cloud Data Fusion, buka halaman detail tugas replikasi.

  2. Klik Start.

Tugas replikasi bertransisi dari status Penyediaan ke Mulai ke Berjalan. Dalam status berjalan, tugas replikasi akan memuat snapshot awal dari data tabel yang Anda pilih ke BigQuery. Dalam status ini, status tabel dicantumkan sebagai Snapshotting. Setelah snapshot awal dimuat ke BigQuery, semua perubahan yang dilakukan pada tabel akan direplikasi ke BigQuery, dan status tabel akan dicantumkan sebagai Replicating.

Memantau tugas

Anda dapat memulai dan menghentikan tugas replikasi, meninjau konfigurasi dan log, serta memantau tugas replikasi Anda.

Anda dapat memantau aktivitas tugas replikasi dari halaman detail tugas replikasi.

  1. Dari halaman Replication, klik tugas replikasi yang diinginkan, Name.

  2. Klik Monitoring.

Lihat hasil di BigQuery

Tugas replikasi membuat set data dan tabel yang direplikasi di BigQuery, dengan nama yang diwarisi dari nama tabel dan database Oracle yang sesuai.

  1. Di konsol Google Cloud, buka halaman BigQuery.

  2. Di panel kiri, klik nama project Anda untuk meluaskan daftar set data.

  3. Pilih set data xe, lalu pilih tabel yang akan dilihat.

Untuk mengetahui informasi selengkapnya, baca dokumentasi BigQuery.

Pembersihan

Agar tidak perlu membayar biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource.

Setelah menyelesaikan tutorial, bersihkan resource yang Anda buat di Google Cloud agar tidak menghabiskan kuota dan Anda tidak akan ditagih di masa mendatang. Bagian berikut menjelaskan cara menghapus atau menonaktifkan resource ini.

Menghapus instance VM

  1. Di Konsol Google Cloud, buka halaman VM instances.

    Buka halaman VM instances

  2. Centang kotak untuk instance yang ingin Anda hapus.

  3. Untuk menghapus instance, klik Hapus.

Menghapus instance Cloud Data Fusion

Ikuti petunjuk untuk menghapus instance Cloud Data Fusion.

Menghapus project

Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.

Untuk menghapus project:

  1. Di konsol Google Cloud, buka halaman Manage resource.

    Buka Manage resource

  2. Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
  3. Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Langkah selanjutnya