Mereplikasi data dari database Oracle ke BigQuery


Tutorial ini menunjukkan cara men-deploy tugas yang terus mereplikasi data yang berubah dari database Oracle ke set data BigQuery, menggunakan Replikasi Cloud Data Fusion. Fitur ini didukung oleh Datastream.

Tujuan

Dalam tutorial ini, Anda telah:

  1. Konfigurasi database Oracle Anda untuk mengaktifkan logging tambahan.
  2. Buat dan jalankan tugas replikasi Cloud Data Fusion.
  3. Lihat hasilnya di BigQuery.

Biaya

Dalam dokumen ini, Anda akan menggunakan komponen Google Cloudyang dapat ditagih berikut:

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga.

Pengguna Google Cloud baru mungkin memenuhi syarat untuk mendapatkan uji coba gratis.

Saat Replikasi berjalan, Anda akan dikenai biaya untuk cluster Dataproc dan Cloud Storage, serta dikenai biaya pemrosesan untuk Datastream dan BigQuery. Untuk mengoptimalkan biaya ini, sebaiknya gunakan harga tarif datar BigQuery.

Sebelum memulai

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Verify that billing is enabled for your Google Cloud project.

  3. Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.

    Enable the APIs

  4. Buat instance Cloud Data Fusion publikdi versi 6.3.0 atau yang lebih baru. Jika Anda membuat instance pribadi, siapkan peering jaringan VPC.
    • Saat Anda membuat instance, aktifkan Replikasi dengan mengklik Tambahkan Akselerator dan mencentang kotak Replikasi.
    • Untuk mengaktifkannya di instance yang ada, lihat Mengaktifkan Replikasi.
  5. Peran yang diperlukan

    Untuk mendapatkan izin yang Anda perlukan untuk terhubung ke database Oracle, minta administrator Anda untuk memberi Anda peran IAM berikut:

    • Dataproc Worker (roles/dataproc.worker) di akun layanan Dataproc dalam project yang berisi cluster
    • Cloud Data Fusion Runner di akun layanan Dataproc dalam project yang berisi cluster
    • Admin DataStream (roles/datastream.admin) di akun layanan Cloud Data Fusion dan akun layanan Dataproc

    Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses.

    Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

    Opsional: Instal Oracle di Compute Engine

    Bagian ini menunjukkan cara menyiapkan contoh database. Jika Anda sudah menginstal database Oracle, Anda dapat melewati bagian ini.

    1. Download image Docker Oracle Server.

      Untuk mengetahui batasan image Oracle Express Edition 11g ini, lihat Oracle Database Editions.

    2. Deploy image Docker Anda di instance VM baru.

    3. Di halaman Disk Compute Engine, ubah ukuran disk menjadi 500 GB dan mulai ulang VM.

      Buka Disk

    4. Instal skema contoh HR.

    Membuat peering jaringan VPC atau aturan firewall untuk server Oracle Anda

    Jika Oracle Database Anda tidak mengizinkan traffic masuk dari alamat IP publik, siapkan peering jaringan VPC antara VPC Datastream dan VPC tempat database Oracle Anda dapat diakses. Untuk mengetahui informasi selengkapnya, lihat Membuat konfigurasi konektivitas pribadi.

    Jika database Oracle Anda mengizinkan traffic masuk dari alamat IP publik, buat aturan firewall untuk instance VM guna mengizinkan traffic masuk dari IP publik Datastream.

    Mengonfigurasi Oracle Server untuk mengaktifkan logging tambahan

    Ikuti langkah-langkah untuk mengonfigurasi database Oracle sumber Anda.

    Membuat dan menjalankan tugas replikasi Cloud Data Fusion

    Buat tugas

    1. Di antarmuka web Cloud Data Fusion, klik Replication.

    2. Klik Buat tugas replikasi.

    3. Di halaman Create new replication job, tentukan Nama tugas replikasi, lalu klik Berikutnya.

    4. Konfigurasi sumber:

      1. Pilih Oracle (oleh Datastream) sebagai sumber.

      2. Untuk Connectivity Method, jika server Oracle Anda mengizinkan traffic masuk dari IP publik Datastream, pilih IP allowlisting. Jika tidak, untuk Nama Koneksi Pribadi, pilih Konektivitas pribadi (peering VPC) dan masukkan nama peering VPC yang Anda buat di bagian Buat peering jaringan VPC atau aturan firewall untuk Server Oracle Anda.

      3. Untuk Host, masukkan nama host Oracle Server yang akan dibaca.

      4. Untuk Port, masukkan port yang akan digunakan untuk terhubung ke Oracle Server: 1521.

      5. Untuk System Identity, masukkan xe (nama database contoh server Oracle).

      6. Di bagian kredensial, masukkan nama pengguna dan sandi Anda untuk mengakses Oracle Server.

      7. Biarkan semua properti lainnya seperti apa adanya.

    5. Klik Berikutnya.

    6. Konfigurasikan target:

      1. Pilih target BigQuery.

      2. Project ID dan Kunci Akun Layanan akan otomatis terdeteksi. Biarkan nilai default seperti apa adanya.

      3. Opsional: Di bagian Lanjutan, Anda dapat mengonfigurasi hal berikut:

        • Nama dan lokasi bucket penyiapan
        • Interval pemuatan
        • Awalan tabel penyiapan
        • Perilaku saat tabel atau database dihapus
    7. Klik Berikutnya.

    8. Jika koneksi berhasil, daftar tabel akan ditampilkan. Untuk tutorial ini, pilih beberapa tabel.

    9. Klik Berikutnya.

    10. Di halaman Tinjau penilaian, klik Lihat pemetaan di salah satu tabel untuk mendapatkan penilaian masalah skema, fitur yang tidak ada, atau masalah konektivitas yang mungkin terjadi selama Replikasi.

      Jika terjadi masalah, Anda harus menyelesaikannya sebelum melanjutkan. Untuk tutorial ini, jika ada masalah pada salah satu tabel, lakukan hal berikut:

      1. Kembali ke langkah saat Anda memilih tabel.
      2. Pilih tabel atau peristiwa (Penyisipan, Pembaruan, atau Penghapusan) tanpa masalah.

      Untuk mengetahui informasi selengkapnya tentang konversi jenis data dari database sumber ke tujuan BigQuery, lihat Jenis data replikasi.

    11. Klik Back.

    12. Klik Berikutnya.

    13. Tinjau detail tugas replikasi ringkasan, lalu klik Deploy replication job.

    Mulai tugas

    1. Di antarmuka web Cloud Data Fusion, buka halaman detail tugas replikasi.

    2. Klik Mulai.

    Pekerjaan replikasi akan bertransisi dari status Provisioning ke Starting ke status Running. Dalam status berjalan, tugas replikasi memuat snapshot awal data tabel yang Anda pilih ke BigQuery. Dalam status ini, status tabel dicantumkan sebagai Membuat snapshot. Setelah snapshot awal dimuat ke BigQuery, setiap perubahan yang dilakukan pada tabel akan direplikasi ke BigQuery, dan status tabel akan dicantumkan sebagai Mereplikasi.

    Memantau tugas

    Anda dapat memulai dan menghentikan tugas replikasi, meninjau konfigurasi dan log-nya, serta memantau tugas replikasi.

    Anda dapat memantau aktivitas tugas replikasi dari halaman detail tugas replikasi.

    1. Dari halaman Replication, klik Name tugas replikasi yang dipilih.

    2. Klik Monitoring.

    Melihat hasil di BigQuery

    Tugas replikasi membuat set data dan tabel yang direplikasi di BigQuery, dengan nama yang diwarisi dari nama tabel dan database Oracle yang sesuai.

    1. Di konsol Google Cloud , buka halaman BigQuery.

    2. Di panel kiri, klik nama project Anda untuk meluaskan daftar set data.

    3. Pilih set data xe, lalu pilih tabel yang akan dilihat.

    Untuk mengetahui informasi selengkapnya, lihat dokumentasi BigQuery.

    Pembersihan

    Agar tidak perlu membayar biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource.

    Setelah menyelesaikan tutorial, bersihkan resource yang Anda buat di Google Cloud agar resource tersebut tidak menghabiskan kuota dan Anda tidak akan ditagih di masa mendatang. Bagian berikut menjelaskan cara menghapus atau menonaktifkan resource ini.

    Hapus instance VM

    1. Di konsol Google Cloud , buka halaman VM instances.

      Buka instance VM

    2. Pilih kotak centang untuk instance yang ingin Anda hapus.

    3. Untuk menghapus instance, klik Hapus.

    Menghapus instance Cloud Data Fusion

    Ikuti petunjuk untuk menghapus instance Cloud Data Fusion Anda.

    Menghapus project

    Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.

    Untuk menghapus project:

    1. In the Google Cloud console, go to the Manage resources page.

      Go to Manage resources

    2. In the project list, select the project that you want to delete, and then click Delete.
    3. In the dialog, type the project ID, and then click Shut down to delete the project.

    Langkah berikutnya