Halaman ini diterjemahkan oleh Cloud Translation API.

Mereplikasi data dari database Oracle ke BigQuery

Tutorial ini menunjukkan cara men-deploy tugas yang terus mereplikasi data yang berubah dari database Oracle ke set data BigQuery, menggunakan Replikasi Cloud Data Fusion. Fitur ini didukung oleh Datastream.

Tujuan

Dalam tutorial ini, Anda telah:

Konfigurasikan database Oracle untuk mengaktifkan logging tambahan.
Buat dan jalankan tugas replikasi Cloud Data Fusion.
Lihat hasilnya di BigQuery.

Biaya

Dalam dokumen ini, Anda akan menggunakan komponen Google Cloudyang dapat ditagih berikut:

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga. Pengguna Google Cloud baru mungkin memenuhi syarat untuk mendapatkan uji coba gratis.

Saat Replikasi berjalan, Anda akan ditagih untuk cluster Dataproc dan Cloud Storage, serta dikenai biaya pemrosesan untuk Datastream dan BigQuery. Untuk mengoptimalkan biaya ini, sebaiknya gunakan harga tarif tetap BigQuery.

Sebelum memulai

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.

Enable the APIs

Buat instance Cloud Data Fusion publik dalam versi 6.3.0 atau yang lebih baru. Jika Anda membuat instance pribadi, siapkan peering jaringan VPC.
- Saat Anda membuat instance, aktifkan Replikasi dengan mengklik Tambahkan Akselerator dan memilih kotak centang Replikasi.
- Untuk mengaktifkannya di instance yang ada, lihat Mengaktifkan Replikasi.

Peran yang diperlukan

Untuk mendapatkan izin yang Anda perlukan untuk terhubung ke database Oracle, minta administrator untuk memberi Anda peran IAM berikut:

Dataproc Worker (roles/dataproc.worker) di akun layanan Dataproc dalam project yang berisi cluster
Cloud Data Fusion Runner di akun layanan Dataproc dalam project yang berisi cluster
DataStream Admin (roles/datastream.admin) di akun layanan Cloud Data Fusion dan akun layanan Dataproc

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Opsional: Menginstal Oracle di Compute Engine

Bagian ini menunjukkan cara menyiapkan contoh database. Jika sudah menginstal database Oracle, Anda dapat melewati bagian ini.

Download image Docker Server Oracle.

Untuk mengetahui batasan image Oracle Express Edition 11g ini, lihat Edisi Oracle Database.
Deploy image Docker Anda di instance VM baru.

Catatan: Untuk men-deploy image di instance VM baru, layanan Compute Engine harus memiliki peran Pembaca Artifact Registry (roles/artifactregistry.reader).
Di halaman Disk Compute Engine, ubah ukuran disk menjadi 500 GB dan mulai ulang VM.

Buka Disk
Instal skema contoh HR.

Membuat aturan firewall atau peering jaringan VPC untuk server Oracle Anda

Jika Database Oracle Anda tidak mengizinkan traffic masuk dari alamat IP publik, siapkan peering jaringan VPC antara VPC Datastream dan VPC tempat database Oracle Anda dapat diakses. Untuk informasi selengkapnya, lihat Membuat konfigurasi konektivitas pribadi.

Jika database Oracle Anda mengizinkan traffic masuk dari alamat IP publik, buat aturan firewall untuk instance VM agar mengizinkan traffic masuk dari IP publik Datastream.

Mengonfigurasi Server Oracle untuk mengaktifkan logging tambahan

Ikuti langkah-langkah untuk mengonfigurasi database Oracle sumber.

Membuat dan menjalankan tugas replikasi Cloud Data Fusion

Membuat tugas

Di antarmuka web Cloud Data Fusion, klik Replikasi.
Klik Create a replication job.
Di halaman Create new replication job, tentukan Name tugas replikasi, lalu klik Next.
Konfigurasikan sumber:
1. Pilih Oracle (by Datastream) sebagai sumber.
2. Untuk Metode Konektivitas, jika server Oracle Anda mengizinkan traffic masuk dari IP publik Datastream, pilih Daftar IP yang diizinkan. Jika tidak, untuk Nama Koneksi Pribadi, pilih Konektivitas pribadi (peering VPC) dan masukkan nama peering VPC yang Anda buat di bagian Membuat aturan firewall atau peering jaringan VPC untuk Server Oracle.
3. Untuk Host, masukkan nama host Server Oracle yang akan dibaca.
4. Untuk Port, masukkan port yang akan digunakan untuk terhubung ke Server Oracle: 1521.
5. Untuk System Identity, masukkan xe (nama database contoh dari server Oracle).
6. Di bagian kredensial, masukkan nama pengguna dan sandi Anda untuk mengakses Server Oracle.
7. Biarkan semua properti lainnya sebagaimana adanya.
Klik Berikutnya.
Konfigurasikan target:
1. Pilih target BigQuery.
2. Project ID dan Service Account Key otomatis terdeteksi. Pertahankan nilai default seperti apa adanya.
3. Opsional: Di bagian Lanjutan, Anda dapat mengonfigurasi hal berikut:
  - Nama dan lokasi bucket staging
  - Interval pemuatan
  - Awalan tabel staging
  - Perilaku saat tabel atau database dihapus
Klik Berikutnya.
Jika koneksi berhasil, daftar tabel akan ditampilkan. Untuk tutorial ini, pilih beberapa tabel.

Catatan: Untuk melanjutkan, logging tambahan harus diaktifkan di tabel yang dipilih.
Klik Berikutnya.
Di halaman Tinjau penilaian, klik Lihat pemetaan di salah satu tabel untuk mendapatkan penilaian masalah skema, fitur yang tidak ada, atau masalah konektivitas yang mungkin terjadi selama Replikasi.

Jika ada masalah, Anda harus mengatasinya sebelum melanjutkan. Untuk tutorial ini, jika ada tabel yang mengalami masalah, lakukan hal berikut:
1. Kembali ke langkah saat Anda memilih tabel.
2. Pilih tabel atau peristiwa (Sisipkan, Perbarui, atau Hapus) tanpa masalah.
Untuk mengetahui informasi selengkapnya tentang konversi jenis data dari database sumber ke tujuan BigQuery, lihat Jenis data replikasi.
Klik Kembali.
Klik Berikutnya.
Tinjau detail tugas replikasi ringkasan, lalu klik Deploy tugas replikasi.

Memulai tugas

Di antarmuka web Cloud Data Fusion, buka halaman detail tugas replikasi.
Klik Start.

Tugas replikasi bertransisi dari status Penyediaan ke Dimulai ke Berjalan. Dalam status berjalan, tugas replikasi memuat snapshot awal data tabel yang Anda pilih ke BigQuery. Dalam status ini, status tabel dicantumkan sebagai Snapshotting. Setelah snapshot awal dimuat ke BigQuery, setiap perubahan yang dilakukan pada tabel akan direplikasi ke BigQuery, dan status tabel akan tercantum sebagai Replikasi.

Memantau tugas

Anda dapat memulai dan menghentikan tugas replikasi, meninjau konfigurasi dan lognya, serta memantau tugas replikasi.

Anda dapat memantau aktivitas tugas replikasi dari halaman detail tugas replikasi.

Dari halaman Replication, klik Name tugas replikasi yang diinginkan.
Klik Monitoring.

Melihat hasil di BigQuery

Tugas replikasi membuat set data dan tabel yang direplikasi di BigQuery, dengan nama yang diwarisi dari nama tabel dan database Oracle yang sesuai.

Di konsol Google Cloud, buka halaman BigQuery.
Di panel kiri, klik nama project Anda untuk meluaskan daftar set data.
Pilih set data xe, lalu pilih tabel yang akan dilihat.

Untuk informasi selengkapnya, lihat dokumentasi BigQuery.

Pembersihan

Agar tidak perlu membayar biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource.

Setelah menyelesaikan tutorial, bersihkan resource yang dibuat di Google Cloud sehingga resource tersebut tidak akan menghabiskan kuota dan Anda tidak akan ditagih di masa mendatang. Bagian berikut menjelaskan cara menghapus atau menonaktifkan resource ini.

Menghapus instance VM

Di konsol Google Cloud, buka halaman Instance VM.

Buka instance VM
Pilih kotak centang untuk instance yang ingin Anda hapus.
Untuk menghapus instance, klik Hapus.

Menghapus instance Cloud Data Fusion

Ikuti petunjuk untuk menghapus instance Cloud Data Fusion.

Menghapus project

Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.

Untuk menghapus project:

Perhatian: Menghapus project memiliki efek berikut:

Semua hal dalam project akan dihapus. Jika menggunakan project yang sudah ada untuk tugas dalam dokumen ini, saat Anda menghapusnya, pekerjaan lain yang telah Anda lakukan dalam project tersebut juga akan terhapus.
Project ID kustom hilang. Saat membuat project ini, Anda mungkin telah membuat project ID kustom yang ingin digunakan di masa mendatang. Untuk mempertahankan URL yang menggunakan project ID, seperti URL appspot.com, hapus resource yang dipilih di dalam project, bukan menghapus seluruh project.

Jika Anda berencana mempelajari beberapa arsitektur, tutorial atau panduan memulai, dengan menggunakan kembali project dapat membantu Anda agar tidak melampaui batas kuota project.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Langkah selanjutnya

Pelajari Datastream lebih lanjut.
Pelajari Replikasi di Cloud Data Fusion lebih lanjut.
Lihat referensi Replication API.
Lihat referensi replikasi Oracle.
Ikuti tutorial untuk Mereplikasi data dari MySQL ke BigQuery.
Ikuti tutorial untuk Mereplikasi data dari SQL Server ke BigQuery.