Ringkasan
Di bagian ini, Anda akan mempelajari cara membuat streaming. Datastream menggunakan streaming ini untuk mentransfer data dari database Oracle, MySQL, SQL Server (Pratinjau) sumber, atau PostgreSQL ke BigQuery atau Cloud Storage.
Membuat streaming mencakup:
- Menentukan setelan untuk streaming.
- Memilih profil koneksi yang Anda buat untuk database Oracle, MySQL, SQL Server (Preview) atau PostgreSQL (profil koneksi sumber) sumber, atau membuat profil koneksi sumber jika Anda belum membuatnya.
- Mengonfigurasi informasi tentang database sumber untuk aliran data dengan menentukan tabel dan skema di database sumber yang Datastream:
- Dapat ditransfer ke tujuan.
- Dibatasi agar tidak dapat ditransfer ke tujuan.
Menentukan apakah Datastream akan mengisi ulang data historis, serta mengalirkan perubahan yang sedang berlangsung ke tujuan, atau hanya mengalirkan perubahan pada data. Saat mengaktifkan pengisian ulang historis, Anda dapat secara opsional menentukan skema dan tabel di database sumber yang tidak boleh diisi ulang Datastream ke tujuan.
Memilih profil koneksi yang Anda buat untuk BigQuery atau Cloud Storage (profil koneksi tujuan), atau membuat profil koneksi tujuan jika Anda belum membuatnya.
Mengonfigurasi informasi tentang tujuan streaming. Informasi ini mencakup:
- Untuk BigQuery:
- Set data tempat Datastream akan mereplikasi skema, tabel, dan data dari database sumber.
- Untuk Cloud Storage:
- Folder bucket tujuan tempat Datastream akan mentransfer skema, tabel, dan data dari database sumber.
- Untuk BigQuery:
Memvalidasi streaming untuk memastikannya akan berhasil berjalan. Memvalidasi pemeriksaan streaming:
- Apakah sumber dikonfigurasi dengan benar agar Datastream dapat melakukan streaming data darinya.
Apakah streaming dapat terhubung ke sumber dan tujuan.
Konfigurasi streaming menyeluruh.
Menentukan setelan untuk streaming
Buka halaman Streams di Google Cloud Console.
Klik BUAT STREAMING.
Gunakan tabel berikut untuk mengisi kolom di bagian Tentukan detail streaming di halaman Buat streaming:
Kolom Deskripsi Nama aliran data Masukkan nama tampilan streaming. ID Aliran Data Datastream mengisi kolom ini secara otomatis berdasarkan nama aliran data yang Anda masukkan. Anda dapat mempertahankan ID yang dibuat secara otomatis atau mengubahnya. Region Pilih region tempat streaming disimpan. Seperti semua resource lainnya, streaming disimpan di region. Pemilihan region tidak memengaruhi apakah streaming Anda dapat terhubung ke database sumber atau tujuan, tetapi dapat memengaruhi ketersediaan jika region mengalami periode nonaktif. Source type Pilih jenis profil yang Anda tentukan saat membuat profil koneksi untuk database Oracle, MySQL, SQL Server (Preview), atau PostgreSQL. Atau, jika Anda belum membuat profil koneksi untuk database sumber, Anda dapat membuatnya sekarang.
Jenis tujuan Pilih jenis profil yang Anda tentukan saat membuat profil koneksi untuk tujuan BigQuery atau Cloud Storage. Atau, jika belum membuat profil koneksi untuk tujuan tersebut, Anda dapat membuatnya sekarang.
Enkripsi Secara default, data Anda dienkripsi dengan kunci yang dikelola oleh Google Cloud. Jika ingin mengelola enkripsi, Anda dapat menggunakan kunci enkripsi yang dikelola pelanggan (CMEK):
- Pilih kotak centang Use a CMEK.
- Dari menu drop-down Pilih CMEK, pilih CMEK Anda.
Jika Anda tidak melihat kunci, klik ENTER KEY RESOURCE NAME untuk memberikan nama resource kunci yang ingin digunakan. Misalnya, Anda dapat memasukkan
projects/my-project-name/locations/my-location/keyRings/my-keyring/cryptoKeys/my-key
di kolom Nama resource kunci, lalu klik SIMPAN.Anda juga dapat menggunakan label untuk mengatur resource Datastream.
- Untuk membuat label, klik TAMBAHKAN LABEL, lalu masukkan pasangan nilai kunci untuk label tersebut.
- Untuk menghapus label, klik ikon tempat sampah di sebelah kanan baris yang berisi label tersebut.
Secara opsional, tambahkan kebijakan pemberitahuan untuk streaming Anda. Kebijakan pemberitahuan menentukan waktu dan cara Anda ingin diberi tahu jika terjadi kegagalan streaming.
- Untuk membuat kebijakan pemberitahuan, klik Tambahkan kebijakan pemberitahuan.
- Halaman Create alerts policy akan muncul di Cloud Monitoring. Di halaman ini, Anda menetapkan kebijakan pemberitahuan jika streaming Anda gagal.
Untuk mengetahui informasi selengkapnya tentang kebijakan pemberitahuan, lihat Mengelola kebijakan pemberitahuan berbasis metrik.
Tinjau prasyarat yang diperlukan yang dibuat secara otomatis guna mencerminkan cara menyiapkan lingkungan untuk streaming. Prasyarat ini dapat mencakup cara mengonfigurasi database sumber dan cara menghubungkannya ke tujuan. Sebaiknya Anda menyelesaikan prasyarat ini pada langkah ini, tetapi Anda dapat menyelesaikannya kapan saja sebelum menguji streaming atau memulainya. Untuk informasi selengkapnya tentang prasyarat ini, lihat Sumber.
Klik CONTINUE. Panel Tentukan profil koneksi di halaman Buat aliran data akan muncul untuk jenis database sumber Anda.
Menentukan informasi tentang profil koneksi sumber
Jika Anda telah membuat profil koneksi sumber untuk Oracle, MySQL, SQL Server (Preview) atau PostgreSQL, pilih profil tersebut dari daftar profil koneksi.
Jika Anda belum membuat profil koneksi sumber, buat profil dengan mengklik CREATE CONNECTION PROFILE di bagian bawah menu drop-down, lalu lakukan langkah yang sama seperti di Membuat profil koneksi.
Klik RUN TEST untuk memverifikasi bahwa database sumber dan Datastream dapat saling berkomunikasi.
Jika pengujian gagal, masalah yang terkait dengan profil koneksi akan muncul. Lihat halaman Diagnosis masalah untuk mengetahui langkah-langkah pemecahan masalah. Buat perubahan yang diperlukan untuk memperbaiki masalah, lalu uji kembali.
Klik CONTINUE. Panel Konfigurasi sumber streaming di halaman Buat streaming akan muncul.
Mengonfigurasi informasi tentang database sumber untuk aliran data
Mengonfigurasi database sumber PostgreSQL
Jika memilih PostgreSQL sebagai database sumber, Anda harus menentukan properti replikasinya.
- Di bagian Properti replikasi, tentukan properti berikut:
- Di kolom Nama slot replikasi, masukkan nama slot yang Anda buat khusus untuk aliran data ini. Server database menggunakan slot ini untuk mengirim peristiwa ke Datastream.
- Di kolom Nama publikasi, masukkan nama publikasi yang Anda buat dalam database. Publikasi adalah grup yang berisi semua tabel yang Anda ingin untuk mereplikasi perubahannya menggunakan aliran data ini.
- Klik Lanjutkan. Ikuti langkah-langkah yang dijelaskan di bagian Mengonfigurasi database sumber di bawah.
Mengonfigurasi database sumber
Di bagian Select objects to include, gunakan menu drop-down Objects to include untuk menentukan tabel dan skema di database sumber yang dapat ditransfer Datastream ke tujuan.
- Jika Anda ingin Datastream mentransfer semua tabel dan skema, pilih Semua tabel dari semua skema.
Jika Anda ingin Datastream hanya mentransfer tabel dan skema tertentu, pilih Skema dan tabel tertentu, lalu centang kotak untuk skema dan tabel yang ingin Anda tarik Datastream.
Jika Anda ingin memberikan definisi tekstual tabel dan skema yang Anda inginkan untuk ditransfer Datastream, pilih Custom, lalu, di kolom Object matching criteria, masukkan skema dan tabel yang ingin Anda tarik Datastream.
Jika database Anda memiliki tabel dan skema dalam jumlah besar, sebaiknya gunakan opsi Kustom karena beberapa tabel dan skema mungkin tidak disertakan dalam daftar objek yang akan diambil.
Jika ingin, luaskan node Select objects to mengecualikan. Di kolom Objects to excluded, masukkan tabel dan skema di database sumber tempat Anda ingin membatasi Datastream agar tidak diambil. Daftar Objects to include lebih diprioritaskan daripada daftar Objects to include. Jika objek memenuhi kriteria dalam daftar sertakan dan kecualikan, objek akan dikecualikan dari aliran data.
- Secara opsional, luaskan node Pilih mode pengisian ulang untuk data historis, lalu buat salah satu pilihan berikut:
Pilih opsi Otomatis untuk melakukan streaming semua data yang ada, selain perubahan pada data, dari sumber ke tujuan.
Di kolom Objek yang dikecualikan dari pengisian ulang otomatis, masukkan tabel dan skema di database sumber yang ingin Anda batasi pengisiannya agar tidak diisi ulang Datastream ke tujuan.
- Pilih opsi Manual untuk melakukan streaming perubahan hanya pada data ke tujuan.
Klik CONTINUE. Panel Tentukan profil koneksi di halaman Buat aliran data akan muncul untuk jenis tujuan Anda.
Pilih profil koneksi tujuan
Jika Anda telah membuat profil koneksi tujuan, pilih profil tersebut dari daftar profil koneksi.
Jika Anda belum membuat profil koneksi tujuan, buat profil dengan mengklik CREATE CONNECTION PROFILE di bagian bawah menu drop-down, lalu lakukan langkah yang sama seperti di Membuat profil koneksi.
Klik CONTINUE. Panel Konfigurasi tujuan streaming di halaman Buat streaming akan muncul.
Mengonfigurasi informasi tentang tujuan untuk aliran data
Tujuan BigQuery
Di bagian Configure the connection from Datastream to BigQuery, tentukan cara Datastream di-streaming ke dalam set data BigQuery. Pilih salah satu opsi berikut:
Set data untuk setiap skema: Datastream membuat set data BigQuery untuk setiap skema sumber, berdasarkan nama skema.
Jika Anda memilih opsi ini, maka untuk setiap skema dalam database sumber, Datastream akan membuat set data dalam project yang berisi aliran data.
Selain itu, saat memilih opsi Dataset for setiap schema:
- Di kolom Location, masukkan region tempat Anda ingin membuat set data baru.
- (Opsional) Di kolom Prefix, tentukan awalan untuk set data yang dibuat oleh aliran data. String yang Anda tentukan akan ditambahkan ke nama skema sumber. Misalnya, jika skema disebut
<mySchema>
, dan Anda menentukan awalan set data sebagai<myPrefix>
, Datastream akan membuat set data bernama<myPrefix><mySchema>
. - Tentukan cara enkripsi data yang Anda inginkan di BigQuery dengan memilih kunci enkripsi yang dikelola Google atau dikelola pelanggan.
Set data tunggal untuk semua skema: Datastream membuat semua tabel di dalam set data BigQuery yang sudah ada yang Anda tentukan. Setiap tabel yang dibuat Datastream diberi nama menggunakan kombinasi nama skema sumber dan nama tabel, yang dipisahkan dengan garis bawah (misalnya,
).<mySchemaName>_<myTableName>
Tentukan batas data yang tidak digunakan. Pilih batas untuk menyeimbangkan performa kueri dan biaya BigQuery dengan keaktualan data. BigQuery menerapkan perubahan di latar belakang secara berkelanjutan, atau pada waktu proses kueri, sesuai dengan batas penghentian. Tingkat penghentian yang lebih rendah (data yang lebih baru) dapat meningkatkan biaya pemrosesan BigQuery.
Klik CONTINUE. Panel Tinjau detail aliran data dan buat di halaman Buat aliran data akan muncul.
Tujuan Cloud Storage
Secara opsional, di kolom Awalan jalur streaming, masukkan folder bucket tujuan tempat Datastream akan mentransfer skema, tabel, dan data dari database sumber.
Misalnya, jika Anda ingin Datastream mentransfer data dari database sumber ke folder
/root/example
di bucket tujuan, masukkan/root/example
di kolom Awalan jalur aliran.Di kolom Output format, pilih format file yang ditulis ke Cloud Storage.
Opsional. Jika Anda memilih format JSON, akan muncul dua kotak centang:
- Menyertakan file skema Jenis Terpadu di jalur file: Jika Anda mencentang kotak ini, Datastream akan menulis dua file ke Cloud Storage: file data JSON dan file skema Avro. File skema memiliki nama yang sama dengan file data, dengan ekstensi
.schema
. Jika Anda tidak mencentang kotak ini, Datastream hanya akan menulis file data JSON ke Cloud Storage. Secara default, kotak centang ini tidak dipilih. - Aktifkan kompresi gzip: Jika Anda mencentang kotak ini, Datastream akan menggunakan utilitas
gzip
untuk mengompresi file yang ditulis Datastream ke Cloud Storage. Jika Anda tidak mencentang kotak ini, Datastream akan menulis file ke Cloud Storage tanpa mengompresinya. Secara default, kotak centang ini dipilih.
- Menyertakan file skema Jenis Terpadu di jalur file: Jika Anda mencentang kotak ini, Datastream akan menulis dua file ke Cloud Storage: file data JSON dan file skema Avro. File skema memiliki nama yang sama dengan file data, dengan ekstensi
Klik CONTINUE. Panel Tinjau detail aliran data dan buat di halaman Buat aliran data akan muncul.
Membuat feed
- Verifikasi detail tentang aliran data serta profil koneksi sumber dan tujuan yang akan digunakan aliran data untuk mentransfer data dari database sumber ke tujuan.
Klik JALANKAN VALIDASI untuk memvalidasi streaming. Dengan memvalidasi streaming, Datastream memeriksa apakah sumber telah dikonfigurasi dengan benar, memvalidasi bahwa streaming dapat terhubung ke sumber dan tujuan, serta memverifikasi konfigurasi streaming secara menyeluruh.
Jika database sumber Anda adalah Oracle, Datastream akan melakukan pemeriksaan berikut:
Periksa Deskripsi Validitas daftar objek Datastream memverifikasi bahwa daftar pengecualian tidak menyertakan daftar yang disertakan. Konektivitas tunnel SSH maju Datastream memverifikasi bahwa data dapat terhubung ke bastion host melalui tunnel Forward SSH. Konektivitas ke database Oracle Datastream memverifikasi bahwa datastream dapat terhubung ke database Oracle sumber. Izin pengguna Oracle Datastream memverifikasi bahwa pengguna yang digunakan untuk terhubung ke database sumber memiliki semua izin yang diperlukan untuk mengambil skema, tabel, dan data dari database sehingga Datastream dapat mengalirkan informasi ini ke tujuan. Konfigurasi mode logging Datastream memverifikasi bahwa mode logging untuk database Oracle disetel ke ArchiveLOG. Konfigurasi logging tambahan Datastream memverifikasi bahwa logging tambahan diaktifkan untuk tabel database yang di-streaming dari sumber ke tujuan. Konfigurasi file log arsip Datastream memverifikasi bahwa logging arsip dikonfigurasi di sumber, dan bahwa file log arsip ada. Izin Cloud Storage (untuk tujuan Cloud Storage) Datastream memverifikasi bahwa aliran data memiliki izin yang diperlukan untuk menulis ke bucket tujuan di Cloud Storage. Jika database sumber Anda adalah MySQL, Datastream akan melakukan pemeriksaan berikut:
Periksa Deskripsi Validitas daftar objek Datastream memverifikasi bahwa daftar pengecualian tidak menyertakan daftar yang disertakan. Konektivitas tunnel SSH maju Datastream memverifikasi bahwa data dapat terhubung ke bastion host melalui tunnel Forward SSH. Konektivitas ke database MySQL Datastream memverifikasi bahwa datastream dapat terhubung ke database MySQL sumber. Logging biner diaktifkan Datastream memverifikasi bahwa file log biner dikonfigurasi dengan benar, dan bahwa ada file log. Konfigurasi format log biner Datastream memverifikasi bahwa format log biner database MySQL disetel ke ROW
.Izin replikasi Datastream memverifikasi bahwa datastream memiliki izin untuk mereplikasi database MySQL. Izin Cloud Storage (untuk tujuan Cloud Storage) Datastream memverifikasi bahwa aliran data memiliki izin yang diperlukan untuk menulis ke bucket tujuan di Cloud Storage. Jika database sumber Anda adalah PostgreSQL, Datastream akan melakukan pemeriksaan berikut:
Periksa Deskripsi Konektivitas ke database PostgreSQL Datastream memverifikasi bahwa datastream dapat terhubung ke database PostgreSQL sumber. Dekode logis diaktifkan Datastream memverifikasi bahwa parameter wal_level
database PostgreSQL ditetapkan kelogical
.Konfigurasi slot replikasi Datastream memverifikasi apakah slot replikasi PostgreSQL ada dan aktif, apakah Datastream memiliki izin yang diperlukan untuk mengaksesnya, dan apakah slot tersebut dikonfigurasi dengan benar atau tidak. Konfigurasi publikasi Datastream memverifikasi bahwa publikasi ada dan bahwa tabel yang akan direplikasi untuk streaming disertakan dalam publikasi. Izin pengisian ulang Datastream memverifikasi bahwa tabel yang diperlukan untuk mengisi ulang data historis ada dan bahwa tabel tersebut memiliki izin yang diperlukan untuk membacanya. Jika database sumber Anda adalah SQL Server (Pratinjau), Datastream akan melakukan pemeriksaan berikut:
Periksa Deskripsi Edisi SQL Server Datastream memverifikasi bahwa edisi database SQL Server sumber didukung. Untuk informasi tentang edisi yang didukung, lihat Versi. Izin pengguna SQL Server Datastream memverifikasi bahwa pengguna memiliki izin yang diperlukan untuk mengakses database Server SQL sumber. SQL Server CDC diaktifkan Datastream memverifikasi apakah CDC diaktifkan untuk database dan semua tabel yang disertakan dalam aliran data. Validasi database SQL Server Datastream memeriksa apakah database sumber dikonfigurasi dengan benar, apakah semua persyaratan replikasi terpenuhi, dan apakah tidak ada jenis data yang tidak didukung di kolom. Izin Cloud Storage atau BigQuery Datastream memverifikasi bahwa pengguna memiliki izin yang diperlukan untuk menulis ke tujuan.
Setelah semua pemeriksaan validasi lulus, klik BUAT & MULAI untuk membuat aliran data dan segera memulainya, atau BUAT untuk membuat aliran data tanpa segera memulainya.
Jika streaming tidak dimulai sekarang, Anda dapat memulainya dari halaman Streaming dengan mengklik MULAI.
Setelah membuat streaming, Anda dapat melihat informasi umum dan mendetail tentang streaming tersebut.