Membuat stream

Di bagian ini, Anda akan mempelajari cara membuat streaming. Datastream menggunakan aliran data ini untuk mentransfer data dari database Oracle, MySQL, SQL Server, atau PostgreSQL sumber ke BigQuery atau Cloud Storage.

Membuat streaming mencakup:

  • Menentukan setelan untuk streaming.
  • Memilih profil koneksi yang Anda buat untuk database Oracle, MySQL, SQL Server, atau PostgreSQL sumber (profil koneksi sumber), atau membuat profil koneksi sumber jika Anda belum membuatnya.
  • Mengonfigurasi informasi tentang database sumber untuk aliran data dengan menentukan tabel dan skema di database sumber yang akan di-streaming oleh Datastream:
    • Dapat ditransfer ke tujuan.
    • Dibatasi agar tidak ditransfer ke tujuan.
  • Menentukan apakah Datastream akan mengisi ulang data historis, serta melakukan streaming perubahan yang sedang berlangsung ke tujuan, atau hanya melakukan streaming perubahan pada data. Saat mengaktifkan pengisian ulang historis, Anda dapat menentukan skema dan tabel di database sumber yang tidak boleh diisi ulang oleh Datastream ke tujuan.

  • Memilih profil koneksi yang Anda buat untuk BigQuery atau Cloud Storage (profil koneksi tujuan), atau membuat profil koneksi tujuan jika Anda belum membuatnya.

  • Mengonfigurasi informasi tentang tujuan untuk aliran data. Informasi ini mencakup:

    • Untuk BigQuery:
      • Set data tempat Datastream akan mereplikasi skema, tabel, dan data dari database sumber.
    • Untuk Cloud Storage:
      • Folder bucket tujuan tempat Datastream akan mentransfer skema, tabel, dan data dari database sumber.
  • Memvalidasi streaming untuk memastikan bahwa streaming akan berhasil berjalan. Memvalidasi streaming akan memeriksa:

    • Apakah sumber dikonfigurasi dengan benar untuk memungkinkan Datastream melakukan streaming data darinya.
    • Apakah streaming dapat terhubung ke sumber dan tujuan.
    • Konfigurasi menyeluruh streaming.

Menentukan setelan untuk streaming

  1. Buka halaman Streaming di Google Cloud Konsol.

    Buka halaman Streams

  2. Klik BUAT ARUS DATA.

  3. Gunakan tabel berikut untuk mengisi kolom di bagian Tentukan detail aliran data di halaman Buat aliran data:

    KolomDeskripsi
    Nama aliran dataMasukkan nama tampilan aliran data.
    ID Aliran DataDatastream mengisi kolom ini secara otomatis berdasarkan nama aliran data yang Anda masukkan. Anda dapat mempertahankan ID yang dibuat secara otomatis atau mengubahnya.
    WilayahPilih region tempat streaming disimpan. Aliran data, seperti semua resource, disimpan di region. Pemilihan region tidak memengaruhi apakah aliran data Anda dapat terhubung ke database sumber atau tujuan, tetapi dapat memengaruhi ketersediaan jika region mengalami periode nonaktif. Sebaiknya simpan semua resource untuk streaming di region yang sama dengan data sumber Anda untuk mengoptimalkan biaya dan performa.
    Jenis sumber

    Pilih jenis profil yang Anda tentukan saat membuat profil koneksi untuk database Oracle, MySQL, SQL Server, atau PostgreSQL sumber. Atau, jika belum membuat profil koneksi untuk database sumber, Anda dapat membuatnya sekarang.

    Jenis tujuanPilih jenis profil yang Anda tentukan saat membuat profil koneksi untuk tujuan BigQuery atau Cloud Storage. Atau, jika belum membuat profil koneksi untuk tujuan, Anda dapat membuatnya sekarang.
    Enkripsi

    Secara default, data Anda dienkripsi dengan kunci yang dikelola oleh Google Cloud. Jika ingin mengelola enkripsi, Anda dapat menggunakan kunci enkripsi yang dikelola pelanggan (CMEK):

    1. Centang kotak Kunci Cloud KMS.
    2. Dari menu drop-down Key type, pilih Cloud KMS, lalu pilih CMEK Anda.

    Jika Anda tidak melihat kunci, klik ENTER KEY RESOURCE NAME untuk memberikan nama resource kunci yang ingin Anda gunakan. Misalnya, Anda dapat memasukkan projects/my-project-name/locations/my-location/keyRings/my-keyring/cryptoKeys/my-key di kolom Key resource name, lalu mengklik SAVE.

  4. Secara opsional, gunakan label untuk mengatur resource Datastream Anda.

    1. Untuk membuat label, klik ADD LABEL, lalu masukkan pasangan nilai kunci untuk label.
    2. Untuk menghapus label, klik ikon tong sampah di sebelah kanan baris yang berisi label.
  5. Secara opsional, tambahkan kebijakan pemberitahuan untuk streaming Anda. Kebijakan pemberitahuan menentukan kapan dan bagaimana Anda ingin diberi tahu tentang kegagalan streaming.

    1. Untuk membuat kebijakan pemberitahuan, klik Tambahkan kebijakan pemberitahuan.
    2. Halaman Buat kebijakan pemberitahuan akan muncul di Cloud Monitoring. Di halaman ini, Anda menentukan kebijakan pemberitahuan jika streaming gagal.

    Untuk mengetahui informasi selengkapnya tentang kebijakan pemberitahuan, lihat Mengelola kebijakan pemberitahuan berbasis metrik.

  6. Tinjau prasyarat yang diperlukan yang dibuat secara otomatis guna mencerminkan cara lingkungan harus disiapkan untuk streaming. Prasyarat ini dapat mencakup cara mengonfigurasi database sumber dan cara menghubungkannya ke tujuan. Sebaiknya Anda menyelesaikan prasyarat tersebut pada langkah ini, tetapi Anda dapat menyelesaikannya kapan saja sebelum menguji streaming atau memulainya. Untuk mengetahui informasi selengkapnya tentang prasyarat ini, lihat Sumber.

  7. Klik CONTINUE. Panel Define connection profile di halaman Create stream akan muncul untuk jenis database sumber Anda.

Menentukan informasi tentang profil koneksi sumber

  1. Jika Anda telah membuat profil koneksi sumber untuk Oracle, MySQL, SQL Server, atau PostgreSQL, pilih profil koneksi tersebut dari daftar profil koneksi.

    Jika Anda belum membuat profil koneksi sumber, buat profil koneksi dengan mengklik CREATE CONNECTION PROFILE di bagian bawah menu drop-down, lalu lakukan langkah-langkah yang sama seperti di Membuat profil koneksi.

  2. Klik RUN TEST untuk memverifikasi bahwa database sumber dan Datastream dapat saling berkomunikasi.

    Jika pengujian gagal, masalah yang terkait dengan profil koneksi akan muncul. Lihat halaman Mendiagnosis masalah untuk mengetahui langkah-langkah pemecahan masalah. Lakukan perubahan yang diperlukan untuk memperbaiki masalah, lalu uji ulang.

  3. Klik CONTINUE. Panel Konfigurasi sumber aliran data di halaman Buat aliran data akan muncul.

Mengonfigurasi informasi tentang database sumber untuk aliran data

Mengonfigurasi database sumber PostgreSQL

Jika memilih PostgreSQL sebagai database sumber, Anda harus menentukan properti replikasinya.

  1. Di bagian Properti replikasi, tentukan properti berikut:
    1. Di kolom Replication slot name, masukkan nama slot yang Anda buat khusus untuk aliran data ini. Server database menggunakan slot ini untuk mengirim peristiwa ke Datastream.
    2. Di kolom Nama publikasi, masukkan nama publikasi yang Anda buat di database. Publikasi adalah grup dari semua tabel yang perubahannya ingin Anda replikasi menggunakan aliran data ini.
  2. Ikuti langkah-langkah yang dijelaskan di bagian Mengonfigurasi database sumber.

Mengonfigurasi database sumber

  1. Di bagian Select objects to include, gunakan menu drop-down Objects to include untuk menentukan tabel dan skema di database sumber yang dapat ditransfer Datastream ke tujuan.

    1. Jika Anda ingin Datastream mentransfer semua tabel dan skema, pilih Semua tabel dari semua skema.
    2. Jika Anda ingin Datastream hanya mentransfer tabel dan skema tertentu, pilih Skema dan tabel tertentu, lalu centang kotak untuk skema dan tabel yang ingin diambil Datastream.

    3. Jika Anda ingin memberikan definisi tekstual tabel dan skema yang ingin ditransfer Datastream, pilih Kustom, lalu, di kolom Kriteria pencocokan objek, masukkan skema dan tabel yang ingin diambil Datastream.

      Jika database Anda memiliki banyak tabel dan skema, sebaiknya gunakan opsi Kustom karena beberapa tabel dan skema mungkin tidak disertakan dalam daftar objek yang akan diambil.

  2. Secara opsional, luaskan node Select objects to exclude. Di kolom Objects to exclude, masukkan tabel dan skema di database sumber yang ingin Anda batasi agar tidak diambil oleh Datastream. Daftar Objek yang dikecualikan lebih diprioritaskan daripada daftar Objek yang disertakan. Jika objek memenuhi kriteria dalam daftar sertakan dan kecualikan, objek akan dikecualikan dari aliran data.

  3. Bergantung pada sumber yang Anda pilih, tentukan metode CDC untuk streaming:

    • Untuk sumber SQL Server:
      • Log transaksi: pilih metode ini untuk memproses perubahan langsung dari log database. Metode ini memberikan performa terbaik dan lebih efisien, tetapi memerlukan langkah konfigurasi tambahan.
      • Tabel perubahan: pilih metode ini untuk memproses perubahan dari tabel perubahan khusus. Metode ini lebih mudah dikonfigurasi dan memiliki lebih sedikit batasan, tetapi mendukung throughput yang lebih rendah dan menghasilkan beban yang lebih tinggi pada database Anda daripada metode log transaksi. Untuk informasi selengkapnya tentang cara mengonfigurasi database SQL Server sumber, lihat Mengonfigurasi database SQL Server sumber.
    • Untuk sumber MySQL:
      • Replikasi berbasis GTID (Global Transaction ID) (Pratinjau): pilih metode ini jika Anda ingin Datastream mendukung failover dan memberikan replikasi yang lancar, terlepas dari perubahan di cluster database Anda.
      • Replikasi berbasis binlog: pilih metode ini untuk membaca dan mereplikasi perubahan langsung dari file log biner instance database yang dipilih. Anda tidak dapat mengalihkan streaming yang sedang berjalan ke instance sumber atau replika yang berbeda menggunakan metode CDC ini.
    • Untuk sumber Oracle:
      • LogMiner: pilih metode ini untuk mengkueri log redo yang diarsipkan menggunakan LogMiner API. LogMiner mendukung sebagian besar opsi yang tersedia untuk Oracle, seperti opsi enkripsi dan kompresi.
      • Pembaca biner (Pratinjau): pilih metode ini untuk mengekstrak perubahan langsung dari log Oracle. Hal ini memungkinkan replikasi database Oracle besar yang lebih cepat serta mengurangi latensi dan overhead. Saat Anda memilih opsi ini, drop-down tambahan akan ditampilkan. Pilih cara yang Anda inginkan untuk mengakses file log Oracle:
      • Automatic Storage Management (ASM): pilih opsi ini jika database Anda menggunakan ASM. Pastikan Anda mencentang kotak Enable ASM access for binary reader dan mengisi detail instance ASM di profil koneksi sumber.
      • Database directories: pilih opsi ini jika Anda tidak menggunakan ASM untuk menyimpan file log. Jika memilih direktori database, Anda harus memberikan nama direktori log redo dan log yang diarsipkan.
  4. Secara opsional, luaskan node Pilih mode pengisian ulang untuk data historis, lalu buat salah satu pilihan berikut:

    • Pilih opsi Otomatis untuk melakukan streaming semua data yang ada, selain perubahan pada data, dari sumber ke tujuan. Di kolom Objek yang dikecualikan dari pengisian ulang otomatis, masukkan tabel dan skema di database sumber yang ingin Anda batasi agar Datastream tidak mengisi ulang ke tujuan.

    • Pilih opsi Manual untuk hanya melakukan streaming perubahan pada data ke tujuan.

  5. Klik CONTINUE. Panel Define connection profile di halaman Create stream akan muncul untuk jenis tujuan Anda.

Memilih profil koneksi tujuan

  1. Jika Anda telah membuat profil koneksi tujuan, pilih profil tersebut dari daftar profil koneksi.

    Jika Anda belum membuat profil koneksi tujuan, buat profil koneksi dengan mengklik CREATE CONNECTION PROFILE di bagian bawah menu drop-down, lalu lakukan langkah-langkah yang sama seperti di Membuat profil koneksi.

  2. Klik CONTINUE. Panel Konfigurasi tujuan aliran data di halaman Buat aliran data akan muncul.

Mengonfigurasi informasi tentang tujuan untuk aliran data

Bagian ini menjelaskan informasi yang perlu Anda berikan untuk mengonfigurasi tujuan BigQuery atau Cloud Storage.

Tujuan BigQuery

  1. Di bagian Menentukan cara Datastream melakukan streaming ke set data BigQuery, pilih salah satu opsi berikut dari drop-down Pengelompokan skema:

    • Set data untuk setiap skema: Datastream membuat set data BigQuery untuk setiap skema sumber, berdasarkan nama skema.

      Jika Anda memilih opsi ini, untuk setiap skema dalam database sumber, Datastream akan membuat set data dalam project yang berisi streaming.

      Selain itu, jika memilih opsi Set data untuk setiap skema, Anda harus memberikan hal berikut:

      1. Di bagian Jenis lokasi, tentukan tempat Anda ingin menyimpan data di BigQuery. Pilih Region untuk menentukan satu lokasi geografis, atau Multi-region untuk menentukan area yang lebih besar yang berisi dua region atau lebih. Jika prioritas Anda adalah mengoptimalkan biaya dan performa, pilih Region, dan simpan set data Anda bersama dengan Google Cloud resource lain yang Anda kelola. Jika Anda ingin mencapai batas kuota yang lebih tinggi, pilih Multi-region untuk mengizinkan BigQuery menggunakan beberapa region dalam grup. Saat Anda memilih Region, kolom akan ditetapkan secara default ke region yang Anda pilih untuk streaming.
      2. (Opsional) Di kolom Dataset prefix, tentukan awalan untuk set data yang dibuat oleh aliran data. String yang Anda tentukan akan ditambahkan ke nama skema sumber. Misalnya, jika skema disebut <mySchema>, dan Anda menentukan awalan set data sebagai <myPrefix>, Datastream akan membuat set data bernama <myPrefix><mySchema>.
      3. Luaskan bagian Tampilkan opsi enkripsi lanjutan.
      4. Tentukan cara Anda ingin data dienkripsi di BigQuery dengan memilih kunci enkripsi yang dikelola Google atau dikelola pelanggan.
    • Set data tunggal untuk semua skema: Datastream membuat semua tabel di dalam set data BigQuery yang ada yang Anda tentukan. Setiap tabel yang dibuat Datastream diberi nama menggunakan kombinasi nama skema sumber dan nama tabel, yang dipisahkan dengan garis bawah (misalnya, <mySchemaName>_<myTableName>). Set data yang tersedia dikelompokkan menurut region. Anda juga dapat membuat set data baru.

  2. Tentukan Mode tulis streaming. Pilih mode tulis untuk menentukan cara data ditulis dan diproses di BigQuery:

    • Gabungkan: pilih opsi ini jika Anda ingin data disinkronkan dengan sumber.
    • Hanya tambahkan: pilih opsi ini jika Anda ingin menyimpan semua data historis untuk peristiwa perubahan.
  3. Menentukan batas ketidak-berlakuan data. Hanya tersedia jika mode Gabungkan dipilih di langkah sebelumnya. Pilih batas untuk menyeimbangkan performa dan biaya kueri BigQuery dengan keaktualan data. BigQuery menerapkan perubahan di latar belakang secara berkelanjutan, atau pada waktu pengoperasian kueri, sesuai dengan batas keusangan. Data yang lebih baru (data yang lebih segar) dapat meningkatkan biaya pemrosesan BigQuery.

  4. Klik CONTINUE. Panel Tinjau detail aliran data dan buat di halaman Buat aliran data akan muncul.

Tujuan Cloud Storage

  1. Secara opsional, di kolom Stream path prefix, masukkan folder bucket tujuan tempat Datastream akan mentransfer skema, tabel, dan data dari database sumber.

    Misalnya, jika Anda ingin Datastream mentransfer data dari database sumber ke folder /root/example di bucket tujuan, masukkan /root/example di kolom Awalan jalur aliran data.

  2. Di kolom Output format, pilih format file yang ditulis ke Cloud Storage.

  3. Opsional. Jika Anda memilih format JSON, dua kotak centang akan muncul:

    1. Sertakan file skema Unified Types di jalur file: Jika Anda mencentang kotak ini, Datastream akan menulis dua file ke Cloud Storage: file data JSON dan file skema Avro. File skema memiliki nama yang sama dengan file data, dengan ekstensi .schema. Jika Anda tidak mencentang kotak ini, Datastream hanya akan menulis file data JSON ke Cloud Storage. Secara default, kotak centang ini tidak dicentang.
    2. Enable gzip compression: Jika Anda mencentang kotak ini, Datastream akan menggunakan utilitas gzip untuk mengompresi file yang ditulis Datastream ke Cloud Storage. Jika Anda tidak mencentang kotak ini, Datastream akan menulis file ke Cloud Storage tanpa mengompresi file tersebut. Secara default, kotak centang ini dipilih.
  4. Klik CONTINUE. Panel Tinjau detail aliran data dan buat di halaman Buat aliran data akan muncul.

Membuat aliran data

  1. Verifikasi detail tentang aliran data serta profil koneksi sumber dan tujuan yang akan digunakan aliran data untuk mentransfer data dari database sumber ke tujuan.
  2. Klik RUN VALIDATION untuk memvalidasi aliran data. Dengan memvalidasi streaming, Datastream akan memeriksa apakah sumber dikonfigurasi dengan benar, memvalidasi apakah streaming dapat terhubung ke sumber dan tujuan, serta memverifikasi konfigurasi menyeluruh streaming.

    1. Jika database sumber Anda adalah Oracle, Datastream akan melakukan pemeriksaan berikut:

      CekDeskripsi
      Validitas daftar objekDatastream memverifikasi bahwa daftar pengecualian tidak mencakup daftar penyertaan.
      Meneruskan konektivitas tunnel SSHDatastream memverifikasi bahwa datastream dapat terhubung ke host bastion melalui tunnel SSH Penerusan.
      Konektivitas ke database OracleDatastream memverifikasi bahwa datastream dapat terhubung ke database Oracle sumber.
      Izin pengguna OracleDatastream memverifikasi bahwa pengguna yang digunakan untuk terhubung ke database sumber memiliki semua izin yang diperlukan untuk mengambil skema, tabel, dan data dari database sehingga Datastream dapat melakukan streaming informasi ini ke tujuan.
      Konfigurasi mode loggingDatastream memverifikasi bahwa mode logging untuk database Oracle disetel ke ARCHIVELOG.
      Konfigurasi logging tambahanDatastream memverifikasi bahwa logging tambahan diaktifkan untuk tabel database yang di-streaming dari sumber ke tujuan.
      Konfigurasi Oracle CDCDatastream memverifikasi bahwa metode CDC yang Anda pilih mematuhi konfigurasi database Anda.
      Mengarsipkan konfigurasi file logDatastream memverifikasi bahwa logging arsip dikonfigurasi di sumber, dan bahwa file log arsip ada.
      Izin Cloud Storage (untuk tujuan Cloud Storage) Datastream memverifikasi bahwa datastream memiliki izin yang diperlukan untuk menulis ke bucket tujuan di Cloud Storage.
    2. Jika database sumber Anda adalah MySQL, Datastream akan melakukan pemeriksaan berikut:

      CekDeskripsi
      Izin replikasiDatastream memverifikasi bahwa akun memiliki izin untuk mereplikasi database MySQL.
      Versi databaseDatastream memverifikasi bahwa versi database MySQL didukung. Untuk mengetahui informasi tentang edisi yang didukung, lihat Versi.
      Konfigurasi format log binerDatastream memverifikasi bahwa format log biner database MySQL disetel ke ROW.
      Logging biner diaktifkanDatastream memverifikasi bahwa file log biner dikonfigurasi dengan benar, dan bahwa ada file log.
      Konfigurasi gambar baris log binerDatastream memverifikasi bahwa gambar baris binlog ditetapkan ke FULL.
      Kompresi binlog dinonaktifkanDatastream memverifikasi bahwa kompresi binlog dinonaktifkan.
      Update replika log atau slave diaktifkanDatastream memverifikasi bahwa update replika log atau slave diaktifkan.
      Konfigurasi mode GTID (applies only to GTID-based CDC)Datastream memverifikasi bahwa mode GTID ditetapkan ke ON jika replikasi berbasis GTID digunakan.
      GtidSet tidak berisi GTID yang diberi tag (applies only to GTID-based CDC)Datastream memverifikasi bahwa kumpulan GTID tidak berisi GTID yang diberi tag.
      Izin Cloud Storage (untuk tujuan Cloud Storage)Datastream memverifikasi bahwa datastream memiliki izin yang diperlukan untuk menulis ke bucket tujuan di Cloud Storage.
      Pemeriksaan peringatanDeskripsi
      Konfigurasi hari berakhir masa berlaku log atau detik berakhir masa berlaku log atau jam retensi binlogDatastream memverifikasi bahwa expire_logs_days, binlog_expire_logs_seconds, binlog retention hours dikonfigurasi ke nilai yang lebih besar dari 7, 604800, dan 168.
      Konfigurasi paket maksimum yang diizinkanDatastream memverifikasi bahwa max_allowed_packet ditetapkan ke 1 GB.
      Terapkan konsistensi GTID atau mode ketat GTID (applies only to GTID-based CDC)Datastream memverifikasi bahwa konsistensi GTID atau mode ketat GTID diaktifkan.
    3. Jika database sumber Anda adalah PostgreSQL, Datastream akan melakukan pemeriksaan berikut:

      CekDeskripsi
      Konektivitas ke database PostgreSQLDatastream memverifikasi bahwa Datastream dapat terhubung ke database PostgreSQL sumber.
      Decoding logis diaktifkanDatastream memverifikasi bahwa parameter wal_level database PostgreSQL disetel ke logical.
      Konfigurasi slot replikasiDatastream memverifikasi apakah slot replikasi PostgreSQL ada dan aktif, apakah Datastream memiliki izin yang diperlukan untuk mengaksesnya, dan apakah dikonfigurasi dengan benar.
      Konfigurasi publikasiDatastream memverifikasi bahwa publikasi ada dan tabel yang akan direplikasi untuk aliran data disertakan dalam publikasi.
      Izin pengisian ulangDatastream memverifikasi bahwa tabel yang diperlukan untuk mengisi ulang data historis ada dan memiliki izin yang diperlukan untuk membacanya.
    4. Jika database sumber Anda adalah SQL Server, Datastream akan melakukan pemeriksaan berikut:

      CekDeskripsi
      Edisi SQL ServerDatastream memverifikasi bahwa edisi database SQL Server sumber didukung. Untuk mengetahui informasi tentang edisi yang didukung, lihat Versi.
      Izin pengguna SQL ServerDatastream memverifikasi bahwa pengguna memiliki izin yang diperlukan untuk mengakses database SQL Server sumber.
      SQL Server CDC diaktifkanDatastream memverifikasi apakah CDC diaktifkan untuk database dan semua tabel yang disertakan dalam aliran data.
      Validasi database SQL ServerDatastream memeriksa apakah database sumber dikonfigurasi dengan benar, apakah semua persyaratan replikasi terpenuhi, dan apakah tidak ada jenis data yang tidak didukung di kolom.
      Izin Cloud Storage atau BigQueryDatastream memverifikasi bahwa pengguna memiliki izin yang diperlukan untuk menulis ke tujuan.
  3. Setelah semua pemeriksaan validasi lulus, klik CREATE & START untuk membuat streaming dan langsung memulainya, atau CREATE untuk membuat streaming tanpa langsung memulainya.

    Jika tidak memulai streaming sekarang, Anda dapat memulainya dari halaman Streaming dengan mengklik MULAI.

Setelah membuat aliran data, Anda dapat melihat informasi tingkat tinggi dan mendetail tentang aliran data tersebut.

Langkah selanjutnya