Mengonfigurasi tujuan Cloud Storage

Mengaktifkan API

Mengaktifkan Datastream API sudah cukup jika bucket Cloud Storage tujuan berada dalam project yang sama dengan Datastream.

Jika menulis ke bucket di project lain, Anda harus memberikan akun layanan yang terkait dengan izin Datastream agar dapat mengakses bucket.

  1. Dapatkan alamat email yang digunakan untuk akun layanan. Untuk melakukannya, temukan Nomor project di halaman beranda konsol Google Cloud. Alamat email akun layanan adalah service-[project_number]@gcp-sa-datastream.iam.gserviceaccount.com.
  2. Berikan izin yang diperlukan ke alamat email ini untuk menulis ke bucket tujuan (biasanya izin roles/storage.objectViewer, roles/storage.objectCreator, dan roles/storage.legacyBucketReader).

Menentukan bucket dan awalan tujuan

Berikan nama project, nama bucket, dan awalan file opsional dalam konfigurasi aliran data untuk menentukan tempat data ditulis.

Perilaku tulis

  • Data untuk aliran data tertentu ditulis ke bucket atau awalan file yang disediakan di: [bucket]/[prefix]/[object name]/yyyy/mm/dd/hh/mm/[filename(idempotent)].
  • Nama objek di jalur untuk sumber database adalah nama skema yang diikuti dengan nama tabel (dipisahkan dengan garis bawah '_').
  • Stempel waktu di jalur (hh/mm) adalah stempel waktu sumber dari metadata peristiwa.
    • Untuk peristiwa pengisian ulang, stempel waktu menunjukkan waktu saat tugas pengisian ulang dimulai (biasanya saat streaming dimulai, atau saat pengisian ulang dipicu secara manual).
    • Untuk peristiwa CDC, stempel waktu menunjukkan kapan data diubah di sumber.
  • File dirotasi setiap kali ukuran file maksimum atau waktu tunggu maksimum tercapai, mana saja yang lebih dulu. Anda dapat menyesuaikan ukuran file maksimum dan nilai waktu tunggu maksimum menggunakan Datastream API.
  • Selain itu, file dirotasi setiap kali perubahan skema sumber terdeteksi (Misalnya, kolom baru ditambahkan).
  • Dapat ada beberapa file dalam jalur yang sama untuk menit yang sama.
  • Penggunaan data dapat dilakukan sesuai dengan Cloud Storage API.
  • Ukuran peristiwa maksimum saat Anda melakukan streaming data ke Cloud Storage adalah 100 MB.

Dalam beberapa kasus, biasanya saat streaming pertama kali mulai berjalan, ada tumpang-tindih antara pengisian ulang dan CDC, sehingga menghasilkan peristiwa duplikat. Hal ini terjadi saat Datastream mulai membaca dari file log database saat ini (yang dibuat sebelum streaming dimulai), dan file log ini menyertakan beberapa peristiwa yang juga direkam oleh pengisian ulang. Ini adalah perilaku yang diharapkan, dan peristiwa duplikat dapat dihapus menggunakan metadata peristiwa, jika perlu.

Langkah selanjutnya