Mengonfigurasi tujuan Cloud Storage

Mengaktifkan API

Mengaktifkan Datastream API sudah cukup jika bucket Cloud Storage tujuan berada dalam project yang sama dengan Datastream.

Jika menulis ke bucket dalam project berbeda, Anda harus memberikan akun layanan yang terkait dengan izin Datastream untuk mengakses bucket.

  1. Dapatkan alamat email yang digunakan untuk akun layanan. Untuk melakukannya, cari Nomor project di halaman beranda Konsol Google Cloud. Alamat email akun layanan akan menjadi service-[project_number]@gcp-sa-datastream.iam.gserviceaccount.com.
  2. Beri alamat email ini izin yang diperlukan untuk menulis ke bucket tujuan (biasanya izin roles/storage.objectViewer, roles/storage.objectCreator, dan roles/storage.legacyBucketReader).

Menentukan bucket dan awalan tujuan

Berikan nama project, nama bucket, dan awalan file opsional dalam konfigurasi streaming untuk menentukan tempat penulisan data.

Perilaku tulis

  • Data untuk streaming tertentu ditulis ke bucket atau awalan file yang disediakan di: [bucket]/[prefix]/[object name]/yyyy/mm/dd/hh/mm/[filename(idempotent)].
  • Nama objek di jalur sumber database adalah nama skema yang diikuti dengan nama tabel (dipisahkan dengan garis bawah '_').
  • Stempel waktu di jalur (hh/mm) adalah stempel waktu sumber dari metadata peristiwa.
    • Untuk peristiwa pengisian ulang, stempel waktu menunjukkan waktu saat tugas pengisian ulang dimulai (biasanya saat streaming dimulai, atau saat pengisian ulang dipicu secara manual).
    • Untuk peristiwa CDC, stempel waktu menunjukkan kapan data diubah di sumber.
  • File dirotasi setiap kali ukuran file maksimum atau waktu tunggu maksimum tercapai, mana saja yang lebih dulu. Anda dapat menyesuaikan ukuran file maksimum dan nilai waktu tunggu maksimum menggunakan Datastream API.
  • Selain itu, file dirotasi setiap kali perubahan skema sumber terdeteksi (Misalnya, kolom baru ditambahkan).
  • Mungkin ada beberapa file dalam jalur yang sama untuk menit yang sama.
  • Pemakaian data dapat dilakukan sesuai dengan Cloud Storage API.
  • Ukuran peristiwa maksimum saat Anda melakukan streaming data ke Cloud Storage adalah 30 MB.

Dalam beberapa kasus, paling sering saat streaming pertama kali mulai berjalan, terjadi tumpang-tindih antara pengisian ulang dan CDC, yang mengakibatkan peristiwa duplikat. Hal ini terjadi saat Datastream mulai membaca dari file log database saat ini (yang dibuat sebelum streaming dimulai), dan file log ini menyertakan beberapa peristiwa yang juga diambil oleh pengisian ulang. Ini adalah perilaku yang sudah diperkirakan, dan peristiwa duplikat dapat dihilangkan menggunakan metadata peristiwa, jika perlu.