Mengonfigurasi tujuan Cloud Storage

Halaman ini menjelaskan cara mengonfigurasi Datastream untuk menulis data ke bucket Cloud Storage.

Cloud Storage adalah layanan untuk menyimpan data di Google Cloud. Anda menyimpan data sebagai objek, dalam container yang disebut bucket. Saat Anda melakukan streaming ke Cloud Storage, Datastream akan mengatur data berdasarkan nama objek dan stempel waktu. Kemudian, Anda dapat menggunakan data Anda menggunakan Cloud Storage API. Untuk mengetahui informasi selengkapnya, lihat Tentang bucket Cloud Storage.

Mengaktifkan API

Mengaktifkan Datastream API sudah cukup jika bucket Cloud Storage tujuan berada dalam project yang sama dengan Datastream.

Jika menulis ke bucket di project lain, Anda harus memberikan akun layanan yang terkait dengan izin Datastream agar dapat mengakses bucket.

  1. Dapatkan alamat email yang digunakan untuk akun layanan. Untuk melakukannya, temukan Nomor project di halaman beranda konsol. Google Cloud Alamat email akun layanan adalah service-[project_number]@gcp-sa-datastream..
  2. Beri alamat email ini izin yang diperlukan untuk menulis ke bucket tujuan (biasanya izin roles/storage.objectViewer, roles/storage.objectCreator, dan roles/storage.legacyBucketReader).

Menentukan bucket dan awalan tujuan

Berikan nama project, nama bucket, dan awalan file opsional dalam konfigurasi aliran untuk menentukan tempat penulisan data.

Perilaku penulisan

  • Data untuk aliran tertentu ditulis ke bucket atau awalan file yang diberikan di: [bucket]/[prefix]/[object name]/yyyy/mm/dd/hh/mm/[filename(idempotent)].
  • Nama objek di jalur untuk sumber database adalah nama skema yang diikuti dengan nama tabel (dipisahkan dengan garis bawah '_').
  • Stempel waktu di jalur (hh/mm) adalah stempel waktu sumber dari metadata peristiwa.
    • Untuk peristiwa pengisian ulang, stempel waktu menunjukkan waktu saat tugas pengisian ulang dimulai (biasanya saat streaming dimulai, atau saat pengisian ulang dipicu secara manual).
    • Untuk peristiwa CDC, stempel waktu menunjukkan kapan data diubah di sumber.
  • File dirotasi setiap kali ukuran file maksimum atau waktu tunggu maksimum tercapai, mana saja yang lebih dulu. Anda dapat menyesuaikan ukuran file maksimum dan nilai waktu tunggu maksimum menggunakan Datastream API.
  • Selain itu, file dirotasi setiap kali perubahan skema sumber terdeteksi (Misalnya, kolom baru ditambahkan.).
  • Dapat ada beberapa file dalam jalur yang sama untuk menit yang sama.
  • Penggunaan data dapat dilakukan sesuai dengan Cloud Storage API.
  • Ukuran peristiwa maksimum saat Anda melakukan streaming data ke Cloud Storage adalah 100 MB.

Dalam beberapa kasus, terutama saat aliran pertama kali mulai berjalan, ada tumpang-tindih antara pengisian ulang dan CDC, yang menghasilkan peristiwa duplikat. Hal ini terjadi saat Datastream mulai membaca dari file log database saat ini (yang dibuat sebelum aliran dimulai), dan file log ini mencakup beberapa peristiwa yang juga diambil oleh pengisian ulang. Ini adalah perilaku yang diantisipasi, dan peristiwa duplikat dapat dihilangkan menggunakan metadata peristiwa, jika perlu.

Langkah berikutnya