Di halaman ini, Anda akan menemukan jawaban atas pertanyaan umum (FAQ) tentang penggunaan Datastream. FAQ ini terkait dengan:
- Pertanyaan umum tentang Datastream dan pengambilan data perubahan (CDC)
- Perilaku dan batasan sumber umum
- Perilaku dan batasan sumber MySQL
- Perilaku dan batasan sumber Oracle
- Perilaku dan batasan sumber PostgreSQL (termasuk AlloyDB untuk PostgreSQL)
- Perilaku dan batasan sumber SQL Server
- Perilaku tujuan BigQuery
- Perilaku tujuan Cloud Storage
- Kasus penggunaan umum untuk menggunakan Datastream
- Cara Datastream berintegrasi dengan Google Cloud layanan data
- Keamanan dan konektivitas
- Memantau Datastream
- Harga
- Informasi tambahan tentang Datastream
Pertanyaan umum tentang Datastream dan pengambilan data perubahan (CDC)
Pertanyaan | Jawaban |
---|---|
Apa yang dimaksud dengan Datastream? | Datastream adalah layanan replikasi dan pengambilan data perubahan (CDC) yang serverless dan mudah digunakan. Datastream memungkinkan replikasi data yang lancar dari sumber database relasional seperti AlloyDB for PostgreSQL, PostgreSQL, MySQL, SQL Server, dan Oracle, langsung ke BigQuery. Datastream menawarkan skala, kecepatan, keamanan, dan kemudahan yang dibutuhkan bisnis modern. Dengan arsitektur penskalaan otomatis serverless, Datastream dapat Anda gunakan untuk menyiapkan pipeline ELT (Ekstraksi, Pemuatan, dan Transformasi) dengan mudah untuk replikasi data latensi rendah yang memungkinkan insight mendekati real-time. Datastream juga memiliki kemampuan untuk menyinkronkan aliran data di seluruh database dan aplikasi heterogen dengan andal dan dengan latensi minimal. Layanan ini menawarkan integrasi yang disederhanakan dengan template Dataflow untuk mereplikasi database ke Cloud SQL atau Spanner untuk sinkronisasi database, atau memanfaatkan aliran peristiwa langsung dari Cloud Storage untuk mewujudkan arsitektur berbasis peristiwa. |
Apa saja metode yang digunakan Datastream untuk melakukan streaming data? | Datastream mengalirkan data dari sumber ke tujuan dengan salah satu dari dua metode:
|
Apa yang dimaksud dengan CDC? |
CDC adalah pendekatan untuk integrasi data yang memungkinkan Anda mengintegrasikan dan menganalisis data dengan lebih cepat, menggunakan lebih sedikit resource sistem. Ini adalah metode untuk mengambil hanya perubahan terbaru (pembaruan, penyisipan, atau penghapusan) dari sumber data, sering kali dengan membaca log perubahan yang disimpan sumber untuk integritas transaksional internalnya sendiri. CDC adalah mekanisme yang sangat efisien untuk membatasi dampak pada sumber saat memuat data baru ke dalam data store operasional dan data warehouse, serta menghilangkan kebutuhan untuk pembaruan pemuatan massal dan periode batch yang tidak praktis dengan memungkinkan pemuatan inkremental atau streaming perubahan data yang mendekati real-time ke tujuan data. CDC dapat digunakan dalam banyak kasus penggunaan yang memperoleh nilai dari akses konstan ke perubahan data saat terjadi, seperti analisis, menyinkronkan data di seluruh sistem yang terdistribusi secara geografis, dan arsitektur berbasis peristiwa. |
Apa yang dimaksud dengan pengisian ulang? | Selain perubahan yang sedang berlangsung, Datastream juga menggunakan pengisian ulang untuk mengambil semua data yang ada dari sumber, lalu melakukan streaming data ke tujuan. Akibatnya, tujuan "diisi ulang" dengan semua data historis dari sumber. Ada dua jenis pengisian ulang:
|
Apakah ada batasan yang perlu Anda pertimbangkan saat melakukan pengisian ulang? |
Untuk informasi tentang batasan pengisian ulang, lihat halaman batasan umum untuk masing-masing jenis sumber:
|
Apa urutan yang direkomendasikan untuk operasi CDC dan pengisian ulang? | Pada umumnya, tidak ada pertimbangan khusus di sini. Jika pengisian ulang diaktifkan di aliran, Datastream akan melakukan pengisian ulang dan CDC secara bersamaan. Dalam beberapa kasus ekstrem, misalnya saat mereplikasi tabel yang sangat besar yang tidak dapat diisi ulang menggunakan Datastream, Anda mungkin perlu memuat data ke BigQuery terlebih dahulu sebelum memulai streaming. |
Dapatkah saya memantau status operasi CDC dan pengisian ulang? | Anda dapat memantau status pengisian ulang per objek:
Status CDC secara efektif adalah status aliran data. Jika operasi CDC gagal, seluruh streaming akan gagal. Metrik tingkat objek tambahan tersedia di Cloud Monitoring. Untuk mengetahui informasi selengkapnya, lihat dokumentasi Cloud Monitoring. |
Apa perbedaan antara aliran perubahan dan replikasi? | Aliran perubahan adalah urutan peristiwa yang dikeluarkan Datastream ke tujuan untuk tujuan penggunaan downstream. Hasil aliran perubahan yang ditulis ke Cloud Storage adalah kumpulan file yang berisi peristiwa log perubahan dari tabel tertentu selama jangka waktu tertentu. Peristiwa ini mewakili penyisipan, pembaruan, dan penghapusan ke tabel tersebut, dan peristiwa tersebut dapat digunakan dan diproses di downstream Cloud Storage oleh layanan seperti Dataflow untuk kasus penggunaan seperti arsitektur berbasis peristiwa. Replikasi dalam konteks Datastream berarti representasi 1:1 yang terbaru dari tabel sumber di tujuan. Misalnya, tabel di Oracle yang perubahannya direplikasi secara terus-menerus ke tabel BigQuery, dengan tabel BigQuery selalu diperbarui menggunakan perubahan yang di-streaming dari tabel Oracle. Replikasi memanfaatkan aliran perubahan dengan menggunakan setiap peristiwa perubahan dan menggunakannya untuk memperbarui tujuan. Datastream memungkinkan replikasi langsung ke BigQuery, dan mendukung tujuan tambahan seperti Cloud SQL dan Spanner melalui integrasi dengan Dataflow, dengan memanfaatkan template yang menarik peristiwa aliran data perubahan dari Cloud Storage dan memperbarui tabel tujuan yang sesuai. |
Apakah Datastream memerlukan agen di sumber? | Anda tidak perlu menginstal agen di sumber. Datastream menggunakan antarmuka yang ada (seperti Oracle LogMiner) untuk mengambil data dari sumber. |
Berapa banyak tabel yang dapat saya sertakan dalam satu aliran data? | Datastream dapat menangani hingga 10.000 tabel dalam satu aliran data. Tidak ada alasan teknis untuk membagi database menjadi beberapa aliran, meskipun mungkin ada beberapa pertimbangan bisnis untuk menggunakan aliran yang berbeda untuk alur logika yang berbeda, misalnya saat mereplikasi transaksi besar dari sumber PostgreSQL. Namun, setiap aliran akan menambah beban pada database sumber. Beban tersebut dapat diabaikan untuk CDC, tetapi dapat signifikan untuk pengisian ulang. |
Bagaimana dengan dampak performa penggunaan Datastream pada database produksi? |
CDC adalah mekanisme yang sangat efisien untuk membatasi dampak pada sumber saat data baru dimuat ke penyimpanan data dan data warehouse tujuan. CDC juga menghilangkan kebutuhan untuk pembaruan pemuatan massal dan periode batch yang tidak praktis dengan memungkinkan pemuatan inkremental atau streaming perubahan data yang mendekati real-time ke tujuan. Selain itu, Datastream meminimalkan dampak pengisian ulang awal dengan membatasi jumlah tugas pengisian ulang serentak, dan menawarkan kontrol kepada Anda untuk memutuskan objek mana yang akan diisi ulang, dan kapan harus mengisi ulangnya. |
Dapatkah Anda menyalin file log dari sumber ke Google Cloud? | Tidak. Datastream membuat kueri log langsung di server database, dan hanya perubahan pada tabel yang ditentukan yang ditulis ke tujuan. |
Dapatkah Datastream juga mentransfer data historis? | Ya. Secara default, Datastream mendapatkan semua data historis dari tabel database sumber yang Anda tentukan, secara paralel dengan aliran CDC. Datastream memberi Anda fleksibilitas untuk mendapatkan data historis dari beberapa atau semua tabel database di sumber Anda. Selain itu, saat mengonfigurasi streaming, Anda dapat memilih untuk menonaktifkan pengisian ulang historis. |
Apakah Datastream menjamin pengiriman tepat satu kali? | Tidak. Datastream adalah pengiriman minimal satu kali. Metadata tambahan yang ditulis Datastream ke setiap peristiwa dapat digunakan untuk menghapus data duplikat. |
Dapatkah Datastream menangani database terenkripsi? | Ya. |
Dapatkah Datastream melakukan streaming tabel dan kolom tertentu dari sumber? | Ya. Dengan Datastream, Anda dapat menentukan daftar yang disertakan dan dikecualikan untuk tabel dan skema, untuk hanya melakukan streaming data yang Anda inginkan dari sumber ke tujuan. Untuk tabel yang disertakan, Anda dapat mengecualikan kolom tertentu dari tabel untuk lebih menyesuaikan data yang ingin di-streaming ke tujuan. Namun, tampilan terwujud tidak dapat direplikasi. |
Bagaimana cara memindahkan streaming ke project atau wilayah lain? |
|
Bagaimana cara Datastream menangani transaksi yang belum di-commit dalam file log database? | Jika file log database berisi transaksi yang belum di-commit, jika ada transaksi yang di-roll back, database akan mencerminkannya dalam file log sebagai operasi bahasa manipulasi data (DML) "mundur". Misalnya, operasi INSERT yang di-roll back akan memiliki operasi DELETE yang sesuai. Datastream membaca operasi ini dari file log. |
Apa ketersediaan regional Datastream? | Untuk melihat listingan region tempat Datastream tersedia, lihat Daftar yang diberi akses dan region IP. |
Perilaku dan batasan sumber umum
Pertanyaan | Jawaban |
---|---|
Sumber mana yang didukung Datastream? | Datastream mendukung data streaming dari sumber Oracle, MySQL, PostgreSQL, AlloyDB untuk PostgreSQL, dan SQL Server, baik yang dihosting di cloud maupun yang dikelola sendiri. Untuk informasi tentang versi khusus sumber, lihat halaman berikut:
|
Dapatkah Datastream menangani database terenkripsi? | Ya. |
Bagaimana cara Datastream mengekstrak data dari sumber? | Untuk MySQL, Datastream memproses log biner MySQL untuk mengekstrak peristiwa perubahan. Untuk Oracle, Datastream menggunakan LogMiner dan setelan logging tambahan untuk mengekstrak data dari log redo Oracle. Untuk PostgreSQL dan AlloyDB untuk PostgreSQL, Datastream mengandalkan fitur decoding logis PostgreSQL. Decoding logis mengekspos semua perubahan yang dilakukan ke database dan memungkinkan penggunaan serta pemrosesan perubahan ini. Untuk SQL Server, Datastream melacak perubahan bahasa manipulasi data (DML) menggunakan log transaksi. |
Dapatkah Anda menyalin file log langsung dari sumber ke Google Cloud? | Datastream tidak menyalin seluruh file log, tetapi mengkueri file log langsung dari server database, dan hanya mereplikasi perubahan dari tabel yang ditentukan ke tujuan. |
Apa batasan data yang dapat diproses Datastream? |
Ada batasan umum, dan batasan yang berlaku untuk sumber database tertentu. Batasan umum meliputi:
Untuk batasan khusus sumber, lihat halaman berikut:
|
Data apa yang disertakan dalam setiap peristiwa yang dihasilkan oleh Datastream? | Setiap peristiwa yang dihasilkan (untuk penyisipan, pembaruan, dan penghapusan) menyertakan seluruh baris data dari sumber, dengan jenis data dan nilai setiap kolom. Setiap peristiwa juga menyertakan metadata peristiwa yang dapat digunakan untuk menetapkan pengurutan dan memastikan pengiriman tepat sekali. |
Apakah Datastream menjamin pengurutan? | Meskipun tidak menjamin pengurutan, Datastream menyediakan metadata tambahan untuk setiap peristiwa. Metadata ini dapat digunakan untuk memastikan konsistensi akhir di tujuan. Bergantung pada sumber, kecepatan dan frekuensi perubahan, serta parameter lainnya, konsistensi akhir umumnya dapat dicapai dalam jangka waktu 1 jam. |
Apakah Datastream menjamin pengiriman tepat satu kali? | Datastream adalah pengiriman minimal satu kali. Anda dapat menghilangkan data duplikat dengan menggunakan metadata tambahan yang ditulis Datastream ke setiap peristiwa. |
Bagaimana Datastream merepresentasikan jenis data dari sumber untuk digunakan dalam pemrosesan downstream? | Saat menulis ke tujuan tanpa skema, seperti Cloud Storage, Datastream menyederhanakan pemrosesan downstream data di seluruh sumber dengan menormalisasi jenis data di semua sumber. Datastream mengambil jenis data sumber asli (misalnya, jenis Jenis terpadu mewakili superset lossless dari semua kemungkinan jenis sumber, dan normalisasi berarti data dari berbagai sumber dapat diproses dengan mudah dan dikueri di downstream dengan cara yang tidak bergantung pada sumber. |
Bagaimana Datastream menangani perubahan struktur (skema) di sumber? | Datastream mengambil skema dari sumber secara berkala. Skema disimpan di registry skema internal Datastream, dan setiap peristiwa mereferensikan skema pada saat peristiwa tersebut dibuat. Hal ini memungkinkan Datastream melacak perubahan skema dan menyesuaikan berdasarkan perubahan ini, sehingga memastikan bahwa semua data di-streaming dan dimuat ke tujuan dengan benar. Namun, di antara pengambilan skema, beberapa perubahan skema mungkin tidak terdeteksi, yang berpotensi menyebabkan perbedaan data. |
Saya telah menghapus (menghapus) kolom di database sumber, tetapi kolom tersebut masih muncul di tujuan. Mengapa? | Datastream tidak menghapus kolom di tujuan. Anda harus menghapus kolom secara manual. Perilaku ini disengaja, karena dalam beberapa kasus, Anda mungkin lebih memilih untuk mempertahankan kolom yang dihapus di tujuan. Misalnya, Datastream menafsirkan penggantian nama kolom di sumber sebagai penghapusan kolom dan penambahan kolom lain. Dalam hal ini, Anda tidak ingin kehilangan kolom asli di tujuan. |
Streaming gagal dimulai karena kegagalan validasi, tetapi saya rasa itu adalah error atau saya ingin mencoba menjalankan streaming. Bagaimana cara melewati validasi ini? | Anda dapat memulai streaming menggunakan API dengan menambahkan flag force=true dan melewati pemeriksaan validasi. Perhatikan bahwa melewati validasi tidak menjamin bahwa streaming akan dapat berjalan, dan mungkin masih gagal jika database tidak memiliki konfigurasi atau izin yang diperlukan.
|
Dapatkah saya memulai ulang streaming yang gagal? | Anda dapat memperbaiki streaming dengan status Anda juga dapat memulihkan streaming dengan status |
Apakah Datastream mengunci tabel database? | Tidak. Datastream tidak perlu mengunci tabel. |
Halaman batasan untuk setiap sumber menentukan bahwa aliran data dapat memiliki hingga 10.000 tabel. Apakah ini berarti Datastream tidak dapat menjalankan operasi CDC secara paralel untuk lebih dari 10.000 tabel secara bersamaan? | Tidak. Batas yang disebutkan adalah per streaming. Anda dapat memiliki beberapa aliran data dengan jumlah total tabel yang melebihi 10.000 tabel. |
Perilaku dan batasan sumber MySQL
Pertanyaan | Jawaban |
---|---|
Bagaimana cara Datastream mendapatkan data dari MySQL? | Datastream menggunakan log biner MySQL untuk mengekstrak peristiwa perubahan dari MySQL |
Apakah Datastream mendukung instance replika baca Cloud SQL untuk MySQL? | Ya, Datastream mendukung instance replika baca untuk Cloud SQL untuk MySQL versi 5.7 dan 8.0. Anda dapat mengaktifkan logging biner di instance ini. Untuk melakukannya, jalankan perintah gcloud berikut: gcloud sql instances patch INSTANCE_NAME -- enable-bin-log Untuk informasi selengkapnya, lihat Logging biner pada replika baca. |
Izin minimum apa yang diperlukan Datastream untuk mereplikasi data dari database MySQL sumber? | Anda harus memberikan izin berikut kepada pengguna Datastream untuk mereplikasi data dari database MySQL:
|
Apakah Datastream mendukung kompresi log biner? | Tidak, Datastream tidak mendukung kompresi peristiwa transaksi dengan kompresi transaksi log biner. Nonaktifkan kompresi transaksi log biner untuk menggunakan fungsi pengambilan data perubahan untuk MySQL di Datastream. |
Organisasi Anda tidak mengizinkan pemberian izin SELECT di semua tabel dan databasenya. Apakah Anda masih dapat menggunakan Datastream? |
Anda dapat memberikan izin GRANT SELECT ON DATABASE_NAME.TABLE_NAME TO USER_NAME@'%'; GRANT SELECT ON DATABASE_NAME.* TO USER_NAME@'%'; Ganti kode berikut:
Jika Anda ingin membatasi izin ke nama host tertentu, ganti karakter |
Perilaku dan batasan sumber Oracle
Pertanyaan | Jawaban |
---|---|
Bagaimana cara Datastream mengambil data dari Oracle? | Datastream menggunakan Oracle LogMiner untuk mengekstrak data dari log redo Oracle. |
Apakah Datastream memerlukan lisensi GoldenGate dari Oracle? | Tidak. Datastream tidak memerlukan lisensi GoldenGate karena menggunakan Oracle LogMiner untuk membaca data dari log ulangi database. |
Apa yang terjadi jika Oracle LogMiner tidak didukung lagi? | Oracle LogMiner masih didukung di semua rilis Oracle yang tersedia secara umum, dan Datastream akan terus mendukung LogMiner di semua rilis mendatang. Oracle telah menghentikan dukungan untuk opsi CONTINUOUS_MINE LogMiner, tetapi opsi ini tidak digunakan oleh Datastream, sehingga penghentian ini tidak memengaruhi Datastream. |
Apakah Datastream mendukung enkripsi data dalam pengiriman dari database Oracle? | Datastream mendukung enkripsi data dalam pengiriman berdasarkan Oracle Net Services. Datastream berjalan dalam mode |
Apakah Datastream mendukung enkripsi Secure Sockets Layer (SSL) dan Transport Layer Security (TLS)? | Ya, Datastream mendukung protokol TCPS untuk koneksi terenkripsi SSL/TLS ke sumber Oracle. |
Apakah Datastream mendukung arsitektur multi-tenant Oracle, khususnya Database Container (CDB) dan Database Pluggable (PDB)? | Ya, Datastream mendukung arsitektur multi-tenant Oracle (CDB/PDB), tetapi Anda hanya dapat mereplikasi satu database yang dapat di-plug dalam streaming. |
Organisasi Anda tidak mengizinkan pemberian izin GRANT SELECT ANY TABLE . Apakah Anda masih dapat menggunakan Datastream? |
Jika tidak dapat memberikan izin
Untuk melakukan streaming perubahan menggunakan Datastream, Anda juga memerlukan akses baca ke semua tabel yang disertakan dalam streaming. Untuk memulai streaming, abaikan validasi menggunakan API. Untuk mengetahui informasi selengkapnya, lihat Memulai streaming. |
Apakah Datastream mendukung replikasi dari instance replika baca Oracle? | Datastream mendukung replikasi dari instance replika baca Oracle selama instance dikonfigurasi sesuai dengan panduan konfigurasi. |
Apakah Datastream mendukung database Oracle SCAN RAC? | Ya, benar. Namun, Anda tidak dapat membuat konektivitas langsung ke database menggunakan fitur Single Client Access Name (SCAN) di lingkungan Oracle Real Application Clusters (RAC) menggunakan Datastream. Untuk mengatasi batasan ini, hubungkan langsung ke salah satu node, atau gunakan Oracle Connection Manager. Anda juga dapat membuat konfigurasi konektivitas pribadi menggunakan solusi reverse proxy seperti HAProxy. |
Perilaku dan batasan sumber PostgreSQL
Pertanyaan | Jawaban |
---|---|
Bagaimana cara Datastream mengambil data dari PostgreSQL? | Datastream menggunakan fitur decoding logis PostgreSQL untuk mengekstrak peristiwa perubahan dari PostgreSQL |
Apakah Datastream mendukung replikasi dari sumber AlloyDB untuk PostgreSQL atau AlloyDB Omni? | Ya. Datastream mendukung kedua sumber ini. Untuk informasi tentang cara mengonfigurasi database AlloyDB untuk PostgreSQL sumber, lihat Mengonfigurasi database AlloyDB untuk PostgreSQL. Untuk informasi tentang cara mengonfigurasi database AlloyDB Omni sumber, lihat Mengonfigurasi database PostgreSQL yang dikelola sendiri. |
Apakah Datastream mendukung replikasi dari instance replika baca PostgreSQL? | Tidak, Datastream tidak mendukung replikasi dari instance replika baca untuk PostgreSQL. |
Apakah Datastream mendukung Keamanan Tingkat Baris (RLS)? | Datastream tidak mendukung replikasi tabel dengan RLS diaktifkan. Namun, Anda dapat mengabaikan batasan ini dengan menggunakan klausa BYPASSRLS :
ALTER USER USER_NAME BYPASSRLS; Ganti USER_NAME dengan nama pengguna yang digunakan Datastream untuk terhubung ke database, dan pengguna yang kebijakan RLS-nya ingin Anda abaikan. |
Apakah Datastream mendukung operasi CDC serentak saat mereplikasi dari sumber PostgreSQL? | Tidak. Replikasi PostgreSQL mengandalkan konsep slot replikasi, dan slot replikasi tidak mendukung koneksi serentak. Hanya boleh ada satu tugas CDC yang membaca dari slot replika dalam satu waktu. Misalnya, jika Anda menghapus sejumlah besar data dari database sumber, slot replika mungkin kelebihan beban dengan peristiwa penghapusan. Setiap perubahan berikutnya pada sumber akan tertunda hingga peristiwa penghapusan yang sudah ada dalam antrean slot replikasi diproses. Untuk mengetahui informasi tentang pendekatan yang disarankan saat mereplikasi data transaksi yang besar, lihat Mendiagnosis masalah. |
Apakah Datastream mendukung enkripsi Secure Sockets Layer (SSL) dan Transport Layer Security (TLS)? | Datastream mendukung koneksi terenkripsi SSL/TLS yang tidak memerlukan sertifikat klien. |
Perilaku dan batasan sumber SQL Server
Pertanyaan | Jawaban |
---|---|
Edisi SQL Server mana yang didukung Datastream? | Datastream mendukung versi database SQL Server yang mendukung pengambilan data perubahan. Untuk mengetahui daftar lengkap versi dan edisi SQL Server yang didukung, lihat Versi. |
Bagaimana cara kerja replikasi CDC Datastream untuk sumber SQL Server? | Proses penyerapan data Datastream menggunakan log transaksi atau tabel perubahan, bergantung pada konfigurasi sumber. Untuk mengetahui informasi selengkapnya, lihat Database SQL Server sumber. |
Izin minimum apa yang diperlukan Datastream untuk mereplikasi data dari database SQL Server sumber? | Anda harus memberikan peran dan izin berikut kepada pengguna Datastream untuk mereplikasi data dari database SQL Server: Untuk metode CDC tabel perubahan:
Selain itu, untuk metode CDC log transaksi:
Untuk informasi mendetail tentang cara mengonfigurasi sumber, lihat halaman konfigurasi masing-masing untuk jenis database Anda. |
Mengapa Anda memerlukan konfigurasi seperti mengubah interval polling dan menyiapkan pengamanan pemotongan saat menggunakan log transaksi? | Saat Anda mereplikasi data dari sumber SQL Server menggunakan log transaksi, jika log terpotong sebelum Datastream membacanya, akan terjadi kehilangan data. Mengubah interval polling dan menyiapkan pengamanan pemotongan bersifat opsional, tetapi memberikan lapisan perlindungan tambahan untuk memastikan Datastream dapat membaca data bahkan dalam skenario saat terjadi periode nonaktif atau masalah konektivitas. Untuk informasi selengkapnya, lihat Mengonfigurasi database SQL Server sumber. |
Metode CDC apa yang harus dipilih saat mereplikasi dari sumber SQL Server? | Anda dapat memilih salah satu dari dua metode CDC yang tersedia, berdasarkan konfigurasi database SQL Server sumber:
Untuk informasi selengkapnya, lihat Ringkasan SQL Server sebagai sumber. |
Perilaku tujuan BigQuery
Pertanyaan | Jawaban |
---|---|
Bagaimana cara kerja Datastream dan BigQuery untuk mereplikasi perubahan dari database sumber? | Datastream terus membaca aliran perubahan dari database sumber, dan melakukan streaming peristiwa penyisipan dan penghapusan ke tabel tujuan BigQuery menggunakan Storage Write API. BigQuery kemudian menerapkan perubahan pada tabel berdasarkan konfigurasi keusangan tabel. |
Bagaimana operasi Bahasa Manipulasi Data (DML) diterapkan di BigQuery? |
|
Bagaimana Datastream dan BigQuery menangani pengurutan peristiwa? | BigQuery menggunakan metadata peristiwa dan nomor urutan perubahan internal (CSN) untuk menerapkan peristiwa ke tabel dalam urutan yang benar. Untuk informasi selengkapnya tentang metadata peristiwa, lihat Peristiwa dan aliran data. |
Bagaimana biaya BigQuery dihitung saat digunakan dengan Datastream? | Biaya BigQuery dihitung dan ditagih secara terpisah dari Datastream. Untuk mempelajari cara mengontrol biaya BigQuery, lihat Harga BigQuery CDC. |
Berapa ukuran baris maksimum yang didukung Datastream saat melakukan streaming data ke BigQuery? | Ukuran baris maksimum yang didukung Datastream adalah 20 MB. |
Saat Anda melakukan streaming ke BigQuery, tabel akan diawali dengan . Dapatkah Anda mengubah perilaku ini sehingga tabel di BigQuery mengikuti struktur yang sama seperti yang ada di database sumber? |
Saat mengonfigurasi set data untuk tujuan BigQuery, Anda membuat set data untuk setiap skema atau satu set data untuk semua skema. Saat Anda membuat set data untuk setiap skema, setiap skema di sumber akan dipetakan ke set data di BigQuery, dan semua tabel dalam skema sumber akan dipetakan ke tabel dalam set data. Saat Anda memilih opsi satu set data untuk semua skema, nama tabel akan diawali dengan , sesuai dengan konvensi penamaan tabel di BigQuery. |
Dapatkah CDC menangkap perubahan skema sumber, misalnya, saat kolom disisipkan atau dihapus di sumber? Apakah perubahan tersebut otomatis tercermin dalam tabel yang sudah terisi di set data BigQuery tujuan? | Datastream mendeteksi kolom baru secara otomatis dan menambahkannya ke skema tujuan untuk baris baru, tetapi tidak untuk kolom yang telah direplikasi ke tujuan. Kolom yang dihapus akan diabaikan, dan Datastream akan mengisinya dengan nilai NULL di tujuan. Kemudian, Anda dapat menghapus kolom ini secara manual di BigQuery. |
Perilaku tujuan Cloud Storage
Pertanyaan | Jawaban |
---|---|
Bagaimana cara membuat file di Cloud Storage? | Datastream membuat folder untuk setiap tabel. Di setiap folder, Datastream merotasi file (atau membuat file baru) setiap kali file mencapai nilai minimum ukuran atau waktu yang ditentukan pengguna. Datastream juga merotasi file setiap kali perubahan skema terdeteksi. Nama file akan terdiri dari kunci skema unik (berdasarkan hash skema), diikuti dengan stempel waktu peristiwa pertama dalam file. Untuk tujuan keamanan, nama file ini tidak dimaksudkan untuk dibaca atau dipahami oleh orang. |
Jika data di Cloud Storage tidak diurutkan, bagaimana peristiwa dapat diurutkan ulang sebelum dimuat ke tujuan? | Setiap peristiwa berisi beberapa kolom metadata yang secara unik mengidentifikasi baris dalam file log, dan memungkinkan Anda mengurutkan peristiwa. Kolom ini mencakup: Untuk sumber Oracle:
Untuk sumber MySQL:
Untuk sumber PostgreSQL:
Untuk mengetahui informasi selengkapnya tentang kolom metadata, lihat Metadata khusus sumber. |
Jika beberapa file dibuat untuk stempel waktu yang sama, dalam urutan apa file tersebut harus diproses? | Karena pengurutan dalam dan di seluruh file tidak dijamin, cara terbaik untuk menentukan urutan pemrosesan file untuk sumber adalah dengan mendapatkan semua peristiwa dari semua file untuk stempel waktu tertentu, lalu menerapkan pengurutan menggunakan metode yang disebutkan sebelumnya di bagian ini. |
Bagaimana pembaruan kunci utama ditangani? Apakah ada informasi sebelum dan setelah acara? | Saat kunci utama baris berubah, Datastream akan menghasilkan dua peristiwa untuk perubahan tersebut: UPDATE-DELETE dan UPDATE-INSERT . Peristiwa UPDATE-DELETE mewakili data sebelum pembaruan dan UPDATE-INSERT mewakili data setelah pembaruan. Untuk informasi selengkapnya tentang metadata khusus sumber, lihat Peristiwa dan aliran data. |
Berapa ukuran baris maksimum yang didukung Datastream saat melakukan streaming data ke Cloud Storage? | Ukuran baris maksimum yang didukung Datastream adalah 100 MB. |
Kasus penggunaan
Pertanyaan | Jawaban |
---|---|
Apa saja kasus penggunaan umum untuk menggunakan Datastream? | Datastream adalah layanan CDC dan replikasi, yang berarti fleksibel di berbagai kasus penggunaan yang dapat memanfaatkan akses ke data perubahan yang terus di-streaming. Kasus penggunaan yang paling umum untuk Datastream adalah:
|
Integrasi
Pertanyaan | Jawaban |
---|---|
Bagaimana cara Datastream berintegrasi dengan Google Cloud layanan data? | Datastream melengkapi dan meningkatkan Google Cloud suite data dengan menyediakan replikasi data CDC dari sumber ke berbagai Google Cloud layanan. Dengan berintegrasi dengan lancar ke layanan ini, Datastream cocok dengan ekosistem Google Cloud yang lebih besar. Datastream terintegrasi dengan layanan data berikut:
|
Apakah template Datastream-to-BigQuery di Dataflow memiliki batasan untuk jumlah operasi bahasa manipulasi data (DML)? | Tidak. Template ini menggunakan streaming inserts API untuk memuat data ke BigQuery. Oleh karena itu, tidak ada batasan jumlah operasi DML. Namun, beberapa batasan kuota berlaku. |
Keamanan dan konektivitas
Pertanyaan | Jawaban |
---|---|
Apakah Datastream adalah layanan yang aman untuk data sensitif? | Datastream mendukung beberapa konfigurasi konektivitas pribadi yang aman untuk melindungi data dalam pengiriman saat di-streaming dari sumber ke tujuan. Setelah direplikasi, data akan dienkripsi secara default dan memanfaatkan kontrol keamanan BigQuery atau Cloud Storage. Semua data yang di-buffer oleh Datastream dienkripsi saat dalam penyimpanan. |
Opsi konektivitas mana yang tersedia untuk menghubungkan sumber Anda ke Datastream? | Ada tiga jenis metode konektivitas yang dapat Anda konfigurasikan:
|
Bagaimana cara membatasi pemrosesan data sensitif oleh Datastream? |
Datastream memungkinkan Anda menentukan elemen data spesifik (skema, tabel, dan kolom) dari sumber yang ingin di-streaming ke tujuan, dan elemen yang ingin dikecualikan dari streaming. Log database mungkin berisi data perubahan dari elemen yang dikecualikan dalam definisi aliran data Anda. Karena Anda tidak dapat memfilter elemen ini di sumber, Datastream akan membaca, tetapi mengabaikan, data apa pun yang terkait dengan elemen tersebut. |
Bagaimana cara Datastream menjaga keamanan kredensial database? | Semua metadata pengguna (termasuk nama pengguna dan sandi yang digunakan untuk mengakses sumber data) dienkripsi saat dalam pengiriman dan saat disimpan, dan Google menyimpannya di sistem penyimpanan eksklusifnya. Akses ke metadata ini dilacak dan diaudit. |
Mengapa halaman Create a private connectivity configuration menyatakan bahwa Anda harus memberikan peran roles/compute.networkAdmin ke akun layanan Datastream untuk membuat konfigurasi konektivitas pribadi di VPC bersama? |
Peran networkAdmin hanya diperlukan untuk membuat peering VPC. Setelah peering dibuat, Anda tidak lagi memerlukan peran tersebut. Jika organisasi Anda tidak mengizinkan pemberian peran networkAdmin ke akun layanan Datastream, buat peran khusus dengan izin spesifik berikut:
Memilih rentang IP secara dinamis
Membuat jaringan peering
Mencadangkan alamat IP
|
Dapatkah saya menggunakan Private Service Connect untuk membuat konfigurasi konektivitas pribadi? | Tidak, Datastream tidak mendukung Private Service Connect. |
Memantau Datastream
Pertanyaan | Jawaban |
---|---|
Bagaimana cara mengetahui kapan semua data historis saya telah disalin ke tujuan? | Datastream memberikan informasi tentang statusnya saat ini dalam file log. Entri log dibuat untuk menunjukkan kapan pengisian ulang tabel selesai. |
Latensi terkadang meningkat, lalu menurun secara bertahap dari waktu ke waktu. Apakah hal ini wajar? | Datastream diskalakan secara otomatis saat throughput peristiwa yang dihasilkan oleh sumber meningkat. Namun, untuk melindungi database sumber dan Datastream, ada batasan jumlah koneksi dan proses serentak yang dapat dibuka Datastream kapan saja. Lonjakan latensi sementara diperkirakan terjadi saat ada peningkatan throughput peristiwa yang signifikan, dan diperkirakan akan menurun secara bertahap seiring pemrosesan backlog peristiwa. |
Harga
Pertanyaan | Jawaban |
---|---|
Berapa harga Datastream? | Harga Datastream didasarkan pada volume (GB) data yang diproses dari sumber Anda ke tujuan. Untuk mempelajari informasi harga Datastream lebih lanjut, lihat Harga. |
Bagaimana cara menghitung ukuran data? | Penagihan dihitung berdasarkan ukuran data yang diproses oleh Datastream. Datastream hanya mengenakan biaya untuk data yang di-streaming ke tujuan. |
Jika Anda menggunakan Datastream dengan BigQuery atau Dataflow, apa yang Anda bayar? | Setiap layanan diberi harga dan ditagih secara terpisah. |
Informasi tambahan
Pertanyaan | Jawaban |
---|---|
Bagaimana jika saya memiliki pertanyaan atau masalah tambahan terkait penggunaan Datastream? | Tim dukungan Google dapat memberikan dukungan jika Anda mengalami masalah saat menggunakan Datastream. Selain itu, panduan pemecahan masalah menangani masalah umum yang mungkin Anda hadapi saat menggunakan Datastream. |
Langkah selanjutnya
- Cari tahu Datastream lebih lanjut.
- Pelajari konsep dan fitur utama Datastream.
- Pelajari sumber yang didukung Datastream.
- Pelajari tujuan yang didukung Datastream.