Harga Dataflow
Halaman ini menjelaskan harga untuk Dataflow. Untuk melihat harga produk lain, baca Dokumentasi harga.
Untuk mempelajari cara menghemat 40% dengan komitmen tiga tahun atau 20% dengan komitmen satu tahun, baca halaman diskon abonemen (CUD) kami.
Ringkasan
Penggunaan Dataflow dikenai biaya untuk resource yang digunakan tugas Anda. Bergantung pada model penetapan harga yang Anda gunakan, resource diukur dan ditagih secara berbeda.
Resource komputasi Dataflow | Resource komputasi Dataflow Prime |
|
Unit Komputasi Data (DCU) (batch dan streaming) |
Resource Dataflow lainnya yang dikenai biaya untuk semua tugas mencakup Persistent Disk, GPU, dan snapshot.
Resource dari layanan lain mungkin digunakan untuk tugas Dataflow. Layanan yang digunakan dengan Dataflow mungkin antara lain BigQuery, Pub/Sub, Cloud Storage, dan Cloud Logging.
Meskipun tarif harga didasarkan pada jam, penggunaan Dataflow akan ditagih per kelipatan per detik, per tugas. Penggunaan dinyatakan dalam jam agar harga per jam diterapkan pada penggunaan per detik. Contohnya, 30 menit adalah 0,5 jam. Pekerja dan tugas dapat menggunakan resource seperti yang dijelaskan di bagian berikut.
Rilis Dataflow mendatang mungkin memiliki biaya layanan yang berbeda atau paket layanan terkait.
Resource komputasi Dataflow
Penagihan Dataflow untuk resource komputasi mencakup komponen berikut:
- CPU dan memori worker
- Data Dataflow Shuffle yang diproses untuk workload batch
- Unit Komputasi Streaming Engine
- Data Streaming Engine yang diproses
Untuk mengetahui informasi selengkapnya tentang region yang tersedia beserta zonanya, lihat halaman Region dan Zona Compute Engine.
CPU dan memori pekerja
Setiap tugas Dataflow menggunakan setidaknya satu pekerja Dataflow. Layanan Dataflow menyediakan dua jenis pekerja: batch dan streaming. Pekerja batch dan streaming memiliki biaya layanan terpisah.
Pekerja Dataflow menggunakan resource berikut, masing-masing dikenai biaya per detik:
- CPU
- Memori
Pekerja batch dan streaming adalah resource khusus yang menggunakan Compute Engine. Namun, tugas Dataflow tidak menghasilkan penagihan Compute Engine untuk resource Compute Engine yang dikelola oleh layanan Dataflow. Sebagai gantinya, biaya layanan Dataflow mencakup penggunaan resource Compute Engine ini.
Anda dapat mengganti jumlah pekerja default untuk suatu tugas. Jika menggunakan penskalaan otomatis, Anda dapat menentukan jumlah maksimum pekerja yang dapat dialokasikan ke tugas. Pekerja dan resource masing-masing ditambahkan dan dihapus secara otomatis berdasarkan aktuasi penskalaan otomatis.
Selain itu, Anda dapat menggunakan opsi pipeline untuk mengganti setelan resource default, seperti jenis mesin, jenis disk, dan ukuran disk, yang dialokasikan ke setiap pekerja dan yang menggunakan GPU.
FlexRS
Dataflow menyediakan opsi harga untuk batch processing dan CPU yang didiskon untuk batch processing. Penjadwalan Resource yang Fleksibel (FlexRS) menggabungkan VM reguler dan preemptible dalam satu kumpulan pekerja Dataflow, sehingga pengguna dapat mengakses resource pemrosesan yang lebih murah. FlexRS juga menunda eksekusi tugas Dataflow batch dalam periode 6 jam guna mengidentifikasi titik waktu terbaik untuk memulai tugas berdasarkan resource yang tersedia.
Meskipun Dataflow menggunakan kombinasi worker untuk menjalankan tugas FlexRS, Anda akan dikenai tarif diskon seragam sebesar sekitar 40% untuk biaya CPU dan memori dibandingkan dengan harga Dataflow reguler, terlepas dari jenis pekerjanya. Anda menginstruksikan Dataflow agar menggunakan FlexRS untuk pipeline batch yang diskalakan otomatis dengan menentukan parameter FlexRS.
Data Dataflow Shuffle diproses
Untuk pipeline batch, Dataflow menyediakan fitur yang sangat skalabel, Dataflow Shuffle, yang mengacak data di luar worker. Untuk mengetahui informasi selengkapnya, lihat Mengacak Dataflow.
Dataflow Shuffle mengenakan biaya berdasarkan volume data yang diproses selama diacak.
Harga Streaming Engine
Untuk pipeline streaming, Dataflow Streaming Engine memindahkan pemrosesan status dan shuffle streaming dari VM worker ke backend layanan Dataflow. Untuk mengetahui informasi selengkapnya, lihat Streaming Engine.
Unit Komputasi Streaming Engine
Dengan penagihan berbasis resource, resource Streaming Engine diukur dalam Unit Komputasi Streaming Engine. Dataflow mengukur resource Streaming Engine yang digunakan setiap tugas, kemudian menagih berdasarkan total resource yang digunakan oleh tugas tersebut. Agar dapat mengaktifkan penagihan berbasis resource untuk tugas Anda, lihat Menggunakan penagihan berbasis resource. Jika Anda menggunakan penagihan berbasis resource, diskon yang sudah ada akan otomatis diterapkan.
Saat menggunakan Dataflow Prime dengan penagihan berbasis resource, Anda akan ditagih berdasarkan total resource yang digunakan setiap tugas, tetapi SKU Data Compute Unit (DCU) digunakan, bukan SKU Unit Compute Streaming Engine.
Data Streaming Engine yang diproses (lama)
Dataflow terus mendukung penagihan yang diproses dengan data lama. Kecuali jika Anda mengaktifkan penagihan berbasis resource, tugas akan ditagih menggunakan penagihan yang diproses data.
Penagihan yang diproses dengan data Streaming Engine mengukur penggunaan berdasarkan volume data streaming yang diproses, yang bergantung pada faktor-faktor berikut:
- Volume data yang diserap ke dalam pipeline streaming Anda
- Kompleksitas pipeline
- Jumlah stage pipeline dengan operasi acak atau dengan stateful DoFns
Contoh hal yang dianggap sebagai byte yang diproses mencakup item berikut:
- Alur input dari sumber data
- Alur data dari satu tahap pipeline fusi ke tahap lain yang menyatu
- Alur data yang dipertahankan dalam status yang ditentukan pengguna atau digunakan untuk windowing
- Pesan output ke sink data, seperti ke Pub/Sub atau BigQuery
Harga resource komputasi Dataflow - batch &FlexRS
Tabel berikut berisi detail harga untuk resource pekerja dan data Shuffle yang diproses untuk tugas batch dan FlexRS.
1 Setelan default pekerja batch: 1 vCPU, memori 3,75 GB, Persistent Disk 250 GB jika tidak menggunakan Dataflow Shuffle, Persistent Disk 25 GB jika menggunakan Dataflow Shuffle
2 Setelan default pekerja FlexRS: 2 vCPU, memori sebesar 7,50 GB, Persistent Disk sebesar 25 GB per pekerja, dengan minimal dua pekerja
Harga resource komputasi Dataflow - streaming
Tabel berikut berisi detail harga untuk resource pekerja, data Streaming Engine yang diproses (lama), dan Unit Komputasi Streaming Engine untuk tugas streaming.
3 Setelan default pekerja streaming: 4 vCPU, memori 15 GB, Persistent Disk 400 GB jika tidak menggunakan Streaming Engine, Persistent Disk 30 GB jika menggunakan Streaming Engine. Layanan Dataflow saat ini dibatasi hingga 15 persistent disk per instance pekerja saat menjalankan tugas streaming. Rasio 1:1 antara pekerja dan disk adalah alokasi resource minimum.
4 Harga Dataflow Shuffle didasarkan pada penyesuaian volume yang diterapkan pada jumlah data yang diproses selama operasi baca dan tulis, sambil mengacak set data Anda. Untuk mengetahui informasi selengkapnya, lihat Detail harga Acak dari Dataflow. Harga Dataflow Shuffle tidak berlaku untuk tugas Streaming Engine yang menggunakan penagihan berbasis resource.
5 Unit Komputasi Streaming Engine: untuk tugas streaming yang menggunakan Streaming Engine dan model penagihan berbasis resource. Tugas ini tidak dikenai biaya untuk data yang diproses selama acak.
Penyesuaian volume untuk data Dataflow Shuffle yang diproses
Biaya dihitung per tugas Dataflow melalui penyesuaian volume yang diterapkan ke jumlah total data yang diproses selama operasi Dataflow Shuffle. Tagihan sebenarnya untuk data Dataflow Shuffle yang diproses setara dengan tagihan harga penuh untuk jumlah data yang lebih kecil daripada jumlah yang diproses oleh tugas Dataflow. Perbedaan ini menyebabkan metrik data acak yang dapat ditagih yang diproses lebih kecil daripada metrik total data acak yang diproses.
Tabel berikut menjelaskan bagaimana penyesuaian ini diterapkan:
Data Shuffle Dataflow diproses | Penyesuaian penagihan |
250 GB pertama | penurunan 75% |
4870 GB Berikutnya | penurunan 50% |
Sisa data melebihi 5.120 GB (5 TB) | tidak ada |
Misalnya, jika pipeline Anda menghasilkan total data Dataflow Shuffle yang diproses sebesar 1.024 GB (1 TB), jumlah yang dapat ditagih akan dihitung sebagai berikut:
250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate
Jika pipeline Anda menghasilkan total data Dataflow Shuffle yang diproses sebesar 10.240 GB (10 TB), jumlah data yang dapat ditagih adalah:
250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB
Harga resource komputasi Dataflow Prime
Dataflow Prime adalah platform pemrosesan data yang dibangun berdasarkan Dataflow untuk menghadirkan peningkatan dalam penggunaan resource dan diagnostik terdistribusi.
Resource komputasi yang digunakan oleh tugas Dataflow Prime diberi harga berdasarkan jumlah Unit Komputasi Data (DCU). DCU mewakili resource komputasi yang dialokasikan untuk menjalankan pipeline Anda. Resource Dataflow lainnya yang digunakan oleh tugas Dataflow Prime, seperti Persistent Disk, GPU, dan snapshot, ditagih secara terpisah.
Untuk mengetahui informasi selengkapnya tentang region yang tersedia beserta zonanya, lihat halaman Region dan Zona Compute Engine.
Unit Komputasi Data
Data Compute Unit (DCU) adalah unit pengukuran penggunaan Dataflow yang melacak jumlah resource komputasi yang dikonsumsi oleh tugas Anda. Resource yang dilacak oleh DCU mencakup vCPU, memori, data Dataflow Shuffle yang diproses (untuk tugas batch), dan data Streaming Engine yang diproses (untuk tugas streaming). Tugas yang menggunakan lebih banyak resource memiliki lebih banyak penggunaan DCU dibandingkan dengan tugas yang menggunakan lebih sedikit resource. Satu DCU sebanding dengan resource yang digunakan oleh tugas Dataflow yang berjalan selama satu jam pada pekerja 1 vCPU dengan kapasitas 4 GB.
Penagihan Data Compute Unit
Anda akan ditagih untuk jumlah total DCU yang digunakan oleh tugas Anda. Harga satu DCU bervariasi berdasarkan apakah Anda memiliki tugas batch atau tugas streaming. Jika menggunakan Dataflow Prime dengan penagihan berbasis resource, Anda ditagih berdasarkan total resource yang digunakan, bukan proses byte.
Mengoptimalkan penggunaan Data Compute Unit
Anda tidak dapat menetapkan jumlah DCU untuk tugas Anda. DCU dihitung oleh Dataflow Prime. Namun, Anda dapat mengurangi jumlah DCU yang digunakan dengan mengelola aspek pekerjaan berikut:
- Mengurangi konsumsi memori
- Mengurangi jumlah data yang diproses dalam langkah-langkah pengacakan menggunakan filter, penggabung, dan coder yang efisien
Untuk mengidentifikasi pengoptimalan ini, gunakan antarmuka pemantauan Dataflow dan antarmuka detail eksekusi.
Apa perbedaan harga Dataflow Prime dengan harga Dataflow?
Di Dataflow, Anda akan dikenai biaya untuk berbagai resource yang digunakan tugas Anda, seperti vCPU, memori, Persistent Disk, dan jumlah data yang diproses oleh Dataflow Shuffle atau Streaming Engine.
Unit Komputasi Data menggabungkan semua resource kecuali penyimpanan ke dalam satu unit pengukuran. Anda akan ditagih untuk resource Persistent Disk dan jumlah DCU yang digunakan berdasarkan jenis tugas, batch, atau streaming. Untuk mengetahui informasi lebih lanjut, baca artikel Menggunakan Dataflow Prime.
Apa yang terjadi pada tugas saya saat ini yang menggunakan model harga Dataflow?
Tugas batch dan streaming yang ada akan terus ditagih menggunakan model Dataflow. Saat Anda memperbarui tugas untuk menggunakan Dataflow Prime, tugas tersebut kemudian akan menggunakan model harga Dataflow Prime, yang biayanya akan ditagih untuk resource Persistent Disk dan DCU yang digunakan.
Referensi Dataflow lainnya
Penyimpanan, GPU, snapshot, dan resource lainnya ditagih dengan cara yang sama untuk Dataflow dan Dataflow Prime.
Harga resource penyimpanan
Resource penyimpanan ditagih dengan tarif yang sama untuk tugas streaming, batch, dan FlexRS. Anda dapat menggunakan opsi pipeline untuk mengubah ukuran disk atau jenis disk default. Dataflow Prime menagih Persistent Disk secara terpisah berdasarkan harga pada tabel berikut.
Layanan Dataflow saat ini dibatasi hingga 15 persistent disk per instance pekerja saat menjalankan tugas streaming. Setiap persistent disk bersifat lokal untuk setiap virtual machine Compute Engine. Rasio 1:1 antara pekerja dan disk adalah alokasi resource minimum.
Tugas yang menggunakan Streaming Engine menggunakan boot disk sebesar 30 GB. Tugas yang menggunakan Dataflow Shuffle menggunakan boot disk sebesar 25 GB. Untuk tugas yang tidak menggunakan penawaran ini, ukuran default setiap persistent disk adalah 250 GB dalam mode batch dan 400 GB dalam mode streaming.
Penggunaan Compute Engine didasarkan pada jumlah rata-rata pekerja, sedangkan penggunaan Persistent Disk didasarkan pada nilai pasti --maxNumWorkers
. Persistent Disk didistribusikan ulang sehingga setiap pekerja memiliki jumlah disk yang terpasang dengan sama.
Harga resource GPU
Resource GPU dikenai tarif yang sama untuk tugas streaming dan batch. FlexRS saat ini tidak mendukung GPU. Untuk mengetahui informasi tentang region dan zona yang tersedia untuk GPU, lihat ketersediaan region dan zona GPU di dokumentasi Compute Engine.
Snapshot
Untuk membantu mengelola keandalan pipeline streaming, Anda dapat menggunakan snapshot untuk menyimpan dan memulihkan status pipeline. Penggunaan snapshot ditagih berdasarkan volume data yang disimpan, yang bergantung pada faktor-faktor berikut:
- Volume data yang diserap ke dalam pipeline streaming Anda
- Logika windowing Anda
- Jumlah stage pipeline
Anda dapat mengambil snapshot tugas streaming menggunakan konsol Dataflow atau Google Cloud CLI. Tidak ada biaya tambahan untuk membuat tugas dari snapshot guna memulihkan status pipeline. Untuk mengetahui informasi lebih lanjut, baca bagian Menggunakan snapshot Dataflow.
Harga snapshot
Confidential VM
Confidential VM untuk Dataflow mengenkripsi data aktif di VM Compute Engine pekerja. Untuk mengetahui detail selengkapnya, lihat Ringkasan Confidential VM.
Penggunaan Confidential VM untuk Dataflow akan menimbulkan biaya tetap per vCPU dan per GB tambahan.
Harga Confidential VM
Harga bersifat global dan tidak berubah berdasarkan region Google Cloud.
Resource non-Dataflow
Selain penggunaan Dataflow, tugas mungkin menggunakan resource berikut, masing-masing dikenai biaya sesuai harganya sendiri, termasuk tetapi tidak terbatas pada:
-
Tugas Dataflow menggunakan Cloud Storage untuk menyimpan file sementara selama eksekusi pipeline. Agar Anda tidak dikenai biaya penyimpanan yang tidak perlu, nonaktifkan fitur hapus untuk sementara di bucket yang digunakan tugas Dataflow Anda untuk penyimpanan sementara. Untuk mengetahui informasi selengkapnya, lihat Menghapus kebijakan penghapusan sementara dari bucket.
-
Anda dapat mengarahkan log ke tujuan lain atau mengecualikan log dari penyerapan. Guna mengetahui cara mengoptimalkan volume log untuk tugas Dataflow Anda, baca artikel mengontrol volume log Dataflow.
Lihat penggunaan resource
Anda dapat melihat total resource vCPU, memori, dan Persistent Disk yang terkait dengan tugas di panel Job info pada Resource metrics. Anda dapat melacak metrik berikut di Antarmuka Pemantauan Dataflow:
- Total waktu vCPU
- Total waktu penggunaan memori
- Total waktu penggunaan Persistent Disk
- Total data streaming yang diproses
- Total data acak yang diproses
- Data acak yang dapat ditagih diproses
Anda dapat menggunakan metrik Total data acak yang diproses untuk mengevaluasi performa pipeline dan metrik Data acak yang dapat ditagih yang diproses untuk menentukan biaya tugas Dataflow.
Untuk Dataflow Prime, Anda dapat melihat jumlah total DCU yang digunakan oleh tugas di panel Info tugas di bagian Resource metrics.
Kalkulator harga
Gunakan Kalkulator Harga Google Cloud untuk membantu Anda memahami cara penghitungan tagihan Anda.
Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda pada SKU Cloud Platform.
Langkah berikutnya
- Baca Dokumentasi Dataflow.
- Mulai menggunakan Dataflow.
- Coba Kalkulator Harga.
- Pelajari solusi dan kasus penggunaan Dataflow.