Harga Dataflow
Halaman ini menjelaskan harga untuk Dataflow. Untuk melihat harga produk lain, baca Dokumentasi harga.
Untuk mempelajari cara menghemat 40% dengan komitmen tiga tahun atau 20% dengan komitmen satu tahun, tinjau halaman diskon abonemen (CUD) kami.
Ringkasan
Penggunaan Dataflow dikenai biaya untuk resource yang digunakan oleh tugas Anda. Bergantung pada model harga yang Anda gunakan, resource diukur dan ditagih dengan cara yang berbeda.
Resource komputasi Dataflow | Resource komputasi Dataflow Prime |
|
Unit Komputasi Data (DCU) (batch dan streaming) |
Resource Dataflow lain yang ditagih untuk semua tugas mencakup Persistent Disk, GPU, dan snapshot.
Resource dari layanan lain dapat digunakan untuk tugas Dataflow. Layanan yang digunakan dengan Dataflow mungkin mencakup BigQuery, Pub/Sub, Cloud Storage, dan Cloud Logging, antara lain.
Meskipun tarif harganya adalah per jam, penggunaan Dataflow akan dikenakan biaya setiap kenaikan satu detik per tugas. Penggunaan dinyatakan dalam jam agar harga per jam diterapkan untuk penggunaan per detik. Misalnya, 30 menit sama dengan 0,5 jam. Pekerja dan tugas dapat menggunakan resource seperti yang dijelaskan di bagian berikut.
Rilis Dataflow mendatang mungkin memiliki biaya layanan yang berbeda atau paket layanan terkait.
Resource komputasi Dataflow
Penagihan Dataflow untuk resource komputasi mencakup komponen berikut:
- CPU dan memori worker
- Data Dataflow Shuffle yang diproses untuk workload batch
- Unit Komputasi Streaming Engine
- Data Streaming Engine yang diproses
Untuk mengetahui informasi selengkapnya tentang region yang tersedia beserta zonanya, lihat halaman Region dan Zona Compute Engine.
CPU dan memori worker
Setiap tugas Dataflow menggunakan setidaknya satu worker Dataflow. Layanan Dataflow menyediakan dua jenis worker: batch dan streaming. Pekerja batch dan streaming memiliki biaya layanan terpisah.
Worker Dataflow menggunakan resource berikut, masing-masing dikenakan biaya per detik:
- CPU
- Memori
Worker batch dan streaming adalah resource khusus yang menggunakan Compute Engine. Namun, tugas Dataflow tidak menghasilkan tagihan Compute Engine untuk resource Compute Engine yang dikelola oleh layanan Dataflow. Sebagai gantinya, biaya layanan Dataflow mencakup penggunaan resource Compute Engine tersebut.
Anda dapat mengganti jumlah pekerja default untuk suatu tugas. Jika menggunakan autoscaling, Anda dapat menentukan jumlah worker maksimum yang akan dialokasikan ke suatu tugas. Worker dan resource masing-masing akan ditambahkan dan dihapus secara otomatis berdasarkan aktuasi penskalaan otomatis.
Selain itu, Anda dapat menggunakan opsi pipeline untuk mengganti setelan resource default, seperti jenis mesin, jenis disk, dan ukuran disk, yang dialokasikan ke setiap worker dan yang menggunakan GPU.
FlexRS
Dataflow menyediakan opsi dengan harga CPU dan memori diskon untuk batch processing. Flexible Resource Scheduling (FlexRS) menggabungkan VM reguler dan preemptible dalam satu kumpulan worker Dataflow, sehingga memberi pengguna akses ke resource pemrosesan yang lebih murah. FlexRS juga menunda eksekusi tugas Dataflow batch dalam jangka waktu 6 jam untuk mengidentifikasi waktu terbaik untuk memulai tugas berdasarkan resource yang tersedia.
Meskipun Dataflow menggunakan kombinasi worker untuk menjalankan tugas FlexRS, Anda akan ditagih dengan tarif diskon seragam sebesar sekitar 40% untuk biaya CPU dan memori dibandingkan dengan harga Dataflow reguler, terlepas dari jenis worker-nya. Anda dapat menginstruksikan Dataflow untuk menggunakan FlexRS untuk pipeline batch yang diskalakan secara otomatis dengan menentukan parameter FlexRS.
Data Dataflow Shuffle yang diproses
Untuk pipeline batch, Dataflow menyediakan fitur yang sangat skalabel, Dataflow Shuffle, yang mengacak data di luar worker. Untuk mengetahui informasi selengkapnya, lihat Dataflow Shuffle.
Dataflow Shuffle mengenakan biaya berdasarkan volume data yang diproses selama shuffle.
Harga Streaming Engine
Untuk pipeline streaming, Dataflow Streaming Engine memindahkan shuffle streaming dan pemrosesan status dari worker VM ke backend layanan Dataflow. Untuk mengetahui informasi selengkapnya, lihat Streaming Engine.
Unit Komputasi Streaming Engine
Dengan penagihan berbasis resource, resource Streaming Engine diukur dalam Unit Compute Streaming Engine. Dataflow mengukur resource Streaming Engine yang digunakan setiap tugas, lalu menagih berdasarkan total resource yang digunakan oleh tugas tersebut. Untuk mengaktifkan penagihan berbasis resource untuk tugas Anda, lihat Menggunakan penagihan berbasis resource. Saat Anda menggunakan penagihan berbasis resource, diskon yang ada akan otomatis diterapkan.
Saat Anda menggunakan Dataflow Prime dengan penagihan berbasis resource, Anda akan ditagih berdasarkan total resource yang digunakan setiap tugas, tetapi SKU Data Compute Unit (DCU) digunakan, bukan SKU Compute Unit Streaming Engine.
Data Streaming Engine yang diproses (lama)
Dataflow terus mendukung penagihan pemrosesan data versi lama. Kecuali jika Anda mengaktifkan penagihan berbasis resource, tugas akan ditagih menggunakan penagihan pemrosesan data.
Penagihan pemrosesan data Streaming Engine mengukur penggunaan berdasarkan volume data streaming yang diproses, yang bergantung pada faktor-faktor berikut:
- Volume data yang diserap ke dalam pipeline streaming Anda
- Kompleksitas pipeline
- Jumlah tahap pipeline dengan operasi shuffle atau dengan DoFn berstatus
Contoh hal yang dihitung sebagai byte yang diproses mencakup item berikut:
- Input mengalir dari sumber data
- Aliran data dari satu tahap pipeline fused ke tahap fused lainnya
- Aliran data yang bertahan dalam status yang ditentukan pengguna atau digunakan untuk pembuatan periode
- Mengoutput pesan ke sink data, seperti ke Pub/Sub atau BigQuery
Harga resource komputasi Dataflow - batch & FlexRS
Tabel berikut berisi detail harga untuk resource worker dan data Shuffle yang diproses untuk tugas batch dan FlexRS.
1 Setelan default pekerja batch: 1 vCPU, memori sebesar 3,75 GB, Persistent Disk sebesar 250 GB jika tidak menggunakan Dataflow Shuffle, Persistent Disk sebesar 25 GB jika menggunakan Dataflow Shuffle
2 Setelan default pekerja FlexRS: 2 vCPU, memori sebesar 7,50 GB, Persistent Disk sebesar 25 GB per pekerja, dengan minimal dua pekerja
Harga resource komputasi Dataflow - streaming
Tabel berikut berisi detail harga untuk resource worker, data Streaming Engine yang diproses (lama), dan Unit Komputasi Streaming Engine untuk tugas streaming.
3 Setelan default pekerja streaming: 4 vCPU, memori sebesar 15 GB, Persistent Disk sebesar 400 GB jika tidak menggunakan Streaming Engine, Persistent Disk sebesar 30 GB jika menggunakan Streaming Engine. Layanan Dataflow saat ini dibatasi hingga 15 persistent disk per instance worker saat menjalankan tugas streaming. Rasio 1:1 antara worker dan disk adalah alokasi resource minimum.
4 Harga Dataflow Shuffle didasarkan pada penyesuaian volume yang diterapkan pada jumlah data yang diproses selama operasi baca dan tulis saat mengacak set data Anda. Untuk mengetahui informasi selengkapnya, lihat detail harga Dataflow Shuffle. Harga Dataflow Shuffle tidak berlaku untuk tugas Streaming Engine yang menggunakan penagihan berbasis resource.
5 Unit Komputasi Streaming Engine: untuk tugas streaming yang menggunakan Streaming Engine dan model penagihan berbasis resource. Tugas ini tidak ditagih untuk data yang diproses selama shuffle.
Penyesuaian volume untuk data Dataflow Shuffle yang diproses
Tagihan dihitung per tugas Dataflow melalui penyesuaian volume yang diterapkan pada total jumlah data yang diproses selama operasi Dataflow Shuffle. Tagihan aktual Anda untuk data Dataflow Shuffle yang diproses setara dengan ditagih harga penuh untuk jumlah data yang lebih kecil daripada jumlah yang diproses oleh tugas Dataflow. Perbedaan ini menyebabkan metrik data shuffle yang dapat ditagih dan diproses menjadi lebih kecil daripada metrik total data shuffle yang diproses.
Tabel berikut menjelaskan cara penyesuaian ini diterapkan:
Data Dataflow Shuffle yang diproses | Penyesuaian penagihan |
250 GB pertama | Penurunan 75% |
4870 GB berikutnya | 50% lebih rendah |
Data tersisa lebih dari 5120 GB (5 TB) | tidak ada |
Misalnya, jika pipeline Anda menghasilkan total data Dataflow Shuffle yang diproses sebesar 1024 GB (1 TB), jumlah yang dapat ditagih dihitung sebagai berikut:
250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate
Jika pipeline Anda menghasilkan total data Dataflow Shuffle sebesar 10240 GB (10 TB) yang diproses, jumlah data yang dapat ditagih adalah:
250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB
Harga resource komputasi Dataflow Prime
Dataflow Prime adalah platform pemrosesan data yang dibangun di Dataflow untuk meningkatkan pemanfaatan resource dan diagnostik terdistribusi.
Resource komputasi yang digunakan oleh tugas Dataflow Prime dihargai berdasarkan jumlah Unit Komputasi Data (DCU). DCM mewakili resource komputasi yang dialokasikan untuk menjalankan pipeline Anda. Resource Dataflow lainnya yang digunakan oleh tugas Dataflow Prime, seperti Persistent Disk, GPU, dan snapshot, akan dikenai biaya terpisah.
Untuk mengetahui informasi selengkapnya tentang region yang tersedia beserta zonanya, lihat halaman Region dan Zona Compute Engine.
Unit Komputasi Data
Unit Komputasi Data (DCU) adalah unit pengukuran penggunaan Dataflow yang memantau jumlah resource komputasi yang digunakan oleh tugas Anda. Resource yang dilacak oleh DCM mencakup vCPU, memori, data Dataflow Shuffle yang diproses (untuk tugas batch), dan data Streaming Engine yang diproses (untuk tugas streaming). Tugas yang menghabiskan lebih banyak resource memiliki penggunaan DCU lebih banyak dibandingkan tugas yang menghabiskan lebih sedikit resource. Satu DCU sebanding dengan resource yang digunakan oleh tugas Dataflow yang berjalan selama satu jam pada worker 1 vCPU 4 GB.
Penagihan Unit Komputasi Data
Anda akan ditagih untuk total jumlah hitungan daya komputasi yang digunakan oleh tugas Anda. Harga satu DCU bervariasi tergantung apakah Anda memiliki tugas batch atau tugas streaming. Saat menggunakan Dataflow Prime dengan pembayaran berbasis resource, Anda akan ditagih berdasarkan total resource yang digunakan, bukan proses byte.
Mengoptimalkan penggunaan Data Compute Unit
Anda tidak dapat menetapkan jumlah DCM untuk tugas Anda. DCU dihitung oleh Dataflow Prime. Namun, Anda dapat mengurangi jumlah DCP yang digunakan dengan mengelola aspek tugas Anda berikut:
- Mengurangi penggunaan memori
- Mengurangi jumlah data yang diproses dalam langkah-langkah pengacakan dengan menggunakan filter, kombinator, dan coder yang efisien
Untuk mengidentifikasi pengoptimalan ini, gunakan antarmuka pemantauan Dataflow dan antarmuka detail eksekusi.
Apa perbedaan harga Dataflow Prime dengan harga Dataflow?
Di Dataflow, Anda akan dikenai biaya untuk berbagai resource yang digunakan tugas Anda, seperti vCPU, memori, Persistent Disk, dan jumlah data yang diproses oleh Dataflow Shuffle atau Streaming Engine.
Data Compute Unit menggabungkan semua resource kecuali penyimpanan ke dalam satu unit pengukuran. Anda akan ditagih untuk resource Persistent Disk dan untuk jumlah DCU yang digunakan berdasarkan jenis tugas, batch atau streaming. Untuk mengetahui informasi selengkapnya, lihat Menggunakan Dataflow Prime.
Apa yang akan terjadi dengan tugas saya yang ada dan menggunakan model harga Dataflow?
Tugas batch dan streaming Anda yang sudah ada akan terus ditagih menggunakan model Dataflow. Saat Anda mengupdate tugas untuk menggunakan Dataflow Prime, tugas tersebut akan menggunakan model harga Dataflow Prime, yang akan menagih biaya untuk resource Persistent Disk dan DCU yang digunakan.
Referensi Dataflow lainnya
Penyimpanan, GPU, snapshot, dan resource lainnya dikenai biaya dengan cara yang sama untuk Dataflow dan Dataflow Prime.
Harga resource penyimpanan
Resource penyimpanan dikenai biaya dengan tarif yang sama untuk tugas streaming, batch, dan FlexRS. Anda dapat menggunakan opsi pipeline untuk mengubah ukuran disk atau jenis disk default. Dataflow Prime menagih biaya Persistent Disk secara terpisah berdasarkan harga dalam tabel berikut.
Layanan Dataflow saat ini dibatasi hingga 15 persistent disk per instance worker saat menjalankan tugas streaming. Setiap persistent disk bersifat lokal untuk setiap virtual machine Compute Engine. Rasio 1:1 antara worker dan disk adalah alokasi resource minimum.
Tugas yang menggunakan Streaming Engine menggunakan boot disk berukuran 30 GB. Tugas yang menggunakan Dataflow Shuffle menggunakan disk boot 25 GB. Untuk tugas yang tidak menggunakan penawaran ini, ukuran default setiap persistent disk adalah 250 GB dalam mode batch dan 400 GB dalam mode streaming.
Penggunaan Compute Engine didasarkan pada jumlah rata-rata pekerja, sedangkan
penggunaan Persistent Disk didasarkan pada nilai pasti --maxNumWorkers
. Persistent Disk
didistribusikan ulang sehingga setiap worker memiliki jumlah disk yang terpasang yang sama.
Harga resource GPU
Resource GPU dikenai biaya dengan tarif yang sama untuk streaming dan tugas batch. FlexRS saat ini tidak mendukung GPU. Untuk mengetahui informasi tentang region dan zona yang tersedia untuk GPU, lihat Ketersediaan zona dan region GPU dalam dokumentasi Compute Engine.
Snapshot
Untuk membantu Anda mengelola keandalan pipeline streaming, Anda dapat menggunakan snapshot untuk menyimpan dan memulihkan status pipeline. Penggunaan snapshot ditagih berdasarkan volume data yang disimpan, yang bergantung pada faktor-faktor berikut:
- Volume data yang diserap ke dalam pipeline streaming Anda
- Logika periode Anda
- Jumlah tahap pipeline
Anda dapat mengambil snapshot tugas streaming menggunakan konsol Dataflow atau Google Cloud CLI. Tidak ada biaya tambahan untuk membuat tugas dari snapshot Anda untuk memulihkan status pipeline Anda. Untuk mengetahui informasi selengkapnya, lihat Menggunakan snapshot Dataflow.
Harga snapshot
Confidential VM
Confidential VM untuk Dataflow mengenkripsi data yang digunakan di VM Compute Engine worker. Untuk mengetahui detail selengkapnya, lihat Ringkasan Confidential VM.
Penggunaan Confidential VM untuk Dataflow akan dikenai biaya tetap tambahan per vCPU dan per GB.
Harga Confidential VM
Harga bersifat global dan tidak berubah berdasarkan region Google Cloud.
Resource non-Dataflow
Selain penggunaan Dataflow, tugas mungkin menggunakan resource berikut, masing-masing dikenakan biaya sesuai dengan harganya sendiri, termasuk tetapi tidak terbatas pada:
-
Tugas Dataflow menggunakan Cloud Storage untuk menyimpan file sementara selama eksekusi pipeline. Agar tidak ditagih biaya penyimpanan yang tidak perlu, nonaktifkan fitur soft delete pada bucket yang digunakan tugas Dataflow Anda untuk penyimpanan sementara. Untuk mengetahui informasi selengkapnya, lihat Menghapus kebijakan soft delete dari bucket.
-
Anda dapat mengarahkan log ke tujuan lain atau mengecualikan log dari penyerapan. Untuk mengetahui informasi tentang mengoptimalkan volume log untuk tugas Dataflow, lihat mengontrol volume log Dataflow.
Melihat penggunaan resource
Anda dapat melihat total resource vCPU, memori, dan Persistent Disk yang terkait dengan suatu tugas di panel Job info di bagian Resource metrics. Anda dapat melacak metrik berikut di Dataflow Monitoring Interface:
- Total waktu vCPU
- Total waktu penggunaan memori
- Total waktu penggunaan Persistent Disk
- Total data streaming yang diproses
- Total data shuffle yang diproses
- Data shuffle yang dapat ditagih yang diproses
Anda dapat menggunakan metrik Total shuffle data processed untuk mengevaluasi performa pipeline dan metrik Billable shuffle data processed untuk menentukan biaya tugas Dataflow.
Untuk Dataflow Prime, Anda dapat melihat jumlah total DCU yang dikonsumsi oleh tugas di panel Job info di bagian Resource metrics.
Kalkulator harga
Gunakan Kalkulator Harga Google Cloud untuk membantu Anda memahami perhitungan tagihan Anda.
Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda pada SKU Cloud Platform.
Langkah berikutnya
- Baca dokumentasi Dataflow.
- Mulai menggunakan Dataflow.
- Coba Kalkulator Harga.
- Pelajari Solusi dan kasus penggunaan Dataflow.