Harga Dataflow

Halaman ini menjelaskan harga untuk Dataflow. Untuk melihat harga produk lain, baca Dokumentasi harga.

Untuk mempelajari cara menghemat 40% dengan komitmen tiga tahun atau 20% dengan komitmen satu tahun, baca halaman diskon abonemen (CUD) kami.

Ringkasan

Penggunaan Dataflow dikenai biaya untuk resource yang digunakan tugas Anda. Bergantung pada model penetapan harga yang Anda gunakan, resource diukur dan ditagih secara berbeda.

Resource komputasi Dataflow	Resource komputasi Dataflow Prime
CPU dan memori pekerja (batch, streaming, dan FlexRS) Data Dataflow Shuffle diproses (batch dan FlexRS) Unit Compute Streaming Engine atau data Streaming Engine lama yang diproses (khusus streaming)	Unit Komputasi Data (DCU) (batch dan streaming)

Resource Dataflow lainnya yang dikenai biaya untuk semua tugas mencakup Persistent Disk, GPU, dan snapshot.

Resource dari layanan lain mungkin digunakan untuk tugas Dataflow. Layanan yang digunakan dengan Dataflow mungkin antara lain BigQuery, Pub/Sub, Cloud Storage, dan Cloud Logging.

Meskipun tarif harga didasarkan pada jam, penggunaan Dataflow akan ditagih per kelipatan per detik, per tugas. Penggunaan dinyatakan dalam jam agar harga per jam diterapkan pada penggunaan per detik. Contohnya, 30 menit adalah 0,5 jam. Pekerja dan tugas dapat menggunakan resource seperti yang dijelaskan di bagian berikut.

Rilis Dataflow mendatang mungkin memiliki biaya layanan yang berbeda atau paket layanan terkait.

Resource komputasi Dataflow

Penagihan Dataflow untuk resource komputasi mencakup komponen berikut:

CPU dan memori worker
Data Dataflow Shuffle yang diproses untuk workload batch
Unit Komputasi Streaming Engine
Data Streaming Engine yang diproses

Untuk mengetahui informasi selengkapnya tentang region yang tersedia beserta zonanya, lihat halaman Region dan Zona Compute Engine.

CPU dan memori pekerja

Setiap tugas Dataflow menggunakan setidaknya satu pekerja Dataflow. Layanan Dataflow menyediakan dua jenis pekerja: batch dan streaming. Pekerja batch dan streaming memiliki biaya layanan terpisah.

Pekerja Dataflow menggunakan resource berikut, masing-masing dikenai biaya per detik:

CPU
Memori

Pekerja batch dan streaming adalah resource khusus yang menggunakan Compute Engine. Namun, tugas Dataflow tidak menghasilkan penagihan Compute Engine untuk resource Compute Engine yang dikelola oleh layanan Dataflow. Sebagai gantinya, biaya layanan Dataflow mencakup penggunaan resource Compute Engine ini.

Anda dapat mengganti jumlah pekerja default untuk suatu tugas. Jika menggunakan penskalaan otomatis, Anda dapat menentukan jumlah maksimum pekerja yang dapat dialokasikan ke tugas. Pekerja dan resource masing-masing ditambahkan dan dihapus secara otomatis berdasarkan aktuasi penskalaan otomatis.

Selain itu, Anda dapat menggunakan opsi pipeline untuk mengganti setelan resource default, seperti jenis mesin, jenis disk, dan ukuran disk, yang dialokasikan ke setiap pekerja dan yang menggunakan GPU.

FlexRS

Dataflow menyediakan opsi harga untuk batch processing dan CPU yang didiskon untuk batch processing. Penjadwalan Resource yang Fleksibel (FlexRS) menggabungkan VM reguler dan preemptible dalam satu kumpulan pekerja Dataflow, sehingga pengguna dapat mengakses resource pemrosesan yang lebih murah. FlexRS juga menunda eksekusi tugas Dataflow batch dalam periode 6 jam guna mengidentifikasi titik waktu terbaik untuk memulai tugas berdasarkan resource yang tersedia.

Meskipun Dataflow menggunakan kombinasi worker untuk menjalankan tugas FlexRS, Anda akan dikenai tarif diskon seragam sebesar sekitar 40% untuk biaya CPU dan memori dibandingkan dengan harga Dataflow reguler, terlepas dari jenis pekerjanya. Anda menginstruksikan Dataflow agar menggunakan FlexRS untuk pipeline batch yang diskalakan otomatis dengan menentukan parameter FlexRS.

Data Dataflow Shuffle diproses

Untuk pipeline batch, Dataflow menyediakan fitur yang sangat skalabel, Dataflow Shuffle, yang mengacak data di luar worker. Untuk mengetahui informasi selengkapnya, lihat Mengacak Dataflow.

Dataflow Shuffle mengenakan biaya berdasarkan volume data yang diproses selama diacak.

Harga Streaming Engine

Untuk pipeline streaming, Dataflow Streaming Engine memindahkan pemrosesan status dan shuffle streaming dari VM worker ke backend layanan Dataflow. Untuk mengetahui informasi selengkapnya, lihat Streaming Engine.

Unit Komputasi Streaming Engine

Dengan penagihan berbasis resource, resource Streaming Engine diukur dalam Unit Komputasi Streaming Engine. Dataflow mengukur resource Streaming Engine yang digunakan setiap tugas, kemudian menagih berdasarkan total resource yang digunakan oleh tugas tersebut. Agar dapat mengaktifkan penagihan berbasis resource untuk tugas Anda, lihat Menggunakan penagihan berbasis resource. Jika Anda menggunakan penagihan berbasis resource, diskon yang sudah ada akan otomatis diterapkan.

Saat menggunakan Dataflow Prime dengan penagihan berbasis resource, Anda akan ditagih berdasarkan total resource yang digunakan setiap tugas, tetapi SKU Data Compute Unit (DCU) digunakan, bukan SKU Unit Compute Streaming Engine.

Data Streaming Engine yang diproses (lama)

Dataflow terus mendukung penagihan yang diproses dengan data lama. Kecuali jika Anda mengaktifkan penagihan berbasis resource, tugas akan ditagih menggunakan penagihan yang diproses data.

Penagihan yang diproses dengan data Streaming Engine mengukur penggunaan berdasarkan volume data streaming yang diproses, yang bergantung pada faktor-faktor berikut:

Volume data yang diserap ke dalam pipeline streaming Anda
Kompleksitas pipeline
Jumlah stage pipeline dengan operasi acak atau dengan stateful DoFns

Contoh hal yang dianggap sebagai byte yang diproses mencakup item berikut:

Alur input dari sumber data
Alur data dari satu tahap pipeline fusi ke tahap lain yang menyatu
Alur data yang dipertahankan dalam status yang ditentukan pengguna atau digunakan untuk windowing
Pesan output ke sink data, seperti ke Pub/Sub atau BigQuery

Harga resource komputasi Dataflow - batch &FlexRS

Tabel berikut berisi detail harga untuk resource pekerja dan data Shuffle yang diproses untuk tugas batch dan FlexRS.

¹ Setelan default pekerja batch: 1 vCPU, memori 3,75 GB, Persistent Disk 250 GB jika tidak menggunakan Dataflow Shuffle, Persistent Disk 25 GB jika menggunakan Dataflow Shuffle

² Setelan default pekerja FlexRS: 2 vCPU, memori sebesar 7,50 GB, Persistent Disk sebesar 25 GB per pekerja, dengan minimal dua pekerja

Harga resource komputasi Dataflow - streaming

Tabel berikut berisi detail harga untuk resource pekerja, data Streaming Engine yang diproses (lama), dan Unit Komputasi Streaming Engine untuk tugas streaming.

Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda pada SKU Cloud Platform.

³ Setelan default pekerja streaming: 4 vCPU, memori 15 GB, Persistent Disk 400 GB jika tidak menggunakan Streaming Engine, Persistent Disk 30 GB jika menggunakan Streaming Engine. Layanan Dataflow saat ini dibatasi hingga 15 persistent disk per instance pekerja saat menjalankan tugas streaming. Rasio 1:1 antara pekerja dan disk adalah alokasi resource minimum.

⁴ Harga Dataflow Shuffle didasarkan pada penyesuaian volume yang diterapkan pada jumlah data yang diproses selama operasi baca dan tulis, sambil mengacak set data Anda. Untuk mengetahui informasi selengkapnya, lihat Detail harga Acak dari Dataflow. Harga Dataflow Shuffle tidak berlaku untuk tugas Streaming Engine yang menggunakan penagihan berbasis resource.

⁵ Unit Komputasi Streaming Engine: untuk tugas streaming yang menggunakan Streaming Engine dan model penagihan berbasis resource. Tugas ini tidak dikenai biaya untuk data yang diproses selama acak.

Penyesuaian volume untuk data Dataflow Shuffle yang diproses

Biaya dihitung per tugas Dataflow melalui penyesuaian volume yang diterapkan ke jumlah total data yang diproses selama operasi Dataflow Shuffle. Tagihan sebenarnya untuk data Dataflow Shuffle yang diproses setara dengan tagihan harga penuh untuk jumlah data yang lebih kecil daripada jumlah yang diproses oleh tugas Dataflow. Perbedaan ini menyebabkan metrik data acak yang dapat ditagih yang diproses lebih kecil daripada metrik total data acak yang diproses.

Tabel berikut menjelaskan bagaimana penyesuaian ini diterapkan:

Data Shuffle Dataflow diproses	Penyesuaian penagihan
250 GB pertama	penurunan 75%
4870 GB Berikutnya	penurunan 50%
Sisa data melebihi 5.120 GB (5 TB)	tidak ada

Misalnya, jika pipeline Anda menghasilkan total data Dataflow Shuffle yang diproses sebesar 1.024 GB (1 TB), jumlah yang dapat ditagih akan dihitung sebagai berikut:

250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate

Jika pipeline Anda menghasilkan total data Dataflow Shuffle yang diproses sebesar 10.240 GB (10 TB), jumlah data yang dapat ditagih adalah:

250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB

Harga resource komputasi Dataflow Prime

Dataflow Prime adalah platform pemrosesan data yang dibangun berdasarkan Dataflow untuk menghadirkan peningkatan dalam penggunaan resource dan diagnostik terdistribusi.

Resource komputasi yang digunakan oleh tugas Dataflow Prime diberi harga berdasarkan jumlah Unit Komputasi Data (DCU). DCU mewakili resource komputasi yang dialokasikan untuk menjalankan pipeline Anda. Resource Dataflow lainnya yang digunakan oleh tugas Dataflow Prime, seperti Persistent Disk, GPU, dan snapshot, ditagih secara terpisah.

Untuk mengetahui informasi selengkapnya tentang region yang tersedia beserta zonanya, lihat halaman Region dan Zona Compute Engine.

Unit Komputasi Data

Data Compute Unit (DCU) adalah unit pengukuran penggunaan Dataflow yang melacak jumlah resource komputasi yang dikonsumsi oleh tugas Anda. Resource yang dilacak oleh DCU mencakup vCPU, memori, data Dataflow Shuffle yang diproses (untuk tugas batch), dan data Streaming Engine yang diproses (untuk tugas streaming). Tugas yang menggunakan lebih banyak resource memiliki lebih banyak penggunaan DCU dibandingkan dengan tugas yang menggunakan lebih sedikit resource. Satu DCU sebanding dengan resource yang digunakan oleh tugas Dataflow yang berjalan selama satu jam pada pekerja 1 vCPU dengan kapasitas 4 GB.

Penagihan Data Compute Unit

Anda akan ditagih untuk jumlah total DCU yang digunakan oleh tugas Anda. Harga satu DCU bervariasi berdasarkan apakah Anda memiliki tugas batch atau tugas streaming. Jika menggunakan Dataflow Prime dengan penagihan berbasis resource, Anda ditagih berdasarkan total resource yang digunakan, bukan proses byte.

Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda pada SKU Cloud Platform.

Mengoptimalkan penggunaan Data Compute Unit

Anda tidak dapat menetapkan jumlah DCU untuk tugas Anda. DCU dihitung oleh Dataflow Prime. Namun, Anda dapat mengurangi jumlah DCU yang digunakan dengan mengelola aspek pekerjaan berikut:

Mengurangi konsumsi memori
Mengurangi jumlah data yang diproses dalam langkah-langkah pengacakan menggunakan filter, penggabung, dan coder yang efisien

Untuk mengidentifikasi pengoptimalan ini, gunakan antarmuka pemantauan Dataflow dan antarmuka detail eksekusi.

Apa perbedaan harga Dataflow Prime dengan harga Dataflow?

Di Dataflow, Anda akan dikenai biaya untuk berbagai resource yang digunakan tugas Anda, seperti vCPU, memori, Persistent Disk, dan jumlah data yang diproses oleh Dataflow Shuffle atau Streaming Engine.

Unit Komputasi Data menggabungkan semua resource kecuali penyimpanan ke dalam satu unit pengukuran. Anda akan ditagih untuk resource Persistent Disk dan jumlah DCU yang digunakan berdasarkan jenis tugas, batch, atau streaming. Untuk mengetahui informasi lebih lanjut, baca artikel Menggunakan Dataflow Prime.

Apa yang terjadi pada tugas saya saat ini yang menggunakan model harga Dataflow?

Tugas batch dan streaming yang ada akan terus ditagih menggunakan model Dataflow. Saat Anda memperbarui tugas untuk menggunakan Dataflow Prime, tugas tersebut kemudian akan menggunakan model harga Dataflow Prime, yang biayanya akan ditagih untuk resource Persistent Disk dan DCU yang digunakan.

Referensi Dataflow lainnya

Penyimpanan, GPU, snapshot, dan resource lainnya ditagih dengan cara yang sama untuk Dataflow dan Dataflow Prime.

Harga resource penyimpanan

Resource penyimpanan ditagih dengan tarif yang sama untuk tugas streaming, batch, dan FlexRS. Anda dapat menggunakan opsi pipeline untuk mengubah ukuran disk atau jenis disk default. Dataflow Prime menagih Persistent Disk secara terpisah berdasarkan harga pada tabel berikut.

Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda pada SKU Cloud Platform.

Layanan Dataflow saat ini dibatasi hingga 15 persistent disk per instance pekerja saat menjalankan tugas streaming. Setiap persistent disk bersifat lokal untuk setiap virtual machine Compute Engine. Rasio 1:1 antara pekerja dan disk adalah alokasi resource minimum.

Tugas yang menggunakan Streaming Engine menggunakan boot disk sebesar 30 GB. Tugas yang menggunakan Dataflow Shuffle menggunakan boot disk sebesar 25 GB. Untuk tugas yang tidak menggunakan penawaran ini, ukuran default setiap persistent disk adalah 250 GB dalam mode batch dan 400 GB dalam mode streaming.

Penggunaan Compute Engine didasarkan pada jumlah rata-rata pekerja, sedangkan penggunaan Persistent Disk didasarkan pada nilai pasti --maxNumWorkers. Persistent Disk didistribusikan ulang sehingga setiap pekerja memiliki jumlah disk yang terpasang dengan sama.

Harga resource GPU

Resource GPU dikenai tarif yang sama untuk tugas streaming dan batch. FlexRS saat ini tidak mendukung GPU. Untuk mengetahui informasi tentang region dan zona yang tersedia untuk GPU, lihat ketersediaan region dan zona GPU di dokumentasi Compute Engine.

Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda pada SKU Cloud Platform.

Snapshot

Untuk membantu mengelola keandalan pipeline streaming, Anda dapat menggunakan snapshot untuk menyimpan dan memulihkan status pipeline. Penggunaan snapshot ditagih berdasarkan volume data yang disimpan, yang bergantung pada faktor-faktor berikut:

Volume data yang diserap ke dalam pipeline streaming Anda
Logika windowing Anda
Jumlah stage pipeline

Anda dapat mengambil snapshot tugas streaming menggunakan konsol Dataflow atau Google Cloud CLI. Tidak ada biaya tambahan untuk membuat tugas dari snapshot guna memulihkan status pipeline. Untuk mengetahui informasi lebih lanjut, baca bagian Menggunakan snapshot Dataflow.

Harga snapshot

Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda pada SKU Cloud Platform.

Confidential VM

Confidential VM untuk Dataflow mengenkripsi data aktif di VM Compute Engine pekerja. Untuk mengetahui detail selengkapnya, lihat Ringkasan Confidential VM.

Penggunaan Confidential VM untuk Dataflow akan menimbulkan biaya tetap per vCPU dan per GB tambahan.

Harga Confidential VM

Harga bersifat global dan tidak berubah berdasarkan region Google Cloud.

Resource non-Dataflow

Selain penggunaan Dataflow, tugas mungkin menggunakan resource berikut, masing-masing dikenai biaya sesuai harganya sendiri, termasuk tetapi tidak terbatas pada:

Cloud Storage

Tugas Dataflow menggunakan Cloud Storage untuk menyimpan file sementara selama eksekusi pipeline. Agar Anda tidak dikenai biaya penyimpanan yang tidak perlu, nonaktifkan fitur hapus untuk sementara di bucket yang digunakan tugas Dataflow Anda untuk penyimpanan sementara. Untuk mengetahui informasi selengkapnya, lihat Menghapus kebijakan penghapusan sementara dari bucket.
Pub/Sub
Datastore
Bigtable
BigQuery
VPC
Cloud Logging

Anda dapat mengarahkan log ke tujuan lain atau mengecualikan log dari penyerapan. Guna mengetahui cara mengoptimalkan volume log untuk tugas Dataflow Anda, baca artikel mengontrol volume log Dataflow.

Lihat penggunaan resource

Anda dapat melihat total resource vCPU, memori, dan Persistent Disk yang terkait dengan tugas di panel Job info pada Resource metrics. Anda dapat melacak metrik berikut di Antarmuka Pemantauan Dataflow:

Total waktu vCPU
Total waktu penggunaan memori
Total waktu penggunaan Persistent Disk
Total data streaming yang diproses
Total data acak yang diproses
Data acak yang dapat ditagih diproses

Anda dapat menggunakan metrik Total data acak yang diproses untuk mengevaluasi performa pipeline dan metrik Data acak yang dapat ditagih yang diproses untuk menentukan biaya tugas Dataflow.

Untuk Dataflow Prime, Anda dapat melihat jumlah total DCU yang digunakan oleh tugas di panel Info tugas di bagian Resource metrics.

Kalkulator harga

Gunakan Kalkulator Harga Google Cloud untuk membantu Anda memahami cara penghitungan tagihan Anda.

Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda pada SKU Cloud Platform.

Langkah berikutnya

Baca Dokumentasi Dataflow.
Mulai menggunakan Dataflow.
Coba Kalkulator Harga.
Pelajari solusi dan kasus penggunaan Dataflow.

Meminta penawaran harga khusus

Dengan model harga bayar sesuai penggunaan Google Cloud, Anda hanya membayar untuk layanan yang Anda gunakan. Hubungi tim penjualan kami untuk mendapatkan penawaran harga khusus bagi organisasi Anda.

Hubungi bagian penjualan