Harga Dataflow

Halaman ini menjelaskan harga untuk Dataflow. Untuk melihat harga produk lain, baca Dokumentasi harga.

Untuk mempelajari cara menghemat 40% dengan komitmen tiga tahun atau 20% dengan komitmen satu tahun, tinjau halaman diskon abonemen (CUD) kami.

Ringkasan

Penggunaan Dataflow dikenai biaya untuk resource yang digunakan oleh tugas Anda. Bergantung pada model penetapan harga yang Anda gunakan, resource diukur dan ditagih secara berbeda.

Resource komputasi Dataflow Resource komputasi Dataflow Prime
Unit Komputasi Data (DCU)
(batch dan streaming)

Resource Dataflow lainnya yang ditagihkan untuk semua tugas mencakup Persistent Disk, GPU, dan snapshot.

Resource dari layanan lain mungkin digunakan untuk tugas Dataflow. Layanan yang digunakan dengan Dataflow mungkin mencakup, di antaranya, BigQuery, Pub/Sub, Cloud Storage, dan Cloud Logging.

Meskipun tarif harga didasarkan pada jam, penggunaan Dataflow akan dikenai biaya setiap kenaikan per detik per tugas. Penggunaan dinyatakan dalam jam agar harga per jam diterapkan untuk penggunaan per detik. Misalnya, 30 menit adalah 0,5 jam. Pekerja dan tugas mungkin menggunakan resource seperti yang dijelaskan di bagian berikut.

Rilis Dataflow mendatang mungkin memiliki biaya layanan yang berbeda atau paket layanan terkait.

Referensi komputasi Dataflow

Penagihan Dataflow untuk resource komputasi mencakup komponen berikut:

Untuk mengetahui informasi selengkapnya tentang region yang tersedia dan zonanya, lihat halaman Region dan Zona Compute Engine.

CPU dan memori pekerja

Setiap tugas Dataflow menggunakan setidaknya satu pekerja Dataflow. Layanan Dataflow menyediakan dua jenis pekerja: batch dan streaming. Pekerja batch dan streaming memiliki biaya layanan terpisah.

Pekerja Dataflow menggunakan resource berikut, masing-masing dikenai biaya per detik:

  • CPU
  • Memori

Pekerja batch dan streaming adalah resource khusus yang menggunakan Compute Engine. Namun, tugas Dataflow tidak menghasilkan penagihan Compute Engine untuk resource Compute Engine yang dikelola oleh layanan Dataflow. Sebagai gantinya, biaya layanan Dataflow meliputi penggunaan resource Compute Engine ini.

Anda dapat mengganti jumlah pekerja default untuk suatu tugas. Jika menggunakan penskalaan otomatis, Anda dapat menentukan jumlah maksimum pekerja yang akan dialokasikan ke suatu tugas. Pekerja dan masing-masing resource ditambahkan dan dihapus secara otomatis berdasarkan aktuasi penskalaan otomatis.

Selain itu, Anda dapat menggunakan opsi pipeline untuk mengganti setelan resource default, seperti jenis mesin, jenis disk, dan ukuran disk, yang dialokasikan ke setiap pekerja dan yang menggunakan GPU.

FlexRS

Dataflow memberikan opsi dengan harga diskon untuk CPU dan memori untuk batch processing. Penjadwalan Resource yang Fleksibel (FlexRS) menggabungkan VM reguler dan preemptible dalam satu kumpulan pekerja Dataflow, sehingga pengguna memiliki akses ke resource pemrosesan yang lebih murah. FlexRS juga menunda eksekusi tugas Dataflow batch dalam periode 6 jam guna mengidentifikasi titik waktu terbaik untuk memulai tugas berdasarkan resource yang tersedia.

Meskipun Dataflow menggunakan kombinasi pekerja untuk menjalankan tugas FlexRS, Anda akan dikenai tarif diskon yang sama sebesar sekitar 40% untuk biaya CPU dan memori dibandingkan dengan harga Dataflow reguler, terlepas dari jenis pekerjanya. Anda menginstruksikan Dataflow agar menggunakan FlexRS untuk pipeline batch yang diskalakan otomatis dengan menentukan parameter FlexRS.

Data Dataflow Shuffle diproses

Untuk pipeline batch, Dataflow menyediakan fitur yang sangat skalabel, Dataflow Shuffle, yang mengacak data di luar pekerja. Untuk mengetahui informasi selengkapnya, lihat Dataflow Shuffle.

Dataflow Shuffle mengenakan biaya berdasarkan volume data yang diproses selama shuffle.

Harga Streaming Engine

Untuk pipeline streaming, Dataflow Streaming Engine memindahkan pemrosesan status dan pengacakan streaming dari VM pekerja ke backend layanan Dataflow. Untuk informasi selengkapnya, lihat Streaming Engine.

Unit Komputasi Streaming Engine

Dengan penagihan berbasis resource, resource Streaming Engine diukur dalam Unit Komputasi Streaming Engine. Dataflow mengukur resource Streaming Engine yang digunakan setiap tugas, lalu menagih berdasarkan total resource yang digunakan oleh tugas tersebut. Guna mengaktifkan penagihan berbasis resource untuk tugas Anda, lihat Menggunakan penagihan berbasis resource. Saat Anda menggunakan penagihan berbasis resource, diskon yang ada akan otomatis diterapkan.

Saat menggunakan Dataflow Prime dengan penagihan berbasis resource, Anda akan ditagih berdasarkan total resource yang digunakan setiap tugas, tetapi SKU Data Compute Unit (DCU) digunakan sebagai pengganti SKU Streaming Engine Compute Unit.

Data Streaming Engine diproses (lama)

Dataflow terus mendukung penagihan yang diproses dengan data lama. Kecuali jika Anda mengaktifkan penagihan berbasis resource, tugas ditagih menggunakan penagihan yang diproses data.

Penagihan yang diproses data Streaming Engine mengukur penggunaan berdasarkan volume data streaming yang diproses, yang bergantung pada faktor berikut:

  • Volume data yang diserap ke pipeline streaming Anda
  • Kompleksitas pipeline
  • Jumlah stage pipeline dengan operasi acak atau dengan DoFns stateful

Contoh hal yang dihitung sebagai byte yang diproses mencakup item berikut:

  • Alur input dari sumber data
  • Alur data dari satu tahap pipeline yang menyatu ke tahap fusi lainnya
  • Alur data yang dipertahankan dalam status yang ditentukan pengguna atau digunakan untuk windowing
  • Pesan output ke sink data, seperti ke Pub/Sub atau BigQuery

Harga resource komputasi Dataflow - batch & FlexRS

Tabel berikut berisi detail harga untuk resource pekerja dan data Shuffle yang diproses untuk tugas batch dan FlexRS.

1 Setelan default pekerja batch: 1 vCPU, memori sebesar 3,75 GB, Persistent Disk sebesar 250 GB jika tidak menggunakan Dataflow Shuffle, Persistent Disk 25 GB jika menggunakan Dataflow Shuffle

2 Setelan default pekerja FlexRS: 2 vCPU, memori sebesar 7,50 GB, Persistent Disk sebesar 25 GB per pekerja, dengan minimal dua pekerja

Harga resource komputasi Dataflow - streaming

Tabel berikut berisi detail harga untuk resource pekerja, data Streaming Engine yang diproses (lama), dan Unit Komputasi Streaming Engine untuk tugas streaming.

Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda pada SKU Cloud Platform.

3 Setelan default pekerja streaming: 4 vCPU, memori sebesar 15 GB, Persistent Disk sebesar 400 GB jika tidak menggunakan Streaming Engine, Persistent Disk sebesar 30 GB jika menggunakan Streaming Engine. Layanan Dataflow saat ini dibatasi hingga 15 persistent disk per instance pekerja saat menjalankan tugas streaming. Rasio 1:1 antara pekerja dan disk adalah alokasi resource minimum.

4 Harga Dataflow Shuffle didasarkan pada penyesuaian volume yang diterapkan pada jumlah data yang diproses selama operasi baca dan tulis sambil mengacak set data. Untuk mengetahui informasi selengkapnya, lihat detail harga Dataflow Shuffle. Harga Dataflow Shuffle tidak berlaku untuk tugas Streaming Engine yang menggunakan penagihan berbasis resource.

5 Unit Komputasi Streaming Engine: untuk tugas streaming yang menggunakan Streaming Engine dan model penagihan berbasis resource. Tugas ini tidak akan ditagih untuk data yang diproses selama shuffle.

Penyesuaian volume untuk data Dataflow Shuffle yang diproses

Biaya dihitung per tugas Dataflow melalui penyesuaian volume yang diterapkan ke jumlah total data yang diproses selama operasi Dataflow Shuffle. Tagihan Anda yang sebenarnya untuk data Dataflow Shuffle yang diproses sama dengan tagihan harga penuh untuk jumlah data yang lebih kecil daripada jumlah yang diproses oleh tugas Dataflow. Perbedaan ini menyebabkan metrik data shuffle yang dapat ditagih menjadi lebih kecil daripada metrik total data shuffle yang diproses.

Tabel berikut menjelaskan cara penyesuaian ini diterapkan:

Data Dataflow Shuffle diproses Penyesuaian penagihan
250 GB pertama penurunan 75%
4870 GB berikutnya penurunan 50%
Sisa data di atas 5.120 GB (5 TB) tidak ada

Misalnya, jika pipeline Anda menghasilkan 1.024 GB (1 TB) dari total data Dataflow Shuffle yang diproses, jumlah yang dapat ditagih akan dihitung sebagai berikut:

250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate

Jika pipeline Anda menghasilkan 10.240 GB (10 TB) dari total data Dataflow Shuffle yang diproses, jumlah data yang dapat ditagih adalah:

250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB

Harga resource komputasi Dataflow Prime

Dataflow Prime adalah platform pemrosesan data yang dibangun di Dataflow untuk meningkatkan penggunaan resource dan diagnostik terdistribusi.

Resource komputasi yang digunakan oleh tugas Dataflow Prime diberi harga berdasarkan jumlah Data Compute Unit (DCU). DCU mewakili resource komputasi yang dialokasikan untuk menjalankan pipeline Anda. Resource Dataflow lainnya yang digunakan oleh tugas Dataflow Prime, seperti Persistent Disk, GPU, dan snapshot, ditagih secara terpisah.

Untuk mengetahui informasi selengkapnya tentang region yang tersedia dan zonanya, lihat halaman Region dan Zona Compute Engine.

Unit Komputasi Data

Data Compute Unit (DCU) adalah unit pengukuran penggunaan Dataflow yang melacak jumlah resource komputasi yang dipakai oleh tugas Anda. Resource yang dilacak oleh DCU mencakup vCPU, memori, data Dataflow Shuffle yang diproses (untuk tugas batch), dan data Streaming Engine yang diproses (untuk tugas streaming). Tugas yang menghabiskan lebih banyak resource memiliki lebih banyak penggunaan DCU dibandingkan dengan tugas yang mengonsumsi resource lebih sedikit. Satu DCU sebanding dengan resource yang digunakan oleh tugas Dataflow yang berjalan selama satu jam pada 1 pekerja vCPU 4 GB.

Penagihan Data Compute Unit

Anda akan ditagih untuk jumlah total DCU yang digunakan oleh tugas Anda. Harga satu DCU bervariasi berdasarkan apakah Anda memiliki tugas batch atau tugas streaming. Saat menggunakan Dataflow Prime dengan penagihan berbasis resource, Anda akan ditagih berdasarkan total resource yang digunakan, bukan proses byte.

Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda pada SKU Cloud Platform.

Mengoptimalkan penggunaan Unit Komputasi Data

Anda tidak dapat menetapkan jumlah DCU untuk tugas Anda. DCU dihitung oleh Dataflow Prime. Namun, Anda dapat mengurangi jumlah DCU yang digunakan dengan mengelola aspek tugas berikut:

  • Mengurangi konsumsi memori
  • Mengurangi jumlah data yang diproses dalam langkah-langkah pengacakan dengan menggunakan filter, penggabung, dan pembuat kode yang efisien

Untuk mengidentifikasi pengoptimalan ini, gunakan Antarmuka pemantauan Dataflow dan antarmuka detail eksekusi.

Apa perbedaan harga Dataflow Prime dengan harga Dataflow?

Di Dataflow, Anda dikenai biaya untuk berbagai resource yang digunakan tugas Anda, seperti vCPU, memori, Persistent Disk, dan jumlah data yang diproses oleh Dataflow Shuffle atau Streaming Engine.

Unit Komputasi Data menggabungkan semua resource, kecuali penyimpanan, ke dalam satu unit pengukuran. Anda akan dikenai biaya untuk resource Persistent Disk dan jumlah DCU yang digunakan berdasarkan jenis tugas, batch, atau streaming. Untuk mengetahui informasi selengkapnya, lihat Menggunakan Dataflow Prime.

Apa yang terjadi pada tugas lama yang menggunakan model harga Dataflow?

Tugas batch dan streaming Anda yang ada akan terus ditagih menggunakan model Dataflow. Saat Anda memperbarui tugas untuk menggunakan Dataflow Prime, tugas tersebut kemudian akan menggunakan model harga Dataflow Prime. Tugas tersebut akan dikenai biaya untuk resource Persistent Disk dan untuk DCU yang terpakai.

Referensi Dataflow lainnya

Penyimpanan, GPU, snapshot, dan resource lainnya ditagih dengan cara yang sama untuk Dataflow dan Dataflow Prime.

Harga resource penyimpanan

Resource penyimpanan ditagih dengan tarif yang sama untuk tugas streaming, batch, dan FlexRS. Anda dapat menggunakan opsi pipeline untuk mengubah ukuran disk atau jenis disk default. Dataflow Prime menagih Persistent Disk secara terpisah berdasarkan harga dalam tabel berikut.

Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda pada SKU Cloud Platform.

Layanan Dataflow saat ini dibatasi hingga 15 persistent disk per instance pekerja saat menjalankan tugas streaming. Setiap persistent disk bersifat lokal untuk virtual machine Compute Engine individual. Rasio 1:1 antara pekerja dan {i>disk<i} adalah alokasi resource minimum.

Tugas yang menggunakan Streaming Engine menggunakan disk boot sebesar 30 GB. Tugas yang menggunakan Dataflow Shuffle menggunakan boot disk sebesar 25 GB. Untuk tugas yang tidak menggunakan penawaran ini, ukuran default setiap persistent disk adalah 250 GB dalam mode batch dan 400 GB dalam mode streaming.

Penggunaan Compute Engine didasarkan pada jumlah rata-rata pekerja, sedangkan penggunaan Persistent Disk didasarkan pada nilai pasti --maxNumWorkers. Persistent Disk didistribusikan ulang sedemikian rupa sehingga setiap pekerja memiliki jumlah disk terpasang yang sama.

Harga resource GPU

Resource GPU ditagih dengan tarif yang sama untuk tugas streaming dan batch. FlexRS saat ini tidak mendukung GPU. Untuk mengetahui informasi tentang region dan zona yang tersedia untuk GPU, lihat Ketersediaan region dan zona GPU dalam dokumentasi Compute Engine.

Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda pada SKU Cloud Platform.

Snapshot

Untuk membantu mengelola keandalan pipeline streaming, Anda dapat menggunakan snapshot untuk menyimpan dan memulihkan status pipeline. Penggunaan snapshot ditagih berdasarkan volume data yang disimpan, yang bergantung pada faktor berikut:

  • Volume data yang diserap ke pipeline streaming Anda
  • Logika windowing Anda
  • Jumlah tahapan pipeline

Anda dapat mengambil snapshot tugas streaming menggunakan konsol Dataflow atau Google Cloud CLI. Tidak ada biaya tambahan untuk membuat tugas dari snapshot Anda guna memulihkan status pipeline Anda. Untuk mengetahui informasi selengkapnya, lihat Menggunakan snapshot Dataflow.

Harga snapshot

Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda pada SKU Cloud Platform.

Confidential VM

Confidential VM untuk Dataflow mengenkripsi data yang digunakan di VM Compute Engine worker. Untuk mengetahui detail selengkapnya, lihat konsep Confidential Computing.

Penggunaan Confidential VM untuk Dataflow akan menimbulkan biaya tambahan per vCPU dan per GB.

Harga Confidential VM

Harga bersifat global dan tidak berubah berdasarkan region Google Cloud.

Resource non-Dataflow

Selain penggunaan Dataflow, tugas mungkin menggunakan resource berikut, masing-masing dikenai biaya sesuai harganya sendiri, termasuk tetapi tidak terbatas pada:

Melihat penggunaan resource

Anda dapat melihat total resource vCPU, memori, dan Persistent Disk yang terkait dengan tugas di panel Info tugas di bagian Metrik resource. Anda dapat melacak metrik berikut di Antarmuka Monitoring Dataflow:

  • Total waktu vCPU
  • Total waktu penggunaan memori
  • Total waktu penggunaan Persistent Disk
  • Total data streaming yang diproses
  • Total data acak yang diproses
  • Data acak yang dapat ditagih diproses

Anda dapat menggunakan metrik Total data shuffle yang diproses untuk mengevaluasi performa pipeline dan metrik Data acak yang dapat ditagih untuk menentukan biaya tugas Dataflow.

Untuk Dataflow Prime, Anda dapat melihat jumlah total DCU yang digunakan oleh tugas di panel Job info di bagian Resource metrics.

Kalkulator harga

Gunakan Kalkulator Harga Google Cloud untuk membantu Anda memahami penghitungan tagihan Anda.

Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda pada SKU Cloud Platform.

Langkah selanjutnya

Meminta penawaran harga khusus

Dengan model harga bayar sesuai penggunaan Google Cloud, Anda hanya membayar untuk layanan yang Anda gunakan. Hubungi tim penjualan kami untuk mendapatkan penawaran harga khusus bagi organisasi Anda.
Hubungi bagian penjualan