|

Harga Dataflow

Halaman ini menjelaskan harga untuk Dataflow. Untuk melihat harga produk lain, baca Dokumentasi harga.

Untuk mempelajari cara menghemat 40% dengan komitmen tiga tahun atau 20% dengan komitmen satu tahun, tinjau halaman diskon abonemen (CUD) kami.

Ringkasan

Penggunaan Dataflow dikenai biaya untuk resource yang digunakan oleh tugas Anda. Bergantung pada model harga yang Anda gunakan, resource diukur dan ditagih dengan cara yang berbeda.

Resource komputasi Dataflow Resource komputasi Dataflow Prime
Unit Komputasi Data (DCU)
(batch dan streaming)

Resource Dataflow lain yang ditagih untuk semua tugas mencakup Persistent Disk, GPU, dan snapshot.

Resource dari layanan lain dapat digunakan untuk tugas Dataflow. Layanan yang digunakan dengan Dataflow mungkin mencakup BigQuery, Pub/Sub, Cloud Storage, dan Cloud Logging, antara lain.

Meskipun tarif harganya adalah per jam, penggunaan Dataflow akan dikenakan biaya setiap kenaikan satu detik per tugas. Penggunaan dinyatakan dalam jam agar harga per jam diterapkan untuk penggunaan per detik. Misalnya, 30 menit sama dengan 0,5 jam. Pekerja dan tugas dapat menggunakan resource seperti yang dijelaskan di bagian berikut.

Rilis Dataflow mendatang mungkin memiliki biaya layanan yang berbeda atau paket layanan terkait.

Resource komputasi Dataflow

Penagihan Dataflow untuk resource komputasi mencakup komponen berikut:

Untuk mengetahui informasi selengkapnya tentang region yang tersedia beserta zonanya, lihat halaman Region dan Zona Compute Engine.

CPU dan memori worker

Setiap tugas Dataflow menggunakan setidaknya satu worker Dataflow. Layanan Dataflow menyediakan dua jenis worker: batch dan streaming. Pekerja batch dan streaming memiliki biaya layanan terpisah.

Worker Dataflow menggunakan resource berikut, masing-masing dikenakan biaya per detik:

  • CPU
  • Memori

Worker batch dan streaming adalah resource khusus yang menggunakan Compute Engine. Namun, tugas Dataflow tidak menghasilkan tagihan Compute Engine untuk resource Compute Engine yang dikelola oleh layanan Dataflow. Sebagai gantinya, biaya layanan Dataflow mencakup penggunaan resource Compute Engine tersebut.

Anda dapat mengganti jumlah pekerja default untuk suatu tugas. Jika menggunakan autoscaling, Anda dapat menentukan jumlah worker maksimum yang akan dialokasikan ke suatu tugas. Worker dan resource masing-masing akan ditambahkan dan dihapus secara otomatis berdasarkan aktuasi penskalaan otomatis.

Selain itu, Anda dapat menggunakan opsi pipeline untuk mengganti setelan resource default, seperti jenis mesin, jenis disk, dan ukuran disk, yang dialokasikan ke setiap worker dan yang menggunakan GPU.

FlexRS

Dataflow menyediakan opsi dengan harga CPU dan memori diskon untuk batch processing. Flexible Resource Scheduling (FlexRS) menggabungkan VM reguler dan preemptible dalam satu kumpulan worker Dataflow, sehingga memberi pengguna akses ke resource pemrosesan yang lebih murah. FlexRS juga menunda eksekusi tugas Dataflow batch dalam jangka waktu 6 jam untuk mengidentifikasi waktu terbaik untuk memulai tugas berdasarkan resource yang tersedia.

Meskipun Dataflow menggunakan kombinasi worker untuk menjalankan tugas FlexRS, Anda akan ditagih dengan tarif diskon seragam sebesar sekitar 40% untuk biaya CPU dan memori dibandingkan dengan harga Dataflow reguler, terlepas dari jenis worker-nya. Anda dapat menginstruksikan Dataflow untuk menggunakan FlexRS untuk pipeline batch yang diskalakan secara otomatis dengan menentukan parameter FlexRS.

Data Dataflow Shuffle yang diproses

Untuk pipeline batch, Dataflow menyediakan fitur yang sangat skalabel, Dataflow Shuffle, yang mengacak data di luar worker. Untuk mengetahui informasi selengkapnya, lihat Dataflow Shuffle.

Dataflow Shuffle mengenakan biaya berdasarkan volume data yang diproses selama shuffle.

Harga Streaming Engine

Untuk pipeline streaming, Dataflow Streaming Engine memindahkan shuffle streaming dan pemrosesan status dari worker VM ke backend layanan Dataflow. Untuk mengetahui informasi selengkapnya, lihat Streaming Engine.

Unit Komputasi Streaming Engine

Dengan penagihan berbasis resource, resource Streaming Engine diukur dalam Unit Compute Streaming Engine. Dataflow mengukur resource Streaming Engine yang digunakan setiap tugas, lalu menagih berdasarkan total resource yang digunakan oleh tugas tersebut. Untuk mengaktifkan penagihan berbasis resource untuk tugas Anda, lihat Menggunakan penagihan berbasis resource. Saat Anda menggunakan penagihan berbasis resource, diskon yang ada akan otomatis diterapkan.

Saat Anda menggunakan Dataflow Prime dengan penagihan berbasis resource, Anda akan ditagih berdasarkan total resource yang digunakan setiap tugas, tetapi SKU Data Compute Unit (DCU) digunakan, bukan SKU Compute Unit Streaming Engine.

Data Streaming Engine yang diproses (lama)

Dataflow terus mendukung penagihan pemrosesan data versi lama. Kecuali jika Anda mengaktifkan penagihan berbasis resource, tugas akan ditagih menggunakan penagihan pemrosesan data.

Penagihan pemrosesan data Streaming Engine mengukur penggunaan berdasarkan volume data streaming yang diproses, yang bergantung pada faktor-faktor berikut:

  • Volume data yang diserap ke dalam pipeline streaming Anda
  • Kompleksitas pipeline
  • Jumlah tahap pipeline dengan operasi shuffle atau dengan DoFn berstatus

Contoh hal yang dihitung sebagai byte yang diproses mencakup item berikut:

  • Input mengalir dari sumber data
  • Aliran data dari satu tahap pipeline fused ke tahap fused lainnya
  • Aliran data yang bertahan dalam status yang ditentukan pengguna atau digunakan untuk pembuatan periode
  • Mengoutput pesan ke sink data, seperti ke Pub/Sub atau BigQuery

Harga resource komputasi Dataflow - batch & FlexRS

Tabel berikut berisi detail harga untuk resource worker dan data Shuffle yang diproses untuk tugas batch dan FlexRS.

1 Setelan default pekerja batch: 1 vCPU, memori sebesar 3,75 GB, Persistent Disk sebesar 250 GB jika tidak menggunakan Dataflow Shuffle, Persistent Disk sebesar 25 GB jika menggunakan Dataflow Shuffle

2 Setelan default pekerja FlexRS: 2 vCPU, memori sebesar 7,50 GB, Persistent Disk sebesar 25 GB per pekerja, dengan minimal dua pekerja

Harga resource komputasi Dataflow - streaming

Tabel berikut berisi detail harga untuk resource worker, data Streaming Engine yang diproses (lama), dan Unit Komputasi Streaming Engine untuk tugas streaming.

Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda pada SKU Cloud Platform.

3 Setelan default pekerja streaming: 4 vCPU, memori sebesar 15 GB, Persistent Disk sebesar 400 GB jika tidak menggunakan Streaming Engine, Persistent Disk sebesar 30 GB jika menggunakan Streaming Engine. Layanan Dataflow saat ini dibatasi hingga 15 persistent disk per instance worker saat menjalankan tugas streaming. Rasio 1:1 antara worker dan disk adalah alokasi resource minimum.

4 Harga Dataflow Shuffle didasarkan pada penyesuaian volume yang diterapkan pada jumlah data yang diproses selama operasi baca dan tulis saat mengacak set data Anda. Untuk mengetahui informasi selengkapnya, lihat detail harga Dataflow Shuffle. Harga Dataflow Shuffle tidak berlaku untuk tugas Streaming Engine yang menggunakan penagihan berbasis resource.

5 Unit Komputasi Streaming Engine: untuk tugas streaming yang menggunakan Streaming Engine dan model penagihan berbasis resource. Tugas ini tidak ditagih untuk data yang diproses selama shuffle.

Penyesuaian volume untuk data Dataflow Shuffle yang diproses

Tagihan dihitung per tugas Dataflow melalui penyesuaian volume yang diterapkan pada total jumlah data yang diproses selama operasi Dataflow Shuffle. Tagihan aktual Anda untuk data Dataflow Shuffle yang diproses setara dengan ditagih harga penuh untuk jumlah data yang lebih kecil daripada jumlah yang diproses oleh tugas Dataflow. Perbedaan ini menyebabkan metrik data shuffle yang dapat ditagih dan diproses menjadi lebih kecil daripada metrik total data shuffle yang diproses.

Tabel berikut menjelaskan cara penyesuaian ini diterapkan:

Data Dataflow Shuffle yang diproses Penyesuaian penagihan
250 GB pertama Penurunan 75%
4870 GB berikutnya 50% lebih rendah
Data tersisa lebih dari 5120 GB (5 TB) tidak ada

Misalnya, jika pipeline Anda menghasilkan total data Dataflow Shuffle yang diproses sebesar 1024 GB (1 TB), jumlah yang dapat ditagih dihitung sebagai berikut:

250 GB * 25% + 774 GB * 50% = 449.5 GB * regional Dataflow Shuffle data processing rate

Jika pipeline Anda menghasilkan total data Dataflow Shuffle sebesar 10240 GB (10 TB) yang diproses, jumlah data yang dapat ditagih adalah:

250 GB * 25% + 4870 GB * 50% + 5120 GB = 7617.5 GB

Harga resource komputasi Dataflow Prime

Dataflow Prime adalah platform pemrosesan data yang dibangun di Dataflow untuk meningkatkan pemanfaatan resource dan diagnostik terdistribusi.

Resource komputasi yang digunakan oleh tugas Dataflow Prime dihargai berdasarkan jumlah Unit Komputasi Data (DCU). DCM mewakili resource komputasi yang dialokasikan untuk menjalankan pipeline Anda. Resource Dataflow lainnya yang digunakan oleh tugas Dataflow Prime, seperti Persistent Disk, GPU, dan snapshot, akan dikenai biaya terpisah.

Untuk mengetahui informasi selengkapnya tentang region yang tersedia beserta zonanya, lihat halaman Region dan Zona Compute Engine.

Unit Komputasi Data

Unit Komputasi Data (DCU) adalah unit pengukuran penggunaan Dataflow yang memantau jumlah resource komputasi yang digunakan oleh tugas Anda. Resource yang dilacak oleh DCM mencakup vCPU, memori, data Dataflow Shuffle yang diproses (untuk tugas batch), dan data Streaming Engine yang diproses (untuk tugas streaming). Tugas yang menghabiskan lebih banyak resource memiliki penggunaan DCU lebih banyak dibandingkan tugas yang menghabiskan lebih sedikit resource. Satu DCU sebanding dengan resource yang digunakan oleh tugas Dataflow yang berjalan selama satu jam pada worker 1 vCPU 4 GB.

Penagihan Unit Komputasi Data

Anda akan ditagih untuk total jumlah hitungan daya komputasi yang digunakan oleh tugas Anda. Harga satu DCU bervariasi tergantung apakah Anda memiliki tugas batch atau tugas streaming. Saat menggunakan Dataflow Prime dengan pembayaran berbasis resource, Anda akan ditagih berdasarkan total resource yang digunakan, bukan proses byte.

Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda pada SKU Cloud Platform.

Mengoptimalkan penggunaan Data Compute Unit

Anda tidak dapat menetapkan jumlah DCM untuk tugas Anda. DCU dihitung oleh Dataflow Prime. Namun, Anda dapat mengurangi jumlah DCP yang digunakan dengan mengelola aspek tugas Anda berikut:

  • Mengurangi penggunaan memori
  • Mengurangi jumlah data yang diproses dalam langkah-langkah pengacakan dengan menggunakan filter, kombinator, dan coder yang efisien

Untuk mengidentifikasi pengoptimalan ini, gunakan antarmuka pemantauan Dataflow dan antarmuka detail eksekusi.

Apa perbedaan harga Dataflow Prime dengan harga Dataflow?

Di Dataflow, Anda akan dikenai biaya untuk berbagai resource yang digunakan tugas Anda, seperti vCPU, memori, Persistent Disk, dan jumlah data yang diproses oleh Dataflow Shuffle atau Streaming Engine.

Data Compute Unit menggabungkan semua resource kecuali penyimpanan ke dalam satu unit pengukuran. Anda akan ditagih untuk resource Persistent Disk dan untuk jumlah DCU yang digunakan berdasarkan jenis tugas, batch atau streaming. Untuk mengetahui informasi selengkapnya, lihat Menggunakan Dataflow Prime.

Apa yang akan terjadi dengan tugas saya yang ada dan menggunakan model harga Dataflow?

Tugas batch dan streaming Anda yang sudah ada akan terus ditagih menggunakan model Dataflow. Saat Anda mengupdate tugas untuk menggunakan Dataflow Prime, tugas tersebut akan menggunakan model harga Dataflow Prime, yang akan menagih biaya untuk resource Persistent Disk dan DCU yang digunakan.

Referensi Dataflow lainnya

Penyimpanan, GPU, snapshot, dan resource lainnya dikenai biaya dengan cara yang sama untuk Dataflow dan Dataflow Prime.

Harga resource penyimpanan

Resource penyimpanan dikenai biaya dengan tarif yang sama untuk tugas streaming, batch, dan FlexRS. Anda dapat menggunakan opsi pipeline untuk mengubah ukuran disk atau jenis disk default. Dataflow Prime menagih biaya Persistent Disk secara terpisah berdasarkan harga dalam tabel berikut.

Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda pada SKU Cloud Platform.

Layanan Dataflow saat ini dibatasi hingga 15 persistent disk per instance worker saat menjalankan tugas streaming. Setiap persistent disk bersifat lokal untuk setiap virtual machine Compute Engine. Rasio 1:1 antara worker dan disk adalah alokasi resource minimum.

Tugas yang menggunakan Streaming Engine menggunakan boot disk berukuran 30 GB. Tugas yang menggunakan Dataflow Shuffle menggunakan disk boot 25 GB. Untuk tugas yang tidak menggunakan penawaran ini, ukuran default setiap persistent disk adalah 250 GB dalam mode batch dan 400 GB dalam mode streaming.

Penggunaan Compute Engine didasarkan pada jumlah rata-rata pekerja, sedangkan penggunaan Persistent Disk didasarkan pada nilai pasti --maxNumWorkers. Persistent Disk didistribusikan ulang sehingga setiap worker memiliki jumlah disk yang terpasang yang sama.

Harga resource GPU

Resource GPU dikenai biaya dengan tarif yang sama untuk streaming dan tugas batch. FlexRS saat ini tidak mendukung GPU. Untuk mengetahui informasi tentang region dan zona yang tersedia untuk GPU, lihat Ketersediaan zona dan region GPU dalam dokumentasi Compute Engine.

Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda pada SKU Cloud Platform.

Snapshot

Untuk membantu Anda mengelola keandalan pipeline streaming, Anda dapat menggunakan snapshot untuk menyimpan dan memulihkan status pipeline. Penggunaan snapshot ditagih berdasarkan volume data yang disimpan, yang bergantung pada faktor-faktor berikut:

  • Volume data yang diserap ke dalam pipeline streaming Anda
  • Logika periode Anda
  • Jumlah tahap pipeline

Anda dapat mengambil snapshot tugas streaming menggunakan konsol Dataflow atau Google Cloud CLI. Tidak ada biaya tambahan untuk membuat tugas dari snapshot Anda untuk memulihkan status pipeline Anda. Untuk mengetahui informasi selengkapnya, lihat Menggunakan snapshot Dataflow.

Harga snapshot

Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda pada SKU Cloud Platform.

Confidential VM

Confidential VM untuk Dataflow mengenkripsi data yang digunakan di VM Compute Engine worker. Untuk mengetahui detail selengkapnya, lihat Ringkasan Confidential VM.

Penggunaan Confidential VM untuk Dataflow akan dikenai biaya tetap tambahan per vCPU dan per GB.

Harga Confidential VM

Harga bersifat global dan tidak berubah berdasarkan region Google Cloud.

Resource non-Dataflow

Selain penggunaan Dataflow, tugas mungkin menggunakan resource berikut, masing-masing dikenakan biaya sesuai dengan harganya sendiri, termasuk tetapi tidak terbatas pada:

Melihat penggunaan resource

Anda dapat melihat total resource vCPU, memori, dan Persistent Disk yang terkait dengan suatu tugas di panel Job info di bagian Resource metrics. Anda dapat melacak metrik berikut di Dataflow Monitoring Interface:

  • Total waktu vCPU
  • Total waktu penggunaan memori
  • Total waktu penggunaan Persistent Disk
  • Total data streaming yang diproses
  • Total data shuffle yang diproses
  • Data shuffle yang dapat ditagih yang diproses

Anda dapat menggunakan metrik Total shuffle data processed untuk mengevaluasi performa pipeline dan metrik Billable shuffle data processed untuk menentukan biaya tugas Dataflow.

Untuk Dataflow Prime, Anda dapat melihat jumlah total DCU yang dikonsumsi oleh tugas di panel Job info di bagian Resource metrics.

Kalkulator harga

Gunakan Kalkulator Harga Google Cloud untuk membantu Anda memahami perhitungan tagihan Anda.

Jika Anda melakukan pembayaran dengan mata uang selain USD, yang berlaku adalah harga yang tercantum dalam mata uang Anda pada SKU Cloud Platform.

Langkah berikutnya

Meminta penawaran harga khusus

Dengan model harga bayar sesuai penggunaan Google Cloud, Anda hanya membayar untuk layanan yang Anda gunakan. Hubungi tim penjualan kami untuk mendapatkan penawaran harga khusus bagi organisasi Anda.
Hubungi bagian penjualan