Kuota dan batas

Dokumen ini mencantumkan kuota dan batas sistem yang berlaku untuk Dataflow.

  • Kuota menentukan jumlah resource bersama yang dapat dihitung dan dapat Anda gunakan. Kuota ditentukan oleh layanan Google Cloud seperti Dataflow.
  • Batas sistem adalah nilai tetap yang tidak dapat diubah.

Google Cloud menggunakan kuota untuk membantu memastikan keadilan dan mengurangi lonjakan penggunaan dan ketersediaan resource. Kuota membatasi jumlah resource Google Cloud yang dapat digunakan project Google Cloud Anda. Kuota berlaku untuk berbagai jenis resource, termasuk komponen hardware, software, dan jaringan. Misalnya, kuota dapat membatasi jumlah panggilan API ke layanan, jumlah load balancer yang digunakan secara bersamaan oleh project Anda, atau jumlah project yang dapat Anda buat. Kuota melindungi komunitas pengguna Google Cloud dengan mencegah kelebihan beban layanan. Kuota juga membantu Anda mengelola resource Google Cloud Anda sendiri.

Sistem Kuota Cloud melakukan hal berikut:

  • Memantau pemakaian produk dan layanan Google Cloud oleh Anda
  • Membatasi pemakaian resource tersebut
  • Memberikan cara untuk meminta perubahan pada nilai kuota

Pada umumnya, saat Anda mencoba menggunakan resource lebih dari kuota yang diizinkan, sistem akan memblokir akses ke resource, dan tugas yang Anda coba lakukan akan gagal.

Kuota umumnya berlaku di level project Google Cloud. Penggunaan resource di satu project tidak memengaruhi kuota yang tersedia di project lain. Dalam project Google Cloud, kuota dibagikan ke semua aplikasi dan alamat IP.

Untuk menyesuaikan sebagian besar kuota, gunakan Konsol Google Cloud. Untuk mengetahui informasi selengkapnya, lihat Meminta penyesuaian kuota.

Ada juga batas sistem pada resource Dataflow. Batas sistem tidak dapat diubah.

Layanan terkelola Dataflow memiliki kuota dan batas berikut:

  • Setiap project Google Cloud dapat membuat hingga 3.000.000 permintaan per menit.
  • Setiap tugas Dataflow dapat menggunakan maksimal 2.000 instance Compute Engine. Tanpa menentukan zona pekerja, setiap tugas streaming yang menggunakan Streaming Engine atau tugas batch yang menggunakan Dataflow Shuffle berbasis layanan dapat menggunakan maksimum 4.000 instance Compute Engine.
  • Setiap project Google Cloud dapat menjalankan maksimal 25 tugas Dataflow serentak secara default.
  • Setiap pekerja Dataflow memiliki batas maksimum log yang dapat dihasilkan dalam interval waktu. Lihat dokumentasi logging untuk mengetahui batas pastinya.
  • Jika Anda memilih untuk menggunakan kuota tingkat organisasi, setiap organisasi dapat menjalankan maksimal 125 tugas Dataflow serentak secara default.
  • Setiap pengguna dapat membuat hingga 15.000 permintaan pemantauan per menit.
  • Setiap pengguna dapat membuat hingga 60 permintaan pembuatan tugas per menit.
  • Setiap pengguna dapat membuat hingga 60 permintaan template tugas per menit.
  • Setiap pengguna dapat membuat hingga 60 permintaan pembaruan tugas per menit.
  • Setiap project Google Cloud mendapatkan slot pengacakan berikut di setiap region:
    • asia-east1: 48 slot
    • asia-northeast1: 24 slot
    • asia-northeast3: 32 slot
    • asia-south1: 64 slot
    • asia-southeast1: 64 slot
    • australia-southeast1: 24 slot
    • europe-west1: 640 slot
    • europe-west2: 32 slot
    • europe-west3: 40 slot
    • europe-west4: 512 slot
    • northamerica-northeast1: 512 slot
    • us-central1: 640 slot
    • us-east1: 640 slot
    • us-east4: 64 slot
    • us-west1: 384 slot
    • us-west2: 24 slot
    • us-west3: 24 slot
    • others: 16 slots
    16 slot cukup untuk mengacak sekitar 10 TB data secara serentak.
  • Tugas batch Dataflow akan dibatalkan setelah 10 hari.

Kuota Compute Engine

Saat Anda menjalankan pipeline di layanan Dataflow, Dataflow akan membuat instance Compute Engine untuk menjalankan kode pipeline Anda.

Kuota Compute Engine ditentukan per region. Tinjau kuota Compute Engine project Anda dan minta penyesuaian berikut jika diperlukan:

  • CPU: Di region berikut, jenis mesin default untuk Dataflow adalah n1-standard-1 untuk batch, n1-standard-2 untuk tugas yang menggunakan Streaming Engine, n1-standard-4 untuk tugas streaming yang tidak menggunakan Streaming Engine, dan n1-standard-2 untuk tugas yang menggunakan Flexible Resource Scheduling (FlexRS). FlexRS menggunakan 90% preemptible VM dan 10% VM reguler.
    • asia-east1
    • asia-east2
    • asia-northeast1
    • asia-northeast2
    • asia-northeast3
    • asia-south1
    • asia-south2
    • asia-southeast1
    • asia-southeast2
    • australia-southeast1
    • australia-southeast2
    • europe-central2
    • europe-north1
    • europe-west1
    • europe-west2
    • europe-west3
    • europe-west4
    • europe-west5
    • europe-west6
    • northamerica-northeast1
    • northamerica-northeast2
    • southamerica-east1
    • us-central1
    • us-central2
    • us-east1
    • us-east4
    • us-west1
    • us-west2
    • us-west3
    • us-west4

    Untuk region lain, jenis mesin default adalah e2-standard-2 untuk batch, e2-standard-2 untuk tugas yang menggunakan Streaming Engine, e2-standard-4 untuk tugas streaming yang tidak menggunakan Streaming Engine, dan e2-standard-2 untuk tugas yang menggunakan FlexRS.

    Compute Engine menghitung jumlah CPU dengan menjumlahkan jumlah total CPU setiap instance. Misalnya, menjalankan 10 instance n1-standard-4 dihitung sebagai 40 CPU. Untuk pemetaan jenis mesin ke jumlah CPU, lihat Jenis mesin Compute Engine.

  • Alamat IP yang Sedang Digunakan: Jumlah alamat IP yang sedang digunakan di project Anda harus memadai untuk mengakomodasi jumlah instance yang diinginkan. Untuk menggunakan 10 instance Compute Engine, Anda memerlukan 10 alamat IP yang sedang digunakan.
  • Persistent Disk: Dataflow memasang Persistent Disk ke setiap instance.
    • Ukuran disk default adalah 250 GB untuk batch dan 400 GB untuk pipeline streaming. Untuk 10 instance, secara default Anda memerlukan 2.500 GB Persistent Disk untuk tugas batch.
    • Ukuran disk default adalah 25 GB untuk pipeline batch Dataflow Shuffle.
    • Ukuran disk default adalah 30 GB untuk pipeline streaming Streaming Engine.
    • Layanan Dataflow saat ini dibatasi hingga 15 persistent disk per instance pekerja saat menjalankan tugas streaming. Setiap persistent disk bersifat lokal untuk setiap virtual machine Compute Engine. Rasio 1:1 antara pekerja dan disk adalah alokasi resource minimum.
    • Penggunaan Compute Engine didasarkan pada jumlah pekerja rata-rata, sedangkan penggunaan Persistent Disk didasarkan pada nilai persis --maxNumWorkers. Persistent Disk didistribusikan ulang sehingga setiap pekerja memiliki jumlah disk yang terpasang sama.
  • Grup Instance Terkelola Regional: Dataflow men-deploy instance Compute Engine Anda sebagai Grup Instance Terkelola Regional. Anda harus memastikan bahwa Anda memiliki kuota terkait berikut:
    • Satu Instance Group per tugas Dataflow
    • Satu Template Instance per tugas Dataflow
    • Satu Grup Instance Terkelola Regional per tugas Dataflow
  • Jika Grup Instance Terkelola tidak ada untuk tugas streaming selama lebih dari 7 hari, tugas akan dibatalkan.
  • Jika Grup Instance Terkelola tidak ada untuk tugas batch selama lebih dari 1 jam, tugas akan dibatalkan.

Kuota tambahan

Bergantung pada sumber dan sink yang Anda gunakan, Anda mungkin juga memerlukan kuota tambahan.

  1. Pub/Sub: Jika menggunakan Pub/Sub, Anda mungkin memerlukan kuota tambahan. Saat merencanakan kuota, perhatikan bahwa pemrosesan 1 pesan dari Pub/Sub melibatkan 3 operasi. Jika menggunakan stempel waktu kustom, Anda harus melipatgandakan jumlah operasi yang diharapkan, karena Dataflow akan membuat langganan terpisah untuk melacak stempel waktu kustom.
  2. BigQuery: Jika Anda menggunakan streaming API untuk BigQuery, batas kuota dan batasan lainnya berlaku.

Menemukan dan meningkatkan kuota

Anda dapat memeriksa penggunaan kuota khusus Dataflow saat ini:

  1. Di konsol Google Cloud, buka APIs & services.
    Buka API & Services
  2. Untuk memeriksa penggunaan kuota Slot acak saat ini, di tab Kuota, temukan baris Slot acak dalam tabel, dan di kolom Diagram Penggunaan, klik Tampilkan diagram penggunaan.

Jika Anda ingin meningkatkan kuota tugas, hubungi Dukungan Google Cloud, dan kami akan meningkatkan batas ke nilai yang lebih sesuai dengan kebutuhan Anda. Kuota default adalah 25 tugas Dataflow serentak untuk project Anda atau 125 tugas Dataflow serentak untuk organisasi Anda.

Selain itu, Anda dapat meningkatkan kuota Slot shuffle untuk tugas batch dengan mengirimkan permintaan dukungan dan menentukan ukuran set data Shuffle serentak maksimum yang diharapkan untuk semua tugas dalam project Anda. Sebelum meminta kuota Shuffle tambahan, jalankan pipeline menggunakan Dataflow Shuffle dan periksa penggunaan kuota Shuffle yang sebenarnya.

Untuk tugas streaming, Anda dapat meningkatkan throughput Streaming Engine dengan mengirimkan permintaan dukungan ke Dukungan Google Cloud Platform. Dalam permintaan Anda, tentukan jumlah maksimum data yang ingin Anda acak di antara pekerja setiap menit untuk setiap region tempat tugas Anda berjalan.

Layanan Dataflow juga menggunakan berbagai komponen Google Cloud, seperti BigQuery, Cloud Storage, Pub/Sub, dan Compute Engine. Layanan ini (dan layanan Google Cloud lainnya) menggunakan kuota untuk membatasi jumlah maksimum resource yang dapat Anda gunakan dalam project. Saat menggunakan Dataflow, Anda mungkin perlu menyesuaikan setelan kuota untuk layanan ini.

Dataflow Prime

Kuota dan batasnya sama untuk Dataflow dan Dataflow Prime. Jika memiliki kuota untuk Dataflow, Anda tidak memerlukan kuota tambahan untuk menjalankan tugas menggunakan Dataflow Prime.

Batas

Bagian ini menjelaskan batas produksi praktis untuk Dataflow.

Batas Jumlah
Jumlah maksimum pekerja per pipeline. 2.000
Ukuran maksimum untuk permintaan pembuatan tugas. Deskripsi pipeline dengan banyak langkah dan nama yang sangat panjang dapat mencapai batas ini. 10 MB
Ukuran maksimum untuk permintaan peluncuran template. 1 MB
Jumlah maksimum shard input samping. 20.000
Ukuran maksimum untuk satu elemen (kecuali jika kondisi yang lebih ketat berlaku, misalnya Streaming Engine). 2 GB
Ukuran kunci maksimum dalam pipeline batch. 1,5 MB
Jumlah maksimum entri log dalam jangka waktu tertentu, per pekerja. 15.000 pesan setiap 30 detik
Jumlah maksimum metrik kustom per project. 100
Durasi penyimpanan rekomendasi. 30 hari
Batas Mesin Streaming Jumlah
Byte maksimum untuk pesan Pub/Sub. 7 MB
Ukuran maksimum untuk satu nilai elemen. 80 MB
Ukuran maksimum kunci besar. Kunci yang berukuran lebih dari 64 KB menyebabkan penurunan performa. 2 MB
Ukuran maksimum untuk input samping. 80 MB
Panjang maksimum untuk tag status yang digunakan oleh TagValue dan TagBag. 64 KB