Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Penjadwalan pengumpulan TPU untuk beban kerja inferensi
Trillium (v6e) menyertakan fitur yang disebut "penjadwalan pengumpulan" yang memungkinkan
Anda mengelompokkan sekumpulan slice TPU, satu atau multi-host, yang dimaksudkan untuk menayangkan replika
model yang sama. Fitur ini tersedia untuk konfigurasi Cloud TPU dan GKE.
Dokumen ini membahas penggunaan penjadwalan pengumpulan dengan Cloud TPU API. Lihat
dokumentasi GKE
untuk mengetahui informasi selengkapnya tentang penggunaan penjadwalan pengumpulan dengan GKE.
Dengan membuat koleksi untuk
beban kerja inferensi,
Google Cloud membatasi dan menyederhanakan
gangguan pada operasi beban kerja inferensi.
Hal ini berguna untuk workload inferensi dengan ketersediaan tinggi
sebagai masalah. Google Cloud memastikan ketersediaan tinggi
untuk pengumpulan guna mengelola traffic masuk. Sebagian
slice dalam koleksi selalu tersedia untuk menangani traffic masuk.
Setiap slice TPU dalam koleksi akan memiliki jenis dan topologi akselerator yang sama.
Membuat koleksi dari Cloud TPU API
Saat meminta resource yang diantrekan menggunakan Cloud TPU API, Anda menggunakan flag --workload-type=AVAILABILITY-OPTIMIZED untuk membuat koleksi. Flag ini menunjukkan kepada infrastruktur Cloud TPU bahwa infrastruktur tersebut
dimaksudkan untuk digunakan untuk workload yang berfokus pada ketersediaan.
Perintah berikut menyediakan koleksi menggunakan
Cloud TPU API:
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Sulit dipahami","hardToUnderstand","thumb-down"],["Informasi atau kode contoh salah","incorrectInformationOrSampleCode","thumb-down"],["Informasi/contoh yang saya butuhkan tidak ada","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-09-04 UTC."],[],[],null,["# TPU collection scheduling for inference workloads\n=================================================\n\nTrillium (v6e) includes a feature called \"collection scheduling\" that lets\nyou group a set of TPU slices, single or multi-host, intended to serve replicas\nof the same model. This feature is available for both Cloud TPU and GKE configurations.\n\nThis document is about using collection scheduling with the\nCloud TPU API. See the\n[GKE documentation](/kubernetes-engine/docs/concepts/tpus#collection-scheduling)\nfor more information about using collection scheduling with GKE.\n\nBy creating a collection for\nyour inference workload,\nGoogle Cloud limits and streamlines\ninterruptions to the operations of inference workloads.\nThis is useful for inference workloads where high availability\nis a concern. Google Cloud ensures high availability\nfor the collection to manage incoming traffic. A portion of\nslices within a collection is always available to handle incoming traffic.\n\nEach TPU slice in a collection will have the same accelerator type and topology.\n| **Note:** Collection scheduling only applies to v6e.\n\n### Create a collection from the Cloud TPU API\n\nWhen you request a queued resource using the Cloud TPU API,\nyou use the `--workload-type=AVAILABILITY-OPTIMIZED` flag to create a\ncollection. This flag indicates to the Cloud TPU infrastructure that it is\nmeant to be used for availability-focused workloads.\n\nThe following command provisions a collection using the\nCloud TPU API: \n\n```bash\ngcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \\\n --project=PROJECT_ID \\\n --zone=ZONE \\\n --accelerator-type=ACCELERATOR_TYPE \\\n --runtime-version=RUNTIME_VERSION \\\n --node-count=NODE_COUNT \\\n --node-prefix=NODE_PREFIX \\\n --workload-type=AVAILABILITY-OPTIMIZED\n```\n\nThe `--node-count` flag specifies the number of slices you want in your\nqueued resource. This creates a collection of TPU slices.\n\nOptional: The `--node-prefix` flag specifies a prefix for the slice names.\n| **Note:** The supported accelerator types are described in [v6e supported configurations](/tpu/docs/v6e#configurations)."]]