Halaman ini diterjemahkan oleh Cloud Translation API.

Merencanakan TPU di GKE

Autopilot Standard

Halaman ini menjelaskan cara merencanakan penggunaan Unit Pemrosesan Tensor (TPU) di Google Kubernetes Engine (GKE) untuk mengurangi risiko kesalahan konfigurasi TPU, error tidak tersedia, atau gangguan karena kuota habis.

Sebelum menggunakan TPU di GKE, pastikan Anda memahami definisi dan terminologi TPU di GKE.

Merencanakan konfigurasi TPU

Untuk menggunakan TPU di cluster GKE, Anda harus merencanakan konfigurasinya. Sebaiknya ikuti langkah-langkah berikut:

Memilih mode operasi GKE: Jalankan workload Anda di TPU dalam cluster GKE Autopilot atau Standard.

Praktik terbaik:
Gunakan cluster Autopilot untuk pengalaman Kubernetes yang terkelola sepenuhnya.
Pilih versi TPU: Berbagai jenis TPU memiliki kemampuan yang berbeda, seperti rasio harga-performa, throughput pelatihan, dan latensi penayangan. Jenis TPU memengaruhi kapasitas CPU dan memori yang tersedia.
Validasi ketersediaan TPU: TPU tersedia di region Google Cloudtertentu. Untuk menggunakan jenis TPU dalam workload GKE, cluster Anda harus berada di region yang didukung untuk jenis tersebut.
Pilih Topologi TPU: Susunan fisik TPU dalam slice TPU. Pilih topologi yang sesuai dengan persyaratan paralelisme model Anda.

Gunakan tabel referensi di halaman ini untuk mengidentifikasi apakah node pool Anda adalah node slice TPU multi-host atau satu host.

Memilih mode operasi GKE

Anda dapat menggunakan TPU dalam mode operasi GKE yang tersedia untuk cluster:

Mode Autopilot (direkomendasikan): GKE mengelola infrastruktur dasar seperti konfigurasi node, penskalaan otomatis, upgrade otomatis, konfigurasi keamanan dasar pengukuran, dan konfigurasi jaringan dasar pengukuran. Di Autopilot, Anda memilih jenis dan topologi TPU, lalu menentukannya dalam manifes Kubernetes. GKE mengelola penyediaan node dengan TPU dan penjadwalan workload Anda.
Mode Standard: Anda mengelola infrastruktur dasar, termasuk mengonfigurasi setiap node.

Untuk memilih mode operasi GKE yang paling sesuai untuk workload Anda, lihat Memilih mode operasi GKE.

Memilih opsi penggunaan TPU

Saat merencanakan konfigurasi TPU di GKE, pilih opsi konsumsi yang sesuai dengan kebutuhan workload Anda. Pilihan opsi penggunaan akan memengaruhi versi TPU yang tersedia dan kuota yang perlu Anda konfigurasi. GKE menawarkan opsi penggunaan TPU berikut untuk membantu Anda mengoptimalkan alokasi resource dan biaya sekaligus mempertahankan performa workload:

Mulai fleksibel: untuk mengamankan resource hingga tujuh hari, dengan GKE yang secara otomatis mengalokasikan hardware berdasarkan upaya terbaik berdasarkan ketersediaan. Untuk mengetahui informasi selengkapnya, lihat Tentang penyediaan GPU dan TPU dengan mode penyediaan mulai fleksibel.
Spot VM: untuk menyediakan Spot VM, Anda bisa mendapatkan diskon yang signifikan, tetapi Spot VM dapat di-preempt kapan saja, dengan peringatan 30 detik. Untuk mengetahui informasi selengkapnya, lihat Spot VM.
Pemesanan untuk masa mendatang hingga 90 hari (dalam mode kalender): untuk menyediakan resource TPU hingga 90 hari, untuk jangka waktu tertentu. Untuk mengetahui informasi selengkapnya, lihat Meminta TPU dengan pemesanan untuk masa mendatang dalam mode kalender.
Pemesanan TPU: untuk meminta pemesanan untuk masa mendatang selama satu tahun atau lebih.

Untuk memilih opsi penggunaan yang memenuhi persyaratan workload Anda, lihat Tentang opsi penggunaan akselerator untuk workload AI/ML di GKE.

Pilih versi TPU

VM dalam slice TPU memiliki karakteristik teknis berikut.

Autopilot

Versi TPU	Jenis mesin	Jumlah vCPU	Memori (GiB)	Jumlah node NUMA	Jumlah chip TPU maksimum dalam node slice TPU
TPU Trillium (v6e)	`tpu-v6e-slice`	44 hingga 180	176 hingga 1440	1 hingga 2	256
TPU v5p	`tpu-v5p-slice`	208	448	2	6.144
TPU v5e	`tpu-v5-lite-podslice`	24 hingga 224	48 hingga 384	1	256
TPU v4	`tpu-v4-podslice`	240	407	2	4.096
TPU v3 (khusus host tunggal)	`tpu-v3-device`	96	340	2	8
TPU v3	`tpu-v3-slice`	48	340	1	256

Standar

Versi TPU	Jenis mesin	Jumlah vCPU	Memori (GiB)	Jumlah node NUMA	Kemungkinan dibatalkan
TPU Trillium (v6e)	`ct6e-standard-1t`	44	448	2	Lebih tinggi
TPU Trillium (v6e)	`ct6e-standard-4t`	180	720	1	Sedang
TPU Trillium (v6e)	`ct6e-standard-8t`	180	1440	2	Lebih rendah
TPU v5p	`ct5p-hightpu-4t`	208	448	2
TPU v5e	`ct5lp-hightpu-1t`	24	48	1	Lebih tinggi
TPU v5e	`ct5lp-hightpu-4t`	112	192	1	Sedang
TPU v5e	`ct5lp-hightpu-8t`	224	384	1	Rendah
TPU v4	`ct4p-hightpu-4t`	240	407	2
TPU v3 (khusus host tunggal)	`ct3-hightpu-4t`	96	340	2
TPU v3	`ct3p-hightpu-4t`	48	340	1

Jenis mesin multi-host ct5lp- lebih cocok untuk menyalurkan model besar atau pelatihan. Mesin ct5lp- multi-host saling terhubung dengan link berkecepatan tinggi.

Tinjau spesifikasi dan harga TPU di dokumentasi harga Cloud TPU untuk memutuskan konfigurasi TPU yang akan digunakan.

Batasan

Pertimbangkan batasan berikut saat memilih TPU yang akan digunakan:

TPU Trillium tersedia dalam versi berikut:
- Cluster Standard dalam versi 1.31.1-gke.1846000 dan yang lebih baru.
- Cluster Autopilot dalam versi 1.31.2-gke.1115000 dan yang lebih baru.
TPU Trillium tidak mendukung konfigurasi SMT yang disetel ke 2 di ct6e-standard-8t.
Penskalaan otomatis TPU v5p didukung di cluster GKE dengan panel kontrol yang menjalankan setidaknya versi 1.29.2-gke.1035000 atau 1.28.7-gke.1020000.
Untuk reservasi kapasitas, gunakan reservasi khusus.
Anda dapat menjalankan maksimum 256 Pod dalam satu VM TPU.
Alokasi biaya GKE dan pengukuran penggunaan tidak menyertakan data apa pun terkait penggunaan atau biaya TPU.
Autoscaler cluster membatalkan operasi peningkatan skala TPU node pool yang masih dalam status menunggu selama lebih dari 10 jam. Autoscaler cluster mencoba kembali operasi peningkatan skala tersebut saat resource tersedia. Perilaku ini dapat mengurangi ketersediaan TPU jika Anda tidak menggunakan pemesanan.
Node Ubuntu tidak didukung.
Arsitektur TPU Node tidak digunakan lagi. TPU v3 adalah satu-satunya versi TPU yang masih mendukung arsitektur TPU Node di GKE.

Memvalidasi ketersediaan TPU di GKE

TPU tersedia di Google Cloud region tertentu. Untuk menggunakan jenis TPU di cluster GKE, cluster Anda harus berada di region yang didukung untuk jenis tersebut.

Autopilot

Versi TPU	`cloud.google.com/gke-tpu-accelerator`	Versi GKE minimum	Ketersediaan	Zona
TPU Trillium (v6e)	`tpu-v6e-slice`	1.31.2-gke.1384000	GA	`asia-northeast1-b` `europe-west4-a` `us-central1-b` `us-east1-d` `us-east5-a` `us-east5-b` `southamerica-west1-a`
TPU v5e	`tpu-v5-lite-podslice`	1.27.2-gke.2100	GA	`europe-west4-b` `us-central1-a` `us-south1-a` `us-west1-c` `us-west4-a`
TPU v5p	`tpu-v5p-slice`	1.28.3-gke.1024000	GA	`europe-west4-b` `us-central1-a` `us-east5-a`
TPU v4	`tpu-v4-podslice`	1.26.1-gke.1500	GA	`us-central2-b`
TPU v3	`tpu-v3-slice`	1.31.1-gke.1146000	GA	`us-central1-a` `us-central1-b` `europe-west4-a`
TPU v3	`tpu-v3-device`	1.31.0-gke.1500	GA	`us-central1-a` `us-central1-b` `europe-west4-a`

Standar

Versi TPU	Jenis mesin yang diawali dengan	Versi GKE minimum	Ketersediaan	Zona
TPU Trillium (v6e)	`ct6e-`	1.31.2-gke.1115000	GA	`asia-northeast1-b` `europe-west4-a` `us-central1-b` `us-east1-d` `us-east5-a` `us-east5-b` `southamerica-west1-a`
TPU v5e	`ct5lp-`	1.27.2-gke.2100	GA	`europe-west4-b` `us-central1-a` `us-south1-a` `us-west1-c` `us-west4-a`
TPU v5p	`ct5p-`	1.28.3-gke.1024000	GA	`europe-west4-b` `us-central1-a` `us-east5-a`
TPU v4	`ct4p-`	1.26.1-gke.1500	GA	`us-central2-b`
TPU v3	`ct3p-`	1.31.1-gke.1146000	GA	`us-central1-a` `us-central1-b` `europe-west4-a`
TPU v3	`ct3-`	1.31.0-gke.1500	GA	`us-central1-a` `us-central1-b` `europe-west4-a`

Pilih topologi

Setelah Anda memutuskan versi TPU, pilih topologi yang didukung oleh jenis TPU tersebut. Bergantung pada jenis TPU, topologinya dua atau tiga dimensi. Persyaratan paralelisme model Anda membantu Anda memutuskan topologi. Anda dapat mengidentifikasi jumlah chip TPU dalam slice dengan menghitung hasil kali setiap ukuran dalam topologi. Contoh:

2x2x2 adalah slice TPU v4 multi-host 8 chip
2x2 adalah slice TPU v5e host tunggal 4 chip

Jika topologi tertentu mendukung node slice TPU host tunggal dan multi-host, jumlah chip TPU yang diminta workload Anda akan menentukan jenis host.

Misalnya, TPU v5e (tpu-v5-lite-podslice) mendukung topologi 2x4 sebagai host tunggal dan multi-host. Jika Anda:

Meminta 4 chip dalam workload, Anda akan mendapatkan node multi-host yang memiliki 4 chip TPU.
Minta 8 chip dalam workload Anda, Anda akan mendapatkan node single-host yang memiliki 8 chip TPU.

Gunakan tabel berikut untuk memilih jenis mesin dan topologi TPU untuk kasus penggunaan Anda:

Untuk pelatihan atau inferensi model berskala kecil, gunakan TPU v4 atau TPU v5e dengan node pool slice TPU host tunggal.
Untuk pelatihan atau inferensi model berskala besar, gunakan TPU v4 atau TPU v5e dengan node pool slice TPU multi-host.
Untuk pelatihan atau inferensi berskala besar, gunakan Pathways. Pathways menyederhanakan komputasi machine learning berskala besar dengan memungkinkan satu klien JAX mengatur workload di beberapa slice TPU besar. Untuk mengetahui informasi selengkapnya, lihat Pathways.

Autopilot

Setelah memilih jenis dan topologi TPU, tentukan jenis dan topologi tersebut dalam manifes workload Anda. Untuk mengetahui petunjuknya, lihat Men-deploy workload TPU di Autopilot GKE.

Versi TPU	Jenis mesin	Jenis node pool	Spesifikasi teknis
TPU Trillium (v6e)	`tpu-v6e-slice`	Host tunggal	Topologi: 1x1 Jumlah TPU chip: 1 Jumlah VM: 1
TPU Trillium (v6e)	`tpu-v6e-slice`	Host tunggal	Topologi: 2x2 Jumlah TPU chip: 4 Jumlah VM: 4
TPU Trillium (v6e)	`tpu-v6e-slice`	Host tunggal	Topologi: 2x4 Jumlah TPU chip: 8 Jumlah VM: 8
TPU Trillium (v6e)	`tpu-v6e-slice`	Multi-host	Topologi: 4x4 Jumlah TPU chip: 16 Jumlah VM: 4
TPU Trillium (v6e)	`tpu-v6e-slice`	Multi-host	Topologi: 4x8 Jumlah chip TPU: 32 Jumlah VM: 8
TPU Trillium (v6e)	`tpu-v6e-slice`	Multi-host	Topologi: 8x8 Jumlah chip TPU: 64 Jumlah VM: 16
TPU Trillium (v6e)	`tpu-v6e-slice`	Multi-host	Topologi: 8x16 Jumlah TPU chip: 128 Jumlah VM: 32
TPU Trillium (v6e)	`tpu-v6e-slice`	Multi-host	Topologi: 16x16 Jumlah chip TPU: 256 Jumlah VM: 64
TPU v5p	`tpu-v5p-slice`	Host tunggal	Topologi: 2x2x1 Jumlah TPU chip: 4 Jumlah VM: 1
TPU v5p	`tpu-v5p-slice`	Multi-host	Topologi: 2x2x2 Jumlah TPU chip: 8 Jumlah VM: 2
TPU v5p	`tpu-v5p-slice`	Multi-host	Topologi: 2x2x4 Jumlah TPU chip: 16 Jumlah VM: 4
TPU v5p	`tpu-v5p-slice`	Multi-host	Topologi: 2x4x4 Jumlah chip TPU: 32 Jumlah VM: 8
TPU v5p	`tpu-v5p-slice`	Multi-host	Topologi: 4x4x4 Jumlah chip TPU: 64 Jumlah VM: 16
TPU v5p	`tpu-v5p-slice`	Multi-host	Topologi: {A}x{B}x{C} Jumlah TPU chip: {A}{B}{C} Jumlah VM: (ABC/4)¹
TPU v5e	`tpu-v5-lite-podslice`	Host tunggal	Topologi: 1x1 Jumlah TPU chip: 1 Jumlah VM: 1
TPU v5e	`tpu-v5-lite-podslice`	Host tunggal	Topologi: 2x2 Jumlah TPU chip: 4 Jumlah VM: 1
TPU v5e	`tpu-v5-lite-podslice`	Host tunggal	Topologi: 2x4 Jumlah TPU chip: 8 Jumlah VM: 1
TPU v5e	`tpu-v5-lite-podslice`	Multi-host	Topologi: 2x4 Jumlah TPU chip: 8 Jumlah VM: 2
TPU v5e	`tpu-v5-lite-podslice`	Multi-host	Topologi: 4x4 Jumlah TPU chip: 16 Jumlah VM: 4
TPU v5e	`tpu-v5-lite-podslice`	Multi-host	Topologi: 4x8 Jumlah chip TPU: 32 Jumlah VM: 8
TPU v5e	`tpu-v5-lite-podslice`	Multi-host	Topologi: 8x8 Jumlah chip TPU: 64 Jumlah VM: 16
TPU v5e	`tpu-v5-lite-podslice`	Multi-host	Topologi: 8x16 Jumlah TPU chip: 128 Jumlah VM: 32
TPU v5e	`tpu-v5-lite-podslice`	Multi-host	Topologi: 16x16 Jumlah chip TPU: 256 Jumlah VM: 64
TPU v5e (khusus host tunggal)	`tpu-v5-lite-device`	Host tunggal	Topologi: 1x1 Jumlah TPU chip: 1 Jumlah VM: 1
TPU v5e (khusus host tunggal)	`tpu-v5-lite-device`	Host tunggal	Topologi: 2x2 Jumlah TPU chip: 4 Jumlah VM: 1
TPU v5e (khusus host tunggal)	`tpu-v5-lite-device`	Host tunggal	Topologi: 2x4 Jumlah TPU chip: 8 Jumlah VM: 1
TPU v4	`tpu-v4-podslice`	Host tunggal	Topologi: 2x2x1 Jumlah TPU chip: 4 Jumlah VM: 1
TPU v4	`tpu-v4-podslice`	Multi-host	Topologi: 2x2x2 Jumlah TPU chip: 8 Jumlah VM: 2
TPU v4	`tpu-v4-podslice`	Multi-host	Topologi: 2x2x4 Jumlah TPU chip: 16 Jumlah VM: 4
TPU v4	`tpu-v4-podslice`	Multi-host	Topologi: 2x4x4 Jumlah chip TPU: 32 Jumlah VM: 8
TPU v4	`tpu-v4-podslice`	Multi-host	Topologi: 4x4x4 Jumlah chip TPU: 64 Jumlah VM: 16
TPU v4	`tpu-v4-podslice`	Multi-host	Topologi: {A}x{B}x{C} Jumlah TPU chip: {A}{B}{C} Jumlah VM: (ABC/4)¹
TPU v3	`tpu-v3-slice`	Multi-host	Topologi: 4x4 Jumlah TPU chip: 16 Jumlah VM: 2
TPU v3	`tpu-v3-slice`	Multi-host	Topologi: 4x8 Jumlah chip TPU: 32 Jumlah VM: 4
TPU v3	`tpu-v3-slice`	Multi-host	Topologi: 8x8 Jumlah chip TPU: 64 Jumlah VM: 8
TPU v3	`tpu-v3-slice`	Multi-host	Topologi: 8x16 Jumlah TPU chip: 128 Jumlah VM: 16
TPU v3	`tpu-v3-slice`	Multi-host	Topologi: 16x16 Jumlah chip TPU: 256 Jumlah VM: 32
TPU v3	`tpu-v3-device`	Host tunggal	Topologi: 2x2 Jumlah TPU chip: 4 Jumlah VM: 1

Dihitung dengan produk topologi dibagi empat. ↩

Topologi kustom untuk lebih dari 64 chip didukung. Kondisi berikut berlaku:
- Untuk lebih dari 64 chip, {A}, {B}, dan {C} harus kelipatan 4
- Topologi terbesar adalah 16x16x24
- Nilainya harus {A}≤{B}≤{C}, seperti 8x12x16.
Topologi kustom tidak didukung.

Standar

Setelah memilih jenis dan topologi TPU, tentukan jenis dan topologi tersebut dalam manifes workload Anda. Untuk mengetahui petunjuknya, lihat Men-deploy workload TPU di GKE Standard.

Versi TPU	Jenis mesin	Jenis node pool	Spesifikasi teknis
TPU Trillium (v6e)	`ct6e-standard-1t`	Host tunggal	Topologi: 1x1 Jumlah TPU chip: 1 Jumlah VM: 1
TPU Trillium (v6e)	`ct6e-standard-8t`	Host tunggal	Topologi: 2x4 Jumlah TPU chip: 8 Jumlah VM: 1
TPU Trillium (v6e)	`ct6e-standard-4t`	Host tunggal	Topologi: 2x2 Jumlah TPU chip: 4 Jumlah VM: 1
TPU Trillium (v6e)	`ct6e-standard-4t`	Multi-host	Topologi: 2x4 Jumlah TPU chip: 8 Jumlah VM: 2
TPU Trillium (v6e)	`ct6e-standard-4t`	Multi-host	Topologi: 4x4 Jumlah TPU chip: 16 Jumlah VM: 4
TPU Trillium (v6e)	`ct6e-standard-4t`	Multi-host	Topologi: 4x8 Jumlah chip TPU: 32 Jumlah VM: 8
TPU Trillium (v6e)	`ct6e-standard-4t`	Multi-host	Topologi: 8x8 Jumlah chip TPU: 64 Jumlah VM: 16
TPU Trillium (v6e)	`ct6e-standard-4t`	Multi-host	Topologi: 8x16 Jumlah TPU chip: 128 Jumlah VM: 32
TPU Trillium (v6e)	`ct6e-standard-4t`	Multi-host	Topologi: 16x16 Jumlah chip TPU: 256 Jumlah VM: 64
TPU v5p	`ct5p-hightpu-4t`	Host tunggal	Topologi: 2x2x1 Jumlah TPU chip: 4 Jumlah VM: 1
TPU v5p	`ct5p-hightpu-4t`	Multi-host	Topologi: 2x2x2 Jumlah TPU chip: 8 Jumlah VM: 2
TPU v5p	`ct5p-hightpu-4t`	Multi-host	Topologi: 2x2x4 Jumlah TPU chip: 16 Jumlah VM: 4
TPU v5p	`ct5p-hightpu-4t`	Multi-host	Topologi: 2x4x4 Jumlah chip TPU: 32 Jumlah VM: 8
TPU v5p	`ct5p-hightpu-4t`	Multi-host	Topologi: {A}x{B}x{C} Jumlah chip TPU: ABC Jumlah VM: (ABC/4)¹
TPU v5e	`ct5lp-hightpu-1t`	Host tunggal	Topologi: 1x1 Jumlah TPU chip: 1 Jumlah VM: 1
TPU v5e	`ct5lp-hightpu-4t`	Host tunggal	Topologi: 2x2 Jumlah TPU chip: 4 Jumlah VM: 1
TPU v5e	`ct5lp-hightpu-8t`	Host tunggal	Topologi: 2x4 Jumlah TPU chip: 8 Jumlah VM: 1
TPU v5e	`ct5lp-hightpu-4t`	Multi-host	Topologi: 2x4 Jumlah TPU chip: 8 Jumlah VM: 2
TPU v5e	`ct5lp-hightpu-4t`	Multi-host	Topologi: 4x4 Jumlah TPU chip: 16 Jumlah VM: 4
TPU v5e	`ct5lp-hightpu-4t`	Multi-host	Topologi: 4x8 Jumlah chip TPU: 32 Jumlah VM: 8
TPU v5e	`ct5lp-hightpu-4t`	Multi-host	Topologi: 8x8 Jumlah chip TPU: 64 Jumlah VM: 16
TPU v5e	`ct5lp-hightpu-4t`	Multi-host	Topologi: 8x16 Jumlah TPU chip: 128 Jumlah VM: 32
TPU v5e	`ct5p-hightpu-4t`	Multi-host	Topologi: 2x4x4 Jumlah chip TPU: 32 Jumlah VM: 8
TPU v5e	`ct5p-hightpu-4t`	Host tunggal	Topologi: 2x2x1 Jumlah TPU chip: 4 Jumlah VM: 1
TPU v4	`ct4p-hightpu-4t`	Multi-host	Topologi: 2x2x2 Jumlah TPU chip: 8 Jumlah VM: 2
TPU v4	`ct4p-hightpu-4t`	Multi-host	Topologi: 2x2x4 Jumlah TPU chip: 16 Jumlah VM: 4
TPU v4	`ct4p-hightpu-4t`	Multi-host	Topologi: 2x4x4 Jumlah chip TPU: 32 Jumlah VM: 8
TPU v4	`ct4p-hightpu-4t`	Multi-host	Topologi: {A}x{B}x{C} Jumlah chip TPU: ABC Jumlah VM: (ABC/4)¹
TPU v3	`ct3-hightpu-4t`	Host tunggal	Topologi: 2x2 Jumlah TPU chip: 4 Jumlah VM: 1
TPU v3	`ct3p-hightpu-4t`	Multi-host	Topologi: 4x4 Jumlah TPU chip: 16 Jumlah VM: 4
TPU v3	`ct3p-hightpu-4t`	Multi-host	Topologi: 4x8 Jumlah chip TPU: 32 Jumlah VM: 8
TPU v3	`ct3p-hightpu-4t`	Multi-host	Topologi: 8x8 Jumlah chip TPU: 64 Jumlah VM: 16
TPU v3	`ct3p-hightpu-4t`	Multi-host	Topologi: 8x16 Jumlah TPU chip: 128 Jumlah VM: 32
TPU v3	`ct3p-hightpu-4t`	Multi-host	Topologi: 16x16 Jumlah chip TPU: 256 Jumlah VM: 64
TPU v3	`ct3p-hightpu-4t`	Multi-host	Topologi: 16x32 Jumlah chip TPU: 512 Jumlah VM: 128
TPU v3	`ct3p-hightpu-4t`	Multi-host	Topologi: 32x32 Jumlah TPU chip: 1024 Jumlah VM: 256

Dihitung dengan produk topologi dibagi empat. ↩

Konfigurasi lanjutan

Bagian berikut menjelaskan praktik terbaik penjadwalan untuk konfigurasi TPU lanjutan.

Menskalakan TPU secara otomatis di GKE

GKE mendukung Tensor Processing Unit (TPU) untuk mempercepat beban kerja machine learning. Node pool slice TPU host tunggal dan node pool slice TPU multi-host mendukung penskalaan otomatis dan penyediaan otomatis.

Dengan tanda --enable-autoprovisioning di cluster GKE, GKE membuat atau menghapus node pool slice TPU host tunggal atau multi-host dengan versi dan topologi TPU yang memenuhi persyaratan workload yang tertunda.

Saat Anda menggunakan --enable-autoscaling, GKE akan menskalakan node pool berdasarkan jenisnya, sebagai berikut:

Node pool slice TPU host tunggal: GKE menambahkan atau menghapus node TPU di node pool yang ada. Node pool dapat berisi sejumlah node TPU antara nol dan ukuran maksimum node pool sebagaimana ditentukan oleh flag --max-nodes dan --total-max-nodes. Saat node pool diskalakan, semua node TPU dalam node pool memiliki jenis mesin dan topologi yang sama. Untuk mempelajari lebih lanjut cara membuat node pool slice TPU host tunggal, lihat Membuat node pool.
Node pool slice TPU multi-host: GKE akan menskalakan node pool secara atomik dari nol hingga jumlah node yang diperlukan untuk memenuhi topologi TPU. Misalnya, dengan TPU node pool dengan jenis mesin ct5lp-hightpu-4t dan topologi 16x16, node pool berisi 64 node. Penskalator otomatis GKE memastikan bahwa node pool ini memiliki tepat 0 atau 64 node. Saat menskalakan kembali, GKE akan mengeluarkan semua pod terjadwal, dan menghentikan seluruh node pool hingga nol. Untuk mempelajari lebih lanjut cara membuat node pool slice TPU multi-host, lihat Membuat node pool.

Menyediakan penyimpanan tambahan untuk slice TPU

VM dalam slice TPU mencakup boot disk 100 GiB. Jika slice TPU Anda memerlukan penyimpanan tambahan untuk pelatihan atau praproses, atau jika Anda perlu menyimpan titik pemeriksaan, Anda dapat menggunakan penyimpanan Google Cloud Hyperdisk atau Balanced Persistent Disk jika tersedia untuk TPU Anda. Untuk mengetahui informasi selengkapnya tentang jenis disk yang didukung untuk setiap versi TPU, lihat Dukungan TPU untuk Hyperdisk dan Persistent Disk.

CPU untuk cluster Standard

Bagian ini tidak berlaku untuk cluster Autopilot karena GKE menempatkan setiap slice TPU di nodenya sendiri. Untuk mempelajari lebih lanjut, lihat Cara kerja TPU dalam mode Autopilot.

Untuk cluster Standard, pertimbangkan praktik terbaik penjadwalan berikut.

Untuk menjadwalkan beban kerja non-TPU di VM dalam node slice TPU, pastikan Pod GKE Anda dapat menoleransi taint google.com/tpu. Jika Anda ingin beban kerja di-deploy ke node tertentu, gunakan pemilih node.

Pengelolaan resource dan prioritas Kubernetes memperlakukan VM di TPU sama seperti jenis VM lainnya. Untuk memberikan prioritas penjadwalan pada Pod yang memerlukan TPU daripada Pod lain pada node yang sama, mintalah CPU atau memori maksimum untuk slice TPU tersebut. Slice TPU prioritas rendah harus melakukan hal berikut:

Tetapkan permintaan CPU dan memori yang rendah untuk memastikan node memiliki resource yang dapat dialokasikan yang cukup untuk workload TPU. Untuk mempelajari lebih lanjut, baca artikel Cara Kubernetes menerapkan permintaan dan batas resource.
Tetapkan tanpa batas CPU (tidak terbatas) untuk memastikan bahwa Pod dapat melakukan burst untuk menggunakan semua siklus yang tidak digunakan.
Tetapkan batas memori yang sesuai untuk memastikan Pod dapat berfungsi dengan benar tanpa risiko pengusiran karena tekanan node.

Jika Pod Kubernetes tidak meminta CPU dan memori (sekalipun meminta TPU), Kubernetes akan menganggapnya sebagai upaya terbaik, dan tidak ada jaminan bahwa pod tersebut memerlukan CPU dan memori apa pun. Hanya Pod yang secara eksplisit meminta CPU dan memori yang memiliki jaminan tersebut. Untuk penjadwalan Kubernetes tertentu, konfigurasi kebutuhan Pod dengan permintaan CPU dan memori eksplisit. Untuk mengetahui informasi selengkapnya, lihat Pengelolaan Resource untuk Pod dan Container.

Untuk mempelajari praktik terbaik lainnya, lihat Praktik terbaik Kubernetes: Permintaan dan batas resource.

Mengurangi gangguan workload

Jika Anda menggunakan TPU untuk melatih model machine learning dan workload Anda terganggu, semua pekerjaan yang dilakukan seak checkpoint terakhir akan hilang. Untuk mengurangi kemungkinan bahwa workload terganggu, lakukan langkah berikut:

Tetapkan prioritas yang lebih tinggi untuk Tugas ini daripada semua Tugas lain: Jika resource langka, penjadwal GKE akan mendahului Tugas dengan prioritas lebih rendah untuk menjadwalkan Tugas dengan prioritas lebih tinggi. Hal ini juga memastikan bahwa beban kerja yang berprioritas lebih tinggi menerima semua resource yang diperlukannya (hingga total resource yang tersedia dalam cluster). Untuk mempelajari lebih lanjut, lihat Prioritas dan preemption Pod.
Mengonfigurasi pengecualian pemeliharaan: Pengecualian pemeliharaan adalah jangka waktu yang tidak berulang saat pemeliharaan otomatis dilarang. Untuk mempelajari lebih lanjut, lihat Pengecualian pemeliharaan.
Menggunakan Pod dengan waktu berjalan yang diperpanjang di Autopilot: Gunakan Pod dengan waktu berjalan yang diperpanjang untuk masa tenggang hingga tujuh hari sebelum GKE menghentikan Pod Anda untuk penurunan skala atau upgrade node.
Menggunakan penjadwalan pengumpulan di TPU Trillium: Gunakan pengumpulan untuk menunjukkan bahwa node pool slice TPU adalah bagian dari beban kerja penayangan. Google Cloud membatasi dan menyederhanakan gangguan pada operasi beban kerja inferensi. Untuk mempelajari lebih lanjut, lihat Cara kerja penjadwalan pengumpulan data.

Rekomendasi ini membantu meminimalkan gangguan, tetapi tidak mencegahnya. Misalnya, preemption karena kegagalan hardware atau preemption untuk defragmentasi masih dapat terjadi. Demikian pula, menyetel pengecualian pemeliharaan GKE tidak akan mencegah peristiwa pemeliharaan Compute Engine.

Praktik terbaik:

Simpan checkpoint secara rutin dan tambahkan kode ke skrip pelatihan untuk memulai dari checkpoint terakhir saat dilanjutkan.

Menangani gangguan karena pemeliharaan node

Node GKE yang menghosting TPU tunduk pada peristiwa pemeliharaan atau gangguan lain yang dapat menyebabkan penonaktifan node. Di cluster GKE dengan bidang kontrol yang menjalankan versi 1.29.1-gke.1425000 dan yang lebih baru, Anda dapat mengurangi gangguan pada workload dengan mengonfigurasi GKE untuk menghentikan workload Anda dengan benar.

Untuk memahami, mengonfigurasi, dan memantau peristiwa gangguan yang mungkin terjadi pada node GKE yang menjalankan workload AI/ML, lihat Mengelola gangguan node GKE untuk GPU dan TPU.

Memaksimalkan pemanfaatan TPU

Untuk memaksimalkan investasi dalam TPU, jadwalkan campuran prioritas Tugas dan antrekan untuk memaksimalkan waktu operasi TPU. Untuk penjadwalan dan preemption tingkat Tugas, Anda harus menggunakan add-on untuk Kubernetes yang mengatur Tugas ke dalam antrean.

Praktik terbaik:

Gunakan Kueue untuk mengatur Tugas ke dalam antrean.

Langkah berikutnya

Ikuti artikel Men-deploy workload TPU di GKE untuk menyiapkan Cloud TPU dengan GKE.
Pelajari praktik terbaik untuk menggunakan Cloud TPU untuk tugas machine learning Anda.
Bangun machine learning berskala besar di Cloud TPU dengan GKE.
Menayangkan Model Bahasa Besar dengan KubeRay di TPU.

Merencanakan TPU di GKE Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Merencanakan konfigurasi TPU

Memilih mode operasi GKE

Memilih opsi penggunaan TPU

Pilih versi TPU

Autopilot

Standar

Batasan

Memvalidasi ketersediaan TPU di GKE

Autopilot

Standar

Pilih topologi

Autopilot

Standar

Konfigurasi lanjutan

Menskalakan TPU secara otomatis di GKE

Menyediakan penyimpanan tambahan untuk slice TPU

CPU untuk cluster Standard

Mengurangi gangguan workload

Menangani gangguan karena pemeliharaan node

Memaksimalkan pemanfaatan TPU

Langkah berikutnya

Merencanakan TPU di GKE