Halaman ini menjelaskan cara merencanakan penggunaan Tensor Processing Unit (TPU) di Google Kubernetes Engine (GKE) untuk mengurangi risiko kesalahan konfigurasi TPU, error ketidaktersediaan, atau gangguan karena kuota habis.
Sebelum menggunakan TPU di GKE, pastikan Anda memahami definisi dan terminologi TPU di GKE.
Merencanakan konfigurasi TPU
Untuk menggunakan TPU di cluster GKE, Anda harus merencanakan konfigurasinya. Sebaiknya ikuti langkah-langkah berikut:
Memilih mode operasi GKE: Jalankan workload Anda di TPU dalam cluster GKE Autopilot atau Standard.
Praktik terbaik: Gunakan cluster Autopilot untuk pengalaman Kubernetes yang dikelola sepenuhnya.
Memilih versi TPU: Berbagai jenis TPU memiliki kemampuan yang berbeda seperti rasio harga-performa, throughput pelatihan, dan latensi penayangan. Jenis TPU memengaruhi kapasitas CPU dan memori yang tersedia.
Memvalidasi ketersediaan TPU: TPU tersedia di region Google Cloud tertentu. Untuk menggunakan jenis TPU dalam workload GKE, cluster Anda harus berada di region yang didukung untuk jenis tersebut.
Pilih Topologi TPU: Pengaturan fisik TPU dalam slice TPU. Pilih topologi yang cocok dengan persyaratan paralelisme model Anda.
Gunakan tabel referensi di halaman ini untuk mengidentifikasi apakah kumpulan node Anda adalah node slice TPU satu host atau multi-host.
Memilih mode operasi GKE
Anda dapat menggunakan TPU dalam mode operasi GKE yang tersedia untuk cluster:
- Mode Autopilot (direkomendasikan): GKE mengelola infrastruktur dasar seperti konfigurasi node, penskalaan otomatis, upgrade otomatis, konfigurasi keamanan dasar pengukuran, dan konfigurasi jaringan dasar pengukuran. Di Autopilot, Anda memilih jenis dan topologi TPU, lalu menentukannya dalam manifes Kubernetes. GKE mengelola penyediaan node dengan TPU dan menjadwalkan workload Anda.
- Mode Standard: Anda mengelola infrastruktur dasar, termasuk mengonfigurasi setiap node.
Untuk memilih mode operasi GKE yang paling sesuai untuk workload Anda, lihat Memilih mode operasi GKE.
Memilih versi TPU
VM dalam slice TPU memiliki karakteristik teknis berikut.
Autopilot
Versi TPU | Jenis mesin | Jumlah vCPU | Memori (GiB) | Jumlah node NUMA | Chip TPU maksimum di node slice TPU |
---|---|---|---|---|---|
TPU Trillium | tpu-v6e-slice |
44 hingga 180 | 176 hingga 1440 | 1 hingga 2 | 256 |
TPU v5p |
tpu-v5p-slice |
208 | 448 | 2 | 6.144 |
TPU v5e |
tpu-v5-lite-podslice |
24 hingga 224 | 48 hingga 384 | 1 | 256 |
TPU v5e (khusus host tunggal) |
tpu-v5-lite-device |
24 hingga 224 | 48 hingga 384 | 1 hingga 2 | 8 |
TPU v4 |
tpu-v4-podslice |
240 | 407 | 2 | 4.096 |
TPU v3 (khusus satu host) |
tpu-v3-device |
96 | 340 | 2 | 8 |
TPU v3 |
tpu-v3-slice |
48 | 340 | 1 | 256 |
Standard
Versi TPU | Jenis mesin | Jumlah vCPU | Memori (GiB) | Jumlah node NUMA | Kemungkinan didahului |
---|---|---|---|---|---|
TPU Trillium | ct6e-standard-1t |
44 | 448 | 2 | Lebih tinggi |
TPU Trillium (v6e) | ct6e-standard-4t |
180 | 720 | 1 | Sedang |
TPU Trillium (v6e) | ct6e-standard-8t |
180 | 1440 | 2 | Lebih rendah |
TPU v5p |
ct5p-hightpu-4t |
208 | 448 | 2 | |
TPU v5e |
ct5l-hightpu-1t |
24 | 48 | 1 | Lebih tinggi |
TPU v5e |
ct5l-hightpu-4t |
112 | 192 | 1 | Sedang |
TPU v5e |
ct5l-hightpu-8t |
224 | 384 | 2 | Lebih rendah |
TPU v5e |
ct5lp-hightpu-1t |
24 | 48 | 1 | Lebih tinggi |
TPU v5e |
ct5lp-hightpu-4t |
112 | 192 | 1 | Sedang |
TPU v5e |
ct5lp-hightpu-8t |
224 | 384 | 1 | Rendah |
TPU v4 |
ct4p-hightpu-4t |
240 | 407 | 2 | |
TPU v3 (khusus satu host) |
ct3-hightpu-4t |
96 | 340 | 2 | |
TPU v3 |
ct3p-hightpu-4t |
48 | 340 | 1 |
Pertimbangkan konfigurasi berikut saat mengevaluasi jenis mesin yang akan digunakan berdasarkan model Anda:
- Jenis mesin
ct5l-
cocok untuk menayangkan model berukuran kecil hingga sedang, dan kurang cocok untuk model besar. Jenis mesinct5l-
adalah host tunggal sehingga tidak memiliki link interkoneksi berkecepatan tinggi di antara beberapa host. - Jenis mesin
ct5lp-
multi-host lebih cocok untuk menyalurkan model atau pelatihan yang besar. Mesinct5lp-
multi-host saling terhubung dengan link berkecepatan tinggi.
Tinjau spesifikasi dan harga TPU di dokumentasi harga Cloud TPU untuk menentukan konfigurasi TPU yang akan digunakan.
Batasan
Pertimbangkan batasan berikut saat memilih TPU yang akan digunakan:
- TPU Trillium tersedia dalam versi berikut:
- Cluster standar dalam versi 1.31.1-gke.1846000 dan yang lebih baru.
- Cluster Autopilot dalam versi 1.31.2-gke.1115000 dan yang lebih baru.
- TPU Trillium tidak mendukung konfigurasi SMT yang ditetapkan ke
2
dict6e-standard-8t
. - Alokasi biaya dan pengukuran penggunaan GKE tidak menyertakan data apa pun terkait penggunaan atau biaya TPU v4 yang direservasi.
- TPU v5p dan v5e tidak mendukung riptide/streaming gambar di us-east5.
- Penskalaan otomatis TPU v5p didukung di cluster GKE dengan panel kontrol yang menjalankan setidaknya versi 1.29.2-gke.1035000 atau 1.28.7-gke.1020000.
- Untuk reservasi kapasitas, gunakan reservasi khusus.
Memvalidasi ketersediaan TPU di GKE
TPU tersedia di region Google Cloud tertentu. Untuk menggunakan jenis TPU di cluster GKE, cluster Anda harus berada di region yang didukung untuk jenis tersebut.
Autopilot
Tabel berikut mencantumkan ketersediaan TPU untuk setiap versi TPU dan jenis mesin:
Versi TPU | cloud.google.com/gke-tpu-accelerator |
Versi GKE minimum | Ketersediaan | Zona |
---|---|---|---|---|
TPU Trillium (v6e) |
tpu-v6e-slice |
1.31.2-gke.1384000 | Tersedia Secara Umum | us-east5-b |
europe-west4-a |
||||
us-east1-d |
||||
asia-northeast1-b |
||||
us-south1-a |
||||
TPU v5e | tpu-v5-lite-device |
1.27.2-gke.2100 | Tersedia Secara Umum | europe-west4-b |
us-central1-a |
||||
TPU v5e | tpu-v5-lite-podslice |
1.27.2-gke.2100 | Tersedia Secara Umum | europe-west4-a |
us-central1-a |
||||
us-east1-c |
||||
us-east5-b |
||||
us-west1-c |
||||
us-west4-a |
||||
us-west4-b |
||||
TPU v5p | tpu-v5p-slice |
1.28.3-gke.1024000 | Tersedia Secara Umum | us-east1-d |
us-east5-a |
||||
us-east5-c |
||||
TPU v4 | tpu-v4-podslice |
1.26.1-gke.1500 | Tersedia Secara Umum | us-central2-b |
TPU v3 | tpu-v3-slice |
1.31.1-gke.1146000 | Tersedia Secara Umum | us-east1-d |
europe-west4-a |
||||
TPU v3 | tpu-v3-device |
1.31.0-gke.1500 | Tersedia Secara Umum | us-east1-d |
europe-west4-a |
||||
us-central1-a |
||||
us-central1-b |
||||
us-central1-f |
Standard
Tabel berikut mencantumkan ketersediaan TPU untuk setiap versi TPU dan jenis mesin:
Versi TPU | Jenis mesin yang diawali dengan | Versi GKE minimum | Ketersediaan | Zona |
---|---|---|---|---|
TPU Trillium | ct6e- |
1.31.2-gke.1115000 | Tersedia Secara Umum | us-east5-b |
europe-west4-a |
||||
us-east1-d |
||||
asia-northeast1-b |
||||
us-south1-a |
||||
TPU v5e | ct5l- |
1.27.2-gke.2100 | Tersedia Secara Umum | europe-west4-b |
us-central1-a |
||||
TPU v5e | ct5lp- |
1.27.2-gke.2100 | Tersedia Secara Umum | europe-west4-a |
us-central1-a |
||||
us-east1-c |
||||
us-east5-b |
||||
us-west1-c |
||||
us-west4-a |
||||
us-west4-b |
||||
TPU v5p | ct5p- |
1.28.3-gke.1024000 | Tersedia Secara Umum | us-east1-d |
us-east5-a |
||||
us-east5-c |
||||
TPU v4 | ct4p- |
1.26.1-gke.1500 | Tersedia Secara Umum | us-central2-b |
TPU v3 | ct3p- |
1.31.1-gke.1146000 | Tersedia Secara Umum | us-east1-d |
europe-west4-a |
||||
TPU v3 | ct3- |
1.31.0-gke.1500 | Tersedia Secara Umum | us-east1-d |
europe-west4-a |
||||
us-central1-a |
||||
us-central1-b |
||||
us-central1-f |
Pertimbangkan peringatan berikut saat mengonfigurasi TPU:
- Anda dapat membuat node pool TPU v5e host tunggal dengan
jenis mesin yang diawali dengan
ct5lp-
, tetapi tidak diawali denganct5l-
di zona tertentu (europe-west4-a
,us-east5-b
, danus-west4-b
). Anda dapat menggunakanct5lp-hightpu-4t
dengan topologi minimal2x4
atau lebih besar di zona tersebut. - Untuk membuat TPU v5e host tunggal di
region
us-west4
, pilih zonaus-west4-a
dan gunakan jenis mesin yang diawali denganct5lp-
, sepertict5lp-hightpu-1t
. - Untuk membuat TPU v5e host tunggal di region lain yang tercantum dalam tabel sebelumnya, gunakan jenis mesin yang diawali dengan
ct5l-
(sepertict5l-hightpu-1t
,ct5l-hightpu-4t
, atauct5l-hightpu-8t
). - Jenis mesin yang diawali dengan
ct5l-
memerlukan kuota yang berbeda daripada jenis mesin yang diawali denganct5lp-
.
Memilih topologi
Setelah Anda memutuskan versi TPU, pilih topologi yang didukung oleh jenis TPU tersebut. Bergantung pada jenis TPU, topologinya bersifat dua atau tiga dimensi. Persyaratan paralelisme model membantu Anda menentukan topologi. Anda dapat mengidentifikasi jumlah chip TPU dalam slice dengan menghitung hasil kali setiap ukuran dalam topologi. Contoh:
2x2x2
adalah slice TPU v4 multi-host 8 chip2x2
adalah slice TPU v5e host tunggal 4 chip
Jika topologi tertentu mendukung node slice TPU host tunggal dan multi-host, jumlah chip TPU yang diminta workload Anda akan menentukan jenis host.
Misalnya, TPU v5e
(tpu-v5-lite-podslice
) mendukung topologi 2x4
sebagai satu dan
multi-host. Jika Anda:
- Meminta 4 chip dalam workload, Anda akan mendapatkan node multi-host yang memiliki 4 chip TPU.
- Meminta 8 chip dalam workload, Anda akan mendapatkan node satu host yang memiliki 8 chip TPU.
Gunakan tabel berikut untuk memilih jenis mesin dan topologi TPU untuk kasus penggunaan Anda:
- Untuk pelatihan atau inferensi model berskala kecil, gunakan TPU v4 atau TPU v5e dengan node pool slice TPU host tunggal.
Untuk pelatihan atau inferensi model berskala besar, gunakan TPU v4 atau TPU v5e dengan node pool slice TPU multi-host.
Autopilot
Versi TPU | Jenis mesin | Topologi | Jumlah TPU chip dalam slice | Jumlah node | Jenis node pool |
---|---|---|---|---|---|
TPU v6e | tpu-v6e-slice |
1x1 | 1 | 1 | Host tunggal |
2x2 | 4 | 4 | Host tunggal | ||
2x4 | 8 | 8 | Host tunggal | ||
4x4 | 16 | 4 | Multi-host | ||
4x8 | 32 | 8 | Multi-host | ||
8x8 | 64 | 16 | Multi-host | ||
8x16 | 128 | 32 | Multi-host | ||
16x16 | 256 | 64 | Multi-host | ||
TPU v5p | tpu-v5p-slice |
2x2x1 | 4 | 1 | Host tunggal |
2x2x2 | 8 | 2 | Multi-host | ||
2x2x4 | 16 | 4 | Multi-host | ||
2x4x4 | 32 | 8 | Multi-host | ||
4x4x4 | 64 | 16 | Multi-host | ||
{A}x{B}x{C} | A*B*C | (A*B*C/4)1 | Multi-host | ||
TPU v5e | tpu-v5-lite-podslice 2 |
1x1 | 1 | 1 | Host tunggal |
2x2 | 4 | 1 | |||
2x4 | 8 | 1 | |||
2x4 | 8 | 2 | Multi-host | ||
4x4 | 16 | 4 | |||
4x8 | 32 | 8 | |||
8x8 | 64 | 16 | |||
8x16 | 128 | 32 | |||
16x16 | 256 | 64 | |||
TPU v5e (khusus host tunggal) | tpu-v5-lite-device |
1x1 | 1 | 1 | Host tunggal |
2x2 | 4 | 1 | |||
2x4 | 8 | 1 | |||
TPU v4 | tpu-v4-podslice 2 |
2x2x1 | 4 | 1 | Host tunggal |
2x2x2 | 8 | 2 | Multi-host | ||
2x2x4 | 16 | 4 | Multi-host | ||
2x4x4 | 32 | 8 | Multi-host | ||
4x4x4 | 64 | 16 | Multi-host | ||
{A}x{B}x{C} | A*B*C | (A*B*C/4)1 | Multi-host | ||
TPU v3 | tpu-v3-slice |
4x4 | 16 | 2 | Multi-host |
4x8 | 32 | 4 | Multi-host | ||
8x8 | 64 | 8 | Multi-host | ||
8x16 | 128 | 16 | Multi-host | ||
16x16 | 256 | 32 | Multi-host | ||
TPU v3 | tpu-v3-device |
2x2 | 4 | 1 | Host tunggal |
-
Dihitung berdasarkan produk topologi dibagi empat. ↩
Topologi kustom untuk lebih dari 64 chip didukung. Kondisi berikut berlaku:
- Untuk lebih dari 64 chip,
{A}
,{B}
, dan{C}
harus merupakan kelipatan 4 - Topologi terbesar adalah
16x16x24
- Nilainya harus
{A}
≤{B}
≤{C}
, seperti8x12x16
.
- Untuk lebih dari 64 chip,
-
Topologi kustom tidak didukung.
Setelah Anda memilih jenis dan topologi TPU, tentukan keduanya dalam manifes workload. Untuk mengetahui petunjuknya, lihat Men-deploy workload TPU di Autopilot GKE.
Standard
Versi TPU | Jenis mesin | Topologi | Jumlah TPU chip | Jumlah VM | Jenis node pool |
---|---|---|---|---|---|
TPU Trillium (v6e) | ct6e-standard-1t |
1x1 | 1 | 1 | Host tunggal |
ct6e-standard-8t |
2x4 | 8 | 1 | Host tunggal | |
ct6e-standard-4t |
2x2 | 4 | 1 | Host tunggal | |
2x4 | 8 | 2 | Multi-host | ||
4x4 | 16 | 4 | Multi-host | ||
4x8 | 32 | 8 | Multi-host | ||
8x8 | 64 | 16 | Multi-host | ||
8x16 | 128 | 32 | Multi-host | ||
16x16 | 256 | 64 | Multi-host | ||
TPU v5p | ct5p-hightpu-4t |
2x2x1 | 4 | 1 | Host tunggal |
2x2x2 | 8 | 2 | Multi-host | ||
2x2x4 | 16 | 4 | Multi-host | ||
2x4x4 | 32 | 8 | Multi-host | ||
{A}x{B}x{C} | A*B*C | (A*B*C/4)1 | Multi-host | ||
TPU v5e | ct5l-hightpu-1t |
1x1 | 1 | 1 | Host tunggal |
ct5l-hightpu-4t |
2x2 | 4 | 1 | Host tunggal | |
ct5l-hightpu-8t |
2x4 | 8 | 1 | Host tunggal | |
ct5lp-hightpu-1t |
1x1 | 1 | 1 | Host tunggal | |
ct5lp-hightpu-4t |
2x2 | 4 | 1 | Host tunggal | |
ct5lp-hightpu-8t |
2x4 | 8 | 1 | Host tunggal | |
ct5lp-hightpu-4t |
2x4 | 8 | 2 | Multi-host | |
4x4 | 16 | 4 | Multi-host | ||
4x8 | 32 | 8 | Multi-host | ||
8x8 | 64 | 16 | Multi-host | ||
8x16 | 128 | 32 | Multi-host | ||
16x16 | 256 | 64 | Multi-host | ||
TPU v4 | ct4p-hightpu-4t |
2x2x1 | 4 | 1 | Host tunggal |
2x2x2 | 8 | 2 | Multi-host | ||
2x2x4 | 16 | 4 | Multi-host | ||
2x4x4 | 32 | 8 | Multi-host | ||
{A}x{B}x{C} | A*B*C | (A*B*C/4)1 | Multi-host | ||
TPU v3 | ct3-hightpu-4t |
2x2 | 4 | 1 | Host tunggal |
TPU v3 | ct3p-hightpu-4t |
4x4 | 16 | 4 | Multi-host |
4x8 | 32 | 8 | Multi-host | ||
8x8 | 64 | 16 | Multi-host | ||
8x16 | 128 | 32 | Multi-host | ||
16x16 | 256 | 64 | Multi-host | ||
16x32 | 512 | 128 | Multi-host | ||
32x32 | 1024 | 256 | Multi-host |
-
Dihitung berdasarkan produk topologi dibagi empat. ↩
Konfigurasi lanjutan
Bagian berikut menjelaskan praktik terbaik penjadwalan untuk konfigurasi TPU lanjutan.
Pemesanan TPU
Pemesanan TPU tersedia saat membeli komitmen. Semua pemesanan TPU dapat digunakan dengan GKE.
Saat membuat node pool slice TPU, gunakan flag --reservation
dan --reservation-affinity=specific
untuk menggunakan instance TPU yang dicadangkan.
Penskalaan otomatis TPU di GKE
GKE mendukung Tensor Processing Unit (TPU) untuk mempercepat beban kerja machine learning. Node pool slice TPU host tunggal dan node pool slice TPU multi-host mendukung penskalaan otomatis dan penyediaan otomatis.
Dengan flag
--enable-autoprovisioning
di cluster GKE, GKE membuat atau menghapus node pool slice TPU host tunggal atau multi-host dengan versi dan topologi TPU yang memenuhi persyaratan workload yang tertunda.
Saat Anda menggunakan --enable-autoscaling
, GKE menskalakan node pool berdasarkan jenisnya, sebagai berikut:
Node pool slice TPU host tunggal: GKE menambahkan atau menghapus node TPU di node pool yang ada. Node pool dapat berisi jumlah node TPU antara nol dan ukuran maksimum node pool seperti yang ditentukan oleh flag --max-nodes dan --total-max-nodes. Saat node pool diskalakan, semua node TPU dalam node pool memiliki jenis mesin dan topologi yang sama. Untuk mempelajari lebih lanjut cara membuat node pool slice TPU host tunggal, lihat Membuat node pool.
Node pool slice TPU multi-host: GKE secara atomik akan meningkatkan skala node pool dari nol hingga jumlah node yang diperlukan untuk memenuhi topologi TPU. Misalnya, dengan node pool TPU dengan jenis mesin
ct5lp-hightpu-4t
dan topologi16x16
, node pool berisi 64 node. Autoscaler GKE memastikan bahwa node pool ini memiliki tepat 0 atau 64 node. Saat menskalakan kembali, GKE akan mengeluarkan semua pod terjadwal, dan menghabiskan seluruh node pool menjadi nol. Untuk mempelajari lebih lanjut cara membuat node pool slice TPU multi-host, lihat Membuat node pool.
CPU untuk cluster Standard
Bagian ini tidak berlaku untuk cluster Autopilot karena GKE meletakkan setiap slice TPU di node-nya sendiri. Untuk mempelajari lebih lanjut, lihat Cara kerja TPU dalam mode Autopilot.
Untuk cluster Standard, pertimbangkan praktik terbaik penjadwalan berikut.
Untuk menjadwalkan beban kerja non-TPU di VM dalam node slice TPU, pastikan
Pod GKE Anda dapat menoleransi taint google.com/tpu
. Jika Anda ingin
beban kerja di-deploy ke node tertentu, gunakan
pemilih node.
Pengelolaan resource dan prioritas Kubernetes memperlakukan VM di TPU sama seperti jenis VM lainnya. Untuk memberi prioritas penjadwalan pada Pod yang memerlukan TPU daripada Pod lain pada node yang sama, minta CPU atau memori maksimum untuk slice TPU tersebut. Slice TPU prioritas rendah harus melakukan hal berikut:
- Tetapkan permintaan CPU dan memori yang rendah untuk memastikan node memiliki resource yang dapat dialokasikan yang cukup untuk workload TPU. Untuk mempelajari lebih lanjut, baca artikel Cara Kubernetes menerapkan permintaan dan batas resource.
- Tetapkan tanpa batas CPU (tidak terbatas) untuk memastikan bahwa Pod dapat melakukan burst untuk menggunakan semua siklus yang tidak digunakan.
- Tetapkan batas memori yang sesuai untuk memastikan Pod dapat berfungsi dengan benar tanpa berisiko pengusiran tekanan node.
Jika Pod Kubernetes tidak meminta CPU dan memori (sekalipun meminta TPU), Kubernetes akan menganggapnya sebagai upaya terbaik, dan tidak ada jaminan bahwa pod tersebut memerlukan CPU dan memori apa pun. Hanya Pod yang secara eksplisit meminta CPU dan memori yang memiliki jaminan tersebut. Untuk penjadwalan Kubernetes tertentu, konfigurasikan kebutuhan Pod dengan permintaan CPU dan memori eksplisit. Untuk mengetahui informasi selengkapnya, lihat Pengelolaan Resource untuk Pod dan Container.
Untuk mempelajari praktik terbaik lebih lanjut, lihat Praktik terbaik Kubernetes: Permintaan dan batas resource.
Mengurangi gangguan workload
Jika Anda menggunakan TPU untuk melatih model machine learning dan workload Anda terganggu, semua pekerjaan yang dilakukan seak checkpoint terakhir akan hilang. Untuk mengurangi kemungkinan bahwa workload terganggu, lakukan langkah berikut:
- Tetapkan prioritas yang lebih tinggi untuk Tugas ini daripada semua Tugas lain: Jika resource langka, penjadwal GKE akan mendahului Tugas dengan prioritas lebih rendah untuk menjadwalkan Tugas dengan prioritas lebih tinggi. Hal ini juga memastikan bahwa beban kerja yang berprioritas lebih tinggi menerima semua resource yang diperlukannya (hingga total resource yang tersedia dalam cluster). Untuk mempelajari lebih lanjut, lihat Prioritas dan preemption Pod.
- Mengonfigurasi pengecualian pemeliharaan: Pengecualian pemeliharaan adalah jangka waktu yang tidak berulang saat pemeliharaan otomatis dilarang. Untuk mempelajari lebih lanjut, lihat Pengecualian pemeliharaan.
- Menggunakan Pod dengan waktu operasi yang diperpanjang di Autopilot: Gunakan Pod dengan waktu operasi yang diperpanjang untuk masa tenggang hingga tujuh hari sebelum GKE menghentikan Pod Anda untuk penurunan skala atau upgrade node.
- Gunakan penjadwalan koleksi di TPU Trillium: Gunakan koleksi untuk menunjukkan bahwa node pool slice TPU adalah bagian dari workload penayangan. Google Cloud membatasi dan menyederhanakan gangguan pada operasi workload inferensi. Untuk mempelajari lebih lanjut, lihat Cara kerja penjadwalan pengumpulan.
Rekomendasi ini membantu meminimalkan gangguan, tetapi tidak mencegahnya. Misalnya, preemption karena kegagalan hardware atau preemption untuk defragmentasi masih dapat terjadi. Demikian pula, menyetel pengecualian pemeliharaan GKE tidak akan mencegah peristiwa pemeliharaan Compute Engine.
Simpan checkpoint secara rutin dan tambahkan kode ke skrip pelatihan untuk memulai dari checkpoint terakhir saat dilanjutkan.
Menangani gangguan karena pemeliharaan node
Node GKE yang menghosting TPU tunduk pada peristiwa pemeliharaan atau gangguan lainnya yang dapat menyebabkan penonaktifan node. Di cluster GKE dengan control plane yang menjalankan versi 1.29.1-gke.1425000 dan yang lebih baru, Anda dapat mengurangi gangguan pada workload dengan mengonfigurasi GKE untuk menghentikan workload dengan baik.
Untuk memahami, mengonfigurasi, dan memantau peristiwa gangguan yang mungkin terjadi pada node GKE yang menjalankan beban kerja AI/ML, lihat Mengelola gangguan node GKE untuk GPU dan TPU.
Memaksimalkan pemanfaatan TPU
Untuk memaksimalkan investasi dalam TPU, jadwalkan campuran prioritas Tugas dan antrekan untuk memaksimalkan waktu operasi TPU. Untuk penjadwalan dan preemption tingkat Tugas, Anda harus menggunakan add-on untuk Kubernetes yang mengatur Tugas ke dalam antrean.
Gunakan Kueue untuk mengatur Tugas ke dalam antrean.
Langkah selanjutnya
- Ikuti artikel Men-deploy workload TPU di GKE untuk menyiapkan Cloud TPU dengan GKE.
- Pelajari praktik terbaik untuk menggunakan Cloud TPU untuk tugas machine learning Anda.
- Mem-build machine learning berskala besar di Cloud TPU dengan GKE.
- Menayangkan Model Bahasa Besar dengan KubeRay di TPU.