Model Bahasa Besar
-
Inferensi MaxText JetStream pada v6e
Panduan untuk menyiapkan dan menggunakan JetStream dengan MaxText untuk inferensi di v6e.
-
Inferensi PyTorch JetStream pada v6e
Panduan untuk menyiapkan dan menggunakan JetStream dengan PyTorch untuk inferensi di v6e.
-
Inferensi vLLM di v6e
Panduan untuk menyiapkan dan menggunakan vLLM untuk inferensi di v6e.
-
Menyajikan LLM menggunakan TPU di GKE dengan vLLM
Panduan untuk menggunakan vLLM guna menayangkan model bahasa besar (LLM) menggunakan Tensor Processing Unit (TPU) di Google Kubernetes Engine (GKE).