Modelos de linguagem grande
-
Inferência do JetStream MaxText na v6e
Um guia para configurar e usar o JetStream com o MaxText para inferência na v6e.
-
Inferência do PyTorch do JetStream na v6e
Um guia para configurar e usar o JetStream com o PyTorch para inferência na v6e.
-
Inferência de vLLM na v6e
Um guia para configurar e usar o vLLM para inferência na v6e.
-
Disponibilizar um LLM usando TPUs no GKE com o vLLM
Um guia para usar o vLLM para veicular modelos de linguagem grandes (LLMs) usando Unidades de Processamento de Tensor (TPUs) no Google Kubernetes Engine (GKE).