Grandes modelos de linguagem
-
Inferência do JetStream MaxText na v6e
Um guia para configurar e usar o JetStream com o MaxText para inferência na v6e.
-
Inferência do JetStream PyTorch na v6e
Um guia para configurar e usar o JetStream com o PyTorch para inferência no v6e.
-
Inferência de vLLM na v6e
Um guia para configurar e usar o vLLM para inferência no v6e.
-
Publique um MDG com TPUs no GKE com o vLLM
Um guia para usar o vLLM para publicar grandes modelos de linguagem (GMLs) com Tensor Processing Units (TPUs) no Google Kubernetes Engine (GKE).