Cette page a été traduite par l'API Cloud Translation.

Diffuser des LLM ouverts sur GKE avec une architecture préconfigurée

Cette page vous explique comment déployer et diffuser rapidement des grands modèles de langage (LLM) ouverts populaires sur GKE pour l'inférence à l'aide d'une architecture de référence préconfigurée et prête pour la production. Cette approche utilise l'infrastructure as code (IaC), avec Terraform encapsulé dans des scripts CLI, pour créer un environnement GKE standardisé, sécurisé et évolutif conçu pour les charges de travail d'inférence d'IA.

Dans ce guide, vous allez déployer et diffuser des LLM à l'aide de nœuds GPU à hôte unique sur GKE avec le framework de diffusion vLLM. Ce guide fournit des instructions et des configurations pour déployer les modèles ouverts suivants :

Ce guide est destiné aux ingénieurs en machine learning (ML) et aux spécialistes des données et de l'IA qui souhaitent explorer les fonctionnalités d'orchestration de conteneurs Kubernetes pour diffuser des modèles ouverts pour l'inférence. Pour en savoir plus sur les rôles courants et les exemples de tâches que nous citons dans le contenu Google Cloud , consultez Rôles utilisateur et tâches courantes de GKE.

Pour une analyse détaillée des performances et des coûts de diffusion des modèles ouverts, vous pouvez également utiliser l'outil de démarrage rapide GKE Inference. Pour en savoir plus, consultez le guide de démarrage rapide de GKE Inference et le notebook Colab qui l'accompagne.

Accéder au modèle

Pour accéder au modèle via Hugging Face, vous avez besoin d'un jeton Hugging Face.

Pour générer un nouveau jeton si vous n'en possédez pas, procédez comme suit:

Cliquez sur Votre profil > Paramètres > Jetons d'accès.
Sélectionnez New Token (Nouveau jeton).
Spécifiez le nom de votre choix et un rôle d'au moins Lecteur.
Sélectionnez Générer un jeton.
Copiez le jeton dans votre presse-papiers.

Provisionner l'environnement d'inférence GKE

Dans cette section, vous allez déployer l'infrastructure nécessaire pour diffuser votre modèle.

Lancer Cloud Shell

Ce guide utilise Cloud Shell pour exécuter les commandes. Cloud Shell est préinstallé avec les outils nécessaires, y compris gcloud, kubectl et git.

Dans la console Google Cloud , démarrez une instance Cloud Shell :

Ouvrir Cloud Shell

Une session s'ouvre dans le volet inférieur de la console Google Cloud .

Déployer l'architecture de base

Pour provisionner le cluster GKE et les ressources nécessaires pour accéder aux modèles depuis Hugging Face, procédez comme suit :

Dans Cloud Shell, clonez le dépôt suivant :

git clone https://github.com/GoogleCloudPlatform/accelerated-platforms --branch hf-model-tutorial && \
cd accelerated-platforms && \
export ACP_REPO_DIR="$(pwd)"

Définissez vos variables d'environnement :
```
export TF_VAR_platform_default_project_id=PROJECT_ID
export HF_TOKEN_READ=HF_TOKEN
```
Remplacez les valeurs suivantes :
- PROJECT_ID : ID de votre projet Google Cloud.
- HF_TOKEN : jeton Hugging Face que vous avez généré précédemment.
Ce guide nécessite Terraform version 1.8.0 ou ultérieure. Cloud Shell est installé par défaut avec Terraform v1.5.7.

Pour mettre à jour la version de Terraform dans Cloud Shell, vous pouvez exécuter le script suivant. Ce script installe l'outil terraform-switcher et modifie votre environnement shell.
```
"${ACP_REPO_DIR}/tools/bin/install_terraform.sh"
source ~/.bashrc
```
Exécutez le script de déploiement suivant. Le script de déploiement active les API Google Cloud requises et provisionne l'infrastructure nécessaire pour ce guide. Cela inclut un nouveau réseau VPC, un cluster GKE avec des nœuds privés et d'autres ressources d'assistance. L'exécution du script peut prendre plusieurs minutes.

Vous pouvez diffuser des modèles à l'aide de GPU dans un cluster GKE Autopilot ou Standard. Un cluster Autopilot offre une expérience Kubernetes entièrement gérée. Pour en savoir plus sur le choix du mode de fonctionnement GKE le mieux adapté à vos charges de travail, consultez À propos des modes de fonctionnement GKE.
Autopilot
```
"${ACP_REPO_DIR}/platforms/gke/base/tutorials/hf-gpu-model/deploy-ap.sh"
```
Standard
```
"${ACP_REPO_DIR}/platforms/gke/base/tutorials/hf-gpu-model/deploy-standard.sh"
```
Une fois ce script terminé, vous disposerez d'un cluster GKE prêt pour les charges de travail d'inférence.

Exécutez la commande suivante pour définir les variables d'environnement à partir de la configuration partagée :

source "${ACP_REPO_DIR}/platforms/gke/base/use-cases/inference-ref-arch/terraform/_shared_config/scripts/set_environment_variables.sh"

Le script de déploiement crée un secret dans Secret Manager pour stocker votre jeton Hugging Face. Vous devez ajouter manuellement votre jeton à ce secret avant de déployer le cluster. Dans Cloud Shell, exécutez cette commande pour ajouter le jeton à Secret Manager.
```
echo ${HF_TOKEN_READ} | gcloud secrets versions add ${huggingface_hub_access_token_read_secret_manager_secret_name} \
    --data-file=- \
    --project=${huggingface_secret_manager_project_id}
```

Déployer un modèle ouvert

Vous êtes maintenant prêt à télécharger et à déployer le modèle.

Définissez les variables d'environnement pour le modèle que vous souhaitez déployer :
Gemma 3 27B-it
```
export ACCELERATOR_TYPE="h100"
export HF_MODEL_ID="google/gemma-3-27b-it"
```
Llama 4 Scout 17B-16E-Instruct
```
export ACCELERATOR_TYPE="h100"
export HF_MODEL_ID="meta-llama/llama-4-scout-17b-16e-instruct"
```
Qwen3 32B
```
export ACCELERATOR_TYPE="h100"
export HF_MODEL_ID="qwen/qwen3-32b"
```
gpt-oss 20B
```
export ACCELERATOR_TYPE="h100"
export HF_MODEL_ID="openai/gpt-oss-20b"
```
Pour d'autres configurations, y compris d'autres variantes de modèles et types de GPU, consultez les fichiers manifestes disponibles dans le dépôt GitHub accelerated-platforms.
Importez les variables d'environnement à partir de votre déploiement. Ces variables d'environnement contiennent les informations de configuration nécessaires à partir de l'infrastructure que vous avez provisionnée.
```
source "${ACP_REPO_DIR}/platforms/gke/base/use-cases/inference-ref-arch/terraform/_shared_config/scripts/set_environment_variables.sh"
```

Exécutez le script suivant pour configurer le job Kubernetes qui télécharge le modèle dans Cloud Storage :

"${ACP_REPO_DIR}/platforms/gke/base/use-cases/inference-ref-arch/kubernetes-manifests/model-download/configure_huggingface.sh"

Déployez le job de téléchargement du modèle :

kubectl apply --kustomize "${ACP_REPO_DIR}/platforms/gke/base/use-cases/inference-ref-arch/kubernetes-manifests/model-download/huggingface"

Attendez la fin du téléchargement. Surveillez l'état du job. Lorsque COMPLETIONS est défini sur 1/1, appuyez sur Ctrl+C pour quitter.

watch --color --interval 5 --no-title "kubectl --namespace=${huggingface_hub_downloader_kubernetes_namespace_name} get job/${HF_MODEL_ID_HASH}-hf-model-to-gcs

Déployez la charge de travail d'inférence sur votre cluster GKE.

"${ACP_REPO_DIR}/platforms/gke/base/use-cases/inference-ref-arch/kubernetes-manifests/online-inference-gpu/configure_deployment.sh"

kubectl apply --kustomize "${ACP_REPO_DIR}/platforms/gke/base/use-cases/inference-ref-arch/kubernetes-manifests/online-inference-gpu/vllm/${ACCELERATOR_TYPE}-${HF_MODEL_NAME}"

Tester votre déploiement

Attendez que le pod du serveur d'inférence soit prêt. Lorsque la colonne READY est définie sur 1/1, appuyez sur Ctrl+C pour quitter.

watch --color --interval 5 --no-title "kubectl --namespace=${ira_online_gpu_kubernetes_namespace_name} get deployment/vllm-${ACCELERATOR_TYPE}-${HF_MODEL_NAME}"

Exécutez le script suivant pour configurer le transfert de port et envoyer un exemple de requête au modèle. Cet exemple utilise le format de charge utile pour un modèle Gemma 3 27b-it.

kubectl --namespace=${ira_online_gpu_kubernetes_namespace_name} port-forward service/vllm-${ACCELERATOR_TYPE}-${HF_MODEL_NAME} 8000:8000 >/dev/null &
PF_PID=$!
curl http://127.0.0.1:8000/v1/chat/completions \
  --data '{
    "model": "/gcs/'${HF_MODEL_ID}'",
    "messages": [ { "role": "user", "content": "What is GKE?" } ]
  }' \
  --header "Content-Type: application/json" \
  --request POST \
  --show-error \
  --silent | jq
kill -9 ${PF_PID}

Vous devriez obtenir une réponse JSON du modèle répondant à la question.

Effectuer un nettoyage

Pour éviter que des frais ne vous soient facturés, supprimez toutes les ressources que vous avez créées.

Supprimez la charge de travail d'inférence :

kubectl delete --ignore-not-found --kustomize "${ACP_REPO_DIR}/platforms/gke/base/use-cases/inference-ref-arch/kubernetes-manifests/online-inference-gpu/vllm/${ACCELERATOR_TYPE}-${HF_MODEL_NAME}"

Supprimez le cluster GKE de base :

Autopilot

"${ACP_REPO_DIR}/platforms/gke/base/tutorials/hf-gpu-model/teardown-ap.sh"

Standard

"${ACP_REPO_DIR}/platforms/gke/base/tutorials/hf-gpu-model/teardown-standard.sh"

Étapes suivantes

En savoir plus sur l'inférence de modèles d'IA et de ML sur GKE
Analysez les performances et les coûts d'inférence des modèles avec l'outil de démarrage rapide GKE Inference.
Découvrez d'autres cas d'utilisation et modèles sur GitHub basés sur cette architecture.

Diffuser des LLM ouverts sur GKE avec une architecture préconfigurée

Accéder au modèle

Provisionner l'environnement d'inférence GKE

Lancer Cloud Shell

Déployer l'architecture de base

Autopilot

Standard

Déployer un modèle ouvert

Gemma 3 27B-it

Llama 4 Scout 17B-16E-Instruct

Qwen3 32B

gpt-oss 20B

Tester votre déploiement

Effectuer un nettoyage

Autopilot

Standard

Étapes suivantes