Ce document décrit le processus d'exécution et les options de création de jobs. Les jobs par lot vous permettent d'exécuter des charges de travail de traitement par lot sur Google Cloud. Pour en savoir plus sur les composants d'une tâche et les conditions préalables à l'utilisation de Batch, consultez la section Premiers pas avec Batch.
Fonctionnement de la création et de l'exécution de jobs
Pour utiliser Batch, vous devez créer un job qui spécifie votre charge de travail et ses exigences, puis Batch l'exécute automatiquement.
Le fonctionnement de la création et de l'exécution de tâches est décrit dans les sections suivantes :
- Cycle de vie d'une tâche: comprendre les états d'avancement d'une tâche de leur création à leur suppression.
- Mise en file d'attente et planification des tâches: comprenez facteurs affectant le temps nécessaire au démarrage d'un job.
- Exécution de la tâche: découvrez comment les tâches d'une tâche s'exécutent pendant l'exécution.
Cycle de vie des jobs
Cette section décrit le cycle de vie d'une tâche et de ses tâches, de la création à la suppression.
Pour chaque charge de travail que vous souhaitez exécuter sur Batch, vous suivez le processus de base suivant :
- Créer un job:vous définissez la charge de travail que vous souhaitez exécuter en spécifiant un les exécutables, les tâches et toute autre condition requise. Les détails de la création d'une tâche sont présentés dans la section Options de création de tâches de ce document.
- Contrôlez la tâche et dépannez-la:une fois la tâche créée, l'icône est automatiquement mise en file d'attente, planifiée et exécutée sur le ressources. Vous pouvez afficher les détails d'un job créé ou de n'importe quelle tâche pour voir l'état actuel. Si nécessaire, vous pouvez annuler un projet. (Preview) pour l'arrêter ou empêcher de s'exécuter. Une fois qu'un job est en cours d'exécution ou terminé, vous pouvez également surveiller et analyser le job à l'aide de journaux. Si une tâche échoue, vous pouvez la résoudre à l'aide de messages d'erreur, d'événements d'état ou de journaux pour diagnostiquer le problème avant de recréer la tâche.
- Supprimez ou exportez la tâche : les informations d'une tâche dans Batch restent disponibles jusqu'à ce que vous ou Google Cloud la supprimiez. Google Cloud supprime automatiquement une tâche 60 jours après son achèvement. Avant cela, vous avez la possibilité de supprimer le job vous-même ou, si vous souhaitez conserver les informations, vous pouvez les exporter Traitement par lot avant la suppression du job Les informations sur une tâche stockées dans d'autres services Google Cloud ne sont pas affectées lorsque la tâche est supprimée et sont soumises à des règles de conservation distinctes. Par exemple, les journaux sont automatiquement conservés et supprimés en fonction Règle de conservation de Cloud Logging.
Une fois que vous avez créé une tâche, elle passe par les états suivants :
- Queued (
QUEUED
) (en file d'attente):la requête de tâche a été acceptée et est en attente. dans la file d'attente. La tâche reste dans la file d'attente jusqu'à ce que les ressources requises soient disponibles et que les tâches qui la précèdent aient été évaluées. - Planifiée (
SCHEDULED
) : la tâche a été sélectionnée dans la file d'attente. et les ressources sont en cours d'allocation. En cours d'exécution (
RUNNING
) : les ressources de la tâche ont été créées avec succès et ses tâches peuvent commencer à s'exécuter.Lorsqu'une tâche est en cours d'exécution, chacune de ses tâches passe par les états suivants :
- En attente (
PENDING
) : la tâche est en attente de l'exécution d'une VM. - Attribuée (
ASSIGNED
) : une VM sur laquelle la tâche a été attribuée - Running (
RUNNING
) (En cours d'exécution) : la tâche s'exécute sur une VM. Une tâche se termine dans l'un des états suivants :
Réussite (
SUCCEEDED
) : la tâche a réussi, car chacun de ses exécutables remplit l'une des conditions suivantes :- L'exécutable a réussi (il a renvoyé un code de sortie de zéro).
- L'exécutable a échoué (il a renvoyé un code de sortie différent de zéro), mais il s'agissait d'un exécutable non critique (vous avez activé le champ
ignoreExitStatus
de l'exécutable). - L'exécutable ne s'est pas terminé, mais était un exécutable en arrière-plan (vous
activé l'environnement de l'exécutable
champ
background
).
Échec (
FAILED
) : la tâche a échoué et a cessé de s'exécuter, car au moins un exécutable ne remplissait pas les conditions précédentes.
- En attente (
Une tâche se termine dans l'un des états suivants:
- Succeeded (
SUCCEEDED
) : la tâche a réussi, car toutes ses tâches ont réussi. - Échec (
FAILED
) : la tâche a échoué et a cessé de s'exécuter, car à au moins une de ses tâches a échoué. - Annulé (
CANCELLED
) : utilisateur a annulé la mission (Preview) avant qu'elle ait réussi. a échoué.
- Succeeded (
Pour en savoir plus, consultez états des tâches et états des tâches dans la documentation de référence.
Mise en file d'attente et planification des jobs
En règle générale, les jobs sont plus susceptibles de s'exécuter et de se terminer plus tôt et ne nécessite que quelques ressources communes. Pour les exemples de tâches de la documentation Batch, qui sont généralement très petites et utilisent des ressources minimales, leur exécution peut prendre aussi peu que quelques minutes.
Plus précisément, le temps nécessaire à la mise en file d'attente et à la planification d'une tâche varie selon les tâches et les moments en fonction des facteurs suivants :
Disponibilité des ressources de job: la disponibilité des ressources requises pour le job dans les limites autorisées emplacements.
Tout d'abord, un job ne peut pas s'exécuter si vous spécifiez des ressources ne sont pas proposées à cet emplacement. Dans ce cas, le job échoue avec Une erreur de disponibilité de zone.
Deuxièmement, une tâche est plus susceptible d'être retardée ou d'échouer si les ressources requises sont en faible capacité par rapport à la demande actuelle, en raison erreurs de disponibilité des ressources. Votre job peut donc s'exécuter plus tôt, si vous en avez besoin moins à des ressources plus courantes et n'empêchent pas l'exécution du job toutes les zones d'une région.
Pour en savoir plus sur les ressources d'une tâche, consultez la section Exécution de la tâche de ce document. Pour en savoir plus sur les emplacements que vous pouvez spécifier pour un job Batch et ses ressources, consultez la page Emplacements.
Priorité de la tâche : priorité d'une tâche par rapport aux priorités des autres tâches de votre projet.
Vous pouvez éventuellement spécifier la priorité d'un job en incluant le paramètre Option
--priority
pour gcloud CLI ou le champ JSONpriority
. Vous pouvez définir la priorité d'une tâche sous la forme d'un chiffre compris entre0
(priorité la plus faible) et99
(priorité la plus élevée). Définir une priorité plus élevée peut aider une tâche à s'exécuter plus tôt que les tâches de priorité inférieure de votre projet.Si vous ne configurez pas la priorité d'un job, la priorité la plus basse,
0
, est utilisée par défaut. Si deux jobs en file d'attente ont la même priorité, le job créé en premier a la priorité la plus élevée.Quotas et limites : seuils de votre projet pour les ressources et les requêtes Google Cloud.
Une tâche ne peut pas être exécutée si elle dépasse une limite ou le quota de votre projet pour l'une des les ressources ou les requêtes requises. Dans ce cas, Batch peut retarder une tâche et la relancer ultérieurement, ou échouer et afficher une erreur associée.
Vous pouvez éviter les retards et les erreurs dans votre tâche en créant des tâches qui respectent toutes les limites pertinentes et en vous assurant que votre projet dispose d'un quota suffisant. Pour en savoir plus, consultez la section Quotas et limites par lot.
Exécution du job
Le temps d'exécution d'une tâche peut varier en fonction de la planification des tâches et des ressources de la tâche.
Planification des tâches
Lorsqu'un job s'exécute, ses tâches sont planifiées en fonction
Champ de règle de planification (schedulingPolicy
),
qui vous permet de spécifier l'une des options suivantes:
- Dès que possible (
AS_SOON_AS_POSSIBLE
) (par défaut) : les tâches s'exécutent dès que les ressources sont disponibles et peuvent s'exécuter en parallèle. Le nombre de tâches exécutées simultanément dépend des tâches parallèles par VM autorisées par les ressources du job et d'autres options de configuration, comme expliqué dans la section Ressources relatives aux tâches de ce document. - Dans l'ordre (
IN_ORDER
) : les tâches sont exécutées une par une dans l'ordre croissant de l'indice.
Ressources du job
Chaque job par lot s'exécute sur un groupe d'instances géré (MIG) régional, qui est un groupe d'une ou plusieurs instances de machine virtuelle (VM) Compute Engine correspondants, chacune située dans l'une des zones incluses. Chaque VM dispose d'un matériel dédié Cœurs de processeur (en particulier les processeurs virtuels) et la mémoire, ce qui affecte les performances et un disque de démarrage, qui stocke un système d'exploitation l'image système (OS) et des instructions pour exécuter votre job.
Au moment de l'exécution d'un job, Batch crée et supprime automatiquement les ressources qui répondent à vos spécifications. Lorsque vous créez une tâche, vous configurez ses ressources en spécifiant les éléments suivants :
Ressources de calcul par tâche:sauf si les valeurs par défaut sont suffisantes, vous devez spécifier les ressources de calcul (vCPU, mémoire et (si nécessaire) d'un espace de stockage supplémentaire sur le disque de démarrage, nécessaire à l'exécution de chaque tâche. Pour Pour en savoir plus, consultez les ressources de calcul par tâche (
computeResource
).Ressources de VM : vous pouvez également spécifier les VM de la tâche (comme le type de machine et l'OS, ainsi que des ressources supplémentaires telles que les GPU et les volumes de stockage) à l'aide des champs de stratégie de ressources de VM (
instances[].policy
) ou du champinstances[].instanceTemplate
. Si vous ne définissez pas ces champs, Batch sélectionne les VM compatibles et n'ajoute aucune ressource supplémentaire.
Le nombre de VM et le nombre de tâches pouvant être exécutées simultanément
sur chaque VM varient en fonction du job, en fonction de la planification des tâches et
sur la configuration matérielle requise. Si vous spécifiez l'exécution des tâches d'un job
IN_ORDER
, le job comporte une VM et n'exécute qu'une seule tâche à la fois. Sinon, si les tâches d'une tâche s'exécutent AS_SOON_AS_POSSIBLE
, vous pouvez estimer le nombre de VM et le nombre de tâches simultanées à l'aide de la formule suivante :
\[{vmsPerJob}=\frac{taskCount}{parallelTasksPerVm}\]
Cette formule a les valeurs suivantes:
- \({vmsPerJob}\) : nombre maximal de VM pour une tâche. Le nombre réel de VM créées pour une tâche peut être inférieur à ce nombre. Par exemple, si Batch estime qu'il est plus rapide d'exécuter une tâche avec moins de ressources qu'd'attendre plus de ressources. Cette valeur est également limitée limites du nombre de VM simultanées par job.
- \({taskCount}\): nombre total de tâches pour la tâche, que vous définissez
à l'aide du champ du nombre de tâches (
taskCount
). \({parallelTasksPerVM}\) : nombre maximal de tâches pouvant s'exécuter simultanément sur une VM.
Cette valeur est déterminée par tous les critères suivants :
La valeur minimale est de 1 tâche.
La valeur maximale correspond à la plus petite valeur entre 20 tâches et, le cas échéant, la valeur du champ Nombre maximal de tâches parallèles par tâche (
parallelism
).Si le Champ "Nombre maximal de tâches parallèles par VM (
taskCountPerNode
)" est définie, cette valeur est utilisée.Dans le cas contraire, si
taskCountPerNode
n'est pas défini, Batch décide d'une valeur en divisant le nombre total de ressources de calcul (en particulier les processeurs virtuels) par VM par la quantité requise pour chaque tâche :\[{parallelTasksPerVm}=\frac{vcpusPerVm}{vcpusPerTask}\]
Cette formule comporte les valeurs suivantes :
\({vcpusPerVm}\): nombre total de processeurs virtuels par VM, soit déterminé par le type de machine des VM de votre job.
\({vcpusPerTask}\) : nombre de processeurs virtuels par tâche, déterminé en convertissant les unités du champ Nombre de processeurs virtuels par tâche (
cpuMilli
).
Options de création d'une tâche
Créer et exécuter une tâche de base explique les principes de base, y compris comment définir un exécutable à l'aide d'un script ou d'une image de conteneur, et comment configurer des variables d'environnement prédéfinies et personnalisées.
Après avoir compris les principes fondamentaux de la création d'emplois, envisagez de créer une tâche qui utilise une ou plusieurs des options de configuration supplémentaires suivantes:
Contrôler l'accès à une tâche:
Contrôler l'accès à une tâche à l'aide d'un compte de service personnalisé explique comment spécifier le compte de service d'une tâche, ce qui influe sur les ressources et les applications auxquelles les VM d'une tâche peuvent accéder. Si vous ne ou spécifiez un compte de service personnalisé. Par défaut, les jobs utilisent Compte de service Compute Engine par défaut.
Présentation de la mise en réseau explique quand et comment personnaliser la configuration réseau d'un job, y compris la spécification réseau du job, en bloquant les connexions externes protéger les données et les ressources à l'aide de VPC Service Controls.
Protéger les données sensibles à l'aide de Secret Manager explique comment définir de manière sécurisée des données sensibles, telles que des variables d'environnement personnalisées et des identifiants de connexion, en utilisant des secrets Secret Manager pour spécifier des informations chiffrées lorsque vous créez une tâche.
Configurez des options supplémentaires pour une tâche:
Configurer la communication des tâches à l'aide d'une bibliothèque MPI explique comment configurer une tâche avec des tâches interdépendantes qui communiquent entre elles sur différentes VM à l'aide d'une bibliothèque MPI (Message Passing Interface). Un cas d'utilisation courant de MPI est à couplage fort, de calcul hautes performances (HPC, High Performance Computing).
Personnalisez les ressources sur lesquelles une tâche s'exécute :
Définir les ressources de tâche à l'aide d'un modèle d'instance de VM explique comment spécifier un modèle de VM Compute Engine pour définir les ressources d'un job lorsque vous le créez. Il s'agit d'un que de spécifier directement les ressources d'un job à l'aide de la propriété Champ
instances[].policy
.Utiliser des GPU pour une tâche : explique comment définir qui utilise un ou plusieurs processeurs graphiques (GPU). Les cas d'utilisation courants des tâches qui utilisent des GPU incluent le traitement intensif des données ou les charges de travail de machine learning (ML).
Utiliser des volumes de stockage pour une tâche explique comment définir une tâche pouvant accéder à un ou plusieurs volumes de stockage externes. Les options de stockage incluent les disques persistants nouveaux ou existants, les nouveaux SSD locaux, des buckets Cloud Storage existants et un système de fichiers réseau existant (NFS) comme un partage de fichiers Filestore.
Présentation de l'environnement d'OS de VM explique quand et comment personnaliser l'environnement du système d'exploitation (OS) d'une VM pour une tâche, y compris son une image d'OS de VM et des disques de démarrage.
Optimisez différents aspects d'une tâche :
Améliorer la surveillance et l'analyse :
L'article Écrire des journaux de tâches explique comment configurer les exécutables d'une tâche pour écrire des journaux de tâches. Écrire des journaux de tâches vous permet d'afficher des informations personnalisées dans Cloud Logging, ce qui peut faciliter l'analyse et le dépannage des tâches.
Configurer des événements d'état personnalisés explique comment configurer des événements d'état personnalisés pour l'état et des exécutables. Les événements d'état personnalisés vous permettent de décrire qui se produisent pour les exécutables et qui apparaissent lorsque vous Afficher l'historique des événements d'état d'une mission ce qui peut faciliter l'analyse et le dépannage des jobs.
Activer les notifications d'état explique comment configurer un job pour envoyer des messages Pub/Sub des notifications sur son état, que vous pouvez stocker dans une table BigQuery. Avant de lire ce document, configurez votre projet pour Surveiller l'état des jobs à l'aide des notifications Pub/Sub et de BigQuery en premier.
Activer les métriques de l'agent Ops explique comment configurer un job pour installer automatiquement l'agent Ops. L'agent Ops collecte des métriques supplémentaires sur les performances et l'utilisation des ressources d'une tâche. Pour en savoir plus sur l'affichage et l'utilisation des métriques de ressources, consultez la section Surveiller et optimiser les ressources de tâche en affichant des métriques.
Automatiser les nouvelles tentatives d'exécution de tâches explique comment relancer automatiquement les tâches d'un job après tout en cas d'échecs spécifiés. Les nouvelles tentatives automatiques peuvent contribuer à réduire les difficultés de dépannage et le temps d'exécution global requis pour les tâches qui rencontrent des erreurs temporaires. Par exemple, utilisez des tentatives automatiques pour un travail exécuté sur des VM Spot, qui offrent des remises importantes, mais qui ne sont pas toujours disponibles et peuvent être préemptées à tout moment.
Cohéberger des VM pour réduire la latence explique comment réduire la latence du réseau entre les VM d'un job en obligeant les VM à être physiquement proches les unes des autres. Cet avantage en termes de performances peut s'avérer particulièrement utile pour les tâches qui effectuent des communications réseau fréquentes entre les VM, telles que les tâches qui communiquent à l'aide de bibliothèques MPI.
Assurer la disponibilité des ressources à l'aide de réservations de VM explique comment configurer une tâche pouvant s'exécuter sur des VM réservées. Utilisation des réservations Les VM peuvent vous aider à réduire la durée de planification d'un job, éviter les erreurs de disponibilité des ressources ; et optimiser les coûts.
Utiliser le streaming d'images explique comment améliorer le délai de démarrage des jobs en diffusant des images de conteneur à partir d'Artifact Registry.
Utilisez des services supplémentaires pour créer et exécuter des jobs:
Orchestrer des jobs à l'aide de Workflows explique comment utiliser les workflows pour exécuter les tâches les tâches dans un ordre que vous définissez à l'aide du Syntaxe des workflows.
Orchestrer des tâches à l'aide de Nextflow explique comment : exécuter un job par lot via un Nextflow, qui pour orchestrer des workflows bio-informatiques.
Orchestrer des tâches à l'aide de dsub explique comment exécuter une tâche Batch via un pipeline
dsub
, que vous pouvez utiliser pour orchestrer des workflows de traitement par lots sur les services Google Cloud.Créer et exécuter des tâches par lot à l'aide de Terraform et de Cloud Scheduler explique comment intégrer des tâches par lot à Terraform. Terraform vous permet de provisionner et de gérer l'infrastructure en spécifiant l'état souhaité dans des fichiers de configuration, qui peuvent être traités comme du code et stockés dans des systèmes de contrôle des versions tels que GitHub.
Étape suivante
Découvrez les principes de base de la création d'emploi: