Cette page a été traduite par l'API Cloud Translation.

Programmer des scripts et des notebooks SQL

Planifier des scripts et des notebooks SQL vous permet d'implémenter les composants créés dans le laboratoire d'exploration des données (Explorer).

Planifier un script SQL ou un notebook crée une tâche Dataplex qui s'exécute à une heure prédéterminée, une seule fois ou de façon récurrente. À chaque exécution, un job est créé qui capture les métadonnées d'exécution, telles que l'heure de début et de fin de l'exécution, l'état de l'exécution, les journaux et les sorties générées.

Lorsqu'une exécution est déclenchée pour un script SQL planifié ou un notebook, la version actuelle du notebook ou du script SQL est exécutée. Cela signifie que si vous planifiez un notebook ou un script SQL, puis que vous modifiez son contenu, la modification est également reflétée dans les exécutions planifiées du notebook ou du script SQL.

Coûts

Les scripts SQL et les notebooks planifiés déclenchent l'exécution des tâches à l'aide de Dataproc sans serveur. Les utilisations sont facturées selon le modèle de tarification Dataproc, et les frais s'affichent sous Dataproc au lieu de Dataplex.

Avant de commencer

Consultez et remplissez les conditions préalables décrites dans les documents suivants:

Section Avant de commencer de Utiliser l'atelier d'exploration de données
Section Avant de commencer de Programmer des tâches Spark et SparkSQL personnalisées

Remarque :Les instructions concernant le compte de service de tâche décrites dans Planifier des tâches Spark et SparkSQL personnalisées s'appliquent aux scripts SQL et aux notebooks, ainsi qu'au compte de service utilisé pour planifier les scripts SQL et les notebooks.

Les instructions d'activation de l'accès Google privé décrites dans Programmer des tâches Spark et SparkSQL personnalisées concernent le réseau utilisé pour planifier des scripts SQL et des notebooks. Vous ne pouvez utiliser que le sous-réseau par défaut lorsque vous planifiez un script ou un notebook SQL à l'aide de la console Google Cloud. Pour en savoir plus, consultez la section Limites connues.

Si un script SQL ou un planning de notebook utilise l'API BigQuery, vous devez accorder au compte de service le rôle Consommateur de service (roles/serviceusage.serviceUsageConsumer).

Limitations connues

Lorsque vous planifiez un notebook à l'aide de la console Google Cloud, les packages Python supplémentaires configurés dans l'environnement sélectionné ne sont pas disponibles au moment de l'exécution pour le notebook planifié. Pour les rendre disponibles au moment de l'exécution, vous devez créer une planification de notebook référençant une image de conteneur avec les packages supplémentaires requis. Pour en savoir plus, consultez Planifier des notebooks avec des packages personnalisés.
L'utilisation de la console Google Cloud pour référencer des images de conteneur personnalisées lors de la planification de notebooks n'est pas prise en charge. Utilisez plutôt gcloud CLI.
Une fois la programmation créée, vous ne pouvez plus la modifier. Pour mettre à jour les paramètres de planification, vous devez recréer la planification avec de nouveaux paramètres.
Vous ne pouvez pas définir une version spécifique d'un script ou d'un notebook SQL à utiliser dans une planification. Lorsque la planification est déclenchée, la version actuelle du script ou du notebook SQL est utilisée.
Lorsque vous planifiez des scripts et des notebooks SQL à l'aide de la console Google Cloud, le sous-réseau par défaut est utilisé. Pour spécifier un autre réseau ou un sous-réseau, utilisez gcloud CLI.

Consultez également les limites connues d'Explore.

Créer et gérer des planifications pour des scripts SQL

Configuration de l'environnement d'exécution pour les scripts SQL planifiés

Lorsqu'un script SQL est planifié, il s'exécute en tant que tâche Dataplex. Lorsqu'une planification est créée à l'aide de la console Google Cloud, les paramètres d'exécution de la tâche correspondants pour les scripts SQL planifiés sont hérités de l'environnement de ce script SQL en fonction du mappage suivant:

Paramètre de configuration de l'environnement	Paramètre de configuration de la tâche de script SQL planifiée
Taille du disque principal	Image du conteneur / Propriétés: `spark.dataproc.driver.disk.size` `spark.dataproc.executor.disk.size`
Nombre de nœuds	Nombre de lots / d'exécuteurs
Nombre maximal de nœuds	Nombre de lots / nombre maximal d'exécuteurs
Version de l'image	Non hérités
Fichiers JAR	Image de conteneur / JAR Java
Packages Python	Non hérités
Propriétés supplémentaires	Image de conteneur / Propriétés

Planifier un script SQL

Console

Dans la console Google Cloud, accédez à la page Explorer de Dataplex.

Accéder à Dataplex Explorer
Sélectionnez un script SQL que vous souhaitez planifier, soit en sélectionnant un script SQL unique dans la liste Scripts SQL Spark, soit en ouvrant un script SQL dans l'éditeur SQL Spark.
Dans le menu Programmation, cliquez sur Créer une programmation.
Dans le champ Nom de la planification, saisissez un nom pour l'instance planifiée.
Dans la section Options de planification, indiquez si vous souhaitez exécuter le script SQL une seule fois ou de manière récurrente:
1. Si vous sélectionnez Exécuter une fois, indiquez si vous souhaitez exécuter le script SQL immédiatement ou à une heure planifiée à l'aide des options du menu Démarrer. Pour une exécution planifiée, spécifiez la date et l'heure de début.
2. Si vous sélectionnez Répéter, indiquez si vous souhaitez exécuter le script SQL quotidiennement, hebdomadairement, mensuellement ou selon un calendrier personnalisé spécifié à l'aide d'une expression Cron. Indiquez également la date et l'heure de début de l'exécution planifiée initiale.
Dans la section Destination des résultats, procédez comme suit:
1. Dans le champ Nom du dossier de sortie, cliquez sur Parcourir et sélectionnez un dossier dans un bucket Cloud Storage dans lequel vous souhaitez stocker les sorties du script.
2. Cliquez sur Sélectionner.
3. Sélectionnez le format de sortie du script. Les formats acceptés sont CSV, JSON, ORC et Parquet.
Dans la section Identifiants du script planifié, sélectionnez un compte de service dans le menu Compte de service utilisateur.
Cliquez sur Schedule (Programmer).

gcloud

Pour en savoir plus sur la planification de scripts SQL à l'aide de la gcloud CLI, consultez la page Planifier une tâche SparkSQL.

REST

Utilisez l'explorateur d'API pour créer une tâche.

Gérer les planifications de scripts SQL

Console

Ouvrir la liste de tous les plannings de script SQL

Dans la console Google Cloud, accédez à la page Processus de Dataplex.
Cliquez sur l'onglet Requêtes planifiées pour afficher la liste des planifications de scripts SQL.

Ouvrir la liste de tous les plannings d'un script SQL spécifique

Dans la console Google Cloud, accédez à la page Explorer de Dataplex.
Sélectionnez le script SQL requis.
Dans le menu Planifier, cliquez sur Afficher les planifications.

L'onglet Requêtes planifiées s'ouvre avec une liste des planifications de script SQL filtrées par le script SQL sélectionné.

Afficher les détails d'une planification de script SQL

Accédez à l'onglet Requêtes planifiées, puis sélectionnez la planification de script SQL requise.
Cliquez sur l'onglet Détails pour afficher les détails de la planification du script SQL et un aperçu du contenu du script SQL planifié.

Activer et désactiver une planification de script SQL

Accédez à l'onglet Requêtes planifiées, puis sélectionnez la planification de script SQL requise.
Cliquez sur Désactiver pour désactiver une planification de script SQL active.
Cliquez sur Activer pour activer une planification de script SQL inactive.

Supprimer une planification de script SQL existante

Accédez à l'onglet Requêtes planifiées, puis sélectionnez la planification de script SQL requise.
Cliquez sur Supprimer pour supprimer définitivement une planification de script SQL existante.

Afficher les journaux et gérer la planification d'un script SQL

Accédez à l'onglet Requêtes planifiées, puis sélectionnez la planification de script SQL requise.
Cliquez sur l'onglet Jobs (Tâches), puis sur l'ID de la tâche de l'exécution de script SQL planifiée que vous souhaitez afficher.
Cliquez sur Afficher les journaux pour afficher les journaux associés au script SQL planifié sélectionné exécuté dans Cloud Logging.
Cliquez sur l'ID de lot Dataproc pour ouvrir la page Dataproc dans la console Google Cloud. Accédez aux détails de la session Dataproc sans serveur correspondante.
Cliquez sur Gérer dans Cloud Storage à côté du libellé Sortie pour ouvrir la page Cloud Storage dans la console Google Cloud. Accédez aux détails du bucket Cloud Storage correspondant contenant la sortie de l'exécution du script SQL.

gcloud

Pour en savoir plus sur la surveillance des scripts SQL planifiés à l'aide de la gcloud CLI, consultez l'onglet gcloud dans Surveiller votre tâche.

Pour en savoir plus sur la gestion des scripts SQL planifiés à l'aide de gcloud CLI, consultez l'onglet gcloud dans Gérer la planification.

REST

Pour en savoir plus sur la surveillance des scripts SQL planifiés à l'aide de REST, consultez l'onglet REST dans Surveiller votre tâche.

Pour en savoir plus sur la gestion des scripts SQL planifiés à l'aide de REST, consultez l'onglet REST dans Gérer la planification.

Sortie d'un script SQL planifié

Le résultat de chaque exécution d'un script SQL planifié est stocké à l'emplacement que vous avez spécifié pour le dossier Cloud Storage, selon la structure suivante:

CLOUD_STORAGE_FOLDER_LOCATION/projects/PROJECT_ID/locations/LOCATION_ID/lakes/LAKE_ID/tasks/TASK_ID/JOB_ID/QUERY_NUMBER

Créer et gérer des planifications pour des notebooks

Configuration d'environnement d'exécution pour les notebooks programmés

Lorsqu'un notebook est planifié, il s'exécute en tant que tâche Dataplex. Lorsqu'une planification est créée à l'aide de la console Google Cloud, les paramètres d'exécution de la tâche correspondants pour les notebooks planifiés sont hérités de l'environnement de ce notebook en fonction du mappage suivant:

Paramètre de configuration de l'environnement	Paramètre de configuration de la tâche de notebook planifiée
Taille du disque principal	Image du conteneur / Propriétés: `spark.dataproc.driver.disk.size` `spark.dataproc.executor.disk.size`
Nombre de nœuds	Nombre de lots / d'exécuteurs
Nombre maximal de nœuds	Nombre de lots / nombre maximal d'exécuteurs
Version de l'image	Non hérités
Fichiers JAR	Image de conteneur / JAR Java
Packages Python	Non hérités
Propriétés supplémentaires	Image de conteneur / Propriétés

Programmer des notebooks avec des packages personnalisés

Pour les notebooks interactifs, lorsque vous configurez un environnement, Dataplex vous permet de spécifier des packages Python personnalisés à installer dans les sessions utilisateur provisionnées pour l'environnement. Lorsqu'un tel notebook est planifié, les packages Python personnalisés configurés dans son environnement ne sont pas disponibles au moment de l'exécution pour le notebook planifié, et l'environnement d'exécution par défaut ne comporte que les composants de la version d'exécution Spark Dataproc sans serveur 1.0. Pour que les packages Python personnalisés soient disponibles au moment de l'exécution pour les notebooks planifiés, fournissez une image de conteneur personnalisée avec les packages personnalisés nécessaires.

Il n'est pas possible de spécifier une image de conteneur personnalisée lorsque vous planifiez un notebook à l'aide de la console Google Cloud. Utilisez plutôt gcloud CLI. Pour en savoir plus, consultez la section Planifier un notebook.

Si vous planifiez un notebook avec un environnement dans lequel des packages personnalisés sont configurés, l'avertissement suivant s'affiche:

Selected environment  has additional Python packages configured.
These packages will not be available in the default runtime for the scheduled notebook
when scheduling in the Console. To make the required additional Python packages
available in the runtime, please create Notebook Schedule using gcloud command
instead, referencing a container image with required additional packages.

Créer une image de conteneur personnalisée pour les notebooks planifiés

Pour savoir comment créer une image de conteneur pour les notebooks planifiés et installer les packages Python personnalisés requis dans le fichier Dockerfile de l'image de conteneur, consultez la section Créer une image de conteneur personnalisée pour Dataproc Serverless for Spark.

Assurez-vous d'avoir installé les packages conda suivants dans l'image du conteneur:

gcsfs
google-cloud-bigquery
google-cloud-storage
google-auth
ipykernel
papermill

Pour installer les composants gcloud dans une image de conteneur, ouvrez le fichier Dockerfile de l'image du conteneur et procédez comme suit:

Ajoutez le package google-cloud-sdk à la liste des packages conda à installer.

Ajoutez les lignes suivantes après l'étape d'installation des packages conda:

# (Optional) Installing gcloud components
RUN gcloud components install alpha beta bq

Programmer un notebook

Console

Dans la console Google Cloud, accédez à la page Explorer de Dataplex.

Accéder à Dataplex Explorer
Sélectionnez le notebook que vous souhaitez planifier, soit en sélectionnant un seul notebook dans la vue Notebooks, soit en ouvrant un notebook sur la page d'informations correspondante.
Dans le menu Programmation, cliquez sur Créer une programmation.
Dans le champ Nom de la planification, saisissez un nom pour l'instance planifiée.
Dans la section Options de planification, indiquez si vous souhaitez exécuter le notebook une seule fois ou de manière récurrente:
1. Si vous sélectionnez Exécuter une fois, indiquez si vous souhaitez exécuter le notebook immédiatement ou à une heure planifiée à l'aide des options du menu Démarrer. Pour une exécution planifiée, spécifiez la date et l'heure de début.
2. Si vous sélectionnez Répéter, indiquez si vous souhaitez exécuter le notebook quotidiennement, hebdomadairement, mensuellement ou selon un calendrier personnalisé spécifié à l'aide d'une expression cron. Indiquez également la date et l'heure de début de l'exécution planifiée initiale.
Dans la section Destination des résultats, choisissez l'emplacement où vous souhaitez stocker la sortie du notebook:
1. Dans le champ Nom du dossier de sortie, cliquez sur Parcourir, puis sélectionnez un dossier dans un bucket Cloud Storage dans lequel vous souhaitez stocker la sortie du notebook.
2. Cliquez sur Sélectionner.
3. Sélectionnez le format de sortie du script. Les formats acceptés sont CSV, JSON, ORC et Parquet.
Dans la section Identifiants du notebook planifié, sélectionnez un compte de service dans le menu Compte de service utilisateur.
Dans la section Paramètres, ajoutez des paramètres d'exécution pour le notebook en tant que paires clé-valeur en cliquant sur Ajouter.
Cliquez sur Schedule (Programmer).

gcloud

Exécutez la commande gcloud CLI décrite dans Planifier une tâche Spark (Java ou Python) avec les paramètres supplémentaires suivants:

Paramètre	Description
`--notebook`	Chemin d'accès au contenu d'un notebook pour le notebook d'entrée. Les arguments d'exécution sont accessibles en tant que variables d'environnement. Par exemple, `TASK_key=value`. Remarque`:` Dans la documentation de référence `gcloud` pour planifier des notebooks en tant que tâches, il est indiqué que la valeur du paramètre `--notebook` peut être l'URI Cloud Storage du fichier notebook. Cette fonctionnalité n'est pas disponible. Vous devez uniquement spécifier le chemin d'accès au contenu du notebook pour le paramètre `--notebook`.
`--notebook-archive-uris`	URI Cloud Storage des archives à extraire dans le répertoire de travail de chaque exécuteur. Les types de fichiers compatibles sont `JAR`, `tar`, `tar.gz`, `tgz` et `zip`.
`--notebook-file-uris`	URI Cloud Storage des fichiers à placer dans le répertoire de travail de chaque exécuteur.
Ressources de calcul requises pour une tâche lorsque vous utilisez Dataproc sans serveur
`--notebook-batch-executors-count`	Nombre d'exécuteurs de tâches.
`--notebook-batch-max-executors-count`	Nombre maximal d'exécuteurs configurables. Si `notebook-batch-max-executors-count` est supérieur à `notebook-batch-executors-count`, l'autoscaling est activé.
Configuration d'exécution de l'image de conteneur
`--notebook-container-image`	Facultatif: image de conteneur personnalisée pour le job.
`--notebook-container-image-java-jars`	Liste des fichiers JAR Java à ajouter au classpath. Les entrées valides incluent les URI Cloud Storage vers des binaires JAR. Par exemple, `gs`:`//BUCKET_NAME/my/path/to/file.jar`.
`--notebook-container-image-properties`	Propriétés à définir sur les fichiers de configuration du daemon. Les clés de propriété sont spécifiées au format `prefix`:`property`. Par exemple :`:` `core`:`hadoop.tmp.dir`. Pour en savoir plus, consultez la section Propriétés du cluster.
Réseau VPC Cloud utilisé pour exécuter l'infrastructure
`--notebook-vpc-network-tags`	Liste des tags réseau à appliquer à la tâche.
Identifiant du réseau VPC Cloud. Vous ne pouvez spécifier qu'un seul des éléments suivants.
`--notebook-vpc-network-name`	Réseau VPC Cloud dans lequel l'ordre s'exécute. Par défaut, le réseau VPC Cloud nommé "Default" dans le projet est utilisé.
`--notebook-vpc-sub-network-name`	Sous-réseau VPC Cloud dans lequel le job s'exécute.
Emplacement des sorties du notebook
`--execution-args`	Pour les tâches de notebook, l'argument suivant est obligatoire et doit être transmis en tant que `TASK_ARGS`.
	`--execution-args=^::^TASK_ARGS="--output_location,CLOUD_STORAGE_URI_OF_OUTPUT_DIRECTORY"`

Voici un exemple de commande gcloud utilisée pour planifier des notebooks:

gcloud dataplex tasks create sample-task --project=sample-project --location=us-central1 --lake=my-lake --trigger-type=ON_DEMAND --notebook="projects/my-project-id/locations/us-central1/lakes/my-lake/content/my-notebook.ipynb" --execution-service-account=associated-service-account@sample-project.iam.gserviceaccount.com  --execution-args=^::^TASK_ARGS="--output_location,gs://my-bucket/Demo" --notebook-batch-executors-count=2 --notebook-batch-max-executors-count=5 --notebook-container-image=container-image --notebook-container-image-java-jars=java-jar1,java-jar-2

REST

Utilisez l'explorateur d'API pour créer une tâche.

Gérer les planifications des notebooks

Console

Ouvrir la liste de tous les plannings de notebooks

Dans la console Google Cloud, accédez à la page Processus de Dataplex.
Cliquez sur l'onglet Notebooks planifiés pour afficher la liste des planifications de scripts SQL.

Ouvrir la liste de tous les plannings d'un notebook spécifique

Dans la console Google Cloud, accédez à la page Explorer de Dataplex.
Sélectionnez le notebook requis.
Dans le menu Planifier, cliquez sur Afficher les planifications.

L'onglet Requêtes planifiées s'ouvre avec une liste de planifications de notebook filtrées par le notebook sélectionné.

Afficher les détails d'une planification de notebook

Accédez à l'onglet Notebooks planifiés, puis sélectionnez la planification de notebook requise.
Cliquez sur Détails pour afficher les détails de la planification du notebook et un aperçu de son contenu.

Activer et désactiver un planning de notebook

Accédez à l'onglet Notebook planifié, puis sélectionnez le calendrier de notebook requis.
Cliquez sur Désactiver pour désactiver une planification de notebook active.
Cliquez sur Activer pour activer une planification de notebook inactive.

Supprimer une programmation de notebook existante

Accédez à l'onglet Notebook planifié, puis sélectionnez le calendrier de notebook requis.
Cliquez sur Supprimer pour supprimer définitivement un calendrier de notebook existant.

Afficher les journaux et gérer la planification d'un notebook

Accédez à l'onglet Notebook planifié, puis sélectionnez le calendrier de notebook requis.
Cliquez sur l'onglet Jobs (Tâches), puis sur l'ID de la tâche de l'exécution de notebook planifiée que vous souhaitez afficher.
Dans la section Aperçu de la sortie, examinez le résultat de l'exécution du notebook.
Cliquez sur Afficher les journaux pour afficher les journaux associés à l'exécution planifiée du notebook sélectionné dans Cloud Logging.
Cliquez sur l'ID de lot Dataproc pour ouvrir la page Dataproc dans la console Google Cloud. Accédez aux détails de la session Dataproc sans serveur correspondante.
Cliquez sur Gérer dans Cloud Storage à côté de l'étiquette Sortie pour ouvrir la page Cloud Storage dans la console Google Cloud. Accédez aux détails du bucket Cloud Storage correspondant contenant la sortie de l'exécution du notebook.

gcloud

Pour en savoir plus sur la surveillance des notebooks planifiés à l'aide de la gcloud CLI, consultez l'onglet gcloud dans Surveiller votre tâche.

Pour en savoir plus sur la gestion des notebooks planifiés à l'aide de gcloud CLI, consultez l'onglet gcloud dans Gérer la planification.

REST

Pour en savoir plus sur la surveillance des notebooks planifiés à l'aide de REST, consultez l'onglet REST dans la section Surveiller votre tâche.

Pour en savoir plus sur la gestion des notebooks planifiés à l'aide de REST, consultez l'onglet REST dans Gérer la planification.

Sortie d'un notebook programmé

La sortie de chaque exécution d'un notebook planifié est stockée à l'emplacement spécifié par vous pour le dossier Cloud Storage, selon la structure suivante:

CLOUD_STORAGE_FOLDER_LOCATION/projects/PROJECT_ID/locations/LOCATION_ID/lakes/LAKE_ID/tasks/TASK_ID/JOB_ID/QUERY_NUMBER

Programmer des scripts et des notebooks SQL

Coûts

Avant de commencer

Limitations connues

Créer et gérer des planifications pour des scripts SQL

Configuration de l'environnement d'exécution pour les scripts SQL planifiés

Planifier un script SQL

Console

gcloud

REST

Gérer les planifications de scripts SQL

Console

Ouvrir la liste de tous les plannings de script SQL

Ouvrir la liste de tous les plannings d'un script SQL spécifique

Afficher les détails d'une planification de script SQL

Activer et désactiver une planification de script SQL

Supprimer une planification de script SQL existante

Afficher les journaux et gérer la planification d'un script SQL

gcloud

REST

Sortie d'un script SQL planifié

Créer et gérer des planifications pour des notebooks

Configuration d'environnement d'exécution pour les notebooks programmés

Programmer des notebooks avec des packages personnalisés

Créer une image de conteneur personnalisée pour les notebooks planifiés

Programmer un notebook

Console

gcloud

REST

Gérer les planifications des notebooks

Console

Ouvrir la liste de tous les plannings de notebooks

Ouvrir la liste de tous les plannings d'un notebook spécifique

Afficher les détails d'une planification de notebook

Activer et désactiver un planning de notebook

Supprimer une programmation de notebook existante

Afficher les journaux et gérer la planification d'un notebook

gcloud

REST

Sortie d'un notebook programmé

Étape suivante