Exécuter une instance de notebooks gérés sur un cluster Dataproc

Cette page explique comment exécuter le fichier notebook d'une instance de notebooks gérés sur un cluster Dataproc.

Avant de commencer

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  3. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  4. Activer les API Notebooks and Dataproc.

    Activer les API

  5. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  6. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  7. Activer les API Notebooks and Dataproc.

    Activer les API

  8. Si vous ne l'avez pas déjà fait, créez une instance de notebooks gérés.

Rôles requis

Pour vous assurer que le compte de service dispose des autorisations nécessaires pour exécuter un fichier notebook sur un cluster Dataproc sans serveur, demandez à votre administrateur d'accorder au compte de service les rôles IAM suivants :

Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.

Ces rôles prédéfinis contiennent les autorisations requises pour exécuter un fichier notebook sur un cluster Dataproc sans serveur. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

Autorisations requises

Les autorisations suivantes sont requises pour exécuter un fichier notebook sur un cluster Dataproc sans serveur :

  • dataproc.agents.create
  • dataproc.agents.delete
  • dataproc.agents.get
  • dataproc.agents.update
  • dataproc.tasks.lease
  • dataproc.tasks.listInvalidatedLeases
  • dataproc.tasks.reportStatus
  • dataproc.clusters.use

Votre administrateur peut également attribuer au compte de service ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Créer un cluster Dataproc

Pour exécuter le fichier notebook d'une instance de notebooks gérés dans un cluster Dataproc, votre cluster doit répondre aux critères suivants :

  • La passerelle des composants du cluster doit être activée.

  • Le cluster doit comporter le composant Jupyter.

  • Le cluster doit se trouver dans la même région que votre instance de notebooks gérés.

Pour créer votre cluster Dataproc, saisissez la commande suivante dans Cloud Shell ou dans un autre environnement dans lequel Google Cloud CLI est installé.

gcloud dataproc clusters create CLUSTER_NAME\
    --region=REGION \
    --enable-component-gateway \
    --optional-components=JUPYTER

Remplacez les éléments suivants :

  • REGION : emplacement Google Cloud de votre instance de notebooks gérés

  • CLUSTER_NAME : nom de votre nouveau cluster.

Après quelques minutes, votre cluster Dataproc devient disponible. Apprenez-en plus sur la création de clusters Dataproc.

Ouvrir JupyterLab

  1. Si vous ne l'avez pas déjà fait, créez une instance de notebooks gérés dans la même région que votre cluster Dataproc.

  2. Dans Google Cloud Console, accédez à la page Notebooks gérés.

    Accéder à la page "Notebooks gérés"

  3. À côté du nom de votre instance de notebooks gérés, cliquez sur Ouvrir JupyterLab.

Exécuter un fichier notebook dans votre cluster Dataproc

Vous pouvez exécuter un fichier notebook dans votre cluster Dataproc à partir de n'importe quelle instance de notebooks gérés dans le même projet et la même région.

Exécuter un nouveau fichier notebook

  1. Dans l'interface JupyterLab de votre instance de notebooks gérés, sélectionnez Fichier > Nouveau > Notebook.

  2. Les noyaux disponibles pour votre cluster Dataproc s'affichent dans le menu Sélectionner le noyau. Sélectionnez le noyau que vous souhaitez utiliser, puis cliquez sur Sélectionner.

    Le nouveau fichier notebook s'ouvre.

  3. Ajoutez du code à votre nouveau fichier notebook, puis exécutez le code.

Pour modifier le noyau que vous souhaitez utiliser après avoir créé le fichier notebook, consultez la section suivante.

Exécuter un fichier notebook existant

  1. Dans l'interface JupyterLab de votre instance de notebooks gérés, cliquez sur le bouton  Explorateur de fichiers, accédez au fichier notebook que vous souhaitez exécuter, puis ouvrez-le.

  2. Pour ouvrir la boîte de dialogue Sélectionner le noyau, cliquez sur le nom du noyau de votre fichier notebook, par exemple Python (Local).

  3. Pour sélectionner un noyau à partir de votre cluster Dataproc, sélectionnez un nom de noyau incluant le nom de votre cluster à la fin. Par exemple, un noyau PySpark sur un cluster Dataproc nommé mycluster est nommé PySpark on mycluster.

  4. Cliquez sur Select (Sélectionner) pour fermer la boîte de dialogue.

    Vous pouvez maintenant exécuter le code de votre fichier notebook sur le cluster Dataproc.

Étape suivante