Cette page a été traduite par l'API Cloud Translation.
Switch to English

Installer et exécuter un notebook Jupyter sur un cluster Dataproc

Objectifs

Ce tutoriel explique comment installer les composants Dataproc Jupyter et Anaconda sur un nouveau cluster, puis vous connecter à l'interface utilisateur du notebook Jupyter qui s'exécute sur le cluster à partir de votre navigateur local. à l'aide de la passerelle des composants Dataproc.

Coûts

Ce tutoriel utilise des composants facturables de Google Cloud, dont :

Utilisez le Simulateur de coût pour générer une estimation des coûts en fonction de votre utilisation prévue. Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai gratuit.

Avant de commencer

Si ce n'est pas déjà fait, créez un projet Google Cloud Platform et un bucket Cloud Storage.

  1. Configurez votre projet

    1. Connectez-vous à votre compte Google.

      Si vous n'en possédez pas déjà un, vous devez en créer un.

    2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

      Accéder à la page de sélection du projet

    3. Assurez-vous que la facturation est activée pour votre projet Cloud. Découvrez comment vérifier que la facturation est activée pour votre projet.

    4. Activer les API Dataproc, Compute Engine, and Cloud Storage.

      Activer les API

    5. Installez et initialisez le SDK Cloud.

  2. Créez un bucket Cloud Storage dans votre projet pour stocker les notebooks que vous créez dans ce tutoriel.

    1. Dans Cloud Console, accédez à la page Navigateur Cloud Storage.

      Accéder à la page du navigateur Cloud Storage

    2. Cliquez sur Créer un bucket.
    3. Dans la boîte de dialogue Créer un bucket, spécifiez les attributs suivants :
    4. Cliquez sur Create (Créer).
    5. Vos notebooks seront stockés dans Cloud Storage sous gs://bucket-name/notebooks/jupyter.

Créer un cluster et installer le composant Jupyter

Créez un cluster avec le composant Jupyter installé.

Ouvrir les interfaces utilisateur Jupyter et JupyterLab

Cliquez sur les liens de la passerelle des composants Cloud Console dans Cloud Console pour ouvrir le notebook Jupyter ou les interfaces utilisateur JupyterLab s'exécutant sur le nœud maître de votre cluster.

Le répertoire de premier niveau affiché par votre instance Jupyter est un répertoire virtuel qui vous permet de visualiser le contenu de votre bucket Cloud Storage ou de votre système de fichiers local. Vous pouvez choisir l'un des emplacements en cliquant sur le lien GCS pour Cloud Storage ou sur Disque local pour le système de fichiers local du nœud maître de votre cluster.

  1. Cliquez sur le lien GCS. L'interface utilisateur Web du notebook Jupyter affiche les notebooks stockés dans votre bucket Cloud Storage, y compris les notebooks que vous créez dans ce tutoriel.

Nettoyer

Une fois que vous avez terminé l'installation et exécuté un notebook Jupyter sur un cluster de clusters Dataproc, vous pouvez procéder au nettoyage des ressources que vous avez créées sur Google Cloud afin qu'elles ne soient plus comptabilisées dans votre quota et ne vous soient pas facturées. qui seront facturés à l'avenir. Dans les sections suivantes, nous allons voir comment supprimer ou désactiver ces ressources.

Supprimer le projet

Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.

Pour supprimer le projet :

  1. Dans Cloud Console, accédez à la page Gérer les ressources.

    Accéder à la page Gérer les ressources

  2. Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
  3. Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.

Supprimer le cluster

  • Pour supprimer le cluster :
    gcloud dataproc clusters delete cluster-name \
        --region=${REGION}
    

Supprimer le bucket

  • Pour supprimer le bucket Cloud Storage que vous avez créé à l'étape Avant de commencer, utilisez l'étape 2, en incluant les notebooks stockés dans le bucket:
    gsutil -m rm -r gs://${BUCKET_NAME}
    

Étape suivante