Installer et exécuter un notebook Jupyter sur un cluster Dataproc

Avant de commencer

Si ce n'est pas déjà fait, créez un projet Google Cloud Platform et un bucket Cloud Storage.

Configurer votre projet

  1. Connectez-vous à votre compte Google.

    Si vous n'en possédez pas déjà un, vous devez en créer un.

  2. Dans Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Cloud.

    Accéder à la page de sélection du projet

  3. Vérifiez que la facturation est activée pour votre projet Google Cloud. Découvrez comment vérifier que la facturation est activée pour votre projet.

  4. Activer les API Dataproc and Compute Engine.

    Activer les API

  5. Installez et initialisez le SDK Cloud.

Créer un bucket Cloud Storage dans votre projet

  1. Dans Cloud Console, accédez à la page Navigateur Cloud Storage.

    Accéder au navigateur Cloud Storage

  2. Cliquez sur Créer un bucket.
  3. Dans la boîte de dialogue Créer un bucket, spécifiez les attributs suivants :
  4. Cliquez sur Créer.
  5. Vos notebooks seront enregistrés dans Cloud Storage sous gs://bucket-name/notebooks/jupyter.

Créer un cluster et installer le composant Jupyter

Commande gcloud

  1. Exécutez en local la commande gcloud beta dataproc clusters create dans une fenêtre de terminal ou dans Cloud Shell pour :

    1. Créer votre cluster et installer les composants Jupyter et Anaconda sur le nœud maître du cluster
    2. Activer la passerelle des composants

    Insérez les valeurs cluster-name, bucket-name et project-id dans la commande ci-dessous. Pour bucket-name, indiquez le nom du bucket que vous avez créé à l'étape Créer un bucket Cloud Storage dans votre projet (ne spécifiez que le nom du bucket). Vos notebooks seront enregistrés dans Cloud Storage sous gs://bucket-name/notebooks/jupyter.

    Linux/macOS

    gcloud beta dataproc clusters create cluster-name \
        --optional-components=ANACONDA,JUPYTER \
        --image-version=1.3 \
        --enable-component-gateway \
        --bucket=bucket-name \
        --region=region \
        --project=project-id
    

    Windows

    gcloud dataproc clusters create cluster-name ^
        --optional-components=ANACONDA,JUPYTER ^
        --image-version=1.3 ^
        --enable-component-gateway ^
        --bucket=bucket-name ^
        --region=region ^
        --project=project-id
    

Console

  1. Accédez à la page Clusters Dataproc de Dataproc dans Cloud Console.
  2. Cliquez sur Create cluster (Créer un cluster) pour ouvrir la page correspondante.
  3. Saisissez le nom de votre cluster dans le champ Name (Nom).
  4. Sélectionnez une région et une zone pour le cluster dans les menus déroulants Region et Zone (consultez la section Régions et zones disponibles). Vous pouvez spécifier une région distincte et sélectionner "No preference" (Aucune préférence) afin de laisser Dataproc choisir une zone dans la région sélectionnée pour votre cluster (consultez la section Sélection automatique des zones de Dataproc). Vous pouvez également sélectionner une région global, qui est un espace de noms spécial multirégional capable de déployer des instances dans toutes les zones de Compute Engine à l'échelle mondiale (en sélectionnant une région globale, vous devez également sélectionner une zone).
  5. Cochez la case "Component Gateway" (Passerelle des composants).
  6. Développez le panneau Advanced options (Options avancées).

  7. Saisissez le nom du bucket que vous avez créé à l'étape Créer un bucket Cloud Storage dans votre projet dans le champ Cloud Storage staging bucket (Bucket de pré-production Cloud Storage). Ne spécifiez que le nom du bucket. Vos notebooks seront enregistrés dans Cloud Storage sous gs://bucket-name/notebooks/jupyter.
  8. Cliquez sur "Select component" (Sélectionner un composant) pour ouvrir le panneau de sélection Optional components (Composants facultatifs).
  9. Sélectionnez les composants "Anaconda" et "Jupyter Notebook" (Notebook Jupyter).
  10. Vous pouvez utiliser les valeurs fournies par défaut pour les autres options.

  11. Cliquez sur Create (Créer) pour créer le cluster et installer les composants et la passerelle des composants sur le nœud maître du cluster.

Ouvrir le notebook Jupyter dans votre navigateur local

  1. Accédez au formulaire Dataproc Clusters sur Google Cloud Console, puis sélectionnez votre cluster pour ouvrir le formulaire Cluster details (Détails du cluster). Cliquez sur l'onglet Web Interfaces (Interfaces Web) pour afficher la liste des liens de la passerelle des composants vers les interfaces Web des composants par défaut et facultatifs installés sur le cluster.

  2. Cliquez sur le lien Jupyter. L'interface utilisateur Web du notebook Jupyter s'ouvre dans votre navigateur local.