Composant Dataproc Jupyter

Vous pouvez installer des composants supplémentaires lorsque vous créez un cluster Dataproc à l'aide de la fonctionnalité Composants facultatifs. Cette page décrit le composant Jupyter.

Le composant Jupyter est un notebook Web pour l'analyse interactive des données. Il est compatible avec l'interface utilisateur Web de JupyterLab. L'interface utilisateur Web de Jupyter est disponible sur le port 8123 du premier nœud maître du cluster.

Le notebook Jupyter fournit un noyau Python pour exécuter le code Spark, ainsi qu'un noyau PySpark. Par défaut, les notebooks sont enregistrés dans Cloud Storage dans le bucket de préproduction Dataproc, qui est spécifié par l'utilisateur ou créé automatiquement lors de la création du cluster. L'emplacement peut être modifié au moment de la création du cluster via la propriété dataproc:jupyter.notebook.gcs.dir.

Installer Jupyter et Anaconda

Installez le composant lorsque vous créez un cluster Dataproc. Des composants peuvent être ajoutés aux clusters créés avec Dataproc version 1.3 et ultérieure. Le composant Jupyter nécessite l'installation du composant Anaconda (comme illustré dans l'exemple de l'outil de ligne de commande gcloud ci-dessous).

Consultez la section Versions Dataproc compatibles pour connaître la version de composant incluse dans chaque version d'image Dataproc.

Commande gcloud

Pour créer un cluster Dataproc incluant le composant Jupyter, utilisez la commande gcloud dataproc clusters create cluster-name avec l'option --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=ANACONDA,JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

API REST

Les composants Jupyter et Anaconda peuvent être spécifiés via l'API Dataproc à l'aide de la propriété SoftwareConfig.Component dans le cadre d'une requête clusters.create.

Console

  1. Activez le composant.
    • Dans Cloud Console, ouvrez la page Dataproc Créer un cluster. Cliquez sur "Advanced options" (Options avancées) au bas de la page pour afficher la section "Optional Components" (Composants facultatifs).

    • Cliquez sur "Select component" (Sélectionner un composant) pour ouvrir le panneau de sélection Optional components (Composants facultatifs). Sélectionnez "Anaconda", "Jupyter Notebook" (Notebook Jupyter) et les autres composants facultatifs à installer sur votre cluster.

  2. Activez la passerelle des composants (nécessite la version d'image 1.3.29 ou ultérieure) pour faciliter l'accès au notebook Jupyter et aux autres interfaces Web des composants depuis Google Cloud Console (voir la section Afficher les URL de la passerelle des composants et y accéder).
    • Cochez la case "Component Gateway" (Passerelle des composants) dans le formulaire "Create a cluster" (Créer un cluster).

Ouvrir les interfaces utilisateur Jupyter et JupyterLab

Cliquez sur les liens de la passerelle des composants Cloud Console pour ouvrir dans votre navigateur local le notebook Jupyter et les interfaces utilisateur de JupyterLab exécutées sur le nœud maître de votre cluster.

Associer des GPU à des nœuds maîtres et/ou de calcul

Vous pouvez ajouter des GPU aux nœuds maîtres et aux nœuds de calcul de votre cluster lorsque vous utilisez un notebook Jupyter pour :

  1. Prétraiter des données dans Spark, puis collecter un DataFrame sur le maître et exécutez TensorFlow
  2. Utiliser Spark pour orchestrer des exécutions TensorFlow en parallèle
  3. Exécuter Tensorflow-on-YARN
  4. Utiliser ce notebook avec d'autres scénarios de machine learning fonctionnant avec des GPU