Cette page a été traduite par l'API Cloud Translation.
Switch to English

Composant Dataproc Jupyter

Vous pouvez installer des composants supplémentaires lorsque vous créez un cluster Dataproc à l'aide de la fonctionnalité Composants facultatifs. Cette page décrit le composant Jupyter.

Le composant Jupyter est un notebook Web pour l'analyse interactive des données. Il est compatible avec l'interface utilisateur Web de JupyterLab. L'interface utilisateur Web de Jupyter est disponible sur le port 8123 du premier nœud maître du cluster.

Le notebook Jupyter fournit un noyau Python pour exécuter le code Spark, ainsi qu'un noyau PySpark. Par défaut, les notebooks sont enregistrés dans Cloud Storage dans le bucket de préproduction Dataproc, qui est spécifié par l'utilisateur ou créé automatiquement lors de la création du cluster. L'emplacement peut être modifié au moment de la création du cluster via la propriété dataproc:jupyter.notebook.gcs.dir.

Installer Jupyter

Installez le composant lorsque vous créez un cluster Dataproc. Des composants peuvent être ajoutés aux clusters créés avec Dataproc version 1.3 et ultérieure. Avec les versions d'image Dataproc autres que l'image 2.0, le composant Jupyter nécessite l'installation du composant Anaconda (l'installation d'un composant Anaconda n'est pas nécessaire ou disponible lors de l'utilisation). l'image 2.0).

Consultez la section Versions Dataproc compatibles pour obtenir la version de composant incluse dans chaque version d'image Dataproc.

Commande gcloud

Pour créer un cluster Dataproc incluant le composant Jupyter, utilisez la commande gcloud dataproc clusters create cluster-name avec l'option --optional-components. L'exemple ci-dessous permet d'installer les composants Jupyter et Anaconda (l'installation du composant Anaconda n'est pas nécessaire ni disponible lorsque vous utilisez l'image 2.0).

gcloud dataproc clusters create cluster-name \
    --optional-components=ANACONDA,JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

API REST

Les composants Jupyter et Anaconda peuvent être spécifiés via l'API Dataproc à l'aide de la propriété SoftwareConfig.Component dans le cadre d'un objet clusters.create{ 10.1request (L'installation du composant Anaconda n'est pas nécessaire ou disponible lors de l'utilisation de l'image 2.0).

Console

  1. Activez le composant et la passerelle des composants.
    • Dans Cloud Console, ouvrez la page Dataproc Créer un cluster. Le panneau "Configurer le cluster" est sélectionné.
    • Dans la section Composants :
      • Sous "Composants facultatifs", sélectionnez "Anaconda", "Jupyter" et les autres composants facultatifs à installer sur votre cluster. REMARQUE: Si vous utilisez l'image 2.0, l'installation du composant Anaconda n'est pas nécessaire ni disponible.
      • Sous "Passerelle des composants", sélectionnez "Activer la passerelle des composants" (consultez la section Afficher les URL de la passerelle des composants et y accéder).

Ouvrir les interfaces utilisateur Jupyter et JupyterLab

Cliquez sur les liens de la passerelle des composants Cloud Console pour ouvrir dans votre navigateur local le notebook Jupyter ou les interfaces utilisateur de JupyterLab exécutées sur le nœud maître de votre cluster.

Sélectionnez "GCS" ou "Disque local" pour créer un notebook Jupyter dans l'un des emplacements.

Associer des GPU à des nœuds maîtres et/ou de calcul

Vous pouvez ajouter des GPU aux nœuds maîtres et aux nœuds de calcul de votre cluster lorsque vous utilisez un notebook Jupyter pour :

  1. Prétraiter des données dans Spark, puis collecter un DataFrame sur le maître et exécutez TensorFlow
  2. Utiliser Spark pour orchestrer des exécutions TensorFlow en parallèle
  3. Exécuter Tensorflow-on-YARN
  4. Utiliser ce notebook avec d'autres scénarios de machine learning fonctionnant avec des GPU