Vous pouvez installer des composants supplémentaires tels que Jupyter lorsque vous créez un cluster Dataproc à l'aide de la fonctionnalité Composants facultatifs. Cette page décrit le composant Jupyter.
Le composant Jupyter est un notebook Web pour l'analyse interactive des données. Il est compatible avec l'interface utilisateur Web de JupyterLab. L'interface utilisateur Web de Jupyter est disponible sur le port 8123
du premier nœud maître du cluster.
Le notebook Jupyter fournit un noyau Python pour exécuter le code Spark, ainsi qu'un noyau PySpark. Par défaut, les notebooks sont enregistrés dans Cloud Storage dans le bucket de préproduction Dataproc, qui est spécifié par l'utilisateur ou créé automatiquement lors de la création du cluster. L'emplacement peut être modifié au moment de la création du cluster via la propriété de cluster dataproc:jupyter.notebook.gcs.dir
.
Installer Jupyter
Installez le composant lorsque vous créez un cluster Dataproc. Le composant Jupyter nécessite l'activation de la passerelle des composants Dataproc. Avec la version 1.5 d'image, l'installation du composant Jupyter nécessite également l'installation du composant Anaconda.
Console
- Activez le composant.
- Dans la console Google Cloud, ouvrez la page Dataproc Créer un cluster. Le panneau Configurer le cluster est sélectionné.
- Dans la section Composants, procédez comme suit :
- Sous Composants facultatifs, sélectionnez le composant Jupyter et, si vous utilisez la version d'image 1.5, le composant Anaconda.
- Sous Passerelle des composants, sélectionnez Activer la passerelle des composants (voir Afficher les URL de la passerelle des composants et y accéder).
gcloud CLI
Pour créer un cluster Dataproc incluant le composant Jupyter, exécutez la commande gcloud dataproc clusters create cluster-name avec l'option --optional-components
.
Dernier exemple de version d'image par défaut
L'exemple suivant installe le composant Jupyter sur un cluster qui utilise la dernière version d'image par défaut.
gcloud dataproc clusters create cluster-name \ --optional-components=JUPYTER \ --region=region \ --enable-component-gateway \ ... other flags
Exemple de version d'image 1.5
L'exemple de version d'image 1.5 suivant installe les composants Jupyter et Anaconda (l'installation du composant Anaconda est requise pour la version 1.5 d'image).
gcloud dataproc clusters create cluster-name \ --optional-components=ANACONDA,JUPYTER \ --region=region \ --image-version=1.5 \ --enable-component-gateway \ ... other flags
API REST
Le composant Jupyter peut être installé via l'API Dataproc à l'aide de SoftwareConfig.Component
dans le cadre d'une requête clusters.create
(l'installation du composant Anaconda est également requise pour la version 1.5 d'image).
- Définissez la propriété EndpointConfig.enableHttpPortAccess sur
true
dans la requêteclusters.create
pour permettre la connexion à l'interface utilisateur Web du notebook Jupyter à l'aide de la passerelle des composants.
Ouvrir les interfaces utilisateur Jupyter et JupyterLab
Cliquez sur les liens de la passerelle des composants de la console Google Cloud pour ouvrir dans votre navigateur local le notebook Jupyter ou l'interface utilisateur JupyterLab s'exécutant sur le nœud maître du cluster.
Sélectionnez "GCS" ou "Disque local" pour créer un notebook Jupyter dans l'un des emplacements.
Associer des GPU à des nœuds maîtres et/ou de calcul
Vous pouvez ajouter des GPU aux nœuds maîtres et aux nœuds de calcul de votre cluster lorsque vous utilisez un notebook Jupyter pour :
- Prétraitez des données dans Spark, puis collectez un DataFrame sur le maître et exécutez TensorFlow.
- Utiliser Spark pour orchestrer des exécutions TensorFlow en parallèle
- Exécuter TensorFlow-on-YARN
- Utiliser ce notebook avec d'autres scénarios de machine learning fonctionnant avec des GPU