Vous pouvez installer des composants supplémentaires tels que Jupyter lorsque vous créez un à l'aide de la commande Composants facultatifs . Cette page décrit le composant Jupyter.
Le composant Jupyter
est un notebook Web unique qui permet d'analyser des données de façon interactive.
JupyterLab
UI Web. L'interface utilisateur Web de Jupyter est disponible sur le port 8123
du premier nœud maître du cluster.
Lancer des notebooks pour plusieurs utilisateurs Vous pouvez créer une instance Vertex AI Workbench compatible avec Dataproc ou installer le plug-in Dataproc JupyterLab sur une VM pour diffuser des notebooks auprès de plusieurs utilisateurs.
Configurez Jupyter. Jupyter peut être configuré en fournissant les propriétés de cluster dataproc:jupyter
.
Pour réduire le risque d'exécution de code à distance sur un serveur de notebooks non sécurisé
API, la propriété de cluster par défaut dataproc:jupyter.listen.all.interfaces
est défini sur false
, ce qui limite les connexions à localhost (127.0.0.1)
lorsque
la passerelle des composants
(l'activation de la passerelle des composants est requise lors de l'installation du composant Jupyter).
Le notebook Jupyter fournit un noyau Python permettant d'exécuter du code Spark, ainsi qu'un
noyau PySpark. Par défaut, les notebooks sont enregistrés dans Cloud Storage.
dans le bucket de préproduction Dataproc spécifié par l'utilisateur
créé automatiquement
lors de la création du cluster. L'emplacement peut être modifié au moment de la création du cluster à l'aide de la
dataproc:jupyter.notebook.gcs.dir
.
Utiliser des fichiers de données. Vous pouvez utiliser un notebook Jupyter pour manipuler des fichiers de données importés sur Cloud Storage. Depuis le connecteur Cloud Storage est préinstallé sur un cluster Dataproc, vous pouvez référencer le directement dans votre notebook. Voici un exemple qui accède aux fichiers CSV dans Cloud Storage :
df = spark.read.csv("gs://bucket/path/file.csv") df.show()
Consultez la section Fonctions de chargement et d'enregistrement génériques pour obtenir des exemples PySpark.
Installer Jupyter
Installez le composant lorsque vous créez un cluster Dataproc. Le composant Jupyter nécessite l'activation de Dataproc Passerelle des composants.
Console
- Activez le composant.
- Dans la console Google Cloud, ouvrez Dataproc Créer un cluster . Le panneau Configurer le cluster est sélectionné.
- Dans la section Composants :
- Sous Composants facultatifs, sélectionnez Jupyter.
- Sous Component Gateway (Passerelle des composants), sélectionnez Activer la passerelle des composants (voir Afficher les URL de la passerelle des composants et y accéder).
CLI gcloud
Pour créer un cluster Dataproc incluant le composant Jupyter,
utilisez la
gcloud dataproc clusters create cluster-name avec l'option --optional-components
.
Exemple de dernière version d'image par défaut
L'exemple suivant installe le composant Jupyter sur un cluster qui utilise la dernière version d'image par défaut.
gcloud dataproc clusters create cluster-name \ --optional-components=JUPYTER \ --region=region \ --enable-component-gateway \ ... other flags
API REST
Le composant Jupyter
peuvent être installées via l'API Dataproc
SoftwareConfig.Component
dans le cadre d'un
clusters.create
requête.
- Définissez le paramètre EndpointConfig.enableHttpPortAccess.
à
true
dans le cadre declusters.create
pour permettre la connexion à l'interface utilisateur Web du notebook Jupyter à l'aide de Passerelle des composants.
Ouvrir les interfaces utilisateur Jupyter et JupyterLab
Cliquez sur les liens de la passerelle des composants de la console Google Cloud. pour ouvrir dans votre navigateur local l'interface utilisateur du notebook Jupyter ou JupyterLab le nœud maître du cluster.
Sélectionnez "GCS" ou "Disque local" pour créer un notebook Jupyter dans l'un des emplacements.
Associer des GPU aux nœuds maîtres et de calcul
Vous pouvez ajouter des GPU aux nœuds maîtres et aux nœuds de calcul de votre cluster lorsque vous utilisez un notebook Jupyter pour :
- Prétraitez des données dans Spark, puis collectez un DataFrame sur le maître et exécuter TensorFlow
- Utiliser Spark pour orchestrer des exécutions TensorFlow en parallèle
- Exécuter Tensorflow-on-YARN
- Utiliser ce notebook avec d'autres scénarios de machine learning fonctionnant avec des GPU