Objectifs
Utiliser Dataproc Hub pour créer un compte utilisateur unique Environnement de notebook JupyterLab s'exécutant sur un cluster Dataproc
Créer un notebook et exécuter une tâche Spark sur le cluster Dataproc
Supprimer le cluster et conserver le notebook dans Cloud Storage
Avant de commencer
- L'administrateur doit vous accorder l'autorisation
notebooks.instances.use
(consultez Définir les rôles Identity and Access Management (IAM)).
Créer un cluster Dataproc JupyterLab à partir de Dataproc Hub
Sélectionnez l'onglet Notebooks gérés par l'utilisateur sur la page Dataproc → Workbench dans la console Google Cloud.
Cliquez sur Ouvrir JupyterLab sur la ligne qui liste l'instance Dataproc Hub créée par l'administrateur.
- Si vous n'avez pas accès à la console Google Cloud, saisissez le URL d'instance Dataproc Hub qu'une partagé avec vous dans votre navigateur Web.
Sur la page Jupyterhub → Options Dataproc, sélectionnez une configuration et une zone de cluster. Si les personnalisations sont activées, spécifiez-les, puis cliquez sur Créer.
Une fois le cluster Dataproc créé, vous êtes redirigé à l'interface JupyterLab exécutée sur le cluster.
Créer un notebook et exécuter une tâche Spark
Dans le panneau de gauche de l'interface JupyterLab, cliquez sur
GCS
(Cloud Storage).Créer un notebook PySpark à partir du lanceur de JupyterLab
Le noyau PySpark initialise un SparkContext (à l'aide de la variable
sc
). Vous pouvez examiner le SparkContext et exécuter une tâche Spark à partir du notebook.rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem']) .map(lambda word: (word, 1)) .reduceByKey(lambda a, b: a + b)) print(rdd.collect())
Nommez et enregistrez le notebook. Le notebook est enregistré et reste dans Cloud Storage après la suppression du cluster Dataproc.
Éteindre le cluster Dataproc
Dans l'interface JupyterLab, sélectionnez File→Hub Control Panel (Fichier → Panneau de configuration Hub) pour ouvrir la page Jupyterhub.
Cliquez sur Arrêter mon cluster pour arrêter (supprimer) le serveur JupyterLab, ce qui supprime le cluster Dataproc.
Étape suivante
- Explorez des notebooks Spark et Jupyter sur Dataproc sur GitHub.