Utiliser Dataproc Hub

Objectifs

Utilisez Dataproc Hub pour créer un environnement de notebook JupyterLab à utilisateur unique, qui s'exécute sur un cluster Dataproc.
Créer un notebook et exécuter une tâche Spark sur le cluster Dataproc
Supprimer le cluster et conserver le notebook dans Cloud Storage

Avant de commencer

L'administrateur doit vous accorder l'autorisation notebooks.instances.use (consultez la page Définir les rôles Identity and Access Management (IAM)).

Créer un cluster Dataproc JupyterLab à partir de Dataproc Hub

Sélectionnez l'onglet Notebooks gérés par l'utilisateur sur la page Dataproc → Workbench dans la console Google Cloud.
Cliquez sur Ouvrir JupyterLab sur la ligne répertoriant l'instance Dataproc Hub créée par l'administrateur.
1. Si vous n'avez pas accès à la console Google Cloud, saisissez l'URL de l'instance Dataproc Hub qu'un administrateur a partagée avec vous dans votre navigateur Web.
Sur la page Jupyterhub → Dataproc Options (Options Dataproc), sélectionnez une configuration de cluster et une zone. Si cette option est activée, spécifiez les personnalisations souhaitées, puis cliquez sur Create (Créer).

Une fois le cluster Dataproc créé, vous êtes redirigé vers l'interface JupyterLab en cours d'exécution sur le cluster.

Créer un notebook et exécuter une tâche Spark

Dans le panneau de gauche de l'interface JupyterLab, cliquez sur GCS (Cloud Storage).
Créez un notebook PySpark à partir du lanceur de JupyterLab.

Le noyau PySpark initialise un SparkContext (à l'aide de la variable sc). Vous pouvez examiner le SparkContext et exécuter une tâche Spark à partir du notebook.

rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
       .map(lambda word: (word, 1))
       .reduceByKey(lambda a, b: a + b))
print(rdd.collect())

Nommez et enregistrez le notebook. Le notebook est enregistré et reste dans Cloud Storage après la suppression du cluster Dataproc.

Éteindre le cluster Dataproc

Dans l'interface JupyterLab, sélectionnez Fichier → Panneau de configuration Hub pour ouvrir la page Jupyterhub.

Lorsque vous utilisez la version 1.4 d'une image Dataproc ou une version antérieure, accédez à /hub/home pour accéder à la page Jupyterhub.
Cliquez sur Arrêter mon cluster pour arrêter (supprimer) le serveur JupyterLab, ce qui supprime le cluster Dataproc.

L'arrêt du serveur et la suppression du cluster ne supprime pas l'instance Dataproc Hub. Vous pouvez cliquer sur Start my server (Démarrer mon serveur) sur la page Jupyterhub (panneau de configuration Hub) ou sélectionner le lien Ouvrir JupyterLab pour votre instance Dataproc Hub sur la page Dataproc → Workbench → Notebooks gérés par l'utilisateur dans la console Google Cloud pour ouvrir la section "Configurer et créer un autre cluster JupyterLab Dataproc".

Étapes suivantes

Explorez des notebooks Spark et Jupyter sur Dataproc sur GitHub.