Utiliser Dataproc Hub


Objectifs

  1. Utiliser Dataproc Hub pour créer un environnement de notebook JupyterLab à utilisateur unique exécuté sur un cluster Dataproc

  2. Créer un notebook et exécuter une tâche Spark sur le cluster Dataproc

  3. Supprimer le cluster et conserver le notebook dans Cloud Storage

Avant de commencer

  1. L'administrateur doit vous accorder l'autorisation notebooks.instances.use. Consultez la section Définir les rôles IAM (Identity and Access Management).

Créer un cluster JupyterLab Dataproc depuis Dataproc Hub

  1. Sélectionnez l'onglet Notebooks gérés par l'utilisateur sur la page Dataproc → Workbench de la console Google Cloud .

  2. Cliquez sur Ouvrir JupyterLab sur la ligne contenant l'instance Dataproc Hub créée par l'administrateur.

    1. Si vous n'avez pas accès à la console Google Cloud , saisissez dans votre navigateur Web l'URL de l'instance Dataproc Hub qu'un administrateur a partagée avec vous.
  3. Sur la page Jupyterhub→Options Dataproc, sélectionnez une configuration et une zone de cluster. Si les personnalisations sont activées, spécifiez-les, puis cliquez sur Créer.

    Une fois le cluster Dataproc créé, vous êtes redirigé vers l'interface JupyterLab exécutée sur le cluster.

Créer un notebook et exécuter une tâche Spark

  1. Dans le panneau de gauche de l'interface JupyterLab, cliquez sur GCS (Cloud Storage).

  2. Créez un notebook PySpark à partir du lanceur JupyterLab.

  3. Le noyau PySpark initialise un SparkContext (à l'aide de la variable sc). Vous pouvez examiner le SparkContext et exécuter une tâche Spark à partir du notebook.

    rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
           .map(lambda word: (word, 1))
           .reduceByKey(lambda a, b: a + b))
    print(rdd.collect())
    
  4. Nommez et enregistrez le notebook. Le notebook est enregistré et reste dans Cloud Storage après la suppression du cluster Dataproc.

Éteindre le cluster Dataproc

  1. Dans l'interface JupyterLab, sélectionnez Fichier → Panneau de configuration Hub pour ouvrir la page Jupyterhub.

  2. Cliquez sur Stop My Cluster (Arrêter mon cluster) pour arrêter (supprimer) le serveur JupyterLab, ce qui supprime le cluster Dataproc.

Étapes suivantes