Utiliser Dataproc Hub

Utilisez Dataproc Hub pour ouvrir l'interface utilisateur de JupyterLab sur un cluster Dataproc à un seul utilisateur.

Objectifs

  1. Utiliser Dataproc Hub pour créer un environnement de notebook JupyterLab exécuté sur un cluster Dataproc à utilisateur unique

  2. Créer un notebook et exécuter une tâche Spark sur le cluster Dataproc

  3. Supprimer le cluster et conserver le notebook dans Cloud Storage

Avant de commencer

  1. L'administrateur doit vous accorder l'autorisation notebooks.instances.use. Consultez la section Définir les rôles IAM (Identity and Access Management).

Ouvrir une interface utilisateur de notebook JupyterLab sur un cluster Dataproc

  1. Ouvrez l'interface utilisateur de Dataproc Hub :

    1. Si vous avez accès à Cloud Console, sur la page Dataproc→Notebooks instances (Dataproc→Instances de notebooks) de Cloud Console, cliquez sur OUVRIR JUPYTERLAB dans la ligne contenant l'instance Dataproc Hub créée par un administrateur.
    2. Si vous n'avez pas accès à Cloud Console, dans votre navigateur Web, saisissez l'URL de l'instance Dataproc Hub que l'administrateur a partagé avec vous.
  2. Sur la page Jupyterhub, sélectionnez une configuration et une zone de cluster. Si les personnalisations sont activées, spécifiez-les, puis cliquez sur "Démarrer".

    La création du cluster prend quelques minutes. Une fois le cluster créé, vous êtes redirigé vers l'interface utilisateur de JupyterLab exécutée sur le cluster Dataproc.

Créer un notebook et exécuter une tâche Spark

  1. Dans le panneau de gauche de l'interface utilisateur JupyterLab, cliquez sur GCS ou local.

  2. Créez un notebook PySpark.

  3. Le noyau PySpark initialise un SparkContext (à l'aide de la variable sc). Vous pouvez examiner le SparkContext et exécuter une tâche Spark à partir du notebook.

    rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
           .map(lambda word: (word, 1))
           .reduceByKey(lambda a, b: a + b))
    print(rdd.collect())
    
  4. Nommez et enregistrez le notebook. Le notebook est enregistré et reste dans Cloud Storage après la suppression du cluster Dataproc.

Éteindre le cluster Dataproc

  1. Dans l'interface utilisateur JupyterLab, sélectionnez "File→Hub Control Panel" (Fichier → Panneau de configuration Hub) pour OUVRIR l'interface utilisateur de Dataproc Hub.

  2. Cliquez sur Arrêter mon cluster pour arrêter (supprimer) le serveur Jupyter, ce qui supprime le cluster Dataproc.

Étape suivante