Dataproc-Hub verwenden

Verwenden Sie Dataproc Hub, um die JupyterLab-UI in einem Dataproc-Cluster mit einem einzelnen Nutzer zu öffnen.

Lernziele

  1. Verwenden Sie Dataproc Hub, um eine JupyterLab-Notebook-Umgebung zu erstellen, die auf einem Dataproc-Cluster mit einem einzelnen Nutzer ausgeführt wird.

  2. Erstellen Sie ein Notebook und führen Sie einen Spark-Job im Dataproc-Cluster aus.

  3. Löschen Sie den Cluster und behalten Sie Ihr Notebook in Cloud Storage bei.

Hinweis

  1. Der Administrator muss Ihnen die Berechtigung notebooks.instances.use erteilen (siehe IAM-Rollen festlegen).

JupyterLab Notebook-UI in einem Dataproc-Cluster öffnen

  1. Öffnen Sie die Dataproc Hub-Benutzeroberfläche:

    1. Wenn Sie Zugriff auf die Google Cloud Console haben, klicken Sie in der Google Cloud Console auf der Seite Dataproc → Notebooks-Instanzen auf „JUPYTERLAB ÖFFNEN“ in der Zeile, die die von einem Administrator erstellte Dataproc Hub-Instanz auflistet.
    2. Wenn Sie keinen Zugriff auf die Google Cloud Console haben, geben Sie in Ihrem Webbrowser die URL des Dataproc Hub-Instanzens ein, die der Administrator für Sie freigegeben hat.
  2. Wählen Sie auf der Seite Jupyterhub eine Clusterkonfiguration und -zone aus. Falls aktiviert, nehmen Sie die gewünschten Anpassungen vor und klicken Sie auf „Start”.

    Das Erstellen des Clusters dauert einige Minuten. Nachdem der Cluster erstellt wurde, werden Sie zur JupyterLab-UI weitergeleitet, die im Dataproc-Cluster ausgeführt wird.

Notebook erstellen und einen Spark-Job ausführen

  1. Klicken Sie im linken Bereich der JupyterLab-UI auf GCS oder local.

  2. Erstellen Sie ein PySpark-Notebook.

  3. Der PySpark-Kernel initialisiert einen SparkContext mithilfe der Variable sc. Sie können den SparkContext untersuchen und einen Spark-Job aus dem Notebook ausführen.

    rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
           .map(lambda word: (word, 1))
           .reduceByKey(lambda a, b: a + b))
    print(rdd.collect())
    
  4. Benennen Sie das Notebook und speichern Sie es. Das Notebook wird gespeichert und verbleibt in Cloud Storage, nachdem der Dataproc-Cluster gelöscht wurde.

Dataproc-Cluster herunterfahren

  1. Wählen Sie in der JupyterLab-UI „File→Hub” (Steuerfeld) aus, um die Dataproc Hub-UI zu öffnen.

  2. Klicken Sie auf Stop My Cluster, um den Jupyter-Server zu beenden (löschen), wodurch der Dataproc-Cluster gelöscht wird.

Weitere Informationen