Dataproc Hub の使用

Dataproc Hub を使用して、単一ユーザーの Dataproc クラスタ上で JupyterLab UI を開きます。

目標

  1. Dataproc Hub を使用して、単一ユーザーの Dataproc クラスタ上で実行する JupyterLab ノートブック環境を作成する。

  2. ノートブックを作成し、Dataproc クラスタ上で Spark ジョブを実行する。

  3. クラスタを削除し、ノートブックを Cloud Storage に保存する。

始める前に

  1. 管理者から notebooks.instances.use 権限が付与されている必要があります(Identity and Access Management(IAM)のロールを設定するをご覧ください)。

Dataproc クラスタ上で JupyterLab ノートブック UI を開く

  1. Dataproc Hub UI を開きます。

    1. Cloud Console にアクセスできる場合、Cloud Console の Dataproc - Notebooks インスタンス で、管理者が作成した Dataproc Hub インスタンスが一覧表示される行の [JupyterLab を開く] をクリックします。
    2. Cloud Console にアクセスできない場合、ウェブブラウザから、管理者と共有する Dataproc Hub インスタンス URL を入力します。
  2. Jupyterhub ページで、クラスタ構成とゾーンを選択します。有効にする場合は、カスタマイズを指定してから、[開始] をクリックします。

    クラスタの作成には数分かかります。クラスタが作成されると、Dataproc クラスタ上で実行されている JupyterLab UI にリダイレクトされます。

ノートブックを作成して Spark ジョブを実行する

  1. JupyterLab UI の左側のパネルで、[GCS] または [local] をクリックします。

  2. PySpark ノートブックを作成します。

  3. PySpark カーネルは(sc 変数を使用して)SparkContext を初期化します。SparkContext を調べて、ノートブックから Spark ジョブを実行できます。

    rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
           .map(lambda word: (word, 1))
           .reduceByKey(lambda a, b: a + b))
    print(rdd.collect())
    
  4. ノートブックに名前を付けて保存します。ノートブックは保存され、Dataproc クラスタの削除後も Cloud Storage に残ります。

Dataproc クラスタをシャットダウンする

  1. JupyterLab UI から [ファイル] > [Hnb コントロール パネル] を選択して、Dataproc Hub UI を開きます。

  2. [Stop My Cluster] をクリックして、Jupyter サーバーをシャットダウン(削除)し、Dataproc クラスタを削除します。

次のステップ