Dataproc クラスタで Jupyter ノートブックをインストールして実行する

始める前に

Google Cloud Platform プロジェクトと Cloud Storage バケットをまだ作成していない場合は作成します。

プロジェクトを設定する

  1. Google アカウントにログインします。

    Google アカウントをまだお持ちでない場合は、新しいアカウントを登録します。

  2. Cloud Console のプロジェクト セレクタページで、Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタのページに移動

  3. Google Cloud プロジェクトに対して課金が有効になっていることを確認します。 プロジェクトに対して課金が有効になっていることを確認する方法を学習する

  4. Dataproc and Compute Engine API を有効にします。

    API を有効にする

  5. Cloud SDK をインストールし、初期化します

プロジェクトの Cloud Storage バケットの作成

  1. Cloud Console で、[Cloud Storage ブラウザ] ページに移動します。

    Cloud Storage ブラウザページに移動

  2. [バケットを作成] をクリックします。
  3. [バケットの作成] ダイアログ内で、以下の属性を指定します。
  4. [作成] をクリックします。
  5. ノートブックは Cloud Storage の gs://bucket-name/notebooks/jupyter の下に保存されます。

クラスタを作成して Jupyter コンポーネントをインストールする

gcloud コマンド

  1. ターミナル ウィンドウまたは Cloud Shell で、以下の gcloud beta dataproc clusters create コマンドをローカルに実行します。

    1. クラスタを作成し、クラスタのマスターノードに Jupyter と Anaconda コンポーネントをインストールします。
    2. コンポーネント ゲートウェイを有効にします。

    以下のコマンドで、cluster-name、bucket-name、project-id に実際の値を入れます。bucket-name には、プロジェクトで Cloud Storage バケットを作成するで作成したバケットの名前を指定します(バケットの名前のみを指定)。ノートブックは Cloud Storage の gs://bucket-name/notebooks/jupyter の下に保存されます。

    Linux / macOS

        gcloud beta dataproc clusters create cluster-name \
            --optional-components=ANACONDA,JUPYTER \
            --image-version=1.3 \
            --enable-component-gateway \
            --bucket bucket-name \
            --region region \
            --project project-id
        

    Windows

        gcloud dataproc clusters create cluster-name ^
            --optional-components=ANACONDA,JUPYTER ^
            --image-version=1.3 ^
            --enable-component-gateway ^
            --bucket bucket-name ^
            --project project-id
        

Console

  1. Cloud Console で、[Dataproc クラスタ] ページに移動します。
  2. [クラスタを作成] をクリックして、[クラスタの作成] ページを開きます。
  3. クラスタの名前を [名前] 項目に入力します。
  4. クラスタのリージョンとゾーンを [リージョン] および [ゾーン] メニューで選択します(使用可能なリージョンとゾーンをご覧ください)。個別のリージョンを指定し、ゾーンとして [指定しない] を選択すると、選択したリージョン内のゾーンが Dataproc により選択されます(Dataproc の自動ゾーン プレースメントをご覧ください)。代わりに global リージョンも選択できます。これは特別なマルチリージョンの名前空間で、すべての Compute Engine ゾーンに対してグローバルにインスタンスをデプロイできます(グローバル リージョンを選択する場合は、ゾーンも選択する必要があります)。
  5. [コンポーネント ゲートウェイ] チェックボックスをオンにします。
  6. [詳細オプション] パネルを展開します。

  7. [Cloud Storage ステージング バケット] 項目に、プロジェクトで Cloud Storage バケットを作成するで作成したバケットの名前を入力します(バケットの名前のみを指定)。ノートブックは Cloud Storage の gs://bucket-name/notebooks/jupyter の下に保存されます。
  8. [コンポーネントを選択] をクリックして [オプション コンポーネント] 選択パネルを開きます。
  9. 「Anaconda」と「Jupyter ノートブック」コンポーネントを選択します。
  10. 他のオプションには、設定されたデフォルトを使用できます。

  11. [作成] をクリックしてクラスタを作成し、クラスタのマスターノードにコンポーネントとコンポーネント ゲートウェイをインストールします。

ブラウザで Jupyter ノートブックを開く

  1. Google Cloud Console で Dataproc の [クラスタ] フォームに移動し、クラスタを選択して [クラスタの詳細] フォームを開きます。[ウェブ インターフェース] タブをクリックすると、クラスタにインストールされているデフォルト コンポーネントとオプション コンポーネントのウェブ インターフェースへのコンポーネント ゲートウェイ リンクのリストが表示されます。

  2. Jupyter リンクをクリックします。Jupyter ノートブックのウェブ UI がローカル ブラウザで開きます。