このチュートリアルに含まれる Cloud Shell チュートリアルでは、Python 用の Google Cloud クライアント ライブラリを使用して Dataproc gRPC API をプログラムで呼び出し、クラスタを作成してクラスタにジョブを送信します。
以下のセクションでは、GitHub の GoogleCloudPlatform/python-dataproc リポジトリに含まれるチュートリアル コードの操作について説明します。
Cloud Shell チュートリアルを実行する
[Cloud Shell で開く] をクリックしてチュートリアルを実行します。
コードを理解する
アプリケーションのデフォルト認証情報
このチュートリアルの Cloud Shell チュートリアルでは、Google Cloud プロジェクトの認証情報を使用して認証が行われます。コードをローカルで実行する場合は、サービス アカウント認証情報を使用してコードを認証することをおすすめします。
Dataproc クラスタを作成する
クラスタを作成するために、次の値が設定されています。
- クラスタを作成するプロジェクト
- クラスタが作成されるリージョン
- クラスタの名前
- クラスタ構成ファイル。これは、1 つのマスター ワーカーと 2 つのプライマリ ワーカーを指定します。
残りのクラスタ設定には、デフォルトの構成設定が使用されます。デフォルトのクラスタ構成設定を上書きすることができます。たとえば、セカンダリ VM(デフォルト = 0)を追加したり、クラスタにデフォルト以外の VPC ネットワークを指定したりできます。詳細については、CreateCluster をご覧ください。
ジョブの送信
ジョブを送信するために、次の値が設定されています。
- クラスタを作成するプロジェクト
- クラスタが作成されるリージョン
- ジョブ構成ファイル。これは、クラスタ名と PySpark ジョブの Cloud Storage ファイルパス(URI)を指定します。
詳細については、SubmitJob をご覧ください。
クラスタの削除
クラスタを削除するために、次の値が設定されています。
- クラスタを作成するプロジェクト
- クラスタが作成されるリージョン
- クラスタの名前
詳細については、DeleteCluster をご覧ください。