Dataproc クラスタは、Cloud SDK gcloud コマンドライン ツール、Dataproc API または Google Cloud Console を使用して作成できます。Cloud クライアント ライブラリを使用して、クラスタをプログラムで作成することもできます。
クラスタ名: クラスタは小文字で始まり、最大 54 文字の小文字、数字、ハイフンで構成します。末尾をハイフンにすることはできません。
クラスタ リージョン: クラスタに対して、global
リージョンや特定のリージョンを指定できます。グローバル リージョンとは、ユーザー指定の Compute Engine ゾーンにインスタンスをデプロイできる、特別なマルチリージョンのエンドポイントのことです。また、異なったリージョン(us-east1
や europe-west1
など)を複数指定することで、Dataproc によって利用されるリソース(VM インスタンス、Google Cloud Storage など)とメタデータの保存場所を、ユーザーが指定したリージョンに分離することもできます。グローバル エンドポイントとリージョン エンドポイントの違いについては、リージョン エンドポイントをご覧ください。リージョンの選択については、利用可能なリージョンとゾーンをご覧ください。gcloud compute regions list
コマンドを実行して、利用可能なリージョンのリストを表示することもできます。
Dataproc クラスタ内の Compute Engine 仮想マシン インスタンス(VM)は、マスター VM とワーカー VM で構成され、相互に対する完全な内部 IP ネットワーク アクセスを必要とします。クラスタの作成に使用できる default
ネットワークにより、このアクセスを確保できます。Dataproc クラスタ用に独自のネットワークを作成する方法については、Dataproc クラスタのネットワーク構成をご覧ください。
Dataproc クラスタの作成
gcloud
コマンドラインで Dataproc クラスタを作成するには、ターミナル ウィンドウまたは Cloud Shell で、Cloud SDK の gcloud dataproc clusters create コマンドをローカルで実行します。
gcloud dataproc clusters create cluster-name \ --region=region
上記のコマンドを実行すると、デフォルトの Dataproc サービス設定でクラスタが作成されます。デフォルトのサービス設定では、マスター仮想マシン インスタンスとワーカー仮想マシン インスタンス、ディスクのサイズとタイプ、ネットワーク タイプ、クラスタがデプロイされるリージョンとゾーン、その他のクラスタ設定が指定されます。コマンドライン フラグを使用したクラスタ設定のカスタマイズについては、gcloud dataproc clusters create コマンドをご覧ください。
YAML ファイルを使用してクラスタを作成する
- 次の
gcloud
コマンドを実行して、既存の Dataproc クラスタの構成を YAML ファイルにエクスポートします。gcloud dataproc clusters export my-existing-cluster --destination cluster.yaml
- YAML ファイル構成をインポートして新しいクラスタを作成します。
gcloud dataproc clusters import my-new-cluster --source cluster.yaml
注: エクスポートのオペレーション中に、クラスタ固有の項目(クラスタ名など)、出力専用項目、自動的に適用されたラベルはフィルタされます。これらの項目は、クラスタ作成のためにインポートした YAML ファイルでは許可されません。
REST とコマンドライン
このセクションでは、必須の値とデフォルト構成(1 つのマスター、2 つのワーカー)でクラスタを作成する方法を説明します。
後述のリクエストのデータを使用する前に、次のように置き換えます。
- project-id: GCP プロジェクト ID
- region: クラスタ リージョン
- clusterName: クラスタ名
HTTP メソッドと URL:
POST https://dataproc.googleapis.com/v1/projects/project-id/regions/region/clusters
JSON 本文のリクエスト:
{ "clusterName": "cluster-name", "config": {} }
リクエストを送信するには、次のいずれかのオプションを展開します。
次のような JSON レスポンスが返されます。
{ "name": "projects/project-id/regions/region/operations/b5706e31......", "metadata": { "@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata", "clusterName": "cluster-name", "clusterUuid": "5fe882b2-...", "status": { "state": "PENDING", "innerState": "PENDING", "stateStartTime": "2019-11-21T00:37:56.220Z" }, "operationType": "CREATE", "description": "Create cluster with 2 workers", "warnings": [ "For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ..."" ] } }
Console
ブラウザで Cloud Console から Dataproc の [クラスタの作成] ページを開きます。デフォルト値がフィールドに入力されている [クラスタの設定] パネルが選択されています。各パネルを選択し、デフォルト値を確認するか、変更してクラスタをカスタマイズします。
[作成] をクリックしてクラスタを作成します。クラスタ名が [クラスタ] ページに表示され、クラスタがプロビジョニングされると、そのステータスは [実行中] に更新されます。クラスタ名をクリックするとクラスタ詳細ページが開き、クラスタのジョブ、インスタンス、構成設定を確認して、クラスタで実行されているウェブ インターフェースに接続できます。
Go
- クライアント ライブラリのインストール
- アプリケーションのデフォルト認証情報を設定します。
- コードを実行します。
Java
- クライアント ライブラリのインストール
- アプリケーションのデフォルト認証情報を設定します。
- コードを実行します。
Node.js
- クライアント ライブラリのインストール
- アプリケーションのデフォルト認証情報を設定します。
- コードの実行
Python
- クライアント ライブラリのインストール
- アプリケーションのデフォルト認証情報を設定します。
- コードを実行します。