Dataproc クラスタの作成方法
要件:
名前: クラスタ名は小文字で始まり、最大 51 の小文字、数字、ハイフンで構成します。末尾にハイフンは置けません。
クラスタ リージョン: クラスタの Compute Engine リージョン(
us-east1
やeurope-west1
など)を指定して、リージョン内の Cloud Storage に保存されている VM インスタンスやクラスタなどのクラスタ リソースを分離する必要があります。- リージョン エンドポイントの詳細については、リージョン エンドポイントをご覧ください。
- リージョンの選択については、利用可能なリージョンとゾーンをご覧ください。
gcloud compute regions list
コマンドを実行して、利用可能なリージョンのリストを表示することもできます。
接続: Dataproc クラスタ内の Compute Engine 仮想マシン インスタンス(VM)は、マスター VM とワーカー VM で構成され、完全な内部 IP ネットワーク相互接続が必要です。この接続は、
default
VPC ネットワークによって提供されます(Dataproc クラスタのネットワーク構成をご覧ください)。
gcloud
コマンドラインで Dataproc クラスタを作成するには、ターミナル ウィンドウまたは Cloud Shell で、gcloud dataproc clusters create コマンドをローカルで実行します。
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION
コマンドを実行すると、デフォルトの Dataproc サービス設定でクラスタが作成されます。デフォルトのサービス設定では、マスター仮想マシン インスタンスとワーカー仮想マシン インスタンス、ディスクのサイズとタイプ、ネットワーク タイプ、クラスタがデプロイされるリージョンとゾーン、その他のクラスタ設定が指定されます。コマンドライン フラグを使用したクラスタ設定のカスタマイズについては、gcloud dataproc clusters create コマンドをご覧ください。
YAML ファイルを使用してクラスタを作成する
- 次の
gcloud
コマンドを実行して、既存の Dataproc クラスタの構成をcluster.yaml
ファイルにエクスポートします。gcloud dataproc clusters export EXISTING_CLUSTER_NAME \ --region=REGION \ --destination=cluster.yaml
- YAML ファイル構成をインポートして新しいクラスタを作成します。
gcloud dataproc clusters import NEW_CLUSTER_NAME \ --region=REGION \ --source=cluster.yaml
注: エクスポートのオペレーション中に、クラスタ固有の項目(クラスタ名など)、出力専用項目、自動的に適用されたラベルはフィルタされます。これらの項目は、クラスタ作成のためにインポートした YAML ファイルでは許可されません。
REST
このセクションでは、必須の値とデフォルト構成(1 つのマスター、2 つのワーカー)でクラスタを作成する方法を説明します。
データをリクエストする前に、次のように置き換えます。
- CLUSTER_NAME: クラスタ名
- PROJECT: Google Cloud プロジェクト ID
- REGION: クラスタを作成する Compute Engine のリージョン。
- ZONE: クラスタが作成される、選択したリージョン内のゾーン。
HTTP メソッドと URL:
POST https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters
リクエストの本文(JSON):
{ "project_id":"PROJECT", "cluster_name":"CLUSTER_NAME", "config":{ "master_config":{ "num_instances":1, "machine_type_uri":"n1-standard-2", "image_uri":"" }, "softwareConfig": { "imageVersion": "", "properties": {}, "optionalComponents": [] }, "worker_config":{ "num_instances":2, "machine_type_uri":"n1-standard-2", "image_uri":"" }, "gce_cluster_config":{ "zone_uri":"ZONE" } } }
リクエストを送信するには、次のいずれかのオプションを展開します。
次のような JSON レスポンスが返されます。
{ "name": "projects/PROJECT/regions/REGION/operations/b5706e31......", "metadata": { "@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata", "clusterName": "CLUSTER_NAME", "clusterUuid": "5fe882b2-...", "status": { "state": "PENDING", "innerState": "PENDING", "stateStartTime": "2019-11-21T00:37:56.220Z" }, "operationType": "CREATE", "description": "Create cluster with 2 workers", "warnings": [ "For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ..."" ] } }
Console
ブラウザの Google Cloud コンソールで Dataproc の [クラスタの作成] ページを開き、[Compute Engine で Dataproc クラスタを作成する] ページの [Compute Engine] 行のクラスタで [作成] をクリックします。デフォルト値がフィールドに入力されている [クラスタの設定] パネルが選択されています。各パネルを選択し、デフォルト値を確認するか、変更してクラスタをカスタマイズします。
[作成] をクリックして、クラスタを作成します。クラスタ名が [クラスタ] ページに表示され、クラスタがプロビジョニングされると、そのステータスは [実行中] に更新されます。クラスタ名をクリックするとクラスタ詳細ページが開き、クラスタのジョブ、インスタンス、構成設定を確認して、クラスタで実行されているウェブ インターフェースに接続できます。
Go
- クライアント ライブラリをインストールする。
- アプリケーションのデフォルト認証情報を設定します。
- コードを実行します。
Java
- クライアント ライブラリをインストールする。
- アプリケーションのデフォルト認証情報を設定します。
- コードを実行します。
Node.js
- クライアント ライブラリをインストールする。
- アプリケーションのデフォルト認証情報を設定します。
- コードを実行します。
Python
- クライアント ライブラリをインストールする。
- アプリケーションのデフォルト認証情報を設定します。
- コードを実行します。