Dataproc クラスタの作成方法
要件:
クラスタ名: クラスタは小文字で始まり、最大 54 文字の小文字、数字、ハイフンで構成します。末尾にハイフンは置けません。
クラスタ リージョン: クラスタの
global
または特定のリージョンを指定する必要があります。グローバル リージョンとは、ユーザー指定の Compute Engine ゾーンにインスタンスをデプロイできる、特別なマルチリージョンのエンドポイントのことです。また、個別のリージョン(us-east1
やeurope-west1
など)を複数指定することで、ユーザーが指定したリージョン内でクラスタ リソース(Cloud Storage に保存された VM インスタンスやクラスタ メタデータなど)を分離することもできます。- グローバル エンドポイントとリージョン エンドポイントの詳細については、リージョン エンドポイントをご覧ください。
- リージョンの選択については、利用可能なリージョンとゾーンをご覧ください。
gcloud compute regions list
コマンドを実行して、利用可能なリージョンのリストを表示することもできます。
接続: Dataproc クラスタ内の Compute Engine 仮想マシン インスタンス(VM)は、マスター VM とワーカー VM で構成され、完全な内部 IP ネットワーク相互接続が必要です。この接続は、
default
VPC ネットワークによって提供されます(Dataproc クラスタのネットワーク構成をご覧ください)。
gcloud
コマンドラインで Dataproc クラスタを作成するには、ターミナル ウィンドウまたは Cloud Shell で、Cloud SDK の gcloud dataproc clusters create コマンドをローカルで実行します。gcloud dataproc clusters create cluster-name \ --region=region
上記のコマンドを実行すると、デフォルトの Dataproc サービス設定でクラスタが作成されます。デフォルトのサービス設定では、マスター仮想マシン インスタンスとワーカー仮想マシン インスタンス、ディスクのサイズとタイプ、ネットワーク タイプ、クラスタがデプロイされるリージョンとゾーン、その他のクラスタ設定が指定されます。コマンドライン フラグを使用したクラスタ設定のカスタマイズについては、gcloud dataproc clusters create コマンドをご覧ください。
YAML ファイルを使用してクラスタを作成する
- 次の
gcloud
コマンドを実行して、既存の Dataproc クラスタの構成を YAML ファイルにエクスポートします。gcloud dataproc clusters export my-existing-cluster --destination cluster.yaml
- YAML ファイル構成をインポートして新しいクラスタを作成します。
gcloud dataproc clusters import my-new-cluster --source cluster.yaml
注: エクスポートのオペレーション中に、クラスタ固有の項目(クラスタ名など)、出力専用項目、自動的に適用されたラベルはフィルタされます。これらの項目は、クラスタ作成のためにインポートした YAML ファイルでは許可されません。
REST とコマンドライン
このセクションでは、必須の値とデフォルト構成(1 つのマスター、2 つのワーカー)でクラスタを作成する方法を説明します。
リクエストのデータを使用する前に、次のように置き換えます。
- project-id: GCP プロジェクト ID
- region: クラスタ リージョン
- clusterName: クラスタ名
HTTP メソッドと URL:
POST https://dataproc.googleapis.com/v1/projects/project-id/regions/region/clusters
JSON 本文のリクエスト:
{ "clusterName": "cluster-name", "config": {} }
リクエストを送信するには、次のいずれかのオプションを展開します。
次のような JSON レスポンスが返されます。
{ "name": "projects/project-id/regions/region/operations/b5706e31......", "metadata": { "@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata", "clusterName": "cluster-name", "clusterUuid": "5fe882b2-...", "status": { "state": "PENDING", "innerState": "PENDING", "stateStartTime": "2019-11-21T00:37:56.220Z" }, "operationType": "CREATE", "description": "Create cluster with 2 workers", "warnings": [ "For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ..."" ] } }
Console
ブラウザの Cloud Console で Dataproc の [クラスタの作成] ページを開き、[Compute Engine で Dataproc クラスタを作成する] ページの [Compute Engine 上のクラスタ] 行の [作成] をクリックします。デフォルト値がフィールドに入力されている [クラスタの設定] パネルが選択されています。各パネルを選択し、デフォルト値を確認するか、変更してクラスタをカスタマイズします。
[作成] をクリックして、クラスタを作成します。クラスタ名が [クラスタ] ページに表示され、クラスタがプロビジョニングされると、そのステータスは [実行中] に更新されます。クラスタ名をクリックするとクラスタ詳細ページが開き、クラスタのジョブ、インスタンス、構成設定を確認して、クラスタで実行されているウェブ インターフェースに接続できます。
Go
- クライアント ライブラリをインストールする。
- アプリケーションのデフォルト認証情報を設定します。
- コードを実行します。
Java
- クライアント ライブラリをインストールする。
- アプリケーションのデフォルト認証情報を設定します。
- コードを実行します。
Node.js
- クライアント ライブラリをインストールする。
- アプリケーションのデフォルト認証情報を設定します。
- コードを実行します。
Python
- クライアント ライブラリをインストールする。
- アプリケーションのデフォルト認証情報を設定します。
- コードを実行します。