クラスタの作成

次の方法で Cloud Dataproc クラスタを作成できます。Cloud Dataproc API の clusters.create の HTTP リクエストかプログラム リクエスト、ローカル ターミナル ウィンドウまたは Cloud Shell での Cloud SDK gcloud コマンドライン ツールの使用、もしくは、ローカル ブラウザで開いた Google Cloud Platform Console からです。

global リージョンがデフォルトです。これは特別なマルチリージョンのエンドポイントであり、ユーザー指定の Compute Engine ゾーンに対してインスタンスをデプロイできます。また、異なるリージョン(us-east1europe-west1 など)を指定することで、Cloud Dataproc によって利用されるリソース(VM インスタンスや Cloud Storage など)やメタデータのストレージのロケーションをリージョンごとに分離することもできます。グローバル エンドポイントとリージョン エンドポイントの違いについては、リージョン エンドポイントをご覧ください。リージョンの選択については、利用可能なリージョンとゾーンをご覧ください。また、gcloud compute regions list コマンドを実行して、利用可能なリージョンのリストを表示することもできます。

Cloud Dataproc クラスタの Compute Engine 仮想マシン インスタンス(VM)はマスター VM とワーカー VM から構成されており、相互にアクセスするには、完全な内部 IP ネットワーク アクセスが必要になります。クラスタの作成に使用できる default ネットワーク(通常はこれが使用される)では、このアクセスが確保されています。Cloud Dataproc クラスタに独自のネットワークを作成する場合は、Cloud Dataproc クラスタのネットワーク構成をご覧ください。

Cloud Dataproc クラスタの作成

gcloud コマンド

コマンドラインで Cloud Dataproc クラスタを作成するには、ターミナル ウィンドウまたは Cloud Shell で Cloud SDK の gcloud dataproc clusters create コマンドをローカルに実行します。
gcloud dataproc clusters create cluster-name
上記のコマンドを実行すると、デフォルトの Cloud Dataproc サービス設定でクラスタが作成されます。デフォルトのサービス設定では、マスター仮想マシン インスタンスとワーカー仮想マシン インスタンス、ディスクのサイズとタイプ、ネットワーク タイプ、クラスタがデプロイされるリージョンとゾーン、その他のクラスタ設定が指定されます。コマンドライン フラグを使用したクラスタ設定のカスタマイズについては、gcloud dataproc clusters create コマンドをご覧ください。

YAML ファイルベータ版を使用してクラスタを作成する

  1. 次の gcloud コマンドを実行して、既存の Cloud Dataproc クラスタの構成を YAML ファイルにエクスポートします。
    gcloud beta dataproc clusters export my-existing-cluster --destination cluster.yaml
    
  2. YAML ファイル構成をインポートして新しいクラスタを作成します。
    gcloud beta dataproc clusters import my-new-cluster --source cluster.yaml
    

注: エクスポートのオペレーション中に、クラスタ固有の項目(クラスタ名など)、出力専用項目、自動的に適用されたラベルはフィルタされます。これらの項目は、クラスタ作成のためにインポートした YAML ファイルでは許可されません。

REST API

クラスタを作成するには、Cloud Dataproc clusters.create API を使用します。次に、クラスタを作成するための簡単な POST リクエストを示します。
POST /v1/projects/my-project/regions/global/clusters/
{
  "projectId": "my-project",
  "clusterName": "cluster-1",
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": "default",
      "zoneUri": "us-central1-b"
    },
    "masterConfig": {
      "numInstances": 1,
      "machineTypeUri": "n1-standard-4",
      "diskConfig": {
        "bootDiskSizeGb": 500,
        "numLocalSsds": 0
      }
    },
    "workerConfig": {
      "numInstances": 2,
      "machineTypeUri": "n1-standard-4",
      "diskConfig": {
        "bootDiskSizeGb": 500,
        "numLocalSsds": 0
      }
    }
  }
}

Console

ブラウザで GCP Console に Cloud Dataproc の [クラスタの作成] ページを開きます。

上のスクリーンショットでは、[クラスタの作成] ページで、デフォルトのフィールドには新しい「cluster-1」クラスタの値が自動的に入力されています。[詳細オプション] パネルを展開して、クラスタの、1 つ以上のプリエンプティブ ワーカーノード、ステージング バケット、ネットワーク、Cloud Dataproc イメージ バージョン、初期化アクション、プロジェクト レベルのアクセスを指定できます。これらの値の指定はオプションです。

上記のオプションを設定しない場合、デフォルトのクラスタはプリエンプティブ ワーカーノードなしで作成され、クラスタには自動作成されたステージング バケット、デフォルトのネットワーク、Cloud Dataproc イメージ バージョンの最新リリースが使用されます。

ページのすべてのフィールドに値が正しく入力されていることを確認したら、[作成] をクリックしてクラスタを作成します。クラスタが作成されると、クラスタ名が [クラスタ] ページに表示され、そのステータスが [実行中] に更新されます。

クラスタ名をクリックすると、クラスタ詳細ページが開きます。このページには [概要] タブがあり、[CPU 使用率] のグラフが選択されています。クラスタのネットワークとディスクのグラフを表示することもできます。
他のタブでは、クラスタのジョブ、インスタンス、構成設定を確認できます。たとえば、[VM インスタンス] タブではクラスタのマスターノードに SSH で接続できます。[設定] タブの [編集] をクリックして、クラスタの設定を編集できます。たとえば、クラスタをスケーリングするには、クラスタの標準のワーカーノードやプリエンプティブ ワーカーノードの数を変更します。
このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

Cloud Dataproc ドキュメント
ご不明な点がありましたら、Google のサポートページをご覧ください。