ブートディスクを補うために、クラスタのマスターノード、プライマリ ワーカーノード、セカンダリ ワーカーノードにローカル ソリッド ステート ドライブ(ローカル SSD)を接続できます。ローカル SSD を使用すると、永続ディスクよりも読み取りと書き込みの処理時間を短縮できます。各ローカル SSD ディスクのサイズは固定されていますが、複数のローカル SSD を接続して SSD ストレージ容量を増やすことができます(ローカル SSD の追加をご覧ください)。それぞれのローカル SSD は、Cloud Dataproc クラスタノード内の /mnt/<id>
にマウントされます。デフォルトでは、ローカル SSD は Apache Hadoop スクラッチ ファイルと Apache Spark スクラッチ ファイル(シャッフル出力など)の書き込みと読み取りに使用されます。
ローカル SSD の使用
gcloud コマンド
ローカル SSD をクラスタのマスターノード、プライマリ ワーカーノード、セカンダリ(プリエンプティブル)ワーカーノードに接続するには、それぞれ ‑‑num-master-local-ssds
、‑‑num-workers-local-ssds
、--num-preemptible-worker-local-ssds
フラグを指定した gcloud dataproc clusters create コマンドを使用します。
例:
gcloud dataproc clusters create cluster-name \ ‑‑num-master-local-ssds=1 \ ‑‑num-worker-local-ssds=1 \ --num-preemptible-worker-local-ssds=1 \ ... other args ...
REST API
ローカル SSD をクラスタのマスターノード、プライマリ ワーカーノード、セカンダリ(プリエンプティブル)ワーカーノードに接続するには、cluster.create API リクエストで masterConfig
、workerConfig
、secondaryWorkerConfig
InstanceGroupConfig の numLocalSsds フィールドを設定します。
Console
Google Cloud Platform Console の Cloud Dataproc の [クラスタの作成] ページから、クラスタを作成し、ローカル SSD をプライマリ ワーカーノードに接続します。
