Dataproc ローカル SSD

ブートディスクを補うために、クラスタのマスターノード、プライマリ ワーカーノード、セカンダリ ワーカーノードにローカル ソリッド ステート ドライブ(ローカル SSD)をアタッチできます。 ローカル SSD がクラスタに提供されると、HDFS とスクラッチ データ(シャッフル出力など)の両方で、ブート永続ディスクの代わりにローカル SSD が使用されます。

  • ローカル SSD を使用すると、永続ディスクよりも読み取りと書き込みの処理時間を短縮できます(ローカル SSD のパフォーマンスをご覧ください)。
  • 各ローカル SSD のサイズは 375 GB に固定されていますが、複数のローカル SSD を接続して SSD ストレージを増やすことができます(ローカル SSD についてを参照)。
  • それぞれのローカル SSD は、Dataproc クラスタノード内の /mnt/<id> にマウントされます。
  • ローカル SSD は、デフォルトのファイル システムとして ext4 を使用します。

ローカル SSD を使用する

gcloud コマンド

--num-master-local-ssds--num-workers-local-ssds--num-secondary-worker-local-ssds フラグを指定した gcloud dataproc clusters create コマンドを使用して、ローカル SSD をクラスタのマスターノード、プライマリ ワーカーノード、セカンダリ ワーカーノードに接続します。

ローカル SSD は、SCSI(Small Computer System Interface)または NVME(Non-Volatile Memory Express)インターフェースを使用して Dataproc VM に接続できます(ローカル SSD のパフォーマンスをご覧ください)。 Dataproc クラスタ VM のローカル SSD のデフォルトのインターフェースは、SCSI インターフェースです。マスターノード、プライマリおよびセカンダリ ワーカーノードのローカル SSD インターフェースを指定するには、gcloud dataproc clusters create コマンドを使用して、--master-local-ssd-interface--worker-local-ssd-interface--secondary-worker-local-ssd-interface フラグを指定します。

例:

gcloud dataproc clusters create cluster-name \
    --region=region \
    --num-master-local-ssds=1 \
    --num-worker-local-ssds=1 \
    --num-secondary-worker-local-ssds=1 \
    --master-local-ssd-interface=NVME \
    --worker-local-ssd-interface=NVME \
    --secondary-worker-local-ssd-interface=NVME \
    ... other args ...

REST API

cluster.create API リクエストの masterConfigworkerConfigsecondaryWorkerConfigInstanceGroupConfignumLocalSsds フィールドを設定し、ローカル SSD をクラスタのマスターノード、プライマリ ワーカーノード、セカンダリ ワーカーノードに接続します。

ローカル SSD は、SCSI(Small Computer System Interface)または NVME(Non-Volatile Memory Express)インターフェースを使用して Dataproc VM に接続できます(ローカル SSD のパフォーマンスをご覧ください)。 Dataproc クラスタ VM のローカル SSD のデフォルトのインターフェースは、SCSI インターフェースです。cluster.create API リクエストの masterConfigworkerConfigsecondaryWorkerConfigInstanceGroupConfiglocalSsdInterface フィールドを設定して「SCSI」または「NVME」インターフェースを指定し、ローカル SSD をクラスタのマスターノード、プライマリおよびセカンダリ ワーカーノードに接続します。

Console

Google Cloud Console で Dataproc の [クラスタの作成] ページの [ノードの構成] パネルでクラスタを作成し、マスター、プライマリ、セカンダリ ワーカーノードにローカル SSD を接続します。