Dataproc Hadoop データ ストレージ

Dataproc は、Apache Hadoop および Hadoop 分散ファイル システム(HDFS)と統合されています。Dataproc クラスタおよびジョブのコンピューティングとデータ ストレージを選択する際は、次の点に注意する必要があります。

  • HDFS と Cloud Storage: Dataproc はストレージに Hadoop 分散ファイル システム(HDFS)を使用します。また、HDFS 互換の Cloud Storage コネクタが自動的にインストールされるため、HDFS と並行して Cloud Storage も使用できます。クラスタに対してデータの移動を行うには、HDFS や Cloud Storage へのアップロードとダウンロードを使用します。
  • VM ディスク:
    • デフォルトでは、ローカル SSD がない場合、HDFS データと中間シャッフル データは永続ディスクの VM ブートディスクに保存されます。
    • ローカル SSD を使用する場合、HDFS データと中間シャッフル データは SSD に保存されます。
    • データ・ストレージに HDFS と Cloud Storage のどちらを使用していても、永続ディスク(PD)のサイズとタイプにより、パフォーマンスと VM サイズが変わります。
    • クラスタが削除されると VM ブートディスクも削除されます。