Dataproc プロビジョナーのプロパティ

Cloud Data Fusion の Dataproc プロビジョナーは、Dataproc API を呼び出して、Google Cloud プロジェクト内のクラスタを作成および削除します。クラスタはプロビジョナーの設定で構成できます。

Cloud Data Fusion バージョンと Dataproc バージョンの互換性について詳しくは、バージョンの互換性をご覧ください。

プロパティ

プロパティ 説明
プロジェクト ID Dataproc クラスタが作成される Google Cloud プロジェクト。プロジェクトで Dataproc API が有効になっている必要があります。
クリエイターのサービス アカウント キー

プロビジョナーに付与されるサービス アカウント キーには、Dataproc API と Compute Engine API にアクセスする権限が必要です。アカウント キーは機密情報であるため、Secure Storage を使用してアカウント キーを付与することをおすすめします。

安全なキーを作成したら、名前空間またはシステム コンピューティング プロファイルに追加できます。名前空間コンピューティング プロファイルの場合は、 シールドをクリックして、安全なキーを選択します。システムのコンピューティング プロファイルの場合は、[Secure Account Key] フィールドにキーの名前を入力します。

リージョン Dataproc クラスタのコンピューティング ノードなど、リソースをホストできる地理的なロケーション。
ゾーン リージョン内の分離されたデプロイエリア。
ネットワーク Dataproc クラスタの作成時に使用される、Google Cloud プロジェクト内の VPC ネットワーク。
ネットワーク ホストのプロジェクト ID ネットワークが別の Google Cloud プロジェクトにある場合は、そのプロジェクトの ID を入力します。共有 VPC の場合は、ネットワークが存在するホスト プロジェクトの ID を入力します。
サブネット クラスタの作成時に使用するサブネット。指定したネットワーク内にあり、ゾーンが存在するリージョンに存在する必要があります。空白のままにすると、ネットワークとゾーンに基づいてサブネットが選択されます。
ランナーのサービス アカウント プログラムの実行に使用される Dataproc 仮想マシン(VM)のサービス アカウント名。空白のままにすると、デフォルトの Compute Engine サービス アカウントが使用されます。
マスターの数

クラスタ内のマスターノードの数。これらのノードには、YARN Resource Manager、HDFS NameNode、すべてのドライバが含まれます。1 または 3 に設定する必要があります。

デフォルトは 1 です。

マスター マシンタイプ

使用するマスターマシンのタイプ。次のいずれかのマシンタイプを選択します。

  • n1
  • n2
  • n2d
  • e2

Cloud Data Fusion バージョン 6.7.2 以降では、デフォルトは e2 です。

バージョン 6.7.1 では、デフォルトは n2 です。

バージョン 6.7.0 以前では、デフォルトは n1 です。

マスターコア

マスターノードに割り当てられる仮想コアの数。

デフォルトは 2 です。

マスターメモリ(GB)

マスターノードに割り当てられるメモリ量(ギガバイト単位)。

デフォルトは 8 GB です。

マスター ディスクサイズ(GB)

マスターノードに割り当てられるディスクサイズ(ギガバイト単位)。

デフォルトは 1,000 GB です。

マスター ディスクのタイプ

マスターノードのブートディスクのタイプ:

  • 標準永続ディスク
  • SSD 永続ディスク

デフォルトは標準永続ディスクです。

ワーカーのマシンタイプ

使用するワーカーマシンのタイプ。次のいずれかのマシンタイプを選択します。

  • n1
  • n2
  • n2d
  • e2

Cloud Data Fusion バージョン 6.7.2 以降では、デフォルトは e2 です。

バージョン 6.7.1 では、デフォルトは n2 です。

バージョン 6.7.0 以前では、デフォルトは n1 です。

ワーカーコア

ワーカーノードに割り当てられる仮想コアの数。

デフォルトは 2 です。

ワーカーのメモリ(GB)

ワーカーノードに割り当てられるメモリ容量(ギガバイト単位)。

デフォルトは 8 GB です。

ワーカーのディスクサイズ(GB)

ワーカーノードに割り当てられるディスクサイズ(ギガバイト単位)。

デフォルトは 1,000 GB です。

ワーカーのディスクタイプ

ワーカーノードのブートディスクのタイプ:

  • 標準永続ディスク
  • SSD 永続ディスク

デフォルトは標準永続ディスクです。

事前定義された自動スケーリングを使用する 事前定義された Dataproc 自動スケーリングを使用できます。
プライマリ ワーカーの数

ワーカーノードには、YARN NodeManager と HDFS DataNode が含まれます。

デフォルトは 2 です。

セカンダリ ワーカーの数 セカンダリ ワーカーノードには YARN NodeManager が含まれますが、HDFS DataNode は含まれません。通常、自動スケーリング ポリシーでより大きい値が要求されない限り、0 に設定されます。
自動スケーリング ポリシー

自動スケーリング ポリシー ID またはリソース URI のパス。

Dataproc 自動スケーリングを構成して使用し、ワークロードの需要を満たすように、クラスタを自動的かつ動的にサイズ変更する場合の詳細については、自動スケーリングを使用する場合Dataproc クラスタを自動スケーリングするをご覧ください。

メタデータ クラスタ内で実行されるインスタンス用の追加のメタデータ。通常は、請求とチャージバックの追跡に使用できます。詳細については、クラスタ メタデータをご覧ください。
ネットワーク タグ ネットワーク タグを割り当てて、クラスタの特定のノードにファイアウォール ルールを適用します。ネットワーク タグは英小文字で始まる必要があり、英小文字、数字、ハイフンを使用できます。タグの末尾は英小文字または数字にする必要があります。
セキュアブートを有効にする

Dataproc VM でセキュアブートを有効にします。

デフォルトは False です。

vTPM を有効にする

Dataproc VM で仮想トラステッド プラットフォーム モジュール(vTPM)を有効にします。

デフォルトは False です。

整合性モニタリングを有効にする

Dataproc VM で仮想整合性モニタリングを有効にします。

デフォルトは False です。

イメージのバージョン Dataproc イメージ バージョン。空白のままにすると、1 つが自動的に選択されます。[カスタム イメージ URI] プロパティを空白のままにすると、このプロパティは無視されます。
カスタム イメージの URI Dataproc イメージの URI。空白のままにすると、[イメージ バージョン] プロパティから推測されます。
ステージング バケット Dataproc でパイプラインを実行するためのジョブの依存関係と構成ファイルをステージングするために使用される Cloud Storage バケット。
一時バケット

Dataproc の Spark 履歴ファイルなど、エフェメラル クラスタとジョブデータを格納するために使用される Cloud Storage バケット。

このプロパティは、Cloud Data Fusion バージョン 6.9.2 で導入されました。

暗号鍵の名前 Dataproc で使用される顧客管理の暗号鍵(CMEK)。
OAuth スコープ

必要なアクセスレベルに応じて、Google API へのアクセスにリクエストが必要になる OAuth 2.0 スコープ。Google Cloud Platform スコープは常に含まれます。

このプロパティは、Cloud Data Fusion バージョン 6.9.2 で導入されました。

初期化アクション クラスタの初期化中に実行するスクリプトのリストです。 初期化アクションは Cloud Storage に配置する必要があります。
クラスタ プロパティ Hadoop サービスのデフォルトの構成プロパティをオーバーライドするクラスタ プロパティ。該当する Key-Value ペアの詳細については、クラスタ プロパティをご覧ください。
一般的なラベル

作成される Dataproc クラスタとジョブを整理するためのラベル。

各リソースにラベルを付け、ラベルでリソースをフィルタできます。ラベルに関する情報は課金システムに転送されるため、お客様はラベルを基準に請求料金を分析することもできます。

最大アイドル時間

指定した分数を超える時間アイドル状態になったクラスタを削除するように Dataproc を構成します。通常、クラスタは実行の終了直後に削除されますが、まれに削除に失敗することがあります。詳細については、クラスタの削除のトラブルシューティングをご覧ください。

デフォルトは 30 分です。

クラスタの削除をスキップする

実行の終了時にクラスタの削除をスキップするかどうか。クラスタは手動で削除する必要があります。これは、失敗した実行のデバッグにのみ使用してください。

デフォルトは False です。

Stackdriver Logging の統合を有効にする

Stackdriver Logging の統合を有効にします。

デフォルトは True です。

Stackdriver Monitoring の統合を有効にする

Stackdriver Monitoring の統合を有効にします。

デフォルトは True です。

コンポーネント ゲートウェイを有効にする

コンポーネント ゲートウェイを有効にして、クラスタのインターフェース(YARN ResourceManager や Spark HistoryServer など)にアクセスできるようにします。

デフォルトは False です。

外部 IP を優先する

システムがクラスタと同じネットワークに存在する Google Cloud で実行されている場合、通常はクラスタとの通信に内部 IP アドレスを使用します。外部 IP アドレスを常に使用するには、この値を True に設定します。

デフォルトは False です。

ポーリングの遅延を作成する

クラスタの作成後、ポーリングを開始してクラスタが作成されたかどうかを確認するまでの待機秒数。

デフォルトは 60 秒です。

ポーリング設定では、クラスタの作成と削除時にクラスタのステータスをポーリングする頻度を制御します。多くのパイプラインを同時に実行するようにスケジュールされている場合は、これらの設定を変更することをおすすめします。

ポーリングのジッターを作成する

クラスタの作成時に遅延に追加するランダムなジッターの最大量(秒単位)。このプロパティを使用すると、厳密に同一の時刻に実行されるパイプラインが多数ある場合に、Google Cloud で多くの API 呼び出しが同時に行われるのを回避できます。

デフォルトは 20 秒です。

ポーリングの遅延を削除する

クラスタを削除した後、ポーリングを開始してクラスタが削除されたかどうかを確認するまでの待機秒数。

デフォルトは 30 秒です。

ポーリング間隔

クラスタのステータスのポーリング間隔の秒数。

デフォルトは 2 です。

JSON プロパティにマッピングされた Dataproc プロファイルのウェブ インターフェース プロパティ

Dataproc プロファイル UI プロパティ名 Dataproc プロファイルの JSON プロパティ名
プロファイル ラベル name
プロフィール名 label
説明 description
プロジェクト ID projectId
クリエイターのサービス アカウント キー accountKey
リージョン region
ゾーン zone
ネットワーク network
ネットワーク ホストのプロジェクト ID networkHostProjectId
サブネット subnet
ランナーのサービス アカウント serviceAccount
マスターの数 masterNumNodes
マスター マシンタイプ masterMachineType
マスターコア masterCPUs
マスターメモリ(GB) masterMemoryMB
マスター ディスクサイズ(GB) masterDiskGB
マスター ディスクのタイプ masterDiskType
プライマリ ワーカーの数 workerNumNodes
セカンダリ ワーカーの数 secondaryWorkerNumNodes
ワーカーのマシンタイプ workerMachineType
ワーカーコア workerCPUs
ワーカーのメモリ(GB) workerMemoryMB
ワーカーのディスクサイズ(GB) workerDiskGB
ワーカーのディスクタイプ workerDiskType
メタデータ clusterMetaData
ネットワーク タグ networkTags
セキュアブートを有効にする secureBootEnabled
vTPM を有効にする vTpmEnabled
整合性モニタリングを有効にする integrityMonitoringEnabled
イメージのバージョン imageVersion
カスタム イメージの URI customImageUri
Cloud Storage バケット gcsBucket
暗号鍵の名前 encryptionKeyName
自動スケーリング ポリシー autoScalingPolicy
初期化アクション initActions
クラスタ プロパティ clusterProperties
ラベル clusterLabels
最大アイドル時間 idleTTL
クラスタの削除をスキップする skipDelete
Stackdriver Logging の統合を有効にする stackdriverLoggingEnabled
Stackdriver Monitoring の統合を有効にする stackdriverMonitoringEnabled
コンポーネント ゲートウェイを有効にする componentGatewayEnabled
外部 IP を優先する preferExternalIP
ポーリングの遅延を作成する pollCreateDelay
ポーリングのジッターを作成する pollCreateJitter
ポーリングの遅延を削除する pollDeleteDelay
ポーリング間隔 pollInterval

ベスト プラクティス

パイプラインの静的クラスタを作成する場合は、クラスタ構成のベスト プラクティスをご覧ください。

次のステップ