Dataflow での TPU のサポート

Google Cloud TPU は、Google が作成したカスタム設計の AI アクセラレータで、大規模な AI モデルのトレーニングと使用向けに最適化されています。これらは、幅広い AI ワークロードに対して費用対効果の高い方法でスケーリングできるように設計されており、PyTorch、JAX、TensorFlow などの AI フレームワークで推論ワークロードを高速化する多用途性を提供します。TPU の詳細については、Google Cloud TPU の概要をご覧ください。

Dataflow で TPU を使用するための前提条件

  • この一般提供版を使用するには、 Google Cloud プロジェクトが承認されている必要があります。

制限事項

このサービスには次の制限事項があります。

  • 単一ホストの TPU アクセラレータのみがサポートされている: Dataflow TPU サービスは、各 Dataflow ワーカーが他のワーカーによって管理される TPU と相互接続されていない 1 つ以上の TPU デバイスを管理する単一ホストの TPU 構成のみをサポートします。
  • 同種 TPU ワーカープールのみがサポートされている: Dataflow の Right Fitting や Dataflow Prime などの機能は、TPU ワークロードをサポートしていません。

料金

TPU を使用する Dataflow ジョブでは、消費されたワーカー TPU チップ時間に対して課金され、ワーカー CPU とメモリに対しては課金されません。詳細については、Dataflow の料金ページをご覧ください。

対象

次の TPU アクセラレータと処理リージョンを使用できます。

サポートされている TPU アクセラレータ

サポートされている TPU アクセラレータの組み合わせは、タプル(TPU タイプ、TPU トポロジ)で識別されます。

  • TPU タイプは、TPU デバイスのモデルを指します。
  • TPU トポロジは、スライス内の TPU チップの数と物理的な配置を指します。

Dataflow ワーカーの TPU のタイプとトポロジを構成するには、type:TPU_TYPE;topology:TPU_TOPOLOGY 形式の worker_accelerator パイプライン オプションを使用します。

Dataflow では、次の TPU 構成がサポートされています。

TPU タイプ トポロジ worker_machine_type が必須になりました
tpu-v5-lite-podslice 1×1 ct5lp-hightpu-1t
tpu-v5-lite-podslice 2x2 ct5lp-hightpu-4t
tpu-v5-lite-podslice 2x4 ct5lp-hightpu-8t
tpu-v6e-slice 1×1 ct6e-standard-1t
tpu-v6e-slice 2x2 ct6e-standard-4t
tpu-v6e-slice 2x4 ct6e-standard-8t
tpu-v5p-slice 2x2x1 ct5p-hightpu-4t

リージョン

TPU で使用可能なリージョンとゾーンについては、Cloud TPU ドキュメントの TPU のリージョンとゾーンをご覧ください。

次のステップ