AI Platform Pipelines で機械学習(ML)プロセスを実行する前に、まずプロセスをパイプラインとして定義する必要があります。TensorFlow Extended(TFX)または Kubeflow Pipelines SDK を使用して、ML プロセスをパイプラインとしてオーケストレートできます。
このドキュメントでは、パイプラインをビルドするための最適なオプションを選択するためのガイダンスと、パイプラインのビルドに役立つリソースを示します。
- TensorFlow モデルをトレーニングするプロセスをオーケストレートする場合は、TFX を使用してパイプラインをビルドします。
- PyTorch、XGBoost、scikit-learn などのフレームワークを使用してモデルをトレーニングするプロセスをオーケストレートする場合は、Kubeflow Pipelines SDK を使用してパイプラインをビルドします。
TFX SDK を使用したパイプラインのビルド
TFX は、ML ワークフローをパイプラインとして定義するために使用できるオープンソース プロジェクトです。現在、TFX コンポーネントは TensorFlow ベースのモデルのみをトレーニングできます。TFX には、データの取り込みと変換、モデルのトレーニングと評価、推論用のトレーニング済みモデルのデプロイなどに使用できるコンポーネントがあります。TFX SDK を使用すると、TFX コンポーネントから ML プロセスのパイプラインを作成できます。
TFX パイプライン テンプレートを使用してパイプラインのビルドを開始するには:
- Google Cloud 上の TFX パイプラインに関するチュートリアルをご覧ください。
- TFX のコンセプトとコンポーネントについて詳しくは、TFX User Guide をご覧ください。
Kubeflow Pipelines SDK を使用したパイプラインのビルド
Kubeflow Pipelines SDK は、コンテナに基づいて複雑なカスタム ML パイプラインをビルドするために使用できるオープンソース SDK です。Kubeflow Pipelines SDK を使用すると、ビルド済みコンポーネントの再利用やカスタム パイプライン コンポーネントの作成が可能になります。コンポーネントとパイプラインのビルドの大まかな流れは次のとおりです。
- 任意の言語とツールを使用してワークフローのステップごとにコードを作成する
- 各ステップのコードの Docker コンテナ イメージを作成する
- Kubeflow Pipelines SDK を使用して Python でパイプラインを定義する
Kubeflow Pipelines SDK を使用してパイプラインのビルドを開始するには:
- Introduction to the Kubeflow Pipelines SDK をご覧ください。
- Kubeflow パイプラインのサンプルを調べて、Kubeflow パイプラインの詳細を確認します。
- GitHub で Kubeflow パイプライン コンポーネントを調べて、ビルド済みのコンポーネントを再利用します。
次のステップ
- ML パイプラインの実行方法を学習する。