AI Platform Pipelines では、機械学習(ML)ワークフローを自動化するためにパイプラインとして使用できるプラットフォームを提供します。ML プロセスをパイプラインとして実行すると、次のことができます。
- パイプラインはアドホック ベースで実行します。
- 繰り返し実行をスケジュールし、定期的にモデルを再トレーニングします。
- さまざまなハイパーパラメータのセット、多数のトレーニング ステップや反復処理などをパイプラインで実行し、テスト結果を比較します。
このガイドでは、パイプラインを実行して、繰り返し実行をスケジュールする方法について説明します。また、このガイドでは、Kubeflow Pipelines のユーザー インターフェースについて詳しく学習するために使用できるリソースについても説明します。
始める前に
このガイドでは、Kubeflow Pipelines ユーザー インターフェースを使用してパイプラインを実行する方法について説明します。パイプラインを実行する前に、AI Platform Pipelines クラスタを設定し、AI Platform Pipelines クラスタにアクセスするための十分な権限があることを確認する必要があります。
ML パイプラインを実行する
次の手順に沿って AI Platform Pipelines クラスタで ML パイプラインを実行します。
Google Cloud コンソールで AI Platform Pipelines を開きます。
Kubeflow Pipelines クラスタの [パイプライン ダッシュボードを開く] をクリックします。Kubeflow パイプラインのユーザー インターフェースが新しいタブで開きます。
左側のナビゲーション パネルで、[パイプライン] をクリックします。
実行するパイプラインの名前をクリックします。まだパイプラインを読み込んでいない場合は、[[Demo] TFX - Taxi Tip Prediction Model Trainer] のようなサンプル パイプラインの名前をクリックします。パイプラインのステップが表示されたグラフが開きます。
パイプラインを実行するかスケジュールを設定するには、[Create run] をクリックします。実行情報を入力するフォームが開きます。
パイプラインを実行する前に、実行の詳細、実行のタイプ、実行パラメータを指定する必要があります。
[Run details] セクションで、以下を指定します。
- [Pipeline]: 実行するパイプラインを選択します。
- [Pipeline Version]: 実行するパイプラインのバージョンを選択します。
- [Run name]: この実行の一意の名前を入力します。この名前は、後でこの実行を見つけるために使用できます。
- [Description]: (省略可)この実行の詳細情報を入力します。
- [Experiment]: (省略可)関連する実行をグループ化するには、テストを選択します。
[Run type] セクションで、この実行を実行する頻度を指定します。
- 実行のタイプとして、[One-off](1 回限り)または [Recurring](繰り返し)を選択します。
繰り返し実行の場合は、実行トリガーを指定します。
- [Trigger type]: この実行が [periodic](定期的)にトリガーされるか、[cron] スケジュールに基づくかを選択します。
- [Maximum concurrent runs]: 一度にアクティブにできる実行の最大数を入力します。
- [Has start date]: [Has start date] をオンにして、[Start date] と [Start time] に入力し、このトリガーでいつ実行の作成を開始するかを指定します。
- [Has end date]: [Has end date] をオンにして、[End date] と [End time] に入力し、このトリガーでいつ実行の作成を終了するかを指定します。
- [Run every]: 新しい実行をトリガーする頻度を選択します。 この実行が cron スケジュールに基づいてトリガーされる場合は、[Allow editing cron expression] をオンにして、[cron expression] に直接入力します。
[Run parameters] で、この実行のパイプライン パラメータをカスタマイズします。パラメータを使用して、トレーニング データの読み込みやアーティファクトの保存のためのパス、ハイパーパラメータ、トレーニングの反復処理回数などの値を設定できます。パイプラインのパラメータは、パイプラインのビルド時に定義されます。
[[Demo] TFX - Taxi Tip Prediction Model Trainer] パイプラインを実行する場合は、次のように指定します。
[pipeline-root]: [pipeline-root] パラメータは、パイプラインの出力を保存する場所を指定します。このパイプラインでは、AI Platform Pipelines のデフォルトの Cloud Storage バケットに実行アーティファクトを保存します。
この値をオーバーライドして、クラスタからアクセスできる別の Cloud Storage バケットへのパスを指定できます。詳細については、Cloud Storage バケットの作成をご覧ください。
[data-root]: [data-root] パラメータは、パイプラインのトレーニング データへのパスを指定します。デフォルト値を使用します。
[module-file]: [module-file] パラメータは、このパイプラインで使用されるモジュールのソースコードへのパスを指定します。デフォルト値を使用します。
Cloud Storage バケットからコードを読み込むことで、コンポーネントのコンテナ イメージを再構築することなく、コンポーネントの動作をすばやく変更できます。
[開始] をクリックします。パイプラインのダッシュボードに、パイプライン実行のリストが表示されます。
パイプライン実行のリストで実行の名前をクリックします。実行のグラフが表示されます。実行中の場合、各ステップが実行されるたびにグラフが変化します。
パイプラインのステップをクリックして、実行の入力、出力、ログなどを調べます。
Kubeflow パイプラインのユーザー インターフェースについて
以下のリソースを使用して、Kubeflow Pipelines のユーザー インターフェースについて詳しく学習します。
- 詳しくは、Kubeflow Pipelines の目標と主なコンセプトをご覧ください。
- Kubeflow Pipelines のインターフェースの概要をお読みください。
- 詳しくは、Kubeflow Pipelines で使用される用語をご覧ください。