MLOps と Intelligent Products Essentials

Last reviewed 2022-06-28 UTC

このドキュメントでは、Intelligent Products Essentials と Vertex AI を使用して MLOps を実装するためのリファレンスアーキテクチャについて説明します。メーカーは次の操作を行って製品を継続的に改善できます。

より効率的にお客様のニーズを満たすインテリジェント機能を追加する。
新しいサービス機能を収益化する。

このドキュメントはこれらの目標を念頭に置き、コネクテッドプロダクトの MLOps ソリューションアーキテクチャについて学ぶ必要があるデータサイエンティスト、ML（ML）エンジニア、ソリューションアーキテクトを対象としています。

MLOps

ML システムの隠れた技術的負債で説明したように、ML コードは成熟した ML システムのごく一部にすぎません。ML コードや高品質のデータに加えて、ML プロセスを運用にのせる方法が必要です。

MLOps は、企業が ML システムを反復可能かつ信頼性の高い方法で迅速に構築、デプロイ、運用することを支援するプラクティスです。MLOps は、DevOps の原則を ML システムに適用したもので、ML システム開発（Dev）と ML システムオペレーション（Ops）の統合を目的とするエンジニアリングの文化と手法です。MLOps の目的は、ML システムを迅速かつ確実に構築、デプロイ、運用するため、標準化されたプロセスと技術機能のセットを提供することです。

次のセクションでは、Intelligent Products Essentials と Vertex AI を使用して MLOps を実装する方法について説明します。

MLOps のペルソナ

Intelligent Products Essentials のアーキテクチャの概要と中心となる MLOps のユーザーペルソナ

上の図は、次のコンポーネントと中心となる MLOps のユーザーペルソナを示しています。

Intelligent Products Essentials: BigQuery と Cloud Storage にまたがる顧客データ、デバイスデータ、デバイステレメトリー、所有権データを保存します。
データサイエンティスト: Intelligent Products Essentials に保存されたデータの分析、特徴量エンジニアリング、モデル開発、モデル評価、ML パイプラインの構築を担当します。
ML エンジニア: 大規模なモデルのデプロイのオーケストレーションとホスティングを担当します。

次のセクションでは、データサイエンティストと ML エンジニアの視点から MLOps アーキテクチャについて説明します。

データサイエンティスト

ML の問題に対して、データサイエンティストの目的は、高度な分析手法と ML 手法を適用して、データと出力の予測のパターンを特定することです。データは ML の基盤であるため、データサイエンティストは、データセットに簡単にアクセスする必要があり、データ分析を行うための柔軟な開発環境を必要としています。

次の図は、データサイエンティストの視点から見た Intelligent Products Essentials の MLOps アーキテクチャを示しています。

データサイエンティストの視点から見た、Intelligent Products Essentials の詳細な MLOps アーキテクチャ。

上の図は、データサイエンティストに以下の MLOps コンポーネントを示しています。

Vertex AI Workbench: Jupyter ベースのフルマネージドでスケーラブルなエンタープライズ対応のコンピューティングインフラストラクチャを提供し、組織内のすべての Google Cloud データに接続します。データサイエンティストは、このインフラストラクチャを開発環境として使用できます。
Vertex AI Feature Store: 機械学習で使用する特徴量を整理、保存、提供するための一元化されたリポジトリです。データサイエンティストは、Vertex AI Feature Store を使用して特徴を保存し、組織全体で共有できます。
Kubeflow Pipelines SDK: データサイエンティストは、Docker コンテナに基づいて移植可能でスケーラブルな ML ワークフローを構築してデプロイできます。データサイエンティストは ML モデルを作成した後、Kubeflow Pipelines SDK を使用して、トレーニング手順を ML パイプラインにパッケージ化できます。
Vertex AI Pipelines: Kubeflow Pipelines SDK または TensorFlow Extended を使用してビルドされた ML パイプラインの実行環境を提供します。Intelligent Products Essentials では、Kubeflow Pipelines SDK を使用することをおすすめします。Kubeflow Pipelines SDK を使用する場合は、Google Cloud パイプラインコンポーネントなどのビルド済みコンポーネントを使用して、シンプルかつ迅速なデプロイも可能です。ビルド済みコンポーネントの一覧については、Google Cloud パイプラインコンポーネントのリストをご覧ください。
Cloud Source Repositories: Google Cloud でホストされる多機能のプライベート Git リポジトリ。データサイエンティストは、継続的トレーニング ML パイプラインを定義してから、Cloud Source Repositories などのソースリポジトリにパイプライン定義を保存できます。このアプローチでは、継続的インテグレーションと継続的デプロイ（CI / CD）パイプラインの実行がトリガーされます。

ML エンジニア

Intelligent Products Essentials は、ML エンジニアがタイムリーかつ信頼性の高い方法で ML モデルのオペレーションを自動化する際に役立ちます。ML エンジニアは、ML パイプライン、モデル、場合によっては予測サービスのデプロイをサポートする CI / CD パイプラインを管理します。

次の図は、ML エンジニアの視点から見た Intelligent Products Essentials の MLOps アーキテクチャを示しています。

ML エンジニアの視点から見た、Intelligent Products Essentials の詳細な MLOps アーキテクチャ。

上の図は、機械学習エンジニアに次の MLOps コンポーネントを示しています。

CI パイプライン: ML パイプラインのコンポーネントをビルド、テスト、パッケージ化します。
CD パイプライン: ML パイプラインをステージング環境や本番環境などの適切な環境にデプロイします。
ML パイプライン: トレーニングデータを準備して ML モデルをトレーニングします。以下の手順が含まれます。
- データの抽出: 事前定義されたデータソースからトレーニングデータセットを取得します。
- データの検証: データスキーマとデータ値の分布の異常を特定します。
- データの準備: データクリーニング、データ変換、特徴量エンジニアリングが含まれます。
- モデルのトレーニング: トレーニングデータとハイパーパラメータ最適化などの ML 手法を使用して、トレーニング済みモデルを作成します。
- モデルの評価: 前のモデルトレーニングステップでのトレーニング済みモデルのパフォーマンスを、テストデータセットで評価します。
- モデルの検証: トレーニング済みモデルがデプロイの予測パフォーマンスベンチマークを満たしていることを確認します。
ML パイプライントリガー: 継続的なトレーニングのために、ML パイプラインをトリガーする、Pub/Sub にパブリッシュされたイベント。
Vertex AI Model Registry: トレーニング済みモデルのさまざまなバージョンとそれに関連するメタデータを保存します。
バッチ予測: Cloud Storage または BigQuery（AutoML Tables で利用可能）に格納された入力データに対して、バッチで予測を適用します。バッチ予測オペレーションでは、予測結果を Cloud Storage または BigQuery（AutoML Tables で利用可能）に出力し、ダウンストリームシステムで利用できます。

次のステップ

Vertex AI について学習する。
ML 問題のフレーム処理について学習する。
ML における継続的デリバリーと自動化のパイプラインを確認する。
専門家のための MLOps を確認する。
Cloud アーキテクチャセンターで、リファレンスアーキテクチャ、図、ベストプラクティスを確認する。