Vertex AI では、シンプルなプロセスとインターフェースを使用して、表形式データの機械学習を行うことができます。表形式データの問題に対し、次のモデルタイプを作成できます。
- バイナリ分類モデルは、バイナリの結果(2 つのクラスのうちのいずれか)を予測します。「はい」か「いいえ」で答える質問には、このモデルタイプを使用します。たとえば、バイナリ分類モデルを構築して顧客がサブスクリプションを購入するかどうかを予測できます。通常、バイナリ分類問題に必要となるデータは、他のモデルタイプよりも少なくなります。
- マルチクラス分類モデルは、1 つのクラスを 3 つ以上の個別クラスから予測します。このモデルタイプはカテゴリー化に使用します。たとえば、小売業者はマルチクラス分類モデルを構築して、顧客をさまざまなペルソナに分割できます。
- 回帰モデルは、連続値を予測します。たとえば、小売業者は回帰モデルを構築して、顧客が来月使用する金額を予測できます。
- 予測モデルは、一連の値を予測します。たとえば、小売店では、商品の在庫を前もって適切に確保できるように、今後 3 か月にわたる商品の日々の需要を予測することが考えられます。
表形式データを使用した ML の概要については、表形式データの概要をご覧ください。Vertex AI ソリューションの詳細については、分類と回帰の Vertex AI ソリューションと予測の Vertex AI ソリューションをご覧ください。
公平性に関する注記
Google は、責任ある AI への取り組みの進歩に取り組んでいます。そのため、AutoML を含む ML プロダクトは、公平性や人間中心の機械学習などの主要な原則を中心に設計されています。独自の ML システムを構築する際のバイアスを軽減するためのベスト プラクティスについては、インクルーシブ ML ガイド - AutoML をご覧ください。
分類と回帰の Vertex AI ソリューション
Vertex AI には、分類と回帰に関して次のソリューションが用意されています。
エンドツーエンドの AutoML の表形式ワークフロー
エンドツーエンドの AutoML の表形式ワークフローは、分類タスクと回帰タスクの完全な AutoML パイプラインです。AutoML API に似ていますが、制御する対象と自動化する対象を選択できます。パイプライン全体を管理するのではなく、パイプライン内のすべてのステップをコントロールします。パイプラインについて、次のようなコントロールを行えます。
- データの分割
- 特徴量エンジニアリング
- アーキテクチャの検索
- モデルのトレーニング
- モデルのアンサンブル
- モデルの抽出
利点
- 数 TBのサイズ、最大 1,000 列までの大規模なデータセットをサポートします。
- アーキテクチャ タイプの検索スペースを制限するか、アーキテクチャ検索をスキップすることで、安定性を向上させ、トレーニング時間を短縮できます。
- トレーニングとアーキテクチャ検索に使用するハードウェアを手動で選択することで、トレーニング速度を向上できます。
- 抽出またはアンサンブル サイズの変更により、モデルサイズを縮小し、レイテンシを改善できます。
- 各 AutoML コンポーネントを強力なパイプライン グラフ インターフェースで検査することができ、変換されたデータテーブル、評価されたモデル アーキテクチャ、その他多くの詳細を確認できます。
- 各 AutoML コンポーネントは、パラメータやハードウェアのカスタマイズ、プロセス ステータスやログの表示など、柔軟性と透明性が向上しています。
表形式のワークフローの詳細については、Vertex AI の表形式ワークフローをご覧ください。エンドツーエンド AutoML の表形式ワークフローの詳細については、エンドツーエンド AutoML の表形式ワークフローをご覧ください。
TabNet の表形式ワークフロー
TabNet 用の表形式ワークフローは、分類モデルや回帰モデルのトレーニングに使用できるパイプラインです。TabNet は、シーケンシャル アテンションを使用して、各決定ステップで推論の対象とする特徴を選択します。これにより、学習能力が最も顕著な特徴に使用されるため、解釈可能性と学習効率が向上します。
利点
- データセットのサイズ、予測タイプ、トレーニングの予算に基づいて、適切なハイパーパラメータ検索空間を自動的に選択。
- Vertex AI との統合。トレーニング済みモデルは Vertex AI モデルです。バッチ予測を実行したり、オンライン予測のモデルをすぐにデプロイしたりできます。
- 固有のモデル解釈可能性を提供。TabNet が意思決定に使用した機能の分析情報が得られます。
- GPU トレーニングをサポート。
表形式のワークフローの詳細については、Vertex AI の表形式ワークフローをご覧ください。TabNet 用の表形式ワークフローの詳細については、TabNet 用の表形式ワークフローをご覧ください。
ワイド & ディープの表形式ワークフロー
ワイド&ディープ用の表形式ワークフローは、分類モデルや回帰モデルのトレーニングに使用できるパイプラインです。ワイド&ディープでは、ワイド線形モデルとディープ ニューラル ネットワークを一緒にトレーニングします。記憶化と一般化の利点が組み合わされています。一部のオンライン テストでは、ワイド&ディープは、ワイドモデルとディープモデルに比べ、Google ストア アプリケーションの獲得数が大幅に増加していることが明らかになりました。
利点
- Vertex AI との統合。トレーニング済みモデルは Vertex AI モデルです。バッチ予測を実行したり、オンライン予測のモデルをすぐにデプロイしたりできます。
表形式のワークフローの詳細については、Vertex AI の表形式ワークフローをご覧ください。ワイド & ディープの表形式ワークフローの詳細については、ワイド & ディープの表形式ワークフローをご覧ください。
AutoML による分類と回帰
Vertex AI には、エンドツーエンドの分類タスクや回帰タスク用に、統合されたフルマネージド パイプラインが用意されています。Vertex AI は、最適なハイパーパラメータ セットを検索し、複数のハイパーパラメータ セットを使用して複数のモデルをトレーニングしてから、上位のモデルの集合体から単一の最終モデルを作成します。Vertex AI は、モデルタイプに対してニューラル ネットワークとブーストツリーを考慮します。
利点
- 使いやすさ: モデルタイプ、モデル パラメータ、ハードウェアを自動的に選択します。
詳細については、分類と回帰の概要をご覧ください。
予測の Vertex AI ソリューション
Vertex AI には、予測のための次のソリューションが用意されています。
予測用の表形式ワークフロー
予測用の表形式ワークフローは、予測タスクの完全なパイプラインです。AutoML API に似ていますが、制御する対象と自動化する対象を選択できます。パイプライン全体を管理するのではなく、パイプライン内のすべてのステップをコントロールします。パイプラインについて、次のようなコントロールを行えます。
- データの分割
- 特徴量エンジニアリング
- アーキテクチャの検索
- モデルのトレーニング
- モデルのアンサンブル
利点
- 最大 1 TB のサイズで、最大 200 列までの大規模なデータセットをサポートします。
- アーキテクチャ タイプの検索スペースを制限するか、アーキテクチャ検索をスキップすることで、安定性を向上させ、トレーニング時間を短縮できます。
- トレーニングとアーキテクチャ検索に使用するハードウェアを手動で選択して、トレーニングの速度を向上できます。
- 一部のモデルのトレーニング方法では、アンサンブル サイズを変更することでモデルサイズを縮小し、レイテンシを改善できます。
- 強力なパイプライン グラフ インターフェースで各コンポーネントを検査でき、変換されたデータテーブル、評価されたモデル アーキテクチャなど多くの詳細を確認できます。
- 各コンポーネントは、パラメータやハードウェアのカスタマイズ、プロセスの状態やログの表示など、柔軟性と透明性が向上しています。
表形式のワークフローの詳細については、Vertex AI の表形式ワークフローをご覧ください。予測用の表形式ワークフローの詳細については、予測用の表形式ワークフローをご覧ください。
AutoML による予測
Vertex AI は、エンドツーエンドの予測タスク用の統合フルマネージド パイプラインを提供します。Vertex AI は、最適なハイパーパラメータ セットを検索し、複数のハイパーパラメータ セットを使用して複数のモデルをトレーニングしてから、上位のモデルの集合体から単一の最終モデルを作成します。モデルのトレーニング方法は、Time series Dense Encoder(TiDE)、Temporal Fusion Transformer(TFT)、AutoML(L2L)、Seq2Seq+ から選択できます。Vertex AI は、モデルタイプにニューラル ネットワークのみを検討します。
利点
- 使いやすさ: モデル パラメータとハードウェアが自動的に選択されます。
詳細については、予測の概要をご覧ください。
BigQuery ML ARIMA_PLUS による予測
BigQuery ML ARIMA_PLUS は一変量予測モデルです。統計モデルとして、ニューラル ネットワークに基づくモデルよりもトレーニングが高速です。モデルのトレーニングで多数の迅速なイテレーションを行う必要がある場合、または他のモデルを測定するために低価格のベースラインが必要な場合は、BigQuery ML ARIMA_PLUS モデルをトレーニングすることをおすすめします。
Prophet と同様に、BigQuery ML ARIMA_PLUS は各時系列をトレンド、シーズン、祝日に分解し、モデルの予測の集計を使用して予測を生成します。ただし多くの相違点のうちの一つで、BQML ARIMA+ は ARIMA を使用してトレンド コンポーネントをモデル化するのに対し、Prophet は区分的ロジスティック モデルまたは線形モデルを使用して曲線を試行します。
Google Cloud には、BigQuery ML ARIMA_PLUS モデルをトレーニングするためのパイプラインと、BigQuery ML ARIMA_PLUS モデルからバッチ予測を取得するためのパイプラインが用意されています。どちらのパイプラインも、Google Cloud パイプライン コンポーネント(GCPC)の Vertex AI Pipelines のインスタンスです。
利点
- 使いやすさ: モデル パラメータとハードウェアが自動的に選択されます。
- 高速: モデルのトレーニングにより、他のモデルと比較するための低コストのベースラインが提供されます。
詳細については、ARIMA+ による予測をご覧ください。
Prophet による予測
Prophet は Meta が管理する予測モデルです。アルゴリズムの詳細については、Prophet の論文をご覧ください。ライブラリの詳細については、ドキュメントをご覧ください。
BigQuery ML ARIMA_PLUS と同様に、Prophet は各時系列をトレンド、シーズン、祝日に分解し、モデルの予測の集計を使用して予測を生成します。ただし、重要な違いもあります。BQML ARIMA+ は ARIMA を使用してトレンド コンポーネントをモデル化するのに対し、Prophet は区分的ロジスティックまたは線形モデルを使用してカーブ フィッティングを行う点です。
Google Cloud には、Prophet モデルをトレーニングするためのパイプラインと、Prophet モデルからバッチ予測を取得するためのパイプラインが用意されています。どちらのパイプラインも、Google Cloud パイプライン コンポーネント(GCPC)の Vertex AI Pipelines のインスタンスです。
Prophet と Vertex AI の統合により、次のことが可能になります。
- Vertex AI のデータ分割とウィンドウ処理戦略を使用する。
- BigQuery テーブルまたは Cloud Storage に保存されている CSV からデータを読み取る。Vertex AI では、各行の形式が Vertex AI Forecasting と同じ形式であることを前提としています。
Prophet は多変量モデルですが、Vertex AI がサポートするのは単変量モデルのみです。
利点
- 柔軟性: トレーニングに使用するハードウェアを選択することでトレーニング速度を向上できます。
詳細については、Prophet による予測をご覧ください。
次のステップ
- 表形式データによる機械学習について確認する。
- AutoML による分類と回帰について確認する。
- AutoML による予測について確認する。
- Prophet による予測について確認する。
- BigQuery ML ARIMA_PLUS による予測について確認する。
- 表形式ワークフローについて確認する。