このページでは、ユーザーやチームメンバーが AutoML Tables を使用して、表形式のデータから高性能なモデルを構築する方法について説明します。
現時点での既知の問題と、これらの問題の回避方法や復旧方法については、既知の問題のページをご覧ください。
AutoML Tables は、データ処理およびセキュリティ規約に規定されている Google の義務の対象となるサービスです。
データ サポート
AutoML Tables を利用すると、特徴ごとに欠損データ、相関、カーディナリティ、分布に関する情報が得られるため、クリーンで有効なトレーニング データを作成できます。データのインポートやデータに関する情報の表示には料金がかからないため、実際にモデルのトレーニングを開始するまで AutoML Tables の料金は発生しません。
特徴エンジニアリング
トレーニングを開始すると、AutoML Tables によって自動的に次のような共通の特徴エンジニアリング タスクが実施されます。
- 数値の特徴を正規化し、バケット化する。
- カテゴリ特徴のワンホット エンコーディングと埋め込みを作成する。
- テキストの特徴の基本処理を実施する。
- タイムスタンプ列から日付および時刻に関連する特徴を抽出する。
詳細は、AutoML Tables による自動データ準備をご覧ください。
モデル トレーニング
モデルの並列テスト
モデルのトレーニングを開始すると、AutoML Tables は用意されたデータセットを使用して、複数のモデル アーキテクチャのトレーニングを同時に開始します。これにより、多数のモデル アーキテクチャ候補を順次繰り返して適用する必要がないため、ご使用のデータに最適なモデル アーキテクチャを迅速に判断できます。AutoML Tables のモデル アーキテクチャ テストには以下が含まれます。
- 線形
- フィードフォワード ディープ ニューラル ネットワーク
- 勾配ブースト ディシジョン ツリー
- AdaNet
- さまざまなモデル アーキテクチャのアンサンブル
研究コミュニティから公開される新しいモデル アーキテクチャも、ここに追加されていきます。
モデルの評価と最終モデルの作成
ユーザーのデータに最適なモデル アーキテクチャは、トレーニングと検証セットを使用して決定されます。その後、並列テストフェーズで得られたパラメータとアーキテクチャを使用して、さらに 2 つのモデルがトレーニングされます。
トレーニング セットと検証セットを使用してトレーニングされたモデル。
テストセットを使用し、このモデルに対する評価が実施されます。
トレーニング セット、検証セット、テストセットを使用してトレーニングされたモデル。
これが、予測に使用するために提出されるモデルです。
AutoML Tables か BigQuery ML かの選択
モデルに含めるデータを決定するためのテストや反復を迅速に行うことを重視し、そのためにシンプルなモデルタイプ(ロジスティック回帰など)の使用を希望する場合は、BigQuery ML の使用をおすすめします。
データの最終決定が済んでいるなど、以下に該当する場合は、AutoML Tables のインターフェースで直接作業することをおすすめします。
特徴量エンジニアリング、モデル選択、アンサンブルなどを手作業で行う必要なく、モデルの品質(精度が高い、RMSE が低いなど)を最大限に高めるために最適化を行う。
高品質のモデルを得るためにある程度の時間を待つことができる。AutoML Tables を使用する場合、テストで使用するモデルの選択肢が多いため、モデルのトレーニングに少なくとも 1 時間はかかります。BigQuery ML では、設定済みのモデル アーキテクチャ、パラメータ値、パラメータ範囲だけを使用するため、数分でモデルが返される可能性があります。
(数値やクラスにとどまらず)多くの種類の特徴の入力がある。多くの種類があることで、AutoML Tables によって追加で提供される自動化された特徴量エンジニアリングのメリットを活用できます。
モデルの透明性と Cloud Logging
AutoML Tables モデルの構造は、Cloud Logging を使用して確認できます。Logging では、最終モデルのハイパーパラメータ、モデル検証時に使用されるハイパーパラメータと目標値を確認できます。
詳細については、Logging をご覧ください。
説明可能性
データが最終モデルと予測にどのように関係するかを説明できる必要があります。ここでは、モデルとその特徴を理解するための 2 つの基本的な方法を紹介します。
テストデータのエクスポート
テストセットを、モデルによって行われた予測とともにエクスポートできます。この機能によって、トレーニング データの各行でのモデルのパフォーマンスを把握できます。テストセットとその結果を調べることで、満足な結果が得られないモデルの予測タイプを把握し、モデルの品質を向上させるためのデータの改善方法に関するヒントを得ることができます。