AutoML Tables が BigQuery ML で一般提供に
Google Cloud Japan Team
※この投稿は米国時間 2021 年 6 月 29 日に、Google Cloud blog に投稿されたものの抄訳です。
Google のクラウド データ ウェアハウスである BigQuery により、世界中の組織のデジタル トランスフォーメーションを加速できるようになり、データ アナリストがデータから行動につながるインサイトを獲得できるようになりました。データ アナリストは BigQuery ML を使用することで、高度な機械学習モデルを SQL のみで作成し、データから予測分析情報を非常に迅速に引き出すことができます。このたび、BigQuery ML 内でサポートされている ML モデルのリストに AutoML Tables モデルタイプが追加され、一般提供となりましたことをお知らせいたします。この AutoML Tables モデルタイプは、Vertex AI の AutoML Tables サービスと直接かつシームレスに統合され、チームがさらに高速かつ大規模に、最先端の機械学習モデルのビルドや構造化データへのデプロイを自動化できるようにします。BigQuery ML は AutoML モデルを改善できます。その理由は、数値列の標準化、数値ではない列のワンホット エンコード、タイムスタンプからのコンポーネントの抽出、さらに配列と構造体の列の拡張によって、入力変数を AutoML Tables の特徴に変換できるためです。数値、カテゴリ、タイムスタンプの列向けの方法で欠測値の補完も行います。
AutoML Tables は強力で高度なモデルをどのように構築するのでしょうか。以下に示すとおり、AutoML はバックグラウンドで多種多様な機械学習の能力を発揮します。
データの前処理
モデル アーキテクチャの検索
モデルのチューニング
交差検証
自動モデル選択とアンサンブル
AutoML Tables の使用例:
線形回帰
BigQuery の一般公開データセットに含まれる new_york_taxi_trips.tlc_yellow_trips_2018 データセットにより、AutoML Tables を使用してタクシーのチップ料金を予測できます。ここでは連続従属変数を予測しようとしているため、最初のイテレーションとして、SQL のみを使用して線形回帰モデルを構築します。
この線形回帰モデルの評価指標を以下に示します。R2 の値が 0.35 と低くなっています。
次に、モデルを使用して予測を行えます。
AutoML Tables
R2 指標を改善するために、AutoML Tables モデルタイプを使用できます。
ここで注意すべき点がいくつかあります。
1: 目的は数値(連続従属変数)の予測であるため、model_type に「AUTOML_REGRESSOR」を指定しています。カテゴリまたはクラスを予測するには、代わりに「AUTOML_CLASSIFIER」モデルタイプを使用できます。
2: 「budget-hours」パラメータを指定すると、AutoML Tables はモデルを最大 1 時間トレーニングし、必要に応じてモデルを圧縮してから停止します。
AutoML Tables を使用した評価指標は次のとおりです。
AutoML Tables モデルで R2 が 0.35 から 0.41 に向上し、15% も改善されました。 すばらしい結果ですね。
AutoML モデルを予測に使用する:
AutoML Tables の長所は、ありとあらゆるデータをモデルにフィードし、Google の機械学習で特徴量エンジニアリング、モデル選択、ハイパーパラメータ調整を実行し、最先端のモデルをアンサンブルできることにあります。AutoML を使ってデータ サイエンス チーム向けに初期ベンチマークを作成するにしても、機械学習の問題に対して直接 AutoML を使うにしても、AutoML Tables を利用すれば、時間を節約し複雑さも解消できることが明らかです。その結果、今後のビジネス上の問題を解決するのにより多くの時間を費やせるようになります。
-機械学習担当カスタマー エンジニア Steve Walker