データ分析

BigQuery ML の新機能: 非線形モデルタイプとモデルのエクスポート

Data Analytics B1

 ※この投稿は米国時間 2020 年 11 月 24 日に、Google Cloud blog に投稿されたものの抄訳です。

Google Cloud の BigQuery データウェアハウスの統合機能の一つである BigQuery ML は、線形モデルのトレーニングと使用を目的とした SQL インターフェースとして 2018 年に導入されました。BigQuery に膨大なデータを保持している数多くのお客様が、保存データをそのまま機械学習で活用できる BigQuery ML の利用を開始して、データの ETL の必要性を排除しています。説明可能性に長けていることから、線形モデルはたくさんのお客様に非常に大きな成果をもたらしています。

その一方で、多くの Kaggle 機械学習コンペティションで示されているように、XGBoost や AutoML Tables のような一部の非線形モデルタイプも、構造化データを使用した機械学習では大きな成果を出しています。SHAP 値の使用による最近の Explainable AI の進歩により、こうした非線形モデルが立てた予測の理由をお客様がより深く理解することも可能になりました。Google Cloud AI Platform では、以前からこうした非線形モデルのトレーニング機能を提供しています。Cloud AI Platform と統合することで、これらの機能を BigQuery でもご利用いただけるようにしました。この統合により、3 つの新しいタイプの回帰モデルと分類モデル(XGBoost を使用したブーストツリー、AutoML Tables、TensorFlow を使用した DNN)のトレーニング機能が追加されました。BigQuery ML でトレーニングしたモデルは、Cloud AI Platform またはお客様独自のサービス スタックでオンライン予測を行うためにエクスポートしてデプロイすることもできます。さらに、レコメンデーション システム、クラスタリング、時系列の予測など用途も広がりました。

XGBoost を使用したブーストツリー、TensorFlow を使用したディープ ニューラル ネットワーク(DNN)、オンライン予測向けのモデルのエクスポートはこのたび一般提供となりました。それぞれの詳細を以下でご紹介します。

XGBoost を使用したブーストツリー

XGBoost ライブラリを使用してブーストツリー モデルをトレーニングし、使用できます。ツリーベース モデルは特徴の非線形性の取得に優れています。また、XGBoost はブーストツリー モデルの構築に特によく利用されているライブラリの一つです。これらのモデルは Kaggle コンペティションで、構造化データにおける有用性を強く示しています。一連のディシジョン ツリーを調べてモデルを理解できるため、ニューラル ネットワークほどの複雑性やわかりにくさはありません。問題解決のために初めて構築するモデルとしてぴったりです。まずはドキュメントをご覧いただき、このモデルタイプの使用方法をご理解ください。

TensorFlow を使用したディープ ニューラル ネットワーク

これは、TensorFlow の DNNClassifierDNNRegressor タイプの全結合型ニューラル ネットワークです。DNN を使用すると、隠れ層により数多くの特徴相互作用と特徴変換が取得されるため、特徴量エンジニアリングの必要性が低くなります。しかし、ハイパーパラメータによりパフォーマンスに大きな差が生じるため、これについて理解するにはより高度なデータ サイエンス スキルが必要となります。経験を積んだデータ サイエンティストがこのモデルを使用し、Google Vizier のようなハイパーパラメータ調整サービスを活用することをおすすめいたします。まずはドキュメントをご覧いただき、このモデルタイプの使用方法をご理解ください。

オンライン予測向けのモデルのエクスポート

BigQuery ML で構築したモデルは、エクスポートしてオンライン予測に使用したり、TensorFlow や XGBoost ツールを使用してさらに編集したりできます。時系列モデル以外のモデルはすべてエクスポートが可能です。ブーストツリー以外のモデルは TensorFlow SavedModel としてエクスポートされます。オンライン予測用にデプロイ可能で、TensorFlow ツールを使用してさらに検査し、編集することもできます。ブーストツリー モデルは Booster 形式でエクスポートされ、オンラインでのデプロイやさらなる編集、検査に使用できます。まずはドキュメントをご覧いただき、モデルのエクスポート方法とオンライン予測での使用法をご理解ください。

Google Cloud では、さまざまな業界におけるこれらのモデルの一般的な使用パターン(ユースケース)をノートブックにまとめています。ぜひすべてのチュートリアルとノートブックをご覧ください。


-プロダクト マネージャー Abhishek Kashyap