コンテンツに移動
AI & 機械学習

Google の研究による AutoML の再構築によって生まれた Vertex AI Tabular Workflows の発表

2022年6月9日
https://storage.googleapis.com/gweb-cloudblog-publish/images/applied_ml_summit.max-2600x2600.jpg
Google Cloud Japan Team

※この投稿は米国時間 2022 年 6 月 9 日に、Google Cloud blog に投稿されたものの抄訳です。

今年初めには、米軍兵士や退役軍人に保険や金融サービスを提供する大手企業 USAA とのコラボレーションにおける、AutoML モデルを活用した保険請求処理の高速化について紹介しました。USAA と Google Cloud が共同開発した自動化ソリューションは、ベースライン モデルと比較してピーク時で 28% の改善を達成しています。このソリューションは、損傷した車両の写真に基づいて人件費と、自動車部品の修理や交換が必要かどうかの決定を予測できるため、保険請求の評価と処理方法を大きく変える可能性があります。

このユースケースは、保険業界にとどまらない、さまざまな技術を組み合わせており、中でも表形式データ、つまり列と行を持つテーブルに構造化されたデータ(USAA の場合、車種や損傷箇所など)に対するアプローチが特にすばらしいものとなっています。表形式データに機械学習(ML)を適用することで、あらゆる種類のビジネスに多大な価値をもたらすことができます。しかし、ユーザー フレンドリーでエンタープライズ規模の業務に適したツールはほとんどありませんでした。Google Cloud Applied ML Summit で発表された Vertex AI Tabular Workflows は、これを変えることを目的としています。

Google の AI の研究をお客様の課題解決に応用する

Google は、厳格な人工知能(AI)および ML 研究への投資により、最先端技術をより広く利用できるだけでなく、より使いやすく、より速くデプロイし、より効率的に管理できるようにしています。Google の研究者は年間 800 本以上の論文を発表し、数百の学術的引用を得ています。Google Cloud は、研究の成果を、数々の賞を受賞したエンタープライズ グレードのプロダクトとソリューションに発展させました。

たとえば、Neural Architecture Search(NAS)は 2016 年 11 月の研究論文で初めて紹介されました。その後、Vertex AI NAS となり、データ サイエンス チームはより高い精度、低レイテンシ、低電力の要件でモデルをトレーニングできるようになりました。同様に、マッチング エンジンは、2019 年 8 月の論文 で初めて説明されました。2020 年に ScaNN というオープンソースの TensorFlow 実装になり、2021 年には Vertex AI Matching Engine となり、データチームの最近傍探索問題への対処に貢献しています。そのほか、最近リリースされた研究ベースのものでは、AlphaFoldDeepMind の革新的なタンパク質折り畳みシステムを Vertex AI で実行できるようになりました。

表形式データでは、進化型や「学習型」の研究が進み、Vertex AI の AutoML Tables AutoML Forecast が誕生しました。データ サイエンティストやアナリストは、スケーラビリティや精度を犠牲にすることなく、ML 特有の複雑さをよりシンプルなプロセスやインターフェースに抽象化できる AutoML を好んで使用しています。少ないコード行数でモデルをトレーニングし、高度なアルゴリズムとツールを利用し、ワンクリックでモデルをデプロイできます。すでに多くの業界屈指のお客様が、当社の AutoML プロダクトのメリットを享受しています。

たとえば、Lowe's のイノベーション、データ、サプライ チェーン テクノロジー担当シニア バイス プレジデントの Amaresh Siva 氏は、次のように述べました。「Vertex AI Forecast を使うことで、Lowe's は SKU と店舗レベルの予測のバランスをとる正確な階層型モデルを作成できるようになりました。このようなモデルでは、店舗レベル、SKU レベル、地域レベルの在庫、プロモーション データ、その他複数のシグナルが考慮されていて、より正確な予測を実現しています。」

これらやその他多くの成功事例により、Vertex AI AutoML は、Kaggle の State of Data Science and Machine Learning 2021 レポートによると、市場をリードする自動機械学習フレームワークとなりました。

Vertex AI Tabular Workflows で AutoML を拡張する

Google Cloud は、当社の AI プラットフォームが普及していることを光栄に感じる一方で、表形式データの AutoML の制御、柔軟性、透明性をより高めたいという要望もよく理解しています。従来は、こうした要望を解決するには、Vertex AI カスタム トレーニングを利用するしかありませんでした。必要な柔軟性を提供する一方で、さまざまなオープンソース ツールを使って ML パイプライン全体をゼロからエンジニアリングする必要があり、多くの場合、専門チームによるメンテナンスが必要でした。AutoML とカスタム トレーニングの中間に位置するオプションを提供する必要があることは明らかでした。パワフルで Google の研究成果を活用するものでありながら、多くのカスタマイズを可能にする柔軟性を備えたものである必要があります。

このような理由から、Vertex AI Tabular Workflows を発表いたします。表形式データによるエンドツーエンドの ML を実現する、スケーラブルな統合フルマネージド パイプラインです。これには、AutoML プロダクト、Google Research チームやオープンソース プロジェクトによる新しいアルゴリズムが含まれます。Tabular ワークフローは Vertex AI チームによって完全に管理されているため、ユーザーはアップデートや依存関係、競合について心配する必要がありません。大規模なデータセットにも容易に対応できるため、ワークロードの増加に合わせてインフラストラクチャを再構築する必要もありません。各ワークフローは、最適なハードウェア構成と組み合わせることで、最高のパフォーマンスを発揮します。最後に、各ワークフローは、Vertex Pipelines やテストの追跡など、Vertex AI MLOps スイートの他の部分と緊密にインテグレーションされています。そのため、チームはより短時間で多くのテストを実行できるようになります。

AutoML Tables ワークフローが Vertex AI Pipelines で利用可能になり、1,000 列の 1 TB データセットへの対応や、探索アルゴリズムで評価するモデルアーキテクチャの制御、パイプラインで使用するハードウェアを変更するなど、トレーニング時間を改善する機能など、多くの強力な改善点がもたらされました。最も重要なことは、各 AutoML コンポーネントを強力なパイプライン グラフ インターフェースで検査することができ、変換されたデータテーブル、評価されたモデル アーキテクチャ、その他多くの詳細を確認できることです。

また、各コンポーネントは、パラメータやハードウェアのカスタマイズ、プロセスの状態やログの表示など、柔軟性と透明性が向上しています。お客様は、パイプライン全体をコントロールするのではなく、パイプラインの各ステップをコントロールするだけでよくなります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Vertex_AI_Tabular_Workflows.max-1200x1200.jpg

Google の表形式データ ML リサーチへの投資は、TabNet、Temporal Fusion TransformersWide & Deep といった複数の新しいアーキテクチャの創出にもつながっています。これらのモデルは、研究コミュニティから高く評価され、何百もの学術的な引用を受ける結果となりました。Google Cloud は TabNetWide & Deep 向けに最適化されたフルマネージド パイプラインを Tabular Workflows に提供いたします。お客様は、実装の詳細や適切なハードウェアの選択を心配することなく、内蔵された説明可能性ツールなど、これらのモデルの独自の機能を体験できます。

新しいワークフローが追加され、特徴量エンジニアリング作業の改善とスケーリングが可能になりました。たとえば、特徴選択ワークフローは、10,000 以上の列を持つデータセットにおいて、最も重要な特徴を迅速にランク付けできます。また、TabNet や AutoML パイプラインと組み合わせることで、大規模なデータセットに対するトレーニングが可能になります。今後も、複数の表形式ワークフローを併用しているお客様の興味深いエピソードがたくさん出てくることを期待しています。

Vertex AI Tabular Workflow は、こうしたコラボレーションと研究のすべてを、エンタープライズ グレードのソリューションとしてお客様に提供し、ML の本番環境へのデプロイを加速させることを支援します。これは AutoML の使いやすさに加え、ワークフローの各ステップを解釈し、AutoML の処理とカスタム エンジニアリングの処理のどちらを行うかを選択できる機能をパッケージ化したものです。AutoML マネージド パイプラインはグラスボックスで、データ サイエンティストやエンジニアはモデル構築とデプロイの各ステップを確認して、解釈できます。また、モデル パラメータの柔軟な調整、モデルの改良と監査をより簡単に行うことができます。

Vertex AI Tabular Workflows の要素は、既存の Vertex AI Pipelines に統合することも可能です。TabNet のような高度な研究モデル、特徴選択やモデル抽出のための新しいアルゴリズムなど、新しいマネージド アルゴリズムを追加しました。今後の注目すべきコンポーネントとして、Temporal Fusion Transformers などの Google 独自のモデルのほか、XGBoost などの人気の高いオープンソース モデルの実装を予定しています。

現在の研究プロジェクトは、未来のエンタープライズ ML の促進剤

Google Cloud は Tabular Workflows が、複数の業界やドメインで ML 運用を改善することを期待しています。特徴ランキングは、多種多様な社内データセットからパフォーマンスの高い特徴を特定できるため、マーケティング予算の配分を改善できます。これらの新しい特徴により、ユーザー チャーン予測モデルやキャンペーン アトリビューションの精度を高めることができます。リスクおよび不正行為には、TabNet のようなモデルが有効です。組み込みの特徴の説明可能性により、規制要件を満たしながらモデルの精度を向上できます。製造業では、数百ギガバイトの完全な未サンプリングのセンサーデータでモデルをトレーニングすることができれば、機器の故障予測の精度を大幅に向上できます。予防保全のスケジュールが充実していれば、故障が少なく、費用対効果の高いケアができます。表形式データのユースケースはほぼすべてのビジネスに存在するため、Google Cloud はお客様のお役に立てると考えています。

AI や ML のプロダクト開発と新しいプロダクトの発売の歴史が示すように、Google Cloud は Google と Alphabet の AI 技術の最良の部分をエンタープライズ規模のタスクやワークフローに製品化するための研究協力に専念しています。今後もこの取り組みを続けてまいります。詳細は、Applied ML Summit の基調講演をご覧ください

- プロダクト マネージャー Alex Martin

投稿先