AI & 機械学習

Kaggle の 350 万人のデータ サイエンティストに Google AutoML を提供

Google Cloud AutoML.jpg

※この投稿は米国時間 2019 年 11 月 5 日に、Google Cloud blog に投稿されたものの抄訳です。

このほど Kaggle では、機械学習の習得と適用に Google のプラットフォームを利用するユーザーが 350 万人を超えるという重要なマイルストーンを達成しました。AI は世界で最も強力な新興技術の 1 つですが、その数が増え続けているにもかかわらず、AI を効果的に活用するためのツールや専門知識にアクセスできるデータ サイエンティストが限られていることが導入の妨げになっています。Kaggle の使命は、データ サイエンティストの分野でリードするために必要なスキルとツールを提供して、データ サイエンティストのコミュニティを支援することです。そして今、Google は AutoML を Google のプラットフォームに統合することにより、その使命を後押ししています。

AutoML に注目している理由

AutoML は今年前半に脚光を浴び、Cloud Next ’19 の Kaggle Days で開催された機械学習コンテストでは、ほぼ 1 日中リードを保っていました。その後、データ サイエンティストのチームに一歩及ばすコンテストが終了しました。AutoML の優れた成績は大きく報じられ、今後に期待が高まりました。

特に興味を引いたのは、AutoML を使用するチームが専門知識や管理者もなしに、少ない労力で優れた成果を迅速に得ていたことです。さらに、このチームはデータの準備時間がほんの少しで済み、特徴量エンジニアリング、モデルの選択、ハイパーパラメータの調整にほとんど時間をかける必要がありませんでした。AutoML の時間効率は IEEE コンテストの中でさらに明確になりました。非公開スコアボードで AutoML のベンチマークを大幅に上回るまでに何千ものチームが数週間も要したのです。

competitiion_submission.max-800x800.png
この図は、コンテストの最初の 4 週間における投稿スコア(個々の点)と、コンテスト開始時に投稿した AutoML Tables のベンチマーク スコア(緑の線)との比較を示しています。青い破線は日次投稿スコアの 90 パーセンタイルを表します。AutoML Tables ベンチマークはコンテスト開始から約 2 週間、日次投稿スコアの 90% を上回っています。

このツールの単純性と有効性は、必ずしもデータ サイエンスに精通していなくても、データ サイエンスの問題を抱えるユーザーが強力なモデルを作成する際に役立つ可能性があります。

仕組み

自動機械学習ツール(AMLT)は市場に登場してから数年が経過し、さまざまな種類があります。ただし、いずれの種類も、前処理された最小限の入力データに基づいて、機械学習モデルをトレーニングするエンドツーエンドのプロセスを自動化することを一般に目指しています。2016 年に、Google Brain は自動機械学習に関するセミナー ペーパーを公開しました。研究から得られた興味深い結果を基に、機械学習をより利用しやすくするため、Google Cloud では AI Platform を通じた AutoML の利用実現に取り組むようになりました。

Cloud AutoML はビジョンから言語、構造化データに至るまでのデータについて、さまざまなタスクに合わせてカスタム機械学習モデルを構築できるプロダクト スイートになりました。正確な用途はプロダクトごとに異なりますが、どれも SDK またはウェブ UI からデータを取り込む一般的なパターンに従い、調整要素をいくつか提供し、ワンクリックで GCP にデプロイできるトレーニング済みモデルを出力します。本日のリリースでは、コミュニティが Kaggle Notebooks 内で SDK を直接使用できるようになることに焦点を当てます。

Kaggle で AutoML を開始する

Kaggle と AutoML の統合は、BigQuery を Kaggle Notebooks に導入した、以前の作業方法を踏襲します。

開始するには、GCP アカウントをリンクし、使用するクラウド サービスへのアクセスを承認するだけです。Cloud Storage を同時に有効にすると、AutoML によるデータアクセスが簡単にできるようになります。

python_unknown.max-700x700.png
AutoML_for_Kaggle.max-900x900.png

Google アカウントをリンクしたら、クラウド アカウントで AutoML の使用を開始できることを再確認します。そのためには、GCP プロジェクトの ML API課金を有効にしていることを確認します。AutoML は有料サービスであり、無料枠の制限や料金はご利用中のプロダクトによって異なります。Google では、より多くの Kaggle ユーザーがアクセスしやすくなるように、年間を通じて GCP クレジットを提供し、GCP にお申し込みいただいたすべての新しい Google アカウントに $300 のサービス使用料を援助する予定です。

さっそく始めましょう

Kaggle Notebook 内の組み込みクライアント SDK を使用するか、Cloud Console 内のウェブ インターフェースを使用して、AutoML を簡単に実行できるようになりました。Notebook で AutoML を開始するには、ドキュメントまたはいずれかのチュートリアルをご覧ください。自動機械学習のトピックと、自動機械学習によってデータ サイエンス ワークフローが改善される仕組みについて詳しくは、説明動画をご覧ください。

Kaggle の最新情報を入手する

これらの新しいツールについてのご意見をお待ちしております。Google では、プラットフォームや機械学習がより利用しやすくなる新しい方法に今後も取り組んでまいります。Kaggle の YouTube チャンネルに登録して、モデル選択に関する今後のワークショップや、毎週のライブ コーディングなど、Kaggle についての最新情報を入手しましょう。

 - by Devvret Rishi, Product Manager, Kaggle