AutoML 初心者向けガイド

2024 年 9 月 15 日以降、分類、エンティティ抽出、感情分析の目標をカスタマイズするには、Vertex AI Gemini のプロンプトとチューニングに移行する必要があります。Vertex AI AutoML Text のモデルを、分類、エンティティ抽出、感情分析の目標に向けてトレーニングまたは更新することはできなくなります。既存の Vertex AI AutoML Text モデルは、2025 年 6 月 15 日まで引き続き使用できます。AutoML Text と Gemini の比較については、AutoML Text ユーザー向けの Gemini をご覧ください。プロンプト機能の向上による Gemini のユーザーエクスペリエンスの改善について詳しくは、チューニングの概要をご覧ください。チューニングを開始するには、Gemini テキストモデルのモデルチューニングをご覧ください。

はじめに

この初心者向けガイドでは、AutoML について紹介します。AutoML とカスタムトレーニングの主な違いについては、トレーニング方法の選択をご覧ください。

たとえば、

あなたがサッカーチームのコーチであったり、
デジタル小売店のマーケティング部門で働いていたり、
建築様式を調べる建築プロジェクトに携わっていたり、
自社のウェブサイトに問い合わせフォームがあるとします。

動画、画像、テキスト、テーブルを手動で整理する作業は面倒で、時間もかかります。手動で整理するよりも、コンテンツを自動的に識別してフラグを立てるよう、コンピュータに学習させるほうが楽だと思いませんか。

画像

あなたは建築管理協会に所属し、一貫した建築様式が維持されている地域を特定しようとしています。何十万件もの住宅のスナップショットをふるいにかける必要があります。それらすべての画像を手作業で分類しようとすると、手間がかかりミスも起こりやすくなります。数か月前にインターンが数百枚の画像にラベルを付けましたが、それ以降は誰もデータを確認していません。この作業を代行する方法をコンピュータに教えられるとしたら、とても便利でしょう。
はじめに

表形式

デジタル小売店のマーケティング部門で働いているとします。あなたとチームメンバーは、顧客のペルソナに基づいてカスタマイズされたメールプログラムを作成しています。ペルソナとマーケティング関連メールの作成が終わり、送信できるようになりました。次は、顧客を小売の好みや消費行動に基づいて各ペルソナに振り分けるシステムを作成する必要があります。このシステムは新しい顧客も対象にします。また、顧客エンゲージメントを最大化するには、メールの送信タイミングを最適化できるように、顧客の消費習慣を予測することも必要になります。
表形式の概要

デジタル小売店であれば、顧客とその購入情報に関するデータを持っています。しかし、新しい顧客についてはどうでしょうか。従来の方法では、購入履歴が長い既存顧客であればこうした値を計算できますが、履歴データが少ない顧客の場合はうまくいきません。これらの値を予測するシステムを作ることができ、個人の好みに合ったマーケティングプログラムをすべての顧客に迅速に提供できるとしたらどうでしょうか。

こうした問題の解決にうってつけなのが ML と Vertex AI です。

テキスト

自社のウェブサイトに問い合わせフォームがあるとします。このフォームから毎日多くのメッセージを受け取り、その多くはなんらかの方法で対応可能ですが、すべてのメッセージが一斉に到着するため、メッセージへの対応が遅れがちです。また、異なる従業員がさまざまなメッセージタイプを扱っています。自動化されたシステムによってメッセージを分類し、適切な担当者が適切なコメントを見られるようになれば、非常に効率的です。
はじめに

コメントを確認して、それが苦情、過去のサービスに対する褒め言葉、自社ビジネスに対する問い合わせ、面会の予約、関係構築の試みのどれを表しているかを判定するには、システムが必要です。

動画

試合の動画ライブラリが大量にあり、それを分析に使用する場合を考えます。動画を分析に使用したいのですが、レビュー対象の動画は何百時間にも及びます。動画を 1 つずつ確認して、各アクションを区切るために手作業でセグメントにマーク付けする作業は、面倒で、時間もかかります。また、シーズンごとにこの作業を繰り返す必要があります。ここで頭を切り替えて、これらのアクションが動画に表示されるたびに自動的に識別してフラグを付けるコンピュータモデルを想像してみてください。

目的別のシナリオをいくつかご紹介します。

動作認識: ゴールによる得点、ファウルの原因、ペナルティキックなどに該当するアクションを見つけます。チームの強みと弱みを研究する際に役立ちます。
分類: 各動画ショットを、ハーフタイム、試合視点、視聴者視点、コーチ視点などに分類します。関心のある動画だけを閲覧する場合に便利です。
オブジェクトトラッキング: サッカーボールまたは選手を追跡します。フィールド上のヒートマップ、パス成功率など、選手に関する統計データを取得する場合に便利です。

このガイドでは、AutoML のデータセットとモデルに対して Vertex AI がどのように機能するかについて説明します。また、Vertex AI でどのような問題を解決できるかについても説明します。

公平性に関する注記

Google は、責任ある AI への取り組みの進歩に取り組んでいます。そのため、AutoML を含む ML プロダクトは、公平性や人間中心の ML などの主要な原則を中心に設計されています。独自の ML システムを構築する際のバイアスを軽減するためのベストプラクティスについては、インクルーシブ ML ガイド - AutoML をご覧ください。

Vertex AI がこの問題に適したツールである理由

従来型のプログラミングでは、コンピュータで扱う手順をプログラマが 1 つずつ指示する必要があります。しかし、サッカーの試合で特定のアクションを識別させるユースケースではどうでしょうか。色、視点、解像度、照明など、考慮すべき要素は多岐にわたるため、コーディングによってマシンに正しい判断を指示するには、ルールの数が多すぎます。どこから手を付ければよいか想像もつかないほどです。また、お客様のコメントは語彙と構造が非常に広範で多様であるため、簡単なルールセットでは捕捉できません。手動でフィルタを作成しようとしても、お客様のコメントの大部分を分類できないことがすぐにわかります。ここで必要になるのが、多様なコメントに対して汎用化できるシステムです。一連の特定のルールが指数関数的に拡大することが想定される状況では、サンプルから学習できるシステムも必要です。

こうした問題の解決に最適なものが ML です。

Vertex AI の仕組み

単純なニューラルネットワークを表現する画像 Vertex AI には、目的に合った結果を得るために使用できる、教師あり学習タスクが含まれています。アルゴリズムやトレーニング方法の詳細は、データの種類とユースケースによって異なります。ML にはさまざまなサブカテゴリがあり、それらはすべて異なる問題を解決し、異なる制約の中で動作します。

画像

分類のためにラベルでアノテーションされたサンプル画像や、オブジェクト検出のためにラベルと境界ボックスの両方でアノテーションされたサンプル画像を使用して、ML モデルのトレーニング、テスト、検証を行います。教師あり学習を使用することで、関心のあるパターンやコンテンツを画像で認識するようモデルをトレーニングできます。

表形式

サンプルデータを使用して ML モデルをトレーニングします。Vertex AI は表形式の（構造化された）データを使用して ML モデルをトレーニングし、新しいデータに対する予測を行います。データセット内の列の 1 つはターゲットと呼ばれ、モデルはそれを学習して予測します。他のデータ列の一部は入力（特徴と呼ばれる）であり、モデルはそこからパターンを学習します。同じ入力特徴を使用してターゲット列とトレーニングオプションを変更するだけで、複数種類のモデルを構築できます。このメールマーケティングの例は、同じ入力特徴でターゲット予測が異なるモデルを構築できることを示しています。あるモデルではお客様のペルソナ（カテゴリ型のターゲット）を予測し、別のモデルでは毎月の支出（数値型のターゲット）を予測します。さらに別のモデルでは、今後 3 か月間の商品の日々の需要（一連の数値型ターゲット）を予測します。
AutoML Tables の仕組み

テキスト

Vertex AI を使用すると、教師あり学習を実施できます。これには、ラベル付きデータからパターンを認識するようコンピュータをトレーニングすることが含まれます。教師あり学習を使用することで、関心のあるコンテンツをテキストで認識するよう AutoML モデルをトレーニングできます。

動画

あらかじめラベルが付けられた動画を使用して、ML モデルをトレーニング、テスト、検証します。トレーニング済みのモデルがあれば、新しい動画をモデルに入力し、モデルからラベル付きの動画セグメントを出力できます。動画セグメントにより、動画内の開始時間と終了時間のオフセットが定義されます。この動画セグメントは、動画全体、ユーザー定義の時間セグメント、自動的に検出された動画ショット、または開始時間と終了時間が同じタイムスタンプである可能性があります。ラベルとは、モデルによって予測された「解答」のことです。たとえば、前述のサッカーの例では、新しいサッカーの動画ごとに、モデルタイプに応じて次のように処理されます。

トレーニング済みの動作認識モデルは、「goal」「personal foul」などのアクションショットを記述するラベルを含む動画時間オフセットを出力します。
トレーニング済みの分類モデルは、「game view」「audience view」などのユーザー定義のラベルを含む自動検出されたショットセグメントを出力します。
トレーニング済みのオブジェクトトラッキング モデルは、オブジェクトが表示されるフレームの境界ボックスを使用してサッカーボールやプレーヤーの軌跡を出力します。

Vertex AI ワークフロー

Vertex AI は、次の標準的な ML ワークフローに従います。

データの収集: 達成したい結果に向けて、モデルのトレーニング用データとテスト用データを選定します。
データの準備: データを適切にフォーマットし、ラベルを付けます。
トレーニング: パラメータを設定してモデルを構築します。
評価: モデルの指標を確認します。
デプロイと予測: モデルを利用できるようにします。

ただし、実際にデータを収集する前に、解決しようとしている問題について検討して、データの要件を把握しておく必要があります。

データの準備

ユースケースを評価する

まずは問題に目を向けて、達成する必要のある結果を考えてください。

画像

データセットを用意するときは、常にユースケースの検討から始めます。まずは以下の点を考慮します。

どのような結果を得ようとしているか。
その結果を得るために、どのようなカテゴリまたはオブジェクトを認識する必要があるか。
人間がそれらのカテゴリを認識することは可能か。Vertex AI は人間が一度に覚えて割り当てるよりも多くのカテゴリを処理できますが、人間が認識できないカテゴリについては、Vertex AI にとっても認識するのが困難です。
システムに分類させようとしているデータの種類と範囲を最もよく反映するサンプルはどのようなものか。

表形式

ターゲット列はどのような種類のデータですか。アクセスできるデータはどのくらいありますか。ユーザーが目的とする結果に基づいて、Vertex AI はユースケースを解決するために必要なモデルを作成します。

バイナリ分類モデルは、2 択の結果（2 つのクラスのうちのいずれか）を予測します。これは、お客様がサブスクリプションを購入するかしないかの予測など、「はい」または「いいえ」の質問に使用します。他の条件がすべて同じ場合、バイナリ分類の問題は他のモデルタイプより必要とするデータが少なくなります。
多クラス分類モデルは、1 つのクラスを 3 つ以上の別個のクラスから予測します。これは、ものごとを分類するために使用します。前述の小売店の例では、顧客をさまざまなペルソナに分割するための多クラス分類モデルを構築できます。
予測モデルでは、一連の値が予測されます。たとえば、小売店では、商品の在庫を前もって適切に確保できるように、今後 3 か月にわたる商品の日々の需要を予測することが考えられます。
回帰モデルは連続値を予測します。小売店の例では、お客様が来月支払う金額を予測する回帰モデルを構築する必要があるでしょう。

テキスト

データセットを用意するときは、常にユースケースの検討から始めます。まずは以下の点を考慮します。

どのような結果を得ようとしているのか。
結果を得るには、どのようなカテゴリを認識する必要があるか。
人間がそれらのカテゴリを認識することは可能か。Vertex AI は人間が一度に覚えて割り当てるよりも多くのカテゴリを処理できますが、人間が認識できないカテゴリについては、Vertex AI にとっても認識するのが困難です。
システムに分類させるデータの種類と範囲を最もよく反映するサンプルはどのようなものか。

動画

実現しようとしている成果に応じて、適切なモデルの目的を選択します。

動画の中でゴールによる得点、ファウルの原因、ペナルティキックなどに該当するアクションを検出するには、動作認識の目的を使用します。
テレビの映像をコマーシャル、ニュース、テレビ番組などに分類するには、分類の目的を使用します。
動画内のオブジェクトの位置を確認して追跡するには、オブジェクトトラッキングの目的を使用します。

動作認識、分類、オブジェクトトラッキングの目的のためのデータセットを準備する際のベストプラクティスについては、動画データの準備をご覧ください。

データの収集

ユースケースを確立したら、目的のモデルを作成するために使用されるデータを収集します。

画像

十分なデータを収集必要なデータが決まったら、次にデータの調達方法を見つける必要があります。まずは、組織で現在収集しているあらゆるデータを考慮に入れるところから始めます。モデルのトレーニングに必要なデータがすでに収集されている場合もあります。そのようなデータがない場合、自力で収集することも、サードパーティプロバイダにデータの収集を委託することもできます。

十分な数のラベル付きサンプルを各カテゴリに含める

十分なデータを含める Vertex AI Training では、分類のために、カテゴリまたはラベルごとに最低でも 100 個の画像サンプルが必要になります。各ラベルに対応する高品質なサンプルを数多く用意すれば、ラベルがうまく認識される可能性もそれだけ高まります。一般的には、トレーニングプロセスに取り込むラベル付きデータが多いほど、モデル品質は向上します。1 ラベルあたり 1,000 件以上のサンプルを目標にしてください。

カテゴリごとに均等にサンプルを分布させる

カテゴリごとにほぼ同じ数量のトレーニングサンプルを取り込むことが重要です。1 つのラベルに対して豊富なデータがある場合でも、各ラベルの分布を均等にするのがベストです。たとえば、モデルの構築に使用する画像の 80% がモダン様式の一戸建て住宅の写真だとします。このようにラベルの分布が不均等な場合、モデルはあえて危険を冒して一般的でないラベルを予測するよりも、常にモダン様式の一戸建て住宅の写真だと報告する方が安全だと学習する可能性がかなり高くなります。これは、多肢選択式テストを作るときにほとんどすべての正解を「C」にするようなものです。抜け目のない受験生なら、質問を見なくても毎回「C」と答えればよいことにすぐに気付くでしょう。
均等に揃える

もちろん各ラベルにほぼ同数のサンプルを調達することは、常に可能であるとは限りません。カテゴリによっては、高品質でバイアスのないサンプルを調達することが困難な場合もあります。そのような状況では、だいたいの目安として、最もサンプル数の少ないラベルが、最もサンプル数の多いラベルの 10% 以上になるようにします。したがって、最もサンプル数の多いラベルに 10,000 個のサンプルがある場合、最もサンプル数の少ないラベルには少なくとも 1,000 個のサンプルが必要になります。

問題空間内のバリエーションを収集する

同様の理由で、問題空間内の多種多様なデータを集めるようにしてください。モデルのトレーニングプロセスで体験する種類が多ければ多いほど、新しいサンプルを一般化しやすくなります。たとえば、家電製品の写真をカテゴリに分類しようとしている場合、トレーニングでモデルに使用する家電製品の種類が多ければ多いほど、見たことのない新機種のタブレット、スマートフォン、ノートパソコンなどを区別できる可能性が高まります。
バリエーションを考慮する

モデルの意図する出力にデータを合わせる

意図する出力にデータを合わせる
予測の対象になるものと視覚的に似ている画像を探します。たとえば、冬の雪の日に撮影されたさまざまな家の画像を分類する場合、晴れた日に撮影された家の画像だけでトレーニングされたモデルを使うと、明暗と風景があまりに違いすぎるため、関心のある分類であらかじめタグ付けしたとしても、おそらく良いパフォーマンスは得られないでしょう。トレーニングのサンプルは、そのモデルを使用して分類する予定のものと同じデータセットから作成された実世界のデータにするのが理想的です。

表形式

テストセットユースケースを確立したら、モデルをトレーニングするためのデータを収集する必要があります。データの調達と準備は、ML モデルを構築するうえで重要なステップです。利用できるデータによって、解決できる問題の種類が定まります。使用可能なデータ量はどれくらいですか。それらのデータは、答えを得ようとしている質問の内容と関連があるものですか。データを収集する際には、次の点に注意してください。

十分なデータを含める

十分なデータを含める一般的に、トレーニングサンプルが多ければ多いほど、成果は上がります。必要なサンプルデータの量は、解決しようとしている問題の複雑さにも比例します。バイナリ分類モデルの場合、正確なモデルを取得するために必要なデータは、マルチクラスモデルと比較するとそれほど多くはありません。なぜなら、1 つのクラスを 2 つのクラスから予測するのは、多数から予測するほど複雑でないからです。

完璧な数式はありませんが、推奨されるサンプルデータの最低数量は次のとおりです。

分類問題: 50 行 × 特徴数
予測問題:

5,000 行 × 特徴数
時系列 ID 列に一意の値 10 個 × 特徴数

回帰問題: 特徴数 × 200

バリエーションを考慮する

データセットには、問題空間に多様性を持たせてください。モデルのトレーニングで使用するサンプルが多様であればあるほど、目新しいサンプルや一般的ではないサンプルにも対応できる汎用化されたモデルが実現されます。小売店のモデルが、冬季の購入データだけを使ってトレーニングされた場合を想像してみましょう。夏服の嗜好や購入行動をうまく予測することができるでしょうか。

テキスト

十分なデータを収集必要なデータが決まったら、データの調達方法を見つける必要があります。まずは、組織で現在収集しているあらゆるデータを考慮に入れるところから始めます。モデルをトレーニングするために必要なデータがすでに収集されている場合もあります。必要なデータがない場合、自力で収集することも、サードパーティプロバイダにデータの収集を委託することもできます。