AI Simplified: Vertex AI で ML データセットを管理
Google Cloud Japan Team
※この投稿は米国時間 2021 年 6 月 8 日に、Google Cloud blog に投稿されたものの抄訳です。
今年の Google I/O でご紹介した Vertex AI は、Google のすべての ML サービスを 1 つの環境に統合し、ML プロジェクトのライフサイクルを構築して管理します。前回の記事では、Vertex AI の概要を説明し、データ管理から予測まで ML ワークフロー全体を Vertex AI でサポートする仕組みをご紹介しました。今回は、Vertex AI で ML データセットを管理する方法について少しご説明しましょう。
多くの企業は、データを利用して有益な予測を行い、ビジネスの強化や、新しい市場への進出に活用したいと考えています。多くの場合、そのためにはカスタムの機械学習モデルを使用する必要がありますが、すべての企業がその作成方法や使用方法を把握しているわけではありません。ここで Vertex AI が役に立ちます。Vertex AI は、データセットの管理から、さまざまな方法でのモデルのトレーニング、評価、デプロイ、予測まで、機械学習ワークフローのあらゆる段階向けのツールを提供します。さらに、さまざまなレベルの ML 専門知識に対応しているため、ML のエキスパートでなくても Vertex AI を活用することができます。
Vertex AI で使用できるデータの種類
データセットは機械学習のライフサイクルの最初のステップであり、開始するにあたって大量のデータが必要です。Vertex AI で現在サポートしているマネージド データセットは、画像、表形式、テキスト、動画の 4 つのデータの種類です。
画像
画像データセットでは、以下のことができます。
画像分類: 画像内のアイテムを識別します。
オブジェクト検出: 画像内でのアイテムの場所を特定します。
画像のセグメンテーション: 画像内のリージョンにピクセルレベルでラベルを割り当てます。
本番環境でモデルを問題なく確実に稼働させるためには、ユーザーが送信してくる画像に類似したトレーニング画像を使用します。たとえば、品質の低い画像が送信されてくると思われる場合は、ぼやけた低解像度の画像をデータセットに含めます。その際、さまざまな角度、背景、解像度の画像も含めてください。ラベル(識別したいアイテム)ごとに最低でも 1,000 個の画像を含めることをおすすめしますが、最初はラベルごとに 10 個から始めても構いません。画像の数が多いほど、モデルの完成度は高くなります。
表形式
表形式のデータセットでは、以下のことができます。
回帰: 数値を予測します。
分類: 特定の例に関連付けられているカテゴリを予測します。
予測: 突発的なイベントや需要の可能性を予測します。
表形式のデータセットは、数百の列と数百万の行をサポートします。
テキスト
テキスト データセットでは、以下のことを行えます。
分類: 1 つ以上のラベルをドキュメント全体に割り当てます。
エンティティの抽出: ドキュメント内のカスタム テキスト エンティティ(「高すぎ」、「高コスパ」など)を特定します。
感情分析: テキスト ブロックで表現されている全体的な感情(例: 顧客は満足していた、怒っていた、イライラしていたなど)を把握します。
動画
動画データセットでは、以下のことを行えます。
分類: 動画、ショット、フレーム全体にラベルを付けます。
動作認識: 特定の動作が発生した動画クリップを特定します。
オブジェクト トラッキング: 動画内の特定のオブジェクトを追跡します。
Vertex AI でのデータセットの作成と管理
ここまでは、利用できるデータの種類を説明しました。次に、データセットの作成と管理について説明していきます。Cloud Console で、Vertex AI のダッシュボード ページに移動し、[データセット]、[プロジェクトを作成] の順にクリックします。
たとえば、一連の写真に含まれるアイテムを分類するとします。まず、画像データセットを作成して画像分類を選択します。ファイルはパソコンから直接インポートでき、インポートしたファイルは Cloud Storage に保存されます。次に、対応するラベル(識別したいアイテム)を画像に追加する必要があります。すでにラベルがある場合は、[Import File] オプションを使って、画像の URL とそのラベルを記載した CSV をインポートできます。データにラベルが付いておらず、手動でラベル付けをしたい場合は、Vertex AI の Data Labeling Service を利用できます。ファイルをアップロードしたら、ラベルを作成して画像に割り当てることができます。データセット内の画像、ラベルごとの画像数、その他いくつかのプロパティの分析も可能です。
オプションは、使用するデータの種類によって多少異なる場合があります。たとえば、表形式のデータを使用する場合は、CSV ファイルをパソコンからアップロード、Cloud Storage のファイルを使用、BigQuery から直接テーブルを選択のいずれかの方法が使えます。テーブルを選択すると、データを分析できるようになります。
今後の展開
Vertex AI でのデータセットの作成と管理の概要は以上です。次回は、機械学習ワークフローの次の段階である、ML モデルの構築とトレーニングについてご紹介します。
この投稿を気に入っていただけた方は、今後 YouTube で AI Simplified のエピソードも公開予定ですので、どうぞお楽しみに。また、Vertex AI の詳細については、こちらをご覧ください。
-Google デベロッパー アドボケイト Priyanka Vergadia