コンテンツに移動
一般公開データセット

AI 強化のためのデータ強化: 新しい音声データセットとデータのベンチマーク

2022年1月14日
Google Cloud Japan Team

※この投稿は米国時間 2021 年 12 月 15 日に、Google Cloud blog に投稿されたものの抄訳です。

AI の研究者とエンジニアは、より優れた AI ソリューションを実現するために、より優れたデータを必要としています。AI ソリューションの質は、学習アルゴリズム(ディープニューラル ネットワーク モデルなど)と、そのアルゴリズムのトレーニングと評価に使用されるデータセットの両方によって決まります。これまでの AI 研究では、データセットの重要性にもかかわらず、アルゴリズムに大きな比重が置かれてきました。その結果、多くのアルゴリズムが出発点として自由に利用可能になりましたが、多くの課題において、大規模で高品質の一般公開データセットが欠けています。さらに、新しいデータセットの作成は高額で、エラーも発生しがちです。

最近では、データ中心の AI の動きが登場しています。この動きは、より優れたデータセットを作成するための新しい方法とツールを開発して、この問題を解決することを目指しています。データ品質の向上をサポートし、データ エクセレンスを推進するため、会議ワークショップチャレンジ、およびプラットフォームが立ち上げられています。Landing.AI の Andrew Ng 氏やスタンフォード大学の Chris Re 氏などのソートリーダーは、学習アルゴリズムの調整より反復的なデータ エンジニアリングにもっと注力するよう、AI デベロッパーを促しています。CHI Best Paper Award を受賞した Google の論文、「Everyone wants to do the model work, not the data work(誰もがデータ整備ではなくモデル開発をやりたがる)」は、ML の実践におけるデータ品質の重要性を強調しています。

Google では、データ中心の AI に活発に取り組んでいます。本日、Google Cloud は、一般公開データセット プログラムに新たな高価値のデータセットを追加します。また、Google の研究者により DataPerf が発表されます。これは、データ品質のベンチマークとデータ中心アルゴリズムを開発するという、多層組織的な新しい取り組みです。

Google Cloud は、データ品質向上でユーザーの支援に取り組んでいます。その第一歩が一般公開データの向上の支援です。一般公開データセット プログラムは、GCP で事前構成された高品質のデータセットを提供し、容易にアクセスできるようにしています。Google Cloud は、MLCommons™ Association(Google が共同で設立)が開発した新しい高価値のデータセットを、一般公開データセット プログラムの Multilingual Spoken Words Corpus に追加します。このプログラムは豊富な音声データセットで、50 言語での 34 万を超えるキーワードと、2,340 万以上の例が含まれます。

この新しい一般公開データセットは、MLCommons Association の「一般公開」のデータセットというビジョンに沿ってすべての人々がアクセス可能です。また、品質およびリプレゼンテーションと多様性を高めるために継続的に改善され、「常に新しく」なっています。

Google 研究者は、複数の組織と協力し、NeurIPS Data-Centric AI ワークショップでデータ品質向上のためのベンチマークを開発する、DataPerf の取り組みを本日発表いたします。機械学習ハードウェア / ソフトウェアの速度における現在の業界基準となった MLPerf™ ベンチマークの取り組みと同様、DataPerf は、CATS4MLData-Centric AI CompetitionDCBenchDynabench、MLPerf ベンチマークなどのこれまでの取り組みの発案者を結束させ、迅速なイノベーションを促す明確な指標の定義を行うものです。DataPerf は、一般的な課題についてトレーニング データとテストデータの効用を測定します。また、コアセットの選択、エラーの修正、最適化の不十分なデータスライスの特定、ラベル付け前のデータセットの評価など、データセットでの作業のためのアルゴリズムも測定します。

主要な ML タスクのための一般公開の生きたデータセットをサポートすること、そしてそのようなデータセットの迅速な進化を導くベンチマークの開発は、ともに、Google Cloud を使用する研究者とエンジニアに力を与えます。彼らがこれから何を生み出すのか、とても期待しています。


謝辞: Lora Aroyo 氏と Praveen Paritosh 氏の協力に感謝いたします。


- スタッフ エンジニア Peter Mattson
投稿先