インクルーシブ ML ガイド - AutoML

Google では、人工知能(AI)における取り組みの動機となり、取り組みを具体化する原則について、これまで慎重に検討してきました。Google は、責任ある AI への取り組みの根幹をなす人間中心のアプローチと、あらゆる人々とあらゆる状況に対応したプロダクトの提供に取り組んでいます。責任あるインクルーシブな AI の実現は、AutoML スイートの機械学習プロダクトの中核をなす価値観で、次のように具現化されています。

AutoML は、機械学習の経験を必要としない使いやすいコードレスのユーザー エクスペリエンスを提供することで、AI を利用できる組織や個人ユーザーを拡大します。

AutoML では転送学習や学習方法の学習(Learning to Learn)といったアルゴリズム手法を採用し、通常必要とされるデータセットよりも小さなデータセットを使って組織がカスタムモデルを構築できるようにすることで、機械学習を利用開始しやすくしました。

AutoML では、有意義で状況との関連性が高い ML システムを容易に構築できます。たとえば、Google の汎用モデルでは俗語や特定の地域の言葉をキャプチャできない場合には、関心のある言語機能を含むカスタムモデルを作成できます。当該地域で着用されている衣服に対し、一般的な衣料品分類モデルが対応しない場合には、より適切な処理を行うためモデルをトレーニングできます。

機械学習のメリットをすべての人々にもたらすという Google の指針の一環として、私たちの暮らしを形成し影響を及ぼしている、社会的分類に基づくバイアスを軽減することを重視しています。Google では、この研究分野を機械学習の公正性と呼びます。 このページでは、このトピックに関する Google の見解と、ML における公正性に関する対話において推奨される AutoML の利用方法について説明します。

機械学習における公正性について

機械学習における公正性は、学識者、実践者、幅広い一般の人々の間で活発な議論と研究の対象となっています。その目的は、過去に差別や過小評価の対象になった人種、収入、性的志向、宗教、性別などの特性を理解し、そのような特性がアルゴリズム システムやアルゴリズムによる意思決定に現れる場合に、不公平で偏見的な扱いを防止することです。

アルゴリズム上の問題はさまざまな形で現れます。たとえば、トレーニング データセットに隠れていた社会的なバイアスが顕在化することがあります。また、ML システム開発中の決定、ML システムを実際に導入する際に発生する複雑なフィードバック ループに反映されることもあります。

機械学習での公正性を追い求めるうちに、有効な見解や目標の多様性が判明しました。たとえば、すべての社会集団にわたり公平に予測するように ML 分類子をトレーニングします。あるいは、これまでの不公正についての研究を踏まえて、有害な結果の訂正または軽減を試行する ML システムの設計を目指すことができます。このような機械学習における公正性への取り組みは重要であり、また相互に関連していることがよくあります。

詳細については、Google の責任ある AI への取り組み推奨される公正性への取り組み機械学習と人間のバイアスに関する Google の動画Moritz Hardt と Solon Barocas による「ML の公正性に関するチュートリアル」をご覧ください。

ML と AutoML における公正性

AutoML では、さまざまな形で多様性の受け入れと公正性を促進できる機会があります。前述したように、これまでのデータでの欠落や虚偽が原因で、現在アクセスできる機械学習モデルが当該地域やユーザーのニーズに完全に対応していない場合には、適切な処理を実行するカスタムモデルを作成できます。AutoML を使用して作成するカスタムモデルでは、機械学習における公正性の目標に取り組むために、各自のユースケースに関連するすべてのカテゴリについてモデルが公正に予測できるようにするデータを組み込めます。公正性に関するこのような作業により、一部の ML システムに関連する次のようなマイナスの結果の発生リスクを軽減できます。

象徴型危険性

この危険性は、ML システムが特定の集団に関する否定的な固定概念を増幅または反映するときに発生します。たとえば、画像検索結果または自動テキスト提案を生成する ML モデルは、これまでのユーザーの行動(一般的な検索語やコメントなど)に基づいてトレーニングされますが、このことが原因で、悪意のある結果が生じる可能性があります。象徴型危険性はその時点で個人ユーザーを不快にさせるだけでなく、大きな集団に対し、広範で長期的な社会的影響を及ぼします。

機会の否定

ML システムが行う予測や決定によって、個人が機会やリソースを獲得し、生活の質を向上させるチャンスが実際に失われており、その影響は長期に及んでいます。

プロダクトが不均衡であることによる失敗

場合によっては、不公正性が基本的な使いやすさやアクセスに関連することがあります。たとえば、ゲーム コンソールのロック解除に使用される顔認識ソフトウェアで、肌の色が濃い人に対する失敗率が不均衡に高い場合、肌の色が濃い人がその機能を実際に利用できなくなる可能性があります。

次のセクションでは、AutoML でカスタムモデルを構築し、各自の ML システムでそのモデルを利用する際のいくつかのステップについて説明します。データセットのトレーニング時のバイアスの軽減、パフォーマンスの不均衡に関するカスタムモデルの評価、カスタムモデルを利用する際に検討すべき事項を中心に説明します。

機械学習における公正性についてユースケースを評価するときに最初に行うステップ

プロダクトのコンテキストと用途を検討します。

前述したように、場合によっては公正性が基本的な使いやすさとアクセスに関連していることがあります。

あるいは、統計的に関連性のあるデータであっても、一部のプライベートな特性を直接特定するか、このような特性に深く関連しているデータの利用を制限する法規制と、公正性が関わることがあります。このような特性を持つ人々は、状況に応じて法律により差別から保護されていることもあります(例: 保護対象の部類(Protected Classes))。

さらに、不公正性が明白ではないが、社会的、政治的、倫理的に微妙な質問をすることが必要となることがあります。たとえば、AI を使って自動テキストや翻訳を生成するときには、どのようなバイアスや固定概念が倫理的に問題となるでしょうか(例: 性別を仕事の種類に結びつける、宗教を政治的な意見に結びつける)。

したがって、ML システムを実際に使用する方法と、ML システムで時間の経過とともにバイアスがどのように入り込む可能性があるかを検討することが重要です。所在地域と、アプリケーションを使用する地域の両方での差別関連の法規制と、当該ドメインに関する既存の研究資料やプロダクト情報を確認して、一般的な公正性の課題を把握することが重要です。

次に示す重要な質問について検討する。

また、次に示す重要な質問を検討します。いずれかの質問に対し「はい」と答える場合は、バイアス関連の問題が発生する可能性を把握するため、ユースケースのより徹底的な分析の実施を検討できます。

ユースケースまたはプロダクトでは、生体認証、人種、肌の色、宗教、性的志向、社会経済的な地位、収入、国、場所、健康状態、言語、方言のデータのいずれかを特に使用していますか。

ユースケースまたはプロダクトで、上記のいずれかの個人的特徴に深く関連する可能性のあるデータが使用されていますか(たとえば、郵便番号などの位置情報データは、社会経済的地位や収入に関連していることがあり、また、画像/動画データから人種、性別、年齢に関する情報が明らかになることがあります)。

ユースケースやプロダクトが、個人の経済的機会あるいはその他の重要な生活上の機会に悪影響を与える可能性がありますか。

機械学習における公正性のいくつかの重要な点について説明しました。次に、AutoML のワークフローでステップを移動する際に実行できるアプローチについて説明します。

データ ガイドライン

まず、AutoML での最初のステップ、トレーニング データの収集について説明します。トレーニング データをまったく「バイアスがない」状態にはできませんが、データの潜在的なバイアスの原因を慎重に考慮して対処すれば、よりインクルーシブで優れたプロダクトを構築できる可能性が大幅に向上します。

データに存在する可能性のあるバイアスの種類

バイアスのあるデータの分布

これは、トレーニング データが、プロダクトの対象となる母集団を正確に表していないときに発生します。データの収集方法について慎重に検討してください。たとえば、ユーザーが送信した写真のデータセットがあり、画像の鮮明さでこのデータセットをフィルタリングすると、高価なカメラを所有するユーザーのデータが大半を占める、偏った選択になる可能性があります。一般に、プロダクトの対象ユーザー グループに関してデータがどのように分布しているかを考慮します。該当する各グループを表すデータが十分にありますか。微妙な系統的な理由が原因で、データセットが実際のユースケースの全体的な多様性を反映していないことがよくあります。

この状況を軽減するには、複数の提供元からデータを取得するか、過大に表されているグループからは最も有効な例だけを取得できるように、データを慎重にフィルタリングします。

バイアスのあるデータ表現

考えられるすべての人口統計学的グループのデータを適切な量で取得したが、一部のグループが、他のグループに比べ否定的に表現されていることがあります。俳優に関するマイクロブログの投稿のデータセットで説明します。女優と男優のデータを 50-50 の割合でうまく収集できても、その内容を詳しく調べると、女優に関する投稿は、男優に関する投稿に比べ否定的な内容であるとします。これが原因で、モデルが性別のバイアスを学習する可能性があります。ただし一部のアプリケーションでは、グループ間の表現の違いは問題になりません。たとえば医療分類では、より正確な診断を可能にするため、人口統計学上の僅かな差を取り込むことが重要です。一方、その他のアプリケーションでは、偏った否定的な関連付けが、経済的または教育的な影響を及ぼし、経済的な機会を制限し、感情的かつ精神的苦痛をもたらす可能性があります。

可能な場合には、このような否定的な関連付けがないかどうかデータを手作業で調べることをおすすめします。また、アプリケーションにとって適切であると思われる場合には、ルールベースのフィルタを適用して否定的な表現を除外することをおすすめします。

バイアスのあるラベル

AutoML のトレーニング データの作成における重要なステップとして、該当するカテゴリでデータをラベル付けします。このようなラベルでのバイアスを最小限に抑えることは、データが代表的であることを確認することと同様に重要です。ラベル付け担当者を確認します。担当者のいる場所、話している母語、年齢と性別などを確認します。同質的な判定者プールにより生成されるラベルが不適切であるか偏っている場合でも、そのことが一見して明らかではないことがあります。

理想的には、ラベル付け担当者が当該ドメインについて十分に理解していることを確認するか、ラベル付け担当者に対し関連する分野での研修を実施する指示を出し、ラベル品質のスポット チェックを行うための 2 次レビュー プロセスを導入します。意思決定では主観性よりも客観性を優先して最適化することを目標とします。ラベル付け担当者に対し「意識しないバイアス」についての研修を実施すると、多様性の目標の点でラベルの品質の向上に役立つことも判明しています。最後に、ラベル付け担当者が問題について自己報告し、指示を明確にするために質問できるようにすることも、ラベル付けプロセスでのバイアスを最小限に抑えるうえで役立ちます。

ヒント: AutoML でヒューマン ラベリング サービスを利用している場合は、指示を作成する際に次のガイドラインを考慮してください。

ラベル付けの手順とトレーニング資料を作成するときには、ユースケースの詳しい状況とエンドユーザーについての説明を含めます。ラベル付け手順は具体的にし、ラベル付け担当者がユーザーベースの多様性に留意するための具体的な例を示す必要があります。

判定者から受け取ったコメントをすべて読んで不明瞭な部分を特定し、受け取ったデータラベルのスポット チェック、承認、拒否の際に、慎重に扱うべきカテゴリに注意します。

データセットが完成したら、テスト / トレーニングの分割を指定することを検討する

ML 初心者ガイドでは、機械学習プロセスでのデータセットの分割方法について説明しました。前述したように、AutoML ではデータセットの自動分割を選択するか、テスト / トレーニングの分割を手作業で指定することができます。ユースケースで適切であれば、2 番目のオプションを検討できます。

データを手作業で分割する場合は、これまでに説明したガイダンスを考慮して、多様性がありインクルーシブなテストセットを作成します。最もインクルーシブなデータをトレーニングに使用すると、少数しか存在しないサブグループに対するモデルのパフォーマンスについて過度に楽観的に解釈する可能性があるため、テストの時点で失敗します。特定のサブグループに関するデータが不十分な場合は、トレーニング / テストの分割を各自で実行して、データがそのサブグループを適切に代表するようにトレーニング セットとテストセットの間で分散してください。

トレーニング データの確認

  • すべてのカテゴリに、推奨される数のデータ項目が含まれていますか。
  • カテゴリと画像 / テキストが、ユーザーベースの多様性を表していますか。
  • すべてのクラスにわたってほぼ均等に分布していますか。
  • トレーニング データ(画像、テキスト、文章ペア)は、モデルによる予測の対象となるデータのタイプに一致していますか。
  • 評価: モデルのパフォーマンスの評価

    公正性についてモデルを評価するには、特定のユースケースと、モデルが適切でないときにエンドユーザーに及ぼす可能性のある影響について十分に検討する必要があります。つまり、さまざまなユーザー グループに対する各種エラーの影響を理解します。この点で、発生する可能性のある公正性の問題を検討することが重要です。たとえば、モデルのエラーがすべてのユーザーに対し均等に影響するか、特定のユーザー グループにとって特に有害であるかなどです。

    この点について十分に検討すると、最適化の対象として適切なパフォーマンス指標(適合率と再現率)をより適切に決定して、両者の間のトレードオフを評価できるようになります。また、エラーの例を調べて、バイアスがあるかどうかを確認することもできます。

    ユースケース: パスポート写真の評価

    たとえば、パスポートの写真を編集、印刷するためのツールを作成するとします。国によって、写真の寸法、枠、許容可能な背景色や表情、写真に写っていいものと悪いものなどについて独自の規則があります。申請前に、パスポート申請の写真が条件を満たしていない可能性がある場合には警告することにします。

    偽陽性:

    この場合の偽陽性は、当該国のパスポート取扱機関では承認されるにもかかわらず、システムで写真が条件を満たしていないとマークされることです。これはたいした問題ではありません。撮影し直した写真のほうが使用できる可能性が高くなるからです。

    偽陰性:

    この場合の偽陰性は、使用できない写真の検出に失敗することです。お客様は自費で写真を現像して申請を提出しますが、申請が拒否されます。最悪の場合、パスポートが間に合わなかったために予定していた旅行ができなくなります。

    公正性に関する検討事項: この場合、モデルで特定の集団(人種や性別に基づく集団)について偽陰性が特に多く発生するかどうかを調べることが重要です。AutoML ではこのために、個々の偽陰性を調べ、問題のあるパターンがあるかどうかを確認します。

    最適化対象: この場合の最適化対象は再現率です。これは、偽陰性の件数(この場合は問題のあるエラー)を減らすことを目的としています。

    ユースケース: 子供向けコンテンツ フィルタ

    子供向けの読書アプリを作成しており、年齢に適した書籍のデジタル ライブラリを作成してアプリに組み込むとします。それぞれの本の題名と説明に基づいて、大人向けの本と子供向けの本のデータベースから子供向けの本を選択するテキスト分類を設計します。

    偽陽性:

    この場合の偽陽性は、子供向けの本として誤って分類された大人向けの本があり、そのような本が子供向け読書アプリに追加されることです。年齢にそぐわない内容を子供に公開する可能性があるため、問題となります。保護者が非常に動揺し、アプリを削除する可能性があります。

    スピーカー

    偽陰性:

    この場合の偽陰性は、大人向けの本として誤って分類された子供向けの本があり、そのような本が子供向け読書アプリから除外されることです。本の内容によっては、これはそれほど問題とならない場合(例: 人気のないシリーズの無名な続編)と、深刻な問題となる場合(例: 子供向けの本に、一部の人にとっては物議を醸すが、教育的または社会的価値があると一般に受け入れられている内容が含まれている場合)があります。

    公正性に関する検討事項: 一見したところではシンプルなケースに見えますが、ユースケースで公正性を評価する際の複雑な問題を示しています。偽陽性を避けること(年齢にそぐわない内容を子供が目にする可能性を最小限に抑えること)が必要ですが、偽陰性も悪影響を及ぼす可能性があります。たとえば、テキスト分類で LGBTQ がテーマの子供向けの本(例: 同性の両親を持つ子供の話)が不適切であると分類される場合、これは問題です。同様に、特定の文化や場所に関する本が他の本に比べてより一般的に除外される状況も問題です。

    最適化対象: この場合の最適化対象は適合率です。世界中のすべての子供向けの本のうち、アプリで扱われる本はごく一部だけであるため、ユーザーに対して表示する本を厳選できます。ただし、保護者の協力を必要とする可能性のある本を表示する方法について、UX ソリューションの検討も必要でしょう。たとえば、本が提起する問題を子供と保護者が話し合うことができるように、子供と一緒に保護者が本を読むことを推奨する機能を追加できます。

    予測: モデルのスモークテスト

    AutoML で機械学習指標を使用してモデルのパフォーマンスを評価したら、[Predict] タブで新しい画像やテキストを使用してカスタムモデルを試してみることができます。この作業を行う際には、次に示す公正性に関する推奨事項を検討してください。

    問題のドメインと、不公正性およびバイアスが生じる可能性について慎重に検討します。担当する分野については担当者が一番良く理解しています。画像に写っている人の人種や性別が画像分類子に影響する可能性がありますか。テキスト分類子が、人口統計学的グループを指す用語に対し敏感である可能性がありますか。開発している翻訳機能の対象となる言語ペアに、注目される可能性がある文化的な相違や、社会的偏見を露呈する可能性がある標準からずれた代名詞が含まれていますか。本番環境で検出された場合にユーザーに悪影響を及ぼす可能性があるケースでは、[Predict] ページでテストするか、各自の単体テストでテストします。

    不快または不公正な予測だけでなく、明確な予測の欠如(偽陰性)も、ユーザーに悪影響を及ぼす可能性があるので注意してください。結果が、すべてのエンドユーザーに対して作成したいエクスペリエンスに対応していない場合は、該当するクラスにデータを追加してデータセットのバイアス解消を進めるか、検出された問題をすべて是正する方向でモデルを使用することができます。

    ユースケース: 本番環境でのモデル

    シンプルな修正を実装します。モデルが完璧ではない場合は、新しいデータでの再トレーニング以外にも方法があります。場合によっては、処理前または処理後に、特定の単語や特定の種類の画像を削除するシンプルなステップを実行して、効果的に解決できる可能性があります。

    各種エラーがユーザーに与える影響を理解したうえで、モデルのスコアしきい値を調整し、適合率と再現率の容認可能な「適切な」バランスを確認します。

    モデルが構築され、予測を提供するようになった後で、時間の経過に伴いデータ分布が変化し、アプリケーションの適切なコンテキストをモデルが反映しなくなることがあります。時間の経過とともにモデルのパフォーマンスをモニタリングし、予期されているとおりにモデルが機能していることを確認し、ユーザーからフィードバックを収集して、新しいデータや再トレーニングが必要となる可能性のある問題を特定します。

    場合によっては、想定していなかったまれな状況が発生します。モデルが誤動作し、ユーザーやビジネスに悪影響を及ぼす可能性を懸念している場合は、インシデント対応を策定してください。

    フィードバック

    これは随時更新されるドキュメントであり、これからも新たな情報を取り込んでいきます。ここで説明したガイダンスに対するフィードバックをお待ちしております。カスタムモデルの作成経験、成功したこと、失敗したことについて、メールを inclusive-ml-feedback@google.com までお送りください。皆様からのフィードバックをお待ちしています。