同じようで違う: AI サプライ チェーンのセキュリティに関する Google のガイダンス

Anton Chuvakin
Security Advisor, Office of the CISO
サプライ チェーン(供給経路)のリスクは、悪用されることが多いセキュリティ脆弱性の一つです。そのため、従来のソフトウェア サプライ チェーンよりも複雑で不透明な AI サプライ チェーン(AI の供給経路)は、より大きなリスクに直面しています。AI サプライ チェーンのセキュリティを効果的に機能させるには、現実的で、実用的な対策である必要があります。
悪意のあるデータ混入(データ ポイズニング)、トレーニング開発環境(トレーニング フレームワーク)の脆弱性、モデルの改ざんは、AI モデルに対する重大な脅威であり、2023 年と 2024 年初頭の AI 開発の初期段階からその事例が記録されています。これらの侵害された AI モデルは安全に見えましたが、実際には危険なコードが含まれていました。ユーザーが気付かずにダウンロードすると、有害なコードがデータを盗み、バックドアをインストールして、攻撃者がユーザーのパソコンを制御できるようにします。
AI サプライ チェーンのリスクを減らすための対策を定める際は、開発者が採用しない、あるいは採用できないようなセキュリティ対策は、ほとんど機能しないと理解することが重要です。GPG 鍵の例が示すように、セキュリティ対策は、開発者が簡単に導入できる、使いやすいものでなければなりません。
AI サプライ チェーンのリスクが従来のソフトウェアと似ている点
Google では、AI 開発は従来のソフトウェア開発ライフサイクルと似ており、既存のセキュリティ対策を AI に比較的簡単に適応できるはずと考えています。AI サプライ チェーンを保護する Google のアプローチは、最近公開した調査で詳しく説明されているように、セキュア AI フレームワーク(SAIF)に基づいています。
このレポートは、AI モデル、特に大規模言語モデル(LLM)の内部構造が本質的に「不透明」(ブラックボックス化している)であると強調しています。モデルの動作は「重み」と呼ばれるデータに大きく左右されますが、この重みは数が膨大であるため人間が分析するのは困難であり、さらにコンピューターしか理解できないバイナリ形式で存在します。この中身の不透明さは、従来のソフトウェアの内部構造をはるかに容易に調べて理解できたセキュリティの専門家(リーダー)にとって、これまでにない課題となっています。
「従来のサプライチェーンと同じように、AI の成果物やインフラに持ち込まれたバグを発見し、修正することが重要です。しかし、AI では、モデルの学習に使用されたデータセットという、新たな依存関係(リスクの源)が生まれます」とレポートの筆者は述べています。
データセットの保存、変更、取得のエコシステムは、コード管理のエコシステムほど成熟していませんが、Google の AI において、これは不可欠です。改ざん防止された来歴により、開発者はモデルの作成者の身元やモデルの信頼性を確認できます。
ソフトウェア アーティファクトのためのサプライチェーン レベル(SLSA)を AI サプライ チェーンに適用するには、課題に対処する必要があります。たとえば、AI モデルのトレーニングは長期間にわたりリソースを大量に消費します。しかし、この SLSA の適用は、AI サプライ チェーンに関する重要な知見を提供できます。
AI サプライ チェーンのセキュリティでは、アーティファクト(開発プロセスで生み出される成果物)の起源と変更の改ざん防止記録である「来歴」(=アーティファクトの起源と変更に関する、不正ができない記録)という従来のサプライ チェーン セキュリティのコンセプトを採用することで、大きなメリットを得られます。「来歴」の情報は、プログラム部品の依存関係を追跡し、データの正確性を確保し、データ ポイズニングやモデルの改ざんなどのリスクの軽減に役立ちます。
AI で使われるデータがどこから来て、どのように扱われたかという記録(データ来歴)は、複雑になることが多くあります。これは、どこまで細かく記録するか(データセット名だけか、個々のデータポイントまでか)や、データセットの暗号化された正確性チェック(完全性チェック)が必要かどうか、といった問題が絡み合っているためです。AI アーティファクト(AI の成果物)とデータを保護するには、改ざん防止された来歴が不可欠です。
AI サプライ チェーンのリスクモデルの主な違い
こうした類似点があるとはいえ、AI サプライ チェーンのリスクモデリングを従来のソフトウェア サプライ チェーンのリスクモデルからそのまま流用すること(リフト & シフト)はできません。AI サプライ チェーンと従来のソフトウェア サプライ チェーンの 3 つの重要な違いは次のとおりです。
- データとコード: AI はデータに大きく依存しているため、データの来歴、ポイズニング、バージョン管理に関する固有のセキュリティ上の課題が生じます。従来のソフトウェアは主にコードに依存しています。AI データセットのバージョン管理も、従来のソフトウェア コードのバージョン管理ほど成熟していません。そのため、データセットの変更を追跡してセキュリティを管理することが難しくなります。
- 不透明性と検査可能性: AI モデルは不透明(ブラックボックス)であるため、簡単に検査して分析できるソフトウェア コードとは異なり、人間による手動でのレビューは不可能です。AI トレーニングは多くの場合、一元的に記録されていない、場当たり的な積み重ねのステップで構成されます。
- 来歴の重視: データ ポイズニングやモデルの改ざんのリスクがあるため、AI ではソフトウェアの来歴が重要です。
鍵となるのは来歴(データの経緯の記録)
セキュリティチームは、AI モデルとデータセットのデータが改ざんされていないこと(完全性)と追跡可能性(トレーサビリティ)を確保する必要があります。また、AI モデルの正確性について、ユーザーの信頼を得る必要があります。そのため、確固たる来歴追跡の仕組みの実装を優先しなければなりません。
AI ソフトウェア サプライ チェーンを保護するには、業界全体の協力が鍵となります。
データセットの保存、変更、取得に関する仕組み(エコシステム)は、プログラムコード管理のエコシステムほど成熟していませんが、Google の AI にはそれが必要です。改ざん防止機能を備えた来歴により、開発者はモデルの作成者の身元やモデルの信頼性を確認できます。
ソフトウェアの来歴の詳細情報は、AI サイバー攻撃を軽減するうえで重要な役割を果たす可能性があります。AI モデルのデータセット、開発環境(フレームワーク)、すでに学習済みのモデルを文書化することで、問題を起こす可能性のあるモデルを特定し、モデルの系統樹のような包括的な記録を確立できます。最終的に、来歴情報は、特定の AI モデルに関連する潜在的な脆弱性やリスクの特定に役立つ貴重なリソースとして機能し、組織が AI の使用に関するより正確なリスクモデルを作成するのに役立ちます。
たとえば、AI モデルのトレーニングに使用されるデータセットに偏り(バイアス)や間違いが含まれていることが判明している場合、そのモデルにも同様の欠陥が生じる可能性があります。データセットの経緯(来歴)を追跡することで、攻撃者に悪用される前にこれらの問題を特定して対処することが可能になります。
同様に、セキュリティの脆弱性が事前トレーニング済みモデルに見つかった場合、そのモデルを組み込んだ AI モデルもリスクにさらされる可能性があります。来歴情報により、これらのリスクの特定や軽減が可能となり、AI モデルの堅牢性と安全性を確保できます。
また、データの経緯(来歴)情報を使用して、AI モデルがどのように変化してきたかを長期にわたって追跡することもできます。モデルが更新、改良されるにつれて、どのような変更が行われたかの記録を保持することが重要になります。この情報により、これらの変更による意図しない結果を特定できます。また、AI 開発に対するさまざまなアプローチの有効性を追跡することもできます。
AI サプライ チェーンのセキュリティの出発点
ソフトウェアのセキュリティレベル(SLSA)や来歴(経緯の記録)の導入が絶対に必要な、情報が十分に文書化されていない AI モデルを目の前にすると、どうすればよいか分からなくなるかもしれません。
まずは、各成果物(アーティファクト)の系統(リネージ)を把握するのに十分な付帯情報(メタデータ)を収集することから始めることをおすすめします。成果物の由来、作成者、変更者、トレーニング担当者、トレーニングに使用されたデータセット、成果物の生成に使用されたソースコードなど、基本的な質問に答えられるようにしましょう。
次に、情報を整理して、検索や制御(コントロール)ができるようにします。付帯情報(メタデータ)は、改ざん防止機能を備えた変更不可能な方法で、かつ成果物の作成時に取得されるのが理想的です。最後に、最良のやり方として、SBOM(ソフトウェア部品表)、来歴ドキュメント、モデルカード、または他の開発者の役に立つその他の文書で、収集した付帯情報を共有します。
開発者は、次の取り組みを通じて、より深く理解できます。包括的な付帯情報の収集、暗号署名によるデータが改ざんされていないこと(完全性)の向上、効果的な検索と制御のための付帯情報の整理、信頼と透明性を促進するための情報の共有。これらにより、モデル、それらがもたらすリスク、およびそれらのリスクを軽減する方法をより深く理解できます。
AI ソフトウェア サプライ チェーンを保護するには、業界全体の協力が鍵となります。組織がどれほど自律的であっても、依存関係、データセット、他の要素への依存関係、データセット、その他の共有された部品が常に存在します。組織は、既に確立されたソフトウェア サプライ チェーンのセキュリティ対策を厳格に適用し、データセットを細心の注意を払って追跡することで、悪意のある攻撃に対する防御を強化し、予期せぬ脆弱性からより迅速に復旧できます。
AI サプライ チェーンのセキュリティに関するインサイトについては、AI ソフトウェア サプライ チェーンの保護に関するレポートの全文と、AI と従来のセキュリティを比較した AI セキュリティに関するその他のリソースをお読みになることをおすすめします。
※この投稿は米国時間 2025 年 10 月 8 日に、Google Cloud blog に投稿されたものの抄訳です。
-CISO オフィス、セキュリティ アドバイザー、Anton Chuvakin



