いったいこれは誰の声?生成 AI による音声なりすましが新たなビッシング攻撃に利用される
Mandiant
※この投稿は米国時間 2024 年 7 月 24 日に、Google Cloud blog に投稿されたものの抄訳です。
概要
-
AI による音声クローニングは、人間の発話を驚くほど正確に模倣できるようになり、フィッシング詐欺の巧妙化につながっている。
-
詐欺師が音声クローニングとディープフェイクを利用して、ある組織から 2 億香港ドル以上を盗んだという事例が報告されている。
-
攻撃者は、攻撃ライフサイクルのさまざまな段階(初期アクセス、ラテラル ムーブメント、権限昇格など)で AI による音声クローニングを利用できる。
-
Mandiant のレッドチームは、AI による音声なりすましを使用して防御態勢をテストし、ますます巧妙化するこの攻撃手法の効果を実証している。
-
組織は、従業員を教育し、コードワードのようなソース検証を使用することで、この脅威に対する防御策を講じることができる。
はじめに
Mandiant は昨年、脅威アクターによる生成 AI の利用についてのブログ投稿を公開しました。これは、フィッシング キャンペーンや情報操作(IO)において、攻撃者が生成 AI をどのように利用しているか、特に、より説得力のある画像や動画などのコンテンツをどのように作成しているかについて説明したものです。また、攻撃者がマルウェアを開発するために大規模言語モデル(LLM)を使用していることについても紹介しています。この投稿では、攻撃者は生成 AI に関心を持っているものの、その利用については依然として、比較的限定されていることを強調しています。
本投稿では、その最初の調査に続き、AI の新たな戦術、技術、手順(TTP)と、トレンドについても説明します。AI を利用した音声なりすましについても取り上げ、Mandiant のレッドチームが防御態勢のテストにどのように使用しているかを紹介し、脅威に先手を打つためのセキュリティ上の考慮事項についても示します。
AI を利用した音声なりすましの脅威の増大
かろうじて解読可能なスクリプトしか生成できないロボット詐欺師はもはや過去のものです。AI による音声クローニングは、人間の発話を驚くほど正確に模倣できるようになり、フィッシング詐欺の巧妙化を強力に後押ししています。音声クローニングやディープフェイクを利用して企業から 2 億香港ドルを盗んだ詐欺師の事件が報告されるなど、この脅威に関するニュースを多く目にするようになりました。そのため、Mandiant のレッドチームは現在、防御態勢のテストにこれらの TTP を組み込んでいます。
ビッシングとは
ビッシングは、従来のメールベースの詐欺とは異なり、音声ベースのアプローチを使用したフィッシングのことです。クリックされることを期待してメールを送信するのとは異なり、ビッシングの場合は、脅威アクターが個人に直接電話をかけ、多くの場合は、緊急感を演出することで信頼を獲得し、感情を操作しようとします。
従来のフィッシングと同様に、脅威アクターの目的は、ソーシャル エンジニアリングの手口を利用して個人を欺き、機密情報の漏えいや悪意のある行動を促したり、送金させたりすることです。このような詐欺電話は、銀行、政府機関、テクニカル サポートなど、信頼性の高い組織になりすますことが多く、詐欺行為にさらなる信憑性が加わります。
テキスト生成、画像作成、音声合成などを行える強力な AI ツールの台頭により、オープンソース プロジェクトの波が巻き起こり、これらのテクノロジーはかつてないほど利用しやすくなりました。この急速な発展により、AI の力がより多くの人々の手に渡り、より説得力のあるビッシング攻撃の可能性も高まっています。
攻撃ライフサイクルにおける AI による音声なりすまし
最新の音声クローニングには、音声の録音と処理、モデルのトレーニングが含まれます。モデルのトレーニングは、オープンソースのライブラリとアルゴリズムの強力な組み合わせに依存しており、現在では多くの選択肢があります。これらの初期ステップが完了すると、攻撃者はさらに時間をかけて、なりすましの対象となる個人の発話パターンを理解し、作戦を実施する前にスクリプトを作成することもあります。この手順により、信頼性がさらに高まり、攻撃が成功する可能性が高くなります。
攻撃者は次のステップとして、攻撃ライフサイクルのさまざまな段階で、AI を利用した音声なりすましを使用する可能性があります。
初期アクセス
脅威アクターが、なりすまし音声を利用して初期アクセスを獲得する方法はさまざまです。脅威アクターは、経営幹部、同僚、IT サポート担当者などになりすますことができ、被害者を騙して、機密情報の開示、システムへのリモートアクセスの許可、送金などを要求します。聞き慣れた声という信頼感を悪用し、悪意のあるリンクをクリックさせる、マルウェアをダウンロードさせる、機密データを漏えいさせるなど、被害者が通常は行わないような行動を取らせるように仕向けることができます。音声ベースの信頼システムはほぼ使用されていないとはいえ、AI がなりすました音声が、多要素認証やパスワードの再設定に使用される音声ベースの認証システムをバイパスし、重要なアカウントへの不正アクセスが許可されてしまう可能性もあります。
ラテラル ムーブメントと権限昇格
脅威アクターは、AI による音声なりすましを利用してシステムからシステムへと移動し、信頼できる人物になりすまして、より高いアクセスレベルに到達します。これにはいくつかの方法があります。
1 つの方法は、なりすましを連鎖させるラテラル ムーブメントです。まず、攻撃者がヘルプデスクの従業員になりすましてアクセス権を獲得します。その後、ネットワーク管理者とのコミュニケーションを確立し、やり取りする間に相手の音声を巧妙に録音します。このキャプチャした音声を、新しい AI 音声なりすましモデルのトレーニングに使用することで、攻撃者はシームレスに管理者になりすまし、ネットワーク内の他の無防備なターゲットとのやり取りを開始できます。このように、なりすましを連鎖させることで、攻撃者はラテラル ムーブメントが可能になり、より機密性の高いシステムやデータにアクセスできるようになる可能性があります。
初期アクセス時におけるもう 1 つの方法は、脅威アクターが、侵害したホストで、すぐに利用可能な音声記録(ボイスメールや会議の録音、トレーニング資料など)を見つけることです。これらの音声記録を利用して AI 音声なりすましモデルをトレーニングすることで、攻撃者は組織内の特定の人物と直接やり取りすることなく、その人物になりすますことができます。これは、重要な個人をターゲットにしたり、アクセス制御に音声生体認証を使用するシステムをバイパスしたりする場合に特に効果的です。
事例紹介: Mandiant レッドチームによる積極的な対策
2023 年後半、Mandiant は、AI による音声なりすましを使用して社内ネットワークへの初期アクセスを獲得することを目的として、管理された環境下において顧客とともにレッドチーム演習を実施しました。この事例紹介は、ますます巧妙化するこの攻撃手法の効果を明らかにしています。
この演習では、顧客の同意を得て、ソーシャル エンジニアリング詐欺におけるリアルな口実を作成することから始まりました。レッドチームは、顧客のセキュリティ チームのメンバーになりすますことにしましたが、そのために、自然な音声サンプルを必要としました。顧客と口実を検討した結果、顧客は演習で自分たちの音声を使用することを明示的に許可してくれました。
次に、モデルをトレーニングするために必要な音声データを入手し、十分なレベルのリアルさを実現しました。次の段階では、オープンソース インテリジェンス(OSINT)が重要な役割を果たしました。レッドチームは、従業員のデータ(役職、勤務地、電話番号)を収集することで、なりすます人物の声に聞き慣れており、目的に必要な権限を有する可能性が最も高い潜在的なターゲットを特定しました。厳選したターゲット リストをもとに、チームは VoIP サービスと番号偽装を利用したなりすまし電話をかけました。
ボイスメール応答メッセージやその他の最初のハードルに直面した後、疑うことを知らない最初の被害者は、上司に対する信頼感を示しながら「はい、なんでしょうか?」と答えました。レッドチームが連絡していたのは、なりすまされた声の主の部下であるセキュリティ管理者でした。レッドチームは、「VPN クライアントの構成ミス」という口実を利用しました。これは、近年サービス停止が世界的に発生しており、この顧客の VPN プロバイダにも影響が及んでいるという絶好のタイミングでした。慎重に吟味されたシナリオによって、相手は切迫感を感じ、疑うことなく指示に従うようになっていました。
すっかり電話の声を信頼した被害者は、Microsoft Edge と Windows Defender SmartScreen のセキュリティ プロンプトのどちらもバイパスし、知らないうちに、事前に準備された悪意のあるペイロードを自分のワークステーションにダウンロードして実行していました。このペイロードの起動に成功したことで演習は完了し、AI による音声のなりすましが組織への侵入を容易にするという驚くべき事実が示されました。
セキュリティに関する考慮事項
この種の不正行為は、本質的には社会的なものであり、現在のところ、技術を駆使して脅威を検出することには限界があります。利用可能な緩和策は、セキュリティ意識、ソースの検証、今後の技術面の考慮事項という 3 つの主要な原則が中心となります。
セキュリティ意識
従業員、特に、金銭やアクセス権を管理する従業員に対して、AI によるビッシング攻撃の存在と手口について教育します。AI によって脅威が高度になっていることについて、セキュリティ意識向上トレーニングに加えることを検討してください。脅威アクターが、なりすましという効果的で利用しやすい手法を利用できるようになった今、電話の対応には誰もが適度な懐疑心を持つべきです。特に、以下のようなケースに該当する場合は注意が必要です。
-
信じがたいほどうますぎる話。
-
信用できない番号や組織からの電話。
-
疑わしい権限を行使しようとしてくる。
-
電話をかけてきた人の性格にそぐわない話し方や内容。
信頼される立場にある従業員は、即時の対応が求められる緊急性の高い電話には細心の注意を払う必要があります。特に、通話の相手がワンタイム パスワード(OTP)を尋ねるなど、財務情報やアクセス関連の情報について尋ねたり要求したりする場合は注意が必要です。不審な電話については、すぐに通話を終了して報告するように従業員に徹底する必要があります。AI によるビッシングが関与していると思われる場合はなおさらです。これは、同じ攻撃を受けている従業員がいる可能性が高いからです。
ソースの検証
可能であれば、信頼できるソースと情報を相互参照してください。この行為には、一旦電話を切って、検証済みの電話番号にかけ直すことも含まれます。また、検証済みの電話番号からテキスト メッセージを送信するように依頼したり、メールや企業内チャット メッセージを使うように依頼したりします。
バックグラウンド ノイズの突然の変化など、音声の不具合に気付けるように従業員をトレーニングします。このような現象は、脅威アクターが音声の偽装に十分な時間をかけていないことの兆候である可能性があります。普段とは異なる言葉遣いなど、不自然な話し方のパターンを探すことも有効です。不自然な抑揚、普段は使わない相槌、奇妙な音、会話の途切れ、異常な繰り返しなどに注意してください。また、声の音色(トーン)やテンポにも注意してください。
機密情報や財務情報を扱う幹部や重要なスタッフにはコードワードを設定します。これを帯域外で行うことで、組織内には存在が残らず、侵害が発生した場合の情報漏洩を抑制できます。また、コードワードは、個人の本人確認のためにも使用できます。
可能であれば、不明な電話番号はボイスメールに転送するようにします。音声通話には、メールと同様の警戒態勢をとってください。不審な電話は報告するように徹底し、広く認識してもらうようにします。
今後の技術面の考慮事項
現在、組織内の音声会話を保護するために実施できる最善策としては、VoIP チャネルに別のネットワークを使用したり、認証や送信に暗号化を実装したりするなど、従来のセキュリティ対策を実装する程度です。しかし、これでは従業員個人の電話に対する攻撃を解決することはできません。
これからの組織は、あらゆる音声アセットの保護を検討すべきであり、人間の耳では気づかないほど微妙でありながら AI テクノロジーによって容易に検出される、デジタル透かしなどのテクノロジーを実装する必要があります。
最終的には、発信者を確認できるテクノロジーをモバイル デバイス管理ツールが提供するようになると思われます。それまでの間、強力な認証を必要とし、容易に ID を偽装できないエンタープライズ チャット チャネルで、機密性の高い会話を行うことを検討する必要があります。
ディープフェイクについては、検出に役立つ研究やツールの開発が活発に行われています。現在の検出の精度は一定ではありませんが、ボイスメールやオフラインの音声メモに含まれるディープフェイクを特定するうえでは利用価値があります。検出機能は時間の経過とともに改善され、最終的にはエンタープライズ ツールでサポートされるようになると思われます。その他にも、リアルタイム検出に関して活発に研究が行われています。たとえば、DF-Captcha では、チャレンジ レスポンスを使用して実装された人間のプロンプトをキューに入れて、相手側の ID を検証するシンプルなアプリケーションを提案しています。
まとめ
このブログ投稿では、最新の AI ツールがより説得力のあるビッシング攻撃の作成にどのように役立っているかを説明しました。Mandiant によるビッシングの成功は驚異的であり、AI による音声なりすまし攻撃に対するセキュリティ対策の強化が急務であることを浮き彫りにしています。テクノロジーは攻撃者と防御者の双方に強力なツールを提供しますが、重大な脆弱性は依然として人間が関わる部分にあります。今回紹介した事例は、組織と個人の両方において積極的な対策を講じることを促す警鐘となるはずです。
Mandiant は、より複雑なレッドチーム評価とソーシャル エンジニアリング評価において、AI による音声なりすまし攻撃の活用を開始し、このような攻撃が組織に与える影響を検証しています。脅威アクターがこの手法を使用する頻度は高まっているため、防御者側は計画を立てて予防策を講じることが不可欠です。
-Mandiant、執筆者: Emily Astranova、Pascal Issa