生成 AI による広告シーン検出で視聴者のエンゲージメントを向上させる
Amir Meimand
Senior Customer Engineer, AI/ML
Priya Kumari
Customer Engineer, Analytics
※この投稿は米国時間 2025 年 1 月 8 日に、Google Cloud blog に投稿されたものの抄訳です。
オンライン動画の利用は急増し続けています。2023 年には世界中で 18 億人もの人々がストリーミング サービスに登録し1、2024 年には世界中のインターネット ユーザーの 92% が毎月オンライン動画を視聴しました2。この増加は、優れたクリエイティブによって顧客にリーチしたいと考える広告主にとって大きなチャンスを生み出しますが、効果のある方法で広告を配置しないと、顧客の視聴体験の邪魔になる可能性があります。
広告の効果を高めるには、広告をシームレスに統合することが重要です。つまり、ストーリーの流れを中断することがないよう、動画コンテンツの自然な挿入点に広告を配置する必要があります。シーン変化検出テクノロジーは、動画の視覚的、音声的な要素やテキスト要素を分析することにより、広告の自然な挿入点を識別します。Gemini などの Google が提供している AI モデルは、視聴者と広告主の双方に次のようなメリットをもたらします。
-
視聴者のエンゲージメント向上: 広告をシームレスに統合することで、中断を最小限に抑え、視聴体験の質を高めることができます。
-
広告収入の増加: 広告の関連性が高まると、クリック率や広告主の費用対効果も上昇することになります。
-
簡素化されたワークフロー: Google Cloud の Vertex AI プラットフォームを使用すると、シーンの検出から広告の配置まで、動画収益化プロセス全体が合理化されます。
広告インベントリの可能性を最大限に引き出せるよう、Google Cloud の生成 AI がどのようにシーン検出に革命をもたらし、より効果的な広告の配置、リーチの改善、視聴者のエンゲージメント向上、そして最終的にはパブリッシャーの収益増加につながるのかをご紹介します。
従来の広告挿入点検出の課題
広告挿入点を検出する従来の方法は、フェードアウトや固定のコマーシャル挿入点が伴う構造化されたテレビコンテンツ向けに主に設計されており、昨今の多様な動画環境では最適な広告配置点を特定するのに苦労することがよくあります。これらの方法(ショット境界検出、モーション分析、音声分析、ルールベースのシステムなど)では、微妙な切り替えを見逃したり、すばやい動きを誤って解釈したり、視覚的なコンテキストと関係なく機能したり、柔軟性に欠けたり、手動タグ設定が必要になったりする可能性があります。このような状況において、Google の Gemini モデルが役立つ可能性があります。
Google の Gemini モデルによるインテリジェントなシーン検出
Gemini のマルチモーダル機能では、動画、音声、テキストを同時に分析できるため、これまでは不可能だったレベルでの微妙なシーンの理解が可能になります。動画コンテンツのニュアンスを理解して、きわめて詳細なコンテキスト メタデータを生成するよう Gemini にリクエストすることにより、これまで効率的に実現できなかった機能を実現できるようになりました。
Gemini が広告挿入点を識別し、詳細なコンテキスト メタデータを生成する方法の例をいくつか示します。
この拡充されたメタデータにより、適切な広告と適切なユーザーを適切なタイミングで正確にマッチさせることが可能になります。たとえば、1 つ目の広告挿入点(日中からディナータイム)は、「陽気、リラックス」という感情が関連付けられているため、調理器具のような単なる商品ではなく、旅行、エンタメ、レジャー商品など、それらの感情に共鳴する広告に最適です。Gemini は、基本的なコンテキストだけでなく、シーンの感情的なトーンも理解することにより、視聴者にとってはるかに魅力的な新しいレベルのコンテンツ ターゲット広告を実現します。
図 1 - Ep12 Pororo - Pretty, The Great Storyteller から検出されたシーン変化のサンプルと対応するメタデータ
実例: Google Cloud アーキテクチャ
Gemini 1.5 Pro モデルを搭載した Google Cloud は、広告挿入点をインテリジェントに検出するための堅牢でスケーラブルなソリューションを提供しています。そのマルチモーダル分析機能により、動画、音声、テキストを同時に処理して微妙な切り替えも検出し、広告のシームレスな統合を実現できます。最大 200 万件のトークンを処理できる Gemini の能力により、最小限の再トレーニングでさまざまなジャンルの長い動画を包括的に分析することができ、メディア プロバイダは汎用性が得られます。この大きなコンテキスト ウィンドウにより、モデルは単一パスで約 2 時間の動画および音声コンテンツを分析できるため、動画を小さなチャンクに分割する必要がある方法と比較して、処理時間と複雑さが大幅に軽減されます。
このアーキテクチャでは、次の主なステージを通じて高いパフォーマンスと信頼性が確保されます。
図 2 - シーン変化検出のアーキテクチャ図
1. 動画の取り込みと保存(GCS): コストとパフォーマンスを最適化できるようさまざまなストレージ クラスが備わっており、スケーラビリティと耐久性に優れたオブジェクト ストレージ サービスである Google Cloud Storage(GCS)に動画が取り込まれ、保存されます。GCS では、処理における高い可用性とアクセス性が確保されます。また、Identity and Access Management(IAM)ロールやきめ細かいアクセス制御などの堅牢なセキュリティ対策が施されています。
2. オーケストレーションと同時処理(Vertex AI Pipelines と Gemini): Vertex AI Pipelines は、エンドツーエンドの動画分析プロセスをオーケストレートし、各ステージのシームレスな実行を実現します。Vertex AI は、Google Gemini のマルチモーダル分析を使用して複数の動画の同時処理を管理し、スケーラビリティを維持しながらワークフローを大幅に高速化します。これには、Gemini を搭載した組み込みの安全フィルタが含まれ、動画、音声、テキストの微妙なコンテキスト分析を実行して、不適切な可能性があるコンテンツを判別します。また、シーン変化のタイムスタンプ、動画のメタデータ、コンテキスト分析情報の詳細を示す結果が JSON 形式で返されます。
その後、JSON 出力に後処理が適用されて、データが表形式で構造化され、ダウンストリームのストレージおよび分析ツールへの対応が確保されます。この処理に含まれるものは以下のとおりです。
-
タイムスタンプの標準化: クエリと統合の一貫性を保つため、統一された時刻の表示形式を維持します。
-
メタデータ マッピング: このステージには、基本的なメタデータ抽出に加えて、シーン(または動画プログラム全体)を IAB などの業界標準の分類法、またはお客様独自のカスタム分類法に分類することが含まれます。これにより、動画コンテンツをタイプ別にさらに細かく整理できるようになり、広告のターゲット設定が容易になります。
-
エラー処理とデータ検証: データの品質を維持するため、不完全または無効なエントリを除外します。
3. 構造化データの保存と拡充(BigQuery): Gemini のシーン変化検出分析から得られた構造化データ(タイムスタンプ、メタデータ、コンテキスト分析情報など)は、BigQuery に保存されます。BigQuery ML では、この統合データを活用して、広告配置の最適化のための予測モデルを構築できます。たとえば、アクション シーケンス内のシーン変化時にアクションをテーマにした 15 秒間の広告をスケジュール設定し、夜間にアクション映画を頻繁に視聴する視聴者をターゲットにすることができます。
4. モニタリングとロギング(GCP オペレーション スイート): GCP オペレーション スイートは、ジョブの進行状況やシステムの健全性をリアルタイムで可視化するなど、パイプライン全体の包括的なモニタリングとアラート発信を行います。これには、詳細なロギング、障害の自動アラート、重要業績評価指標のダッシュボードが含まれます。先を見据えたこのようなアプローチにより、タイムリーな問題解決が保証され、システムの信頼性が最大限に高まります。
まとめ: 視聴者と広告主の双方にメリットをもたらす
動画広告戦略を変革する準備は整いましたか?Google Cloud、Gemini、BigQuery の詳細をご覧ください。実践的な経験を積むことを希望する開発者は、動画分析に Gemini API を使用する方法について詳しく説明しているこちらのノートブックもご覧ください。
1. Statista(2024)。四半期ごとの全世界のオンライン動画視聴者数。2. Exploding Topics(2024)。50 以上の動画ストリーミング統計データ: 2024 年の主なトレンド。