コンテンツに移動
デベロッパー

チュートリアル: Gemini Multimodal Live API を QA に使用する方法

2025年8月20日
Shivank Awasthi

Generative AI field solutions architect

※この投稿は米国時間 2025 年 8 月 13 日に、Google Cloud blog に投稿されたものの抄訳です。

Gemini Multimodal Live API は、動画や音声などのデータを生成 AI モデルにストリーミングし、リアルタイムで回答を受け取ることができる強力なツールです。処理を開始する前に完全なデータ アップロードが必要な従来の API とは異なり、この「ライブ」または「ストリーミング」機能により、AI との継続的な双方向の会話が可能になり、イベントの展開に合わせて分析できます。

このリアルタイムのやり取りにより、新たなレベルのアプリケーションが実現し、AI は静的な分析ツールから、ライブ ワークフローの動的でアクティブな参加者へと変貌します。複数のデータタイプ(動画の視聴、テキストの読み取り、音声の理解など)を同時に処理して推論できるため、以前は自動化が不可能だった複雑なコンテキスト認識タスクが可能になります。

ライブ API の活用例としては、高速製造があります。このチュートリアルでは、Gemini API を活用して、手動 QA の一般的な課題を克服する自動品質検査システムを構築する方法を紹介します。

このブログでは、標準のカメラフィードを使用して次のことを行うシステムを作成する方法について説明します。

  • 生産ライン上の製品をリアルタイムで分析する。
  • バーコードまたは QR コードを読み取って商品を識別する。
  • 視認できる欠陥を同時に検出、分類、測定する。
  • すべての欠陥について構造化されたレポートを生成する。
  • 重大な問題が発生した場合は即座にアラートをトリガーする。

前提条件

  • 課金が有効になっている Google Cloud Platform(GCP)アカウント。
  • Cloud Run や BigQuery などの基本的なクラウドのコンセプトとサービスに関する知識。
  • Python の基礎知識。
  • 有効な Gemini API キー。

システム アーキテクチャ

このシステムのアーキテクチャは、Google Cloud サービスの堅牢な基盤上に構築され、サーバーレス、スケーラブル、かつ復元力があるように設計されています。このアプリケーションは、Cloud Run で実行される 2 つの主要なマイクロサービスで構成されています。

手順ごとのワークフローは次のとおりです。

1. データの取り込み: 組み立てラインの上に設置された標準的な IP カメラが、通過する製品の動画をストリーミングします。このフィードは、プライマリ Cloud Run サービスに送信されます。

2. 検査サービス(Cloud Run): このコンテナ化されたアプリケーションは、運用を司る頭脳のようなものです。

  • Gemini Multimodal Live API: サービスは動画データを Gemini にストリーミングします。データベースから取得される動的プロンプトを使用し、同じライン上の製品ごとに異なる検査基準を適用できます。Gemini はストリームを処理し、製品 ID の読み取りと目視検査の実行というマルチモーダル タスクをリアルタイムで実行します。

  • その後、Gemini からの豊富な出力(商品 ID、欠陥の種類、測定値、場所など)を、ダウンストリーム処理用の構造化された JSON オブジェクトにフォーマットします。

3. アラートとロギングのサービス(Cloud Run): 2 つ目の Cloud Run サービスは、構造化された JSON データを取り込み、すべてのレポート、ロギング、通知タスクを処理します。

  • データロギング: 詳細な欠陥レコードを BigQuery に即座に書き込みます。これにより、長期的な分析に不可欠な、すべての品質イベントの履歴をクエリ可能なデータベースが作成されます。

  • Gemini 2.5 Flash: このモデルは、推論のレイヤを追加します。欠陥のある生データを取得し、人が読める簡潔なアラート メッセージに要約できます。最近のイベントを関連付けるなど、より高度なロジックを適用できます。

  • Secret Manager: 通知サービスのすべての API キーと認証情報が、セキュリティのベスト プラクティスに沿って安全に保存および管理されます。

  • 通知 API(例: Gmail API、Google Chat API): Gemini が処理した重大度とルールに基づいて、サービスは適切な API を呼び出し、適切なタイミングで適切な担当者にアラートを送信します。

実装の手順

ステップ 1: 検査サービスを設定する。

このサービスは、システムのコアとなるものです。これは、動画フィードを受信して Gemini とやり取りする、Cloud Run にデプロイされたコンテナ化されたアプリケーションです。重要となるのは、Gemini API に送信するプロンプトです。このプロンプトは、1 つの動画フレームに対して複数のタスクを実行するようにモデルに指示します。これは、Gemini の強力なマルチモーダル機能を活用したものです。

プロンプトの例:

読み込んでいます...

欠陥が見つかった場合、Gemini はそれを単にフラグ付けするだけでなく、定量的なデータ(傷の長さなど)を提供します。このデータを使用して、欠陥のサイズ、種類、場所などの重み付けされたパラメータに基づいて重大度スコアを計算し、プロセスから人間の主観性を排除できます。

ステップ 2: アラートとロギングのサービスを構成する

2 つ目の Cloud Run サービスは、検査サービスからのデータに対して処理を行います。

  1. ロギング: 最初のサービスから構造化された JSON 出力を受信すると、すぐに完全なレコードを BigQuery テーブルに書き込みます。これにより、すべての品質イベントの強力なクエリ可能な履歴が作成されます。
  2. インテリジェントなアラート: 重大な欠陥については、Gemini Flash などのモデルを使用して、追加の推論ステップを実行します。技術データを要約してわかりやすいアラートにしたり、イベントを関連付けて傾向を特定したりできます。

プロンプトの例:

読み込んでいます...

生成されたアラート: 重大アラート: 過去 10 分間にライン 4 で 3 回目の「ハウジングのひび割れ」欠陥が検出されました。成形機 M-7 にシステム上の問題が発生している可能性があります。アラートの重大度に応じて、サービスは適切な API を呼び出します(例: Gmail API、Google Chat API)を使用して、関係者にメッセージを即座に送信します。

始める

スケーラブルな Google Cloud アーキテクチャ上で Gemini のマルチモーダル機能を活用することで、強力な品質インテリジェンス プラットフォームを構築できます。ご利用開始にあたっては、以下のリンクをご覧ください。

  • 音声検出やネイティブ音声機能など、主な機能と構成については、Live API の機能ガイドをご覧ください。
  • ツールの使用ガイドを読んで、Live API をツールや関数呼び出しと統合する方法を確認します。
  • 長時間にわたる会話を管理するには、セッション管理ガイドをご覧ください。

ー 生成 AI フィールド ソリューション アーキテクト Shivank Awasthi

投稿先