Gemini、Gemma、翻訳 LLM、Model Context Protocol を使用して、さまざまな言語を話す chatbot を作成する
Parashar Shah
Product Manager
Krishna Chytanya Ayyagari
Generative AI Field Solutions Architect
※この投稿は米国時間 2025 年 5 月 3 日に、Google Cloud blog に投稿されたものの抄訳です。
すべてのお客様が同じ言語を話すとは限りません。国際的に事業を展開している場合や多様な顧客ベースにサービスを提供している場合、お客様が検索に使用している言語がスペイン語であれ日本語であれ、chatbot はお客様の使用言語に対応する必要があります。chatbot でお客様に多言語サポートを提供するには、複数の AI モデルをオーケストレートし、多様な言語と技術的な複雑さをインテリジェントかつ効率的に処理する必要があります。簡単なリクエストから複雑なトラブルシューティングまで、お客様は自身の使用言語で迅速かつ正確な回答が得られることを期待しています。
これを実現するには、Gemma や Gemini のような特化型 AI モデルを利用できる最新のアーキテクチャと、LLM モデルで同じ言語が使えるよう標準化された通信レイヤが必要です。Model Context Protocol(MCP)は、AI システムで外部のデータソースやツールとやり取りを行うための標準化された方法です。これにより、AI エージェントは自身のモデルの外部にある情報にアクセスし、アクションを実行することができるため、より機能が向上して汎用性が高まります。では、Google の Gemma、翻訳 LLM、Gemini モデルを使用し、MCP を介してオーケストレートした、強力な多言語 chatbot を構築する方法を見ていきましょう。
課題: 多様なニーズ、1 つのインターフェース
真に効果的なサポート chatbot を構築することは、以下のような理由で難しい場合があります。
-
言語の壁: サポートは複数の言語で提供する必要があり、高品質低レイテンシの翻訳を必要とします。
-
質問の複雑さ: 簡単なよくある質問(基本モデルで簡単に処理可能)から、高度な推論を必要とする複雑かつ技術的な問題まで、質問は多岐にわたります。
-
効率性: 複雑なタスクや翻訳を処理する場合は特に、chatbot は遅延なく迅速に回答する必要があります。
-
保守性: システムは、完全なオーバーホールをしなくても、AI モデルの進化やビジネスニーズの変化に合わせて簡単に更新できるものである必要があります。
1 つのモノリシックな AI モデルですべてを処理しようとすると、多くの場合、非効率的かつ複雑になります。好ましいアプローチは、特化型モデルの使用とスマートな委任です。
さまざまな LLM を活用するための MCP アーキテクチャ


こうした特化型モデルを効果的に連携させる鍵となるのが MCP です。MCP は、オーケストレーター(Gemma を活用したクライアントなど)がどのようにして利用可能なツールを検出して、他の特化型サービスに固有のアクション(翻訳や複雑な分析など)をリクエストし、必要な情報(コンテキスト)を渡して結果を受け取るかを定義します。これは、複数の AI モデルから成る「チーム」が連携して作業するために欠かせない基盤です。LLM と連携するためのフレームワークは以下のとおりです。
-
Gemma: chatbot は Gemma のような汎用性の高い LLM を使用して、会話の管理、ユーザー リクエストの把握、基本的なよくある質問への対応、複雑なタスクに特化したツールを MCP 経由で使用するタイミングの判断を行います。
-
翻訳 LLM サーバー: Google Cloud の翻訳機能をツールとして公開する、専用の軽量 MCP サーバーです。MCP から呼び出すことができる、高品質で高速な言語間の翻訳に特化しています。
-
Gemini: オーケストレーターを介して呼び出されると、特化型 MCP サーバーが Gemini Pro または同様の LLM を使用して、複雑な技術的推論や問題解決を行います。
-
Model Context Protocol: このプロトコルにより、Gemma はそれぞれのサーバーで実行されている翻訳と Gemini の「ツール」を検出して呼び出すことができます。
仕組み
英語以外の言語のシナリオ例を見てみましょう。
-
技術的な質問が届く: お客様がチャット ウィンドウに技術的な質問を入力しますが、フランス語で書かれています。
-
Gemma がテキストを受信する: Gemma を搭載したクライアントがフランス語のテキストを受信します。言語が英語ではないことを認識し、翻訳が必要であると判断します。
-
Gemma が翻訳 LLM を呼び出す: Gemma は、MCP 接続を使用してフランス語テキストを翻訳 LLM サーバーに送信し、英語に翻訳するようリクエストします。
-
テキストが翻訳される: 翻訳 LLM サーバーが MCP 公開ツールを使用して翻訳を行い、英語版のテキストをクライアントに返します。
このアーキテクチャは幅広い用途に適用できます。たとえば、ある金融機関のサポート chatbot は、元の言語に関係なく、リアルタイムですべてのユーザー入力を英語で保存し、不正行為を検出しなければならないとします。この場合、Gemma がクライアントとして動作し、翻訳 LLM、Gemini Flash、Gemini Pro がサーバーで機能します。この構成では、クライアントサイドの Gemma が、よくある問い合わせに対してはマルチターンの会話に対応し、複雑なリクエストについては専門ツールにインテリジェントにリダイレクトします。アーキテクチャ図に示されているように、Gemma はマルチターン チャット内のすべてのユーザー インタラクションを管理します。翻訳 LLM を活用するツールは、不正行為の分析を即座に行えるよう、ユーザークエリを翻訳すると同時に保存します。また、Gemini Flash および Pro モデルでは、ユーザーのリクエストに基づいて回答を生成できます。金融に関する複雑な問い合わせには Gemini Pro を、それほど複雑でない質問には Gemini Flash を使用できます。
このアーキテクチャの仕組みを説明する、こちらのサンプル GitHub リポジトリも見てみましょう。
優れた組み合わせである理由
効率性と適応しやすさの両方を考慮して設計されているため、この組み合わせは強力です。
基本となる考え方は、作業の分割です。ユーザーがインタラクションする Gemma モデルベースのクライアントは軽量で、会話を処理し、必要な場所にリクエストを送信します。翻訳や複雑な思考などを要するより難しいジョブは、それらのタスクに特化して構築された別の LLM に送信されます。このように各構成要素が得意な作業を行うことで、システム全体のパフォーマンスが向上します。
管理が容易になり、柔軟性が向上するという大きなメリットもあります。各構成要素は標準インターフェース(MCP)で接続されるため、Gemma クライアントを変更することなく、翻訳用の新しいモデルを使用するなど、特化型 LLM のいずれかをアップデートしたり交換したりすることができます。これにより、アップデートが簡単になり、潜在的な問題が減少し、新しいことを試しやすくなります。このような設定は、高度にパーソナライズされたコンテンツの作成、複雑なデータ分析の処理、ワークフローのよりインテリジェントな自動化などに活用できます。
使ってみる
オーケストレートされた独自の特化型 AI ソリューションを構築する準備はできましたか?以下のリソースもご活用ください。
-
コードの確認: このプロジェクト用の GitHub リポジトリをクローニングして、クライアントとサーバーの設定を試します。
-
モデルと MCP の詳細:
-プロダクト マネージャー Parashar Shah
--生成 AI フィールド ソリューション アーキテクト Krishna Chytanya Ayyagari