Vertex AI の生成 AI(別名: genAI)では、多くの大規模な生成 AI モデルにアクセスできるため、AI を活用したアプリケーションでモデルを使用するための評価、チューニング、デプロイを行うことができます。このページでは、Vertex AI での生成 AI ワークフローの概要、利用可能な機能とモデルについて説明し、使用を開始するためのリソースを紹介します。
生成 AI ワークフロー
次の図に生成 AI ワークフローの概要を示します。
プロンプト
通常、生成 AI ワークフローは、プロンプトから始まります。プロンプトとは、レスポンスを引き出すために生成 AI モデルに送信されるリクエストのことです。モデルによっては、プロンプトにテキスト、画像、動画、音声、ドキュメントなどのモダリティだけでなく、複数のモダリティ(マルチモーダル)を含めることができます。 モデルから期待するレスポンスを引き出すためのプロンプトを記述する作業は、プロンプト設計と呼ばれています。プロンプト設計は試行錯誤のプロセスですが、プロンプト設計には原則と戦略があり、それを使用して期待通りの動作をするようにモデルを誘導します。Vertex AI Studio には、プロンプトを管理するためのプロンプト管理ツールが用意されています。 |
基盤モデル
プロンプトは、レスポンスを生成するために生成 AI モデルに送信されます。Vertex AI には、以下のようにさまざまな生成 AI 基盤モデルがあります。これらのモデルには、API を介してアクセスできます。
モデルのサイズ、モダリティ、費用はそれぞれ異なります。Google のモデル、オープンモデル、Google パートナーのモデルについては、Model Garden で調べることができます。 |
モデルのカスタマイズ
Google の基盤モデルのデフォルトの動作は、複雑なプロンプトを使わなくても常に期待する結果が生成されるようにカスタマイズできます。このカスタマイズ プロセスをモデル チューニングと呼びます。モデル チューニングを行うと、プロンプトを簡素化できるため、リクエストの費用とレイテンシを削減する効果があります。 Vertex AI には、チューニングしたモデルのパフォーマンスの評価に役立つモデル評価ツールも用意されています。チューニングしたモデルを本番環境で使用できる状態にした後は、エンドポイントにデプロイして標準の MLOps ワークフローと同様にパフォーマンスをモニタリングできます。 |
リクエスト拡張
Vertex AI には、モデルが外部 API とリアルタイム情報にアクセスできるようにする複数のリクエスト拡張方法があります。 |
引用チェック
レスポンスが生成されると、Vertex AI は引用をレスポンスに含める必要があるかどうかチェックします。レスポンスにあるテキストの大半が特定の情報源に由来する場合は、その情報源がレスポンスの引用メタデータに追加されます。 |
責任ある AI と安全性
プロンプトとレスポンスが返される前に通過するチェックの最終レイヤは、安全フィルタです。Vertex AI では、プロンプトとレスポンスの両方について、プロンプトやレスポンスがどの程度安全カテゴリに属しているかを確認します。1 つ以上のカテゴリでしきい値を超えると、レスポンスはブロックされ、Vertex AI からフォールバック レスポンスが返されます。 |
レスポンス
プロンプトとレスポンスが安全フィルタのチェックに合格すると、レスポンスが返されます。通常、レスポンスは一度にすべてが返されます。ただし、ストリーミングを有効にして、レスポンスの生成に合わせて徐々に受け取ることもできます。 |
生成 AI API とモデル
Vertex AI で利用可能な生成 AI モデル(基盤モデル)は、そのモデルで生成するように設計されたコンテンツの種類によって分類されます。このコンテンツには、テキスト、チャット、画像、コード、動画、マルチモーダル データ、エンベディングがあります。各モデルは、Google Cloud プロジェクト専用のパブリッシャー エンドポイントを通じて公開されます。そのため、特定のユースケース向けにチューニングする場合を除いて、基盤モデルをデプロイする必要はありません。
Gemini API サービス
Vertex AI Gemini API には、Google DeepMind が開発した Gemini モデルのパブリッシャー エンドポイントが含まれています。
- Gemini 1.5 Pro(プレビュー)は、マルチモーダル プロンプトをサポートしています。プロンプト リクエストにテキスト、画像、音声、動画、PDF ファイルを含めて、テキストやコードのレスポンスを取得できます。Gemini 1.5 Pro(プレビュー)は、Gemini 1.0 Pro Vision よりも多くの画像や大きなテキスト ドキュメント、長い動画を処理できます。
- Gemini 1.0 Pro: 自然言語タスク、マルチターン テキストとコードチャット、およびコード生成を処理するように設計されています。
- Gemini 1.0 Pro Vision: マルチモーダル プロンプトをサポートします。プロンプト リクエストにテキスト、画像、動画、PDF を含めて、テキストまたはコードのレスポンスを取得できます。
次の表に、Gemini モデルの違いを示します。この表を参考にして、最適なモデルを選択してください。
Gemini モデル | モダリティ | コンテキスト期間 |
---|---|---|
Gemini 1.0 Pro / Gemini 1.0 Pro Vision |
|
|
Gemini 1.5 Pro(プレビュー) |
|
|
PaLM API サービス
Vertex AI PaLM API には、Google の Pathways Language Model 2(PaLM 2)のパブリッシャー エンドポイントが含まれています。PaLM 2 は、自然言語プロンプトに応じてテキストやコードを生成する大規模言語モデル(LLM)です。
- PaLM API for Text は、分類、要約、エンティティ抽出などの言語タスク向けに微調整されています。
- PaLM API for Chat はマルチターン チャット用に微調整されています。同モデルはチャット内の以前のメッセージを追跡し、それを新しいレスポンスを生成するためのコンテキストとして使用します。
その他の生成 AI サービス
テキスト エンベディングは、入力テキストのベクトル エンベディングを生成します。エンベディングは、セマンティック検索、レコメンデーション、分類、外れ値検出などのタスクに使用できます。
マルチモーダル エンベディングは、画像とテキストの入力に基づいてベクトル エンベディングを生成します。これらのエンベディングは、画像分類やコンテンツのレコメンデーションなど、後続の他のタスクに使用できます。
Google の text-to-image 基盤モデルである Imagen を使用すると、スタジオ撮影並みの品質の画像を大規模に生成してカスタマイズできます。
パートナー モデルは、Google のパートナー企業が開発した生成 AI モデルの厳選されたリストです。これらの生成 AI モデルは、マネージド API として提供されます。たとえば、Anthropic は、Vertex AI で Claude モデルをサービスとして提供しています。
Llama などのオープンモデルは、Vertex AI や他のプラットフォームにデプロイできます。
MedLM は、医療業界向けにファインチューニングされた基盤モデルのファミリーです。
認証とセキュリティ管理
Vertex AI は、CMEK、VPC Service Controls、データ所在地、アクセスの透明性をサポートしています。生成 AI の機能にはいくつかの制限があります。詳細については、生成 AI のセキュリティ管理をご覧ください。
使ってみる
- Vertex AI Studio または Vertex AI API を使用したクイックスタート チュートリアルを試す。
- Model Garden でトレーニング済みモデルを確認する。
- 基盤モデルをチューニングする方法を学習します。
- 責任ある AI のベスト プラクティスと Vertex AI の安全フィルタについて学習します。
- 割り当てと上限について学習します。
- 料金の詳細について学ぶ。