画像キャプションを使用すると、画像に関連する説明を生成できます。この情報は、以下のようにさまざまな用途で使用できます。
- 保存と検索のために、画像に関するより詳細なメタデータを取得する。
- ユーザー補助のユースケースをサポートする自動字幕起こしを生成する。
- プロダクトや画像アセットについて簡単な説明を受け取る。
画像の出典: Unsplash の Santhosh Kumar より抜粋(切り抜き)
キャプション(短形式): 白い水玉模様の青いシャツがフックに掛けられている
対応している言語
画像キャプションは次の言語で利用できます。
- 英語(
en
) - フランス語(
fr
) - ドイツ語(
de
) - イタリア語(
it
) - スペイン語(
es
)
パフォーマンスと制限事項
このモデルを使用するときは次の上限が適用されます。
上限 | 値 |
---|---|
各プロジェクト 1 分あたりの最大 API リクエスト数(短形式) | 500 |
レスポンスで返されるトークンの最大数(短形式) | 64 トークン |
リクエストで受け入れられるトークンの最大数(VQA の短形式のみ) | 80 トークン |
レスポンスで返されるトークンの最大数(長形式) | 512 トークン |
このモデルを使用する場合は、次のサービス レイテンシの見積もりが適用されます。これらの値は例示を目的としたものであり、サービスを約束するものではありません。
レイテンシ | 値 |
---|---|
API リクエスト(短形式) | 1.5 秒 |
API リクエスト(長形式) | 4.5 秒 |
ロケーション
ロケーションは、データの保存場所を制御するためにリクエストで指定できるリージョンです。使用可能なリージョンの一覧については、Vertex AI の生成 AI のロケーションをご覧ください。
短い形式の画像キャプションを取得する
次のサンプルを使用して画像の短形式のキャプションを生成します。
コンソール
Google Cloud コンソールの Vertex AI ダッシュボードで [Vertex AI Studio] > [ビジョン] タブを開きます。
下部のメニューで [Caption] をクリックします。
[画像のアップロード] をクリックして、字幕を付けるローカル画像を選択します。
[パラメータ] パネルで、キャプション数と言語を選択します。
[
字幕を生成] をクリックします。
REST
imagetext
モデル リクエストの詳細については、imagetext
モデル API リファレンスをご覧ください。
リクエストのデータを使用する前に、次のように置き換えます。
- PROJECT_ID: Google Cloud プロジェクト ID。
- LOCATION: プロジェクトのリージョン。たとえば、
us-central1
、europe-west2
、asia-northeast3
です。使用可能なリージョンの一覧については、Vertex AI の生成 AI のロケーションをご覧ください。 - B64_IMAGE: 字幕を取得する画像。画像は base64 でエンコードされたバイト文字列として指定する必要があります。サイズ制限: 10 MB。
- RESPONSE_COUNT: 生成する画像キャプションの数。指定できる整数値: 1~3。
- LANGUAGE_CODE: サポートされている言語コードのいずれか。サポートされている言語:
- 英語(
en
) - フランス語(
fr
) - ドイツ語(
de
) - イタリア語(
it
) - スペイン語(
es
)
- 英語(
HTTP メソッドと URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict
リクエストの本文(JSON):
{ "instances": [ { "image": { "bytesBase64Encoded": "B64_IMAGE" } } ], "parameters": { "sampleCount": RESPONSE_COUNT, "language": "LANGUAGE_CODE" } }
リクエストを送信するには、次のいずれかのオプションを選択します。
curl
リクエスト本文を request.json
という名前のファイルに保存して、次のコマンドを実行します。
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"
PowerShell
リクエスト本文を request.json
という名前のファイルに保存して、次のコマンドを実行します。
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content
"sampleCount": 2
を含むリクエストに対するものです。レスポンスは 2 つの予測文字列を返します。英語(en
):
{ "predictions": [ "a yellow mug with a sheep on it sits next to a slice of cake", "a cup of coffee with a heart shaped latte art next to a slice of cake" ], "deployedModelId": "DEPLOYED_MODEL_ID", "model": "projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID", "modelDisplayName": "MODEL_DISPLAYNAME", "modelVersionId": "1" }
スペイン語(es
):
{ "predictions": [ "una taza de café junto a un plato de pastel de chocolate", "una taza de café con una forma de corazón en la espuma" ], "deployedModelId": "DEPLOYED_MODEL_ID", "model": "projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID", "modelDisplayName": "MODEL_DISPLAYNAME", "modelVersionId": "1" }
Python
このサンプルを試す前に、Vertex AI クイックスタート: クライアント ライブラリの使用にある Python の設定手順を完了してください。詳細については、Vertex AI Python API のリファレンス ドキュメントをご覧ください。
Vertex AI に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。
このサンプルでは、load_from_file
メソッドを使用して、字幕の取得対象となるベース Image
としてローカル ファイルを参照します。ベース画像を指定したら、ImageTextModel
で get_captions
メソッドを使用して、出力結果を表示します。
画像キャプションのパラメータを使用する
画像キャプションを取得するときに、ユースケースに応じていくつかのパラメータを設定できます。
検索結果の表示件数
検索結果の表示件数パラメータを使用して、送信するリクエストごとに返されるキャプションの数を制限できます。詳細については、imagetext
(画像キャプション)モデル API リファレンスをご覧ください。
シード番号
生成される説明を決定的にするためリクエストに追加する数値。リクエストにシード番号を追加すると、毎回確実に同じ予測(説明)が得られます。ただし、画像キャプションが同じ順序で返されるとは限りません。詳細については、imagetext
(画像キャプション)モデル API リファレンスをご覧ください。
次のステップ
- テキストから画像を生成して編集できる基盤モデル(Imagen)など、Vertex AI 基盤モデルを説明する次の動画をご覧ください。
- Vertex AI の Imagen と Vertex AI の生成 AI について説明する以下のブログ投稿を確認する。