Imagen for Captioning & VQA(imagetext
)는 이미지 질문 및 답변을 지원하는 모델의 이름입니다. Imagen for Captioning & VQA는 모델에서 전에 특정 이미지를 본 적이 없더라도 해당 이미지에 대해 제공된 질문에 답변합니다.
콘솔에서 이 모델을 살펴보려면 Model Garden에서 Imagen for Captioning & VQA 모델 카드를 참조하세요.
사용 사례
이미지 질문 및 답변의 일반적인 사용 사례는 다음과 같습니다.
- 사용자가 Q&A로 시각적 콘텐츠에 참여할 수 있도록 지원합니다.
- 고객이 소매 앱과 웹사이트에 표시된 제품 이미지를 사용할 수 있도록 지원합니다.
- 시각장애 사용자를 위한 접근성 옵션을 제공합니다.
HTTP 요청
POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict
요청 본문
{
"instances": [
{
"prompt": string,
"image": {
// Union field can be only one of the following:
"bytesBase64Encoded": string,
"gcsUri": string,
// End of list of possible types for union field.
"mimeType": string
}
}
],
"parameters": {
"sampleCount": integer,
"seed": integer
}
}
시각적 Q&A 생성 모델 imagetext
에 다음 매개변수를 사용합니다.
자세한 내용은 시각적 질문 답변(VQA) 사용을 참조하세요.
매개변수 | 설명 | 사용 가능한 값 |
---|---|---|
instances |
정보를 가져올 프롬프트 및 이미지 세부정보가 있는 객체가 포함된 배열입니다. | 배열(이미지 객체 1개 허용) |
prompt |
이미지와 관련하여 답변해야 하는 질문 | 문자열(토큰 최대 80개) |
bytesBase64Encoded |
정보를 가져올 이미지입니다. | Base64로 인코딩된 이미지 문자열(PNG 또는 JPEG, 최대 20MB) |
gcsUri |
정보를 가져올 이미지의 Cloud Storage URI입니다. | Cloud Storage에 있는 이미지 파일의 문자열 URI(PNG 또는 JPEG, 최대 20MB) |
mimeType |
선택사항입니다. 지정한 이미지의 MIME 유형입니다. | 문자열(image/jpeg 또는 image/png ) |
sampleCount |
생성된 텍스트 문자열 수입니다. | Int value: 1-3 |
seed |
(선택사항) 랜덤 숫자 생성기(RNG)의 시드. 입력이 있는 요청에서 RNG 시드가 동일하면 예측 결과가 동일합니다. | 정수 |
샘플 요청
요청 데이터를 사용하기 전에 다음을 바꿉니다.
- PROJECT_ID: Google Cloud 프로젝트 ID입니다.
- LOCATION: 프로젝트의 리전입니다. 예를 들면
us-central1
,europe-west2
,asia-northeast3
입니다. 사용 가능한 리전 목록은 Vertex AI의 생성형 AI 위치를 참조하세요. - VQA_PROMPT: 이미지에 대한 답변을 받는 질문
- 이 신발은 무슨 색인가요?
- 셔츠의 소매 유형은 무엇인가요?
- B64_IMAGE: 자막을 가져올 이미지입니다. 이미지는 base64 인코딩 바이트 문자열로 지정되어야 합니다. 크기 제한: 10MB
- RESPONSE_COUNT: 생성하려는 답변의 수. 허용되는 정수 값: 1~3.
HTTP 메서드 및 URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict
JSON 요청 본문:
{ "instances": [ { "prompt": "VQA_PROMPT", "image": { "bytesBase64Encoded": "B64_IMAGE" } } ], "parameters": { "sampleCount": RESPONSE_COUNT } }
요청을 보내려면 다음 옵션 중 하나를 선택합니다.
curl
요청 본문을 request.json
파일에 저장하고 다음 명령어를 실행합니다.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"
PowerShell
요청 본문을 request.json
파일에 저장하고 다음 명령어를 실행합니다.
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content
"sampleCount": 2
및 "prompt": "What is this?"
가 포함된 요청에 대한 응답입니다. 응답은 예측 문자열 답변 2개를 반환합니다.
{ "predictions": [ "cappuccino", "coffee" ] }
응답 본문
{
"predictions": [
string
]
}
응답 요소 | 설명 |
---|---|
predictions |
VQA 답변을 나타내는 텍스트 문자열 목록이며 신뢰도 기준으로 정렬됩니다. |
샘플 응답
다음 샘플 응답은 "sampleCount": 2
및 "prompt": "What is this?"
가 포함된 요청에 대한 응답입니다. 응답은 예측 문자열 답변 2개를 반환합니다.
{
"predictions": [
"cappuccino",
"coffee"
],
"deployedModelId": "DEPLOYED_MODEL_ID",
"model": "projects/PROJECT_ID/locations/us-central1/models/MODEL_ID",
"modelDisplayName": "MODEL_DISPLAYNAME",
"modelVersionId": "1"
}