이 페이지는 Cloud Translation API를 통해 번역되었습니다.

동영상 이해

Gemini 요청에 동영상을 추가하여 포함된 동영상의 콘텐츠를 이해하는 것과 관련된 작업을 수행할 수 있습니다. 이 페이지에서는 Google Cloud 콘솔과 Vertex AI API를 사용하여 Vertex AI에서 Gemini에 대한 요청에 동영상을 추가하는 방법을 보여줍니다.

지원되는 모델

다음 표에는 동영상 인식을 지원하는 모델이 나와 있습니다.

모델	미디어 세부정보	MIME 유형
Gemini 2.5 Flash (프리뷰)	최대 동영상 길이 (오디오 포함): 약 45분 최대 동영상 길이 (오디오 제외): 약 1시간 프롬프트당 최대 동영상 수: 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Flash-Lite (프리뷰)	최대 동영상 길이 (오디오 포함): 약 45분 최대 동영상 길이 (오디오 제외): 약 1시간 프롬프트당 최대 동영상 수: 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Flash-Lite	최대 동영상 길이 (오디오 포함): 약 45분 최대 동영상 길이 (오디오 제외): 약 1시간 프롬프트당 최대 동영상 수: 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Live API 네이티브 오디오를 사용한 Gemini 2.5 Flash (프리뷰)	표준 해상도: 768x768	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Live API를 사용한 Gemini 2.0 Flash (프리뷰)	최대 동영상 길이 (오디오 포함): 약 45분 최대 동영상 길이 (오디오 제외): 약 1시간 프롬프트당 최대 동영상 수: 10 분당 최대 토큰 수 (TPM): 미디어 해상도(높음/중간/기본): 미국/아시아: 3,790만 EU: 950만 미디어 해상도 낮음: 미국/아시아: 1G EU: 250만	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
이미지 생성을 지원하는 Gemini 2.0 Flash (프리뷰)	최대 동영상 길이 (오디오 포함): 약 45분 최대 동영상 길이 (오디오 제외): 약 1시간 프롬프트당 최대 동영상 수: 10 분당 최대 토큰 수 (TPM): 미디어 해상도(높음/중간/기본): 미국/아시아: 3,790만 EU: 950만 미디어 해상도 낮음: 미국/아시아: 1G EU: 250만
Gemini 2.5 Pro	최대 동영상 길이 (오디오 포함): 약 45분 최대 동영상 길이 (오디오 제외): 약 1시간 프롬프트당 최대 동영상 수: 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Flash	최대 동영상 길이 (오디오 포함): 약 45분 최대 동영상 길이 (오디오 제외): 약 1시간 프롬프트당 최대 동영상 수: 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.0 Flash	최대 동영상 길이 (오디오 포함): 약 45분 최대 동영상 길이 (오디오 제외): 약 1시간 프롬프트당 최대 동영상 수: 10 분당 최대 토큰 수 (TPM): 미디어 해상도(높음/중간/기본): 미국/아시아: 3,800만 EU: 1,000만 미디어 해상도 낮음: 미국/아시아: 1,000만 EU: 250만	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.0 Flash-Lite	최대 동영상 길이 (오디오 포함): 약 45분 최대 동영상 길이 (오디오 제외): 약 1시간 프롬프트당 최대 동영상 수: 10 분당 최대 토큰 수 (TPM): 미디어 해상도(높음/중간/기본): 미국/아시아: 630만 EU: 320만 미디어 해상도 낮음: 미국/아시아: 320만 EU: 320만	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`

할당량 측정항목은 generate_content_video_input_per_base_model_id_and_resolution입니다.

Gemini 모델에서 지원되는 언어 목록은 모델 정보 Google 모델을 참조하세요. 멀티모달 프롬프트를 설계하는 방법에 대한 자세한 내용은 멀티모달 프롬프트 설계를 참조하세요. 모바일 및 웹 앱에서 Gemini를 직접 사용할 수 있는 방법을 찾는 경우 Swift, Android, 웹, Flutter, Unity 앱의 Firebase AI Logic 클라이언트 SDK를 참조하세요.

요청에 동영상 추가

Gemini에 요청할 때 하나 또는 여러 개의 동영상을 추가할 수 있으며 동영상에 오디오를 포함할 수 있습니다.

단일 동영상

다음 각 탭의 샘플 코드는 동영상에 포함된 항목을 식별하는 다양한 방법을 보여줍니다. 이 샘플은 모든 Gemini 멀티모달 모델에서 작동합니다.

콘솔

Google Cloud 콘솔을 사용하여 멀티모달 프롬프트를 보내려면 다음을 수행합니다.

콘솔의 Vertex AI 섹션에서 Google Cloud Vertex AI 스튜디오 페이지로 이동합니다.

Vertex AI Studio로 이동
프롬프트 만들기를 클릭합니다.
선택사항: 모델 및 파라미터를 구성합니다.
- 모델: 모델을 선택합니다.
선택사항: 고급 매개변수를 구성하려면 고급을 클릭하고 다음과 같이 구성합니다.
클릭하여 고급 구성 펼치기
- Top-K: 슬라이더 또는 텍스트 상자를 사용하여 최상위 K의 값을 입력합니다.
  Top-K는 모델이 출력용 토큰을 선택하는 방식을 변경합니다. Top-K가 1이면 선택된 토큰이 모델의 어휘에 포함된 모든 토큰 중에서 가장 확률이 높다는 의미입니다(그리디 디코딩이라고도 함). 반면에 Top-K가 3이면 강도를 사용하여 가장 확률이 높은 3개 토큰 중에서 다음 토큰이 선택된다는 의미입니다.
  각 토큰 선택 단계에서 확률이 가장 높은 Top-K 토큰이 샘플링됩니다. 그런 다음 Top-P를 기준으로 토큰을 추가로 필터링하고 온도 샘플링을 사용하여 최종 토큰을 선택합니다.
  
  임의성이 낮은 응답에 낮은 값을 지정하고 임의성이 높은 응답에 높은 값을 지정합니다.
- Top-P: 슬라이더 또는 텍스트 상자를 사용하여 최상위 P의 값을 입력합니다. 토큰의 확률 합계가 최상위 P 값과 같아질 때까지 확률이 가장 높은 순에서 낮은 순으로 토큰이 선택됩니다. 최소 변수 결과의 경우 top-P를 0으로 설정합니다.
- 최대 응답: 슬라이더 또는 텍스트 상자를 사용하여 생성할 응답 수에 대한 값을 입력합니다.
- 응답 스트리밍: 생성 중인 응답을 출력할 수 있습니다.
- 안전 필터 기준점: 유해할 수 있는 응답이 표시될 가능성에 대한 기준점을 선택합니다.
- 그라운딩 사용 설정: 멀티모달 프롬프트에서는 그라운딩이 지원되지 않습니다.
- 리전: 사용할 리전을 선택합니다.
- 온도: 슬라이더 또는 텍스트 상자를 사용해서 온도 값을 입력합니다.
  The temperature is used for sampling during response generation, which occurs when topP and topK are applied. Temperature controls the degree of randomness in token selection. Lower temperatures are good for prompts that require a less open-ended or creative response, while higher temperatures can lead to more diverse or creative results. A temperature of 0 means that the highest probability tokens are always selected. In this case, responses for a given prompt are mostly deterministic, but a small amount of variation is still possible. If the model returns a response that's too generic, too short, or the model gives a fallback response, try increasing the temperature. <li>**Output token limit**: Use the slider or textbox to enter a value for the max output limit. Maximum number of tokens that can be generated in the response. A token is approximately four characters. 100 tokens correspond to roughly 60-80 words. Specify a lower value for shorter responses and a higher value for potentially longer responses. <li>**Add stop sequence**: Optional. Enter a stop sequence, which is a series of characters that includes spaces. If the model encounters a stop sequence, the response generation stops. The stop sequence isn't included in the response, and you can add up to five stop sequences. </ul>
미디어 삽입을 클릭하고 파일의 소스를 선택합니다.
업로드
업로드할 파일을 선택하고 열기를 클릭합니다.

URL 사용
사용하려는 파일의 URL을 입력하고 삽입을 클릭합니다.

YouTube

프리뷰

이 기능에는 서비스별 약관의 일반 서비스 약관 섹션에 있는 'GA 이전 제공 서비스 약관'이 적용됩니다. GA 이전 기능은 '있는 그대로' 제공되며 지원이 제한될 수 있습니다. 자세한 내용은 출시 단계 설명을 참고하세요.

사용하려는 YouTube 동영상 URL을 입력하고 삽입을 클릭합니다.

공개 동영상 또는 Google Cloud 콘솔에 로그인하는 데 사용한 계정에서 소유한 동영상을 사용할 수 있습니다.

Cloud Storage
버킷과 버킷에서 가져오려는 파일을 선택한 후 선택을 클릭합니다.
Google Drive
1. 계정을 선택하고 이 옵션을 처음 선택할 때 Vertex AI Studio의 계정 액세스를 동의합니다. 총 크기가 10MB인 파일 여러 개를 업로드할 수 있습니다. 단일 파일은 7MB를 초과할 수 없습니다.
2. 추가하려는 파일을 클릭합니다.
3. 선택을 클릭합니다.
  
  파일 썸네일이 프롬프트 창에 표시됩니다. 토큰 총개수도 표시됩니다. 프롬프트 데이터가 토큰 한도를 초과하면 토큰이 잘리고 데이터 처리에 포함되지 않습니다.
프롬프트 창에 텍스트 프롬프트를 입력합니다.
선택사항: 텍스트에 대한 토큰 ID 및 토큰 ID를 보려면 프롬프트 창에서 토큰 수를 클릭합니다.

참고: 미디어 토큰은 지원되지 않습니다.
제출을 클릭합니다.
선택사항: 프롬프트를 내 프롬프트에 저장하려면 저장을 클릭합니다.
선택사항: 프롬프트에 대한 Python 코드나 curl 명령어를 가져오려면 코드로 빌드 > 코드 가져오기를 클릭합니다.

Python

설치

pip install --upgrade google-genai

자세한 내용은 SDK 참고 문서를 참조하세요.

Vertex AI에서 생성형 AI SDK를 사용하도록 환경 변수를 설정합니다.

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions, Part

client = genai.Client(http_options=HttpOptions(api_version="v1"))
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        Part.from_uri(
            file_uri="gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
            mime_type="video/mp4",
        ),
        "What is in the video?",
    ],
)
print(response.text)
# Example response:
# The video shows several people surfing in an ocean with a coastline in the background. The camera ...

Go

Go를 설치하거나 업데이트하는 방법을 알아보세요.

자세한 내용은 SDK 참고 문서를 참조하세요.

Vertex AI에서 생성형 AI SDK를 사용하도록 환경 변수를 설정합니다.

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

import (
	"context"
	"fmt"
	"io"

	genai "google.golang.org/genai"
)

// generateWithMuteVideo shows how to generate text using a video with no sound as the input.
func generateWithMuteVideo(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{APIVersion: "v1"},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	modelName := "gemini-2.5-flash"
	contents := []*genai.Content{
		{Parts: []*genai.Part{
			{Text: "What is in the video?"},
			{FileData: &genai.FileData{
				FileURI:  "gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
				MIMEType: "video/mp4",
			}},
		},
			Role: "user"},
	}

	resp, err := client.Models.GenerateContent(ctx, modelName, contents, nil)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// The video shows several surfers riding waves in an ocean setting. The waves are ...

	return nil
}

Java

Java를 설치하거나 업데이트하는 방법을 알아보세요.

자세한 내용은 SDK 참고 문서를 참조하세요.

Vertex AI에서 생성형 AI SDK를 사용하도록 환경 변수를 설정합니다.

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True


import com.google.genai.Client;
import com.google.genai.types.Content;
import com.google.genai.types.GenerateContentResponse;
import com.google.genai.types.HttpOptions;
import com.google.genai.types.Part;

public class TextGenerationWithMuteVideo {

  public static void main(String[] args) {
    // TODO(developer): Replace these variables before running the sample.
    String modelId = "gemini-2.5-flash";
    generateContent(modelId);
  }

  // Generates text with mute video input
  public static String generateContent(String modelId) {
    // Initialize client that will be used to send requests. This client only needs to be created
    // once, and can be reused for multiple requests.
    try (Client client =
        Client.builder()
            .location("global")
            .vertexAI(true)
            .httpOptions(HttpOptions.builder().apiVersion("v1").build())
            .build()) {

      GenerateContentResponse response =
          client.models.generateContent(
              modelId,
              Content.fromParts(
                  Part.fromUri(
                      "gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
                      "video/mp4"),
                  Part.fromText("What is in this video?")),
              null);

      System.out.print(response.text());
      // Example response:
      // This video features **surfers in the ocean**.
      //
      // The main focus is on **one individual who catches and rides a wave**, executing various
      // turns and maneuvers as the wave breaks and dissipates into whitewater...
      return response.text();
    }
  }
}

Node.js

설치

npm install @google/genai

자세한 내용은 SDK 참고 문서를 참조하세요.

Vertex AI에서 생성형 AI SDK를 사용하도록 환경 변수를 설정합니다.

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

const {GoogleGenAI} = require('@google/genai');

const GOOGLE_CLOUD_PROJECT = process.env.GOOGLE_CLOUD_PROJECT;
const GOOGLE_CLOUD_LOCATION = process.env.GOOGLE_CLOUD_LOCATION || 'global';

async function generateText(
  projectId = GOOGLE_CLOUD_PROJECT,
  location = GOOGLE_CLOUD_LOCATION
) {
  const client = new GoogleGenAI({
    vertexai: true,
    project: projectId,
    location: location,
  });

  const response = await client.models.generateContent({
    model: 'gemini-2.5-flash',
    contents: [
      {
        role: 'user',
        parts: [
          {
            fileData: {
              mimeType: 'video/mp4',
              fileUri:
                'gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4',
            },
          },
          {
            text: 'What is in the video?',
          },
        ],
      },
    ],
  });

  console.log(response.text);

  // Example response:
  // The video shows several people surfing in an ocean with a coastline in the background. The camera ...

  return response.text;
}

REST

환경을 설정하면 REST를 사용하여 텍스트 프롬프트를 테스트할 수 있습니다. 다음 샘플은 요청을 게시자 모델 엔드포인트에 전송합니다.

요청 데이터를 사용하기 전에 다음을 바꿉니다.

PROJECT_ID: 프로젝트 ID입니다.
FILE_URI: 프롬프트에 포함할 파일의 URI 또는 URL입니다. 허용되는 값은 다음과 같습니다.
- Cloud Storage 버킷 URI: 객체는 공개적으로 읽을 수 있거나 요청을 보내는 동일한 Google Cloud 프로젝트에 있어야 합니다. gemini-2.0-flash 및 gemini-2.0-flash-lite의 경우 크기 제한은 2GB입니다.
- HTTP URL: 파일 URL은 공개적으로 읽을 수 있어야 합니다. 요청당 동영상 파일 하나, 오디오 파일 하나, 이미지 파일 최대 10개를 지정할 수 있습니다. 오디오 파일, 동영상 파일, 문서는 15MB를 초과할 수 없습니다.
- YouTube 동영상 URL: YouTube 동영상은 Google Cloud 콘솔에 로그인하는 데 사용된 계정이 소유한 것이거나 공개된 동영상이어야 합니다. 요청당 하나의 YouTube 동영상 URL만 지원됩니다.
fileURI를 지정할 때는 파일의 미디어 유형(mimeType)도 지정해야 합니다. VPC 서비스 제어가 사용 설정된 경우 fileURI의 미디어 파일 URL을 지정하는 것은 지원되지 않습니다.

Cloud Storage에 동영상 파일이 없으면 video/mp4 MIME 유형이 있는 gs://cloud-samples-data/video/animals.mp4와 같은 공개적으로 사용 가능한 파일을 사용할 수 있습니다. 이 동영상을 보려면 샘플 MP4 파일을 엽니다.
MIME_TYPE: data 또는 fileUri 필드에 지정된 파일의 미디어 유형입니다. 허용되는 값은 다음과 같습니다.
클릭하여 MIME 유형 펼치기
- application/pdf
- audio/mpeg
- audio/mp3
- audio/wav
- image/png
- image/jpeg
- image/webp
- text/plain
- video/mov
- video/mpeg
- video/mp4
- video/mpg
- video/avi
- video/wmv
- video/mpegps
- video/flv
TEXT: 프롬프트에 포함할 텍스트 안내입니다. 예를 들면 What is in the video?입니다.

요청을 보내려면 다음 옵션 중 하나를 선택합니다.

curl

참고: 다음 명령어는 gcloud init 또는 gcloud auth login을 실행하거나 gcloud CLI에 자동으로 로그인하는 Cloud Shell을 사용하여 사용자 계정으로 gcloud CLI에 로그인했다고 가정합니다. gcloud auth list를 실행하면 현재 활성 계정을 확인할 수 있습니다.

요청 본문을 request.json 파일에 저장합니다. 터미널에서 다음 명령어를 실행하여 현재 디렉터리에 이 파일을 만들거나 덮어씁니다.

cat > request.json << 'EOF'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
EOF

그런 후 다음 명령어를 실행하여 REST 요청을 전송합니다.

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent"

PowerShell

참고: 다음 명령어는 gcloud init 또는 gcloud auth login을 실행하여 사용자 계정으로 gcloud CLI에 로그인했다고 가정합니다. gcloud auth list를 실행하면 현재 활성 계정을 확인할 수 있습니다.

요청 본문을 request.json 파일에 저장합니다. 터미널에서 다음 명령어를 실행하여 현재 디렉터리에 이 파일을 만들거나 덮어씁니다.

@'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

그런 후 다음 명령어를 실행하여 REST 요청을 전송합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 수신됩니다.

응답

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "This video is a commercial for Google Photos, featuring animals taking selfies
              with the Google Photos app. The commercial plays on the popularity of media in which
              animals act like humans, especially their use of technology. The commercial also
              highlights the app's ability to automatically back up photos."
          }
        ]
      },
      "finishReason": "STOP",
      "safetyRatings": [
        {
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.053601142,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.053799648
        },
        {
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.06278921,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.07850098
        },
        {
          "category": "HARM_CATEGORY_HARASSMENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.090253234,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.058453236
        },
        {
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.1647851,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.09285216
        }
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 28916,
    "candidatesTokenCount": 61,
    "totalTokenCount": 28977
  }
}

이 샘플의 URL에서 다음 사항을 참고하세요.

응답이 완전히 생성된 후 반환되도록 요청하려면 generateContent 메서드를 사용합니다. 시청자가 지연 시간에 대해 갖는 느낌을 줄이려면 streamGenerateContent 메서드를 사용하여 생성되는 응답을 스트리밍합니다.
멀티모달 모델 ID는 메서드 앞의 URL 끝 부분에 있습니다(예: gemini-2.0-flash). 이 샘플은 다른 모델도 지원할 수 있습니다.

오디오가 포함된 동영상

다음은 오디오가 포함된 동영상 파일을 요약하고 타임스탬프가 포함된 챕터를 반환하는 방법을 보여줍니다. 이 샘플은 Gemini 2.0에서 작동합니다.

Python

설치

pip install --upgrade google-genai

자세한 내용은 SDK 참고 문서를 참조하세요.

Vertex AI에서 생성형 AI SDK를 사용하도록 환경 변수를 설정합니다.

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions, Part

client = genai.Client(http_options=HttpOptions(api_version="v1"))
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        Part.from_uri(
            file_uri="gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
            mime_type="video/mp4",
        ),
        "What is in the video?",
    ],
)
print(response.text)
# Example response:
# The video shows several people surfing in an ocean with a coastline in the background. The camera ...

REST

환경을 설정하면 REST를 사용하여 텍스트 프롬프트를 테스트할 수 있습니다. 다음 샘플은 요청을 게시자 모델 엔드포인트에 전송합니다.

요청 데이터를 사용하기 전에 다음을 바꿉니다.

PROJECT_ID: .
FILE_URI: 프롬프트에 포함할 파일의 URI 또는 URL입니다. 허용되는 값은 다음과 같습니다.
- Cloud Storage 버킷 URI: 객체는 공개적으로 읽을 수 있거나 요청을 보내는 동일한 Google Cloud 프로젝트에 있어야 합니다. gemini-2.0-flash 및 gemini-2.0-flash-lite의 경우 크기 제한은 2GB입니다.
- HTTP URL: 파일 URL은 공개적으로 읽을 수 있어야 합니다. 요청당 동영상 파일 하나, 오디오 파일 하나, 이미지 파일 최대 10개를 지정할 수 있습니다. 오디오 파일, 동영상 파일, 문서는 15MB를 초과할 수 없습니다.
- YouTube 동영상 URL: YouTube 동영상은 Google Cloud 콘솔에 로그인하는 데 사용된 계정이 소유한 것이거나 공개된 동영상이어야 합니다. 요청당 하나의 YouTube 동영상 URL만 지원됩니다.
fileURI를 지정할 때는 파일의 미디어 유형(mimeType)도 지정해야 합니다. VPC 서비스 제어가 사용 설정된 경우 fileURI의 미디어 파일 URL을 지정하는 것은 지원되지 않습니다.

Cloud Storage에 동영상 파일이 없으면 video/mp4 MIME 유형이 있는 gs://cloud-samples-data/generative-ai/video/pixel8.mp4와 같은 공개적으로 사용 가능한 파일을 사용할 수 있습니다. 이 동영상을 보려면 샘플 MP4 파일을 엽니다.
MIME_TYPE: data 또는 fileUri 필드에 지정된 파일의 미디어 유형입니다. 허용되는 값은 다음과 같습니다.
클릭하여 MIME 유형 펼치기
- application/pdf
- audio/mpeg
- audio/mp3
- audio/wav
- image/png
- image/jpeg
- image/webp
- text/plain
- video/mov
- video/mpeg
- video/mp4
- video/mpg
- video/avi
- video/wmv
- video/mpegps
- video/flv
```
TEXT
```
프롬프트에 포함할 텍스트 요청 사항입니다. 예를 들면 Provide a description of the video. The description should also contain anything important which people say in the video.입니다.

요청을 보내려면 다음 옵션 중 하나를 선택합니다.

curl

요청 본문을 request.json 파일에 저장합니다. 터미널에서 다음 명령어를 실행하여 현재 디렉터리에 이 파일을 만들거나 덮어씁니다.

cat > request.json << 'EOF'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
EOF

그런 후 다음 명령어를 실행하여 REST 요청을 전송합니다.

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent"

PowerShell

요청 본문을 request.json 파일에 저장합니다. 터미널에서 다음 명령어를 실행하여 현재 디렉터리에 이 파일을 만들거나 덮어씁니다.

@'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

그런 후 다음 명령어를 실행하여 REST 요청을 전송합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 수신됩니다.

응답

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "The video opens with a shot of a train traveling over a bridge in the night. \n
              \nThe scene changes to a woman walking in the streets of Tokyo. She says "My name is
              Saeko. I am a photographer in Tokyo. Tokyo has many faces. The city at night
              is totally different from what you see during the day. The new Pixel has a feature
              called "Video Boost". In low light, it activates "Night Sight" to make the quality
              even better." \n\nShe then uses her phone to take several photos of different parts of
              the city including a street with a lot of shops, a small alleyway, and a small
              restaurant. She says "Sancha is where I used to live when I first moved to Tokyo. I
              have a lot of great memories here. Oh, I like this." \n\nShe smiles and says
              "Beautiful".\n\nThe video ends with the woman standing in a different part of the
              city. She says "Next, I came to Shibuya." The scene shows the famous Shibuya crossing
              in the night. \n\nThe video features a woman showcasing the camera features of the
              Google Pixel phone while walking around the streets of Tokyo. She mentions "Night
              Sight" and "Video Boost" features. \n"
          }
        ]
      },
      "finishReason": "STOP",
      "safetyRatings": [
        {
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.053601142,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.053799648
        },
        {
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.06278921,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.07850098
        },
        {
          "category": "HARM_CATEGORY_HARASSMENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.090253234,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.058453236
        },
        {
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.1647851,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.09285216
        }
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 28916,
    "candidatesTokenCount": 61,
    "totalTokenCount": 28977
  }
}

이 샘플의 URL에서 다음 사항을 참고하세요.

응답이 완전히 생성된 후 반환되도록 요청하려면 generateContent 메서드를 사용합니다. 시청자가 지연 시간에 대해 갖는 느낌을 줄이려면 streamGenerateContent 메서드를 사용하여 생성되는 응답을 스트리밍합니다.
멀티모달 모델 ID는 메서드 앞의 URL 끝 부분에 있습니다(예: gemini-2.0-flash). 이 샘플은 다른 모델도 지원할 수 있습니다.

콘솔

Google Cloud 콘솔을 사용하여 멀티모달 프롬프트를 보내려면 다음을 수행합니다.

콘솔의 Vertex AI 섹션에서 Google Cloud Vertex AI 스튜디오 페이지로 이동합니다.

Vertex AI Studio로 이동
프롬프트 만들기를 클릭합니다.
선택사항: 모델 및 파라미터를 구성합니다.
- 모델: 모델을 선택합니다.
선택사항: 고급 매개변수를 구성하려면 고급을 클릭하고 다음과 같이 구성합니다.
클릭하여 고급 구성 펼치기
- Top-K: 슬라이더 또는 텍스트 상자를 사용하여 최상위 K의 값을 입력합니다.
  Top-K는 모델이 출력용 토큰을 선택하는 방식을 변경합니다. Top-K가 1이면 선택된 토큰이 모델의 어휘에 포함된 모든 토큰 중에서 가장 확률이 높다는 의미입니다(그리디 디코딩이라고도 함). 반면에 Top-K가 3이면 강도를 사용하여 가장 확률이 높은 3개 토큰 중에서 다음 토큰이 선택된다는 의미입니다.
  각 토큰 선택 단계에서 확률이 가장 높은 Top-K 토큰이 샘플링됩니다. 그런 다음 Top-P를 기준으로 토큰을 추가로 필터링하고 온도 샘플링을 사용하여 최종 토큰을 선택합니다.
  
  임의성이 낮은 응답에 낮은 값을 지정하고 임의성이 높은 응답에 높은 값을 지정합니다.
- Top-P: 슬라이더 또는 텍스트 상자를 사용하여 최상위 P의 값을 입력합니다. 토큰의 확률 합계가 최상위 P 값과 같아질 때까지 확률이 가장 높은 순에서 낮은 순으로 토큰이 선택됩니다. 최소 변수 결과의 경우 top-P를 0으로 설정합니다.
- 최대 응답: 슬라이더 또는 텍스트 상자를 사용하여 생성할 응답 수에 대한 값을 입력합니다.
- 응답 스트리밍: 생성 중인 응답을 출력할 수 있습니다.
- 안전 필터 기준점: 유해할 수 있는 응답이 표시될 가능성에 대한 기준점을 선택합니다.
- 그라운딩 사용 설정: 멀티모달 프롬프트에서는 그라운딩이 지원되지 않습니다.
- 리전: 사용할 리전을 선택합니다.
- 온도: 슬라이더 또는 텍스트 상자를 사용해서 온도 값을 입력합니다.
  The temperature is used for sampling during response generation, which occurs when topP and topK are applied. Temperature controls the degree of randomness in token selection. Lower temperatures are good for prompts that require a less open-ended or creative response, while higher temperatures can lead to more diverse or creative results. A temperature of 0 means that the highest probability tokens are always selected. In this case, responses for a given prompt are mostly deterministic, but a small amount of variation is still possible. If the model returns a response that's too generic, too short, or the model gives a fallback response, try increasing the temperature. <li>**Output token limit**: Use the slider or textbox to enter a value for the max output limit. Maximum number of tokens that can be generated in the response. A token is approximately four characters. 100 tokens correspond to roughly 60-80 words. Specify a lower value for shorter responses and a higher value for potentially longer responses. <li>**Add stop sequence**: Optional. Enter a stop sequence, which is a series of characters that includes spaces. If the model encounters a stop sequence, the response generation stops. The stop sequence isn't included in the response, and you can add up to five stop sequences. </ul>
미디어 삽입을 클릭하고 파일의 소스를 선택합니다.
업로드
업로드할 파일을 선택하고 열기를 클릭합니다.

URL 사용
사용하려는 파일의 URL을 입력하고 삽입을 클릭합니다.

YouTube

프리뷰

이 기능에는 서비스별 약관의 일반 서비스 약관 섹션에 있는 'GA 이전 제공 서비스 약관'이 적용됩니다. GA 이전 기능은 '있는 그대로' 제공되며 지원이 제한될 수 있습니다. 자세한 내용은 출시 단계 설명을 참고하세요.

사용하려는 YouTube 동영상 URL을 입력하고 삽입을 클릭합니다.

공개 동영상 또는 Google Cloud 콘솔에 로그인하는 데 사용한 계정에서 소유한 동영상을 사용할 수 있습니다.

Cloud Storage
버킷과 버킷에서 가져오려는 파일을 선택한 후 선택을 클릭합니다.
Google Drive
1. 계정을 선택하고 이 옵션을 처음 선택할 때 Vertex AI Studio의 계정 액세스를 동의합니다. 총 크기가 10MB인 파일 여러 개를 업로드할 수 있습니다. 단일 파일은 7MB를 초과할 수 없습니다.
2. 추가하려는 파일을 클릭합니다.
3. 선택을 클릭합니다.
  
  파일 썸네일이 프롬프트 창에 표시됩니다. 토큰 총개수도 표시됩니다. 프롬프트 데이터가 토큰 한도를 초과하면 토큰이 잘리고 데이터 처리에 포함되지 않습니다.
프롬프트 창에 텍스트 프롬프트를 입력합니다.
선택사항: 텍스트에 대한 토큰 ID 및 토큰 ID를 보려면 프롬프트 창에서 토큰 수를 클릭합니다.

참고: 미디어 토큰은 지원되지 않습니다.
제출을 클릭합니다.
선택사항: 프롬프트를 내 프롬프트에 저장하려면 저장을 클릭합니다.
선택사항: 프롬프트에 대한 Python 코드나 curl 명령어를 가져오려면 코드로 빌드 > 코드 가져오기를 클릭합니다.

동영상 처리 맞춤설정

클리핑 간격을 설정하거나 커스텀 프레임 속도 샘플링을 제공하여 Gemini for Google Cloud API에서 동영상 처리를 맞춤설정할 수 있습니다.

클리핑 간격 설정

시작 및 종료 오프셋으로 videoMetadata를 지정하여 동영상을 클립할 수 있습니다.

커스텀 프레임 속도 설정

fps 인수를 videoMetadata에 전달하여 커스텀 프레임 속도 샘플링을 설정할 수 있습니다.

기본적으로 동영상에서 초당 1프레임(FPS)이 샘플링됩니다. 긴 동영상의 경우 낮은 FPS (< 1)를 설정하는 것이 좋습니다. 이는 대부분 정적 동영상(예: 강의)에 특히 유용합니다. 빠르게 변화하는 영상에서 더 많은 세부정보를 캡처하려면 FPS 값을 더 높게 설정하는 것이 좋습니다.

미디어 해상도 조정

MediaResolution을 조정하여 더 적은 토큰으로 동영상을 처리할 수 있습니다.

선택적 모델 파라미터 설정

각 모델에는 설정할 수 있는 선택적 파라미터 집합이 있습니다. 자세한 내용은 콘텐츠 생성 파라미터를 참조하세요.

동영상 토큰화

동영상의 토큰은 다음과 같이 계산됩니다.

오디오 트랙이 동영상 프레임으로 인코딩됩니다. 오디오 트랙도 1초 트렁크로 분할되며 각 트렁크는 32개의 토큰을 차지합니다. 동영상 프레임 및 오디오 토큰은 타임스탬프와 함께 인터리브 처리됩니다. 타임스탬프는 5개의 토큰으로 표시됩니다.
1fps(초당 프레임 수) 이하로 샘플링된 동영상의 경우 동영상의 처음 1시간에 대한 타임스탬프가 동영상 프레임당 5개의 토큰으로 표시됩니다. 나머지 타임스탬프는 동영상 프레임당 7개의 토큰으로 표시됩니다.
1fps(초당 프레임 수) 이상으로 샘플링된 동영상의 경우 동영상의 처음 1시간에 대한 타임스탬프가 동영상 프레임당 9개의 토큰으로 표시됩니다. 나머지 타임스탬프는 동영상 프레임당 11개의 토큰으로 표시됩니다.

권장사항

동영상을 사용할 때 최상의 결과를 얻으려면 다음 권장사항과 정보를 사용하세요.

프롬프트에 동영상 하나가 포함된 경우 텍스트 프롬프트 앞에 동영상을 배치하세요.
오디오가 있는 동영상에서 타임스탬프 현지화가 필요한 경우 모델에 '타임스탬프 형식'에 설명된 형식을 따르는 타임스탬프를 생성하도록 요청합니다.

제한사항

Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.

콘텐츠 검토: 이 모델은 Google 안전 정책을 위반하는 동영상에 대해 답변을 제공하지 않습니다.
비음성 소리 인식: 오디오를 지원하는 모델에서 음성이 아닌 소리를 인식하는 오류가 발생할 수 있습니다.

동영상에 관한 기술 세부정보

지원되는 모델 및 컨텍스트: 모든 Gemini 2.0 및 2.5 모델은 동영상 데이터를 처리할 수 있습니다.
- 2M 컨텍스트 윈도우 모델은 기본 미디어 해상도에서 최대 2시간 또는 낮은 미디어 해상도에서 최대 6시간 길이의 동영상을 처리할 수 있으며, 1M 컨텍스트 윈도우 모델은 기본 미디어 해상도에서 최대 1시간 또는 낮은 미디어 해상도에서 최대 3시간 길이의 동영상을 처리할 수 있습니다.
File API 처리: File API를 사용하면 동영상이 1FPS(초당 프레임 수)로 샘플링되고 오디오는 1Kbps(단일 채널)로 처리됩니다. 타임스탬프는 매초마다 추가됩니다.
- 이러한 비율은 추론 개선을 위해 향후 변경될 수 있습니다.
토큰 계산: 동영상의 각 초는 다음과 같이 토큰화됩니다.
- 개별 프레임(1FPS로 샘플링됨):
  - mediaResolution이 낮음으로 설정되면 프레임이 프레임당 66개 토큰과 타임스탬프 토큰으로 토큰화됩니다.
  - 그렇지 않으면 프레임이 프레임당 258개의 토큰과 타임스탬프 토큰으로 토큰화됩니다.
- 오디오: 초당 토큰 25개 및 타임스탬프 토큰
- 메타데이터도 포함됩니다.
- 총계: 기본 미디어 해상도 동영상에서 초당 약 300개 토큰 또는 낮은 미디어 해상도 동영상에서 초당 100개 토큰
타임스탬프 형식: 프롬프트 내에서 동영상의 특정 순간을 참조할 때는 동영상의 초당 프레임 수(FPS) 샘플링 레이트에 따라 타임스탬프 형식이 달라집니다.
- 샘플링 레이트가 1FPS 이하인 경우: MM:SS 형식을 사용합니다. 여기서 처음 두 자리는 분을, 마지막 두 자리는 초를 나타냅니다. 오프셋이 1시간을 초과하는 경우 H:MM:SS 형식을 사용하세요.
- 샘플링 레이트가 1FPS를 초과하는 경우: MM:SS.sss 형식을 사용합니다. 오프셋이 1시간을 초과하는 경우 다음 설명과 같이 H:MM:SS.sss 형식을 사용합니다.
  - 첫 번째 숫자는 시간을 나타냅니다.
  - 두 번째 두 자리는 분을 나타냅니다.
  - 세 번째 두 자리는 초를 나타냅니다.
  - 마지막 세 자리는 초 미만을 나타냅니다.
권장사항:
- 최적의 결과를 얻으려면 프롬프트 요청당 하나의 동영상만 사용하세요.
- 텍스트와 단일 동영상을 결합하는 경우 contents 배열에서 동영상 부분 뒤에 텍스트 프롬프트를 배치합니다.
- 빠른 동작 시퀀스는 1FPS 샘플링 비율로 인해 세부정보가 손실될 수 있습니다. 필요한 경우 이러한 클립의 속도를 늦추는 것이 좋습니다.

다음 단계

Gemini 멀티모달 모델로 빌드 시작하기 - 신규 고객에게는 Google Cloud 무료 크레딧 $300가 제공되어 Gemini로 수행할 수 있는 작업을 살펴볼 수 있습니다.
채팅 프롬프트 요청 보내기 방법 알아보기
책임감 있는 AI 권장사항 및 Vertex AI 안전 필터 알아보기

동영상 이해

지원되는 모델

요청에 동영상 추가

단일 동영상

콘솔

클릭하여 고급 구성 펼치기

업로드

URL 사용

YouTube

Cloud Storage

Google Drive

Python

설치

Go

Java

Node.js

설치

REST

curl

PowerShell

응답

오디오가 포함된 동영상

Python

설치

REST

curl

PowerShell

응답

콘솔

클릭하여 고급 구성 펼치기

업로드

URL 사용

YouTube

Cloud Storage

Google Drive

동영상 처리 맞춤설정

클리핑 간격 설정

커스텀 프레임 속도 설정

미디어 해상도 조정

선택적 모델 파라미터 설정

동영상 토큰화

권장사항

제한사항

동영상에 관한 기술 세부정보

다음 단계