Analisar os rótulos dos vídeos

A API Video Intelligence pode identificar entidades exibidas em filmagens usando o recurso LABEL_DETECTION. Esse recurso identifica objetos gerais, locais, atividades, espécies de animais, produtos e muito mais.

A análise pode ser dividida da seguinte maneira:

  • Nível do frame:
    entidades são identificadas e rotuladas dentro de cada frame (com amostragem de um frame por segundo).
  • Nível da imagem:
    as imagens são detectadas automaticamente em cada segmento (ou vídeo). As entidades são identificadas e rotuladas em cada imagem.
  • Nível do segmento:
    os segmentos selecionados por usuários de um vídeo podem ser especificados para análise estipulando carimbos de data/hora inicias e finais para fins de anotação (consulte VideoSegment). As entidades são identificadas e rotuladas dentro de cada segmento. Se nenhum segmento for especificado, o vídeo inteiro será tratado como um segmento.

Anotar um arquivo local

Veja um exemplo de análise de rótulos de vídeo em um arquivo local.

Enviar a solicitação de processo

Veja a seguir como enviar uma solicitação POST para o método videos:annotate. É possível configurar o LabelDetectionMode para anotações no nível da imagem e/ou frame. Recomendamos o uso de SHOT_AND_FRAME_MODE O exemplo usa o token de acesso para uma conta de serviço configurada para o projeto usando a Google Cloud CLI. Para instruções sobre como instalar a CLI do Google Cloud, configurar um projeto com uma conta de serviço e receber um token de acesso, consulte o Guia de início rápido da Video Intelligence.

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

Método HTTP e URL:


Corpo JSON da solicitação:

  "inputContent": "BASE64_ENCODED_CONTENT",
  "features": ["LABEL_DETECTION"],

Para enviar a solicitação, expanda uma destas opções:

Você receberá uma resposta JSON semelhante a esta:

  "name": "projects/PROJECT_NUMBER/locations/LOCATION_ID/operations/OPERATION_ID"

Se a solicitação for bem-sucedida, a Video Intelligence retornará o nome da operação.

Ver os resultados

Para ver os resultados da sua solicitação, você precisa enviar uma solicitação GET para o recurso projects.locations.operations. Veja a seguir como enviar essa solicitação.

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

  • OPERATION_NAME: o nome da operação, conforme retornado pela API Video Intelligence. O nome da operação tem o formato projects/PROJECT_NUMBER/locations/LOCATION_ID/operations/OPERATION_ID.
  • PROJECT_NUMBER: o identificador numérico do projeto do Google Cloud

Método HTTP e URL:


Para enviar a solicitação, expanda uma destas opções:

Você receberá uma resposta JSON semelhante a esta:


func label(w io.Writer, file string) error {
	ctx := context.Background()
	client, err := video.NewClient(ctx)
	if err != nil {
		return fmt.Errorf("video.NewClient: %w", err)
	defer client.Close()

	fileBytes, err := os.ReadFile(file)
	if err != nil {
		return err

	op, err := client.AnnotateVideo(ctx, &videopb.AnnotateVideoRequest{
		Features: []videopb.Feature{
		InputContent: fileBytes,
	if err != nil {
		return fmt.Errorf("AnnotateVideo: %w", err)

	resp, err := op.Wait(ctx)
	if err != nil {
		return fmt.Errorf("Wait: %w", err)

	printLabels := func(labels []*videopb.LabelAnnotation) {
		for _, label := range labels {
			fmt.Fprintf(w, "\tDescription: %s\n", label.Entity.Description)
			for _, category := range label.CategoryEntities {
				fmt.Fprintf(w, "\t\tCategory: %s\n", category.Description)
			for _, segment := range label.Segments {
				start, _ := ptypes.Duration(segment.Segment.StartTimeOffset)
				end, _ := ptypes.Duration(segment.Segment.EndTimeOffset)
				fmt.Fprintf(w, "\t\tSegment: %s to %s\n", start, end)

	// A single video was processed. Get the first result.
	result := resp.AnnotationResults[0]

	fmt.Fprintln(w, "SegmentLabelAnnotations:")
	fmt.Fprintln(w, "ShotLabelAnnotations:")
	fmt.Fprintln(w, "FrameLabelAnnotations:")

	return nil


// Instantiate a
try (VideoIntelligenceServiceClient client = VideoIntelligenceServiceClient.create()) {
  // Read file and encode into Base64
  Path path = Paths.get(filePath);
  byte[] data = Files.readAllBytes(path);

  AnnotateVideoRequest request =
  // Create an operation that will contain the response when the operation completes.
  OperationFuture<AnnotateVideoResponse, AnnotateVideoProgress> response =

  System.out.println("Waiting for operation to complete...");
  for (VideoAnnotationResults results : response.get().getAnnotationResultsList()) {
    // process video / segment level label annotations
    System.out.println("Locations: ");
    for (LabelAnnotation labelAnnotation : results.getSegmentLabelAnnotationsList()) {
      System.out.println("Video label: " + labelAnnotation.getEntity().getDescription());
      // categories
      for (Entity categoryEntity : labelAnnotation.getCategoryEntitiesList()) {
        System.out.println("Video label category: " + categoryEntity.getDescription());
      // segments
      for (LabelSegment segment : labelAnnotation.getSegmentsList()) {
        double startTime =
                + segment.getSegment().getStartTimeOffset().getNanos() / 1e9;
        double endTime =
                + segment.getSegment().getEndTimeOffset().getNanos() / 1e9;
        System.out.printf("Segment location: %.3f:%.2f\n", startTime, endTime);
        System.out.println("Confidence: " + segment.getConfidence());

    // process shot label annotations
    for (LabelAnnotation labelAnnotation : results.getShotLabelAnnotationsList()) {
      System.out.println("Shot label: " + labelAnnotation.getEntity().getDescription());
      // categories
      for (Entity categoryEntity : labelAnnotation.getCategoryEntitiesList()) {
        System.out.println("Shot label category: " + categoryEntity.getDescription());
      // segments
      for (LabelSegment segment : labelAnnotation.getSegmentsList()) {
        double startTime =
                + segment.getSegment().getStartTimeOffset().getNanos() / 1e9;
        double endTime =
                + segment.getSegment().getEndTimeOffset().getNanos() / 1e9;
        System.out.printf("Segment location: %.3f:%.2f\n", startTime, endTime);
        System.out.println("Confidence: " + segment.getConfidence());

    // process frame label annotations
    for (LabelAnnotation labelAnnotation : results.getFrameLabelAnnotationsList()) {
      System.out.println("Frame label: " + labelAnnotation.getEntity().getDescription());
      // categories
      for (Entity categoryEntity : labelAnnotation.getCategoryEntitiesList()) {
        System.out.println("Frame label category: " + categoryEntity.getDescription());
      // segments
      for (LabelSegment segment : labelAnnotation.getSegmentsList()) {
        double startTime =
                + segment.getSegment().getStartTimeOffset().getNanos() / 1e9;
        double endTime =
                + segment.getSegment().getEndTimeOffset().getNanos() / 1e9;
        System.out.printf("Segment location: %.3f:%.2f\n", startTime, endTime);
        System.out.println("Confidence: " + segment.getConfidence());


// Imports the Google Cloud Video Intelligence library + Node's fs library
const video = require('@google-cloud/video-intelligence').v1;
const fs = require('fs');
const util = require('util');

// Creates a client
const client = new video.VideoIntelligenceServiceClient();

 * TODO(developer): Uncomment the following line before running the sample.
// const path = 'Local file to analyze, e.g. ./my-file.mp4';

// Reads a local video file and converts it to base64
const readFile = util.promisify(fs.readFile);
const file = await readFile(path);
const inputContent = file.toString('base64');

// Constructs request
const request = {
  inputContent: inputContent,
  features: ['LABEL_DETECTION'],

// Detects labels in a video
const [operation] = await client.annotateVideo(request);
console.log('Waiting for operation to complete...');
const [operationResult] = await operation.promise();
// Gets annotations for video
const annotations = operationResult.annotationResults[0];

const labels = annotations.segmentLabelAnnotations;
labels.forEach(label => {
  console.log(`Label ${label.entity.description} occurs at:`);
  label.segments.forEach(segment => {
    const time = segment.segment;
    if (time.startTimeOffset.seconds === undefined) {
      time.startTimeOffset.seconds = 0;
    if (time.startTimeOffset.nanos === undefined) {
      time.startTimeOffset.nanos = 0;
    if (time.endTimeOffset.seconds === undefined) {
      time.endTimeOffset.seconds = 0;
    if (time.endTimeOffset.nanos === undefined) {
      time.endTimeOffset.nanos = 0;
      `\tStart: ${time.startTimeOffset.seconds}` +
        `.${(time.startTimeOffset.nanos / 1e6).toFixed(0)}s`
      `\tEnd: ${time.endTimeOffset.seconds}.` +
        `${(time.endTimeOffset.nanos / 1e6).toFixed(0)}s`
    console.log(`\tConfidence: ${segment.confidence}`);


"""Detect labels given a file path."""
video_client = videointelligence.VideoIntelligenceServiceClient()
features = [videointelligence.Feature.LABEL_DETECTION]

with, "rb") as movie:
    input_content =

operation = video_client.annotate_video(
    request={"features": features, "input_content": input_content}
print("\nProcessing video for label annotations:")

result = operation.result(timeout=90)
print("\nFinished processing.")

# Process video/segment level label annotations
segment_labels = result.annotation_results[0].segment_label_annotations
for i, segment_label in enumerate(segment_labels):
    print("Video label description: {}".format(segment_label.entity.description))
    for category_entity in segment_label.category_entities:
            "\tLabel category description: {}".format(category_entity.description)

    for i, segment in enumerate(segment_label.segments):
        start_time = (
            + segment.segment.start_time_offset.microseconds / 1e6
        end_time = (
            + segment.segment.end_time_offset.microseconds / 1e6
        positions = "{}s to {}s".format(start_time, end_time)
        confidence = segment.confidence
        print("\tSegment {}: {}".format(i, positions))
        print("\tConfidence: {}".format(confidence))

# Process shot level label annotations
shot_labels = result.annotation_results[0].shot_label_annotations
for i, shot_label in enumerate(shot_labels):
    print("Shot label description: {}".format(shot_label.entity.description))
    for category_entity in shot_label.category_entities:
            "\tLabel category description: {}".format(category_entity.description)

    for i, shot in enumerate(shot_label.segments):
        start_time = (
            + shot.segment.start_time_offset.microseconds / 1e6
        end_time = (
            + shot.segment.end_time_offset.microseconds / 1e6
        positions = "{}s to {}s".format(start_time, end_time)
        confidence = shot.confidence
        print("\tSegment {}: {}".format(i, positions))
        print("\tConfidence: {}".format(confidence))

# Process frame level label annotations
frame_labels = result.annotation_results[0].frame_label_annotations
for i, frame_label in enumerate(frame_labels):
    print("Frame label description: {}".format(frame_label.entity.description))
    for category_entity in frame_label.category_entities:
            "\tLabel category description: {}".format(category_entity.description)

    # Each frame_label_annotation has many frames,
    # here we print information only about the first frame.
    frame = frame_label.frames[0]
    time_offset = frame.time_offset.seconds + frame.time_offset.microseconds / 1e6
    print("\tFirst frame time offset: {}s".format(time_offset))
    print("\tFirst frame confidence: {}".format(frame.confidence))

Anotar um arquivo no Cloud Storage

Veja um exemplo de análise de vídeo para rótulos em um arquivo localizado no Cloud Storage.


Para saber mais sobre como instalar e usar a biblioteca de cliente da API Cloud Video Intelligence para Python, consulte Bibliotecas de cliente da API Video Intelligence.

Enviar a solicitação de processo

Veja a seguir como enviar uma solicitação POST para o método annotate. O exemplo usa o token de acesso de uma conta de serviço configurada para o projeto com a Google Cloud CLI. Para instruções sobre como instalar a CLI do Google Cloud, configurar um projeto com uma conta de serviço e receber um token de acesso, consulte o Guia de início rápido da Video Intelligence.

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

  • INPUT_URI: um bucket do Cloud Storage que contém o arquivo que você quer anotar, incluindo o nome do arquivo. É necessário começar com gs://.
  • PROJECT_NUMBER: o identificador numérico do projeto do Google Cloud

Método HTTP e URL:


Corpo JSON da solicitação:

  "inputUri": "INPUT_URI",
  "features": ["LABEL_DETECTION"],

Para enviar a solicitação, expanda uma destas opções:

Você receberá uma resposta JSON semelhante a esta:

  "name": "projects/PROJECT_NUMBER/locations/LOCATION_ID/operations/OPERATION_ID"

Se a solicitação for bem-sucedida, a Video Intelligence retornará o nome da operação.

Ver os resultados

Para ver os resultados da sua solicitação, você precisa enviar uma solicitação GET para o recurso projects.locations.operations. Veja a seguir como enviar essa solicitação.

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

  • OPERATION_NAME: o nome da operação, conforme retornado pela API Video Intelligence. O nome da operação tem o formato projects/PROJECT_NUMBER/locations/LOCATION_ID/operations/OPERATION_ID.
  • PROJECT_NUMBER: o identificador numérico do projeto do Google Cloud

Método HTTP e URL:


Para enviar a solicitação, expanda uma destas opções:

Você receberá uma resposta JSON semelhante a esta:

Fazer o download dos resultados da anotação

Copie a anotação da origem e a cole no bucket de destino: consulte Copiar arquivos e objetos

gcloud storage cp gcs_uri gs://my-bucket

Observação: se o URI de saída do GCS for fornecido pelo usuário, a anotação será armazenada nesse URI.


func labelURI(w io.Writer, file string) error {
	ctx := context.Background()
	client, err := video.NewClient(ctx)
	if err != nil {
		return fmt.Errorf("video.NewClient: %w", err)
	defer client.Close()

	op, err := client.AnnotateVideo(ctx, &videopb.AnnotateVideoRequest{
		Features: []videopb.Feature{
		InputUri: file,
	if err != nil {
		return fmt.Errorf("AnnotateVideo: %w", err)

	resp, err := op.Wait(ctx)
	if err != nil {
		return fmt.Errorf("Wait: %w", err)

	printLabels := func(labels []*videopb.LabelAnnotation) {
		for _, label := range labels {
			fmt.Fprintf(w, "\tDescription: %s\n", label.Entity.Description)
			for _, category := range label.CategoryEntities {
				fmt.Fprintf(w, "\t\tCategory: %s\n", category.Description)
			for _, segment := range label.Segments {
				start, _ := ptypes.Duration(segment.Segment.StartTimeOffset)
				end, _ := ptypes.Duration(segment.Segment.EndTimeOffset)
				fmt.Fprintf(w, "\t\tSegment: %s to %s\n", start, end)

	// A single video was processed. Get the first result.
	result := resp.AnnotationResults[0]

	fmt.Fprintln(w, "SegmentLabelAnnotations:")
	fmt.Fprintln(w, "ShotLabelAnnotations:")
	fmt.Fprintln(w, "FrameLabelAnnotations:")

	return nil


// Instantiate a
try (VideoIntelligenceServiceClient client = VideoIntelligenceServiceClient.create()) {
  // Provide path to file hosted on GCS as "gs://bucket-name/..."
  AnnotateVideoRequest request =
  // Create an operation that will contain the response when the operation completes.
  OperationFuture<AnnotateVideoResponse, AnnotateVideoProgress> response =

  System.out.println("Waiting for operation to complete...");
  for (VideoAnnotationResults results : response.get().getAnnotationResultsList()) {
    // process video / segment level label annotations
    System.out.println("Locations: ");
    for (LabelAnnotation labelAnnotation : results.getSegmentLabelAnnotationsList()) {
      System.out.println("Video label: " + labelAnnotation.getEntity().getDescription());
      // categories
      for (Entity categoryEntity : labelAnnotation.getCategoryEntitiesList()) {
        System.out.println("Video label category: " + categoryEntity.getDescription());
      // segments
      for (LabelSegment segment : labelAnnotation.getSegmentsList()) {
        double startTime =
                + segment.getSegment().getStartTimeOffset().getNanos() / 1e9;
        double endTime =
                + segment.getSegment().getEndTimeOffset().getNanos() / 1e9;
        System.out.printf("Segment location: %.3f:%.3f\n", startTime, endTime);
        System.out.println("Confidence: " + segment.getConfidence());

    // process shot label annotations
    for (LabelAnnotation labelAnnotation : results.getShotLabelAnnotationsList()) {
      System.out.println("Shot label: " + labelAnnotation.getEntity().getDescription());
      // categories
      for (Entity categoryEntity : labelAnnotation.getCategoryEntitiesList()) {
        System.out.println("Shot label category: " + categoryEntity.getDescription());
      // segments
      for (LabelSegment segment : labelAnnotation.getSegmentsList()) {
        double startTime =
                + segment.getSegment().getStartTimeOffset().getNanos() / 1e9;
        double endTime =
                + segment.getSegment().getEndTimeOffset().getNanos() / 1e9;
        System.out.printf("Segment location: %.3f:%.3f\n", startTime, endTime);
        System.out.println("Confidence: " + segment.getConfidence());

    // process frame label annotations
    for (LabelAnnotation labelAnnotation : results.getFrameLabelAnnotationsList()) {
      System.out.println("Frame label: " + labelAnnotation.getEntity().getDescription());
      // categories
      for (Entity categoryEntity : labelAnnotation.getCategoryEntitiesList()) {
        System.out.println("Frame label category: " + categoryEntity.getDescription());
      // segments
      for (LabelSegment segment : labelAnnotation.getSegmentsList()) {
        double startTime =
                + segment.getSegment().getStartTimeOffset().getNanos() / 1e9;
        double endTime =
                + segment.getSegment().getEndTimeOffset().getNanos() / 1e9;
        System.out.printf("Segment location: %.3f:%.2f\n", startTime, endTime);
        System.out.println("Confidence: " + segment.getConfidence());


// Imports the Google Cloud Video Intelligence library
const video = require('@google-cloud/video-intelligence').v1;

// Creates a client
const client = new video.VideoIntelligenceServiceClient();

 * TODO(developer): Uncomment the following line before running the sample.
// const gcsUri = 'GCS URI of the video to analyze, e.g. gs://my-bucket/my-video.mp4';

const request = {
  inputUri: gcsUri,
  features: ['LABEL_DETECTION'],

// Detects labels in a video
const [operation] = await client.annotateVideo(request);
console.log('Waiting for operation to complete...');
const [operationResult] = await operation.promise();

// Gets annotations for video
const annotations = operationResult.annotationResults[0];

const labels = annotations.segmentLabelAnnotations;
labels.forEach(label => {
  console.log(`Label ${label.entity.description} occurs at:`);
  label.segments.forEach(segment => {
    const time = segment.segment;
    if (time.startTimeOffset.seconds === undefined) {
      time.startTimeOffset.seconds = 0;
    if (time.startTimeOffset.nanos === undefined) {
      time.startTimeOffset.nanos = 0;
    if (time.endTimeOffset.seconds === undefined) {
      time.endTimeOffset.seconds = 0;
    if (time.endTimeOffset.nanos === undefined) {
      time.endTimeOffset.nanos = 0;
      `\tStart: ${time.startTimeOffset.seconds}` +
        `.${(time.startTimeOffset.nanos / 1e6).toFixed(0)}s`
      `\tEnd: ${time.endTimeOffset.seconds}.` +
        `${(time.endTimeOffset.nanos / 1e6).toFixed(0)}s`
    console.log(`\tConfidence: ${segment.confidence}`);


"""Detects labels given a GCS path."""
video_client = videointelligence.VideoIntelligenceServiceClient()
features = [videointelligence.Feature.LABEL_DETECTION]

mode = videointelligence.LabelDetectionMode.SHOT_AND_FRAME_MODE
config = videointelligence.LabelDetectionConfig(label_detection_mode=mode)
context = videointelligence.VideoContext(label_detection_config=config)

operation = video_client.annotate_video(
    request={"features": features, "input_uri": path, "video_context": context}
print("\nProcessing video for label annotations:")

result = operation.result(timeout=180)
print("\nFinished processing.")

# Process video/segment level label annotations
segment_labels = result.annotation_results[0].segment_label_annotations
for i, segment_label in enumerate(segment_labels):
    print("Video label description: {}".format(segment_label.entity.description))
    for category_entity in segment_label.category_entities:
            "\tLabel category description: {}".format(category_entity.description)

    for i, segment in enumerate(segment_label.segments):
        start_time = (
            + segment.segment.start_time_offset.microseconds / 1e6
        end_time = (
            + segment.segment.end_time_offset.microseconds / 1e6
        positions = "{}s to {}s".format(start_time, end_time)
        confidence = segment.confidence
        print("\tSegment {}: {}".format(i, positions))
        print("\tConfidence: {}".format(confidence))

# Process shot level label annotations
shot_labels = result.annotation_results[0].shot_label_annotations
for i, shot_label in enumerate(shot_labels):
    print("Shot label description: {}".format(shot_label.entity.description))
    for category_entity in shot_label.category_entities:
            "\tLabel category description: {}".format(category_entity.description)

    for i, shot in enumerate(shot_label.segments):
        start_time = (
            + shot.segment.start_time_offset.microseconds / 1e6
        end_time = (
            + shot.segment.end_time_offset.microseconds / 1e6
        positions = "{}s to {}s".format(start_time, end_time)
        confidence = shot.confidence
        print("\tSegment {}: {}".format(i, positions))
        print("\tConfidence: {}".format(confidence))

# Process frame level label annotations
frame_labels = result.annotation_results[0].frame_label_annotations
for i, frame_label in enumerate(frame_labels):
    print("Frame label description: {}".format(frame_label.entity.description))
    for category_entity in frame_label.category_entities:
            "\tLabel category description: {}".format(category_entity.description)

    # Each frame_label_annotation has many frames,
    # here we print information only about the first frame.
    frame = frame_label.frames[0]
    time_offset = frame.time_offset.seconds + frame.time_offset.microseconds / 1e6
    print("\tFirst frame time offset: {}s".format(time_offset))
    print("\tFirst frame confidence: {}".format(frame.confidence))

