Analiza videos para etiquetas

La API de Video Intelligence puede identificar entidades mostradas en el video con la función LABEL_DETECTION. Esta característica identifica objetos, ubicaciones, actividades, especies animales, productos y mucho más.

El análisis se puede compartimentar de la siguiente manera:

  • Nivel de marco:
    se identifican y etiquetan dentro de cada marco (con un fotograma por segundo).
  • Nivel de toma:
    Las tomas se detectan automáticamente en cada segmento (o video). Luego, se identifican y etiquetan las entidades en cada toma.
  • Nivel de segmento:
    Los segmentos seleccionados por el usuario de un video se pueden especificar para analizarlos si se determinan las compensaciones horarias iniciales y finales para los fines de la anotación (consulta VideoSegment). Luego, las entidades se identifican y etiquetan dentro de cada segmento. Si no se especifican segmentos, todo el video se trata como un solo segmento.

Anota un archivo local

El siguiente es un ejemplo de cómo realizar un análisis de video para las etiquetas en un archivo local.

¿Buscas información más detallada? Consulta nuestro instructivo de Python detallado.


Envía la solicitud de proceso

A continuación, se muestra cómo enviar una solicitud POST al método videos:annotate. Puedes configurar el LabelDetectionMode para las anotaciones a nivel de las tomas o los fotogramas. Se recomienda usar SHOT_AND_FRAME_MODE. En el ejemplo, se usa el token de acceso para configurar una cuenta de servicio para el proyecto con Google Cloud CLI. Si deseas obtener instrucciones para instalar Google Cloud CLI, configurar un proyecto con una cuenta de servicio y obtener un token de acceso, consulta la guía de inicio rápido de Video Intelligence.

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

Método HTTP y URL:


Cuerpo JSON de la solicitud:

  "inputContent": "BASE64_ENCODED_CONTENT",
  "features": ["LABEL_DETECTION"],

Para enviar tu solicitud, expande una de estas opciones:

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

  "name": "projects/PROJECT_NUMBER/locations/LOCATION_ID/operations/OPERATION_ID"

Si la solicitud es exitosa, Video Intelligence muestra el nombre de tu operación.

Obtén los resultados

Para obtener los resultados de tu solicitud, debes enviar una solicitud GET al recurso projects.locations.operations. A continuación, se muestra cómo enviar una solicitud de este tipo.

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

  • OPERATION_NAME: el nombre de la operación que muestra la API de Video Intelligence. El nombre de la operación tiene el formato projects/PROJECT_NUMBER/locations/LOCATION_ID/operations/OPERATION_ID.
  • PROJECT_NUMBER: Es el identificador numérico del proyecto de Google Cloud.

Método HTTP y URL:


Para enviar tu solicitud, expande una de estas opciones:

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:


func label(w io.Writer, file string) error {
	ctx := context.Background()
	client, err := video.NewClient(ctx)
	if err != nil {
		return fmt.Errorf("video.NewClient: %w", err)
	defer client.Close()

	fileBytes, err := os.ReadFile(file)
	if err != nil {
		return err

	op, err := client.AnnotateVideo(ctx, &videopb.AnnotateVideoRequest{
		Features: []videopb.Feature{
		InputContent: fileBytes,
	if err != nil {
		return fmt.Errorf("AnnotateVideo: %w", err)

	resp, err := op.Wait(ctx)
	if err != nil {
		return fmt.Errorf("Wait: %w", err)

	printLabels := func(labels []*videopb.LabelAnnotation) {
		for _, label := range labels {
			fmt.Fprintf(w, "\tDescription: %s\n", label.Entity.Description)
			for _, category := range label.CategoryEntities {
				fmt.Fprintf(w, "\t\tCategory: %s\n", category.Description)
			for _, segment := range label.Segments {
				start, _ := ptypes.Duration(segment.Segment.StartTimeOffset)
				end, _ := ptypes.Duration(segment.Segment.EndTimeOffset)
				fmt.Fprintf(w, "\t\tSegment: %s to %s\n", start, end)

	// A single video was processed. Get the first result.
	result := resp.AnnotationResults[0]

	fmt.Fprintln(w, "SegmentLabelAnnotations:")
	fmt.Fprintln(w, "ShotLabelAnnotations:")
	fmt.Fprintln(w, "FrameLabelAnnotations:")

	return nil


// Instantiate a
try (VideoIntelligenceServiceClient client = VideoIntelligenceServiceClient.create()) {
  // Read file and encode into Base64
  Path path = Paths.get(filePath);
  byte[] data = Files.readAllBytes(path);

  AnnotateVideoRequest request =
  // Create an operation that will contain the response when the operation completes.
  OperationFuture<AnnotateVideoResponse, AnnotateVideoProgress> response =

  System.out.println("Waiting for operation to complete...");
  for (VideoAnnotationResults results : response.get().getAnnotationResultsList()) {
    // process video / segment level label annotations
    System.out.println("Locations: ");
    for (LabelAnnotation labelAnnotation : results.getSegmentLabelAnnotationsList()) {
      System.out.println("Video label: " + labelAnnotation.getEntity().getDescription());
      // categories
      for (Entity categoryEntity : labelAnnotation.getCategoryEntitiesList()) {
        System.out.println("Video label category: " + categoryEntity.getDescription());
      // segments
      for (LabelSegment segment : labelAnnotation.getSegmentsList()) {
        double startTime =
                + segment.getSegment().getStartTimeOffset().getNanos() / 1e9;
        double endTime =
                + segment.getSegment().getEndTimeOffset().getNanos() / 1e9;
        System.out.printf("Segment location: %.3f:%.2f\n", startTime, endTime);
        System.out.println("Confidence: " + segment.getConfidence());

    // process shot label annotations
    for (LabelAnnotation labelAnnotation : results.getShotLabelAnnotationsList()) {
      System.out.println("Shot label: " + labelAnnotation.getEntity().getDescription());
      // categories
      for (Entity categoryEntity : labelAnnotation.getCategoryEntitiesList()) {
        System.out.println("Shot label category: " + categoryEntity.getDescription());
      // segments
      for (LabelSegment segment : labelAnnotation.getSegmentsList()) {
        double startTime =
                + segment.getSegment().getStartTimeOffset().getNanos() / 1e9;
        double endTime =
                + segment.getSegment().getEndTimeOffset().getNanos() / 1e9;
        System.out.printf("Segment location: %.3f:%.2f\n", startTime, endTime);
        System.out.println("Confidence: " + segment.getConfidence());

    // process frame label annotations
    for (LabelAnnotation labelAnnotation : results.getFrameLabelAnnotationsList()) {
      System.out.println("Frame label: " + labelAnnotation.getEntity().getDescription());
      // categories
      for (Entity categoryEntity : labelAnnotation.getCategoryEntitiesList()) {
        System.out.println("Frame label category: " + categoryEntity.getDescription());
      // segments
      for (LabelSegment segment : labelAnnotation.getSegmentsList()) {
        double startTime =
                + segment.getSegment().getStartTimeOffset().getNanos() / 1e9;
        double endTime =
                + segment.getSegment().getEndTimeOffset().getNanos() / 1e9;
        System.out.printf("Segment location: %.3f:%.2f\n", startTime, endTime);
        System.out.println("Confidence: " + segment.getConfidence());


// Imports the Google Cloud Video Intelligence library + Node's fs library
const video = require('@google-cloud/video-intelligence').v1;
const fs = require('fs');
const util = require('util');

// Creates a client
const client = new video.VideoIntelligenceServiceClient();

 * TODO(developer): Uncomment the following line before running the sample.
// const path = 'Local file to analyze, e.g. ./my-file.mp4';

// Reads a local video file and converts it to base64
const readFile = util.promisify(fs.readFile);
const file = await readFile(path);
const inputContent = file.toString('base64');

// Constructs request
const request = {
  inputContent: inputContent,
  features: ['LABEL_DETECTION'],

// Detects labels in a video
const [operation] = await client.annotateVideo(request);
console.log('Waiting for operation to complete...');
const [operationResult] = await operation.promise();
// Gets annotations for video
const annotations = operationResult.annotationResults[0];

const labels = annotations.segmentLabelAnnotations;
labels.forEach(label => {
  console.log(`Label ${label.entity.description} occurs at:`);
  label.segments.forEach(segment => {
    const time = segment.segment;
    if (time.startTimeOffset.seconds === undefined) {
      time.startTimeOffset.seconds = 0;
    if (time.startTimeOffset.nanos === undefined) {
      time.startTimeOffset.nanos = 0;
    if (time.endTimeOffset.seconds === undefined) {
      time.endTimeOffset.seconds = 0;
    if (time.endTimeOffset.nanos === undefined) {
      time.endTimeOffset.nanos = 0;
      `\tStart: ${time.startTimeOffset.seconds}` +
        `.${(time.startTimeOffset.nanos / 1e6).toFixed(0)}s`
      `\tEnd: ${time.endTimeOffset.seconds}.` +
        `${(time.endTimeOffset.nanos / 1e6).toFixed(0)}s`
    console.log(`\tConfidence: ${segment.confidence}`);


Para obtener más información sobre cómo instalar y usar la biblioteca cliente de la API de Video Intelligence para Python, consulta Bibliotecas cliente de la API de Video Intelligence.
"""Detect labels given a file path."""
video_client = videointelligence.VideoIntelligenceServiceClient()
features = [videointelligence.Feature.LABEL_DETECTION]

with, "rb") as movie:
    input_content =

operation = video_client.annotate_video(
    request={"features": features, "input_content": input_content}
print("\nProcessing video for label annotations:")

result = operation.result(timeout=90)
print("\nFinished processing.")

# Process video/segment level label annotations
segment_labels = result.annotation_results[0].segment_label_annotations
for i, segment_label in enumerate(segment_labels):
    print("Video label description: {}".format(segment_label.entity.description))
    for category_entity in segment_label.category_entities:
            "\tLabel category description: {}".format(category_entity.description)

    for i, segment in enumerate(segment_label.segments):
        start_time = (
            + segment.segment.start_time_offset.microseconds / 1e6
        end_time = (
            + segment.segment.end_time_offset.microseconds / 1e6
        positions = "{}s to {}s".format(start_time, end_time)
        confidence = segment.confidence
        print("\tSegment {}: {}".format(i, positions))
        print("\tConfidence: {}".format(confidence))

# Process shot level label annotations
shot_labels = result.annotation_results[0].shot_label_annotations
for i, shot_label in enumerate(shot_labels):
    print("Shot label description: {}".format(shot_label.entity.description))
    for category_entity in shot_label.category_entities:
            "\tLabel category description: {}".format(category_entity.description)

    for i, shot in enumerate(shot_label.segments):
        start_time = (
            + shot.segment.start_time_offset.microseconds / 1e6
        end_time = (
            + shot.segment.end_time_offset.microseconds / 1e6
        positions = "{}s to {}s".format(start_time, end_time)
        confidence = shot.confidence
        print("\tSegment {}: {}".format(i, positions))
        print("\tConfidence: {}".format(confidence))

# Process frame level label annotations
frame_labels = result.annotation_results[0].frame_label_annotations
for i, frame_label in enumerate(frame_labels):
    print("Frame label description: {}".format(frame_label.entity.description))
    for category_entity in frame_label.category_entities:
            "\tLabel category description: {}".format(category_entity.description)

    # Each frame_label_annotation has many frames,
    # here we print information only about the first frame.
    frame = frame_label.frames[0]
    time_offset = frame.time_offset.seconds + frame.time_offset.microseconds / 1e6
    print("\tFirst frame time offset: {}s".format(time_offset))
    print("\tFirst frame confidence: {}".format(frame.confidence))

Idiomas adicionales

C#: Sigue las instrucciones de configuración de C# en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Video Intelligence para .NET.

PHP: Sigue las instrucciones de configuración de PHP en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Video Intelligence para PHP.

Ruby: Sigue las instrucciones de configuración de Ruby en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Video Intelligence para Ruby.

Anota un archivo en Cloud Storage

Este es un ejemplo de cómo realizar un análisis de video para etiquetas en un archivo ubicado en Cloud Storage.


Para obtener más información sobre cómo instalar y usar la biblioteca cliente de la API de Video Intelligence Para Python, consulta Bibliotecas cliente de la API de Video Intelligence.

Envía la solicitud de proceso

A continuación, se muestra cómo enviar una solicitud POST al método annotate. En el ejemplo, se usa el token de acceso correspondiente a la configuración de una cuenta de servicio para el proyecto con Google Cloud CLI. Para instrucciones para instalar Google Cloud CLI, configurar un proyecto con un servicio y obtener un token de acceso, consulta la Guía de inicio rápido de Video Intelligence.

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

  • INPUT_URI: Es el bucket de Cloud Storage que contiene el archivo que deseas anotar, incluido el nombre del archivo. Debe comenzar con gs://.
  • PROJECT_NUMBER: El identificador numérico de tu proyecto de Google Cloud

Método HTTP y URL:


Cuerpo JSON de la solicitud:

  "inputUri": "INPUT_URI",
  "features": ["LABEL_DETECTION"],

Para enviar tu solicitud, expande una de estas opciones:

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

  "name": "projects/PROJECT_NUMBER/locations/LOCATION_ID/operations/OPERATION_ID"

Si la solicitud es exitosa, Video Intelligence muestra el nombre de tu operación.

Obtén los resultados

Para obtener los resultados de tu solicitud, debes enviar una solicitud GET al recurso projects.locations.operations. A continuación, se muestra cómo enviar una solicitud de este tipo.

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

  • OPERATION_NAME: el nombre de la operación que muestra la API de Video Intelligence. El nombre de la operación tiene el formato projects/PROJECT_NUMBER/locations/LOCATION_ID/operations/OPERATION_ID.
  • PROJECT_NUMBER: Es el identificador numérico del proyecto de Google Cloud.

Método HTTP y URL:


Para enviar tu solicitud, expande una de estas opciones:

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

Cómo descargar resultados de anotaciones

Copia la anotación de la fuente al bucket de destino: (consulta Cómo copiar archivos y objetos)

gcloud storage cp gcs_uri gs://my-bucket

Nota: Si el usuario proporciona el URI de GCS de salida, la anotación se almacena en ese URI de GCS.


func labelURI(w io.Writer, file string) error {
	ctx := context.Background()
	client, err := video.NewClient(ctx)
	if err != nil {
		return fmt.Errorf("video.NewClient: %w", err)
	defer client.Close()

	op, err := client.AnnotateVideo(ctx, &videopb.AnnotateVideoRequest{
		Features: []videopb.Feature{
		InputUri: file,
	if err != nil {
		return fmt.Errorf("AnnotateVideo: %w", err)

	resp, err := op.Wait(ctx)
	if err != nil {
		return fmt.Errorf("Wait: %w", err)

	printLabels := func(labels []*videopb.LabelAnnotation) {
		for _, label := range labels {
			fmt.Fprintf(w, "\tDescription: %s\n", label.Entity.Description)
			for _, category := range label.CategoryEntities {
				fmt.Fprintf(w, "\t\tCategory: %s\n", category.Description)
			for _, segment := range label.Segments {
				start, _ := ptypes.Duration(segment.Segment.StartTimeOffset)
				end, _ := ptypes.Duration(segment.Segment.EndTimeOffset)
				fmt.Fprintf(w, "\t\tSegment: %s to %s\n", start, end)

	// A single video was processed. Get the first result.
	result := resp.AnnotationResults[0]

	fmt.Fprintln(w, "SegmentLabelAnnotations:")
	fmt.Fprintln(w, "ShotLabelAnnotations:")
	fmt.Fprintln(w, "FrameLabelAnnotations:")

	return nil


// Instantiate a
try (VideoIntelligenceServiceClient client = VideoIntelligenceServiceClient.create()) {
  // Provide path to file hosted on GCS as "gs://bucket-name/..."
  AnnotateVideoRequest request =
  // Create an operation that will contain the response when the operation completes.
  OperationFuture<AnnotateVideoResponse, AnnotateVideoProgress> response =

  System.out.println("Waiting for operation to complete...");
  for (VideoAnnotationResults results : response.get().getAnnotationResultsList()) {
    // process video / segment level label annotations
    System.out.println("Locations: ");
    for (LabelAnnotation labelAnnotation : results.getSegmentLabelAnnotationsList()) {
      System.out.println("Video label: " + labelAnnotation.getEntity().getDescription());
      // categories
      for (Entity categoryEntity : labelAnnotation.getCategoryEntitiesList()) {
        System.out.println("Video label category: " + categoryEntity.getDescription());
      // segments
      for (LabelSegment segment : labelAnnotation.getSegmentsList()) {
        double startTime =
                + segment.getSegment().getStartTimeOffset().getNanos() / 1e9;
        double endTime =
                + segment.getSegment().getEndTimeOffset().getNanos() / 1e9;
        System.out.printf("Segment location: %.3f:%.3f\n", startTime, endTime);
        System.out.println("Confidence: " + segment.getConfidence());

    // process shot label annotations
    for (LabelAnnotation labelAnnotation : results.getShotLabelAnnotationsList()) {
      System.out.println("Shot label: " + labelAnnotation.getEntity().getDescription());
      // categories
      for (Entity categoryEntity : labelAnnotation.getCategoryEntitiesList()) {
        System.out.println("Shot label category: " + categoryEntity.getDescription());
      // segments
      for (LabelSegment segment : labelAnnotation.getSegmentsList()) {
        double startTime =
                + segment.getSegment().getStartTimeOffset().getNanos() / 1e9;
        double endTime =
                + segment.getSegment().getEndTimeOffset().getNanos() / 1e9;
        System.out.printf("Segment location: %.3f:%.3f\n", startTime, endTime);
        System.out.println("Confidence: " + segment.getConfidence());

    // process frame label annotations
    for (LabelAnnotation labelAnnotation : results.getFrameLabelAnnotationsList()) {
      System.out.println("Frame label: " + labelAnnotation.getEntity().getDescription());
      // categories
      for (Entity categoryEntity : labelAnnotation.getCategoryEntitiesList()) {
        System.out.println("Frame label category: " + categoryEntity.getDescription());
      // segments
      for (LabelSegment segment : labelAnnotation.getSegmentsList()) {
        double startTime =
                + segment.getSegment().getStartTimeOffset().getNanos() / 1e9;
        double endTime =
                + segment.getSegment().getEndTimeOffset().getNanos() / 1e9;
        System.out.printf("Segment location: %.3f:%.2f\n", startTime, endTime);
        System.out.println("Confidence: " + segment.getConfidence());


// Imports the Google Cloud Video Intelligence library
const video = require('@google-cloud/video-intelligence').v1;

// Creates a client
const client = new video.VideoIntelligenceServiceClient();

 * TODO(developer): Uncomment the following line before running the sample.
// const gcsUri = 'GCS URI of the video to analyze, e.g. gs://my-bucket/my-video.mp4';

const request = {
  inputUri: gcsUri,
  features: ['LABEL_DETECTION'],

// Detects labels in a video
const [operation] = await client.annotateVideo(request);
console.log('Waiting for operation to complete...');
const [operationResult] = await operation.promise();

// Gets annotations for video
const annotations = operationResult.annotationResults[0];

const labels = annotations.segmentLabelAnnotations;
labels.forEach(label => {
  console.log(`Label ${label.entity.description} occurs at:`);
  label.segments.forEach(segment => {
    const time = segment.segment;
    if (time.startTimeOffset.seconds === undefined) {
      time.startTimeOffset.seconds = 0;
    if (time.startTimeOffset.nanos === undefined) {
      time.startTimeOffset.nanos = 0;
    if (time.endTimeOffset.seconds === undefined) {
      time.endTimeOffset.seconds = 0;
    if (time.endTimeOffset.nanos === undefined) {
      time.endTimeOffset.nanos = 0;
      `\tStart: ${time.startTimeOffset.seconds}` +
        `.${(time.startTimeOffset.nanos / 1e6).toFixed(0)}s`
      `\tEnd: ${time.endTimeOffset.seconds}.` +
        `${(time.endTimeOffset.nanos / 1e6).toFixed(0)}s`
    console.log(`\tConfidence: ${segment.confidence}`);


"""Detects labels given a GCS path."""
video_client = videointelligence.VideoIntelligenceServiceClient()
features = [videointelligence.Feature.LABEL_DETECTION]

mode = videointelligence.LabelDetectionMode.SHOT_AND_FRAME_MODE
config = videointelligence.LabelDetectionConfig(label_detection_mode=mode)
context = videointelligence.VideoContext(label_detection_config=config)

operation = video_client.annotate_video(
    request={"features": features, "input_uri": path, "video_context": context}
print("\nProcessing video for label annotations:")

result = operation.result(timeout=180)
print("\nFinished processing.")

# Process video/segment level label annotations
segment_labels = result.annotation_results[0].segment_label_annotations
for i, segment_label in enumerate(segment_labels):
    print("Video label description: {}".format(segment_label.entity.description))
    for category_entity in segment_label.category_entities:
            "\tLabel category description: {}".format(category_entity.description)

    for i, segment in enumerate(segment_label.segments):
        start_time = (
            + segment.segment.start_time_offset.microseconds / 1e6
        end_time = (
            + segment.segment.end_time_offset.microseconds / 1e6
        positions = "{}s to {}s".format(start_time, end_time)
        confidence = segment.confidence
        print("\tSegment {}: {}".format(i, positions))
        print("\tConfidence: {}".format(confidence))

# Process shot level label annotations
shot_labels = result.annotation_results[0].shot_label_annotations
for i, shot_label in enumerate(shot_labels):
    print("Shot label description: {}".format(shot_label.entity.description))
    for category_entity in shot_label.category_entities:
            "\tLabel category description: {}".format(category_entity.description)

    for i, shot in enumerate(shot_label.segments):
        start_time = (
            + shot.segment.start_time_offset.microseconds / 1e6
        end_time = (
            + shot.segment.end_time_offset.microseconds / 1e6
        positions = "{}s to {}s".format(start_time, end_time)
        confidence = shot.confidence
        print("\tSegment {}: {}".format(i, positions))
        print("\tConfidence: {}".format(confidence))

# Process frame level label annotations
frame_labels = result.annotation_results[0].frame_label_annotations
for i, frame_label in enumerate(frame_labels):
    print("Frame label description: {}".format(frame_label.entity.description))
    for category_entity in frame_label.category_entities:
            "\tLabel category description: {}".format(category_entity.description)

    # Each frame_label_annotation has many frames,
    # here we print information only about the first frame.
    frame = frame_label.frames[0]
    time_offset = frame.time_offset.seconds + frame.time_offset.microseconds / 1e6
    print("\tFirst frame time offset: {}s".format(time_offset))
    print("\tFirst frame confidence: {}".format(frame.confidence))

Idiomas adicionales

C#: Sigue las instrucciones de configuración de C# en la página Bibliotecas cliente y, luego, visita la documentación de referencia de Video Intelligence para .NET.

PHP: Sigue las Instrucciones de configuración de PHP en la página de bibliotecas cliente y, luego, visita Documentación de referencia de Video Intelligence para PHP

Ruby: Sigue las Instrucciones de configuración de Ruby en la página de bibliotecas cliente y, luego, visita Documentación de referencia de Video Intelligence para Ruby.