Esta página se ha traducido con Cloud Translation API.
Switch to English

Guía para principiantes de AutoML Video

Introducción

Imagina que eres entrenador de un equipo de fútbol. Tienes una gran biblioteca de videos de juegos que te gustaría usar para estudiar las fortalezas y debilidades de tu equipo. Sería muy útil compilar acciones como objetivos, límites y penalizaciones de muchos juegos en un solo video. Hay cientos de horas de video en proceso de revisión y acciones. El trabajo de mirar cada video y marcar de forma manual los segmentos para destacar cada acción es tedioso y lleva mucho tiempo. Y deberás hacer este trabajo para cada temporada. ¿No sería más fácil enseñarle a una computadora a identificar y marcar automáticamente estas acciones cuando aparecen en un video?

Imágenes de ejemplo clasificadas de fútbol

¿Por qué el aprendizaje automático (AA) es la herramienta correcta para este problema?

Imagen de representación de programación La programación clásica requiere que un programador especifique las instrucciones paso por paso para que una computadora las siga. Pero el caso práctico es identificar acciones específicas en partidos de fútbol. Hay tanta variación en el color, el ángulo, la resolución y la iluminación que requeriría que se codificaran demasiadas reglas para indicarle a una máquina cómo tomar la decisión correcta. Es difícil imaginar dónde comenzar. Afortunadamente, el aprendizaje automático está bien posicionado para resolver este problema.

En esta guía, se explica cómo AutoML Video Intelligence Classification puede resolver este problema, su flujo de trabajo y los otros tipos de problemas que puede solucionar.

¿Cómo funciona AutoML Video Intelligence Classification?

Representación gráfica de una red neuronal simple AutoML Video Intelligence Classification es una tarea de aprendizaje supervisado. Esto significa que puedes entrenar, probar y validar el modelo de aprendizaje automático con videos de ejemplo que ya están etiquetados. Con un modelo entrenado, puedes ingresar videos nuevos y el modelo generará segmentos de video con etiquetas. Una etiqueta es una "respuesta" prevista del modelo. Por ejemplo, un modelo entrenado para el caso práctico de fútbol te permite ingresar nuevos videos de fútbol y segmentos de video de salida con etiquetas que describan tomas de acción como "objetivo", "fomento personal", etcétera.

Flujo de trabajo de AutoML Video Intelligence Classification

AutoML Video Intelligence Classification usa un flujo de trabajo estándar de aprendizaje automático:

  1. Reúne tus datos: Determina los datos que necesitas para entrenar y probar tu modelo en función del resultado que quieres lograr.
  2. Prepara tus datos: Asegúrate de que los datos tengan el formato adecuado y estén etiquetados correctamente.
  3. Entrena: Configura los parámetros y crea tu modelo.
  4. Evalúa: Revisa las métricas del modelo.
  5. Implementa y predice: Haz que tu modelo esté disponible para su uso.

Sin embargo, antes de comenzar a recopilar datos, debes pensar en el problema que está tratando de resolver, lo que definirá los requisitos de datos.

Considera tu caso práctico

Gráfico de punto de inicio y final

Comienza con tu problema: ¿cuál es el resultado que quieres obtener? ¿Cuántas clases debes predecir? Una clase es algo que deseas que tu modelo aprenda a identificar y se represente en el resultado del modelo como una etiqueta (por ejemplo, un modelo de detección de pelotas tendrá dos clases: " bola" y "sin pelota").

Según tus respuestas, AutoML Video Intelligence Classification creará el modelo necesario para resolver tu caso práctico:

  • Los modelos de clasificación binaria predicen un resultado binario (una de dos clases). thissalo a la pregunta sí o no, por ejemplo, identificar solo objetivos en un partido de fútbol ("¿Es un objetivo o no?"). En general, un problema de clasificación binaria requiere menos datos de video para entrenar que otros problemas.

  • Un modelo de clasificación de clases múltiples predice una clase de dos o más clases discretas. thisselo para categorizar los segmentos de video. Por ejemplo, clasificar segmentos de una biblioteca de videos de los Juegos Olímpicos para determinar qué deporte se muestra en un momento determinado. El resultado proporciona segmentos de video a los que se les asignó una sola etiqueta, como natación o gimnasia.

  • Un modelo de clasificación con varias etiquetas predice una o más clases de muchas clases posibles. Usa este modelo para etiquetar varias clases en un solo segmento de video. A menudo, este tipo de problema requiere más datos de entrenamiento porque la diferencia entre muchas clases es más compleja.

En el ejemplo de fútbol anterior, se requiere un modo de clasificación con varias etiquetas, ya que las clases (acciones como objetivos, límites personales, etc.) pueden ocurrir de manera simultánea, lo que significa que un solo segmento de video puede requerir varias etiquetas.

Una aclaración sobre la equidad

La equidad es una de las prácticas responsables de la IA de Google. Su objetivo es comprender y evitar un tratamiento injusto o prejuicioso de las personas en relación con sus ingresos, su origen étnico, orientación sexual, religión, género y otras características asociadas históricamente con la discriminación y la exclusión en el lugar y momento en el que se manifiesten en los sistemas algorítmicos o en la toma de decisiones basada en algoritmos. A medida que leas esta guía, verás notas sobre “Imparcialidad” que tratan sobre cómo crear un modelo de aprendizaje automático más justo. Más información

Recopila tus datos

Gráfico de puntosDespués de establecer tu caso práctico, deberás recopilar los datos de video que te permitirán crear el modelo que deseas. Los datos que recopilas para el entrenamiento informan los tipos de problemas que puedes resolver. ¿Cuántos videos puedes usar? ¿Los videos contienen suficientes ejemplos para las clases que deseas que tu modelo prediga? Mientras recopilas tus datos de videos, ten en cuenta las siguientes consideraciones.

Incluir suficientes videos

Gráfico de modelo de entrenamiento Por lo general, cuantos más videos de entrenamiento en tu conjunto de datos, mejor será tu resultado. La cantidad de videos recomendados también se ajusta según la complejidad del problema que intentas resolver. Por ejemplo, necesitarás menos datos de video para un problema de clasificación binaria (predicción de una clase de dos) que un problema de varias etiquetas (predice una o más clases de muchas).

La complejidad de lo que intentas clasificar también puede determinar la cantidad de datos de video que necesitas. Considera el caso práctico de fútbol, que crea un modelo para distinguir tomas de acción. Compara eso con un modelo que distingue entre especies de colibrí. Considera el matiz y las similitudes en color, tamaño y forma: necesitarías más datos de entrenamiento para que el modelo aprenda cómo identificar con precisión cada especie.

Usa estas reglas como modelo de referencia para comprender tus necesidades mínimas de datos de video:

  • 200 ejemplos de video por clase si tienes pocas clases y se distinguen
  • Más de 1,000 ejemplos de videos por clase si tienes más de 50 clases o si son similares entre sí

Es posible que la cantidad de datos de video requeridos sea superior al que tienes actualmente. Considera obtener más videos a través de un proveedor externo. Por ejemplo, podrías comprar u obtener más videos de fútbol si no tienes suficiente para el modelo de identificador de acción del juego.

Distribuye videos por igual en todas las clases

Intenta proporcionar una cantidad similar de ejemplos de entrenamiento para cada clase. Por qué: Imagine que el 80% de su conjunto de datos de entrenamiento consiste en videos de fútbol que incluyen tiros con objetivos, pero solo el 20% de ellos muestra representaciones violetas o chorros personales. Con una distribución de clases tan equitativa, es más probable que tu modelo prediga que una acción determinada es un objetivo. Es similar a escribir una prueba de opción múltiple en la que el 80% de las respuestas correctas es “C”: el modelo inteligente determinará con rapidez que “C” es una buena estimación.

Imagen de imágenes de entrenamiento para 4 tipos de acciones de fútbol

Es posible que no sea posible obtener una misma cantidad de videos para cada clase. Los ejemplos imparciales y de alta calidad también pueden ser difíciles para algunas clases. Intenta seguir una proporción de 1:10: si la clase más grande tiene 10,000 videos, el más pequeño debe tener al menos 1,000 videos.

Abarca la variedad

Los datos de tus videos deben capturar la diversidad del espacio del problema. Cuanto más diversos sean los ejemplos que ve un modelo durante el entrenamiento, con mayor facilidad podrá generalizar ejemplos nuevos o no tan comunes. Piense en el modelo de clasificación de acción de fútbol: Le recomendamos que incluya videos con una variedad de ángulos de cámara, horas de día y noche, y una variedad de movimientos de jugadores. Exponer el modelo a una variedad de datos mejorará la capacidad de su modelo para distinguir una acción de otra.

Hace coincidir los datos con el resultado deseado

Imagen de entrenamiento que coincide con la imagen de salida esperada

Busca videos de entrenamiento que sean visualmente similares a los videos que planeas ingresar en el modelo para la predicción. Por ejemplo, si todos tus videos de entrenamiento se toman durante el invierno o en la noche, los patrones de iluminación y color de esos entornos afectarán tu modelo. Si usas ese modelo para probar los videos tomados durante el verano o la luz solar, es posible que no recibas predicciones precisas.

Considera estos factores adicionales: * Resolución de video * Fotogramas por video * Ángulo de la cámara * Fondo

Prepara los datos

Una vez que hayas recopilado los videos que deseas incluir en tu conjunto de datos, debes asegurarte de que contengan cuadros de límite con etiquetas para que el modelo sepa qué buscar.

¿Por qué mis videos necesitan cuadros de límite y etiquetas?

¿Cómo aprende un modelo de clasificación de AutoML Video Intelligence para identificar patrones? Es lo que los cuadros de límite y las etiquetas hacen durante el entrenamiento. Toma el ejemplo del fútbol: cada video de ejemplo deberá contener cuadros de límite alrededor de las tomas de acción. Esos cuadros también necesitan etiquetas como “objetivo”, “fondo personal” y “ropa de plumas” asignadas. De lo contrario, el modelo no sabrá qué debe buscar. Dibujar casillas y asignar etiquetas a tus videos de ejemplo puede llevar tiempo. Si es necesario, considera usar un servicio de etiquetado para subcontratar el trabajo a otras personas.

Entrene su modelo

Una vez preparados los datos de video de entrenamiento, estarás listo para crear un modelo de aprendizaje automático. Ten en cuenta que puedes usar el mismo conjunto de datos para crear diferentes modelos de aprendizaje automático, incluso si tienen diferentes tipos de problemas.

Uno de los beneficios de AutoML Video Intelligence Classification es que los parámetros predeterminados te guiarán a un modelo de aprendizaje automático confiable. Sin embargo, es posible que debas ajustar los parámetros según la calidad de los datos y el resultado que buscas. Por ejemplo:

  • Tipo de predicción (el nivel de detalle que se procesa en los videos)
  • Velocidad de fotogramas
  • Solución

Evalúa tu modelo

Gráfico de lupaDespués del entrenamiento del modelo, recibirás un resumen sobre el rendimiento. Las métricas de evaluación del modelo se basan en cómo se desempeñó ante una porción de tu conjunto de datos (el conjunto de datos de prueba). Hay algunas métricas y conceptos clave que debes tener en cuenta a fin de determinar si tu modelo está listo para usarse con datos reales.

Umbral de puntuación

¿Cómo sabe un modelo de aprendizaje automático cuando el objetivo de fútbol es realmente un objetivo? A cada predicción se le asigna una puntuación de confianza, una evaluación numérica acerca de la certeza del modelo de que un segmento de video determinado contiene una clase. El umbral de puntuación es el número que determina cuándo una puntuación determinada se convierte en una decisión de sí o no. Es decir, el valor al que el modelo dice “sí, este número de confianza es lo suficientemente alto como para concluir que este segmento de video contiene un objetivo”.

Imagen de umbral alto y pocas imágenes clasificadas, y umbral bajo y muchas imágenes clasificadas

Si tu umbral de puntuación es bajo, el modelo correrá el riesgo de etiquetar incorrectamente segmentos de video. Por ese motivo, el umbral de puntuación debe basarse en un caso práctico determinado. Imagina un caso práctico médico, como la detección del cáncer, en el que las consecuencias de la etiqueta incorrecta son más altas que las etiquetas de video deportivo errónea. En la detección de cáncer, es apropiado un umbral de puntuación más alto.

Resultados de la predicción

Después de aplicar el umbral de puntuación, las predicciones que realice tu modelo se clasificarán en una de cuatro categorías. Para comprender estas categorías, supongamos que compilaste un modelo para detectar si un segmento determinado contiene un objetivo de fútbol (o no). En este ejemplo, un objetivo es la clase positiva (lo que el modelo intenta predecir).

  • Verdadero positivo: El modelo predice la clase positiva de forma correcta. El modelo predijo correctamente un objetivo en el segmento de video.
  • Falso positivo: El modelo predice la clase positiva de forma incorrecta. El modelo predijo que un objetivo era parte del segmento, pero no había uno.
  • Verdadero negativo: El modelo predice la clase negativa de forma correcta. El modelo predijo correctamente que no había un objetivo en el segmento.
  • Falso negativo: El modelo predice una clase negativa de forma incorrecta. El modelo predijo que no había un objetivo en el segmento, pero había uno.

Imagen con 4 descripciones de categorías de confianza

Precisión y recuperación

Las métricas de precisión y recuperación te ayudan a comprender qué tan bien tu modelo capta información y qué omite. Obtén más información sobre precisión y recuperación

  • La precisión es la fracción correcta de las predicciones positivas. De todas las predicciones etiquetadas como "objetivo", ¿qué fracción contenía un objetivo?
  • La recuperación es la fracción de todas las predicciones positivas que se identificaron en realidad. De todos los objetivos de fútbol que se pudieron haber identificado, ¿qué fracción correspondía?

Según el caso práctico, es posible que debas optimizar la precisión o la recuperación. Considera los siguientes casos prácticos.

Caso práctico: Información privada en los videos

Imagina que estás compilando software que detecta automáticamente información sensible en un video y la difumina. Las ramificaciones de los resultados falsos pueden incluir:

  • Un falso positivo identifica algo que no necesita ser censurado, pero se censura de todas formas. Esto puede ser molesto, pero no perjudicial.

Gráfico de fecha difuminada

  • Un falso negativo no identifica la información que se debe censurar, como un número de tarjeta de crédito. Esto liberaría información privada y es el peor de los casos.

Gráfico del número de la tarjeta de crédito

En este caso práctico, es fundamental optimizar la recuperación para garantizar que el modelo encuentre todos los casos relevantes. Es más probable que un modelo optimizado para la recuperación etiquete ejemplos marginales, pero que también sea útil etiquetar las etiquetas incorrectas (que cueste más de lo que debe).

Supongamos que deseas crear un software que permita a los usuarios buscar una biblioteca de videos por palabra clave. Consideremos los resultados incorrectos:

  • Un falso positivo muestra un video irrelevante. Dado que tu sistema intenta proporcionar solo videos relevantes, tu software no está haciendo lo que está haciendo.

Imagen de guitarra que coincide con la búsqueda de guitarra

  • Un falso negativo no muestra un video relevante. Muchas palabras clave tienen cientos de videos debido a que este problema no es correcto cuando se muestra un video irrelevante.

Imagen irrelevante que se obtuvo de la búsqueda de guitarra

En este ejemplo, querrás optimizar la precisión para asegurarte de que tu modelo proporcione resultados muy relevantes y correctos. Es probable que un modelo de alta precisión etiquete solo los ejemplos más relevantes, pero puede omitir algunos. Más información sobre las métricas de evaluación del modelo

Implementa tu modelo

Gráfico de bombilla Cuando esté satisfecho con el rendimiento de su modelo, es hora de usarlo. AutoML Video Intelligence Classification usa predicciones por lotes, que te permiten subir un archivo CSV con rutas de acceso a archivos de videos alojados en Cloud Storage. Tu modelo procesará cada predicción de video y salida en otro archivo CSV. La predicción por lotes es asíncrona, lo que significa que el modelo procesará todas las solicitudes de predicción primero antes de mostrar los resultados.