Descripción general de la evaluación continua

La evaluación continua muestra regularmente las entradas y salidas de predicción de modelos de aprendizaje automático entrenados que implementaste en AI Platform Prediction. El Servicio de Etiquetado de Datos de AI Platform asigna revisores manuales a fin de proporcionar etiquetas de verdad fundamental para tu entrada de predicción. De forma alternativa, puedes proporcionar tus propias etiquetas de verdad fundamental. El Servicio de Etiquetado de datos compara las predicciones de tus modelos con las etiquetas de verdad fundamental para proporcionar comentarios continuos sobre el rendimiento del modelo con el paso del tiempo.

Cómo funciona

Para usar la evaluación continua, tienes que haber implementado antes un modelo de aprendizaje automático entrenado en AI Platform Prediction como una versión del modelo. Luego, puedes crear un trabajo de evaluación para la versión del modelo.

La creación de un trabajo de evaluación para una versión del modelo tiene dos consecuencias importantes:

  • Como la versión del modelo entrega predicciones en línea, las entradas y los resultados de algunas de estas predicciones se guardan en una tabla de BigQuery. Este muestreo ocurre con frecuencia, cada vez que tu modelo entrega predicciones. Puedes personalizar la cantidad de datos que se muestran.
  • De forma intermitente, el trabajo de evaluación se ejecuta y genera métricas de evaluación.

Puedes ver las métricas de evaluación resultantes en la consola de Google Cloud.

Verdad fundamental

Las etiquetas de verdad fundamental son las que los humanos determinan que son correctas para la tarea de aprendizaje automático. La evaluación continua las utiliza como clave de respuesta y calcula las métricas mediante la comparación de las predicciones de la versión del modelo con las etiquetas de verdad fundamental. Cuando creas un trabajo de evaluación, debes decidir de qué modo deseas generar etiquetas de verdad fundamental para tus datos de predicción. Existen dos opciones:

  • El Servicio de etiquetado de datos puede asignar revisores manuales a fin de proporcionar etiquetas de verdad fundamental para los datos de predicción.
  • Puedes proporcionar tus propias etiquetas de verdad fundamental.

Ejecución de trabajos de evaluación

De forma predeterminada, los trabajos de evaluación se ejecutan diariamente a las 10:00 a.m. UTC. Lo que ocurra durante una ejecución dependerá de cómo generes las etiquetas de verdad fundamental.

Qué ocurre cuando el Servicio de etiquetado de datos proporciona etiquetas de verdad fundamental

Cuando se ejecuta el trabajo de evaluación, el Servicio de etiquetado de datos crea un conjunto de datos con todas las filas nuevas en BigQuery desde la última ejecución. Estos contienen la entrada y la salida de predicción de la muestra de tu versión del modelo.

Luego, el Servicio de etiquetado de datos envía una solicitud de etiquetado basada en este conjunto de datos para que los revisores manuales proporcionen etiquetas de verdad fundamental.

Cuando se completa la solicitud de etiquetado, el Servicio de Etiquetado de Datos calcula las métricas de evaluación mediante las etiquetas de verdad fundamental nuevas y la salida de predicción de la versión del modelo.

Los etiquetadores humanos pueden tardar más de un día en completar tu solicitud de etiquetado, especialmente si muestras una gran cantidad de datos de predicción en tu tabla BigQuery. Si esto sucede, el trabajo de evaluación se seguirá ejecutando al día siguiente, según su programación. Esto significa que el trabajo se está ejecutando varias veces de forma paralela. Cada ejecución se aplica a una muestra separada de datos de predicción: las predicciones de la versión del modelo el día anterior a la ejecución. Independientemente del tiempo que demoren las ejecuciones, estas producen métricas de evaluación en relación con un día específico de predicciones.

Qué ocurre cuando proporcionas etiquetas de verdad fundamental tú mismo

Como en la sección anterior, cuando se ejecuta el trabajo de evaluación, el Servicio de etiquetado de datos crea un conjunto de datos con todas las filas nuevas en BigQuery desde la última ejecución. Pero, en este caso, tienes que haber agregado previamente etiquetas de verdad fundamental a la columna groundtruth de la tabla antes de que se lleve a cabo la ejecución. El trabajo de evaluación omite las filas que no tienen una etiqueta de verdad fundamental, y estas filas no pueden incluirse en una ejecución de trabajo de evaluación en el futuro.

Después de crear el conjunto de datos, el Servicio de Etiquetado de Datos calcula las métricas de evaluación de inmediato.

Si usas este método, tienes que agregar etiquetas de verdad fundamental para nuevas predicciones todos los días, antes de que se ejecute el trabajo de evaluación.

Precios

Si el Servicio de Etiquetado de Datos asigna revisores manuales para proporcionar etiquetas de verdad fundamental, se aplicará el precio del Servicio de Etiquetado de Datos. Además de esto, no hay costos específicos respecto de la evaluación continua.

Para usar la evaluación continua, también tienes que poner en práctica AI Platform Prediction, BigQuery y Cloud Storage. Estos productos pueden incurrir en cargos.

¿Qué sigue?

Lee sobre los pasos que debes seguir antes de crear un trabajo de evaluación.