Introducción a los algoritmos integrados

En esta página se proporciona una descripción general del entrenamiento con algoritmos integrados. Con estos, en AI Platform Training puedes ejecutar trabajos de entrenamiento en tus datos sin escribir ningún código para una aplicación de entrenamiento. Puedes enviar los datos de entrenamiento, seleccionar un algoritmo y permitir que AI Platform Training administre el procesamiento previo y el entrenamiento. Después de eso, es fácil implementar tu modelo y obtener predicciones en AI Platform Training.

Cómo funciona el entrenamiento con algoritmos integrados

AI Platform Training ejecuta tu trabajo de entrenamiento en recursos de procesamiento en la nube. Este es el proceso general:

  1. Compara los algoritmos integrados disponibles para determinar si se ajustan a tu conjunto de datos específico y tu caso práctico.
  2. Establece el formato de tus datos de entrada para el entrenamiento con el algoritmo integrado. Debes enviar tus datos como un archivo CSV sin la fila de encabezado, y la columna de destino debe establecerse como la primera columna. Si corresponde, sigue los requisitos de formato adicionales específicos del algoritmo integrado que estés usando.
  3. Crea un bucket de Cloud Storage en el que AI Platform Training pueda almacenar la salida del entrenamiento si aún no lo tienes.
  4. Selecciona opciones para personalizar tu trabajo de entrenamiento. Primero, configura el trabajo de entrenamiento general y, luego, el algoritmo de forma específica. De manera opcional, puedes configurar el ajuste de hiperparámetros para tu trabajo.
    • Para el trabajo de entrenamiento general, selecciona el nombre del trabajo, el algoritmo integrado y la máquina que quieras usar, la región donde se debe ejecutar el trabajo y la ubicación del bucket de Cloud Storage en el que quieres que se almacenen las salidas de entrenamiento de AI Platform Training.
    • Para las selecciones específicas del algoritmo, puedes habilitar AI Platform Training a fin de realizar un procesamiento previo automático en tu conjunto de datos. También puedes especificar argumentos como la tasa de aprendizaje, los pasos de entrenamiento y el tamaño del lote.
    • Para el ajuste de hiperparámetro, puedes seleccionar una métrica de objetivo, como las opciones para maximizar la precisión predictiva de tu modelo o minimizar la pérdida de entrenamiento. Además, puedes ajustar hiperparámetros específicos y establecer rangos para sus valores.
  5. Envía el trabajo de entrenamiento y consulta los registros para supervisar su progreso y estado.
  6. Cuando el trabajo de entrenamiento se haya completado de manera correcta, puedes implementar tu modelo entrenado en AI Platform Training para configurar un servidor de predicción y obtener predicciones sobre datos nuevos.

Limitaciones

Ten en cuenta las siguientes limitaciones para el entrenamiento con algoritmos integrados:

Todas las limitaciones adicionales para los algoritmos integrados se mencionan en las guías para cada algoritmo correspondientes.

Ajuste de hiperparámetros

El ajuste de hiperparámetros es compatible para el entrenamiento con algoritmos integrados. Primero, especifica una métrica de objetivo junto con la opción para minimizarla o maximizarla. Puedes maximizar la exactitud de tu modelo para la clasificación, o minimizar tu pérdida de entrenamiento. Luego, enumera los hiperparámetros que deseas ajustar junto con un valor objetivo para cada hiperparámetro.

Cuando envías tu trabajo de entrenamiento con ajuste de hiperparámetros, AI Platform Training ejecuta varias pruebas y, después de cada una, realiza el seguimiento y el ajuste de los hiperparámetros. Cuando se completa el trabajo de ajuste de hiperparámetros, AI Platform Training informa los valores de la configuración más efectiva de los hiperparámetros y proporciona un resumen de cada prueba.

Obtén más información sobre el ajuste de hiperparámetros en AI Platform Training.

Descripción general de los algoritmos

Los algoritmos integrados te ayudan a entrenar modelos para una variedad de casos prácticos que, por lo general, se resuelven con clasificación y regresión. Los siguientes algoritmos integrados están disponibles para el entrenamiento en AI Platform Training:

  • Algoritmo de aprendizaje lineal
  • Algoritmo de amplitud y profundidad
  • TabNet
  • XGBoost
  • Clasificación de imágenes
  • Detección de objetos

Algoritmo de aprendizaje lineal

El algoritmo de aprendizaje lineal integrado se usa para la regresión logística, la clasificación binaria y la clasificación multiclase. AI Platform Training usa una implementación basada en un Estimador de TensorFlow.

Un modelo de algoritmo de aprendizaje lineal asigna un peso a cada atributo de entrada y suma los pesos para predecir un valor de segmentación numérico. Para la regresión logística, este valor se convierte en un valor entre 0 y 1. Este tipo simple de modelo es fácil de interpretar, ya que puedes comparar los pesos de las características para determinar qué atributos de entrada tienen un impacto significativo en tus predicciones.

Obtén más información sobre cómo funcionan los modelos lineales a gran escala.

Algoritmo de amplitud y profundidad

El algoritmo de amplitud y profundidad integrado se usa para problemas de regresión y clasificación a gran escala, como los problemas de la clasificación, la búsqueda y los sistemas de recomendación. AI Platform Training usa una implementación basada en un Estimador de TensorFlow.

Este tipo de modelo combina un modelo lineal que aprende y “memoriza” una amplia gama de reglas con una red neuronal profunda que “generaliza” las reglas y las aplica de forma correcta a atributos similares en datos nuevos.

Obtén más información sobre el aprendizaje del algoritmo de amplitud y profundidad.

TabNet

El algoritmo integrado TabNet se usa para los problemas de clasificación y regresión en los datos tabulares. AI Platform Training usa una implementación basada en TensorFlow.

El algoritmo integrado TabNet también proporciona atribuciones de atributos para ayudar a interpretar el comportamiento del modelo y explicar sus predicciones.

Obtén más información sobre TabNet como un nuevo algoritmo integrado.

XGBoost

XGBoost (eXtreme Gradient Boosting) es un framework que implementa un algoritmo de potenciación de gradiente. XGBoost permite un aprendizaje supervisado eficaz para tareas de clasificación, regresión y ranking. El entrenamiento de XGBoost se basa en ensambles de árbol de decisión, que combinan los resultados de varios modelos de clasificación y regresión.

Obtén más información sobre cómo funciona XGBoost.

Image Classification

El algoritmo integrado de detección de imágenes usa los modelos de clasificación de imágenes de TensorFlow. Puedes entrenar un modelo de clasificación de imágenes basado en una implementación de TensorFlow o ResNet.

Object Detection

El algoritmo integrado de detección de objetos usa la API de detección de objetos de TensorFlow para compilar un modelo que puede identificar varios objetos dentro de una sola imagen.

Compara los algoritmos integrados

En la siguiente tabla, se proporciona una comparación rápida de los algoritmos integrados:

Nombre del algoritmo Modelo de AA utilizado Tipo de problema Casos prácticos de ejemplo Aceleradores compatibles para el entrenamiento
Algoritmo de aprendizaje lineal Estimador de TensorFlow
LinearClassifier y LinearRegressor.
Clasificación, regresión Previsión de ventas GPU
Algoritmo de amplitud y profundidad Estimador de TensorFlow
DNNLinearCombinedClassifier, DNNLinearCombinedEstimator y DNNLinearCombinedRegressor.
Clasificación, regresión, ranking Sistemas de recomendación, búsqueda GPU
TabNet Estimador de TensorFlow Clasificación, regresión Predicción de la tasa de clics (CTR) de publicidad, detección de fraudes GPU
XGBoost XGBoost Clasificación, regresión Predicción de la tasa de clics (CTR) de publicidad GPU (solo compatible con la versión distribuida del algoritmo)
Clasificación de imágenes Modelos de clasificación de imágenes de TensorFlow Clasificación Clasifica imágenes GPU, TPU
Object Detection API de detección de objetos de TensorFlow Detección de objetos Detecta objetos dentro de escenas de imágenes complejas GPU, TPU

Contenedores de algoritmos

Cuando envías tu trabajo de entrenamiento a AI Platform Training, para seleccionar el algoritmo debes especificar el URI a su contenedor de Docker correspondiente alojado en Container Registry. Los algoritmos integrados están disponibles a través de los contenedores siguientes:

Algoritmo URI de Container Registry
Algoritmo de aprendizaje lineal gcr.io/cloud-ml-algos/linear_learner_cpu:latest
gcr.io/cloud-ml-algos/linear_learner_gpu:latest
Algoritmo de amplitud y profundidad gcr.io/cloud-ml-algos/wide_deep_learner_cpu:latest
gcr.io/cloud-ml-algos/wide_deep_learner_gpu:latest
TabNet gcr.io/cloud-ml-algos/tab_net:latest
XGBoost gcr.io/cloud-ml-algos/boosted_trees:latest
gcr.io/cloud-ml-algos/xgboost_dist:latest
Clasificación de imágenes gcr.io/cloud-ml-algos/image_classification:latest
Detección de objetos gcr.io/cloud-ml-algos/image_object_detection:latest

¿Qué sigue?