Elegir un método de entrenamiento

En este documento se explican las principales diferencias entre entrenar un modelo en Vertex AI con AutoML, entrenamiento personalizado o Ray en Vertex AI, y entrenar un modelo con BigQuery ML.

  • Con AutoML, puedes crear y entrenar un modelo con un esfuerzo técnico mínimo. Puedes usar AutoML para crear prototipos de modelos rápidamente y explorar nuevos conjuntos de datos antes de invertir en el desarrollo. Por ejemplo, puedes usarlo para saber qué funciones son las más adecuadas para un conjunto de datos concreto.

  • Con el entrenamiento personalizado, puedes crear una aplicación de entrenamiento optimizada para el resultado que quieras conseguir. Tienes control total sobre la funcionalidad de la aplicación de entrenamiento. Es decir, puedes orientar tus campañas a cualquier objetivo, usar cualquier algoritmo, desarrollar tus propias funciones de pérdida o métricas, o hacer cualquier otra personalización.

  • Con Ray en Vertex AI, puedes usar el framework de computación distribuida de Ray en la infraestructura de Google Cloud . Ray en Vertex AI proporciona un entorno gestionado con recursos de computación configurables, integración con servicios como Vertex AI Inference y BigQuery, y opciones de redes flexibles para desarrollar y ejecutar cargas de trabajo distribuidas.

  • Con BigQuery, puedes entrenar modelos con tus datos de BigQuery directamente en BigQuery. Con los comandos SQL, puedes crear rápidamente un modelo y usarlo para obtener inferencias por lotes.

Para comparar las diferentes funciones y la experiencia que se requiere para cada servicio, consulta la siguiente tabla.

AutoML Entrenamiento personalizado Ray en Vertex AI BigQuery ML
Se necesitan conocimientos de ciencia de datos No Sí, para desarrollar la aplicación de entrenamiento y también para hacer parte de la preparación de los datos, como la ingeniería de funciones. Es recomendable tener conocimientos básicos sobre los conceptos de aprendizaje automático y los flujos de trabajo de ciencia de datos. No
Se necesitan conocimientos de programación No. AutoML no requiere código. Sí, para desarrollar la aplicación de entrenamiento. Sí. Sí.
Tiempo de entrenamiento del modelo Más abajo. Se requiere menos preparación de datos y no es necesario desarrollar nada. Más alto. Se necesita más preparación de los datos y desarrollo de la aplicación de entrenamiento. El entrenamiento distribuido puede reducir el tiempo que se tarda en entrenar un modelo. El tiempo de entrenamiento depende de la lógica del código (preparación de datos y entrenamiento) y del tiempo necesario para aprovisionar los recursos. Más abajo. La velocidad de desarrollo de modelos aumenta, ya que no es necesario crear la infraestructura necesaria para las inferencias por lotes o el entrenamiento de modelos, ya que BigQuery ML aprovecha el motor computacional de BigQuery. Esto aumenta la velocidad de entrenamiento, evaluación e inferencia.
Límites de los objetivos de aprendizaje automático Sí. Debes elegir uno de los objetivos predefinidos de AutoML. No No
Puede optimizar manualmente el rendimiento de los modelos con el ajuste de hiperparámetros No. AutoML ajusta automáticamente algunos hiperparámetros, pero no puedes modificar los valores utilizados. Sí. Puedes ajustar el modelo durante cada ejecución de entrenamiento para experimentar y comparar. Sí. Como proporcionas el código de entrenamiento personalizado, puedes definir o ajustar manualmente los valores de tus hiperparámetros antes de iniciar un trabajo de Ray en Vertex AI. Sí. BigQuery ML admite el ajuste de hiperparámetros al entrenar modelos de aprendizaje automático mediante instrucciones `CREATE MODEL`.
Puede controlar aspectos del entorno de formación limitado. En el caso de los conjuntos de datos de imágenes y tabulares, puedes especificar el número de horas de nodo que se deben usar para el entrenamiento y si se debe permitir la detención anticipada del entrenamiento. Sí. Puedes especificar aspectos del entorno, como el tipo de máquina de Compute Engine, el tamaño del disco, el framework de aprendizaje automático y el número de nodos, así como la imagen de Docker que quieras usar para el entrenamiento. Sí. Tienes un control significativo sobre varios aspectos del entorno de entrenamiento. Por ejemplo, puedes usar tus propias imágenes de contenedor Docker personalizadas en tu clúster de Ray en Vertex AI. Cuando creas un clúster de Ray, puedes especificar el tipo de máquina tanto para el nodo principal como para los nodos de trabajo, incluido el número y el tipo de aceleradores (GPUs) que quieras usar, entre otras opciones. No
Límites de tamaño de los datos

Sí. AutoML usa conjuntos de datos gestionados. Las limitaciones de tamaño de los datos varían en función del tipo de conjunto de datos. Consulta uno de los siguientes temas para obtener información específica:

En el caso de los conjuntos de datos no gestionados, no. Los conjuntos de datos gestionados tienen los mismos límites que los objetos de conjuntos de datos gestionados creados y alojados en BigQuery, y se usan para entrenar modelos de AutoML. No. Sin embargo, el tamaño máximo de respuesta de las consultas de lectura de BigQuery es de 10 GB. Se trata de una limitación del tamaño de la respuesta de la API de BigQuery, no necesariamente del volumen total de datos que Ray en Vertex AI puede procesar de BigQuery mediante consultas iterativas o paralelas. Sí. BigQuery ML aplica las cuotas pertinentes a cada proyecto. Para obtener más información, consulta Cuotas y límites.

Siguientes pasos