¿Qué es BigQuery ML?

BigQuery ML te permite crear y ejecutar modelos de aprendizaje automático mediante consultas de Google SQL. BigQuery ML permite que los profesionales de SQL compilen modelos mediante las herramientas y las habilidades existentes de SQL para democratizar el aprendizaje automático. BigQuery ML aumenta la velocidad de desarrollo mediante la eliminación de la necesidad de mover datos.

La funcionalidad de BigQuery ML está disponible mediante los siguientes recursos:

  • La consola de Google Cloud
  • La herramienta de línea de comandos bq
  • La API de REST de BigQuery
  • Una herramienta externa, como un notebook Jupyter o la plataforma de inteligencia comercial

El aprendizaje automático en grandes conjuntos de datos requiere una programación extensa y conocimiento de los marcos de trabajo de AA. Estos requisitos restringen el desarrollo de soluciones a un conjunto pequeño de personas dentro de cada empresa, y excluyen a los analistas de datos que comprenden los datos, pero que tienen poco conocimiento sobre aprendizaje automático y poca experiencia en programación.

BigQuery ML les permite a los analistas de datos utilizar el aprendizaje automático mediante herramientas y habilidades de SQL existentes. Los analistas pueden utilizar BigQuery ML para compilar y evaluar modelos de AA en BigQuery. Los analistas no necesitan exportar pequeñas cantidades de datos a hojas de cálculo o a otras aplicaciones, ni esperar recursos limitados de un equipo de ciencia de datos.

Modelos compatibles

Un modelo en BigQuery ML representa lo que un sistema de aprendizaje automático (AA) aprendió de los datos de entrenamiento. BigQuery ML es compatible con los siguientes tipos de modelos:

Modelos entrenados de forma interna

Los siguientes modelos están integrados en BigQuery ML:

  • La regresión lineal es para la previsión. Por ejemplo, este modelo prevé las ventas de un artículo en un día determinado. Las etiquetas tienen un valor real, lo que significa que no pueden ser +/- infinito o NaN.
  • La regresión logística es para la clasificación de dos o más valores posibles, como si una entrada es de “valor bajo”, “valor medio” o “valor alto”. Las etiquetas pueden tener hasta 50 valores únicos.
  • El agrupamiento en clústeres de k-means se usa para la segmentación de datos. Por ejemplo, este modelo identifica segmentos de clientes. K-means es una técnica de aprendizaje no supervisado, por lo que la capacitación del modelo no requiere etiquetas ni datos divididos para el entrenamiento o la evaluación.
  • Factorización de matrices para crear sistemas de recomendación de productos. Puedes crear recomendaciones de productos según el historial del comportamiento, las transacciones y las calificaciones de productos de los clientes y, luego, usar esas recomendaciones para que los clientes tengan experiencias personalizadas
  • El Análisis de componentes principales (PCA) consiste en procesar los componentes principales y usarlos para realizar un cambio en función de los datos. Por lo general, se usa para la reducción de la dimensionalidad mediante la proyección de cada dato a los primeros componentes principales para obtener datos de menor dimensión y, al mismo tiempo, conservar la mayor variación posible de los datos.
  • La serie temporal se usa para realizar previsiones de series temporales. Puedes usar esta función a fin de crear millones de modelos de serie temporal y usarlos para la previsión. El modelo maneja las anomalías, la temporalidad y las festividades de forma automática

Modelos entrenados de forma externa

Los siguientes modelos son externos a BigQuery ML y están entrenados en Vertex AI:

  • La red neuronal profunda (DNN) se usa para crear redes neuronales profundas basadas en TensorFlow y destinadas a modelos de clasificación y de regresión.
  • El algoritmo de amplitud y profundidad es útil para problemas de regresión y clasificación genéricos a gran escala con entradas dispersas (atributos categóricos con un número grande) de valores de atributos posibles, como los sistemas recomendadores, la búsqueda y los problemas de clasificación.
  • El Autoencoder se usa para crear modelos basados en TensorFlow que admiten representaciones de datos dispersos. Los modelos se pueden usar en BigQuery ML para tareas como la detección de anomalías no supervisada y la reducción de dimensiones no lineal.
  • Un árbol con boosting se usa para crear modelos de clasificación y regresión basados en XGBoost.
  • Un bosque aleatorio sirve para construir árboles de decisión de métodos de aprendizaje para clasificación, regresión y otras tareas durante el entrenamiento.
  • AutoML Tables de Vertex AI es un servicio supervisado de AA que usa datos tabulares para compilar y, luego, implementar modelos de AA en datos estructurados a alta velocidad y a gran escala.

Modelos remotos

Puedes crear modelos remotos en BigQuery con un extremo de Vertex AI o la opción remote_service_type.

Modelos importados

BigQuery ML te permite importar modelos personalizados entrenados fuera de BigQuery y, luego, realizar predicciones dentro de BigQuery. Los siguientes modelos se pueden importar a BigQuery desde Cloud Storage:

  • Open Neural Network Exchange (ONNX) es un formato estándar abierto para representar modelos de AA. Mediante ONNX, puedes hacer que los modelos entrenados con frameworks de AA populares, como PyTorch y scikit-learn, estén disponibles en BigQuery ML.
  • TensorFlow es una biblioteca de software de código abierto gratuita para la inteligencia artificial y el AA. TensorFlow se puede usar en un rango de tareas, pero se enfoca en el entrenamiento y la inferencia de las redes neuronales profundas. Puedes cargar modelos de TensorFlow entrenados con anterioridad en BigQuery como modelos de BigQuery ML y, luego, realizar predicciones en BigQuery ML.
  • TensorFlow Lite es una versión básica de TensorFlow para implementar en dispositivos móviles, microcontroladores y otros dispositivos perimetrales. TensorFlow optimiza los modelos existentes de TensorFlow para reducir el tamaño del modelo y lograr una inferencia más rápida.
  • XGBoost es una biblioteca de potenciación de gradiente distribuido y optimizada diseñada para ser muy eficiente, flexible y portátil. Implementa algoritmos de AA en el framework de potenciación de gradientes.

En BigQuery ML, puedes usar un modelo con datos de varios conjuntos de datos de BigQuery para el entrenamiento y la predicción.

Guía de selección de modelos

Diagrama que te ayudará a elegir un modelo de AA para tu tarea Descargar hoja de referencia

Ventajas de BigQuery ML

BigQuery ML tiene las siguientes ventajas sobre otros enfoques en relación con el uso del AA con almacenes de datos basados en la nube:

  • BigQuery ML democratiza el uso del AA gracias a que permite a los analistas de datos y a los usuarios principales de almacenes de datos compilar y ejecutar modelos mediante hojas de cálculo y herramientas de inteligencia comercial existentes. Las estadísticas predictivas pueden guiar la toma de decisiones empresariales en toda la organización.
  • No es necesario programar una solución de AA con Python o Java. Los modelos se entrenan y se accede a ellos en BigQuery mediante SQL, un lenguaje que los analistas de datos conocen.

  • BigQuery ML aumenta la velocidad de innovación y desarrollo del modelo, ya que quita la necesidad de exportar datos desde el almacén de datos. En cambio, BigQuery ML acerca el AA a los datos. BigQuery ML tiene las siguientes ventajas sobre la exportación y el cambio de formato de datos:

    • Reduce la complejidad, ya que se requieren menos herramientas.
    • Aumenta la velocidad de producción, ya que mover y formatear grandes cantidades de datos para marcos de trabajo de AA basados en Python no es necesario en el entrenamiento de modelos en BigQuery.

    Para obtener más información, mira el video Cómo acelerar el desarrollo del aprendizaje automático con BigQuery ML.

BigQuery ML y Vertex AI

BigQuery ML se integra en Vertex AI, la plataforma de IA/AA de extremo a extremo de Google Cloud. Cuando registras tus modelos de BigQuery ML en Vertex AI Model Registry, puedes implementar estos modelos en extremos para la predicción en línea.

Para obtener más información, mira el video Cómo simplificar los modelos de la IA con Vertex AI y BigQuery ML.

Regiones admitidas

BigQuery ML es compatible con las mismas regiones que BigQuery. Para obtener más información, consulta Ubicaciones de BigQuery ML.

Precios

Los modelos de BigQuery ML se almacenan en conjuntos de datos de BigQuery como tablas y vistas. Si deseas obtener información sobre los precios de BigQuery ML, consulta los precios de BigQuery ML.

Para obtener información sobre los precios de almacenamiento de BigQuery, consulta los Precios de almacenamiento. Para obtener información sobre los precios de las consultas de BigQuery ML, consulta los Precios de consulta.

Cuotas

Además de los límites específicos de BigQuery ML, las consultas que utilizan funciones de BigQuery ML y declaraciones CREATE MODEL están sujetas a las cuotas y los límites de los Trabajos de consulta de BigQuery.

Limitaciones

¿Qué sigue?