Introducción a BigQuery ML

BigQuery ML te permite crear y ejecutar modelos de aprendizaje automático (AA) mediante consultas de Google SQL. También te permite acceder a LLM y API de Cloud AI para realizar tareas de inteligencia artificial (IA), como la generación de texto o la traducción automática.

Por lo general, realizar el AA o la IA en conjuntos de datos grandes requiere una programación extensa y conocimiento de los marcos de trabajo de AA. Estos requisitos restringen el desarrollo de soluciones a un grupo muy pequeño de personas dentro de cada empresa y excluyen a los analistas de datos que comprenden los datos, pero tienen conocimiento limitado sobre aprendizaje automático y poca experiencia en programación. Sin embargo, con BigQuery ML, los profesionales de SQL pueden usar herramientas y habilidades de SQL existentes para compilar y evaluar modelos, y generar resultados a partir de LLM y API de Cloud AI.

Puedes trabajar con la funcionalidad de BigQuery ML si usas lo siguiente:

  • La consola de Google Cloud
  • La herramienta de línea de comandos de bq
  • La API de REST de BigQuery
  • Notebooks integrados de Colab en BigQuery
  • Herramientas externas como un notebook Jupyter o la plataforma de inteligencia comercial

Ventajas de BigQuery ML

BigQuery ML ofrece varias ventajas sobre otros enfoques en relación con el uso de AA o IA con almacenes de datos basados en la nube:

  • BigQuery ML democratiza el uso del AA y la IA gracias a que permite a los analistas de datos y a los usuarios principales de almacenes de datos compilar y ejecutar modelos mediante hojas de cálculo y herramientas de inteligencia comercial existentes. Las estadísticas predictivas pueden guiar la toma de decisiones empresariales en toda la organización.
  • No necesita programar una solución de AA o IA con Python o Java. Entrenas modelos y accedes a recursos de IA mediante SQL, un lenguaje familiar para los analistas de datos.
  • BigQuery ML aumenta la velocidad de innovación y desarrollo del modelo, ya que quita la necesidad de exportar datos desde el almacén de datos. En cambio, BigQuery ML aporta el AA a los datos, lo que ofrece las siguientes ventajas:

    • Complejidad reducida porque se requieren menos herramientas.
    • Mayor velocidad de producción porque mover y formatear grandes cantidades de datos para marcos de trabajo de AA basados en Python no es necesario a fin de entrenar un modelo en BigQuery.

    Para obtener más información, mira el video Cómo acelerar el desarrollo del aprendizaje automático con BigQuery ML.

Modelos compatibles

Un modelo en BigQuery ML representa lo que un sistema de AA aprendió de los datos de entrenamiento. En las siguientes secciones, se describen los tipos de modelos que admite BigQuery ML.

Modelos entrenados de forma interna

Los siguientes modelos están integrados en BigQuery ML:

  • La regresión lineal es para la previsión. Por ejemplo, este modelo prevé las ventas de un artículo en un día determinado. Las etiquetas tienen un valor real, lo que significa que no pueden ser infinitos positivos o infinitos negativos o un NaN (no un número).
  • La regresión logística es para la clasificación de dos o más valores posibles, como si una entrada es low-value, medium-value o high-value. Las etiquetas pueden tener hasta 50 valores únicos.
  • El agrupamiento en clústeres de k-means se usa para la segmentación de datos. Por ejemplo, este modelo identifica segmentos de clientes. K-means es una técnica de aprendizaje no supervisada, por lo que el entrenamiento de modelos no requiere etiquetas ni datos divididos para el entrenamiento o la evaluación.
  • Factorización de matrices para crear sistemas de recomendación de productos. Puedes crear recomendaciones de productos según el historial del comportamiento, las transacciones y las calificaciones de productos de los clientes y, luego, usar esas recomendaciones para que los clientes tengan experiencias personalizadas
  • El Análisis de componentes principales (PCA) consiste en procesar los componentes principales y usarlos para realizar un cambio en función de los datos. Por lo general, se usa para la reducción de la dimensionalidad mediante la proyección de cada dato a los primeros componentes principales para obtener datos de menor dimensión y, al mismo tiempo, conservar la mayor variación posible de los datos.
  • La serie temporal se usa para realizar previsiones de series temporales. Puedes usar esta función a fin de crear millones de modelos de serie temporal y usarlos para la previsión. El modelo maneja las anomalías, la temporalidad y las festividades de forma automática

Puedes realizar una ejecución de prueba en las declaraciones CREATE MODEL para modelos entrenados de forma interna a fin de obtener una estimación de la cantidad de datos que procesarán si los ejecutas.

Modelos entrenados de forma externa

Los siguientes modelos son externos a BigQuery ML y están entrenados en Vertex AI:

  • La red neuronal profunda (DNN) se usa para crear redes neuronales profundas basadas en TensorFlow y destinadas a modelos de clasificación y de regresión.
  • El algoritmo de amplitud y profundidad es útil para problemas de regresión y clasificación genéricos a gran escala con entradas dispersas (atributos categóricos con un número grande) de valores de atributos posibles, como los sistemas recomendadores, la búsqueda y los problemas de clasificación.
  • El Autoencoder se usa para crear modelos basados en TensorFlow que admiten representaciones de datos dispersos. Puedes usar los modelos en BigQuery ML para tareas como la detección de anomalías no supervisadas y la reducción de dimensiones no lineal.
  • Un árbol con boosting se usa para crear modelos de clasificación y regresión basados en XGBoost.
  • Un bosque aleatorio sirve para construir árboles de decisión de métodos de aprendizaje para clasificación, regresión y otras tareas durante el entrenamiento.
  • AutoML es un servicio de AA supervisado que compila y, además, implementa modelos de clasificación y regresión en datos tabulares a alta velocidad y escala.

No puedes realizar una prueba de validación en las declaraciones CREATE MODEL para modelos entrenados de forma externa para obtener una estimación de la cantidad de datos que procesarán si los ejecutas.

Modelos remotos

Puedes crear modelos remotos en BigQuery que usen modelos implementados en Vertex AI. Para hacer referencia al modelo implementado, especifica el extremo HTTPS del modelo en la declaración CREATE MODEL del modelo remoto.

Las declaraciones CREATE MODEL para modelos importados no procesan bytes ni generan cargos de BigQuery.

Modelos importados

BigQuery ML te permite importar modelos personalizados que se entrenan fuera de BigQuery y, luego, realizar predicciones dentro de BigQuery. Puedes importar los siguientes modelos en BigQuery desde Cloud Storage:

  • Open Neural Network Exchange (ONNX) es un formato estándar abierto para representar modelos de AA. Mediante ONNX, puedes hacer que los modelos entrenados con frameworks de AA populares, como PyTorch y scikit-learn, estén disponibles en BigQuery ML.
  • TensorFlow es una biblioteca de software de código abierto gratuita para la inteligencia artificial y el AA. Puedes usar TensorFlow en una gran variedad de tareas, pero se enfoca en el entrenamiento y la inferencia de las redes neuronales profundas. Puedes cargar modelos de TensorFlow entrenados con anterioridad en BigQuery como modelos de BigQuery ML y, luego, realizar predicciones en BigQuery ML.
  • TensorFlow Lite es una versión básica de TensorFlow para implementar en dispositivos móviles, microcontroladores y otros dispositivos perimetrales. TensorFlow optimiza los modelos existentes de TensorFlow para reducir el tamaño del modelo y lograr una inferencia más rápida.
  • XGBoost es una biblioteca de potenciación de gradiente distribuido y optimizada diseñada para ser muy eficiente, flexible y portátil. Implementa algoritmos de AA en el framework de potenciación de gradientes.

Las declaraciones CREATE MODEL para modelos importados no procesan bytes ni generan cargos de BigQuery.

En BigQuery ML, puedes usar un modelo con datos de varios conjuntos de datos de BigQuery para el entrenamiento y la predicción.

Guía de selección de modelos

Este árbol de decisión asigna los modelos de AA a las acciones que deseas lograr. Descarga el árbol de decisión de la selección de modelos.

Recursos de IA compatibles

Puedes usar modelos remotos para acceder a los recursos de IA, como LLM desde BigQuery ML. BigQuery ML admite los siguientes recursos de IA:

BigQuery ML y Vertex AI

BigQuery ML se integra en Vertex AI, que es la plataforma de extremo a extremo para la IA y el AA en Google Cloud. Cuando registras tus modelos de BigQuery ML en Model Registry, puedes implementar estos modelos en extremos para la predicción en línea. Para obtener más información, consulta lo siguiente:

BigQuery ML y Colab Enterprise

Ahora puedes usar notebooks de Colab Enterprise para realizar flujos de trabajo de AA en BigQuery. Los notebooks te permiten usar SQL, Python y otras bibliotecas y lenguajes populares para realizar tus tareas de AA. Para obtener más información, consulta Crea notebooks.

Regiones admitidas

BigQuery ML es compatible con las mismas regiones que BigQuery. Para obtener más información, consulta Ubicaciones de BigQuery ML.

Precios

Los modelos de BigQuery ML se almacenan en conjuntos de datos de BigQuery como tablas y vistas. Si deseas obtener información sobre los precios de BigQuery ML, consulta los precios de BigQuery ML.

Para los precios de almacenamiento de BigQuery, consulta Precios de almacenamiento.

Para los precios de consulta de BigQuery ML, consulta Precios de consulta.

Cuotas

Además de los límites específicos de BigQuery ML, las consultas que utilizan funciones de BigQuery ML y declaraciones CREATE MODEL están sujetas a las cuotas y los límites de los Trabajos de consulta de BigQuery.

Limitaciones

¿Qué sigue?