Introducción a BigQuery ML

Descripción general

BigQuery ML te permite crear y ejecutar modelos de aprendizaje automático en BigQuery con consultas de SQL estándar. BigQuery ML permite que los profesionales de SQL compilen modelos con las herramientas y habilidades de SQL existentes para democratizar el aprendizaje automático. BigQuery ML aumenta la velocidad de desarrollo mediante la eliminación de la necesidad de mover datos.

La funcionalidad de BigQuery ML está disponible en los siguientes elementos:

  • Google Cloud Console
  • La herramienta de línea de comandos bq
  • La API de REST de BigQuery
  • Una herramienta externa, como un notebook Jupyter o la plataforma de inteligencia comercial

El aprendizaje automático en grandes conjuntos de datos requiere una programación extensa y conocimiento de los marcos de trabajo de AA. Estos requisitos restringen el desarrollo de soluciones a un conjunto pequeño de personas dentro de cada empresa, y excluyen a los analistas de datos que comprenden los datos, pero que tienen poco conocimiento sobre aprendizaje automático y poca experiencia en programación.

BigQuery ML les permite a los analistas de datos utilizar el aprendizaje automático mediante herramientas y habilidades de SQL existentes. Los analistas pueden utilizar BigQuery ML para compilar y evaluar modelos de AA en BigQuery. Los analistas no necesitan exportar pequeñas cantidades de datos a hojas de cálculo o a otras aplicaciones, ni esperar recursos limitados de un equipo de ciencia de datos.

Modelos admitidos en BigQuery ML

Un modelo en BigQuery ML representa lo que un sistema de AA aprendió de los datos de entrenamiento.

BigQuery ML es compatible con los siguientes tipos de modelos:

  • Regresión lineal para la previsión; por ejemplo, las ventas de un artículo en un día determinado. Las etiquetas tienen un valor real (no pueden ser +/- infinito o NaN)
  • Regresión logística binaria para la clasificación; por ejemplo, determinar si un cliente hará una compra. Las etiquetas solo deben tener dos valores posibles
  • Regresión logística multiclase para la clasificación. Estos modelos pueden usarse para predecir varios valores posibles; por ejemplo, si una entrada tiene un valor “bajo”, “medio” o “alto”. Las etiquetas pueden tener hasta 50 valores únicos. En BigQuery ML, el entrenamiento de regresión logística multiclase usa un clasificador multinomial con una función de pérdida de entropía cruzada
  • Agrupamiento en clústeres de k-means para la segmentación de datos, por ejemplo, identificar segmentos de clientes. K-means es una técnica de aprendizaje no supervisada, por lo que el entrenamiento de modelos no requiere etiquetas ni datos divididos para el entrenamiento o la evaluación
  • Factorización de matrices para crear sistemas de recomendación de productos. Puedes crear recomendaciones de productos según el historial del comportamiento, las transacciones y las calificaciones de productos de los clientes y, luego, usar esas recomendaciones para que los clientes tengan experiencias personalizadas
  • Serie temporal para realizar previsiones de series temporales. Puedes usar esta función a fin de crear millones de modelos de serie temporal y usarlos para la previsión. El modelo maneja las anomalías, la temporalidad y las festividades de forma automática
  • Árbol mejorado para crear modelos de regresión y clasificación basados en XGBoost
  • Red neuronal profunda (DNN) para crear redes neuronales profundas basadas en TensorFlow destinadas a modelos de clasificación y regresión
  • AutoML Tables para crear los mejores modelos sin ingeniería de atributos ni selección de modelos. AutoML Tables busca a través de una variedad de arquitecturas de modelo para elegir el mejor modelo
  • Importación de modelos de TensorFlow. Esta función te permite crear modelos de BigQuery ML a partir de modelos previamente entrenados de TensorFlow y, luego, realizar predicciones en BigQuery ML.

En BigQuery ML, puedes usar un modelo con datos de varios conjuntos de datos de BigQuery para el entrenamiento y la predicción.

Ventajas de BigQuery ML

BigQuery ML tiene las siguientes ventajas sobre otros enfoques en relación con el uso del AA con almacenes de datos basados en la nube:

  • BigQuery ML democratiza el uso del AA gracias a que permite a los analistas de datos y a los usuarios principales de almacenes de datos compilar y ejecutar modelos mediante hojas de cálculo y herramientas de inteligencia comercial existentes. Las estadísticas predictivas pueden guiar la toma de decisiones empresariales en toda la organización.
  • No es necesario programar una solución de AA con Python o Java. Los modelos se entrenan y se accede a ellos en BigQuery mediante SQL, un lenguaje que los analistas de datos conocen.
  • BigQuery ML aumenta la velocidad de innovación y desarrollo del modelo, ya que quita la necesidad de exportar datos desde el almacén de datos. En cambio, BigQuery ML acerca el AA a los datos. La necesidad de exportar y volver a formatear datos tiene las siguientes ventajas:

    • Aumenta la complejidad porque se requieren varias herramientas.
    • Reduce la velocidad, ya que mover y dar formato a los datos de grandes cantidades para los marcos de trabajo de AA basados en Python lleva más tiempo que el entrenamiento de modelos en BigQuery.
    • Se requieren múltiples pasos para exportar datos desde el almacén de datos, lo que restringe la capacidad de experimentar con tus datos.
    • Se puede evitar mediante restricciones legales (como los lineamientos HIPAA).

Regiones admitidas

BigQuery ML es compatible con las mismas regiones que BigQuery. Consulta la página Ubicaciones para ver una lista completa de las regiones y multiregiones compatibles.

Cuotas

Además de los límites específicos de BigQuery ML, las consultas que utilizan funciones de BigQuery ML y declaraciones CREATE MODEL están sujetas a las cuotas y los límites de los Trabajos de consulta de BigQuery.

Para obtener más información sobre todas las cuotas y límites de BigQuery ML, consulta Cuotas y límites.

Precios

Los modelos de BigQuery ML se almacenan en conjuntos de datos de BigQuery como tablas y vistas. Para obtener información sobre los precios de BigQuery ML, consulta precios de BigQuery ML.

Para obtener información sobre los precios de almacenamiento de BigQuery, consulta Precios de almacenamiento. Para obtener información sobre los precios de las consultas de BigQuery ML, consulta Precios de consultas.

Recursos

Para obtener más información sobre el aprendizaje automático y BigQuery ML, consulta los siguientes recursos:

Próximos pasos