Introducción a BigQuery ML

Descripción general

BigQuery ML permite a los usuarios crear y ejecutar modelos de aprendizaje automático en BigQuery mediante consultas de SQL estándar. BigQuery ML democratiza el aprendizaje automático, ya que permite que los profesionales de SQL compilen modelos con habilidades y herramientas de SQL existentes. BigQuery ML aumenta la velocidad de desarrollo mediante la eliminación de la necesidad de mover datos.

La funcionalidad de BigQuery ML está disponible en los siguientes elementos:

  • La IU web de BigQuery
  • La herramienta de línea de comandos de bq
  • La API de REST de BigQuery
  • Una herramienta externa, como un notebook Jupyter o la plataforma de inteligencia comercial

El aprendizaje automático en grandes conjuntos de datos requiere una programación extensa y conocimiento de los marcos de trabajo de AA. Estos requisitos restringen el desarrollo de soluciones a un conjunto pequeño de personas dentro de cada empresa, y excluyen a los analistas de datos que comprenden los datos, pero que tienen poco conocimiento sobre aprendizaje automático y poca experiencia en programación.

BigQuery ML les permite a los analistas de datos utilizar el aprendizaje automático mediante herramientas y habilidades de SQL existentes. Los analistas pueden utilizar BigQuery ML para compilar y evaluar modelos de AA en BigQuery. Los analistas ya no necesitan exportar pequeñas cantidades de datos a hojas de cálculo o a otras aplicaciones, y ya no necesitan esperar los recursos limitados de un equipo de científicos de datos.

Modelos admitidos en BigQuery ML

Un modelo en BigQuery ML representa lo que un sistema de AA ha aprendido de los datos de entrenamiento.

BigQuery ML admite los siguientes tipos de modelos:

  • Regresión lineal para el pronóstico; por ejemplo, las ventas de un artículo en un día determinado. Las etiquetas tienen un valor real (no pueden ser +/- infinito o NaN).
  • Regresión logística binaria para clasificación; por ejemplo, determinar si un cliente hará una compra. Las etiquetas solo deben tener dos valores posibles.
  • Regresión logística multiclase para clasificación. Estos modelos se pueden usar para predecir varios valores posibles, como si una entrada es de "valor bajo", "valor medio" o "valor alto". Las etiquetas pueden tener hasta 50 valores únicos. En BigQuery ML, el entrenamiento de regresión logística multiclase usa un clasificador multinomial con una función de pérdida de entropía cruzada.
  • Agrupamiento de clústeres de k-means para la segmentación de datos (Beta); por ejemplo, identificar segmentos de clientes. K-means es una técnica de aprendizaje no supervisado, por lo que la capacitación del modelo no requiere etiquetas ni datos divididos para el entrenamiento o la evaluación.

En BigQuery ML, se puede usar un modelo con datos de varios conjuntos de datos de BigQuery para el entrenamiento y la predicción.

Ventajas de BigQuery ML

BigQuery ML tiene las siguientes ventajas sobre otros enfoques en relación con el uso del AA con almacenes de datos basados en la nube:

  • BigQuery ML democratiza el uso del AA gracias a que permite a los analistas de datos y a los usuarios principales de almacenes de datos compilar y ejecutar modelos mediante hojas de cálculo y herramientas de inteligencia comercial existentes. Esto permite la toma de decisiones comerciales mediante análisis predictivos en toda la organización.
  • No es necesario programar una solución de AA con Python o Java. Los modelos se entrenan y se accede a ellos en BigQuery mediante SQL, un lenguaje que los analistas de datos conocen.
  • BigQuery ML aumenta la velocidad de innovación y desarrollo del modelo, ya que quita la necesidad de exportar datos desde el almacén de datos. En cambio, BigQuery ML acerca el AA a los datos. Para ello, exporta y reformatea los datos:

    • Aumenta la complejidad: se requieren múltiples herramientas.
    • Reduce la velocidad: trasladar y formatear grandes cantidades de datos para marcos de trabajo de AA basados en Python lleva más tiempo que el entrenamiento del modelo en BigQuery.
    • Se requieren múltiples pasos para exportar datos desde el almacén de datos, lo que restringe la capacidad de experimentar con tus datos.
    • Se puede evitar mediante restricciones legales (como los lineamientos HIPAA).

Regiones compatibles

Al igual que BigQuery, BigQuery ML es un recurso multirregional. BigQuery ML es compatible con las mismas regiones que BigQuery.

La localidad de los datos se especifica cuando se crea un conjunto de datos a fin de almacenar los datos de entrenamiento y los modelos de BigQuery ML. BigQuery ML procesa y organiza los datos en la misma ubicación que el conjunto de datos objetivo.

Cuotas

Además de los límites específicos de BigQuery ML, las consultas que usan las funciones de BigQuery ML y las declaraciones CREATE MODEL están sujetas a las cuotas y los límites en los trabajos de consulta de BigQuery.

Para obtener más información sobre todos los límites y cuotas de BigQuery ML, consulta Cuotas y límites.

Precios

Los modelos de BigQuery ML se almacenan en conjuntos de datos de BigQuery como tablas y vistas. Cuando creas y utilizas modelos en BigQuery ML, tus cargos se basan en la cantidad de datos que se utilizan para entrenar el modelo y en las consultas que ejecutas sobre los datos.

Si deseas obtener información sobre los precios de BigQuery ML, consulta precios de BigQuery ML. Para obtener información sobre los precios de almacenamiento de BigQuery, consulta Precios de almacenamiento. Para obtener información sobre los precios de las consultas de BigQuery ML, consulta Precios de consultas.

Recursos

Si deseas obtener más información sobre aprendizaje automático y BigQuery ML, consulta la siguiente información:

Qué sigue

¿Te sirvió esta página? Envíanos tu opinión:

Enviar comentarios sobre…

Documentación de BigQuery ML