Previsión de series temporales jerárquicas
En este instructivo, aprenderás a generar una serie temporal jerárquica. En este instructivo, crearás dos modelos de series temporales con los mismos datos, uno de los cuales usa la previsión jerárquica y el otro no. Esto te permite comparar los resultados que muestran los modelos.
En este instructivo, usarás los datos de iowa_liquor.sales.sales
para entrenar los modelos. Este conjunto de datos contiene información de más de 1 millón de productos de licores en diferentes tiendas con datos públicos de ventas de licores de Iowa.
Antes de seguir este instructivo, debes estar familiarizado con la previsión de varias series temporales. Completa el instructivo Cómo realizar previsiones de varias series temporales a partir de datos de Google Analytics para obtener una introducción a este tema.
Permisos necesarios
- Para crear el conjunto de datos, necesitas el permiso
bigquery.datasets.create
de IAM. Para crear el recurso de conexión, necesitas los siguientes permisos:
bigquery.connections.create
bigquery.connections.get
Para crear el modelo, necesitas los siguientes permisos:
bigquery.jobs.create
bigquery.models.create
bigquery.models.getData
bigquery.models.updateData
bigquery.connections.delegate
Para ejecutar inferencias, necesitas los siguientes permisos:
bigquery.models.getData
bigquery.jobs.create
Para obtener más información sobre los roles y permisos de IAM en BigQuery, consulta Introducción a IAM.
Objetivos
En este instructivo usarás lo siguiente:
- La declaración
CREATE MODEL
, para crear un modelo de serie temporal y un modelo de serie temporal jerárquica - La función
ML.FORECAST
, para prever el total de ventas diarias
Costos
En este instructivo, se usan componentes facturables de Google Cloud, incluidos los siguientes:
- BigQuery
- BigQuery ML
Para obtener más información sobre los costos de BigQuery, consulta la página de precios de BigQuery.
Para obtener más información sobre los costos de BigQuery ML, consulta los precios de BigQuery ML.
Antes de comenzar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery API.
Crea un conjunto de datos
Crea un conjunto de datos de BigQuery para almacenar tu modelo de AA:
En la consola de Google Cloud, ve a la página de BigQuery.
En el panel Explorador, haz clic en el nombre de tu proyecto.
Haz clic en
Ver acciones > Crear conjunto de datos.En la página Crear conjunto de datos, haz lo siguiente:
En ID del conjunto de datos, ingresa
bqml_tutorial
.En Tipo de ubicación, selecciona Multirregión y, luego, EE.UU. (varias regiones en Estados Unidos).
Los conjuntos de datos públicos se almacenan en la multirregión
US
. Para que sea más simple, almacena tu conjunto de datos en la misma ubicación.Deja la configuración predeterminada restante como está y haz clic en Crear conjunto de datos.
Conciliación jerárquica
A menudo, las previsiones de las series temporales se pueden desglosar o agregar en función de diferentes dimensiones de interés. Estas se conocen como series temporales jerárquicas. Por ejemplo, los datos del censo que revelan la población total por estado se pueden desglosar por ciudad y código postal. Por el contrario, podemos agregar esos datos para cada país o continente.
Existen varias técnicas que puedes usar para generar y conciliar previsiones jerárquicas. Observa el siguiente ejemplo, que muestra una estructura jerárquica simplificada para las ventas de licores en el estado de Iowa:
El nivel más bajo muestra el nivel de la tienda, seguido del nivel del código postal, la ciudad, el condado y, por último, el estado. El objetivo de las previsiones jerárquicas es garantizar que todas las previsiones de cada nivel se concilien. Por ejemplo, dada la cifra anterior, esto significa que las previsiones de Clive y Des Moines deben sumarse a la previsión en Polk. Del mismo modo, las previsiones en Polk, Linn y Scott deberían sumarse a la previsión en Iowa.
Existen algunas técnicas comunes que puedes usar a fin de generar previsiones conciliadas para cada nivel. Una técnica se conoce como el enfoque ascendente. En este enfoque, las previsiones se generan primero en el nivel inferior de la jerarquía antes de sumar los otros niveles. En el ejemplo anterior, las previsiones de cada tienda se usan para crear los modelos de previsión de los otros niveles (primero por código postal, luego por ciudad, etcétera).
Crea un modelo de series temporales
Primero, crea un modelo de series temporales con los datos de ventas de bebidas alcohólicas de Iowa.
En la siguiente consulta de GoogleSQL, se crea un modelo que prevé la cantidad total diaria de botellas vendidas en 2015 en los condados de Polk, Linn y Scott. La cláusula CREATE MODEL
crea y entrena un modelo llamado bqml_tutorial.liquor_forecast
.
#standardSQL CREATE OR REPLACE MODEL `bqml_tutorial.liquor_forecast` OPTIONS ( MODEL_TYPE = 'ARIMA_PLUS', TIME_SERIES_TIMESTAMP_COL = 'date', TIME_SERIES_DATA_COL = 'total_bottles_sold', TIME_SERIES_ID_COL = ['store_number', 'zip_code', 'city', 'county'], HOLIDAY_REGION = 'US') AS SELECT store_number, zip_code, city, county, date, SUM(bottles_sold) AS total_bottles_sold FROM `bigquery-public-data.iowa_liquor_sales.sales` WHERE date BETWEEN DATE('2015-01-01') AND DATE('2015-12-31') AND county IN ('POLK', 'LINN', 'SCOTT') GROUP BY store_number, date, city, zip_code, county;
La cláusula OPTIONS(model_type='ARIMA_PLUS', time_series_timestamp_col='date', ...)
indica que creas un modelo de serie temporal basado en ARIMA. De forma predeterminada, auto_arima=TRUE
, por lo que el algoritmo auto.ARIMA
ajusta de forma automática los hiperparámetros en los modelos ARIMA_PLUS
. El algoritmo se adapta a decenas de modelos de candidatos y elige el mejor con el criterio de información Akaike (AIC) más bajo. Configurar la opción holiday_region
en US
permite un modelado más preciso de esos puntos temporales de las festividades de Estados Unidos si es que existen patrones de festividades de Estados Unidos en la serie temporal.
Ejecuta la consulta CREATE MODEL
para crear y entrenar el modelo:
En la consola de Google Cloud, haz clic en el botón Ejecutar una consulta en BigQuery.
Ingresa la siguiente consulta de GoogleSQL en el Editor de consultas.
#standardSQL CREATE OR REPLACE MODEL `bqml_tutorial.liquor_forecast` OPTIONS ( MODEL_TYPE = 'ARIMA_PLUS', TIME_SERIES_TIMESTAMP_COL = 'date', TIME_SERIES_DATA_COL = 'total_bottles_sold', TIME_SERIES_ID_COL = ['store_number', 'zip_code', 'city', 'county'], HOLIDAY_REGION = 'US') AS SELECT store_number, zip_code, city, county, date, SUM(bottles_sold) AS total_bottles_sold FROM `bigquery-public-data.iowa_liquor_sales.sales` WHERE date BETWEEN DATE('2015-01-01') AND DATE('2015-12-31') AND county IN ('POLK', 'LINN', 'SCOTT') GROUP BY store_number, date, city, zip_code, county;
Haz clic en Ejecutar.
La consulta tarda aproximadamente 37 segundos en completarse, después de lo cual tu modelo (
liquor_forecast
) aparece en el panel Explorador. Debido a que la consulta usa una declaraciónCREATE MODEL
para crear un modelo, no hay resultados de consultas.
Inspecciona los resultados del modelo de serie temporal jerárquica
Después de crear tu modelo, puedes usar la función ML.FORECAST
para ver los resultados del pronóstico.
Para ejecutar la función ML.FORECAST
en el modelo liquor_forecast
, especifícala en la cláusula FROM
.
De forma predeterminada, esta consulta muestra los pronósticos de todas las series temporales únicas en los datos, que se identifican con las columnas store_number
, zip_code
, city
y county
.
Para ejecutar la consulta ML.FORECAST, sigue estos pasos:
En la consola de Google Cloud, haz clic en el botón Ejecutar una consulta en BigQuery.
Ingresa la siguiente consulta de GoogleSQL en el Editor de consultas.
#standardSQL SELECT * FROM ML.FORECAST( MODEL `bqml_tutorial.liquor_forecast`, STRUCT(20 AS horizon, 0.8 AS confidence_level)) ORDER BY store_number, county, city, zip_code, forecast_timestamp
Haz clic en Ejecutar.
La consulta debería tardar alrededor de 5 segundos en ejecutarse. Después de que se ejecuta la consulta, el resultado muestra los siguientes resultados.
Observa cómo se muestra la previsión para la primera serie temporal (store_number=2190, zip_code=50314, city=DES MOINES, county=POLK). Si observas el resto de las filas, notas las previsiones de los otros grupos.
En general, las previsiones se generan para cada serie temporal única. Si deseas generar previsiones para niveles agregados, como las previsiones de un condado específico, debes generar una previsión jerárquica.
Crea un modelo de series temporales con previsiones jerárquicas
Crea una previsión de series temporales jerárquicas mediante los datos de ventas de bebidas alcohólicas de Iowa.
En la siguiente consulta de GoogleSQL, se crea un modelo que genera previsiones jerárquicas para la cantidad total diaria de botellas vendidas en 2015 en los condados de Polk, Linn y Scott. La cláusula CREATE MODEL
crea y entrena un modelo llamado bqml_tutorial.liquor_forecast_hierarchical
.
#standardSQL CREATE OR REPLACE MODEL `bqml_tutorial.liquor_forecast_hierarchical` OPTIONS ( MODEL_TYPE = 'ARIMA_PLUS', TIME_SERIES_TIMESTAMP_COL = 'date', TIME_SERIES_DATA_COL = 'total_bottles_sold', TIME_SERIES_ID_COL = ['store_number', 'zip_code', 'city', 'county'], HIERARCHICAL_TIME_SERIES_COLS = ['zip_code', 'store_number'], HOLIDAY_REGION = 'US') AS SELECT store_number, zip_code, city, county, date, SUM(bottles_sold) AS total_bottles_sold FROM `bigquery-public-data.iowa_liquor_sales.sales` WHERE date BETWEEN DATE('2015-01-01') AND DATE('2015-12-31') AND county IN ('POLK', 'LINN', 'SCOTT') GROUP BY store_number, date, city, zip_code, county;
El parámetro HIERARCHICAL_TIME_SERIES_COLS
indica que estás creando una previsión jerárquica basada en un conjunto de columnas. Cada una de estas columnas se agrupa y agrega. Por ejemplo, en la consulta anterior, esto significa que store_number
se une para mostrar las previsiones de cada county
, city
y zip_code
. Por otro lado, zip_code
y store_number
también se combinan para mostrar las previsiones de cada county
y city
. El orden de las columnas es importante porque define la estructura de la jerarquía.
Ejecuta la consulta CREATE MODEL
para crear y entrenar el modelo:
En la consola de Google Cloud, haz clic en el botón Ejecutar una consulta en BigQuery.
Ingresa la siguiente consulta de GoogleSQL en el Editor de consultas.
#standardSQL CREATE OR REPLACE MODEL `bqml_tutorial.liquor_forecast_hierarchical` OPTIONS ( MODEL_TYPE = 'ARIMA_PLUS', TIME_SERIES_TIMESTAMP_COL = 'date', TIME_SERIES_DATA_COL = 'total_bottles_sold', TIME_SERIES_ID_COL = ['store_number', 'zip_code', 'city', 'county'], HIERARCHICAL_TIME_SERIES_COLS = ['zip_code', 'store_number'], HOLIDAY_REGION = 'US') AS SELECT store_number, zip_code, city, county, date, SUM(bottles_sold) AS total_bottles_sold FROM `bigquery-public-data.iowa_liquor_sales.sales` WHERE date BETWEEN DATE('2015-01-01') AND DATE('2015-12-31') AND county IN ('POLK', 'LINN', 'SCOTT') GROUP BY store_number, date, city, zip_code, county;
Haz clic en Ejecutar.
La consulta tarda aproximadamente 45 segundos en completarse; luego, tu modelo (
bqml_tutorial.liquor_forecast_hierarchical
) aparece en el panel Explorador. Debido a que la consulta usa una declaraciónCREATE MODEL
para crear un modelo, no hay resultados de consultas.
Inspecciona los resultados del modelo de serie temporal jerárquica
En la consola de Google Cloud, haz clic en el botón Ejecutar una consulta en BigQuery.
Ingresa la siguiente consulta de GoogleSQL en el Editor de consultas.
#standardSQL SELECT * FROM ML.FORECAST( MODEL `bqml_tutorial.liquor_forecast_hierarchical`, STRUCT(30 AS horizon, 0.8 AS confidence_level)) WHERE city = 'LECLAIRE' ORDER BY county, city, zip_code, store_number, forecast_timestamp
Haz clic en Ejecutar.
La consulta debería tardar alrededor de 5 segundos en ejecutarse. Después de que se ejecuta la consulta, el resultado muestra los siguientes resultados.
Observa cómo se muestra la previsión agregada para la ciudad de LeClaire (store_number=NULL, zip_code=NULL, city=LECLAIRE, county=SCOTT). Si observas el resto de las filas, notas las previsiones de los otros subgrupos. Por ejemplo, en la siguiente imagen, se muestran las previsiones agregadas para el código postal 52753 (store_number=NULL, zip_code=52753, city=LECLAIRE, county=SCOTT):
Borra tu conjunto de datos
Borrar tu proyecto quita todos sus conjuntos de datos y tablas. Si prefieres volver a usar el proyecto, puedes borrar el conjunto de datos que creaste en este instructivo:
Si es necesario, abre la página de BigQuery en la consola de Google Cloud.
En el panel de navegación, haz clic en el conjunto de datos bqml_tutorial que creaste.
Haz clic en Borrar conjunto de datos en el lado derecho de la ventana. Esta acción borra el conjunto de datos, la tabla y todos los datos.
En el cuadro de diálogo Borrar conjunto de datos, escribe el nombre del conjunto de datos (
bqml_tutorial
) para confirmar el comando de borrado y, luego, haz clic en Borrar.
Borra tu proyecto
Para borrar el proyecto, haz lo siguiente:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
¿Qué sigue?
- Obtén información sobre cómo realizar varias previsiones de series temporales con una sola consulta a partir de los datos de viajes de Citi Bike en NYC.
- Obtén información sobre cómo acelerar ARIMA_PLUS para habilitar el pronóstico de 1 millón de series temporales en horas.
- Para obtener más información sobre el aprendizaje automático, consulta el Curso intensivo de aprendizaje automático.
- Para obtener una descripción general de BigQuery ML, consulta Introducción a BigQuery ML.
- Para obtener más información sobre la consola de Google Cloud, consulta Usa la consola de Google Cloud.