Se usó la API de Cloud Translation para traducir esta página.

Cómo realizar la previsión de varias series temporales con un modelo univariable ARIMA_PLUS

En este instructivo, aprenderás a usar un modelo de serie temporal univariable ARIMA_PLUS para predecir el valor futuro de una columna determinada, según los valores históricos de esa columna.

En este instructivo, se realizan previsiones para varias series temporales. Los valores previstos se calculan para cada punto temporal y para cada valor en una o más columnas especificadas. Por ejemplo, si deseas predecir el clima y especificas una columna que contiene datos de la ciudad, los datos previstos contendrán predicciones para todos los puntos temporales de la ciudad A, luego los valores previstos para todos los puntos temporales de la ciudad B, y así sucesivamente.

En este instructivo, se usan datos de la tabla pública bigquery-public-data.new_york.citibike_trips. Esta tabla contiene información sobre los viajes de Citi Bike en la ciudad de Nueva York.

Antes de leer este instructivo, te recomendamos que leas Cómo predecir una sola serie temporal con un modelo univariado.

Objetivos

En este instructivo, se te guiará para que completes las siguientes tareas:

Crear un modelo de series temporales para predecir la cantidad de viajes en bicicleta con la declaración CREATE MODEL
Evalúa la información del modelo de promedio móvil integrado autorregresivo (ARIMA) con la función ML.ARIMA_EVALUATE.
Inspecciona los coeficientes del modelo con la función ML.ARIMA_COEFFICIENTS.
Recuperar la información pronosticada del viaje en bicicleta del modelo con la función ML.FORECAST
Recuperar componentes de las series temporales, como la estacionalidad y la tendencia, con la función ML.EXPLAIN_FORECAST Puedes inspeccionar estos componentes de series temporales para explicar los valores previstos.

Costos

En este instructivo, se usan los siguientes componentes facturables de Google Cloud:

BigQuery
BigQuery ML

Para obtener más información sobre los costos de BigQuery, consulta la página de precios de BigQuery.

Para obtener más información sobre los costos de BigQuery ML, consulta los precios de BigQuery ML.

Antes de comenzar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

BigQuery se habilita automáticamente en proyectos nuevos. Para activar BigQuery en un proyecto existente, ve a
Enable the BigQuery API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the API

Permisos necesarios

Para crear el conjunto de datos, necesitas el permiso bigquery.datasets.create de IAM.
Para crear el modelo, necesitas los siguientes permisos:
- bigquery.jobs.create
- bigquery.models.create
- bigquery.models.getData
- bigquery.models.updateData
Para ejecutar inferencias, necesitas los siguientes permisos:
- bigquery.models.getData
- bigquery.jobs.create

Para obtener más información sobre los roles y permisos de IAM en BigQuery, consulta Introducción a IAM.

Crea un conjunto de datos

Crea un conjunto de datos de BigQuery para almacenar tu modelo de AA.

Console

En la consola de Google Cloud , ve a la página BigQuery.

Ir a la página de BigQuery
En el panel Explorador, haz clic en el nombre de tu proyecto.
Haz clic en Ver acciones > Crear conjunto de datos.
En la página Crear conjunto de datos, haz lo siguiente:
- En ID del conjunto de datos, ingresa bqml_tutorial.
- En Tipo de ubicación, selecciona Multirregión y, luego, EE.UU. (varias regiones en Estados Unidos).
- Deja la configuración predeterminada restante como está y haz clic en Crear conjunto de datos.

bq

Para crear un conjunto de datos nuevo, usa el comando bq mk con la marca --location. Para obtener una lista completa de los parámetros posibles, consulta la referencia del comando bq mk --dataset.

Crea un conjunto de datos llamado bqml_tutorial con la ubicación de los datos establecida en US y una descripción de BigQuery ML tutorial dataset:
```
bq --location=US mk -d \
 --description "BigQuery ML tutorial dataset." \
 bqml_tutorial
```
En lugar de usar la marca --dataset, el comando usa el acceso directo -d. Si omites -d y --dataset, el comando crea un conjunto de datos de manera predeterminada.
Confirma que se haya creado el conjunto de datos:
```
bq ls
```

API

Llama al método datasets.insert con un recurso de conjunto de datos definido.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

Permite trabajar con BigQuery DataFrames.

Antes de probar este ejemplo, sigue las instrucciones de configuración de BigQuery DataFrames en la guía de inicio rápido de BigQuery con BigQuery DataFrames. Para obtener más información, consulta la documentación de referencia de BigQuery DataFrames.

Para autenticarte en BigQuery, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura ADC para un entorno de desarrollo local.

import google.cloud.bigquery

bqclient = google.cloud.bigquery.Client()
bqclient.create_dataset("bqml_tutorial", exists_ok=True)

Visualiza los datos de entrada

Antes de crear el modelo, puedes visualizar de forma opcional tus datos de series temporales de entrada para tener una idea de la distribución. Puedes hacerlo con Looker Studio.

SQL

La declaración SELECT de la siguiente consulta usa la función EXTRACT para extraer la información de la fecha de la columna starttime. La consulta usa la cláusula COUNT(*) para obtener la cantidad total diaria de viajes con Citi Bike.

Sigue estos pasos para visualizar los datos de series temporales:

En la consola de Google Cloud , ve a la página BigQuery.

Ir a BigQuery

En el editor de consultas, pega la siguiente consulta y haz clic en Ejecutar:

SELECT
 EXTRACT(DATE from starttime) AS date,
 COUNT(*) AS num_trips
FROM
`bigquery-public-data.new_york.citibike_trips`
GROUP BY date;

Cuando se complete la consulta, haz clic en Explorar datos > Explorar con Looker Studio. Looker Studio se abre en una pestaña nueva. Completa los siguientes pasos en la pestaña nueva.
En Looker Studio, haz clic en Insertar > Gráfico de serie temporal.
En el panel Gráfico, elige la pestaña Configuración.
En la sección Métrica, agrega el campo num_trips y quita la métrica predeterminada Recuento de registros. El gráfico resultante es similar al siguiente:

Permite trabajar con BigQuery DataFrames.

Para autenticarte en BigQuery, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura ADC para un entorno de desarrollo local.


import bigframes.pandas as bpd

df = bpd.read_gbq("bigquery-public-data.new_york.citibike_trips")

features = bpd.DataFrame(
    {
        "num_trips": df.starttime,
        "date": df["starttime"].dt.date,
    }
)
date = df["starttime"].dt.date
df.groupby([date])
num_trips = features.groupby(["date"]).count()

# Results from running "print(num_trips)"

#                num_trips
# date
# 2013-07-01      16650
# 2013-07-02      22745
# 2013-07-03      21864
# 2013-07-04      22326
# 2013-07-05      21842
# 2013-07-06      20467
# 2013-07-07      20477
# 2013-07-08      21615
# 2013-07-09      26641
# 2013-07-10      25732
# 2013-07-11      24417
# 2013-07-12      19006
# 2013-07-13      26119
# 2013-07-14      29287
# 2013-07-15      28069
# 2013-07-16      29842
# 2013-07-17      30550
# 2013-07-18      28869
# 2013-07-19      26591
# 2013-07-20      25278
# 2013-07-21      30297
# 2013-07-22      25979
# 2013-07-23      32376
# 2013-07-24      35271
# 2013-07-25      31084

num_trips.plot.line(
    # Rotate the x labels so they are more visible.
    rot=45,
)

Crea el modelo de serie temporal

Quieres prever la cantidad de viajes en bicicleta para cada estación de Citi Bike, lo que requiere muchos modelos de series temporales, uno para cada estación de Citi Bike que se incluye en los datos de entrada. Puedes crear varios modelos para hacerlo, pero puede ser un proceso tedioso y lento, en especial cuando tienes una gran cantidad de series temporales. En su lugar, puedes usar una sola consulta para crear y ajustar un conjunto de modelos de series temporales y, así, prever varias series temporales a la vez.

SQL

En la siguiente consulta, la cláusula OPTIONS(model_type='ARIMA_PLUS', time_series_timestamp_col='date', ...) indica que creas un modelo de serie temporal basado en ARIMA. Usas la opción time_series_id_col de la sentencia CREATE MODEL para especificar una o más columnas en los datos de entrada para las que deseas obtener previsiones, en este caso, la estación de Citi Bike, como se representa en la columna start_station_name. Usas la cláusula WHERE para limitar las estaciones de inicio a aquellas con Central Park en el nombre. La opción auto_arima_max_order de la instrucción CREATE MODEL controla el espacio de búsqueda para el ajuste de hiperparámetros en el algoritmo auto.ARIMA. La opción decompose_time_series de la instrucción CREATE MODEL se establece de forma predeterminada en TRUE, de modo que se muestre información sobre los datos de series temporales cuando evalúes el modelo en el siguiente paso.

Sigue estos pasos para crear el modelo:

En la consola de Google Cloud , ve a la página BigQuery.

Ir a BigQuery

En el editor de consultas, pega la siguiente consulta y haz clic en Ejecutar:

CREATE OR REPLACE MODEL `bqml_tutorial.nyc_citibike_arima_model_group`
OPTIONS
(model_type = 'ARIMA_PLUS',
 time_series_timestamp_col = 'date',
 time_series_data_col = 'num_trips',
 time_series_id_col = 'start_station_name',
 auto_arima_max_order = 5
) AS
SELECT
 start_station_name,
 EXTRACT(DATE from starttime) AS date,
 COUNT(*) AS num_trips
FROM
`bigquery-public-data.new_york.citibike_trips`
WHERE start_station_name LIKE '%Central Park%'
GROUP BY start_station_name, date;

La consulta tarda aproximadamente 24 segundos en completarse, después de lo cual el modelo nyc_citibike_arima_model_group aparece en el panel Explorador. Como la consulta usa una declaración CREATE MODEL, no ves los resultados.

Esta consulta crea doce modelos de series temporales, uno para cada una de las doce estaciones de inicio de Citi Bike en los datos de entrada. El costo del tiempo, alrededor de 24 segundos, es solo 1.4 veces mayor que el de crear un solo modelo de serie temporal debido al paralelismo. Sin embargo, si quitas la cláusula WHERE ... LIKE ..., habrá más de 600 series temporales para prever y no se preverán por completo en paralelo debido a las limitaciones de capacidad de la ranura. En ese caso, la consulta tardaría aproximadamente 15 minutos en completarse. Para reducir el tiempo de ejecución de la consulta con la vulneración de una posible disminución leve en la calidad del modelo, puedes disminuir el valor de auto_arima_max_order. Esto reduce el espacio de búsqueda del ajuste de hiperparámetros en el algoritmo auto.ARIMA. Para obtener más información, consulta Large-scale time series forecasting best practices.

Permite trabajar con BigQuery DataFrames.

En el siguiente fragmento, creas un modelo de serie temporal basado en ARIMA.

Para autenticarte en BigQuery, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura ADC para un entorno de desarrollo local.

from bigframes.ml import forecasting
import bigframes.pandas as bpd

model = forecasting.ARIMAPlus(
    # To reduce the query runtime with the compromise of a potential slight
    # drop in model quality, you could decrease the value of the
    # auto_arima_max_order. This shrinks the search space of hyperparameter
    # tuning in the auto.ARIMA algorithm.
    auto_arima_max_order=5,
)

df = bpd.read_gbq("bigquery-public-data.new_york.citibike_trips")

# This query creates twelve time series models, one for each of the twelve
# Citi Bike start stations in the input data. If you remove this row
# filter, there would be 600+ time series to forecast.
df = df[df["start_station_name"].str.contains("Central Park")]

features = bpd.DataFrame(
    {
        "start_station_name": df["start_station_name"],
        "num_trips": df["starttime"],
        "date": df["starttime"].dt.date,
    }
)
num_trips = features.groupby(
    ["start_station_name", "date"],
    as_index=False,
).count()

X = num_trips["date"].to_frame()
y = num_trips["num_trips"].to_frame()

model.fit(
    X,
    y,
    # The input data that you want to get forecasts for,
    # in this case the Citi Bike station, as represented by the
    # start_station_name column.
    id_col=num_trips["start_station_name"].to_frame(),
)

# The model.fit() call above created a temporary model.
# Use the to_gbq() method to write to a permanent location.
model.to_gbq(
    your_model_id,  # For example: "bqml_tutorial.nyc_citibike_arima_model",
    replace=True,
)

Esto crea doce modelos de series temporales, uno para cada una de las doce estaciones de inicio de Citi Bike en los datos de entrada. El costo del tiempo, alrededor de 24 segundos, es solo 1.4 veces mayor que el de crear un solo modelo de serie temporal debido al paralelismo.

Evalúa el modelo

SQL

Evalúa el modelo de series temporales con la función ML.ARIMA_EVALUATE. La función ML.ARIMA_EVALUATE te muestra las métricas de evaluación que se generaron para el modelo durante el proceso de ajuste automático de hiperparámetros.

Sigue estos pasos para evaluar el modelo:

En la consola de Google Cloud , ve a la página BigQuery.

Ir a BigQuery
En el editor de consultas, pega la siguiente consulta y haz clic en Ejecutar:
```
SELECT
*
FROM
ML.ARIMA_EVALUATE(MODEL `bqml_tutorial.nyc_citibike_arima_model_group`);
```
Los resultados deberían verse así:

Si bien auto.ARIMA evalúa decenas de modelos candidatos de ARIMA para cada serie temporal, ML.ARIMA_EVALUATE de forma predeterminada solo genera la información del mejor modelo a fin de que la tabla de salida sea compacta. Para ver todos los modelos candidatos, puedes configurar el argumento show_all_candidate_model de la función ML.ARIMA_EVALUATE en TRUE.

Permite trabajar con BigQuery DataFrames.

Para autenticarte en BigQuery, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura ADC para un entorno de desarrollo local.

# Evaluate the time series models by using the summary() function. The summary()
# function shows you the evaluation metrics of all the candidate models evaluated
# during the process of automatic hyperparameter tuning.
summary = model.summary()
print(summary.peek())

# Expected output:
#    start_station_name                  non_seasonal_p  non_seasonal_d   non_seasonal_q  has_drift  log_likelihood           AIC     variance ...
# 1         Central Park West & W 72 St               0               1                5      False    -1966.449243   3944.898487  1215.689281 ...
# 8            Central Park W & W 96 St               0               0                5      False     -274.459923    562.919847   655.776577 ...
# 9        Central Park West & W 102 St               0               0                0      False     -226.639918    457.279835    258.83582 ...
# 11        Central Park West & W 76 St               1               1                2      False    -1700.456924   3408.913848   383.254161 ...
# 4   Grand Army Plaza & Central Park S               0               1                5      False    -5507.553498  11027.106996   624.138741 ...

La columna start_station_name identifica la columna de datos de entrada para la que se crearon las series temporales. Esta es la columna que especificaste con la opción time_series_id_col cuando creaste el modelo.

Las columnas de salida non_seasonal_p, non_seasonal_d, non_seasonal_q y has_drift definen un modelo ARIMA en la canalización de entrenamiento. Las columnas de salida log_likelihood, AIC y variance son relevantes para el proceso de ajuste del modelo ARIMA.El proceso de ajuste determina el mejor modelo ARIMA con el algoritmo auto.ARIMA, uno para cada serie temporal.

El algoritmo auto.ARIMA usa la prueba de KPSS para determinar el mejor valor de non_seasonal_d, que en este caso es 1. Cuando non_seasonal_d es 1, el algoritmo auto.ARIMA entrena 42 modelos ARIMA candidatos diferentes en paralelo. En este ejemplo, los 42 modelos candidatos son válidos, por lo que el resultado contiene 42 filas, una para cada modelo ARIMA candidato. En los casos en que algunos de los modelos no son válidos, se excluyen del resultado. Estos modelos candidatos se devuelven en orden ascendente según el AIC. El modelo de la primera fila tiene el AIC más bajo y se considera el mejor modelo. El mejor modelo se guarda como el modelo final y se usa cuando prevés datos, evalúas el modelo y examinas sus coeficientes, como se muestra en los siguientes pasos.

La columna seasonal_periods contiene información sobre el patrón estacional identificado en los datos de series temporales. Cada serie temporal puede tener diferentes patrones estacionales. Por ejemplo, en la figura, puedes ver que una serie temporal tiene un patrón anual, mientras que otras no.

Las columnas has_holiday_effect, has_spikes_and_dips y has_step_changes solo se propagan cuando decompose_time_series=TRUE. Estas columnas también reflejan información sobre los datos de la serie temporal de entrada y no están relacionadas con el modelado ARIMA. Estas columnas también tienen los mismos valores en todas las filas de salida.

Inspecciona los coeficientes del modelo

SQL

Inspecciona los coeficientes del modelo de series temporales con la función ML.ARIMA_COEFFICIENTS.

Sigue estos pasos para recuperar los coeficientes del modelo:

En la consola de Google Cloud , ve a la página BigQuery.

Ir a BigQuery
En el editor de consultas, pega la siguiente consulta y haz clic en Ejecutar:
```
SELECT
*
FROM
ML.ARIMA_COEFFICIENTS(MODEL `bqml_tutorial.nyc_citibike_arima_model_group`);
```
La consulta toma menos de un segundo en completarse. Los resultados debería ser similares al siguiente:

Para obtener más información sobre las columnas de salida, consulta la función ML.ARIMA_COEFFICIENTS.

Permite trabajar con BigQuery DataFrames.

Inspecciona los coeficientes del modelo de series temporales con la función coef_.

Para autenticarte en BigQuery, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura ADC para un entorno de desarrollo local.

coef = model.coef_
print(coef.peek())

# Expected output:
#    start_station_name                                              ar_coefficients                                   ma_coefficients intercept_or_drift
# 5    Central Park West & W 68 St                                                [] [-0.41014089  0.21979212 -0.59854213 -0.251438...                0.0
# 6         Central Park S & 6 Ave                                                [] [-0.71488957 -0.36835772  0.61008532  0.183290...                0.0
# 0    Central Park West & W 85 St                                                [] [-0.39270166 -0.74494638  0.76432596  0.489146...                0.0
# 3    W 82 St & Central Park West                         [-0.50219511 -0.64820817]             [-0.20665325  0.67683137 -0.68108631]                0.0
# 11  W 106 St & Central Park West [-0.70442887 -0.66885553 -0.25030325 -0.34160669]                                                []                0.0

La columna start_station_name identifica la columna de datos de entrada para la que se crearon las series temporales. Esta es la columna que especificaste en la opción time_series_id_col cuando creaste el modelo.

La columna de salida ar_coefficients muestra los coeficientes del modelo de la parte autorregresiva (AR) del modelo ARIMA. De manera similar, la columna de salida ma_coefficients muestra los coeficientes del modelo de la parte de promedio móvil (MA) del modelo ARIMA. Ambas columnas contienen valores de array, cuyas longitudes son iguales a non_seasonal_p y non_seasonal_q, respectivamente. El valor intercept_or_drift es el término constante en el modelo ARIMA.

Usa el modelo para predecir datos

SQL

Prevé valores de series temporales futuras con la función ML.FORECAST.

En la siguiente consulta de GoogleSQL, la cláusula STRUCT(3 AS horizon, 0.9 AS confidence_level) indica que la consulta prevé 3 puntos futuros y genera un intervalo de predicción con un nivel de confianza del 90%.

Sigue estos pasos para predecir datos con el modelo:

En la consola de Google Cloud , ve a la página BigQuery.

Ir a BigQuery

En el editor de consultas, pega la siguiente consulta y haz clic en Ejecutar:

SELECT
*
FROM
ML.FORECAST(MODEL `bqml_tutorial.nyc_citibike_arima_model_group`,
 STRUCT(3 AS horizon, 0.9 AS confidence_level))

Haz clic en Ejecutar.

La consulta toma menos de un segundo en completarse. Los resultados deberían verse de la siguiente manera:

Para obtener más información sobre las columnas de salida, consulta la función ML.FORECAST.

Permite trabajar con BigQuery DataFrames.

Prevé valores de series temporales futuras con la función predict.

Para autenticarte en BigQuery, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura ADC para un entorno de desarrollo local.

prediction = model.predict(horizon=3, confidence_level=0.9)

print(prediction.peek())
# Expected output:
#            forecast_timestamp                             start_station_name  forecast_value  standard_error  confidence_level ...
# 4   2016-10-01 00:00:00+00:00                         Central Park S & 6 Ave      302.377201       32.572948               0.9 ...
# 14  2016-10-02 00:00:00+00:00  Central Park North & Adam Clayton Powell Blvd      263.917567       45.284082               0.9 ...
# 1   2016-09-25 00:00:00+00:00                    Central Park West & W 85 St      189.574706       39.874856               0.9 ...
# 20  2016-10-02 00:00:00+00:00                    Central Park West & W 72 St      175.474862       40.940794               0.9 ...
# 12  2016-10-01 00:00:00+00:00                   W 106 St & Central Park West        63.88163       18.088868               0.9 ...

start_station_name, la primera columna, anota la serie temporal en la que se ajusta cada modelo de serie temporal. Cada start_station_name tiene tres filas de resultados previstos, como se especifica en el valor de horizon.

Para cada start_station_name, las filas de salida se ordenan cronológicamente según el valor de la columna forecast_timestamp. En la previsión de series temporales, el intervalo de predicción, representado por los valores de las columnas prediction_interval_lower_bound y prediction_interval_upper_bound, es tan importante como el valor de la columna forecast_value. El valor de forecast_value es el punto medio del intervalo de predicción. El intervalo de predicción depende de los valores de las columnas standard_error y confidence_level.

Explica los resultados de la previsión

SQL

Puedes obtener métricas de interpretabilidad además de los datos de previsión con la función ML.EXPLAIN_FORECAST. La función ML.EXPLAIN_FORECAST prevé valores de series temporales futuras y también muestra todos los componentes separados de la serie temporal. Si solo deseas devolver datos de previsión, usa la función ML.FORECAST, como se muestra en Usa el modelo para prever datos.

La cláusula STRUCT(3 AS horizon, 0.9 AS confidence_level) que se usa en la función ML.EXPLAIN_FORECAST indica que la consulta prevé 3 puntos temporales futuros y genera un intervalo de predicción con un 90% de confianza.

Sigue estos pasos para explicar los resultados del modelo:

En la consola de Google Cloud , ve a la página BigQuery.

Ir a BigQuery
En el editor de consultas, pega la siguiente consulta y haz clic en Ejecutar:
```
SELECT
*
FROM
ML.EXPLAIN_FORECAST(MODEL `bqml_tutorial.nyc_citibike_arima_model_group`,
 STRUCT(3 AS horizon, 0.9 AS confidence_level));
```
La consulta toma menos de un segundo en completarse. Los resultados deberían verse de la siguiente manera:

Las primeras miles de filas que se muestran son todos datos históricos. Debes desplazarte por los resultados para ver los datos de previsión.

Las filas de salida se ordenan primero por start_station_name y, luego, cronológicamente por el valor de la columna time_series_timestamp. En la previsión de series temporales, el intervalo de predicción, representado por los valores de las columnas prediction_interval_lower_bound y prediction_interval_upper_bound, es tan importante como el valor de la columna forecast_value. El valor de forecast_value es el punto medio del intervalo de predicción. El intervalo de predicción depende de los valores de las columnas standard_error y confidence_level.

Para obtener más información sobre las columnas de salida, consulta ML.EXPLAIN_FORECAST.

Permite trabajar con BigQuery DataFrames.

Puedes obtener métricas de interpretabilidad además de los datos de previsión con la función predict_explain. La función predict_explain prevé valores de series temporales futuras y también muestra todos los componentes separados de la serie temporal. Si solo deseas devolver datos de previsión, usa la función predict, como se muestra en Usa el modelo para prever datos.

La cláusula horizon=3, confidence_level=0.9 que se usa en la función predict_explain indica que la consulta prevé 3 puntos temporales futuros y genera un intervalo de predicción con un 90% de confianza.

Para autenticarte en BigQuery, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura ADC para un entorno de desarrollo local.

explain = model.predict_explain(horizon=3, confidence_level=0.9)

print(explain.peek(5))
# Expected output:
#   time_series_timestamp	        start_station_name	            time_series_type	    time_series_data	    time_series_adjusted_data	    standard_error	    confidence_level	    prediction_interval_lower_bound	    prediction_interval_upper_bound	    trend	    seasonal_period_yearly	    seasonal_period_quarterly	    seasonal_period_monthly	    seasonal_period_weekly	    seasonal_period_daily	    holiday_effect	    spikes_and_dips	    step_changes	    residual
# 0	2013-07-01 00:00:00+00:00	Central Park S & 6 Ave	                history	                  69.0	                   154.168527	              32.572948	             <NA>	                        <NA>	                            <NA>	                 0.0	          35.477484	                       <NA>	                        <NA>	                  -28.402102	                 <NA>	                <NA>	               0.0	         -85.168527	        147.093145
# 1	2013-07-01 00:00:00+00:00	Grand Army Plaza & Central Park S	    history	                  79.0	                      79.0	                  24.982769	             <NA>	                        <NA>	                            <NA>	                 0.0	          43.46428	                       <NA>	                        <NA>	                  -30.01599	                     <NA>	                <NA>	               0.0	            0.0	             65.55171
# 2	2013-07-02 00:00:00+00:00	Central Park S & 6 Ave	                history	                  180.0	                   204.045651	              32.572948	             <NA>	                        <NA>	                            <NA>	              147.093045	      72.498327	                       <NA>	                        <NA>	                  -15.545721	                 <NA>	                <NA>	               0.0	         -85.168527	         61.122876
# 3	2013-07-02 00:00:00+00:00	Grand Army Plaza & Central Park S	    history	                  129.0	                    99.556269	              24.982769	             <NA>	                        <NA>	                            <NA>	               65.551665	      45.836432	                       <NA>	                        <NA>	                  -11.831828	                 <NA>	                <NA>	               0.0	            0.0	             29.443731
# 4	2013-07-03 00:00:00+00:00	Central Park S & 6 Ave	                history	                  115.0	                   205.968236	              32.572948	             <NA>	                        <NA>	                            <NA>	               191.32754	      59.220766	                       <NA>	                        <NA>	                  -44.580071	                 <NA>	                <NA>	               0.0	         -85.168527	        -5.799709

Las filas de salida se ordenan primero por time_series_timestamp y, luego, cronológicamente por el valor de la columna start_station_name. En la previsión de series temporales, el intervalo de predicción, representado por los valores de las columnas prediction_interval_lower_bound y prediction_interval_upper_bound, es tan importante como el valor de la columna forecast_value. El valor de forecast_value es el punto medio del intervalo de predicción. El intervalo de predicción depende de los valores de las columnas standard_error y confidence_level.

Limpia

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.

Puedes borrar el proyecto que creaste.
De lo contrario, puedes mantener el proyecto y borrar el conjunto de datos.

Borra tu conjunto de datos

Borrar tu proyecto quita todos sus conjuntos de datos y tablas. Si prefieres volver a usar el proyecto, puedes borrar el conjunto de datos que creaste en este instructivo:

Si es necesario, abre la página de BigQuery en la consola deGoogle Cloud .

Ir a la página de BigQuery
En el panel de navegación, haz clic en el conjunto de datos bqml_tutorial que creaste.
Haz clic en Borrar conjunto de datos para borrar el conjunto de datos, la tabla y todos los datos.
En el cuadro de diálogo Borrar conjunto de datos, escribe el nombre del conjunto de datos (bqml_tutorial) para confirmar el comando de borrado y, luego, haz clic en Borrar.

Borra tu proyecto

Para borrar el proyecto, haz lo siguiente:

Precaución: Borrar un proyecto tiene las siguientes consecuencias:

Se borra todo en el proyecto. Si usaste un proyecto existente para las tareas de este documento, cuando lo borres, también se borrará cualquier otro trabajo que hayas realizado en el proyecto.
Se pierden los IDs personalizados de los proyectos. Cuando creaste este proyecto, es posible que hayas creado un ID del proyecto personalizado que desees utilizar en el futuro. Para conservar las URLs que usan el ID del proyecto, como una URL appspot.com, borra los recursos seleccionados dentro del proyecto, en lugar de todo el proyecto.

Si planeas explorar varios instructivos, arquitecturas o guías de inicio rápido, reutilizar proyectos puede ser útil para no exceder los límites de cuota de los proyectos.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

¿Qué sigue?

Aprende a prever una sola serie temporal con un modelo univariable
Aprende a prever una sola serie temporal con un modelo multivariable
Obtén más información para escalar un modelo univariado cuando se prevén varias series temporales en muchas filas.
Aprende a predecir jerárquicamente varias series temporales con un modelo univariable
Para obtener una descripción general de BigQuery ML, consulta Introducción a la IA y el aprendizaje automático en BigQuery.

Cómo realizar la previsión de varias series temporales con un modelo univariable ARIMA_PLUS Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Objetivos

Costos

Antes de comenzar

Permisos necesarios

Crea un conjunto de datos

Console

bq

API

Permite trabajar con BigQuery DataFrames.

Visualiza los datos de entrada

SQL

Permite trabajar con BigQuery DataFrames.

Crea el modelo de serie temporal

SQL

Permite trabajar con BigQuery DataFrames.

Evalúa el modelo

SQL

Permite trabajar con BigQuery DataFrames.

Inspecciona los coeficientes del modelo

SQL

Permite trabajar con BigQuery DataFrames.

Usa el modelo para predecir datos

SQL

Permite trabajar con BigQuery DataFrames.

Explica los resultados de la previsión

SQL

Permite trabajar con BigQuery DataFrames.

Limpia

Borra tu conjunto de datos

Borra tu proyecto

¿Qué sigue?

Cómo realizar la previsión de varias series temporales con un modelo univariable ARIMA_PLUS