Cómo realizar la previsión de varias series temporales con un modelo multivariable


En este instructivo, aprenderás a usar un modelo de series temporales multivariable para predecir el valor futuro de una columna determinada según el valor histórico de varios atributos de entrada.

En este instructivo, se realizan previsiones para varias series temporales. Los valores previstos se calculan para cada período y para cada valor en una o más columnas especificadas. Por ejemplo, si deseas pronosticar el clima y especificas una columna que contiene datos del estado, los datos pronosticados contendrán pronósticos para todos los puntos de tiempo del estado A, luego los valores pronosticados para todos los puntos de tiempo del estado B, y así sucesivamente. Si deseas pronosticar el clima y especificar columnas que contengan datos del estado y la ciudad, los datos pronosticados contendrán pronósticos para todos los momentos del estado A y la ciudad A, luego los valores pronosticados para todos los momentos del estado A y la ciudad B, y así sucesivamente.

En este instructivo, se usan datos de las tablas públicas bigquery-public-data.iowa_liquor_sales.sales y bigquery-public-data.covid19_weathersource_com.postal_code_day_history. La tabla bigquery-public-data.iowa_liquor_sales.sales contiene datos de ventas de licores recopilados de varias ciudades del estado de Iowa. La tabla bigquery-public-data.covid19_weathersource_com.postal_code_day_history contiene datos históricos del clima, como la temperatura y la humedad, de todo el mundo.

Antes de leer este instructivo, te recomendamos que leas Cómo realizar la previsión de una sola serie temporal con un modelo multivariable.

Objetivos

En este instructivo, se te guiará para completar las siguientes tareas:

Costos

En este instructivo, se usan componentes facturables de Google Cloud, incluidos los siguientes:

  • BigQuery
  • BigQuery ML

Para obtener más información sobre los costos de BigQuery, consulta la página de precios de BigQuery.

Para obtener más información sobre los costos de BigQuery ML, consulta los precios de BigQuery ML.

Antes de comenzar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. BigQuery se habilita automáticamente en proyectos nuevos. Para activar BigQuery en un proyecto existente, ve a

    Enable the BigQuery API.

    Enable the API

Crea un conjunto de datos

Crea un conjunto de datos de BigQuery para almacenar tu modelo de AA:

  1. En la consola de Google Cloud , ve a la página de BigQuery.

    Ir a la página de BigQuery

  2. En el panel Explorador, haz clic en el nombre de tu proyecto.

  3. Haz clic en Ver acciones > Crear conjunto de datos.

    Crea un conjunto de datos.

  4. En la página Crear conjunto de datos, haz lo siguiente:

    • En ID del conjunto de datos, ingresa bqml_tutorial.

    • En Tipo de ubicación, selecciona Multirregión y, luego, EE.UU. (varias regiones en Estados Unidos).

      Los conjuntos de datos públicos se almacenan en la multirregión US. Para que sea más simple, almacena tu conjunto de datos en la misma ubicación.

    • Deja la configuración predeterminada restante como está y haz clic en Crear conjunto de datos.

      Página Crear un conjunto de datos

Crea una tabla de datos de entrada

Crea una tabla de datos que puedas usar para entrenar y evaluar el modelo. Esta tabla combina columnas de las tablas bigquery-public-data.iowa_liquor_sales.sales y bigquery-public-data.covid19_weathersource_com.postal_code_day_history para analizar cómo el clima afecta el tipo y la cantidad de artículos que piden las tiendas de licores. También creas las siguientes columnas adicionales que puedes usar como variables de entrada para el modelo:

  • date: la fecha del pedido
  • store_number: Es el número único de la tienda que realizó el pedido.
  • item_number: Es el número único del artículo que se pidió.
  • bottles_sold: Es la cantidad de botellas pedidas del artículo asociado.
  • temperature: La temperatura promedio en la ubicación de la tienda en la fecha del pedido
  • humidity: La humedad promedio en la ubicación de la tienda en la fecha del pedido

Sigue estos pasos para crear la tabla de datos de entrada:

  1. En la consola de Google Cloud , ve a la página BigQuery.

    Ir a BigQuery

  2. En el editor de consultas, pega la siguiente consulta y haz clic en Ejecutar:

    CREATE OR REPLACE TABLE
      `bqml_tutorial.iowa_liquor_sales_with_weather` AS
    WITH
      sales AS (
        SELECT
          DATE,
          store_number,
          item_number,
          bottles_sold,
          SAFE_CAST(SAFE_CAST(zip_code AS FLOAT64) AS INT64) AS zip_code
        FROM
          `bigquery-public-data.iowa_liquor_sales.sales` AS sales
        WHERE
          SAFE_CAST(zip_code AS FLOAT64) IS NOT NULL
      ),
      aggregated_sales AS (
        SELECT
          DATE,
          store_number,
          item_number,
          ANY_VALUE(zip_code) AS zip_code,
          SUM(bottles_sold) AS bottles_sold,
        FROM
          sales
        GROUP BY
          DATE,
          store_number,
          item_number
      ),
      weather AS (
        SELECT
          DATE,
          SAFE_CAST(postal_code AS INT64) AS zip_code,
          avg_temperature_air_2m_f AS temperature,
          avg_humidity_specific_2m_gpkg AS humidity,
        FROM
          `bigquery-public-data.covid19_weathersource_com.postal_code_day_history`
        WHERE
          SAFE_CAST(postal_code AS INT64) IS NOT NULL
      ),
      avg_weather AS (
        SELECT
          DATE,
          zip_code,
          AVG(temperature) AS temperature,
          AVG(humidity) AS humidity,
        FROM
          weather
        GROUP BY
          DATE,
          zip_code
      )
    SELECT
      aggregated_sales.date,
      aggregated_sales.store_number,
      aggregated_sales.item_number,
      aggregated_sales.bottles_sold,
      avg_weather.temperature AS temperature,
      avg_weather.humidity AS humidity
    FROM
      aggregated_sales
      LEFT JOIN avg_weather ON aggregated_sales.zip_code=avg_weather.zip_code
      AND aggregated_sales.DATE=avg_weather.DATE;

Crea el modelo de series temporales

Crea un modelo de series temporales para pronosticar las botellas vendidas para cada combinación de ID de tienda y ID de artículo, para cada fecha en la tabla bqml_tutorial.iowa_liquor_sales_with_weather anterior al 1 de septiembre de 2022. Usa la temperatura y la humedad promedio de la ubicación de la tienda en cada fecha como atributos para evaluar durante la previsión. Hay alrededor de 1 millón de combinaciones distintas de número de artículo y número de tienda en la tabla bqml_tutorial.iowa_liquor_sales_with_weather, lo que significa que hay 1 millón de series temporales diferentes para pronosticar.

Sigue estos pasos para crear el modelo:

  1. En la consola de Google Cloud , ve a la página BigQuery.

    Ir a BigQuery

  2. En el editor de consultas, pega la siguiente consulta y haz clic en Ejecutar:

    CREATE
    OR REPLACE MODEL `bqml_tutorial.multi_time_series_arimax_model`
    OPTIONS(
      model_type = 'ARIMA_PLUS_XREG',
      time_series_id_col = ['store_number', 'item_number'],
      time_series_data_col = 'bottles_sold',
      time_series_timestamp_col = 'date'
    )
    AS SELECT
      *
    FROM
      `bqml_tutorial.iowa_liquor_sales_with_weather`
    WHERE
      DATE < DATE('2022-09-01');

    La consulta tarda aproximadamente 38 minutos en completarse, después de lo cual el modelo multi_time_series_arimax_model aparece en el panel Explorador. Debido a que en la consulta se usa una sentencia CREATE MODEL para crear un modelo, no se muestran los resultados de la consulta.

Usa el modelo para pronosticar datos

Prevé valores de series temporales futuras con la función ML.FORECAST.

En la siguiente consulta de GoogleSQL, la cláusula STRUCT(5 AS horizon, 0.8 AS confidence_level) indica que la consulta prevé 5 puntos temporales futuros y genera un intervalo de predicción con un nivel de confianza del 80%.

La firma de datos de los datos de entrada de la función ML.FORECAST es la misma que la firma de datos de los datos de entrenamiento que usaste para crear el modelo. La columna bottles_sold no se incluye en la entrada, ya que esos son los datos que el modelo intenta pronosticar.

Sigue estos pasos para pronosticar datos con el modelo:

  1. En la consola de Google Cloud , ve a la página BigQuery.

    Ir a BigQuery

  2. En el editor de consultas, pega la siguiente consulta y haz clic en Ejecutar:

    SELECT
      *
    FROM
      ML.FORECAST (
        model `bqml_tutorial.multi_time_series_arimax_model`,
        STRUCT (5 AS horizon, 0.8 AS confidence_level),
        (
          SELECT
            * EXCEPT (bottles_sold)
          FROM
            `bqml_tutorial.iowa_liquor_sales_with_weather`
          WHERE
            DATE>=DATE('2022-09-01')
        )
      );

    Los resultados debería ser similar al siguiente:

    Datos previstos de la cantidad de botellas vendidas.

    Las filas de salida están ordenadas por el valor de store_number, luego por el valor de item_ID y, luego, en orden cronológico por el valor de la columna forecast_timestamp. En la previsión de series temporales, el intervalo de confianza, como lo representan los valores de las columnas prediction_interval_lower_bound y prediction_interval_upper_bound, es tan importante como el valor de la columna forecast_value. El valor de forecast_value es el punto medio del intervalo de confianza. El intervalo de confianza depende de los valores de las columnas standard_error y confidence_level.

    Para obtener más información sobre las columnas de salida, consulta ML.FORECAST.

Explica los resultados de la previsión

Puedes obtener métricas de explicabilidad, además de datos de previsión, con la función ML.EXPLAIN_FORECAST. La función ML.EXPLAIN_FORECAST prevé valores de series temporales futuras y también muestra todos los componentes separados de la serie temporal.

Al igual que la función ML.FORECAST, la cláusula STRUCT(5 AS horizon, 0.8 AS confidence_level) que se usa en la función ML.EXPLAIN_FORECAST indica que la consulta prevé 30 puntos temporales futuros y genera un intervalo de predicción con una confianza del 80%.

La función ML.EXPLAIN_FORECAST proporciona datos históricos y datos de previsión. Para ver solo los datos del pronóstico, agrega la opción time_series_type a la consulta y especifica forecast como el valor de la opción.

Sigue estos pasos para explicar los resultados del modelo:

  1. En la consola de Google Cloud , ve a la página BigQuery.

    Ir a BigQuery

  2. En el editor de consultas, pega la siguiente consulta y haz clic en Ejecutar:

    SELECT
      *
    FROM
      ML.EXPLAIN_FORECAST (
        model `bqml_tutorial.multi_time_series_arimax_model`,
        STRUCT (5 AS horizon, 0.8 AS confidence_level),
        (
          SELECT
            * EXCEPT (bottles_sold)
          FROM
            `bqml_tutorial.iowa_liquor_sales_with_weather`
          WHERE
            DATE >= DATE('2022-09-01')
        )
      );

    Los resultados debería ser similar al siguiente:

    Las primeras nueve columnas de resultados de los datos previstos y las explicaciones de las previsiones. Las columnas de salida de la décima a la decimoséptima de los datos previstos y las explicaciones de los pronósticos. Las últimas seis columnas de salida de los datos previstos y las explicaciones de las previsiones.

    Las filas de salida se ordenan cronológicamente según el valor de la columna time_series_timestamp.

    Para obtener más información sobre las columnas de salida, consulta ML.EXPLAIN_FORECAST.

Evalúa la exactitud de las previsiones

Ejecuta el modelo en datos con los que no se entrenó para evaluar la precisión de las previsiones. Puedes hacerlo con la función ML.EVALUATE. La función ML.EVALUATE evalúa cada serie temporal de forma independiente.

En la siguiente consulta de GoogleSQL, la segunda sentencia SELECT proporciona los datos con las funciones futuras, que se usan para pronosticar los valores futuros y compararlos con los datos reales.

Sigue estos pasos para evaluar la exactitud del modelo:

  1. En la consola de Google Cloud , ve a la página BigQuery.

    Ir a BigQuery

  2. En el editor de consultas, pega la siguiente consulta y haz clic en Ejecutar:

    SELECT
      *
    FROM
      ML.EVALUATE (
        model `bqml_tutorial.multi_time_series_arimax_model`,
        (
          SELECT
            *
          FROM
           `bqml_tutorial.iowa_liquor_sales_with_weather`
          WHERE
            DATE >= DATE('2022-09-01')
        )
      );

    Los resultados deberían ser similares a los siguientes:

    Métricas de evaluación del modelo

    Para obtener más información sobre las columnas de salida, consulta ML.EVALUATE.

Usa el modelo para detectar anomalías

Detecta anomalías en los datos de entrenamiento con la función ML.DETECT_ANOMALIES.

En la siguiente consulta, la cláusula STRUCT(0.95 AS anomaly_prob_threshold) hace que la función ML.DETECT_ANOMALIES identifique datos anómalos con un nivel de confianza del 95%.

Sigue estos pasos para detectar anomalías en los datos de entrenamiento:

  1. En la consola de Google Cloud , ve a la página BigQuery.

    Ir a BigQuery

  2. En el editor de consultas, pega la siguiente consulta y haz clic en Ejecutar:

    SELECT
      *
    FROM
      ML.DETECT_ANOMALIES (
        model `bqml_tutorial.multi_time_series_arimax_model`,
        STRUCT (0.95 AS anomaly_prob_threshold)
      );

    Los resultados deberían ser similares a los siguientes:

    Información de detección de anomalías para los datos de entrenamiento.

    La columna anomaly_probability en los resultados identifica la probabilidad de que un valor determinado de la columna bottles_sold sea anómalo.

    Para obtener más información sobre las columnas de salida, consulta ML.DETECT_ANOMALIES.

Detecta anomalías en los datos nuevos

Proporciona datos de entrada a la función ML.DETECT_ANOMALIES para detectar anomalías en los datos nuevos. Los datos nuevos deben tener la misma firma de datos que los datos de entrenamiento.

Sigue estos pasos para detectar anomalías en los datos nuevos:

  1. En la consola de Google Cloud , ve a la página BigQuery.

    Ir a BigQuery

  2. En el editor de consultas, pega la siguiente consulta y haz clic en Ejecutar:

    SELECT
      *
    FROM
      ML.DETECT_ANOMALIES (
        model `bqml_tutorial.multi_time_series_arimax_model`,
        STRUCT (0.95 AS anomaly_prob_threshold),
        (
          SELECT
            *
          FROM
            `bqml_tutorial.iowa_liquor_sales_with_weather`
          WHERE
            DATE >= DATE('2022-09-01')
        )
      );

    Los resultados deberían ser similares a los siguientes:

    Información de detección de anomalías para datos nuevos.

Limpia

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.

  • Puedes borrar el proyecto que creaste.
  • De lo contrario, puedes mantener el proyecto y borrar el conjunto de datos.

Borra tu conjunto de datos

Borrar tu proyecto quita todos sus conjuntos de datos y tablas. Si prefieres volver a usar el proyecto, puedes borrar el conjunto de datos que creaste en este instructivo:

  1. Si es necesario, abre la página de BigQuery en la consola deGoogle Cloud .

    Ir a la página de BigQuery

  2. En el panel de navegación, haz clic en el conjunto de datos bqml_tutorial que creaste.

  3. Haz clic en Borrar conjunto de datos en el lado derecho de la ventana. Esta acción borra el conjunto de datos, la tabla y todos los datos.

  4. En el cuadro de diálogo Borrar conjunto de datos, escribe el nombre del conjunto de datos (bqml_tutorial) para confirmar el comando de borrado y, luego, haz clic en Borrar.

Borra tu proyecto

Para borrar el proyecto, haz lo siguiente:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

¿Qué sigue?