Prever série temporal hierárquicas com um modelo univariado

Neste tutorial, você vai aprender a usar um modelo de série temporal univariada para prever séries temporais hierárquicas. Ele prevê o valor futuro de uma determinada coluna com base nos valores históricos dela e também calcula valores agregados para uma ou mais dimensões de interesse.

Os valores previstos são calculados para cada ponto no tempo, para cada valor em uma ou mais colunas que especificam as dimensões de interesse. Por exemplo, se você quisesse prever incidentes de tráfego diários e especificasse uma coluna de dimensão com dados de estado, os dados previstos teriam valores para cada dia do Estado A, depois valores para cada dia do Estado B e assim por diante. Se você quisesse prever incidentes de tráfego diários e especificar colunas de dimensão com dados de estado e cidade, os dados previstos teriam valores para cada dia do Estado A e da Cidade A, depois valores para cada dia do Estado A e da Cidade B, e assim por diante. Em modelos hierárquicos de séries temporais, a conciliação hierárquica é usada para agrupar e reconciliar cada série temporal filha com a mãe. Por exemplo, a soma dos valores previstos para todas as cidades do Estado A precisa ser igual ao valor previsto para o Estado A.

Neste tutorial, você vai criar dois modelos de série temporal com os mesmos dados: um que usa previsão hierárquica e outro que não usa. Isso permite comparar os resultados retornados pelos modelos.

Este tutorial usa dados da tabela pública bigquery-public-data.iowa_liquor.sales.sales. Esta tabela contém informações de mais de 1 milhão de produtos de bebidas alcoólicas em diferentes lojas usando dados públicos de vendas de bebidas alcoólicas de Iowa.

Antes de ler este tutorial, recomendamos que você leia Como prever várias série temporal com um modelo univariado.

Permissões exigidas

  • Para criar o conjunto de dados, é preciso ter a permissão de IAM bigquery.datasets.create.
  • Para criar o recurso de conexão, você precisa das seguintes permissões:

    • bigquery.connections.create
    • bigquery.connections.get
  • Para criar o modelo, você precisa das seguintes permissões:

    • bigquery.jobs.create
    • bigquery.models.create
    • bigquery.models.getData
    • bigquery.models.updateData
    • bigquery.connections.delegate
  • Para executar a inferência, você precisa das seguintes permissões:

    • bigquery.models.getData
    • bigquery.jobs.create

Para mais informações sobre os papéis e as permissões do IAM no BigQuery, consulte Introdução ao IAM.

Objetivos

Neste tutorial, você usará:

  • Criar um modelo de série temporal múltipla e um modelo de série temporal hierárquica para prever os valores de vendas de garrafas usando a instrução CREATE MODEL.
  • Extrair os valores previstos das vendas de garrafas dos modelos usando a função ML.FORECAST.

Custos

Neste tutorial, há componentes faturáveis do Google Cloud, entre eles:

  • BigQuery
  • BigQuery ML

Para mais informações sobre os custos do BigQuery, consulte a página de preços.

Para mais informações sobre os custos do BigQuery ML, consulte os preços do BigQuery ML.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. O BigQuery é ativado automaticamente em novos projetos. Para ativar o BigQuery em um projeto preexistente, acesse

    Enable the BigQuery API.

    Enable the API

Criar um conjunto de dados

Crie um conjunto de dados do BigQuery para armazenar o modelo de ML:

  1. No console do Google Cloud, acesse a página do BigQuery.

    Acesse a página do BigQuery

  2. No painel Explorer, clique no nome do seu projeto.

  3. Clique em Conferir ações > Criar conjunto de dados.

    Criar conjunto de dados.

  4. Na página Criar conjunto de dados, faça o seguinte:

    • Para o código do conjunto de dados, insira bqml_tutorial.

    • Em Tipo de local, selecione Multirregião e EUA (várias regiões nos Estados Unidos).

      Os conjuntos de dados públicos são armazenados na multirregião US. Para simplificar, armazene seus conjuntos de dados no mesmo local.

    • Mantenha as configurações padrão restantes e clique em Criar conjunto de dados.

      Página Criar conjunto de dados.

Criar um modelo de série temporal

Crie um modelo de série temporal usando os dados de vendas de bebidas alcoólicas de Iowa.

A consulta do GoogleSQL a seguir cria um modelo que prevê o total diário de garrafas vendidas em 2015 nos condados de Polk, Linn e Scott.

Na consulta a seguir, a cláusula OPTIONS(model_type='ARIMA_PLUS', time_series_timestamp_col='date', ...) indica que você está criando um modelo de série temporal com base em ARIMA. Use a opção TIME_SERIES_ID da instrução CREATE MODEL para especificar uma ou mais colunas nos dados de entrada para as quais você quer receber previsões. A opção auto_arima_max_order da instrução CREATE MODEL controla o espaço de pesquisa para ajuste de hiperparâmetros no algoritmo auto.ARIMA. A opção decompose_time_series da instrução CREATE MODEL é definida como TRUE por padrão. Assim, as informações sobre os dados de série temporal são retornadas quando você avalia o modelo na próxima etapa.

A cláusula OPTIONS(model_type='ARIMA_PLUS', time_series_timestamp_col='date', ...) indica que você está criando um modelo de série temporal com base em ARIMA. Por padrão, auto_arima=TRUE, para que o algoritmo auto.ARIMA ajuste automaticamente os hiperparâmetros nos modelos ARIMA_PLUS. O algoritmo se encaixa em dezenas de modelos candidatos e escolhe o melhor, que é o modelo com o menor critério de informação de Akaike (AIC). Definir a opção holiday_region como US permite uma modelagem mais precisa desses períodos de feriados nos Estados Unidos, se houver padrões de feriados nos Estados Unidos na série temporal.

Siga estas etapas para criar o modelo:

  1. No Console do Google Cloud, acesse a página BigQuery.

    Ir para o BigQuery

  2. No Editor de consultas, cole a consulta a seguir e clique em Executar:

    CREATE OR REPLACE MODEL `bqml_tutorial.liquor_forecast`
      OPTIONS (
        MODEL_TYPE = 'ARIMA_PLUS',
        TIME_SERIES_TIMESTAMP_COL = 'date',
        TIME_SERIES_DATA_COL = 'total_bottles_sold',
        TIME_SERIES_ID_COL = ['store_number', 'zip_code', 'city', 'county'],
        HOLIDAY_REGION = 'US')
    AS
    SELECT
      store_number,
      zip_code,
      city,
      county,
      date,
      SUM(bottles_sold) AS total_bottles_sold
    FROM
      `bigquery-public-data.iowa_liquor_sales.sales`
    WHERE
      date BETWEEN DATE('2015-01-01') AND DATE('2015-12-31')
      AND county IN ('POLK', 'LINN', 'SCOTT')
    GROUP BY store_number, date, city, zip_code, county;

    A consulta leva cerca de 37 segundos para ser concluída. Depois disso, o modelo liquor_forecast aparece no painel Explorer. Como a consulta usa uma instrução CREATE MODEL para criar um modelo, não há resultados de consulta.

Usar o modelo para prever dados

Prever valores futuros da série temporal usando a função ML.FORECAST.

Na consulta a seguir, a cláusula STRUCT(20 AS horizon, 0.8 AS confidence_level) indica que a consulta prevê 20 pontos no tempo futuro e gera um intervalo de previsão com um nível de confiança de 80%.

Siga estas etapas para prever dados com o modelo:

  1. No Console do Google Cloud, acesse a página BigQuery.

    Ir para o BigQuery

  2. No Editor de consultas, cole a consulta a seguir e clique em Executar:

    SELECT *
    FROM
      ML.FORECAST(
        MODEL `bqml_tutorial.liquor_forecast`,
        STRUCT(20 AS horizon, 0.8 AS confidence_level))
    ORDER BY store_number, county, city, zip_code, forecast_timestamp;

    A resposta deve ficar assim:

    Várias série temporal com um modelo univariado

    A saída começa com os dados previstos para a primeira série temporal: store_number=2190, zip_code=50314, city=DES MOINES, county=POLK. Conforme você rola os dados, as previsões de cada série temporal única são mostradas. Para gerar previsões que agreguem totais de diferentes dimensões, como previsões para um condado específico, é necessário gerar uma previsão hierárquica.

Criar um modelo hierárquico de série temporal

Criar uma previsão de série temporal hierárquica usando os dados de vendas de bebidas alcoólicas de Iowa.

A consulta do GoogleSQL a seguir cria um modelo que gera previsões hierárquicas para o total diário de garrafas vendidas em 2015 nos condados de Polk, Linn e Scott.

Na consulta a seguir, a opção HIERARCHICAL_TIME_SERIES_COLS na instrução CREATE MODEL indica que você está criando uma previsão hierárquica com base em um conjunto de colunas especificado. Cada uma dessas colunas é agrupada e agregada. Por exemplo, na consulta anterior, isso significa que o valor da coluna store_number é acumulado para mostrar previsões para cada valor de county, city e zip_code. Separadamente, os valores zip_code e store_number também são acumulados para mostrar previsões para cada valor county e city. A ordem das colunas é importante porque define a estrutura da hierarquia.

Siga estas etapas para criar o modelo:

  1. No Console do Google Cloud, acesse a página BigQuery.

    Ir para o BigQuery

  2. No Editor de consultas, cole a consulta a seguir e clique em Executar:

    CREATE OR REPLACE MODEL `bqml_tutorial.liquor_forecast_hierarchical`
      OPTIONS (
        MODEL_TYPE = 'ARIMA_PLUS',
        TIME_SERIES_TIMESTAMP_COL = 'date',
        TIME_SERIES_DATA_COL = 'total_bottles_sold',
        TIME_SERIES_ID_COL = ['store_number', 'zip_code', 'city', 'county'],
        HIERARCHICAL_TIME_SERIES_COLS = ['zip_code', 'store_number'],
        HOLIDAY_REGION = 'US')
    AS
    SELECT
      store_number,
      zip_code,
      city,
      county,
      date,
      SUM(bottles_sold) AS total_bottles_sold
    FROM
      `bigquery-public-data.iowa_liquor_sales.sales`
    WHERE
      date BETWEEN DATE('2015-01-01') AND DATE('2015-12-31')
      AND county IN ('POLK', 'LINN', 'SCOTT')
    GROUP BY store_number, date, city, zip_code, county;

    A consulta leva cerca de 45 segundos para ser concluída. Depois disso, o modelo bqml_tutorial.liquor_forecast_hierarchical aparece no painel Explorer. Como a consulta usa uma instrução CREATE MODEL para criar um modelo, não há resultados de consulta.

Usar o modelo hierárquico para prever dados

Extraia dados de previsão hierárquica do modelo usando a função ML.FORECAST.

Siga estas etapas para prever dados com o modelo:

  1. No Console do Google Cloud, acesse a página BigQuery.

    Ir para o BigQuery

  2. No Editor de consultas, cole a consulta a seguir e clique em Executar:

    SELECT
      *
    FROM
      ML.FORECAST(
        MODEL `bqml_tutorial.liquor_forecast_hierarchical`,
        STRUCT(30 AS horizon, 0.8 AS confidence_level))
    WHERE city = 'LECLAIRE'
    ORDER BY county, city, zip_code, store_number, forecast_timestamp;

    A resposta deve ficar assim:

    Exemplo de série temporal hierárquica.

    Observe como a previsão agregada é exibida para a cidade de LeClaire, store_number=NULL, zip_code=NULL, city=LECLAIRE, county=SCOTT. Ao observar o restante das linhas, observe as previsões para os outros subgrupos. Por exemplo, a imagem a seguir mostra as previsões agregadas para o CEP 52753, store_number=NULL, zip_code=52753, city=LECLAIRE e county=SCOTT:

    Exemplo de série temporal hierárquica.

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados neste tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

  • exclua o projeto que você criou; ou
  • Mantenha o projeto e exclua o conjunto de dados.

Excluir o conjunto de dados

A exclusão do seu projeto removerá todos os conjuntos de dados e tabelas no projeto. Caso prefira reutilizá-lo, exclua o conjunto de dados criado neste tutorial:

  1. Se necessário, abra a página do BigQuery no console do Google Cloud.

    Acesse a página do BigQuery

  2. Na navegação, clique no conjunto de dados bqml_tutorial criado.

  3. Clique em Excluir conjunto de dados no lado direito da janela. Essa ação exclui o conjunto, a tabela e todos os dados.

  4. Na caixa de diálogo Excluir conjunto de dados, confirme o comando de exclusão digitando o nome do seu conjunto de dados (bqml_tutorial). Em seguida, clique em Excluir.

Excluir o projeto

Para excluir o projeto:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

A seguir