Previsão de séries temporais hierárquicas

Neste tutorial, ensinamos como gerar uma série temporal hierárquica. Neste tutorial, você vai criar dois modelos de série temporal com os mesmos dados. Um deles usa previsão hierárquica e outro não. Isso permite comparar os resultados retornados pelos modelos.

Use os dados de iowa_liquor.sales.sales para treinar os modelos neste tutorial. Este conjunto de dados contém informações de mais de 1 milhão de produtos de bebidas alcoólicas em diferentes lojas usando dados públicos de vendas de bebidas alcoólicas de Iowa.

Antes de seguir este tutorial, você precisa se familiarizar com a previsão de série temporal múltipla. Conclua o tutorial Previsão de série temporal múltipla a partir de dados do Google Analytics para uma introdução a esse tópico.

Permissões exigidas

  • Para criar o conjunto de dados, é preciso ter a permissão de IAM bigquery.datasets.create.
  • Para criar o recurso de conexão, você precisa das seguintes permissões:

    • bigquery.connections.create
    • bigquery.connections.get
  • Para criar o modelo, você precisa das seguintes permissões:

    • bigquery.jobs.create
    • bigquery.models.create
    • bigquery.models.getData
    • bigquery.models.updateData
    • bigquery.connections.delegate
  • Para executar a inferência, você precisa das seguintes permissões:

    • bigquery.models.getData
    • bigquery.jobs.create

Para mais informações sobre os papéis e as permissões do IAM no BigQuery, consulte Introdução ao IAM.

Objetivos

Neste tutorial, você usará o seguinte:

  • A instrução CREATE MODEL: para criar um modelo de série temporal e hierárquico.
  • A função ML.FORECAST para prever o total de visitas diárias.

Custos

Neste tutorial, há componentes faturáveis do Google Cloud, entre eles:

  • BigQuery
  • BigQuery ML

Para mais informações sobre os custos do BigQuery, consulte a página de preços.

Para mais informações sobre os custos do BigQuery ML, consulte os preços do BigQuery ML.

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  4. Ative a API BigQuery.

    Ative a API

  5. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  6. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  7. Ative a API BigQuery.

    Ative a API

crie um conjunto de dados

Crie um conjunto de dados do BigQuery para armazenar o modelo de ML:

  1. No console do Google Cloud, acesse a página do BigQuery.

    Acesse a página do BigQuery

  2. No painel Explorer, clique no nome do seu projeto.

  3. Clique em Conferir ações > Criar conjunto de dados.

    Criar conjunto de dados.

  4. Na página Criar conjunto de dados, faça o seguinte:

    • Para o código do conjunto de dados, insira bqml_tutorial.

    • Em Tipo de local, selecione Multirregião e EUA (várias regiões nos Estados Unidos).

      Os conjuntos de dados públicos são armazenados na multirregião US. Para simplificar, armazene seus conjuntos de dados no mesmo local.

    • Mantenha as configurações padrão restantes e clique em Criar conjunto de dados.

      Página Criar conjunto de dados.

Reconciliação hierárquica

As previsões de série temporal podem ser divididas ou agregadas com base em diferentes dimensões de interesse. Elas são conhecidas como séries temporais hierárquicas. Por exemplo, os dados do censo que revelam a população total por estado podem ser divididos por cidade e CEP. Por outro lado, podemos agregar esses dados para cada país ou continente.

Existem várias técnicas que podem ser usadas para gerar e reconciliar previsões hierárquicas. Veja o exemplo a seguir, que mostra uma estrutura hierárquica simplificada para vendas de bebidas no estado de Iowa:

Série temporal hierárquica.

O nível mais baixo mostra o nível da loja, seguido pelo nível do CEP, pela cidade, pelo condado e, por último, pelo estado. O objetivo das previsões hierárquicas é garantir que todas as previsões em cada nível precisem ser reconciliadas. Por exemplo, dada a figura anterior, isso significa que as previsões para Clive e Des Moines devem se igualar à previsão em Polk. Da mesma forma, as previsões em Polk, Linn e Scott devem somar à previsão em Iowa.

Há algumas técnicas comuns que podem ser usadas para gerar previsões reconciliadas para cada nível. Uma técnica é conhecida como abordagem Ascendente. Nessa abordagem, as previsões são geradas no nível inferior da hierarquia antes de somar os outros níveis. Considerando o exemplo anterior, as previsões para cada loja são usadas para criar os modelos de previsão para os outros níveis (primeiro por cep, seguido por cidade etc.).

Criar um modelo de série temporal

Primeiro, crie um modelo de série temporal usando os dados de vendas de bebidas alcoólicas de Iowa.

A consulta do GoogleSQL a seguir cria um modelo que prevê o número total diário de garrafas vendidas em 2015 nos condados de Polk, Linn e Scott. A instrução CREATE MODEL cria e treina um modelo chamado bqml_tutorial.liquor_forecast.

#standardSQL
CREATE OR REPLACE MODEL `bqml_tutorial.liquor_forecast`
  OPTIONS (
    MODEL_TYPE = 'ARIMA_PLUS',
    TIME_SERIES_TIMESTAMP_COL = 'date',
    TIME_SERIES_DATA_COL = 'total_bottles_sold',
    TIME_SERIES_ID_COL = ['store_number', 'zip_code', 'city', 'county'],
    HOLIDAY_REGION = 'US')
AS
SELECT
  store_number,
  zip_code,
  city,
  county,
  date,
  SUM(bottles_sold) AS total_bottles_sold
FROM
  `bigquery-public-data.iowa_liquor_sales.sales`
WHERE
  date BETWEEN DATE('2015-01-01') AND DATE('2015-12-31')
  AND county IN ('POLK', 'LINN', 'SCOTT')
GROUP BY store_number, date, city, zip_code, county;

A cláusula OPTIONS(model_type='ARIMA_PLUS', time_series_timestamp_col='date', ...) indica que você está criando um modelo de série temporal com base em ARIMA. Por padrão, auto_arima=TRUE, para que o algoritmo auto.ARIMA ajuste automaticamente os hiperparâmetros nos modelos ARIMA_PLUS. O algoritmo se encaixa em dezenas de modelos candidatos e escolhe o melhor com o menor índice de informações do Akaike (AIC, na sigla em inglês). Definir a opção holiday_region como US permitirá uma modelagem mais precisa desses períodos de feriados nos Estados Unidos, se houver padrões de feriados nos Estados Unidos na série temporal.

Execute a consulta CREATE MODEL para criar e treinar seu modelo:

  1. No console do Google Cloud, clique no botão Executar uma consulta no BigQuery.

  2. Insira a seguinte consulta do GoogleSQL no editor de consultas.

#standardSQL
CREATE OR REPLACE MODEL `bqml_tutorial.liquor_forecast`
  OPTIONS (
    MODEL_TYPE = 'ARIMA_PLUS',
    TIME_SERIES_TIMESTAMP_COL = 'date',
    TIME_SERIES_DATA_COL = 'total_bottles_sold',
    TIME_SERIES_ID_COL = ['store_number', 'zip_code', 'city', 'county'],
    HOLIDAY_REGION = 'US')
AS
SELECT
  store_number,
  zip_code,
  city,
  county,
  date,
  SUM(bottles_sold) AS total_bottles_sold
FROM
  `bigquery-public-data.iowa_liquor_sales.sales`
WHERE
  date BETWEEN DATE('2015-01-01') AND DATE('2015-12-31')
  AND county IN ('POLK', 'LINN', 'SCOTT')
GROUP BY store_number, date, city, zip_code, county;
  1. Clique em Executar.

    A consulta leva cerca de 37 segundos para ser concluída. Depois disso, seu modelo (liquor_forecast) aparece no painel Explorer. Como a consulta usa uma instrução CREATE MODEL para criar um modelo, não há resultados de consulta.

Inspecionar os resultados do modelo de série temporal

Depois de criar o modelo, use a função ML.FORECAST para ver os resultados da previsão.

Execute a função ML.FORECAST no modelo liquor_forecast especificando-a na cláusula FROM.

Por padrão, essa consulta retorna as previsões para todas as séries temporais únicas nos dados, identificadas pelas colunas store_number, zip_code, city e county.

Para executar a consulta ML.FORECAST, siga estas etapas:

  1. No console do Google Cloud, clique no botão Executar uma consulta no BigQuery.

  2. Insira a seguinte consulta do GoogleSQL no editor de consultas.

#standardSQL
SELECT *
FROM
  ML.FORECAST(
    MODEL `bqml_tutorial.liquor_forecast`,
    STRUCT(20 AS horizon, 0.8 AS confidence_level))
ORDER BY store_number, county, city, zip_code, forecast_timestamp
  1. Clique em Executar.

    A consulta deve levar cerca de cinco segundos para ser executada. Depois que a consulta é executada, a saída mostra os resultados a seguir.

    Exemplo de série temporal.

    Observe como a previsão para a primeira série temporal é exibida (store_number=2190, zip_code=50314, city=DES MOINES, county=POLK). Se você observar mais de perto o restante das linhas, vai perceber as previsões para os outros grupos.

    Em geral, as previsões são geradas para cada série temporal única. Para gerar previsões para níveis agregados, como previsões para um condado específico, é preciso gerar uma previsão hierárquica.

Criar um modelo de série temporal com previsões hierárquicas

Criar uma previsão de série temporal hierárquica usando os dados de vendas de bebidas alcoólicas de Iowa.

A consulta do GoogleSQL a seguir cria um modelo que gera previsões hierárquicas para o total diário de garrafas vendidas em 2015 nos condados de Polk, Linn e Scott. A instrução CREATE MODEL cria e treina um modelo chamado bqml_tutorial.liquor_forecast_hierarchical.

#standardSQL
CREATE OR REPLACE MODEL `bqml_tutorial.liquor_forecast_hierarchical`
  OPTIONS (
    MODEL_TYPE = 'ARIMA_PLUS',
    TIME_SERIES_TIMESTAMP_COL = 'date',
    TIME_SERIES_DATA_COL = 'total_bottles_sold',
    TIME_SERIES_ID_COL = ['store_number', 'zip_code', 'city', 'county'],
    HIERARCHICAL_TIME_SERIES_COLS = ['zip_code', 'store_number'],
    HOLIDAY_REGION = 'US')
AS
SELECT
  store_number,
  zip_code,
  city,
  county,
  date,
  SUM(bottles_sold) AS total_bottles_sold
FROM
  `bigquery-public-data.iowa_liquor_sales.sales`
WHERE
  date BETWEEN DATE('2015-01-01') AND DATE('2015-12-31')
  AND county IN ('POLK', 'LINN', 'SCOTT')
GROUP BY store_number, date, city, zip_code, county;

O parâmetro HIERARCHICAL_TIME_SERIES_COLS indica que você está criando uma previsão hierárquica com base em um conjunto de colunas. Cada uma dessas colunas é agrupada e agregada. Por exemplo, na consulta anterior, isso significa que store_number é acumulado para mostrar previsões para cada county, city e zip_code. Separadamente, zip_code e store_number também são acumulados para mostrar previsões para cada county e city. A ordem das colunas é importante porque define a estrutura da hierarquia.

Execute a consulta CREATE MODEL para criar e treinar seu modelo:

  1. No console do Google Cloud, clique no botão Executar uma consulta no BigQuery.

  2. Insira a seguinte consulta do GoogleSQL no editor de consultas.

#standardSQL
CREATE OR REPLACE MODEL `bqml_tutorial.liquor_forecast_hierarchical`
  OPTIONS (
    MODEL_TYPE = 'ARIMA_PLUS',
    TIME_SERIES_TIMESTAMP_COL = 'date',
    TIME_SERIES_DATA_COL = 'total_bottles_sold',
    TIME_SERIES_ID_COL = ['store_number', 'zip_code', 'city', 'county'],
    HIERARCHICAL_TIME_SERIES_COLS = ['zip_code', 'store_number'],
    HOLIDAY_REGION = 'US')
AS
SELECT
  store_number,
  zip_code,
  city,
  county,
  date,
  SUM(bottles_sold) AS total_bottles_sold
FROM
  `bigquery-public-data.iowa_liquor_sales.sales`
WHERE
  date BETWEEN DATE('2015-01-01') AND DATE('2015-12-31')
  AND county IN ('POLK', 'LINN', 'SCOTT')
GROUP BY store_number, date, city, zip_code, county;
  1. Clique em Executar.

    A consulta leva cerca de 45 segundos para ser concluída. Depois disso, seu modelo (bqml_tutorial.liquor_forecast_hierarchical) aparece no painel Explorer. Como a consulta usa uma instrução CREATE MODEL para criar um modelo, não há resultados de consulta.

Inspecionar os resultados do modelo hierárquico de série temporal

  1. No console do Google Cloud, clique no botão Executar uma consulta no BigQuery.

  2. Insira a seguinte consulta do GoogleSQL no editor de consultas.

    #standardSQL
    SELECT
    *
    FROM
    ML.FORECAST(
      MODEL `bqml_tutorial.liquor_forecast_hierarchical`,
      STRUCT(30 AS horizon, 0.8 AS confidence_level))
    WHERE city = 'LECLAIRE'
    ORDER BY county, city, zip_code, store_number, forecast_timestamp
    
  3. Clique em Executar.

    A consulta deve levar cerca de cinco segundos para ser executada. Depois que a consulta é executada, a saída mostra os resultados a seguir.

    Exemplo de série temporal hierárquica.

    Observe como a previsão agregada é exibida para a cidade de LeClaire (store_number=NULL, zip_code=NULL, city=LECLAIRE, county=SCOTT). Se você observar mais o resto das linhas, vai perceber as previsões para os outros subgrupos. Por exemplo, a imagem a seguir mostra as previsões agregadas para o CEP 52753 (store_number=NULL, zip_code=52753, city=LECLAIRE, county=SCOTT):

    Exemplo de série temporal hierárquica.

Excluir o conjunto de dados

A exclusão do seu projeto removerá todos os conjuntos de dados e tabelas no projeto. Caso prefira reutilizá-lo, exclua o conjunto de dados criado neste tutorial:

  1. Se necessário, abra a página do BigQuery no console do Google Cloud.

    Acesse a página do BigQuery

  2. Na navegação, clique no conjunto de dados bqml_tutorial criado.

  3. Clique em Excluir conjunto de dados no lado direito da janela. Essa ação exclui o conjunto, a tabela e todos os dados.

  4. Na caixa de diálogo Excluir conjunto de dados, confirme o comando de exclusão digitando o nome do seu conjunto de dados (bqml_tutorial). Em seguida, clique em Excluir.

Excluir o projeto

Para excluir o projeto:

  1. No Console do Google Cloud, acesse a página Gerenciar recursos.

    Acessar "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  3. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

A seguir