Configurar conjuntos de dados externos

Esta página descreve uma etapa opcional para configurar conjuntos de dados externos para a implantação da Fundação de Dados do Cortex Framework. Alguns casos de uso avançados podem exigir conjuntos de dados externos para complementar um sistema empresarial de registro. Além das trocas externas consumidas pelo Analytics Hub, alguns conjuntos de dados podem precisar de métodos personalizados ou adaptados para consumir dados e combiná-los com os modelos de relatórios.

Para ativar os seguintes conjuntos de dados externos, defina k9.deployDataset como True se quiser que o conjunto de dados seja implantado.

Configure os grafos acíclicos dirigidos (DAGs, na sigla em inglês) para os conjuntos de dados externos compatíveis seguindo estas etapas:

  1. Calendário de feriados:este DAG recupera as datas especiais do PyPi Holidays.

    1. Ajuste a lista de países, a lista de anos e outros parâmetros de DAG para extrair feriados em holiday_calendar.ini.
  2. Tendências: esse DAG recupera o interesse ao longo do tempo para um conjunto específico de termos das tendências da Pesquisa Google. Os termos podem ser configurados em trends.ini.

    1. Após uma execução inicial, ajuste o start_date para 'today 7-d' em trends.ini.
    2. Familiarize-se com os resultados provenientes dos diferentes termos para ajustar os parâmetros.
    3. Recomendamos particionar listas grandes em várias cópias desse DAG executadas em momentos diferentes.
    4. Para mais informações sobre a biblioteca usada, consulte Pytrends.
  3. Clima: por padrão, esse DAG usa o conjunto de dados de teste BigQuery-public-data.geo_openstreetmap.planet_layers, disponível publicamente. A consulta também depende de um conjunto de dados da NOAA disponível apenas pelo Analytics Hub: noaa_global_forecast_system.

    Esse conjunto de dados precisa ser criado na mesma região que os outros conjuntos de dados antes da execução da implantação. Se os conjuntos de dados não estiverem disponíveis na sua região, siga as instruções abaixo para transferir os dados para a região escolhida:

    1. Acesse o Analytics Hub do BigQuery.
    2. Clique em Pesquisar fichas.
    3. Pesquise NOAA Global Forecast System.
    4. Clique em Adicionar conjunto de dados ao projeto.
    5. Quando solicitado, mantenha noaa_global_forecast_system como o nome do conjunto de dados. Se necessário, ajuste o nome do conjunto de dados e da tabela nas cláusulas FROM em weather_daily.sql.
    6. Repita a pesquisa de listagem para o conjunto de dados OpenStreetMap Public Dataset.
    7. Ajuste as cláusulas FROM que contêm: BigQuery-public-data.geo_openstreetmap.planet_layers em postcode.sql.
  4. Insights de sustentabilidade e ESG: o Cortex Framework combina dados de desempenho do fornecedor SAP com insights avançados de ESG para comparar desempenho de entrega, sustentabilidade e riscos de forma mais holística em operações globais. Para mais informações, consulte a fonte de dados da Dun & Bradstreet.

Considerações gerais

  • O Analytics Hub só é aceito em locais da UE e dos EUA, e alguns conjuntos de dados, como a previsão global da NOAA, só são oferecidos em um único local.

    Se você estiver segmentando um local diferente do disponível para o conjunto de dados necessário, recomendamos criar uma consulta programada para copiar os novos registros do conjunto de dados vinculado ao Analytics Hub, seguido de um serviço de transferência para copiar esses novos registros para um conjunto de dados localizado no mesmo local ou região que o restante da sua implantação. Em seguida, ajuste os arquivos SQL.

  • Antes de copiar esses DAGs para o Cloud Composer, adicione os módulos Python necessários como dependências:

    Required modules:
    pytrends~=4.9.2
    holidays