Etapa 1: estabelecer as cargas de trabalho

Esta página orienta você na etapa inicial de configuração da base de dados, o núcleo do Cortex Framework. Criada com base no armazenamento do BigQuery, a base de dados organiza os dados recebidos de várias fontes. Esses dados organizados facilitam a análise e o uso para o desenvolvimento de IA.

Configurar a integração de dados

Comece definindo alguns parâmetros-chave para servir como modelo para organizar e usar seus dados de maneira eficiente no Cortex Framework. Esses parâmetros podem variar de acordo com a carga de trabalho específica, o fluxo de dados escolhido e o mecanismo de integração. O diagrama a seguir fornece uma visão geral da integração de dados na base de dados do Cortex Framework:

Estrutura para parâmetros

Figura 1. Cortex Framework Data Foundation: visão geral da integração de dados.

Defina os parâmetros abaixo antes da implantação para uma utilização de dados eficiente e eficaz no Cortex Framework.

Projetos

  • Projeto de origem:projeto em que os dados brutos estão armazenados. Você precisa de pelo menos um projeto Google Cloud para armazenar dados e executar o processo de implantação.
  • Projeto de destino (opcional): projeto em que a Cortex Framework Data Foundation armazena os modelos de dados processados. Pode ser igual ao projeto de origem ou diferente, dependendo das suas necessidades.

Se você quiser ter conjuntos separados de projetos e conjuntos de dados para cada carga de trabalho (por exemplo, um conjunto de projetos de origem e de destino para o SAP e um conjunto diferente de projetos de origem e de destino para o Salesforce), execute implantações separadas para cada carga de trabalho. Para mais informações, consulte Como usar projetos diferentes para segregar o acesso na seção de etapas opcionais.

Modelo de dados

  • Implantar modelos:escolha se você precisa implantar modelos para todas as cargas de trabalho ou apenas um conjunto de modelos (por exemplo, SAP, Salesforce e Meta). Para mais informações, consulte as Fontes de dados e cargas de trabalho disponíveis.

Conjuntos de dados do BigQuery

  • Conjunto de dados de origem (bruto): conjunto de dados do BigQuery em que os dados de origem são replicados ou em que os dados de teste são criados. A recomendação é ter conjuntos de dados separados, um para cada fonte de dados. Por exemplo, um conjunto de dados brutos para o SAP e outro para o Google Ads. Esse conjunto de dados pertence ao projeto de origem.
  • Conjunto de dados CDC:conjunto de dados do BigQuery em que os dados processados pelo CDC são armazenados nos registros mais recentes disponíveis. Algumas cargas de trabalho permitem o mapeamento de nome de campo. A recomendação é ter um conjunto de dados do CDC separado para cada fonte. Por exemplo, um conjunto de dados de CDC para SAP e outro para Salesforce. Esse conjunto de dados pertence ao projeto de origem.
  • Conjunto de dados de relatórios de destino: conjunto de dados do BigQuery em que os modelos de dados predefinidos da Fundação de dados são implantados. Recomendamos ter um conjunto de dados de relatórios separado para cada origem. Por exemplo, um conjunto de dados de relatórios para o SAP e outro para o Salesforce. Esse conjunto de dados é criado automaticamente durante a implantação, se ainda não existir. Esse conjunto de dados pertence ao projeto Target.
  • Conjunto de dados de pré-processamento K9:conjunto de dados do BigQuery em que é possível implantar componentes de DAG reutilizáveis e de várias cargas de trabalho, como dimensões time. As cargas de trabalho têm dependência desse conjunto de dados, a menos que sejam modificadas. Esse conjunto de dados é criado automaticamente durante a implantação, se ainda não existir. Esse conjunto de dados pertence ao projeto de origem.
  • Conjunto de dados K9 pós-processamento:conjunto de dados do BigQuery em que é possível implantar relatórios de várias cargas de trabalho e DAGs de origem externa (por exemplo, transferência do Google Trends). Esse conjunto de dados é criado automaticamente durante a implantação, se ainda não existir. Esse conjunto de dados pertence ao projeto de destino.

Opcional: gerar dados de amostra

O Cortex Framework pode gerar dados e tabelas de amostra para você se você não tiver acesso aos seus próprios dados ou ferramentas de replicação para configurar dados ou mesmo se quiser apenas saber como o Cortex Framework funciona. No entanto, você ainda precisa criar e identificar os conjuntos de dados CDC e brutos com antecedência.

Crie conjuntos de dados do BigQuery para dados brutos e CDC por fonte de dados, com as seguintes instruções.

Console

  1. Abra a página do BigQuery no console do Google Cloud.

    Acesse a página do BigQuery

  2. No painel Explorer, selecione o projeto em que você quer criar o conjunto de dados.

  3. Expanda a opção Ações e clique em Criar conjunto de dados.

    Use o menu de ações do projeto para criar um conjunto de dados.

  4. Na página Criar conjunto de dados, faça o seguinte:

    • Em ID do conjunto de dados, insira um nome exclusivo para o conjunto de dados.
    • Em Tipo de local, escolha um local geográfico para o conjunto de dados. Após a criação de um conjunto de dados, o local não pode ser alterado.

    • Opcional. Para mais detalhes de personalização do conjunto de dados, consulte Criar conjuntos de dados: console.

  5. Clique em Criar conjunto de dados.

bq

  1. Copie o comando a seguir para criar um novo conjunto de dados de dados brutos:

       bq --location= LOCATION mk -d SOURCE_PROJECT: DATASET_RAW
    

    Substitua:

    • LOCATION com o local do conjunto de dados.
    • SOURCE_PROJECT pelo ID do projeto de origem.
    • DATASET_RAW com o nome do conjunto de dados para dados brutos. Por exemplo, CORTEX_SFDC_RAW.
  2. Crie um novo conjunto de dados para os dados do CDC copiando o comando a seguir:

      bq --location=LOCATION mk -d SOURCE_PROJECT: DATASET_CDC
    

    Substitua:

    • LOCATION com o local do conjunto de dados.
    • SOURCE_PROJECT pelo ID do projeto de origem.
    • DATASET_CDC com o nome do conjunto de dados para dados do CDC. Por exemplo, CORTEX_SFDC_CDC.
  3. Confirme se os conjuntos de dados foram criados com o seguinte comando:

        bq ls
    
  4. Opcional. Para mais informações sobre como criar conjuntos de dados, consulte Criar conjuntos de dados.

Próximas etapas

Depois de concluir esta etapa, siga estas etapas de implantação:

  1. Estabeleça cargas de trabalho (página em inglês).
  2. Clone o repositório.
  3. Determinar o mecanismo de integração.
  4. Configurar componentes.
  5. Configure a implantação.
  6. Executar a implantação.