Passo 1: estabeleça cargas de trabalho

Esta página explica o passo inicial de configuração da base de dados, o núcleo do Cortex Framework. Baseada no armazenamento do BigQuery, a base de dados organiza os dados recebidos de várias origens. Estes dados organizados simplificam a análise e a respetiva aplicação no desenvolvimento de IA.

Configure a integração de dados

Comece por definir alguns parâmetros importantes que atuem como um modelo para organizar e usar os seus dados de forma eficiente no Cortex Framework. Lembre-se de que estes parâmetros podem variar consoante a carga de trabalho específica, o fluxo de dados escolhido e o mecanismo de integração. O diagrama seguinte oferece uma vista geral da integração de dados na base de dados do Cortex Framework:

Estrutura para parâmetros

Figura 1. Base de dados do Cortex Framework: vista geral da integração de dados.

Defina os seguintes parâmetros antes da implementação para uma utilização eficiente e eficaz dos dados no Cortex Framework.

Projetos

  • Projeto de origem: projeto onde residem os seus dados não processados. Precisa de, pelo menos, um Google Cloud projeto para armazenar dados e executar o processo de implementação.
  • Projeto de destino (opcional): projeto onde a Data Foundation do Cortex Framework armazena os respetivos modelos de dados processados. Pode ser o mesmo que o projeto de origem ou um diferente, consoante as suas necessidades.

Se quiser ter conjuntos separados de projetos e conjuntos de dados para cada carga de trabalho (por exemplo, um conjunto de projetos de origem e de destino para o SAP e um conjunto diferente de projetos de destino e de origem para o Salesforce), execute implementações separadas para cada carga de trabalho. Para mais informações, consulte a secção Usar projetos diferentes para segregar o acesso nos passos opcionais.

Modelo de dados

  • Implementar modelos: escolha se precisa de implementar modelos para todas as cargas de trabalho ou apenas um conjunto de modelos (por exemplo, SAP, Salesforce e Meta). Para mais informações, consulte as origens de dados e as cargas de trabalho disponíveis.

Conjuntos de dados do BigQuery

  • Conjunto de dados de origem (não processado): conjunto de dados do BigQuery onde os dados de origem são replicados ou onde os dados de teste são criados. Recomendamos que tenha conjuntos de dados separados, um para cada origem de dados. Por exemplo, um conjunto de dados não processados para o SAP e um conjunto de dados não processados para o Google Ads. Este conjunto de dados pertence ao projeto de origem.
  • Conjunto de dados de CDC: conjunto de dados do BigQuery onde os dados processados de CDC registam os registos disponíveis mais recentes. Algumas cargas de trabalho permitem o mapeamento de nomes de campos. Recomendamos que tenha um conjunto de dados de CDC separado para cada origem. Por exemplo, um conjunto de dados de CDC para o SAP e um conjunto de dados de CDC para o Salesforce. Este conjunto de dados pertence ao projeto de origem.
  • Conjunto de dados de relatórios de destino: conjunto de dados do BigQuery onde os modelos de dados predefinidos da base de dados são implementados. Recomendamos que tenha um conjunto de dados de relatórios separado para cada origem. Por exemplo, um conjunto de dados de relatórios para o SAP e um conjunto de dados de relatórios para o Salesforce. Este conjunto de dados é criado automaticamente durante a implementação se não existir. Este conjunto de dados pertence ao projeto de destino.
  • Pré-processamento do conjunto de dados K9: conjunto de dados do BigQuery onde é possível implementar componentes DAG reutilizáveis e de várias cargas de trabalho, como dimensões time. As cargas de trabalho têm uma dependência deste conjunto de dados, a menos que sejam modificadas. Este conjunto de dados é criado automaticamente durante a implementação se não existir. Este conjunto de dados pertence ao projeto de origem.
  • Conjunto de dados K9 de pós-processamento: conjunto de dados do BigQuery onde podem ser implementados relatórios entre cargas de trabalho, e DAGs de origens externas adicionais (por exemplo, carregamento do Google Trends). Este conjunto de dados é criado automaticamente durante a implementação se não existir. Este conjunto de dados pertence ao projeto do Google Ads.

Opcional: gere dados de amostra

O Cortex Framework pode gerar dados e tabelas de amostra para si se não tiver acesso aos seus próprios dados, ou ferramentas de replicação para configurar dados, ou mesmo se quiser apenas ver como funciona o Cortex Framework. No entanto, tem de criar e identificar os conjuntos de dados de CDC e não processados antecipadamente.

Crie conjuntos de dados do BigQuery para dados não processados e CDC por origem de dados, com as seguintes instruções.

Consola

  1. Abra a página do BigQuery na Google Cloud consola.

    Aceda à página do BigQuery

  2. No painel Explorador, selecione o projeto onde quer criar o conjunto de dados.

  3. Expanda a opção Ações e clique em Criar conjunto de dados:

    Use o menu de ações do projeto para criar um conjunto de dados.

  4. Na página Criar conjunto de dados:

    • Para ID do conjunto de dados, introduza um nome exclusivo do conjunto de dados.
    • Para Tipo de localização, escolha uma localização geográfica para o conjunto de dados. Depois de criar um conjunto de dados, não é possível alterar a localização.

    • Opcional. Para mais detalhes de personalização do seu conjunto de dados, consulte o artigo Criar conjuntos de dados: consola.

  5. Clique em Criar conjunto de dados.

BigQuery

  1. Crie um novo conjunto de dados para dados não processados copiando o seguinte comando:

       bq --location= LOCATION mk -d SOURCE_PROJECT: DATASET_RAW
    

    Substitua o seguinte:

    • LOCATION com a localização do conjunto de dados.
    • SOURCE_PROJECT com o ID do projeto de origem.
    • DATASET_RAW com o nome do conjunto de dados para dados não processados. Por exemplo, CORTEX_SFDC_RAW.
  2. Crie um novo conjunto de dados para dados de CDC copiando o seguinte comando:

      bq --location=LOCATION mk -d SOURCE_PROJECT: DATASET_CDC
    

    Substitua o seguinte:

    • LOCATION com a localização do conjunto de dados.
    • SOURCE_PROJECT com o ID do projeto de origem.
    • DATASET_CDC com o nome do conjunto de dados para dados de CDC. Por exemplo, CORTEX_SFDC_CDC.
  3. Confirme se os conjuntos de dados foram criados com o seguinte comando:

        bq ls
    
  4. Opcional. Para mais informações sobre a criação de conjuntos de dados, consulte o artigo Crie conjuntos de dados.

Passos seguintes

Depois de concluir este passo, avance para os seguintes passos de implementação:

  1. Estabeleça cargas de trabalho (esta página).
  2. Clonar repositório.
  3. Determine o mecanismo de integração.
  4. Configure os componentes.
  5. Configure a implementação.
  6. Execute a implementação.