Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Passo 1: estabeleça cargas de trabalho
Esta página explica o passo inicial de configuração da base de dados, o núcleo do Cortex Framework. Baseada no armazenamento do BigQuery,
a base de dados organiza os dados recebidos de várias origens.
Estes dados organizados simplificam a análise e a respetiva aplicação no desenvolvimento de IA.
Configure a integração de dados
Comece por definir alguns parâmetros importantes que atuem como um modelo para organizar e usar os seus dados de forma eficiente no Cortex Framework.
Lembre-se de que estes parâmetros podem variar consoante a carga de trabalho específica, o fluxo de dados escolhido e o mecanismo de integração. O diagrama seguinte oferece uma vista geral da integração de dados na base de dados do Cortex Framework:
Figura 1. Base de dados do Cortex Framework: vista geral da integração de dados.
Defina os seguintes parâmetros antes da implementação para uma utilização eficiente e eficaz dos dados no Cortex Framework.
Projetos
Projeto de origem: projeto onde residem os seus dados não processados. Precisa de, pelo menos, um Google Cloud projeto para armazenar dados e executar o processo de implementação.
Projeto de destino (opcional): projeto onde a Data Foundation do Cortex Framework
armazena os respetivos modelos de dados processados. Pode ser o mesmo que o projeto de origem ou um diferente, consoante as suas necessidades.
Se quiser ter conjuntos separados de projetos e conjuntos de dados para cada carga de trabalho (por exemplo, um conjunto de projetos de origem e de destino para o SAP e um conjunto diferente de projetos de destino e de origem para o Salesforce), execute implementações separadas para cada carga de trabalho. Para mais informações, consulte a secção
Usar projetos diferentes para segregar o acesso
nos passos opcionais.
Modelo de dados
Implementar modelos: escolha se precisa de implementar modelos para todas as cargas de trabalho ou apenas um conjunto de modelos (por exemplo, SAP, Salesforce e Meta). Para mais informações, consulte as origens de dados e as cargas de trabalho disponíveis.
Conjuntos de dados do BigQuery
Conjunto de dados de origem (não processado): conjunto de dados do BigQuery
onde os dados de origem são replicados ou onde os dados de teste são criados.
Recomendamos que tenha conjuntos de dados separados, um para cada origem de dados. Por exemplo, um conjunto de dados não processados para o SAP e um conjunto de dados não processados para o Google Ads.
Este conjunto de dados pertence ao projeto de origem.
Conjunto de dados de CDC: conjunto de dados do BigQuery onde
os dados processados de CDC registam os registos disponíveis mais recentes. Algumas cargas de trabalho permitem o mapeamento de nomes de campos. Recomendamos que tenha um conjunto de dados de CDC separado para cada origem. Por exemplo, um conjunto de dados de CDC para o SAP e um conjunto de dados de CDC para o Salesforce. Este conjunto de dados pertence ao projeto de origem.
Conjunto de dados de relatórios de destino: conjunto de dados do BigQuery onde os modelos de dados predefinidos da base de dados são implementados.
Recomendamos que tenha um conjunto de dados de relatórios separado para cada origem. Por exemplo, um conjunto de dados de relatórios para o SAP e um conjunto de dados de relatórios para o Salesforce. Este conjunto de dados é criado automaticamente durante a implementação se não existir. Este conjunto de dados pertence ao projeto de destino.
Pré-processamento do conjunto de dados K9: conjunto de dados do BigQuery onde é possível implementar componentes DAG reutilizáveis e de várias cargas de trabalho, como dimensões time. As cargas de trabalho têm uma dependência deste conjunto de dados, a menos que sejam modificadas. Este conjunto de dados é criado automaticamente durante a implementação se não existir. Este conjunto de dados pertence ao projeto de origem.
Conjunto de dados K9 de pós-processamento: conjunto de dados do BigQuery onde
podem ser implementados relatórios entre cargas de trabalho,
e DAGs de origens externas adicionais (por exemplo, carregamento do Google Trends). Este conjunto de dados é criado automaticamente durante a implementação se não existir. Este conjunto de dados pertence ao projeto do Google Ads.
Opcional: gere dados de amostra
O Cortex Framework pode gerar dados e tabelas de amostra para si se não tiver acesso aos seus próprios dados, ou ferramentas de replicação para configurar dados, ou mesmo se quiser apenas ver como funciona o Cortex Framework. No entanto,
tem de criar e identificar os conjuntos de dados de CDC e não processados antecipadamente.
Crie conjuntos de dados do BigQuery para dados não processados e CDC por origem de dados,
com as seguintes instruções.
Consola
Abra a página do BigQuery na Google Cloud consola.
No painel Explorador, selecione o projeto onde quer criar o conjunto de dados.
Expanda a opção
more_vertAções e clique em Criar conjunto de dados:
Na página Criar conjunto de dados:
Para ID do conjunto de dados, introduza um nome exclusivo do conjunto de dados.
Para Tipo de localização, escolha uma localização geográfica para o conjunto de dados. Depois de criar um conjunto de dados, não é possível alterar a localização.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-08-21 UTC."],[[["\u003cp\u003eThis page details the initial step in setting up the Cortex Framework Data Foundation, which uses BigQuery to organize incoming data for analysis and AI development.\u003c/p\u003e\n"],["\u003cp\u003eBefore deploying, you must define key parameters, including source and target projects, which can be the same or different, and the specific data models to be deployed for various workloads such as SAP or Salesforce.\u003c/p\u003e\n"],["\u003cp\u003eMultiple BigQuery datasets are needed, including datasets for raw data, CDC processed data, target reporting, pre-processing, and post-processing, with recommendations to separate datasets per data source for better organization.\u003c/p\u003e\n"],["\u003cp\u003eCortex Framework offers the option to generate sample data if real data or replication tools are unavailable, but users must still pre-define the CDC and Raw datasets.\u003c/p\u003e\n"],["\u003cp\u003eThe steps to create BigQuery datasets via the console or command-line interface are provided, with instructions on specifying dataset location, name, and project association.\u003c/p\u003e\n"]]],[],null,["# Step 1: Establish workloads\n===========================\n\nThis page guides you through the initial step of setting up your data foundation,\nthe core of Cortex Framework. Built on top of BigQuery storage,\nthe data foundation organizes your incoming data from various sources.\nThis organized data simplifies analysis and its application in AI development.\n| **Note:** The steps outlined on this page are specifically designed for deploying Cortex Framework Data Foundation from the [official GitHub repository](https://github.com/GoogleCloudPlatform/cortex-data-foundation).\n\nSet up data integration\n-----------------------\n\nGet started by defining some key parameters to act as a blueprint for\norganizing and using your data efficiently within Cortex Framework.\nRemember, these parameters can vary depending on the specific workload, your\nchosen data flow, and the integration mechanism. The following diagram provides\nan overview of data integration within the Cortex Framework Data Foundation:\n\n**Figure 1**. Cortex Framework Data Foundation: Data Integration Overview.\n\nDefine the following parameters before deployment for efficient and effective\ndata utilization within Cortex Framework.\n\n### Projects\n\n- **Source project:** Project where your raw data lives. You need at least one Google Cloud project to store data and run the deployment process.\n- **Target project (optional):** Project where Cortex Framework Data Foundation stores its processed data models. This can be the same as the source project, or a different one depending on your needs.\n\nIf you want to have separate sets of projects and datasets for each workload\n(for example, one set of source and target projects for\nSAP and a different set of target and source projects for Salesforce),\nrun separate deployments for each workload. For more information, see\n[Using different projects to segregate access](/cortex/docs/optional-step-segregate-access)\nin the optional steps section.\n\n### Data model\n\n- **Deploy Models:** Choose whether you need to deploy models for all workloads or only one set of models (for example, SAP, Salesforce, and Meta). For more information, see available [Data sources and workloads](/cortex/docs/data-sources-and-workloads).\n\n### BigQuery datasets\n\n| **Note:** Some of these datasets might not be required and won't be present for some data sources.\n\n- **Source Dataset (Raw):** BigQuery dataset where the source data is replicated to or where the test data is created. The recommendation is to have separate datasets, one for each data source. For example, one raw dataset for SAP and one raw dataset for Google Ads. This dataset belongs to the source project.\n- **CDC Dataset:** BigQuery dataset where the CDC processed data lands the latest available records. Some workloads allow for field name mapping. The recommendation is to have a separate CDC dataset for each source. For example, one CDC dataset for SAP, and one CDC dataset for Salesforce. This dataset belongs to the source project.\n- **Target Reporting Dataset:** BigQuery dataset where the Data Foundation predefined data models are deployed. We recommend to have a separate reporting dataset for each source. For example, one reporting dataset for SAP and one reporting dataset for Salesforce. This dataset is automatically created during deployment if it doesn't exist. This dataset belongs to the Target project.\n- **Pre-processing K9 Dataset:** BigQuery dataset where cross-workload, reusable DAG components, such as `time` dimensions, can be deployed. Workloads have a dependency on this dataset unless modified. This dataset is automatically created during deployment if it doesn't exist. This dataset belongs to the source project.\n- **Post-processing K9 Dataset:** BigQuery dataset where cross-workload reporting, and additional external source DAGs (for example, Google Trends ingestion) can be deployed. This dataset is automatically created during deployment if it doesn't exist. This dataset belongs to the Target project.\n\n### Optional: Generate sample data\n\nCortex Framework can generate sample data and tables for you if\nyou don't have access to your own data, or replication tools to set up data, or\neven if you only want to see how Cortex Framework works. However,\nyou still need to create and identify the CDC and Raw datasets ahead of time.\n\nCreate BigQuery datasets for raw data and CDC per data source,\nwith the following instructions. \n\n### Console\n\n1. Open the BigQuery page in the Google Cloud console.\n\n [Go to the BigQuery page](https://console.cloud.google.com/bigquery)\n2. In the **Explorer** panel, select the project where you want to create\n the dataset.\n\n3. Expand the\n more_vert\n **Actions** option and click **Create dataset**:\n\n4. On the **Create dataset** page:\n\n - For **Dataset ID** , enter a unique dataset [name](/bigquery/docs/datasets#dataset-naming).\n - For **Location type** , choose a geographic [location](/bigquery/docs/locations)\n for the dataset. After a dataset is created, the\n location can't be changed.\n\n | **Note:** If you choose `EU` or an EU-based region for the dataset location, your Core Cortex Framework Customer Data resides in the EU. Core Cortex Framework Customer Data is defined in the [Service\n | Specific Terms](/terms/service-terms#13-google-bigquery-service).\n - **Optional** . For more customization details for your dataset, see\n [Create datasets: Console](/bigquery/docs/datasets#console).\n\n5. Click **Create dataset**.\n\n### BigQuery\n\n1. Create a new dataset for raw data by copying the following command:\n\n bq --location= \u003cvar translate=\"no\"\u003eLOCATION\u003c/var\u003e mk -d \u003cvar translate=\"no\"\u003eSOURCE_PROJECT\u003c/var\u003e: \u003cvar translate=\"no\"\u003eDATASET_RAW\u003c/var\u003e\n\n Replace the following:\n - \u003cvar translate=\"no\"\u003eLOCATION\u003c/var\u003e with the dataset's [location](/bigquery/docs/locations).\n - \u003cvar translate=\"no\"\u003eSOURCE_PROJECT\u003c/var\u003e with your source project ID.\n - \u003cvar translate=\"no\"\u003eDATASET_RAW\u003c/var\u003e with the name for your dataset for raw data. For example, `CORTEX_SFDC_RAW`.\n2. Create a new dataset for CDC data by copying the following command:\n\n bq --location=\u003cvar translate=\"no\"\u003eLOCATION\u003c/var\u003e mk -d \u003cvar translate=\"no\"\u003eSOURCE_PROJECT\u003c/var\u003e: \u003cvar translate=\"no\"\u003eDATASET_CDC\u003c/var\u003e\n\n Replace the following:\n - \u003cvar translate=\"no\"\u003eLOCATION\u003c/var\u003e with the dataset's [location](/bigquery/docs/locations).\n - \u003cvar translate=\"no\"\u003eSOURCE_PROJECT\u003c/var\u003e with your source project ID.\n - \u003cvar translate=\"no\"\u003eDATASET_CDC\u003c/var\u003e with the name for your dataset for CDC data. For example, `CORTEX_SFDC_CDC`.\n3. Confirm that the datasets were created with the following command:\n\n bq ls\n\n4. **Optional** . For more information about creating datasets, see\n [Create datasets](/bigquery/docs/datasets#bq).\n\nNext steps\n----------\n\nAfter you complete this step, move on to the following deployment steps:\n\n1. [Establish workloads](/cortex/docs/deployment-step-one) (this page).\n2. [Clone repository](/cortex/docs/deployment-step-two).\n3. [Determine integration mechanism](/cortex/docs/deployment-step-three).\n4. [Set up components](/cortex/docs/deployment-step-four).\n5. [Configure deployment](/cortex/docs/deployment-step-five).\n6. [Execute deployment](/cortex/docs/deployment-step-six)."]]