Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Passaggio 1: stabilisci i carichi di lavoro
Questa pagina ti guida nel passaggio iniziale della configurazione della base di dati, il fulcro di Cortex Framework. Basata sull'archiviazione BigQuery,
la base di dati organizza i dati in entrata provenienti da varie origini.
Questi dati organizzati semplificano l'analisi e la loro applicazione nello sviluppo dell'AI.
Configura l'integrazione dei dati
Inizia definendo alcuni parametri chiave che fungano da modello per
organizzare e utilizzare i tuoi dati in modo efficiente all'interno di Cortex Framework.
Ricorda che questi parametri possono variare a seconda del carico di lavoro specifico, del flusso di dati scelto e del meccanismo di integrazione. Il seguente diagramma fornisce
una panoramica dell'integrazione dei dati all'interno della base dati di Cortex Framework:
Figura 1. Cortex Framework Data Foundation: panoramica dell'integrazione dei dati.
Definisci i seguenti parametri prima del deployment per un utilizzo efficiente ed efficace
dei dati all'interno di Cortex Framework.
Progetti
Progetto di origine:il progetto in cui si trovano i dati non elaborati. Hai bisogno di almeno un progetto Google Cloud per archiviare i dati ed eseguire il processo di deployment.
Progetto di destinazione (facoltativo): progetto in cui Cortex Framework Data Foundation
memorizza i modelli di dati elaborati. Può essere lo stesso del progetto di origine o uno diverso, a seconda delle tue esigenze.
Se vuoi avere set separati di progetti e set di dati per ogni carico di lavoro
(ad esempio, un set di progetti di origine e di destinazione per
SAP e un set diverso di progetti di destinazione e di origine per Salesforce),
esegui deployment separati per ogni carico di lavoro. Per ulteriori informazioni, vedi
Utilizzare progetti diversi per separare l'accesso
nella sezione dei passaggi facoltativi.
Modello dei dati
Esegui il deployment dei modelli:scegli se devi eseguire il deployment dei modelli per tutti i workload o solo per un insieme di modelli (ad esempio SAP, Salesforce e Meta). Per
maggiori informazioni, consulta le origini dati e i carichi di lavoro disponibili.
Set di dati di BigQuery
Set di dati di origine (non elaborato): set di dati BigQuery
in cui vengono replicati i dati di origine o in cui vengono creati i dati di test.
Il consiglio è di avere set di dati separati, uno per ogni origine dati. Ad esempio, un set di dati non elaborati per SAP e uno per Google Ads.
Questo set di dati appartiene al progetto di origine.
Set di dati CDC: set di dati BigQuery in cui
i dati elaborati CDC contengono i record più recenti disponibili. Alcuni carichi di lavoro consentono
la mappatura dei nomi dei campi. Il consiglio è di avere un set di dati CDC separato
per ogni origine. Ad esempio, un set di dati CDC per SAP e
un set di dati CDC per Salesforce. Questo set di dati appartiene al progetto di origine.
Set di dati dei report di destinazione:set di dati BigQuery in cui vengono implementati i modelli di dati predefiniti di Data Foundation.
Ti consigliamo di avere un set di dati dei report separato per ogni origine. Ad esempio,
un set di dati dei report per SAP e uno per Salesforce. Questo
set di dati viene creato automaticamente durante il deployment se non esiste. Questo
set di dati appartiene al progetto di destinazione.
Pre-processing K9 Dataset:set di dati BigQuery in cui
possono essere implementati componenti DAG riutilizzabili e cross-workload, come le dimensioni time. I carichi di lavoro hanno una dipendenza da questo set di dati, a meno che non vengano modificati. Questo set di dati viene creato automaticamente durante il deployment se non esiste. Questo set di dati appartiene al progetto di origine.
Set di dati K9 post-elaborazione:set di dati BigQuery in cui
possono essere implementati report cross-workload
e DAG di origini esterne aggiuntive (ad esempio, l'importazione di Google Trends). Questo set di dati viene creato automaticamente durante il deployment se non esiste. Questo set di dati appartiene al progetto di destinazione.
(Facoltativo) Genera dati di esempio
Cortex Framework può generare dati e tabelle di esempio se non hai accesso ai tuoi dati, agli strumenti di replica per configurare i dati o anche se vuoi solo vedere come funziona Cortex Framework. Tuttavia,
devi comunque creare e identificare in anticipo i set di dati CDC e Raw.
Crea set di dati BigQuery per i dati non elaborati e CDC per origine dati,
seguendo le istruzioni riportate di seguito.
Console
Apri la pagina BigQuery nella console Google Cloud .
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Difficile da capire","hardToUnderstand","thumb-down"],["Informazioni o codice di esempio errati","incorrectInformationOrSampleCode","thumb-down"],["Mancano le informazioni o gli esempi di cui ho bisogno","missingTheInformationSamplesINeed","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-09-04 UTC."],[[["\u003cp\u003eThis page details the initial step in setting up the Cortex Framework Data Foundation, which uses BigQuery to organize incoming data for analysis and AI development.\u003c/p\u003e\n"],["\u003cp\u003eBefore deploying, you must define key parameters, including source and target projects, which can be the same or different, and the specific data models to be deployed for various workloads such as SAP or Salesforce.\u003c/p\u003e\n"],["\u003cp\u003eMultiple BigQuery datasets are needed, including datasets for raw data, CDC processed data, target reporting, pre-processing, and post-processing, with recommendations to separate datasets per data source for better organization.\u003c/p\u003e\n"],["\u003cp\u003eCortex Framework offers the option to generate sample data if real data or replication tools are unavailable, but users must still pre-define the CDC and Raw datasets.\u003c/p\u003e\n"],["\u003cp\u003eThe steps to create BigQuery datasets via the console or command-line interface are provided, with instructions on specifying dataset location, name, and project association.\u003c/p\u003e\n"]]],[],null,["# Step 1: Establish workloads\n===========================\n\nThis page guides you through the initial step of setting up your data foundation,\nthe core of Cortex Framework. Built on top of BigQuery storage,\nthe data foundation organizes your incoming data from various sources.\nThis organized data simplifies analysis and its application in AI development.\n| **Note:** The steps outlined on this page are specifically designed for deploying Cortex Framework Data Foundation from the [official GitHub repository](https://github.com/GoogleCloudPlatform/cortex-data-foundation).\n\nSet up data integration\n-----------------------\n\nGet started by defining some key parameters to act as a blueprint for\norganizing and using your data efficiently within Cortex Framework.\nRemember, these parameters can vary depending on the specific workload, your\nchosen data flow, and the integration mechanism. The following diagram provides\nan overview of data integration within the Cortex Framework Data Foundation:\n\n**Figure 1**. Cortex Framework Data Foundation: Data Integration Overview.\n\nDefine the following parameters before deployment for efficient and effective\ndata utilization within Cortex Framework.\n\n### Projects\n\n- **Source project:** Project where your raw data lives. You need at least one Google Cloud project to store data and run the deployment process.\n- **Target project (optional):** Project where Cortex Framework Data Foundation stores its processed data models. This can be the same as the source project, or a different one depending on your needs.\n\nIf you want to have separate sets of projects and datasets for each workload\n(for example, one set of source and target projects for\nSAP and a different set of target and source projects for Salesforce),\nrun separate deployments for each workload. For more information, see\n[Using different projects to segregate access](/cortex/docs/optional-step-segregate-access)\nin the optional steps section.\n\n### Data model\n\n- **Deploy Models:** Choose whether you need to deploy models for all workloads or only one set of models (for example, SAP, Salesforce, and Meta). For more information, see available [Data sources and workloads](/cortex/docs/data-sources-and-workloads).\n\n### BigQuery datasets\n\n| **Note:** Some of these datasets might not be required and won't be present for some data sources.\n\n- **Source Dataset (Raw):** BigQuery dataset where the source data is replicated to or where the test data is created. The recommendation is to have separate datasets, one for each data source. For example, one raw dataset for SAP and one raw dataset for Google Ads. This dataset belongs to the source project.\n- **CDC Dataset:** BigQuery dataset where the CDC processed data lands the latest available records. Some workloads allow for field name mapping. The recommendation is to have a separate CDC dataset for each source. For example, one CDC dataset for SAP, and one CDC dataset for Salesforce. This dataset belongs to the source project.\n- **Target Reporting Dataset:** BigQuery dataset where the Data Foundation predefined data models are deployed. We recommend to have a separate reporting dataset for each source. For example, one reporting dataset for SAP and one reporting dataset for Salesforce. This dataset is automatically created during deployment if it doesn't exist. This dataset belongs to the Target project.\n- **Pre-processing K9 Dataset:** BigQuery dataset where cross-workload, reusable DAG components, such as `time` dimensions, can be deployed. Workloads have a dependency on this dataset unless modified. This dataset is automatically created during deployment if it doesn't exist. This dataset belongs to the source project.\n- **Post-processing K9 Dataset:** BigQuery dataset where cross-workload reporting, and additional external source DAGs (for example, Google Trends ingestion) can be deployed. This dataset is automatically created during deployment if it doesn't exist. This dataset belongs to the Target project.\n\n### Optional: Generate sample data\n\nCortex Framework can generate sample data and tables for you if\nyou don't have access to your own data, or replication tools to set up data, or\neven if you only want to see how Cortex Framework works. However,\nyou still need to create and identify the CDC and Raw datasets ahead of time.\n\nCreate BigQuery datasets for raw data and CDC per data source,\nwith the following instructions. \n\n### Console\n\n1. Open the BigQuery page in the Google Cloud console.\n\n [Go to the BigQuery page](https://console.cloud.google.com/bigquery)\n2. In the **Explorer** panel, select the project where you want to create\n the dataset.\n\n3. Expand the\n more_vert\n **Actions** option and click **Create dataset**:\n\n4. On the **Create dataset** page:\n\n - For **Dataset ID** , enter a unique dataset [name](/bigquery/docs/datasets#dataset-naming).\n - For **Location type** , choose a geographic [location](/bigquery/docs/locations)\n for the dataset. After a dataset is created, the\n location can't be changed.\n\n | **Note:** If you choose `EU` or an EU-based region for the dataset location, your Core Cortex Framework Customer Data resides in the EU. Core Cortex Framework Customer Data is defined in the [Service\n | Specific Terms](/terms/service-terms#13-google-bigquery-service).\n - **Optional** . For more customization details for your dataset, see\n [Create datasets: Console](/bigquery/docs/datasets#console).\n\n5. Click **Create dataset**.\n\n### BigQuery\n\n1. Create a new dataset for raw data by copying the following command:\n\n bq --location= \u003cvar translate=\"no\"\u003eLOCATION\u003c/var\u003e mk -d \u003cvar translate=\"no\"\u003eSOURCE_PROJECT\u003c/var\u003e: \u003cvar translate=\"no\"\u003eDATASET_RAW\u003c/var\u003e\n\n Replace the following:\n - \u003cvar translate=\"no\"\u003eLOCATION\u003c/var\u003e with the dataset's [location](/bigquery/docs/locations).\n - \u003cvar translate=\"no\"\u003eSOURCE_PROJECT\u003c/var\u003e with your source project ID.\n - \u003cvar translate=\"no\"\u003eDATASET_RAW\u003c/var\u003e with the name for your dataset for raw data. For example, `CORTEX_SFDC_RAW`.\n2. Create a new dataset for CDC data by copying the following command:\n\n bq --location=\u003cvar translate=\"no\"\u003eLOCATION\u003c/var\u003e mk -d \u003cvar translate=\"no\"\u003eSOURCE_PROJECT\u003c/var\u003e: \u003cvar translate=\"no\"\u003eDATASET_CDC\u003c/var\u003e\n\n Replace the following:\n - \u003cvar translate=\"no\"\u003eLOCATION\u003c/var\u003e with the dataset's [location](/bigquery/docs/locations).\n - \u003cvar translate=\"no\"\u003eSOURCE_PROJECT\u003c/var\u003e with your source project ID.\n - \u003cvar translate=\"no\"\u003eDATASET_CDC\u003c/var\u003e with the name for your dataset for CDC data. For example, `CORTEX_SFDC_CDC`.\n3. Confirm that the datasets were created with the following command:\n\n bq ls\n\n4. **Optional** . For more information about creating datasets, see\n [Create datasets](/bigquery/docs/datasets#bq).\n\nNext steps\n----------\n\nAfter you complete this step, move on to the following deployment steps:\n\n1. [Establish workloads](/cortex/docs/deployment-step-one) (this page).\n2. [Clone repository](/cortex/docs/deployment-step-two).\n3. [Determine integration mechanism](/cortex/docs/deployment-step-three).\n4. [Set up components](/cortex/docs/deployment-step-four).\n5. [Configure deployment](/cortex/docs/deployment-step-five).\n6. [Execute deployment](/cortex/docs/deployment-step-six)."]]