Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Paso 1: Establece las cargas de trabajo
En esta página, se explica el paso inicial para configurar tu base de datos, que es el núcleo de Cortex Framework. La base de datos, que se basa en el almacenamiento de BigQuery, organiza los datos entrantes de diversas fuentes.
Estos datos organizados simplifican el análisis y su aplicación en el desarrollo de la IA.
Configura la integración de datos
Comienza por definir algunos parámetros clave que actuarán como un plan para organizar y usar tus datos de manera eficiente en Cortex Framework.
Recuerda que estos parámetros pueden variar según la carga de trabajo específica, el flujo de datos que elijas y el mecanismo de integración. En el siguiente diagrama, se proporciona una descripción general de la integración de datos en la base de datos de Cortex Framework:
Figura 1. Cortex Framework Data Foundation: Descripción general de la integración de datos.
Define los siguientes parámetros antes de la implementación para lograr un uso de datos eficiente y eficaz dentro de Cortex Framework.
Proyectos
Proyecto de origen: Es el proyecto en el que residen tus datos sin procesar. Necesitas al menos un proyecto Google Cloud para almacenar datos y ejecutar el proceso de implementación.
Proyecto de destino (opcional): Es el proyecto en el que Cortex Framework Data Foundation almacena sus modelos de datos procesados. Puede ser el mismo que el proyecto de origen o uno diferente, según tus necesidades.
Si deseas tener conjuntos separados de proyectos y conjuntos de datos para cada carga de trabajo (por ejemplo, un conjunto de proyectos de origen y destino para SAP y un conjunto diferente de proyectos de origen y destino para Salesforce), ejecuta implementaciones separadas para cada carga de trabajo. Para obtener más información, consulta Usa diferentes proyectos para segregar el acceso en la sección de pasos opcionales.
Modelo de datos
Implementar modelos: Elige si necesitas implementar modelos para todas las cargas de trabajo o solo un conjunto de modelos (por ejemplo, SAP, Salesforce y Meta). Para obtener más información, consulta las Fuentes de datos y cargas de trabajo disponibles.
Conjuntos de datos de BigQuery
Conjunto de datos de origen (sin procesar): Conjunto de datos de BigQuery en el que se replican los datos de origen o en el que se crean los datos de prueba.
Se recomienda tener conjuntos de datos separados, uno para cada fuente de datos. Por ejemplo, un conjunto de datos sin procesar para SAP y otro para Google Ads.
Este conjunto de datos pertenece al proyecto fuente.
Conjunto de datos de CDC: Conjunto de datos de BigQuery en el que se almacenan los registros disponibles más recientes de los datos procesados de CDC. Algunas cargas de trabajo permiten la asignación de nombres de campos. Se recomienda tener un conjunto de datos de CDC independiente para cada fuente. Por ejemplo, un conjunto de datos de CDC para SAP y otro para Salesforce. Este conjunto de datos pertenece al proyecto fuente.
Conjunto de datos de informes de destino: Conjunto de datos de BigQuery en el que se implementan los modelos de datos predefinidos de Data Foundation.
Te recomendamos que tengas un conjunto de datos de informes independiente para cada fuente. Por ejemplo, un conjunto de datos de informes para SAP y otro para Salesforce. Este conjunto de datos se crea automáticamente durante la implementación si no existe. Este conjunto de datos pertenece al proyecto de destino.
Pre-processing K9 Dataset: Es un conjunto de datos de BigQuery en el que se pueden implementar componentes de DAG reutilizables y entre cargas de trabajo, como las dimensiones de time. Las cargas de trabajo tienen una dependencia de este conjunto de datos, a menos que se modifique. Este conjunto de datos se crea automáticamente durante la implementación si no existe. Este conjunto de datos pertenece al proyecto fuente.
Conjunto de datos K9 posterior al procesamiento: Es el conjunto de datos de BigQuery en el que se pueden implementar informes entre cargas de trabajo y DAG de fuentes externas adicionales (por ejemplo, la transferencia de datos de Google Trends). Este conjunto de datos se crea automáticamente durante la implementación si no existe. Este conjunto de datos pertenece al proyecto Target.
Opcional: Genera datos de muestra
Cortex Framework puede generar datos y tablas de muestra para ti si no tienes acceso a tus propios datos, herramientas de replicación para configurar datos o incluso si solo quieres ver cómo funciona Cortex Framework. Sin embargo, aún debes crear e identificar los conjuntos de datos de CDC y sin procesar con anticipación.
Crea conjuntos de datos de BigQuery para los datos sin procesar y los datos de CDC por fuente de datos, siguiendo las instrucciones que se indican a continuación.
Console
Abre la página de BigQuery en la Google Cloud consola.
En el panel Explorador, selecciona el proyecto en el que deseas crear el conjunto de datos.
Expande la opción
more_vertAcciones y haz clic en Crear conjunto de datos:
En la página Crear conjunto de datos:
En ID de conjunto de datos, ingresa un nombre único para el conjunto de datos.
En Tipo de ubicación, elige una ubicación geográfica para el conjunto de datos (opcional). Después de crear un conjunto de datos, la ubicación no se puede cambiar.
Opcional. Para obtener más detalles sobre la personalización de tu conjunto de datos, consulta Crea conjuntos de datos: Consola.
Haz clic en Crear conjunto de datos.
BigQuery
Crea un nuevo conjunto de datos para los datos sin procesar copiando el siguiente comando:
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-04 (UTC)"],[[["\u003cp\u003eThis page details the initial step in setting up the Cortex Framework Data Foundation, which uses BigQuery to organize incoming data for analysis and AI development.\u003c/p\u003e\n"],["\u003cp\u003eBefore deploying, you must define key parameters, including source and target projects, which can be the same or different, and the specific data models to be deployed for various workloads such as SAP or Salesforce.\u003c/p\u003e\n"],["\u003cp\u003eMultiple BigQuery datasets are needed, including datasets for raw data, CDC processed data, target reporting, pre-processing, and post-processing, with recommendations to separate datasets per data source for better organization.\u003c/p\u003e\n"],["\u003cp\u003eCortex Framework offers the option to generate sample data if real data or replication tools are unavailable, but users must still pre-define the CDC and Raw datasets.\u003c/p\u003e\n"],["\u003cp\u003eThe steps to create BigQuery datasets via the console or command-line interface are provided, with instructions on specifying dataset location, name, and project association.\u003c/p\u003e\n"]]],[],null,["# Step 1: Establish workloads\n===========================\n\nThis page guides you through the initial step of setting up your data foundation,\nthe core of Cortex Framework. Built on top of BigQuery storage,\nthe data foundation organizes your incoming data from various sources.\nThis organized data simplifies analysis and its application in AI development.\n| **Note:** The steps outlined on this page are specifically designed for deploying Cortex Framework Data Foundation from the [official GitHub repository](https://github.com/GoogleCloudPlatform/cortex-data-foundation).\n\nSet up data integration\n-----------------------\n\nGet started by defining some key parameters to act as a blueprint for\norganizing and using your data efficiently within Cortex Framework.\nRemember, these parameters can vary depending on the specific workload, your\nchosen data flow, and the integration mechanism. The following diagram provides\nan overview of data integration within the Cortex Framework Data Foundation:\n\n**Figure 1**. Cortex Framework Data Foundation: Data Integration Overview.\n\nDefine the following parameters before deployment for efficient and effective\ndata utilization within Cortex Framework.\n\n### Projects\n\n- **Source project:** Project where your raw data lives. You need at least one Google Cloud project to store data and run the deployment process.\n- **Target project (optional):** Project where Cortex Framework Data Foundation stores its processed data models. This can be the same as the source project, or a different one depending on your needs.\n\nIf you want to have separate sets of projects and datasets for each workload\n(for example, one set of source and target projects for\nSAP and a different set of target and source projects for Salesforce),\nrun separate deployments for each workload. For more information, see\n[Using different projects to segregate access](/cortex/docs/optional-step-segregate-access)\nin the optional steps section.\n\n### Data model\n\n- **Deploy Models:** Choose whether you need to deploy models for all workloads or only one set of models (for example, SAP, Salesforce, and Meta). For more information, see available [Data sources and workloads](/cortex/docs/data-sources-and-workloads).\n\n### BigQuery datasets\n\n| **Note:** Some of these datasets might not be required and won't be present for some data sources.\n\n- **Source Dataset (Raw):** BigQuery dataset where the source data is replicated to or where the test data is created. The recommendation is to have separate datasets, one for each data source. For example, one raw dataset for SAP and one raw dataset for Google Ads. This dataset belongs to the source project.\n- **CDC Dataset:** BigQuery dataset where the CDC processed data lands the latest available records. Some workloads allow for field name mapping. The recommendation is to have a separate CDC dataset for each source. For example, one CDC dataset for SAP, and one CDC dataset for Salesforce. This dataset belongs to the source project.\n- **Target Reporting Dataset:** BigQuery dataset where the Data Foundation predefined data models are deployed. We recommend to have a separate reporting dataset for each source. For example, one reporting dataset for SAP and one reporting dataset for Salesforce. This dataset is automatically created during deployment if it doesn't exist. This dataset belongs to the Target project.\n- **Pre-processing K9 Dataset:** BigQuery dataset where cross-workload, reusable DAG components, such as `time` dimensions, can be deployed. Workloads have a dependency on this dataset unless modified. This dataset is automatically created during deployment if it doesn't exist. This dataset belongs to the source project.\n- **Post-processing K9 Dataset:** BigQuery dataset where cross-workload reporting, and additional external source DAGs (for example, Google Trends ingestion) can be deployed. This dataset is automatically created during deployment if it doesn't exist. This dataset belongs to the Target project.\n\n### Optional: Generate sample data\n\nCortex Framework can generate sample data and tables for you if\nyou don't have access to your own data, or replication tools to set up data, or\neven if you only want to see how Cortex Framework works. However,\nyou still need to create and identify the CDC and Raw datasets ahead of time.\n\nCreate BigQuery datasets for raw data and CDC per data source,\nwith the following instructions. \n\n### Console\n\n1. Open the BigQuery page in the Google Cloud console.\n\n [Go to the BigQuery page](https://console.cloud.google.com/bigquery)\n2. In the **Explorer** panel, select the project where you want to create\n the dataset.\n\n3. Expand the\n more_vert\n **Actions** option and click **Create dataset**:\n\n4. On the **Create dataset** page:\n\n - For **Dataset ID** , enter a unique dataset [name](/bigquery/docs/datasets#dataset-naming).\n - For **Location type** , choose a geographic [location](/bigquery/docs/locations)\n for the dataset. After a dataset is created, the\n location can't be changed.\n\n | **Note:** If you choose `EU` or an EU-based region for the dataset location, your Core Cortex Framework Customer Data resides in the EU. Core Cortex Framework Customer Data is defined in the [Service\n | Specific Terms](/terms/service-terms#13-google-bigquery-service).\n - **Optional** . For more customization details for your dataset, see\n [Create datasets: Console](/bigquery/docs/datasets#console).\n\n5. Click **Create dataset**.\n\n### BigQuery\n\n1. Create a new dataset for raw data by copying the following command:\n\n bq --location= \u003cvar translate=\"no\"\u003eLOCATION\u003c/var\u003e mk -d \u003cvar translate=\"no\"\u003eSOURCE_PROJECT\u003c/var\u003e: \u003cvar translate=\"no\"\u003eDATASET_RAW\u003c/var\u003e\n\n Replace the following:\n - \u003cvar translate=\"no\"\u003eLOCATION\u003c/var\u003e with the dataset's [location](/bigquery/docs/locations).\n - \u003cvar translate=\"no\"\u003eSOURCE_PROJECT\u003c/var\u003e with your source project ID.\n - \u003cvar translate=\"no\"\u003eDATASET_RAW\u003c/var\u003e with the name for your dataset for raw data. For example, `CORTEX_SFDC_RAW`.\n2. Create a new dataset for CDC data by copying the following command:\n\n bq --location=\u003cvar translate=\"no\"\u003eLOCATION\u003c/var\u003e mk -d \u003cvar translate=\"no\"\u003eSOURCE_PROJECT\u003c/var\u003e: \u003cvar translate=\"no\"\u003eDATASET_CDC\u003c/var\u003e\n\n Replace the following:\n - \u003cvar translate=\"no\"\u003eLOCATION\u003c/var\u003e with the dataset's [location](/bigquery/docs/locations).\n - \u003cvar translate=\"no\"\u003eSOURCE_PROJECT\u003c/var\u003e with your source project ID.\n - \u003cvar translate=\"no\"\u003eDATASET_CDC\u003c/var\u003e with the name for your dataset for CDC data. For example, `CORTEX_SFDC_CDC`.\n3. Confirm that the datasets were created with the following command:\n\n bq ls\n\n4. **Optional** . For more information about creating datasets, see\n [Create datasets](/bigquery/docs/datasets#bq).\n\nNext steps\n----------\n\nAfter you complete this step, move on to the following deployment steps:\n\n1. [Establish workloads](/cortex/docs/deployment-step-one) (this page).\n2. [Clone repository](/cortex/docs/deployment-step-two).\n3. [Determine integration mechanism](/cortex/docs/deployment-step-three).\n4. [Set up components](/cortex/docs/deployment-step-four).\n5. [Configure deployment](/cortex/docs/deployment-step-five).\n6. [Execute deployment](/cortex/docs/deployment-step-six)."]]