이 페이지에서는 Cortex Framework의 핵심인 데이터 기반을 설정하는 초기 단계를 안내합니다. BigQuery 스토리지 기반으로 구축된 데이터 파운데이션은 다양한 소스의 수신 데이터를 정리합니다.
이렇게 정리된 데이터는 분석과 AI 개발에서의 적용을 간소화합니다.
데이터 통합 설정
Cortex Framework 내에서 데이터를 효율적으로 정리하고 사용하는 청사진 역할을 하는 몇 가지 주요 매개변수를 정의하여 시작하세요.
이러한 매개변수는 특정 워크로드, 선택한 데이터 흐름, 통합 메커니즘에 따라 달라질 수 있습니다. 다음 다이어그램은 Cortex Framework 데이터 기반 내의 데이터 통합을 간략하게 보여줍니다.
그림 1. Cortex Framework Data Foundation: 데이터 통합 개요
Cortex Framework 내에서 효율적이고 효과적인 데이터 활용을 위해 배포 전에 다음 매개변수를 정의합니다.
프로젝트
소스 프로젝트: 원시 데이터가 있는 프로젝트입니다. 데이터를 저장하고 배포 프로세스를 실행하려면 Google Cloud 프로젝트가 하나 이상 필요합니다.
타겟 프로젝트 (선택사항): Cortex Framework Data Foundation이 처리된 데이터 모델을 저장하는 프로젝트입니다. 필요에 따라 소스 프로젝트와 동일하거나 다른 프로젝트일 수 있습니다.
각 워크로드에 별도의 프로젝트 및 데이터 세트가 필요하다면(예: SAP용 소스 및 타겟 프로젝트 세트와 Salesforce용 타겟 및 소스 프로젝트 세트가 다른 경우) 각 워크로드에 별도의 배포를 실행하세요. 자세한 내용은 선택사항 단계 섹션의 액세스 권한을 분리하기 위해 다른 프로젝트 사용을 참고하세요.
데이터 모델
모델 배포: 모든 워크로드에 모델을 배포해야 하는지 아니면 모델 세트 하나 (예: SAP, Salesforce, Meta)에만 배포해야 하는지 선택합니다. 자세한 내용은 사용 가능한 데이터 소스 및 워크로드를 참고하세요.
BigQuery 데이터 세트
소스 데이터 세트 (원시): 소스 데이터가 복제되거나 테스트 데이터가 생성되는 BigQuery 데이터 세트입니다.
데이터 소스별로 데이터 세트를 별도로 사용하는 것이 좋습니다. 예를 들어 SAP용 원시 데이터 세트 하나와 Google Ads용 원시 데이터 세트 하나가 있습니다.
이 데이터 세트는 소스 프로젝트에 속합니다.
CDC 데이터 세트: CDC 처리 데이터가 최신 사용 가능한 레코드를 저장하는 BigQuery 데이터 세트입니다. 일부 워크로드에서는 필드 이름 매핑이 허용됩니다. 각 소스에 대해 별도의 CDC 데이터 세트를 사용하는 것이 좋습니다. 예를 들어 SAP용 CDC 데이터 세트 하나와 Salesforce용 CDC 데이터 세트 하나가 있습니다. 이 데이터 세트는 소스 프로젝트에 속합니다.
타겟 보고 데이터 세트: 데이터 파운데이션 사전 정의 데이터 모델이 배포되는 BigQuery 데이터 세트입니다.
소스별로 별도의 보고 데이터 세트를 사용하는 것이 좋습니다. 예를 들어 SAP용 보고 데이터 세트 하나와 Salesforce용 보고 데이터 세트 하나를 만들 수 있습니다. 이 데이터 세트는 배포 중에 자동으로 생성됩니다(없는 경우). 이 데이터 세트는 대상 프로젝트에 속합니다.
K9 데이터 세트 사전 처리:time 측정기준과 같은 교차 워크로드 재사용 가능한 DAG 구성요소를 배포할 수 있는 BigQuery 데이터 세트입니다. 수정하지 않는 한 워크로드는 이 데이터 세트에 종속됩니다. 이 데이터 세트는 배포 중에 자동으로 생성됩니다(없는 경우). 이 데이터 세트는 소스 프로젝트에 속합니다.
후처리 K9 데이터 세트: 교차 워크로드 보고 및 추가 외부 소스 DAG (예: Google 트렌드 수집)를 배포할 수 있는 BigQuery 데이터 세트입니다. 이 데이터 세트는 배포 중에 자동으로 생성됩니다(없는 경우). 이 데이터 세트는 대상 프로젝트에 속합니다.
선택사항: 샘플 데이터 생성
Cortex Framework는 자체 데이터에 액세스할 수 없거나, 데이터를 설정할 복제 도구가 없거나, Cortex Framework의 작동 방식을 확인하려는 경우 샘플 데이터와 테이블을 생성할 수 있습니다. 하지만 CDC 및 원시 데이터 세트를 미리 만들고 식별해야 합니다.
다음 안내에 따라 데이터 소스별로 원시 데이터와 CDC를 위한 BigQuery 데이터 세트를 만듭니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-09-04(UTC)"],[[["\u003cp\u003eThis page details the initial step in setting up the Cortex Framework Data Foundation, which uses BigQuery to organize incoming data for analysis and AI development.\u003c/p\u003e\n"],["\u003cp\u003eBefore deploying, you must define key parameters, including source and target projects, which can be the same or different, and the specific data models to be deployed for various workloads such as SAP or Salesforce.\u003c/p\u003e\n"],["\u003cp\u003eMultiple BigQuery datasets are needed, including datasets for raw data, CDC processed data, target reporting, pre-processing, and post-processing, with recommendations to separate datasets per data source for better organization.\u003c/p\u003e\n"],["\u003cp\u003eCortex Framework offers the option to generate sample data if real data or replication tools are unavailable, but users must still pre-define the CDC and Raw datasets.\u003c/p\u003e\n"],["\u003cp\u003eThe steps to create BigQuery datasets via the console or command-line interface are provided, with instructions on specifying dataset location, name, and project association.\u003c/p\u003e\n"]]],[],null,["# Step 1: Establish workloads\n===========================\n\nThis page guides you through the initial step of setting up your data foundation,\nthe core of Cortex Framework. Built on top of BigQuery storage,\nthe data foundation organizes your incoming data from various sources.\nThis organized data simplifies analysis and its application in AI development.\n| **Note:** The steps outlined on this page are specifically designed for deploying Cortex Framework Data Foundation from the [official GitHub repository](https://github.com/GoogleCloudPlatform/cortex-data-foundation).\n\nSet up data integration\n-----------------------\n\nGet started by defining some key parameters to act as a blueprint for\norganizing and using your data efficiently within Cortex Framework.\nRemember, these parameters can vary depending on the specific workload, your\nchosen data flow, and the integration mechanism. The following diagram provides\nan overview of data integration within the Cortex Framework Data Foundation:\n\n**Figure 1**. Cortex Framework Data Foundation: Data Integration Overview.\n\nDefine the following parameters before deployment for efficient and effective\ndata utilization within Cortex Framework.\n\n### Projects\n\n- **Source project:** Project where your raw data lives. You need at least one Google Cloud project to store data and run the deployment process.\n- **Target project (optional):** Project where Cortex Framework Data Foundation stores its processed data models. This can be the same as the source project, or a different one depending on your needs.\n\nIf you want to have separate sets of projects and datasets for each workload\n(for example, one set of source and target projects for\nSAP and a different set of target and source projects for Salesforce),\nrun separate deployments for each workload. For more information, see\n[Using different projects to segregate access](/cortex/docs/optional-step-segregate-access)\nin the optional steps section.\n\n### Data model\n\n- **Deploy Models:** Choose whether you need to deploy models for all workloads or only one set of models (for example, SAP, Salesforce, and Meta). For more information, see available [Data sources and workloads](/cortex/docs/data-sources-and-workloads).\n\n### BigQuery datasets\n\n| **Note:** Some of these datasets might not be required and won't be present for some data sources.\n\n- **Source Dataset (Raw):** BigQuery dataset where the source data is replicated to or where the test data is created. The recommendation is to have separate datasets, one for each data source. For example, one raw dataset for SAP and one raw dataset for Google Ads. This dataset belongs to the source project.\n- **CDC Dataset:** BigQuery dataset where the CDC processed data lands the latest available records. Some workloads allow for field name mapping. The recommendation is to have a separate CDC dataset for each source. For example, one CDC dataset for SAP, and one CDC dataset for Salesforce. This dataset belongs to the source project.\n- **Target Reporting Dataset:** BigQuery dataset where the Data Foundation predefined data models are deployed. We recommend to have a separate reporting dataset for each source. For example, one reporting dataset for SAP and one reporting dataset for Salesforce. This dataset is automatically created during deployment if it doesn't exist. This dataset belongs to the Target project.\n- **Pre-processing K9 Dataset:** BigQuery dataset where cross-workload, reusable DAG components, such as `time` dimensions, can be deployed. Workloads have a dependency on this dataset unless modified. This dataset is automatically created during deployment if it doesn't exist. This dataset belongs to the source project.\n- **Post-processing K9 Dataset:** BigQuery dataset where cross-workload reporting, and additional external source DAGs (for example, Google Trends ingestion) can be deployed. This dataset is automatically created during deployment if it doesn't exist. This dataset belongs to the Target project.\n\n### Optional: Generate sample data\n\nCortex Framework can generate sample data and tables for you if\nyou don't have access to your own data, or replication tools to set up data, or\neven if you only want to see how Cortex Framework works. However,\nyou still need to create and identify the CDC and Raw datasets ahead of time.\n\nCreate BigQuery datasets for raw data and CDC per data source,\nwith the following instructions. \n\n### Console\n\n1. Open the BigQuery page in the Google Cloud console.\n\n [Go to the BigQuery page](https://console.cloud.google.com/bigquery)\n2. In the **Explorer** panel, select the project where you want to create\n the dataset.\n\n3. Expand the\n more_vert\n **Actions** option and click **Create dataset**:\n\n4. On the **Create dataset** page:\n\n - For **Dataset ID** , enter a unique dataset [name](/bigquery/docs/datasets#dataset-naming).\n - For **Location type** , choose a geographic [location](/bigquery/docs/locations)\n for the dataset. After a dataset is created, the\n location can't be changed.\n\n | **Note:** If you choose `EU` or an EU-based region for the dataset location, your Core Cortex Framework Customer Data resides in the EU. Core Cortex Framework Customer Data is defined in the [Service\n | Specific Terms](/terms/service-terms#13-google-bigquery-service).\n - **Optional** . For more customization details for your dataset, see\n [Create datasets: Console](/bigquery/docs/datasets#console).\n\n5. Click **Create dataset**.\n\n### BigQuery\n\n1. Create a new dataset for raw data by copying the following command:\n\n bq --location= \u003cvar translate=\"no\"\u003eLOCATION\u003c/var\u003e mk -d \u003cvar translate=\"no\"\u003eSOURCE_PROJECT\u003c/var\u003e: \u003cvar translate=\"no\"\u003eDATASET_RAW\u003c/var\u003e\n\n Replace the following:\n - \u003cvar translate=\"no\"\u003eLOCATION\u003c/var\u003e with the dataset's [location](/bigquery/docs/locations).\n - \u003cvar translate=\"no\"\u003eSOURCE_PROJECT\u003c/var\u003e with your source project ID.\n - \u003cvar translate=\"no\"\u003eDATASET_RAW\u003c/var\u003e with the name for your dataset for raw data. For example, `CORTEX_SFDC_RAW`.\n2. Create a new dataset for CDC data by copying the following command:\n\n bq --location=\u003cvar translate=\"no\"\u003eLOCATION\u003c/var\u003e mk -d \u003cvar translate=\"no\"\u003eSOURCE_PROJECT\u003c/var\u003e: \u003cvar translate=\"no\"\u003eDATASET_CDC\u003c/var\u003e\n\n Replace the following:\n - \u003cvar translate=\"no\"\u003eLOCATION\u003c/var\u003e with the dataset's [location](/bigquery/docs/locations).\n - \u003cvar translate=\"no\"\u003eSOURCE_PROJECT\u003c/var\u003e with your source project ID.\n - \u003cvar translate=\"no\"\u003eDATASET_CDC\u003c/var\u003e with the name for your dataset for CDC data. For example, `CORTEX_SFDC_CDC`.\n3. Confirm that the datasets were created with the following command:\n\n bq ls\n\n4. **Optional** . For more information about creating datasets, see\n [Create datasets](/bigquery/docs/datasets#bq).\n\nNext steps\n----------\n\nAfter you complete this step, move on to the following deployment steps:\n\n1. [Establish workloads](/cortex/docs/deployment-step-one) (this page).\n2. [Clone repository](/cortex/docs/deployment-step-two).\n3. [Determine integration mechanism](/cortex/docs/deployment-step-three).\n4. [Set up components](/cortex/docs/deployment-step-four).\n5. [Configure deployment](/cortex/docs/deployment-step-five).\n6. [Execute deployment](/cortex/docs/deployment-step-six)."]]