이 페이지에서는 Cortex Framework의 핵심인 Cortex Framework Data Foundation을 배포하는 세 번째 단계를 설명합니다. 이 단계에서는 선택한 데이터 소스와의 통합을 구성합니다. 샘플 데이터를 사용하는 경우 이 단계를 건너뛰세요.
통합 개요
Cortex Framework를 사용하면 다양한 소스와 다른 플랫폼의 데이터를 중앙 집중화할 수 있습니다. 이렇게 하면 데이터의 단일 정보 소스가 생성됩니다. Cortex Data Foundation은 각 데이터 소스와 다양한 방식으로 통합되지만 대부분 유사한 절차를 따릅니다.
소스에서 원시 레이어: API를 사용하여 데이터 소스에서 원시 데이터 세트로 데이터를 수집합니다. 이는 Cloud Composer DAG를 통해 트리거되는 Dataflow 파이프라인을 사용하여 달성됩니다.
원시 레이어에서 CDC 레이어로: 원시 데이터 세트에 CDC 처리를 적용하고 출력을 CDC 데이터 세트에 저장합니다. 이는 BigQuery SQL을 실행하는 Cloud Composer DAG를 통해 이루어집니다.
CDC 레이어에서 보고 레이어: 보고 데이터 세트의 CDC 테이블에서 최종 보고 테이블을 만듭니다. 이는 구성 방식에 따라 CDC 테이블 위에 런타임 뷰를 만들거나 BigQuery 테이블의 구체화된 데이터에 대해 Cloud Composer DAG를 실행하여 달성됩니다.
구성 관련 자세한 내용은 보고 설정 파일 맞춤설정을 참고하세요.
config.json 파일은 다양한 워크로드에서 데이터를 전송하기 위해 데이터 소스에 연결하는 데 필요한 설정을 구성합니다. 다음 리소스에서 각 데이터 소스의 통합 옵션을 확인하세요.
각 데이터 소스에서 지원하는 엔티티-관계 다이어그램에 관한 자세한 내용은 Cortex Framework Data Foundation 저장소의 docs 폴더를 참고하세요.
K9 배포
K9 배포자는 다양한 데이터 소스의 통합을 간소화합니다. K9 배포자는 BigQuery 환경 내에 사전 정의된 데이터 세트로, 다양한 데이터 소스에서 재사용할 수 있는 구성요소를 수집, 처리, 모델링하는 역할을 합니다.
예를 들어 time 측정기준은 테이블이 그레고리력에 기반한 분석 결과를 가져와야 할 수 있는 모든 데이터 소스에서 재사용할 수 있습니다. K9 배포자는 날씨나 Google 트렌드와 같은 외부 데이터를 다른 데이터 소스(예: SAP, Salesforce, 마케팅)와 결합합니다. 이렇게 풍부해진 데이터 세트를 사용하면 더 깊은 통찰력을 얻고 더 포괄적인 분석을 할 수 있습니다.
다음 다이어그램은 다양한 원시 소스에서 다양한 보고 레이어로의 데이터 흐름을 보여줍니다.
그림 1. K9 데이터 세트.
다이어그램에서 소스 프로젝트에는 선택한 데이터 소스 (SAP, Salesforce, 마케팅)의 원시 데이터가 포함되어 있습니다. 타겟 프로젝트에는 변경 데이터 캡처 (CDC) 프로세스에서 파생된 처리된 데이터가 포함됩니다.
사전 처리 K9 단계는 모든 워크로드가 배포를 시작하기 전에 실행되므로 재사용 가능한 모델은 배포 중에 사용할 수 있습니다. 이 단계에서는 다양한 소스의 데이터를 변환하여 일관되고 재사용 가능한 데이터 세트를 만듭니다.
후처리 K9 단계는 모든 워크로드가 교차 워크로드 보고를 지원하거나 각 개별 보고 데이터 세트 내에서 필요한 종속 항목을 찾기 위해 모델을 보강하도록 보고 모델을 배포한 후에 발생합니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-09-04(UTC)"],[[["\u003cp\u003eThis step involves configuring the integration between Cortex Framework Data Foundation and your chosen data sources, enabling data centralization from diverse platforms.\u003c/p\u003e\n"],["\u003cp\u003eCortex Framework uses Dataflow pipelines triggered by Cloud Composer DAGs to ingest data into a raw layer, apply Change Data Capture (CDC) processing to create a CDC layer, and then create a final reporting layer.\u003c/p\u003e\n"],["\u003cp\u003eThe \u003ccode\u003econfig.json\u003c/code\u003e file contains settings for connecting to various data sources, which can be operational, marketing, or sustainability-focused, and specific documentation is available for each source type.\u003c/p\u003e\n"],["\u003cp\u003eThe K9 deployer simplifies data integration by providing reusable components and datasets for ingestion, processing, and modeling, such as the "time" dimension, and combining it with other sources to provide richer insights.\u003c/p\u003e\n"],["\u003cp\u003eThe K9 pre-processing step ensures consistent and reusable data for all workloads, reducing redundancy and maintaining data consistency across the data pipeline.\u003c/p\u003e\n"]]],[],null,["# Step 3: Determine integration mechanism\n=======================================\n\nThis page describes the third step to deploy Cortex Framework Data Foundation,\nthe core of Cortex Framework. In this step, you configure the integration\nwith your chosen data source. **If you are using sample data, skip this step**.\n| **Note:** The steps outlined in this page are specifically designed for deploying Cortex Framework Data Foundation from the [official GitHub repository](https://github.com/GoogleCloudPlatform/cortex-data-foundation).\n\nIntegration overview\n--------------------\n\nCortex Framework helps you centralize data from various sources, along with\nother platforms. This creates a single source of truth for your data. Cortex\nData Foundation integrates with each data source in different ways, but most\nof them follow a similar procedure:\n\n- **Source to Raw layer:** Ingest data from data source to raw dataset using APIs. This is achieved by using Dataflow pipelines triggered through Cloud Composer DAGs.\n- **Raw layer to CDC layer**: Apply CDC processing on raw dataset and store the output in CDC dataset. This is accomplished by Cloud Composer DAGs running BigQuery SQLs.\n- **CDC layer to Reporting layer:** Creates final reporting tables from CDC tables in the Reporting dataset. This is accomplished by either creating runtime views on top of CDC tables or running Cloud Composer DAGs for materialized data in BigQuery tables - depending on how it's configured. For more information about configuration, see [Customizing reporting settings file](/cortex/docs/deployment-step-five#customizing_reporting_settings_file).\n\nThe [`config.json`](https://github.com/GoogleCloudPlatform/cortex-data-foundation/blob/main/config/config.json) file configures the settings required to connect to data\nsources for transferring data from various workloads. See the integration\noptions for each data source in the following resources.\n\n- Operational:\n - [SAP (SAP ECC or SAP S/4 HANA)](/cortex/docs/operational-sap)\n - [Salesforce Sales Cloud](/cortex/docs/operational-salesforce)\n - [Oracle EBS](/cortex/docs/operational-oracle-ebs)\n- Marketing:\n - [Google Ads](/cortex/docs/marketing-googleads)\n - [Campaign Manager 360 (CM360)](/cortex/docs/marketing-cm360)\n - [TikTok](/cortex/docs/marketing-tiktok)\n - [LiveRamp](/cortex/docs/marketing-liveramp)\n - [Meta (Facebook / Instagram)](/cortex/docs/marketing-meta)\n - [Salesforce Marketing Cloud (SFMC)](/cortex/docs/marketing-salesforce)\n - [YouTube (with DV360)](/cortex/docs/marketing-dv360)\n - [Google Analytics 4](/cortex/docs/marketing-google-analytics)\n - [Cross Media \\& Product Connected Insights](/cortex/docs/marketing-cross-media)\n - [Cortex for Meridian](/cortex/docs/meridian)\n- Sustainability:\n - [Dun \\& Bradstreet](/cortex/docs/dun-and-bradstreet)\n\nFor more information about the **Entity-Relationship Diagrams** that each\ndata source supports, see the [`docs`](https://github.com/GoogleCloudPlatform/cortex-data-foundation/tree/main/docs) folder in the Cortex Framework Data Foundation repository.\n\nK9 deployment\n-------------\n\nThe [K9 deployer](https://github.com/GoogleCloudPlatform/cortex-data-foundation/tree/main/src/k9)\nsimplifies the integration of diverse data sources. The K9 deployer\nis a predefined dataset within the BigQuery\nenvironment responsible for ingesting, processing, and modeling of\ncomponents that are reusable across different data sources.\n\nFor example, the `time` dimension is reusable across all data sources where tables\nmight need to take analytical results based on a Gregorian calendar. The K9\ndeployer combines external data like weather or Google Trends with other data sources\n(for example, SAP, Salesforce, Marketing). This enriched dataset enables\ndeeper insights and more comprehensive analysis.\n\nThe following diagram shows the flow of data from different raw sources to\nvarious reporting layers:\n\n**Figure 1**. K9 datasets.\n\nIn the diagram, the [source project](/cortex/docs/deployment-step-one#projects)\ncontains the raw data from the chosen data sources (SAP, Salesforce,\nand Marketing). While the [target project](/cortex/docs/deployment-step-one#projects)\ncontains processed data, derived from the Change Data Capture (CDC) process.\n\nThe pre-processing K9 step runs before all workloads start their deployment, so\nthe reusable models are available during their deployment. This step transforms\ndata from various sources to create a consistent and reusable dataset.\n\nThe post-processing K9 steps occurs after all workloads have deployed their\nreporting models to enable cross-workload reporting or augmenting models to\nfind their necessary dependencies within each individual reporting dataset.\n\n### Configure the K9 deployment\n\nConfigure the Directed Acyclic Graphs (DAGs) and models to be generated\nin the [K9 manifest file](https://github.com/GoogleCloudPlatform/cortex-data-foundation/blob/main/src/k9/src/manifest.yaml).\n\nThe K9 pre-processing step is important because it ensures that all workloads\nwithin the data pipeline have access to consistently prepared data. This reduces\nredundancy and ensures data consistency.\n| **Note:** If you are using a deployment framework like Dataform or [dbt](https://www.getdbt.com/), we recommended considering porting the K9 pre-processing DAG execution into your scheduler of choice, and ensure your reporting views use the pre-processed data generated by K9 (instead of the raw data sources). **The Cortex team can't provide\n| support for external frameworks**.\n\nFor more information about how to configure external datasets for K9, see [Configure external datasets for K9](/cortex/docs/optional-step-external-datasets).\n\nNext steps\n----------\n\nAfter you complete this step, move on to the following deployment steps:\n\n1. [Establish workloads](/cortex/docs/deployment-step-one).\n2. [Clone repository](/cortex/docs/deployment-step-two).\n3. [Determine integration mechanism](/cortex/docs/deployment-step-three) (this page).\n4. [Set up components](/cortex/docs/deployment-step-four).\n5. [Configure deployment](/cortex/docs/deployment-step-five).\n6. [Execute deployment](/cortex/docs/deployment-step-six)."]]