部署企業資料管理和分析平台

Last reviewed 2025-04-04 UTC

企業資料管理和分析平台提供專區,可讓您儲存、分析及操作機密資訊,同時維持安全控管機制。您可以使用企業資料網格架構,在 Google Cloud 上部署資料管理和分析平台。這個架構可在混合型環境中運作, Google Cloud 元件可與您現有的內部部署元件和作業程序互動。

企業資料網格架構包含下列項目:

  • GitHub 存放區:包含一組 Terraform 設定、指令碼和程式碼,用於建構下列項目:
    • 治理專案,可讓您使用 Google 實作 Cloud Data Management Capabilities (CDMS) 重要控制項架構
    • 支援互動式和實際工作流程的資料平台範例。
    • 資料平台中的生產端環境,支援多個資料網域。資料網域是資料元素的邏輯群組。
    • 資料平台中的消費者環境,可支援多個消費者專案。
    • 這項資料移轉服務會使用 Workload Identity Federation 和 Tink 加密程式庫,協助您以安全的方式將資料移入 Google Cloud 。
    • 包含擷取、非機密和機密專案的資料網域範例。
    • 資料存取系統範例,可讓資料使用者要求存取資料集,資料擁有者則可授予存取權。這個範例也包含工作流程管理工具,可據此變更這些資料集的 IAM 權限。
  • 本指南說明您使用這個架構實作時的架構、設計、安全控制項和作業程序 (本文件)。

企業資料網格架構的設計目的是與企業基礎架構藍圖相容。企業基礎架構藍圖提供這個架構所需的多項基礎層級服務,例如虛擬私人雲端網路和記錄。如果您的Google Cloud 環境提供必要功能,您可以部署此架構,而無須部署企業基礎架構設計藍圖。

本文適用對象為雲端架構師、資料科學家、資料工程師和安全性架構師,他們可以使用這項架構在 Google Cloud上建構及部署全面性的資料服務。本文假設您熟悉資料網格、 Google Cloud資料服務,以及 CDMC 架構的 Google Cloud 實作概念。

架構

企業資料網格架構採用分層方式,提供可用於資料擷取、資料處理和治理的功能。這個架構旨在透過 CI/CD 工作流程部署及控制。下圖顯示由此架構部署的資料層與環境中的其他層之間的關聯。

資料網格架構。

此圖表包含以下內容:

  • Google Cloud 基礎架構提供靜態資料加密傳輸中資料加密等安全性功能,以及運算和儲存空間等基本建構模塊。
  • 企業基礎架構提供一系列資源,例如身分、網路、記錄、監控和部署系統,可讓您將 Google Cloud 用於資料工作負載。
  • 資料層提供各種功能,例如資料攝入、資料儲存、資料存取控管、資料治理、資料監控和資料共用。
  • 應用程式層代表使用資料層素材資源的各種不同應用程式。
  • CI/CD 提供的工具可自動執行基礎架構、工作流程和軟體元件的佈建、設定、管理和部署作業。這些元件可確保一致、可靠且可稽核的部署作業,減少人為錯誤,並加快整體開發週期。

為了說明資料環境的使用方式,架構中包含了資料工作流程範例。範例資料工作流程會引導您完成下列程序:資料治理、資料擷取、資料處理、資料共用和資料使用。

主要架構決策

下表是架構高層次決策的摘要。

決策區域 決定
Google Cloud 架構

資源階層

這個架構會使用企業基礎架構藍圖中的資源階層

網路

這個架構包含使用 Workload Identity Federation 和 Tink 程式庫的資料移轉服務範例。

角色和 IAM 權限

這項架構包含區隔資料生產者角色、資料使用者角色、資料治理角色和資料平台角色。

常見的資料服務

中繼資料

此架構會使用 Data Catalog 管理資料中繼資料。

集中式政策管理

為了管理政策,架構會使用 Google Cloud對 CDMC 架構的實作。

資料存取權管理

為控管資料存取權,架構中包含獨立程序,要求資料消費者向資料擁有者提出資料資產存取權要求。

資料品質

這個架構會使用 Cloud Data Quality Engine,在指定的資料表欄上定義並執行資料品質規則,根據正確性和完整性等指標評估資料品質。

資料安全性

這個架構會使用標記、加密、遮蓋、符記化和 IAM 控管機制,確保資料安全。

資料網域

資料環境

此架構包含三個環境。兩個環境 (非正式環境和正式環境) 都是由管道驅動的作業環境。其中一個環境 (開發) 是互動式環境。

資料負責人

資料擁有者會擷取、處理、公開及授予資料資產的存取權。

資料使用者

資料使用者要求存取資料資產。

新手上路和操作說明

pipeline

這個架構會使用下列管道部署資源:

  • 基礎管道
  • 基礎架構管道
  • 構件管道
  • Service Catalog 管道

存放區

每個管道都會使用個別的存放區,以便分工。

處理流程

這項程序要求實際工作環境的變更必須包含提交者和核准者。

Cloud 作業

資料產品評量表

報表引擎會產生資料產品分數卡。

Cloud Logging

這個架構會使用企業基礎架構藍圖中的記錄基礎架構

Cloud Monitoring

這個架構會使用企業基礎架構藍圖中的監控基礎架構。

識別資訊:將角色對應至群組

資料網格會運用企業基礎架構藍圖的現有身分生命週期管理、授權和驗證架構。使用者不會直接指派角色;而是以群組為主要方法,在 IAM 中指派角色和權限。在建立專案時,系統會透過基礎管道指派 IAM 角色和權限。

資料結構會將群組與四個主要領域之一建立關聯:基礎架構資料治理以網域為基礎的資料供應者以網域為基礎的消費者

這些群組的權限範圍如下:

  • 基礎架構群組的權限範圍是整個資料網格。
  • 資料管理群組的權限範圍是資料管理專案。
  • 以網域為基礎的生產端和用戶權限範圍僅限於其資料網域。

下表列出這個資料中介實作中使用的各種角色,以及相關權限。

基礎架構

群組 說明 角色

data-mesh-ops@example.com

資料網格的整體管理員

roles/owner (資料平台)

資料管理

群組 說明 角色

gcp-dm-governance-admins@example.com

資料管理專案的管理員

資料治理專案的 roles/owner

gcp-dm-governance-developers@example.com

建構及維護資料治理元件的開發人員

資料治理專案中的多個角色,包括 roles/viewer、BigQuery 角色和資料目錄角色

gcp-dm-governance-data-readers@example.com

資料治理資訊讀者

roles/viewer

gcp-dm-governance-security-administrator@example.com

治理專案的安全性管理員

roles/orgpolicy.policyAdminroles/iam.securityReviewer

gcp-dm-governance-tag-template-users@example.com

具備使用標記範本權限的群組

roles/datacatalog.tagTemplateUser

gcp-dm-governance-tag-users@example.com

具備使用標記範本和新增標記權限的群組

roles/datacatalog.tagTemplateUserroles/datacatalog.tagEditor

gcp-dm-governance-scc-notifications@example.com

Security Command Center 通知的服務帳戶群組

無,這是會員群組,我們會使用這個名稱建立服務帳戶,並賦予必要權限。

以網域為基礎的資料供應者

群組 說明 角色

gcp-dm-{data_domain_name}-admins@example.com

特定資料網域的管理員

資料領域專案的 roles/owner

gcp-dm-{data_domain_name}-developers@example.com

在資料領域中建構及維護資料產品的開發人員

資料網域專案中的多個角色,包括 roles/viewer、BigQuery 角色和 Cloud Storage 角色

gcp-dm-{data_domain_name}-data-readers@example.com

資料網域資訊的讀者

roles/viewer

gcp-dm-{data_domain_name}-metadata-editors@{var.domain}

Data Catalog 項目編輯者

可編輯 Data Catalog 項目的角色

gcp-dm-{data_domain_name}-data-stewards@example.com

資料領域的資料管理員

管理中繼資料和資料管理方面的角色

以網域為基礎的資料使用者

群組 說明 角色

gcp-dm-consumer-{project_name}-admins@example.com

特定消費者專案的管理員

消費者專案的 roles/owner

gcp-dm-consumer-{project_name}-developers@example.com

在消費者專案中工作的開發人員

消費者專案中的多個角色,包括 roles/viewer 和 BigQuery 角色

gcp-dm-consumer-{project_name}-data-readers@example.com

讀取用戶專案資訊的使用者

roles/viewer

機構架構

為了區分實際工作環境作業和實際工作環境資料,架構會使用不同的環境來開發及發布工作流程。實際運作作業包括工作流程的治理、可追溯性和可重複性,以及工作流程結果的可稽核性。實際工作資料是指您執行機構時可能需要的機密資料。所有環境都設計有安全控管機制,可讓您擷取及操作資料。

為了協助數據資料學家和工程師,這個架構包含一個互動式環境,開發人員可直接使用該環境,並透過精選的解決方案目錄新增服務。營運環境會透過管道驅動,這些管道已將架構和設定編碼化。

這個架構會使用企業基礎架構藍圖的組織結構,作為部署資料工作負載的基礎。下圖顯示企業資料網狀架構中使用的頂層資料夾和專案。

資料網格組織結構。

下表說明架構中包含的頂層資料夾和專案。

資料夾 元件 說明

common

prj-c-artifact-pipeline

包含用於建構架構程式碼構件 (artifact) 的部署管道。

prj-c-service-catalog

包含 Service Catalog 用於在互動式環境中部署資源的基礎架構。

prj-c-datagovernance

包含 Google Cloud實作 CDMC 架構時所用的所有資源。

development

fldr-d-dataplatform

包含資料平台的專案和資源,可用於在互動模式下開發用途。

non-production

fldr-n-dataplatform

包含資料平台的專案和資源,用於測試您要在作業環境中部署的用途。

production

fldr-p-dataplatform

包含資料平台的專案和資源,可部署至正式環境。

資料平台資料夾

資料平台資料夾包含所有資料層元件和部分 CDMC 資源。此外,資料平台資料夾和資料治理專案都包含 CDMC 資源。下圖顯示在資料平台資料夾中部署的資料夾和專案。

資料平台資料夾

每個資料平台資料夾都包含一個環境資料夾 (實際工作環境、非實際工作環境和開發環境)。下表說明各個資料平台資料夾內的資料夾。

資料夾 說明

製作人

包含資料網域。

使用者

包含用戶專案。

資料領域

包含與特定網域相關聯的專案。

製作人資料夾

每個產生者資料夾都包含一或多個資料網域。資料網域是指邏輯上將具有相同意義、用途或業務情境的資料元素分組。資料網域可讓您將機構內的資料資產分類及整理。下圖顯示資料網域的結構。此架構會為每個環境在資料平台資料夾中部署專案。

製作人資料夾。

下表說明在每個環境中資料平台資料夾中部署的專案。

專案 說明

擷取

擷取專案會將資料擷取至資料領域。架構中提供的範例說明如何將資料串流至 BigQuery、Cloud Storage 和 Pub/Sub。擷取專案也包含 Dataflow 和 Cloud Composer 範例,可用於自動化調度管理擷取資料的轉換和移動作業。

非機密

非機密專案包含已去識別化處理的資料。您可以遮蓋、容器化、加密、符記化或模糊處理資料。使用政策標記來控制資料的呈現方式。

機密

機密專案包含明文資料。您可以透過身分與存取權管理權限控管存取權。

消費者資料夾

消費者資料夾包含消費者專案。消費者專案提供機制,可根據資料使用者的必要信任邊界進行區隔。每個專案都會指派給個別的使用者群組,而該群組會依專案指派必要的資料資產存取權。您可以使用消費者專案收集、分析及擴充群組的資料。

通用資料夾

常用資料夾包含不同環境和專案使用的服務。本節說明新增至 common 資料夾的功能,以啟用企業資料網格。

CDMC 架構

此架構會使用 CDMC 架構來管理資料。資料治理函式位於共用資料夾中的資料治理專案中。下圖顯示 CDMC 架構的元件。圖表中的數字代表透過 Google Cloud服務處理的主要控制項。

CDMC 架構。

下表說明企業資料網格架構使用的 CDMC 架構元件。

CDMC 元件 Google Cloud service 說明
存取權和生命週期元件

金鑰管理

Cloud KMS

這項服務可安全管理用於保護機密資料的加密金鑰。

記錄管理員

Cloud Run

應用程式會維護完整的記錄和資料處理活動記錄,確保機構能夠追蹤及稽核資料使用情形。

封存政策

BigQuery

包含資料儲存政策的 BigQuery 資料表。

授權

BigQuery

儲存可存取機密資料的使用者資訊的 BigQuery 資料表。這個表格可確保只有獲得授權的使用者才能根據其角色和權限存取特定資料。

掃描元件

資料遺失

Sensitive Data Protection

用於檢查資產是否含有機密資料的服務。

資料遺失防護發現項目

BigQuery

用於在資料平台中分類資料分類的 BigQuery 資料表。

政策

BigQuery

包含一致資料治理做法的 BigQuery 資料表 (例如資料存取類型)。

匯出帳單

BigQuery

這個資料表會儲存從 Cloud Billing 匯出的費用資訊,以便分析與資料資產相關聯的費用指標。

Cloud Data Quality Engine

Cloud Run

為資料表和資料欄執行資料品質檢查的應用程式。

資料品質發現項目

BigQuery

記錄已識別的資料資產實際品質與定義的資料品質規則之間差異的 BigQuery 資料表。

報表元件

排程器

Cloud Scheduler

這項服務可控制 Cloud Data Quality Engine 的執行時間,以及機密資料保護檢查作業的執行時間。

報表引擎

Cloud Run

產生報表的應用程式,可協助追蹤及評估是否遵循 CDMC 架構的控制項。

發現事項和資產

BigQuery 和 Pub/Sub

BigQuery 報告指出資料管理控管機制出現差異或不一致的情況,例如缺少標記、分類不正確或儲存位置不符合規定。

代碼匯出

BigQuery

包含 Data Catalog 中擷取的標記資訊的 BigQuery 資料表。

其他元件

政策管理

機構政策服務

這項服務會定義並強制執行資料的地理儲存位置限制。

以屬性為基礎的存取權政策

Access Context Manager

這項服務會定義並強制執行精細的屬性存取權政策,以便只有來自許可位置和裝置的授權使用者,才能存取機密資訊。

中繼資料

Data Catalog

這項服務會儲存資料結構中所用資料表的中繼資料資訊。

代碼引擎

Cloud Run

可將標記新增至 BigQuery 資料表資料的應用程式。

CDMC 報表

Looker Studio

資訊主頁可讓分析師查看由 CDMC 架構引擎產生的報表。

CDMC 實作

下表說明架構如何在 CDMC 架構中實作主要控制項。

CDMC 控制需求 導入作業

資料控制法規遵循

報表引擎會偵測不符規定的資料資產,並將結果發布至 Pub/Sub 主題。這些發現也會載入至 BigQuery,以便使用 Looker Studio 製作報表。

為遷移資料和雲端產生的資料建立資料擁有權

資料目錄會自動擷取 BigQuery 中的技術中繼資料。標記引擎會套用來自參考表格的商家中繼資料標記,例如業主名稱和機密程度,以確保所有機密資料都標有業主資訊,符合法規要求。這個自動標記程序會使用適當的擁有者資訊,識別並標記機密資料,有助於提供資料治理和法規遵循。

資料來源和使用方式受到自動化功能的管理和支援

如果資料資產是權威來源,Data Catalog 會標記 is_authoritative 標記來分類資料資產。Data Catalog 會自動將這項資訊與技術中繼資料儲存在資料註冊中。報表引擎和代碼引擎可以使用 Pub/Sub 驗證及回報可靠來源的資料註冊。

管理資料主權和跨境資料移轉

機構政策服務會定義資料資產的許可儲存區域,而存取情境管理工具會根據使用者位置限制存取權。Data Catalog 會將核准的儲存位置儲存為中繼資料標記。報表引擎會將這些標記與 BigQuery 中資料資產的實際位置進行比較,並使用 Pub/Sub 將任何差異發布為發現項目。如果資料儲存在或存取於定義的政策之外,Security Command Center 會產生安全漏洞發現項目,提供額外的監控層級。

資料目錄已實作、使用且可互通

資料目錄會儲存及更新所有 BigQuery 資料資產的技術中繼資料,有效建立持續同步的資料目錄。Data Catalog 會確保任何新建或修改的資料表和檢視畫面立即加入目錄,維持最新的資料資產目錄。

定義及使用資料分類

Sensitive Data Protection 會檢查 BigQuery 資料,並識別機密資訊類型。系統會根據分類參考資料表為這些結果進行排名,並在資料目錄的資料欄和資料表層級,將最高敏感度等級指派為標記。每當新增資料資產或修改現有資料資產時,標記引擎就會更新 Data Catalog 中的敏感度標記,藉此管理這項程序。這個程序可確保資料類別會根據敏感度持續更新,您可以使用 Pub/Sub 和整合式報表工具監控及回報資料。

管理、強制執行及追蹤資料授權

BigQuery 政策標記可控管資料欄層級的機密資料存取權,確保只有獲授權的使用者才能根據指派的政策標記存取特定資料。IAM 會管理資料倉儲的整體存取權,而 Data Catalog 則會儲存敏感度分類。系統會定期執行檢查,確保所有機密資料都設有對應的政策標記,並使用 Pub/Sub 回報任何差異,以便進行修正。

管理資料的存取、使用和結果,並確保符合道德規範

提供者和使用者之間的資料共用協議會儲存在專屬的 BigQuery 資料倉儲中,以控管使用目的。Data Catalog 會使用供應商協議資訊標記資料資產,而消費者協議則會連結至 IAM 繫結,以便進行存取權控制。查詢標籤會強制執行使用目的,要求使用者在查詢機密資料時指定有效目的,並根據他們在 BigQuery 中的授權進行驗證。BigQuery 中的稽核記錄會追蹤所有資料存取情形,確保遵守資料共用協議。

資料安全無虞,且有控管措施的證明

Google 的預設靜態資料加密功能可保護儲存在磁碟上的資料。Cloud KMS 支援客戶管理的加密金鑰 (CMEK),可強化金鑰管理功能。BigQuery 會實作資料欄層級的動態資料遮罩功能,以便去識別,並在擷取資料時支援應用程式層級的去識別功能。Data Catalog 會為資料資產所採用的加密和去識別化技巧儲存中繼資料標記。自動檢查可確保加密和去識別方法符合預先定義的安全性政策,並將任何差異以 Pub/Sub 回報為發現事項。

定義並實施資料隱私權架構

Data Catalog 會為私密資料資產加上相關影響評估資訊,例如主體位置和評估報告連結。標記引擎會根據資料敏感度和 BigQuery 中的政策表,套用這些標記。政策表會根據資料和主體居住地定義評估要求。這個自動標記程序可讓您持續監控並回報是否符合影響評估規定,確保在必要時執行資料保護影響評估 (DPIA) 或保護影響評估 (PIA)。

規劃及管理資料生命週期

資料目錄會根據保留政策標記資料資產,指定保留期間和到期動作 (例如封存或清除)。記錄管理工具會根據定義的標記,清除或封存 BigQuery 資料表,自動執行這些政策。這項強制執行機制可確保遵守資料生命週期政策,並遵循資料保留規定,並使用 Pub/Sub 偵測及回報任何差異。

資料品質受到管理

Cloud Data Quality Engine 會在指定的資料表欄上定義及執行資料品質規則,並根據正確性和完整性等指標評估資料品質。這些檢查的結果 (包括成功百分比和門檻) 會儲存在 Data Catalog 中,做為標記。儲存這些結果可讓您持續監控及回報資料品質,並使用 Pub/Sub 將任何問題或偏離可接受門檻的情況發布為發現項目。

建立並套用成本管理原則

資料目錄會儲存資料資產的費用相關指標,例如查詢費用、儲存費用和資料傳出費用,這些指標會使用從 Cloud Billing 匯出至 BigQuery 的帳單資訊來計算。儲存費用相關指標可讓您全面追蹤及分析費用,確保遵守費用政策並有效運用資源,並使用 Pub/Sub 回報任何異常情況。

瞭解資料來源和資料歷程

Data Catalog 內建的資料歷程功能可追蹤資料資產的來源和歷程,以視覺化方式呈現資料流程。此外,資料擷取指令碼會在 Data Catalog 中識別資料的原始來源並加上標記,提升資料追溯來源的可追溯性。

資料存取權管理

架構的資料存取權會透過獨立程序控管,該程序會將作業控管 (例如執行 Dataflow 工作) 與資料存取權控管分開。使用者對 Google Cloud 服務的存取權是由環境或作業問題定義,並由雲端工程團隊群組佈建及核准。使用者對 Google Cloud 資料資產 (例如 BigQuery 資料表) 的存取權是隱私權、法規或治理方面的疑慮,並受制於產出方和使用方之間的存取權協議,且會透過下列程序控管。下圖顯示如何透過不同軟體元件的互動來佈建資料存取權。

資料存取權管理

如上圖所示,資料存取權的導入作業會由下列程序處理:

  • Cloud Data 資產會由 Data Catalog 收集及編目。
  • 工作流程管理工具會從 Data Catalog 擷取資料資產。
  • 資料擁有者已加入工作流程管理員。

資料存取權管理的運作方式如下:

  1. 資料使用者針對特定資產提出要求。
  2. 資產資料擁有者會收到要求的警示。
  3. 資料擁有者核准或拒絕要求。
  4. 如果要求獲准,工作流程管理員就會將群組、資產和相關標記傳送至 IAM 對應器。
  5. IAM 對應器會將工作流程管理員標記轉譯為 IAM 權限,並為指定群組提供資料資產的 IAM 權限。
  6. 當使用者想要存取資料資產時,IAM 會根據群組的權限,評估對 Google Cloud 資產的存取權。
  7. 如果獲得許可,使用者就能存取資料資產。

網路

資料安全性程序會在來源應用程式中啟動,該應用程式可能位於內部部署或目標Google Cloud 專案以外的其他環境中。在任何網路轉移作業發生之前,這個應用程式會使用 Workload Identity Federation 向 Google Cloud API 安全驗證自身。使用這些憑證,與 Cloud KMS 互動以取得或包裝必要金鑰,然後採用 Tink 程式庫,根據預先定義的範本對機密資料酬載執行初始加密和去識別化作業。

保護資料酬載後,必須將酬載安全地傳輸至 Google Cloud 攝入專案。如果是內部部署應用程式,您可以使用 Cloud Interconnect 或 Cloud VPN。在Google Cloud 網路中,使用 Private Service Connect 將資料路由至目標專案虛擬私有雲網路中的擷取端點。Private Service Connect 可讓來源應用程式使用私人 IP 位址連線至 Google API,確保流量不會暴露於網際網路。

整個網路路徑和擷取專案中的目標擷取服務 (Cloud Storage、BigQuery 和 Pub/Sub) 都受到 VPC Service Controls 邊界保護。這個範圍會強制執行安全性邊界,確保來自來源的受保護資料只能擷取至該專案中已授權的Google Cloud 服務。

記錄

這個架構會使用企業基礎架構藍圖提供的 Cloud Logging 功能。

pipeline

企業資料網格架構會使用一系列管道來佈建基礎架構、自動化調度管理、資料集、資料管道和應用程式元件。架構的資源部署管道會使用 Terraform 做為基礎架構即程式碼 (IaC) 工具,並使用 Cloud Build 做為 CI/CD 服務,將 Terraform 設定部署至架構環境。下圖顯示管道之間的關係。

管道關係

基礎管道和基礎架構管道是企業基礎藍圖的一部分。下表說明管道的用途,以及它們提供的資源。

pipeline 佈建者: 資源

基礎管道

啟動

  • 資料平台資料夾和子資料夾
  • 常見專案
  • 基礎架構管道服務帳戶
  • 基礎架構管道專用的 Cloud Build 觸發條件
  • 共用虛擬私有雲
  • VPC Service Control 範圍

基礎架構管道

基礎管道

  • 消費者專案
  • Service Catalog 服務帳戶
  • Service Catalog 管道的 Cloud Build 觸發條件
  • 構件管道服務帳戶
  • 構件管道的 Cloud Build 觸發條件

Service Catalog 管道

基礎架構管道

  • 部署在 Service Catalog 值區中的資源

構件管道

基礎架構管道

構件管道會產生資料匯集所使用的程式碼庫的各種容器和其他元件。

每個管道都有一組專屬的存放區,用於擷取程式碼和設定檔。每個存放區都有職責分工,其中提交者和營運程式碼部署的核准,是不同群組的責任。

透過 Service Catalog 進行互動式部署

互動式環境是架構中的開發環境,位於開發資料夾下。互動式環境的主要介面是服務目錄,可讓開發人員使用預先設定的範本,將 Google 服務例項化。這些預先設定的範本稱為服務範本。服務範本可協助您強化安全防護機制,例如強制執行 CMEK 加密,並防止使用者直接存取 Google API。

下圖顯示互動式環境的元件,以及資料科學家如何部署資源。

含有 Service Catalog 的互動式環境。

如要使用服務目錄部署資源,請執行下列步驟:

  1. MLOps 工程師將 Google Cloud的 Terraform 資源範本放入 Git 存放區。
  2. Git 提交指令會觸發 Cloud Build 管道。
  3. Cloud Build 會將範本和任何相關聯的設定檔案複製到 Cloud Storage。
  4. MLOps 工程師會手動設定 Service Catalog 解決方案和 Service Catalog。接著,工程師會在互動環境中,將 Service Catalog 與服務專案共用。
  5. 數據資料學家從服務目錄中選取資源。
  6. Service Catalog 會將範本部署至互動式環境。
  7. 資源會提取任何必要的設定指令碼。
  8. 資料科學家與資源互動。

構件管道

資料擷取程序會使用 Cloud Composer 和 Dataflow 自動化調度管理資料網域中的資料移動和轉換作業。構件管道會建構所有必要的資料攝入資源,並將資源移至服務可存取的適當位置。構件管道會建立協調器使用的容器構件。

安全性控管

企業資料網狀架構採用分層的依據深度防禦安全性模型,其中包含預設的 Google Cloud 功能、 Google Cloud服務,以及透過企業基礎結構藍圖設定的安全性功能。下圖顯示架構的各項安全控制措施層級。

資料網格架構中的安全控制項。

下表說明與各層資源相關聯的安全控制項。

圖層 資源 安全控制

CDMC 架構

Google Cloud CDMC 實作

提供管理架構,協助您保護、管理及控管資料資產。詳情請參閱 CDMC 重要控制項架構

部署作業

基礎架構管道

提供一系列管道,用於部署基礎架構、建構容器,以及建立資料管道。使用管道可確保可稽核、可追溯和可重複性。

構件管道

部署基礎架構管道未部署的各種元件。

Terraform 範本

建構系統基礎架構。

Open Policy Agent

有助於確保平台符合所選政策。

網路

Private Service Connect

在 API 層和 IP 層提供架構資源的資料竊取防護機制。讓您使用私人 IP 位址與 Google Cloud API 通訊,避免將流量暴露於網際網路。

含有私人 IP 位址的虛擬私有雲網路

有助於避免遭受面向網際網路的威脅。

VPC Service Controls

協助保護機密資源,避免資料外洩。

防火牆

有助於保護虛擬私有雲網路,避免遭到未經授權的存取行為。

存取權管理

Access Context Manager

控管哪些使用者可以存取哪些資源,並協助防止未經授權使用您的資源。

Workload Identity 聯盟

無須使用外部憑證,即可將資料從內部部署環境轉移至平台。

Data Catalog

提供使用者可用的資產索引。

IAM

提供精細的存取權。

加密

Cloud KMS

可讓您管理加密金鑰和機密金鑰,並透過靜態加密和傳輸加密來保護資料。

Secrets Manager

為由 IAM 控管的管道提供密鑰儲存庫。

靜態資料加密

根據預設, Google Cloud 會加密靜態資料。

傳輸中資料加密

根據預設, Google Cloud 會加密傳輸中的資料

偵測性

Security Command Center

協助您偵測組織中的設定錯誤和惡意活動。 Google Cloud

持續性架構

持續檢查 Google Cloud 貴機構是否符合您定義的一系列 OPA 政策。

IAM 建議工具

分析使用者權限,並提供減少權限的建議,協助您落實最低權限原則。

防火牆深入分析

分析防火牆規則、找出過度寬鬆的防火牆規則,並建議使用更嚴格的防火牆,以強化整體安全防護機制。

Cloud Logging

提供系統活動的瀏覽權限,有助於偵測異常狀況和惡意活動。

Cloud Monitoring

追蹤可協助識別可疑活動的重要信號和事件。

預防性

機構政策

讓您控管並限制貴機構內的 Google Cloud 動作。

工作流程

以下各節將概述資料產生者工作流程和資料消費者工作流程,確保根據資料敏感度和使用者角色提供適當的存取控管機制。

資料產生者工作流程

下圖顯示資料在傳輸至 BigQuery 時的保護方式。

資料產生者工作流程

資料移轉的工作流程如下:

  1. 與 Workload Identity 聯盟整合的應用程式會使用 Cloud KMS 解密已包裝的加密金鑰。
  2. 應用程式會使用 Tink 程式庫,透過範本將資料去識別化或加密。
  3. 應用程式會將資料傳輸至 Google Cloud中的擷取專案。
  4. 資料會傳送至 Cloud Storage、BigQuery 或 Pub/Sub。
  5. 在擷取專案中,系統會使用範本解密資料或重新識別資料。
  6. 解密的資料會根據另一個去識別化範本進行加密或遮蔽,然後放入非機密專案。標記引擎會視情況套用標記。
  7. 非機密專案的資料會轉移至機密專案,並重新識別。

允許下列資料存取權:

  • 擁有機密專案存取權的使用者,可以存取所有原始純文字資料。
  • 擁有非機密專案存取權的使用者,可根據與資料相關聯的標記和權限,存取經過遮罩、代碼化或加密的資料。

資料使用者工作流程

以下步驟說明消費者如何存取儲存在 BigQuery 中的資料。

  1. 資料消費者使用 Data Catalog 搜尋資料資產。
  2. 消費者找到所需資產後,資料消費者會要求存取資料資產。
  3. 資料擁有者會決定是否提供資產存取權。
  4. 如果消費者取得存取權,便可使用 Notebook 和 Solution Catalog 建立環境,以便分析及轉換資料資產。

整合所有資訊

在部署企業基礎架構後,GitHub 存放區會提供詳細操作說明,說明如何在Google Cloud 上部署資料中介。部署架構的程序包括修改現有的基礎架構存放區,以及部署新的資料中介特定元件。

完成下列操作:

  1. 完成所有必要條件,包括:
    1. 安裝 Google Cloud CLITerraformTinkJavaGo
    2. 部署企業基礎藍圖 (v4.1)
    3. 維護下列本機存放區:
      • gcp-data-mesh-foundations
      • gcp-bootstrap
      • gcp-environments
      • gcp-networks
      • gcp-org
      • gcp-projects
  2. 修改現有的基礎藍圖,然後部署資料中介應用程式。針對每個項目完成下列操作:
    1. 在目標存放區中,查看 Plan 分支。
    2. 如要新增資料結構網絡元件,請將 gcp-data-mesh-foundations 中的相關檔案和目錄複製到適當的基礎目錄。視需要覆寫檔案。
    3. 更新 Terraform 檔案 (例如 *.tfvars*.tf) 中的資料網格變數、角色和設定。將 GitHub 權杖設為環境變數。
    4. 在每個存放區上執行 Terraform 初始化、規劃和套用作業。
    5. 提交變更、將程式碼推送至遠端存放區、建立提取要求,然後合併至開發、非正式和正式環境。

後續步驟