從 Teradata 遷移至 BigQuery - 簡介
本文將說明從 Teradata 遷移至 BigQuery 的原因、比較兩者功能,並提供 BigQuery 遷移作業的步驟大綱。
從 Teradata 遷移至 BigQuery 的理由
Teradata 是管理及分析大量資料的早期創新者。不過,隨著雲端運算需求演進,您可能需要更現代化的資料分析解決方案。
如果您先前使用 Teradata,請考慮遷移至 BigQuery,原因如下:
- 克服舊版平台限制
- Teradata 的傳統架構通常難以滿足現代分析的需求,尤其是對無限並行和各種工作負載持續高效能的需求。BigQuery 中的無伺服器架構旨在以最少的工作量處理這些需求。
- 採用雲端原生策略
- 許多機構正策略性地從地端基礎架構遷移至雲端。因此,您必須捨棄 Teradata 等傳統的硬體綁定解決方案,改用 BigQuery 這類全代管、可擴充的隨選服務,以減少作業負擔。
- 整合現代資料來源和數據分析
- 企業的重要資料越來越多都儲存在雲端來源。BigQuery 與 Google Cloud 生態系統原生整合,可順暢存取這些來源,並執行進階數據分析、機器學習和即時資料處理作業,不受 Teradata 基礎架構限制。
- 提高成本效益和擴充性
- Teradata 通常需要複雜且昂貴的擴充程序。BigQuery 可獨立自動調度儲存空間和運算資源,因此您不必手動重新設定,且總擁有成本通常會更低,也更容易預估。
功能比較
下表比較 Teradata 的功能和概念,以及 BigQuery 的對等功能:
Teradata 概念 | BigQuery 對等項目 | 說明 |
---|---|---|
Teradata (地端、雲端、混合式) | BigQuery (整合式 AI 資料平台)。相較於傳統資料倉儲,BigQuery 提供大量額外功能。 | BigQuery 是 Google Cloud上的全代管雲端原生資料倉儲,Teradata 提供地端部署、雲端和混合式選項。BigQuery 是無伺服器服務,並以 BQ Omni 的形式在所有雲端上提供。 |
Teradata 工具 (Teradata Studio、BTEQ) | Google Cloud 控制台、BigQuery Studio、bq 指令列工具 | 兩者都提供介面,方便您管理資料倉儲及與之互動。BigQuery Studio 是以網頁為基礎的工具,並整合了 Google Cloud ,可撰寫 SQL、Python 和 Apache Spark。 |
資料庫/結構定義 | 資料集 | 在 Teradata 中,資料庫和結構定義用於整理資料表和檢視區塊,與 BigQuery 資料集類似。但管理和使用方式可能有所不同。 |
資料表 | 資料表 | 兩者都使用表格,以資料列和資料欄的形式儲存資料。 |
查看 | 查看 | 這兩個平台中的檢視表功能類似,都能根據查詢建立虛擬資料表。 |
主鍵 | 主鍵 (GoogleSQL 中未強制執行) | BigQuery 支援 GoogleSQL 中未強制執行的主鍵。這些資訊主要是為了協助您最佳化查詢。 |
外鍵 | 外鍵 (在 GoogleSQL 中不會強制執行) | BigQuery 支援 GoogleSQL 中未強制執行的外部鍵。這些資訊主要是為了協助您最佳化查詢。 |
索引 | 叢集、搜尋索引、向量索引 (自動或管理) | Teradata 允許明確建立索引。 建議您在 BigQuery 中進行分群。雖然叢集不等於資料庫索引,但有助於在磁碟上依序儲存資料,並在叢集資料欄做為述詞時,最佳化資料擷取作業。 BigQuery 支援搜尋索引和向量索引。 |
分區 | 分區 | 這兩個平台都支援資料表分區,可提高大型資料表的查詢效能。 BigQuery 僅支援按日期和整數分區。如為字串,請改用叢集。 |
資源分配 (根據硬體和授權) | 預訂 (以運算資源為基礎)、以量計價 (分析定價) | BigQuery 提供彈性的計費模式。預留項目可為使用自動調度的持續性及臨時工作負載提供可預測的費用,而以量計價則著重於依查詢掃描的位元組數收費。 |
BTEQ、SQL Assistant、其他用戶端工具 | BigQuery Studio、bq 指令列工具、API | BigQuery 提供各種介面來執行查詢,包括網頁式編輯器、指令列工具,以及用於程式輔助存取的 API。 |
查詢記錄 | 查詢記錄、INFORMATION_SCHEMA.JOBS |
BigQuery 會保留已執行的查詢記錄,方便您查看過去的查詢、分析效能及排解問題。INFORMATION_SCHEMA.JOBS 會保留過去 6 個月內提交的所有工作記錄。 |
安全防護功能 (存取權控管、加密) | 安全防護功能 (IAM、ACL、加密) | 兩者都提供強大的安全防護。BigQuery 使用 Google Cloud IAM 進行精細的存取權控管。 |
網路控制項 (防火牆、VPN) | VPC Service Controls、私人 Google 存取權 | BigQuery 會與 VPC Service Controls 整合,限制特定網路對 BigQuery 資源的存取權。私人 Google 存取權可讓您存取 BigQuery,不必使用公開 IP。 |
使用者和角色管理 | 身分與存取權管理 (IAM) | BigQuery 使用 IAM 進行精細的存取權控管。您可以在專案、資料集和資料表層級,將特定權限授予使用者和服務帳戶。 |
物件的授權和角色 | 資料集和資料表的存取控制清單 (ACL) | BigQuery 可讓您在資料集和資料表上定義 ACL,以精細控管存取權。 |
靜態資料和傳輸中資料的加密機制 | 靜態和傳輸中資料加密、客戶自行管理的加密金鑰 (CMEK),金鑰可託管於外部 EKM 系統。 | BigQuery 預設會加密資料。您也可以管理自己的加密金鑰,進一步控管加密作業。 |
資料治理與法規遵循功能 | 資料管理政策、資料遺失防護 (DLP) | BigQuery 支援資料治理政策和 DLP,有助於您落實資料安全和法規遵循要求。 |
Teradata 載入公用程式 (例如 FastLoad、MultiLoad)、bteq | BigQuery 資料移轉服務、bq 指令列工具、API | BigQuery 提供多種資料載入方法。Teradata 具有專用的載入公用程式。BigQuery 強調資料擷取的擴充性和速度。 |
Teradata Export Utilities (bteq) | bq 指令列工具、API、匯出至 Cloud Storage | BigQuery 可將資料匯出至各種目的地。Teradata 有自己的匯出工具。BigQuery 與 Cloud Storage 的整合是主要優勢。 BigQuery Storage Read API 可讓任何外部運算功能大量讀取資料。 |
外部資料表 | 外部資料表 | 兩者都支援查詢外部儲存空間中的資料。BigQuery 可與 Cloud Storage、Spanner、Bigtable、Cloud SQL、AWS S3、Azure Blob 儲存體和 Google 雲端硬碟完美整合。 |
具體化檢視表 | 具體化檢視表 | 兩者都提供具體化檢視表,可提升查詢效能。 BigQuery 提供智慧調整具體化檢視區塊,這些檢視區塊一律會傳回目前的資料,而且即使查詢參照的是基本資料表,也會自動將查詢重新編寫為具體化檢視區塊。 |
使用者定義函式 (UDF) | 使用者定義函式 (UDF) (SQL、JavaScript) | BigQuery 支援 SQL 和 JavaScript 中的 UDF。 |
Teradata 排程器、其他排程工具 | 排定查詢、Cloud Composer、Cloud Functions、BigQuery 管道 | BigQuery 可與 Google Cloud 排程服務和其他外部排程工具整合。 |
觀景點 | BigQuery 管理功能,可監控、執行健康檢查、探索工作及管理容量。 | BigQuery 提供以 UI 為基礎的全方位管理工具箱,內含多個窗格,可監控作業健康狀態和資源用量。 |
備份與還原 | 資料集複製、時空旅行和安全機制、資料表快照和複製、單一區域與多區域儲存空間、跨區域備份和復原。 | BigQuery 提供快照和時空旅行功能,可復原資料。時間回溯功能可讓您存取特定時間範圍內的歷史資料。BigQuery 也提供資料集複製、單一和多個區域儲存空間,以及跨區域備份和復原選項。 |
地理空間函式 | 地理空間函式 | 這兩個平台都支援地理空間資料和函式。 |
開始使用
以下各節會摘要說明從 Teradata 遷移至 BigQuery 的程序:
執行遷移評估
在從 Teradata 遷移至 BigQuery 的過程中,建議您先執行 BigQuery 遷移評估工具,評估將資料倉儲從 Teradata 遷移至 BigQuery 的可行性和潛在效益。這項工具提供結構化方法,協助您瞭解目前的 Teradata 環境,並預估順利遷移所需的作業量。
執行 BigQuery 遷移評估工具後,會產生評估報告,其中包含下列章節:
- 現有系統報表:現有 Teradata 系統和用量的快照,包括資料庫、結構定義、資料表數量,以及總大小 (以 TB 為單位)。此外,這項服務還會依大小列出結構定義,並指出可能導致資源使用率不佳的因素,例如沒有寫入或讀取次數很少的資料表。
- BigQuery 穩定狀態轉換建議:顯示遷移至 BigQuery 後的系統樣貌。包括如何最佳化 BigQuery 工作負載,以及避免浪費資源的建議。
- 遷移計畫:提供遷移作業本身的相關資訊。例如,從現有系統轉換至 BigQuery 穩定狀態。這個部分會顯示自動翻譯的查詢數量,以及將每個資料表移至 BigQuery 的預期時間。
如要進一步瞭解遷移評估結果,請參閱「查看 Looker Studio 報表」。
從 Teradata 遷移結構定義和資料
查看遷移評估結果後,您可以準備 BigQuery 以進行遷移,然後設定資料移轉作業,開始遷移 Teradata 資料。
如要進一步瞭解 Teradata 遷移程序,請參閱「從 Teradata 遷移結構定義和資料」。
驗證遷移作業
將 Teradata 資料遷移至 BigQuery 後,請執行資料驗證工具 (DVT),對新遷移的 BigQuery 資料執行資料驗證。DVT 會驗證各種函式,從資料表層級到資料列層級,確認遷移的資料是否正常運作。如要進一步瞭解 DVT,請參閱「推出 EDW 遷移作業適用的資料驗證工具」。
您可以在 DVT 公開 GitHub 存放區中存取 DVT。
後續步驟
- 試試從 Teradata 測試遷移至 BigQuery。