跳至

未來的資料發展將會統合、有彈性且易於存取

科技公司和新創公司正在學習相關知識以獲得成功:

- 資料整合必須在整個公司內部進行,甚至跨供應商和合作夥伴。而這涉及將會發揮非結構化資料的價值,並打破組織與科技的藩籬。

- 這些技術堆疊必須具備靈活彈性,以支援從離線資料分析到即時機器學習等用途。

- 隨時隨地皆可存取堆疊。必須支援不同的平台、程式設計語言、工具和開放標準。

充分運用資料是取得競爭優勢的理由

每個人都瞭解資料至關重要,但只有極少數公司能從資料中擷取創新業務和客戶深入分析。充分發揮資料的功用是什麼意思?為什麼這是挑戰?

如果您正在發揮資料的最大效益,代表您可以使用資料制定產品和作業決策。因此,請先問自己幾個問題。您是否知道客戶期望的改變?您是否使用資料來改善客戶體驗?面對挑戰時,請想想您的資料工程師和數據資料學家目前在哪方面耗費大部分時間?

資料是推動創新產品方向和使用者體驗、廣泛市場開發決策的關鍵。成功運用資料可帶來顯著的競爭優勢。因此,許多科技公司和新創公司都面臨著極大的壓力,必須以更大型的規模翻新和營運工作,才能合理調整當前與未來的資料成本,並提高所屬機構的效益成熟度與決策能力。

不過,由於存取、儲存空間、不一致的工具、法規遵循和安全性等方面會面臨一些挑戰,因此我們難以更完整地呈現資料和發揮資料的實際價值。

也許您沿用了舊版系統,而且想與新系統連結。那麼,所有資料都要集中在一個雲端中嗎?還是必須分散在多個雲端?您如何翻新數據分析堆疊 (過去曾垂直整合),以便與可水平擴充的平台搭配運作?

或者,您目前正在批次或微批次處理資料,而非即時處理資料。產生的自動化調度管理系統和排程可以提高架構的複雜性,並需要以爭用情況和彈性為目標進行維護。管理和維護批次架構的作業需要花費高昂的費用,而且您還是會有資料延遲的風險。

無法輕鬆存取所有資料,並缺乏即時處理和分析資料的能力,將會使您屈居下風。現代化的技術堆疊必須是串流堆疊,才能跟上資料的規模、使用最新的可用資料,並整合及瞭解非結構化資料。最先進的數據分析團隊運用 AI/機器學習技術來進行實驗和處理,將重心從營運轉移到實際行動。

如何讓資料為您完成工作,以便您專心推動革新

讓資料為您完成工作代表什麼?這代表,您可以改善客戶體驗、觸及新客戶及提高業績。重點在於能夠推動革新。我們建議您根據兩個原則來選擇資料平台,以達成這些結果

原則 1:簡單易用且可擴充

您目前很可能提供了大量資料。也許正以指數方式成長,而且您希望維持或提高投資報酬率,同時維持流量。您可能會預期自己日後將會取得多少資料 (例如 TB 規模) 並據此設計出系統,同時您也瞭解如果成長量超乎預期,就必須尋找完整的系統遷移作業。或者,您選用了可因應預期成長量擴充的資料倉儲,但增加處理需求會讓管理變得複雜。

較小型的系統通常比較容易。不過,您不再需要在易於使用的系統之間,或具備高擴充性的系統之間選擇。採用無伺服器架構可省去叢集管理作業的麻煩,並且能夠處理大規模的運算和儲存作業,無須擔心資料大小超過技術能力。

為簡化操作和擴充性,我們推薦使用無伺服器資料平台。建議您捨棄任何需要安裝軟體、管理叢集或微調查詢的選項。

原則 2:提高靈活性並降低成本

任何結合運算和儲存空間的資料管理系統,都會強制增加運算資源以處理資料量增加,即便您不再需要使用這些資料也一樣。這可能會產生高額成本,且您可能會需要妥協,例如只將最後十二個月的資料儲存在分析倉儲中。您也可能會選擇不要納入資料,因為您沒有立即的用途,而只能找出無法測試的假設,因為資料在別處,且必須建立新的管道才能開始使用。

其他系統則帶來一半的效益,可讓您分別針對運算和儲存空間進行擴充和付費作業,但您仍需手動設定、擴充和最佳化叢集。如要盡可能降低基礎架構管理作業,請考慮使用無伺服器的多雲端資料倉儲系統,以獲得更高的可靠性、效能和內建資料保護 (例如 BigQuery)。

除了費用與管理之外,您也應該考量靈活性。資料有所變更之後,需要多久時間才會注意到這些情況並做出回應?當您使用某些軟體的新版本或工具時,需要多久時間才能掌握新功能?提高靈活性的方法則是選擇較不需操作的彈性工具,並適用於各式各樣的工作負載。

系統需要針對 Redshift 等系統的查詢進行最佳化,才能提高效率。這麼做會限制可執行的實驗數,因此只有在可能發生問題時,您才會擷取和提取資料。由於缺少運算/儲存空間區隔,且需要針對資料倉儲最佳化,讓您處處受限。

透過 BigQuery 這類的服務,您不需要預先規劃查詢或為資料集建立索引。分離式儲存和運算功能可讓您安心地存放資料,不用擔心資料會增加查詢費用,而且數據資料學家可以進行實驗,在透過臨時查詢嘗試新的構想時,無需擔心叢集或調整資料倉儲大小。

我們探討了簡單、可擴充、具成本效益的平台,如何協助您推動革新。接下來,我們會探討您的資料如何協助您達成目標。

即時做出資料導向的決策

業務運作速度持續加速。客戶期望也有所改變。如果您可以在三天內完成交易對帳或核准退貨,客戶也會希望您可以立即提供回覆。更快、更及時的決策會導致串流需求增加。

您想要即時擷取資料,讓業務團隊以低延遲的方式取得這些資料。此外,您也希望確保串流管道易於擴充、彈性且管理負擔較低。這是讓您的團隊按照業務速度即時回應的唯一方法。請放心,BigQuery 原生支援擷取串流資料,並透過 SQL 立即分析資料。除了 BigQuery 簡單易用的 Streaming API 外,Dataflow 也可讓您管理季節性和激增的工作負載,而不會超支。

打破資料孤島

許多組織最終會建立獨立作業,因為各部門和業務單位分別儲存資料,每個團隊都擁有自己的資料。換句話說,如要進行跨部門的分析,您必須找出如何跨越隔閡,例如執行擷取 (ETL) 管道以取得資料並傳入您的資料倉儲。但是,擁有資料的部門通常不會維護管道;經過一段時間後,這些資料會變得過時且傳入的資料也變得不實用。

如今,許多公司都已經根據機構偏好、能力協調及監管壓力,採用多雲端策略來達成機構各自獨立的目標。這些公司往往也要處理在地端部署環境中執行的舊版資料湖泊和資料倉儲投資。今日的多雲端、混合式雲端實際運作,需要更精細的管理和存取孤立資料。

遷移至具有通用控制窗格的分散式資料倉儲 (有時稱為資料架構或資料網格) 可讓您跨部門、雲端和地端部署系統存取高品質資料。這可以解決產品效能或客戶行為等業務問題,而且可讓您即時查詢資料。

BigQuery 提供資料網格的技術基礎,因此機構內的使用者都可以管理、保護、存取及分享資料資產和深入分析,無論機構內的資料的擁有者是誰。舉例來說,您可以將所有資料傳送至 BigQuery,並提供可重複使用的功能、具體化檢視表,甚至是在不移動資料的情況下訓練機器學習模型。也就是說,即使是非技術領域專家 (以及擁有權限的合作夥伴和供應商) 都能透過試算表和資訊主頁等熟悉的工具,輕鬆存取資料並使用 SQL 查詢資料。

這裡適用「中樞和輪輻」的類比。BigQuery 是含有資料的中樞。輪輻是回報工具、資訊主頁、機器學習模型、網路應用程式、推薦系統等,所有功能都可以從 BigQuery 即時讀取資料,而且不必複製資料。舉例來說,Looker 可協助您以視覺化的方式呈現資料,並將資料整合至使用者的每日工作流程。這個方法可讓您同時提高資料的可用性、安全性和品質。

簡化對所有資料的存取權

過去,非結構化資料和半結構化資料都是適合透過資料湖泊運作,而結構化資料則最適合用於資料倉儲。這種分隔技術帶來技術藩籬,因此難以跨越格式分隔;將所有資料儲存在資料湖泊中,因為儲存成本較低且易於管理,然後將資料移至倉儲,以便使用分析工具擷取深入分析資料。

「湖倉」現在越來越受歡迎,將這兩個世界合併為一個統合環境,供所有類型的資料使用;您可以將 BigQuery 同時做為資料倉儲和資料湖泊使用。BigQuery 的 Storage API 可讓您直接存取儲存空間,以便直接處理與資料湖泊相關的工作負載。因為資料可以儲存在 BigQuery 中做為單一可靠的資料來源,因此需要建立及維護的副本較少。但您可以透過 SQL 轉換功能執行下游處理,而這類轉換儲存在邏輯檢視表中,而無需移動資料。

使用十分簡單 - 如果您可以在 30 秒內從查詢中取得結果,而不是在 30 分鐘或 3 小時內,就可以在決策過程中使用更多資料。

使用 AI/機器學習技術加快實驗速度和運作工作負載。

您的數據資料學家的實驗速度多快?他們應該要停止開發和運作模型,才能評估實際使用者的實驗結果。他們使用歷史資料來開發及疊代模型,再將模型交給工程師。工程師通常會重新編寫模型,以便將其納入實際工作環境系統並執行 A/B 測試。然後,他們會再次等待、進行模型疊代以及生產。這個循環過程包含許多停滯和重新編寫程式碼的需求,而在過程中,出現錯誤的團隊也需要經過層層的協調。您的數據資料學家也無法做更多實驗,因為這種實驗方式可能需要較長的時間。這很難預測專案要花多久時間以及是否成功,更不用談需要花上多久的時間才能成為日常用途。為實現這個目標,您需要為數據資料學家提供強大而熟悉的工具。Vertex AI Workbench 可讓數據資料學家在 Jupyter 筆記本中更有效率地執行工作,享有加速訓練、快速實驗和快速部署功能。

如果您要謹慎地根據資料加以區分,可以從收集到的資料中擷取最高值。為達成這個目標,您希望數據資料學家團隊盡可能提高生產力,同時不會錯過建立模型的商機,因為即便是簡單的事情,也可能耗費太多時間或難以執行。

預先建構的低程式碼模型品質非常重要。Vertex AI 上的 AutoML 可在無程式碼的環境中提供最頂尖的 AI 模型,讓您快速取得基準化和進行優先處理。使用自己的資料預先建構模型 (例如實體擷取Vertex AI Matching Engine),可大幅加快從資料創造價值的時間;您再也不限於只進行分類或迴歸。

維持資料靈活性的關鍵在於儘早且經常進行端對端實驗。Vertex AI 管道提供實驗記錄,方便您回顧、與基準和端點進行比較,以及使用陰影模型進行 A/B 測試。由於程式碼容器化,因此相同的程式碼可在開發和實際工作環境系統中使用。數據資料學家使用 Python 時,實際工作環境中的工程師可取得完整封裝的容器。兩個團隊都可透過 Vertex AI 預測來運作模型,以便快速標準化作業。

網域專家通常可以使用 BigQuery ML 來訓練僅使用 SQL 的自訂模型,藉此測試構想的可行性,而不需要用傳統數據資料學工具進行其他體驗。這表示,您可以嘗試在類似實際運作的系統中進行實驗,並在幾天內 (而非數個月內) 執行可行性研究。您可以將 BigQuery ML 模型部署至 Vertex AI,以便瞭解我們剛才討論的所有優點。您可以使用 Looker 為所有資料建立一致的資料模型,並使用 LookML 查詢資料,亦即貴機構的所有使用者皆可建立易於閱讀的報表和資訊主頁,以探索資料模式。

為了在實際工作環境中創造實際價值,系統必須能夠擷取、處理及提供資料,機器學習也必須根據客戶的情境即時即時提供個人化服務。不過,持續運作的實際工作環境應用程式會要求模型持續重新訓練、部署及檢查安全性。傳入的資料需要預先處理及驗證,確保沒有任何品質問題,接著是特徵工程和模型訓練 (採用超參數調整)。

您必須整合數據資料學和機器學習技術,才能妥善自動化調度管理及管理這些階段的機器學習工作流程,並穩定地重複執行這些工作。機器學習運作工具和自動化工作流程讓您可以快速持續推送軟體更新,並簡化模型到實際工作環境的管理作業。無論抽象層為何,我們所有 AI 產品都只有一個工作流程和詞彙,而且自訂模型和 AutoML 模型採用相同的格式和技術基礎,因此您可以輕鬆切換。

例如,如果您想要將異常偵測資料套用到不受限的即時資料串流,以打擊詐欺行為,該怎麼做?您可以採用適當的方法,產生範例資料串流來模擬常見的網路流量,並擷取至 Pub/Sub,在使用資料遺失防護遮蓋個人識別資訊 (PII) 之後,運用 BigQuery ML k-means 分群法在 BigQuery 建立及訓練異常偵測模型。接著,您就能透過 Dataflow 將模型套用至即時資料,以便使用 Dataflow 即時偵測,並使用 Looker 建立資訊主頁、快訊和動作來處理已識別的事件。

選擇完善的資料倉儲選項的重要性

我們已經討論過 BigQuery 和 Redshift,但這不是唯一可用的資料倉儲選項。還有其他資料分析產品 (例如 Snowflake 和 Databricks) 適用於所有三種主要的雲端環境。所以,當您選擇 BigQuery 時,還會發生受制於特定雲端廠商的問題嗎?

首先要提醒您,BigQuery 不只能分析您儲存在 Google Cloud 中的資料。BigQuery Omni 讓您可以從 Google Cloud 控制台中順暢查詢 Amazon S3 和 Azure Blob 儲存體中的資料。

不過實際上,如果使用 Snowflake 或 Databricks,從 AWS 遷移至 Google Cloud 的切換費用較低,反之亦然。但遷移至其他資料倉儲的費用又是如何呢?如果想從 Snowflake 遷移至 BigQuery,或從 Databricks 遷移至 EMR,該怎麼做?雖然是不同的情境,仍須支付切換費用。

在各種情況下都需支付切換費用,您最終還是必須選擇長期下來能帶來成效的工具或平台。您可以根據特定平台的不同特性、今日成本,以及未來創新的速率,選擇其中一項。選擇 Snowflake 時,您需要同時注意,以資料倉儲為重心的公司將可加快該領域的創新技術。選擇 BigQuery 時,您就會想到一個以多種資料及 AI 技術著稱的公司,並在這平台上持續創新。

我們相信,創新且整合的平台能夠進一步推動創新的飛輪效應。代管服務產品,例如 Google Kubernetes Engine (GKE) 能加快容器映像檔的載入速度,這有助於無伺服器 Spark 運作更順暢;由於無伺服器 Spark 可以在 BigQuery 中處理資料,因此 BigQuery 能為您帶來更多價值。當您選擇在平台 (而非個別產品) 上進行創新,可以帶動更多效益。

如何安心執行資料遷移流程

資料遷移作業需要多久時間?六個月?兩年?這代表需要多少作業?是否值得?

相較於從地端部署系統遷移至雲端,如果您從某個雲端遷移到另一個雲端服務就相對簡單,這是因為貴機構通常擁有較深入的地端部署技術。若把重點放在您的目標,問題通常會變成是「創新速度有多快?」

請回想您今天想做到但尚未做到的所有創新工作,然後設定新專案並轉移所需資料,以達成目標。我們可協助您建構這些新的用途,並鏡像呈現所需資料來源。在此期間,您將會處於混合式環境,且許多用途都是在地端部署環境中運作,但其所用資料是由系統即時反映、從您的地端部署環境批次建立或來自您的其他雲端服務供應商。

第二個考慮因素是關於費用。查看執行中的昂貴的 Teradata 執行個體。我們發現,客戶改用 BigQuery 後將成本降到一半,而且透過自動化評估工具和自動化 SQL 轉譯器來轉換大部分的指令碼,讓遷移作業比起以往輕鬆許多。我們提供多種虛擬化功能,讓客戶認為他們在與 Teradata 對話時,實際是與 BigQuery 對話。我們提供多種遷移方式,您無須關閉所有資源。您可以使用這些遷移工具,捨棄昂貴的 Teradata 和 Hadoop 工作負載。

第三種做法是查看您的 ERP 系統,例如 SAP、Salesforce 系統和 Oracle。如要最佳化供應鏈、進行待開發客戶評分或偵測詐欺行為,請務必將分析工作負載連結至 ERP 系統。我們可以使用第三方連接器,從這些系統取得資料,然後利用這些資料在雲端中建構採用 AI 技術的現代化用途。

這些動作的執行順序取決於您的情況。如果您是新創公司,可以先從創新開始,接著是成本最佳化,最後再運用現有的管道和連接器。如果您的商家在供應鏈方面有極大依賴性,不妨從 ERP 連接器開始著手。無論這三項的順序為何,您都會將大量的寶貴資料資產遷移至雲端。現在讓我們來看看剩下的資訊,想想是否值得遷移。我們通常發現答案是否;在您遷移 70% 到 80% 必要的工作負載之後,就必須開始做出困難的決策。剩下的 20% 到 30% 是否值得遷移?或者您會考慮重新編寫或是執行工作?您沒有必要原封不動地將所有資料遷移到雲端,否則會變成在新的雲端環境中複製地端部署系統的所有技術債,而非專注於資料價值。

延伸閱讀

我們討論了許多控管資料的重要性,並說明其真正的意義,以及您在遷移至雲端資料倉儲時可能會遇到的一些事項。

如要進一步瞭解 Google Cloud 能如何協助您善用深入分析功能取得大幅優勢、協助貴公司降低成本,以及透過最佳化貴公司使用資料的方式與採用 AI 技術,進而大幅提升生產力,請與我們聯絡。

其他資源

準備好採取下一步行動了嗎?

進一步瞭解 Google Cloud 如何協助您最佳化運用資料和 AI 技術。
與專家聯絡
2021 年 Google Cloud Next 大會:資料雲端:透過通用資料平台進行轉型。
觀看網路研討會影片

請填寫表單,我們會與您聯絡。 查看表單