什麼是資料湖泊?
資料湖泊是集中式存放區,可以儲存、處理及保護大量結構化、半結構化和非結構化資料。資料湖泊可以用原生格式儲存資料,並處理各式各樣的資料,而無需理會資料大小限制。
若想進一步瞭解如何在 Google Cloud 上實現資料湖泊現代化,請參閱這篇文章。
準備好了嗎?新客戶可以獲得價值 $300 美元的免費抵免額,供客戶盡情試用 Google Cloud 的各項功能。
資料湖泊總覽
資料湖泊提供擴充性與安全性兼具的平台,不論資料是位於內部部署環境、雲端還是邊緣運算系統,企業都能夠:以所需的速度從這些系統中擷取任何資料;大規模儲存各式各樣完整不失真的資料;即時或批次處理資料;使用 SQL、Python、R 或其他任何語言、第三方資料或數據分析應用程式分析資料。
資料湖泊與資料倉儲:資料湖泊的定義絕非如此狹隘,它不只是儲存,與資料倉儲也不盡相同。
儘管資料湖泊和資料倉儲都有容量儲存資料,但各有不同的最適用途。兩者的關係是互補而不是競爭,對公司來說,可能兩者都需要。相較來說,資料倉儲通常運用於商業手段中常見的重複性報告和分析,例如月銷售報表、各區域銷售額追蹤或網站流量等。
您是否需要資料湖泊?
在判斷公司是否需要資料湖泊時,請考量要處理的資料類型、處理資料的目的、資料擷取過程的複雜性,以及資料管理和控管策略,還有機構現有的工具和技能。
如今,公司也開始以不同的角度看待資料湖泊的價值:資料湖泊不僅能儲存完全不失真的資料,也可以讓使用者對業務情況有更深入的瞭解,因為他們比以往更能掌握更多脈絡,進而可以加快數據分析實驗速度。
如果開發的目的主要是為了處理巨量大數據,則公司通常可以透過批次和/或串流,將原始資料移至資料湖泊而無需進行轉換。資料湖泊可以為企業帶來以下顯著效益:
- 降低總持有成本
- 簡化資料管理
- 準備結合人工智慧和機器學習
- 加快分析速度
- 提高安全性和管理成效
資料湖泊的用途有哪些?
媒體娛樂
提供串流音樂、廣播和 Podcast 服務的公司,可以透過改進其推薦系統,讓使用者願意多使用他們的服務,如此將能創造更多流量賣更多廣告,進而增加收益。
電信
跨國電信公司可以建構流失傾向模型,藉此協助減少客戶流失,進而實現節約效益。
金融服務
投資公司可以利用資料湖泊推動機器學習,只要可以存取即時市場資料,就能管理投資組合風險。
相關產品和服務
Google Cloud 提供一套自動調度資源服務,可以協助您建構整合現有應用程式、技能和 IT 投資項目的資料湖泊。這些服務包括:適用於擷取資料的 Dataflow 和 Cloud Data Fusion、提供儲存空間的 Cloud Storage,以及適用於資料和數據分析處理的 Dataproc 和 BigQuery。