什么是数据湖?

数据湖是一种集中式、可扩缩且安全的存储库,旨在以原生格式存储、处理和分析大量结构化、半结构化和非结构化数据。与传统存储不同,数据湖允许企业以任何速度和容量注入数据,提供高级分析和人工智能 (AI) 所需的“全保真”上下文。

数据湖概览:针对实时和 AI 进行扩缩

数据湖提供了一个可扩缩的安全平台,让企业能够从本地、云端或边缘的任何来源注入任何数据,而无需受预定义架构的限制。

对于数据驱动型组织,数据湖的价值在于它能够支持:

  • 无服务器数据处理:提交作业,无需创建、配置或管理集群
  • 全保真存储:以原始格式存储任意数量的数据,确保数据科学家拥有复杂实验所需的原始上下文
  • 实时注入:大规模处理流式数据,为实时分析和响应式 AI 应用提供支持

数据湖与数据仓库:向开放式湖仓一体的演进

虽然数据湖和数据仓库传统上被视为互补关系,但 Google Cloud 正在通过开放式湖仓一体架构弥合这一差距。

传统数据仓库针对可重复的业务报告和结构化 SQL 分析进行了优化。相比之下,数据湖擅长处理机器学习所需的各种原始数据。

Google Cloud 凭借其 AI 原生、跨云的湖仓一体,实现了“开放式湖仓一体”方法。这让您可以使用 Apache Iceberg 等开放格式,在数据湖和数据仓库中运行分析和 AI,从而获得数据仓库的性能和数据湖的灵活性。

专为数据科学家打造:加速从数据到 AI 的生命周期

对于数据科学家来说,数据湖不仅仅是存储空间,还是一个实验平台。Google Cloud 将数据湖直接集成到“数据到 AI”生命周期中,从而提供独特的价值:

  • 互动式开发:使用 BigQuery Studio 笔记本,并使用您喜爱的工具和语言(如 Python、R 或 SQL)开发 Apache Spark 应用。
  • 统一治理:通过 Knowledge Catalog 治理数据、AI 模型和智能体,利用结构化、非结构化和 SaaS 数据资产为智能体提供上下文。
  • 上下文工程:利用数据湖中存储的原始上下文,来提高生成式 AI 模型和自主数据智能体的准确性

利用 Google Cloud 解决业务难题

新客户可获得 $300 赠金,用于抵扣 Google Cloud 的费用。
订阅 Google Cloud 简报,了解产品动态、活动信息、特别优惠以及更多资讯。

战略数据湖应用场景

数据湖为分析和人工智能奠定了基础,可帮助各行各业的企业更快地将数据转化为行动。

媒体和娱乐

通过分析海量的原始用户互动数据来改进推荐系统,从而提高互动度和广告收入

金融服务

利用实时市场数据为机器学习模型提供支持,以便在市场状况发生变化时立即管理投资组合风险。

企业 AI 和智能体

通过为 AI 智能体提供对统一语义层和受治理的数据资产目录的访问权限,构建和治理 AI 智能体

迈出下一步

获享 $300 赠金以及 20 多种提供“始终免费”用量的产品,开始在 Google Cloud 上构建项目。

Google Cloud