借助由 Gemini 提供支持的数据分析迁移服务,让您的数据为 AI 做好准备
Google 的 Data Cloud 具有比业界替代方案更低的 TCO 和高性能 Spark 体验,可帮助您以高效且经济实惠的方式运行要求最严苛的机器学习和生成式 AI 工作负载。通过在 Google Cloud 上统一数据、计算和基础设施,您可以打破数据孤岛、优化成本,并大幅加快 AI 计划从原型到生产的进程。
BigQuery 中新的统一数据平台已成为 PayPal 下一波创新的源泉,使我们能够在整个生态系统中打造更直观、更个性化的体验,并利用生成式 AI 的强大功能。
Mani Iyer
PayPal 高级副总裁兼全球数据、AI 和机器学习技术主管
利用 AI 原生基础对数据资产进行现代化改造
Google 将 AI 原生集成到整个技术栈中 - 从 TPU、全球网络到模型和 Data Cloud。通过将 Gemini 模型和 AI 开发者工具直接连接到您的数据基础设施,我们消除了额外的网络跃点,并简化了成本、扩缩和安全管理。
兼顾企业级性能与开放灵活性
Google Data Cloud 支持开放式数据湖仓,将开放式格式 (Apache Iceberg) 与 BigQuery 和 Google Cloud Managed Service for Apache Spark 等企业级引擎相结合。结合 Knowledge Catalog 实现全面的治理和智能体上下文,此基础设施使 AI 智能体能够安全地访问和激活整个组织的数据。
利用 Google 业界领先的 AI 和开发者工具,激活您的数据
Google Cloud 通过将 AI、向量搜索和图推理直接嵌入到 BigQuery 中来激活数据,使模型能够在数据所在的位置执行。这种架构支持智能体优先的生命周期,使用自然语言工具和无服务器计算来快速部署智能体工作流。Antigravity 通过引入自主自动化功能,进一步简化了这一过程,只需极少的人工干预,即可发现、编写及优化 Spark 和 SQL 工作负载。
依托 AI 技术的迁移服务
借助 Google Cloud 的数据分析迁移服务,AI 技术融入到迁移的每一步,打造一个智能合作伙伴,在从发现到验证的整个迁移过程中无缝运行。这种 AI 优先的方法可以大幅减少人工工作量,提供可预测的迁移计划,并降低项目风险,从而帮助您加快迁移速度。
自动 TCO 和价值分析
迁移评估服务会根据您的特定查询句式和数据用量,对 Google Cloud 上的实际运营成本进行建模。它定义了财务影响,同时考虑了速度、敏捷性和 AI 利用率,可帮助您为现代化改造构建强有力的业务案例。
Gemini 赋能的 SQL 和 PySpark 转换
BigQuery Migration Service 具有 SQL 转换功能,支持从 18 种方言迁移到 BigQuery SQL。Gemini 可以转换标准工具无法处理的复杂过程 SQL,从而将自动化率提高到近 100%。通过分析完整的架构和代码,Gemini 可以创建功能相同的翻译,而不仅仅是语法正确的翻译。Gemini 还提供 Databricks 笔记本的自动分析和转换功能,可将 Spark SQL 和 PySpark 代码转换为与 Google Cloud 完全兼容的代码。该服务负责处理库依赖项和配置调整。
Gemini 赋能的验证
Gemini 通过对架构、数据和语义逻辑进行全面验证来简化迁移验证,以确保完全准确。通过比较旧查询和现代化查询的结果,它专注于一致的业务结果,而不是代码结构,从而有效消除误报。这种自动化方法将用户验收测试时间从数月缩短到数周,加快了实现价值的速度,同时让技术专家能够腾出时间处理更重要的任务。
使用 Gemini CLI 实现智能体迁移工作流
Gemini CLI 提供了一个对开发者友好的环境,让 AI 能够智能地集成迁移服务并选择最佳工具来完成任务,从而将迁移转变为智能体工作流。通过直接在现有代码库中工作,它使团队能够“克隆并运行”,从而大幅提高效率并加快向 Google Cloud 的过渡。
企业数据仓库 (EDW) 迁移
将旧版企业数据仓库 (EDW) 转换为现代化的统一数据湖仓架构不再像以前那样充满风险,需要耗费数年时间。如今,端到端 AI 赋能的迁移服务可自动执行迁移过程中最复杂、最繁琐的阶段。
评估并发现可节省的费用
首先,构建数据驱动型业务案例和清晰的路线图。自动发现和评估功能可帮助您分析现有的 EDW(例如 Teradata、Snowflake 和 Redshift),以了解数据沿袭、依赖项和查询句式。您将获得一份详细报告,其中将当前费用与预计的 BigQuery TCO 进行比较,并突出显示潜在的节省和投资回报率。
规划并准备迁移
周密的规划是成功迁移的关键。确定“快速致胜方法”,绘制依赖关系图,并将工作负载分组为逻辑迁移波次,以快速实现价值并降低风险。
借助 AI 进行迁移、验证和优化
Gemini 赋能的代码转换、自动数据和元数据转移以及端到端验证,提供了一种 AI 驱动型迁移方法,可显著减少时间、费用和人为错误。
数据湖和 Spark 迁移
传统数据湖无法高效存储和处理 AI 所需的大量非结构化数据。数据孤岛在仓库、数据湖和云端非常普遍,许多组织往往缺乏构建和部署 AI 模型所需的计算资源。Google Cloud 提供依托 AI 技术的服务,可加快数据湖迁移速度。
直接原样迁移
尽可能降低 Spark 和 Hadoop 工作负载的风险和中断,或快速启动从 Cloudera 到全托管式企业生态系统的迁移。如果您不想在云端重新构建您的本地数据湖,不妨将数据直接原样迁移到 Google Cloud,以获享成本和容量优势。
对 Spark 工作负载进行现代化改造
随着您对 Google Cloud 越来越熟悉,可以为数据团队引入更高的敏捷性和速度。Google Managed Service for Apache Spark 利用 Lightning Engine,运行 Spark 工作负载的速度比标准基准快 4.5 倍。
优化运营
简化管理和运营。迁移旧数据湖后,开始引入云原生优化(例如自动存储分层),以降低总拥有成本、简化管理、提高速度和规模。
对开放式湖仓一体进行现代化改造
湖仓一体迁移的复杂性众所周知,团队不得不将各种计算引擎、Apache Iceberg 等开放格式和零散的安全模型拼凑在一起。Google Cloud 提供统一的全托管式基础架构,让您不再为此烦恼。Google 通过无缝连接 Google 的 Lakehouse、Managed Service for Apache Spark 和 Knowledge Catalog,加快您向开放且可互操作的湖仓一体的过渡,让您可以专注于激活 AI,而不是管理基础设施。
Databricks 迁移评估
借助新的 Databricks 迁移评估功能,您可以分析现有的 Databricks 环境,确定迁移工作量和预计的 TCO 节省情况,从而对迁移选择充满信心。
从 Delta Lake 迁移到 Apache Iceberg
在保留开放数据和表格式优势的同时,获得多引擎访问权限,并受益于集成式湖仓一体架构,实现卓越的性价比。通过简单、自动化的方式将数据、元数据和权限从 Delta Lake 迁移到 Lakehouse for Apache Iceberg,从而充分利用统一治理、企业规模、领先的性价比以及对 AI 模型和工具的访问权限。
从 Hadoop 迁移 Hive 和 Iceberg 表
自动将 Cloudera 或 Hadoop 环境直接迁移到 Google Cloud,从而节省大量时间和手动工作。通过将表和元数据无缝移入 Cloud Storage 和托管式湖仓一体目录,您的数据在落地的那一刻即可供 SQL、Spark 和 Python 工作负载访问。
由合作伙伴组成的生态系统,帮助您成功完成这一旅程
立即携手我们的合作伙伴开启迁移,或联系 Google Cloud 专业服务团队。
咨询合作伙伴
专业迁移合作伙伴
Google Cloud 专业服务
Google Cloud 专业服务可以帮助您规划和执行 EDW 或数据湖迁移。我们有迁移专家提供深厚的技术专业知识。详细了解 Google Cloud 咨询服务。
正在考虑迁移?以下是客户在考虑迁移到 Google 的 Data Cloud 时提出的一些常见问题。
BigQuery 提供了一个统一的无服务器数据平台。它性价比高,且接入了 AI 技术,具备自动扩缩能力,可消除基础架构管理开销并降低成本。BigQuery 与 Google Cloud 的 AI 模型和开发者工具原生集成,让您可以轻松将 AI 应用到数据处理中,从而将 AI 应用场景真正投入生产。如需了解如何从 Snowflake 迁移到 BigQuery,请参阅完整指南。
通过从 Databricks 迁移到基于 Apache Iceberg 构建的 Google Lakehouse,统一 BigQuery 和 Google Cloud Service for Managed Spark,实现单一可靠来源,从而改进数据策略。这种转变使 PySpark 工作负载能够在灵活的无服务器基础设施上无缝运行,同时消除数据孤岛。将 Spark SQL 现代化改造为 BigQuery 标准 SQL,可进一步释放卓越的性能和高级治理功能,打造真正可扩缩的下一代生态系统。
迁移到 BigQuery 为高级分析、机器学习和实时数据洞见提供了一种可伸缩且经济实惠的现代化解决方案。BigQuery 无需管理基础架构,并可根据您的需求自动伸缩,让您的团队可以专注于数据分析而不是系统维护。此外,BigQuery 的随用随付价格模式可以节省费用。我们制作了一份全面的指南,其中概述了从 Teradata 迁移到 BigQuery 的过程。
将 Cloudera Spark 工作负载迁移到 Google Managed Service for Apache Spark,对数据基础设施进行现代化改造。这种转变通过灵活的无服务器或专用集群消除了 Hadoop 开销,并利用 Lightning Engine 显著超越了传统的 JVM 执行速度。凭借按秒结算和自动扩缩功能,您的批处理流水线和流式处理流水线将成为企业分析的强大且经济高效的基础。
Google Cloud 提供垂直集成的 AI 基础设施和端到端架构,以构建开放的 AI 原生数据湖仓。如需将湖仓迁移到 Google Cloud,首先要将原始数据和开放式表格式(如 Delta 或 Iceberg)迁移到 Google Cloud Storage。Google Cloud Lakehouse 可与 BigQuery 搭配使用,实现高级分析和出色的性价比,让您获得全面的表管理功能。您可以在 Google 的 Managed Service for Apache Spark 上针对相同的 Iceberg 表运行 Spark 工作负载。您可以使用 Knowledge Catalog 集中管理元数据,并为智能体创建端到端数据治理和上下文。