跳至主要内容
Google Cloud
文档 技术领域
  • AI 和机器学习
  • 应用开发
  • 应用托管
  • 计算
  • 数据分析和流水线
  • 数据库
  • 分布式云、混合云和多云
  • 生成式 AI
  • 行业解决方案
  • 网络
  • 可观测性和监控
  • 安全
  • Storage
跨产品工具
  • 访问权限和资源管理
  • 费用和用量管理
  • Google Cloud SDK、语言、框架和工具
  • 基础架构即代码
  • 迁移
相关网站
  • Google Cloud 首页
  • 免费试用和免费层级
  • 架构中心
  • 博客
  • 联系销售团队
  • Google Cloud 开发者中心
  • Google 开发者中心
  • Google Cloud Marketplace
  • Google Cloud Marketplace 文档
  • Google Cloud Skills Boost
  • Google Cloud Solution Center
  • Google Cloud 支持团队
  • Google Cloud Tech YouTube 频道
/
  • English
  • Deutsch
  • Español – América Latina
  • Français
  • Indonesia
  • Italiano
  • Português – Brasil
  • 中文 – 简体
  • 中文 – 繁體
  • 日本語
  • 한국어
控制台 登录
  • Dataproc
指南 参考文档 示例 资源
联系我们 免费开始使用吧
Google Cloud
  • 文档
    • 指南
    • 参考文档
    • 示例
    • 资源
  • 技术领域
    • 更多
  • 跨产品工具
    • 更多
  • 相关网站
    • 更多
  • 控制台
  • 联系我们
  • 免费开始使用吧
  • Discover
  • 产品概览
  • 组件
    • 概览
    • Delta Lake
    • Docker
    • Flink
    • HBase
    • Hive WebHCat
    • Hudi
    • Iceberg
    • Jupyter
    • 猪
    • Presto
    • Ranger
      • 安装 Ranger
      • 将 Ranger 与 Kerberos 搭配使用
      • 将 Ranger 与缓存和缩小范围搭配使用
      • 备份和恢复 Ranger 架构
    • Solr
    • Trino
    • Zeppelin
    • ZooKeeper
  • 服务
  • 计算选项
    • 机器类型
    • GPU
    • 满足最低 CPU 要求的平台
    • 辅助工作器
    • 本地固态硬盘
    • 启动磁盘
  • 版本控制
    • 概览
    • 2.3.x 发布版本
    • 2.2.x 发布版本
    • 2.1.x 发布版本
    • 2.0.x 发布版本
    • 集群映像版本列表
  • 常见问题解答
  • 开始使用
  • 在 Dataproc 上运行 Spark
    • 使用控制台
    • 使用命令行
    • 使用 REST APIs Explorer
      • 创建集群
      • 运行 Spark 作业
      • 更新集群
      • 删除集群
    • 使用客户端库
    • 使用 Kubernetes 运行 Spark
  • 创建
  • 设置项目
  • 使用 Dataproc 模板
  • 创建 Dataproc 集群
    • 创建集群
    • 创建高可用性集群
    • 创建节点组集群
    • 创建部分集群
    • 创建单节点集群
    • 创建单租户集群
    • 重新创建集群
    • 创建自定义映像
  • 创建 Kubernetes 集群
    • 概览
    • 发布版本
    • 重新创建集群
    • 创建节点池
    • 创建自定义映像
  • 在 BigQuery metastore 中创建包含元数据的 Apache Iceberg 表
  • 开发
  • Apache Hadoop
  • Apache HBase
  • Apache Hive 和 Kafka
  • Apache Spark
    • 配置
      • 管理 Spark 依赖项
      • 自定义 Spark 环境
      • 启用并发写入
      • 提升 Spark 性能
      • Tune Spark
    • 紧密联系
      • 使用 Spark BigQuery 连接器
      • 使用 Cloud Storage 连接器
      • 使用 Spark Spanner 连接器
    • 运行
      • 使用 HBase
      • 使用 Monte Carlo 模拟
      • 使用 Spark ML
      • 使用 Spark Scala
  • 使用笔记本
    • 概览
    • 在 Dataproc 集群上运行 Jupyter 笔记本
    • 在笔记本上运行基因组分析
    • 使用 JupyterLab 扩展程序开发无服务器 Spark 工作负载
  • Python
    • 配置环境
    • 使用 Cloud 客户端库
  • Trino
  • 部署
  • 运行作业
    • 作业生命周期
    • 提交作业
    • 重启作业
    • 查看作业历史记录
  • 使用工作流模板
    • 概览
    • 参数化
    • 使用 YAML 文件
    • 使用集群选择器
    • 使用内嵌工作流
  • 编排工作流
    • 工作流安排解决方案
    • 使用 Dataproc 工作流模板
    • 使用 Cloud Composer
    • 使用 Cloud Functions
    • 使用 Cloud Scheduler
  • 调优性能
    • 优化 Spark 性能
    • Dataproc 指标
    • 创建指标提醒
    • 分析文件资源用量
  • 管理
  • 管理集群
    • 启动和停止集群
      • 手动启动和停止集群
      • 安排集群停止
    • 更新和删除集群
    • 轮替集群
    • 配置集群
      • 设置集群属性
      • 选择区域
      • 自动选择可用区
      • 定义初始化操作
      • 确定虚拟机类型的优先级
      • 安排集群删除
    • 扩缩集群
      • 扩缩集群
      • 自动扩缩集群
    • 管理数据
      • Hadoop 数据存储
      • 选择存储空间类型
      • 缓存集群数据
      • 分流 shuffle 数据
    • 管理网络
      • 配置网络
      • 使用 Private Service Connect 的 Dataproc 集群网络
  • 管理 Kubernetes 集群
    • 扩缩集群
    • 删除集群
  • 访问集群
    • 使用 SSH
    • 连接到网页界面
    • 使用组件网关
    • 设置员工访问权限
  • 管理元数据和标签
    • 启用 Spark 数据沿袭
    • 启用 Hive 数据沿袭
    • 设置元数据
    • 设置过滤标签
    • 使用安全标记
  • 连接到 Dataproc
    • 迁移 Hadoop
    • 与 BigQuery 建立连接
      • BigQuery 连接器
      • Hive-BigQuery 连接器
      • 代码示例
    • 与 Bigtable 建立连接
    • 与 Cloud Storage 建立连接
    • 与 Pub/Sub Lite 连接
  • 生产最佳做法
  • 安全与合规性
  • 安全性方面的最佳做法
  • 对用户进行身份验证
    • 通过 Dataproc 进行身份验证
    • 对个人集群进行身份验证
  • 分配角色和权限
    • Dataproc 角色和权限
    • Dataproc 主账号
    • Granular IAM
    • 为 Kubernetes 分配角色
  • 创建服务账号
  • 保护集群
    • 通过 Kerberos 实现安全的多租户
    • 通过服务账号实现安全的多租户
    • 加密内存
    • 管理数据加密密钥
    • 启用 Ranger 授权服务
    • 使用 Secret Manager 凭证提供程序
    • 创建 Hive metastore 集群并确保其安全
  • 创建自定义限制条件
  • Assured Workloads
  • FedRAMP 合规性
  • 查看结算信息
  • 排查问题
  • 概览
  • 分析日志
    • Dataproc 日志
    • 作业输出日志
    • 审核日志
  • 排查集群问题
    • 查看集群诊断数据
    • 排查集群创建问题
    • 诊断 Kubernetes 集群
    • 启用 Kubernetes 日志记录
  • 排查作业问题
    • 排查作业问题
    • 排查内存错误
    • 排查作业延迟问题
    • 查看作业历史记录
    • 排查工作流模板问题
  • AI 和机器学习
  • 应用开发
  • 应用托管
  • 计算
  • 数据分析和流水线
  • 数据库
  • 分布式云、混合云和多云
  • 生成式 AI
  • 行业解决方案
  • 网络
  • 可观测性和监控
  • 安全
  • Storage
  • 访问权限和资源管理
  • 费用和用量管理
  • Google Cloud SDK、语言、框架和工具
  • 基础架构即代码
  • 迁移
  • Google Cloud 首页
  • 免费试用和免费层级
  • 架构中心
  • 博客
  • 联系销售团队
  • Google Cloud 开发者中心
  • Google 开发者中心
  • Google Cloud Marketplace
  • Google Cloud Marketplace 文档
  • Google Cloud Skills Boost
  • Google Cloud Solution Center
  • Google Cloud 支持团队
  • Google Cloud Tech YouTube 频道
  • Home
  • 文档
  • Dataproc
  • Documentation
  • 指南

迁移 Hadoop
使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

如需将 Apache Hadoop 工作流和数据迁移到 Google Cloud和 Dataproc,请参阅以下文档:

  • 将本地 Hadoop 基础设施迁移到 Google Cloud
  • 将 HDFS 数据从本地迁移到 Google Cloud

如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC):2025-09-04。

  • 为什么选择 Google

    • 选择 Google Cloud
    • 信任与安全
    • 现代基础架构云
    • 多云
    • 全球基础架构
    • 客户和案例研究
    • 分析师报告
    • 白皮书
  • 产品和价格

    • 查看所有产品
    • 查看所有解决方案
    • Google Cloud 创业公司计划
    • Google Cloud Marketplace
    • Google Cloud 价格
    • 与销售人员联系
  • 支持

    • Google Cloud 社区
    • 支持
    • 版本说明
    • 系统状态
  • 资源

    • GitHub
    • Google Cloud 使用入门
    • Google Cloud 文档
    • 代码示例
    • 云架构中心
    • 培训和认证
    • 开发者中心
  • 互动

    • 博客
    • 活动
    • X (Twitter)
    • Google Cloud 在 YouTube 上的频道
    • YouTube 上的 Google Cloud Tech
    • 成为合作伙伴
    • Google Cloud Affiliate Program
    • 媒体资讯角
  • 关于 Google
  • 隐私权政策
  • 网站条款
  • Google Cloud 条款
  • Manage cookies
  • 环境行动的第三个十年:加入我们
  • 订阅 Google Cloud 简报 订阅
  • English
  • Deutsch
  • Español – América Latina
  • Français
  • Indonesia
  • Italiano
  • Português – Brasil
  • 中文 – 简体
  • 中文 – 繁體
  • 日本語
  • 한국어