只有使用映像版本 1.5 或 2.0 创建的 Dataproc 集群才能安装可选 HBase 组件。
虽然 Google Cloud 提供了许多可让您部署自行管理的 Apache HBase 的服务,但 Bigtable 通常是最佳选择,因为它提供了支持 HBase 和工作负载可移植性的开放式 API。HBase 数据库表可以迁移到 Bigtable 来管理底层数据,而以前与 HBase 进行互操作的应用(如 Spark)可以保留在 Dataproc 上并安全地连接到 Bigtable。 在本指南中,我们介绍了 Bigtable 使用入门的概要步骤,并提供了有关如何将数据从 Dataproc HBase 部署迁移到 Bigtable 的参考。
Bigtable 使用入门
Cloud Bigtable 是一个伸缩能力极强且性能出色的 NoSQL 平台,它为 HBase 工作负载提供了 Apache HBase API 客户端兼容性和可移植性。该客户端与 HBase API 版本 1.x 和 2.x 兼容,可以包含在现有应用中,用于对 Bigtable 执行读写操作。现有的 HBase 应用可以添加 Bigtable HBase 客户端库,以读取和写入存储在 Bigtable 中的数据。
如需详细了解如何使用 Bigtable 配置 HBase 应用,请参阅 Bigtable 和 HBase API。
创建 Bigtable 集群
如需开始使用 Bigtable,您可以先创建集群和表来存储先前存储在 HBase 中的数据。按照 Bigtable 文档中的步骤,使用与 HBase 表相同的架构创建实例、集群和表。如需通过 HBase 表 DDL 自动创建表,请参阅架构转换器工具。
在 Google Cloud 控制台中打开 Bigtable 实例以查看表和服务器端监控图表(包括每秒行数、延迟时间和吞吐量),以管理新预配的表。如需了解详情,请参阅 Monitoring。
将数据从 Dataproc 迁移到 Bigtable
在 Bigtable 中创建表后,您可以按照将 Google Cloud 上的 HBase 迁移到 Bigtable 中的指南导入和验证您的数据。迁移数据后,您可以更新应用以向 Bigtable 发送读写操作。
后续步骤
- 如需了解如何通过 Bigtable 运行 Spark,请参阅 Wordcount Spark 示例。
- 查看从 HBase 到 Bigtable 的实时复制的在线迁移选项。
- 观看 Box 如何对其 NoSQL 数据库进行现代化改造,了解其他优势。