Dataproc バージョン 1.5 または Dataproc バージョン 2.0 のオプション コンポーネントの機能を使用して Dataproc クラスタを作成する際に、HBase などの追加のコンポーネントをインストールできます。ただし、Dataproc クラスタのエフェメラルな性質があるため、Apache HBase コンポーネントは Dataproc で使用することは推奨されません。
Google Cloud には、セルフマネージド Apache HBase をデプロイできるサービスが多数用意されていますが、Cloud Bigtableオープン API と HBase およびワークロードのポータビリティを備えているため、これが最適な選択肢になります。HBase データベース テーブルは、基盤となるデータを管理するために Bigtable に移行できますが、以前に HBase と相互運用したアプリケーション(Spark など)は Dataproc 上に残り、Bigtable と安全に接続できます。このガイドでは、Bigtable の使用を開始する手順の概要と、Dataproc HBase デプロイメントから Bigtable にデータを移行するためのリファレンスについて説明します。
Bigtable を使ってみる
Cloud Bigtable は、Apache HBase API クライアントの互換性と HBase ワークロードへのポータビリティを提供する、スケーラビリティとパフォーマンスに優れた NoSQL プラットフォームです。このクライアントは、HBase API のバージョン 1.x と 2.x と互換性があり、Bigtable に対して読み取り / 書き込みを行う既存のアプリケーションとともに含まれる場合があります。既存の HBase アプリケーションでは、Bigtable HBase クライアント ライブラリを追加して、Bigtable に保存されたデータを読み書きできます。
Bigtable での HBase アプリケーションの設定について詳しくは、Bigtable と HBase API をご覧ください。
Bigtable クラスタの作成
Bigtable の使用を開始するには、以前に HBase にデータを保存したクラスタとテーブルを作成します。HBase と同じスキーマを持つインスタンス、クラスタ、テーブルを作成するための Bigtable ドキュメントの手順に従います。HBase テーブル DDL からテーブルを自動的に作成するには、スキーマ変換ツールをご覧ください。
Google Cloud Console で Bigtable インスタンスを開き、1 秒あたりの行数、レイテンシ、スループットなどのテーブルとサーバー側のモニタリング グラフを表示して、新しくプロビジョニングされたテーブルを管理します。詳細については、Monitoring をご覧ください。

Dataproc から Bigtable にデータを移行する
Bigtable でテーブルを作成したら、Google Cloud 上の HBase から Bigtable への移行のガイダンスに従ってデータをインポートして検証できます。データを移行したら、Bigtable に読み取りと書き込みを送信するようにアプリケーションを更新できます。
次のステップ
- Bigtable で Spark を実行する方法については、Wordcount Spark の例をご覧ください。
- HBase から Bigtable へのライブ レプリケーションにより、オンライン移行のオプションを確認する。
- Box が NoSQL データベースをモダナイズした方法を参照して、その他のメリットについて理解する。