BigQuery テンプレートへの Bigtable 変更ストリームを使用する
このクイックスタートでは、変更ストリームを有効にして Bigtable テーブルを設定し、変更ストリーム パイプラインを実行して、テーブルに変更を加えてから、ストリーミングされた変更を確認する方法について説明します。
始める前に
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataflow, Cloud Bigtable API, Cloud Bigtable Admin API, and BigQuery APIs.
-
In the Google Cloud console, activate Cloud Shell.
BigQuery データセットを作成する
Google Cloud コンソールを使用して、データを保存するデータセットを作成します。
Google Cloud コンソールで [BigQuery] ページに移動します。
[エクスプローラ] ペインで、プロジェクト名をクリックします。
[アクション] オプションを開いて、[データセットを作成] をクリックします。
[データセットを作成する] ページで、次の操作を行います。
- [データセット ID] に
bigtable_bigquery_quickstart
を入力します。 - 残りのデフォルトの設定は変更せず、[データセットを作成] をクリックします。
- [データセット ID] に
変更ストリームを有効にしてテーブルを作成する
Google Cloud コンソールで、Bigtable の [インスタンス] ページに移動します。
このクイックスタートで使用しているインスタンスの ID をクリックします。
使用可能なインスタンスがない場合は、近くのリージョンでデフォルト構成でインスタンスを作成します。
左側のナビゲーション パネルで [テーブル] をクリックします。
[テーブルの作成] をクリックします。
テーブルに
bigquery-changestream-quickstart
という名前を付けます。cf
という名前の列ファミリーを追加します。[Enable change stream] を選択します。
[作成] をクリックします。
Bigtable の [テーブル] ページで、テーブル
bigquery-changestream-quickstart
を見つけます。[変更ストリーム] 列で、[接続] をクリックします。
ダイアログで [BigQuery] を選択します。
[Dataflow ジョブを作成] をクリックします。
表示されたパラメータ フィールドに、パラメータ値を入力します。 省略可能なパラメータを指定する必要はありません。
- Bigtable アプリケーション プロファイル ID を
default
に設定します。 - BigQuery データセットを
bigtable_bigquery_quickstart
に設定します。
- Bigtable アプリケーション プロファイル ID を
[ジョブを実行] をクリックします。
ジョブのステータスが「開始中」または「実行中」になったら処理を続行します。ジョブがキューに追加されてから約 5 分かかります。
リソースをクリーンアップするときにジョブを停止できるように、タブでジョブを開いたままにします。
Bigtable にデータを書き込む
Cloud Shell で数行を Bigtable に書き込み、変更ログが一部のデータを BigQuery に書き込めるようにします。ジョブの作成後にデータを書き込んでいれば変更が表示されます。ジョブ ステータスが「
running
」になるのを待つ必要はありません。cbt -instance=BIGTABLE_INSTANCE_ID -project=PROJECT_ID \ set bigquery-changestream-quickstart user123 cf:col1=abc cbt -instance=BIGTABLE_INSTANCE_ID -project=PROJECT_ID \ set bigquery-changestream-quickstart user546 cf:col1=def cbt -instance=BIGTABLE_INSTANCE_ID -project=PROJECT_ID \ set bigquery-changestream-quickstart user789 cf:col1=ghi
以下のように置き換えます。
- PROJECT_ID: 使用しているプロジェクトの ID
- BIGTABLE_INSTANCE_ID:
bigquery-changestream-quickstart
テーブルを含むインスタンスの ID
BigQuery で変更ログを表示する
Google Cloud コンソールで [BigQuery] ページに移動します。
[エクスプローラ] ペインで、プロジェクトとデータセット
bigtable_bigquery_quickstart
を開きます。[
bigquery-changestream-quickstart_changelog
] テーブルをクリックします。変更ログを表示するには、[プレビュー] をクリックします。
クリーンアップ
このページで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次の手順を実施します。
テーブルで変更ストリームを無効にします。
gcloud bigtable instances tables update bigquery-changestream-quickstart \ --project=PROJECT_ID --instance=BIGTABLE_INSTANCE_ID \ --clear-change-stream-retention-period
テーブル
bigquery-changestream-quickstart
を削除します。cbt --instance=BIGTABLE_INSTANCE_ID --project=PROJECT_ID deletetable bigquery-changestream-quickstart
変更ストリーム パイプラインを停止します。
Google Cloud コンソールで、Dataflow の [ジョブ] ページに移動します。
ジョブリストからストリーミング ジョブを選択します。
ナビゲーションで、[停止] をクリックします。
[ジョブの停止] ダイアログで [キャンセル] を選択し、[ジョブの停止] をクリックします。
BigQuery データセットを削除します。
Google Cloud コンソールで [BigQuery] ページに移動します。
[エクスプローラ] パネルで、データセット
bigtable_bigquery_quickstart
を見つけてクリックします。[削除] をクリックして「
delete
」と入力し、[削除] をクリックして確定します。
省略可: このクイックスタートで新しいインスタンスを作成した場合は、インスタンスを削除します。
cbt deleteinstance BIGTABLE_INSTANCE_ID