BigQuery コネクタ

BigQuery コネクタを使用することで、BigQuery へのプログラマティックな読み取り / 書き込みアクセスが可能になります。これは、BigQuery に保存されているデータの処理に最適です。コマンドライン アクセスは公開されません。BigQuery コネクタは Java ライブラリです。これにより Hadoop では、Apache Hadoop InputFormat クラスと OutputFormat クラスの抽象化バージョンを使用して BigQuery からのデータを処理できます。

料金に関する考慮事項

コネクタを使用するときは、関連する BigQuery 使用料金も課金されます。また、BigQuery コネクタは、Hadoop ジョブを実行する前に Cloud Storage バケットにデータをダウンロードします。Hadoop のジョブが正常に完了すると、データは Cloud Storage から削除されます。ストレージは Cloud Storage の料金に基づいて課金されます。余分な料金の発生を避けるために、お使いの Cloud Storage アカウントを確認し、不要な一時ファイルを削除してください。

コネクタの取得

Cloud Dataproc クラスタ

BigQuery コネクタは、デフォルトで /usr/lib/hadoop/lib/ の下にあるすべての Cloud Dataproc 1.0~1.2 クラスタノードにインストールされます。Spark と PySpark の両方の環境で利用できます。

Cloud Dataproc 1.3 以降ではデフォルトで BigQuery コネクタはインストールされないため、次のいずれかの方法で使用する必要があります。

  1. 初期化アクションを使用して BigQuery コネクタをインストールする
  2. ジョブを送信するときに、jars パラメータに BigQuery コネクタを指定する
    --jars=gs://hadoop-lib/bigquery/bigquery-connector-hadoop2-latest.jar
  3. アプリケーションの jar-with-dependencies に BigQuery コネクタのクラスを含める

その他の Spark クラスタと Hadoop クラスタ

Hadoop 1.x 用の BigQuery コネクタまたは Hadoop 2.x 用の BigQuery コネクタをダウンロードできます。詳細については、GitHub の bigdata-interop をご覧ください。

コネクタの使用

BigQuery コネクタの使用をすぐに開始するには、以下の例をご覧ください。

Java のバージョン

BigQuery コネクタには Java 8 が必要です。

Apache Maven 依存関係についての情報

<dependency>
    <groupId>com.google.cloud.bigdataoss</groupId>
    <artifactId>bigquery-connector</artifactId>
    <version>insert "hadoopX-X.X.X" connector version number here</version>
</dependency>

詳細については、BigQuery コネクタのリリースノートJavadoc リファレンスをご覧ください。

次のステップ

このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

Cloud Dataproc ドキュメント
ご不明な点がありましたら、Google のサポートページをご覧ください。