BigQuery コネクタ

BigQuery コネクタを使用することで、BigQuery へのプログラマティックな読み取り / 書き込みアクセスが可能になります。これは、BigQuery に保存されているデータの処理に最適です。コマンドラインによるアクセスは公開されません。BigQuery コネクタは、Spark アプリケーションと Hadoop アプリケーションが BigQuery から取得したデータを処理し、ネイティブの用語を使用してデータを BigQuery に書き込むことができるようにするライブラリです。

料金

コネクタを使用する場合、料金には BigQuery の使用料金が含まれます。次のサービス固有の料金が適用される場合もあります。

Cloud Storage - コネクタは、ジョブの実行前または実行中に Cloud Storage バケットにデータをダウンロードします。ジョブが正常に完了すると、データは Cloud Storage から削除されます。このストレージは、Cloud Storage の料金に従って課金されます。余分な料金の発生を避けるために、ご利用の Cloud Storage アカウントを確認し、不要な一時ファイルを削除してください。
BigQuery Storage API - パフォーマンスを向上させるために、コネクタは BigQuery Storage API を使用してデータを読み取ります。このときの使用量に対して、BigQuery Storage API の料金に基づき課金されます。

使用可能なコネクタ

Hadoop エコシステムで使用できる BigQuery コネクタは次のとおりです。

Spark BigQuery コネクタを使用すると、Spark のデータソースを追加できます。これにより、Spark の read オペレーションと write オペレーションによって、DataFrame で BigQuery テーブルを直接操作できます。
Hive BigQuery コネクタは、Storage Handler を追加します。これにより、Apache Hive は HiveQL 構文を使用して BigQuery テーブルを直接操作できます。
Hadoop BigQuery コネクタによって、Hadoop のマッパーとレデューサーは InputFormat クラスと OutputFormat クラスの抽象化バージョンを使用して BigQuery テーブルを操作できます。

コネクタを使用する

BigQuery コネクタのクイックスタートについては、次の例をご覧ください。

BigQuery コネクタ

料金

使用可能なコネクタ

コネクタを使用する

次のステップ