Amazon S3 転送の概要

BigQuery Data Transfer Service for Amazon S3 を使用すると、繰り返し実行する Amazon S3 から BigQuery への読み込みジョブのスケジュールと管理を自動化できます。

サポートされているファイル形式

BigQuery Data Transfer Service では現在、次のいずれかの形式で Amazon S3 からのデータの読み込みをサポートしています。

  • カンマ区切り値(CSV)
  • JSON(改行区切り)
  • Avro
  • Parquet
  • ORC

サポートされている圧縮タイプ

BigQuery Data Transfer Service for Amazon S3 では、圧縮データの読み込みがサポートされています。BigQuery Data Transfer Service でサポートされている圧縮タイプは、BigQuery の読み込みジョブでサポートされているものと同じです。詳細については、圧縮データと非圧縮データを読み込むをご覧ください。

Amazon S3 の前提条件

Amazon S3 のデータソースからデータを読み込むには、以下を行う必要があります。

  • ソースデータの Amazon S3 URI を指定する
  • アクセスキー ID を用意する
  • シークレット アクセスキーを用意する
  • Amazon S3 ソースデータに対して少なくとも AWS 管理ポリシー AmazonS3ReadOnlyAccess を設定する

Amazon S3 の URI

Amazon S3 の URI を指定する際、パスは s3://bucket/folder1/folder2/... の形式にする必要があります。 最上位のバケット名のみが必須で、フォルダ名は省略可能です。URI にバケット名のみを指定した場合、そのバケット内のすべてのファイルが BigQuery に転送され、読み込まれます。

Amazon S3 の URI と宛先テーブルはどちらもパラメータ化が可能で、日付順に整理された Amazon S3 バケットからデータを読み込めます。ただし、現時点では URI のバケット部分はパラメータ化できません。Amazon S3 の転送で使用されるパラメータは、Cloud Storage の転送で使用されるものと同じです。

Amazon S3 の URI でのワイルドカードの使用

ソースデータが、共通のベース名を持つ複数のファイルに分割されている場合は、データを読み込むときに URI でワイルドカードを使用できます。

URI でワイルドカードを使用するには、ベース名にアスタリスク(*)を追加します。たとえば、fed-sample000001.csvfed-sample000002.csv という名前の 2 つのファイルがある場合、バケットの URI は s3://mybucket/fed-sample* のようになります。

バケット内のオブジェクト(ファイル名)について使用できるワイルドカードは 1 つのみです。ワイルドカードは、オブジェクト名の中や末尾に使用できます。バケット名にワイルドカードを使用することはできません。

AWS のアクセスキー

アクセスキー ID とシークレット アクセスキーは、ユーザーに代わって Amazon S3 のデータにアクセスするために使用されます。BigQuery Data Transfer Service へのアクセスを最小限に抑えるために、Amazon S3 転送専用の固有のアクセスキー ID とシークレット アクセスキーを作成することをおすすめします。アクセスキーの管理については、AWS 全般のリファレンスをご覧ください。

整合性に関する留意事項

Amazon S3 からデータを転送する際、バケットにファイルが追加されてまもない場合は特に、一部のデータが BigQuery に転送されない可能性があります。ファイルがバケットに追加されてから BigQuery Data Transfer Service で使用できるようになるまでに約 10 分かかります。

ただし、場合によっては 10 分以上かかることがあります。データが失われる可能性を減らすには、ファイルがバケットに追加されてから 10 分以上経過した後に Amazon S3 の転送が行われるようにスケジュールします。Amazon S3 整合性モデルの詳細については、Amazon S3 ドキュメントの Amazon S3 のデータ整合性モデルをご覧ください。

料金

BigQuery Data Transfer Service の料金については、料金をご覧ください。

このサービスを使用すると、Google 以外で費用が発生する可能性があります。詳しくは、Amazon S3 の料金をご覧ください。

割り当てと制限

BigQuery Data Transfer Service は、読み込みジョブを使用して Amazon S3 データを BigQuery に読み込みます。繰り返し実行される Amazon S3 転送には、BigQuery の読み込みジョブに対するすべての割り当てと制限が適用されます。

次のステップ

このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

ご不明な点がありましたら、Google のサポートページをご覧ください。