このページは Cloud Translation API によって翻訳されました。

テーブルデータを Cloud Storage にエクスポートする

このページでは、BigQuery テーブルから Cloud Storage にデータをエクスポートまたは抽出する方法について説明します。

BigQuery にデータを読み込んだ後、さまざまな形式でデータをエクスポートできます。BigQuery は最大 1 GB のサイズの論理データを 1 つのファイルにエクスポートできます。1 GB を超えるデータをエクスポートする場合は、データを複数のファイルにエクスポートする必要があります。データを複数のファイルにエクスポートすると、さまざまなサイズのファイルになります。

また、EXPORT DATA ステートメントを使用して、クエリの結果をエクスポートすることもできます。EXPORT DATA OPTIONS を使用して、エクスポートされるデータの形式を指定できます。

さらに、Dataflow などのサービスを使用して、BigLake からエクスポートするのではなく、BigQuery からデータを読み取ることができます。Dataflow を使用して BigQuery でデータの読み取りと書き込みを行う方法の詳細については、BigQuery I/O のドキュメントをご覧ください。

エクスポートの制限事項

BigQuery からデータをエクスポートするときは、次の点に注意してください。

テーブルデータをローカルファイル、Google スプレッドシート、Google ドライブにエクスポートすることはできません。可能なエクスポート先は Cloud Storage だけです。クエリ結果の保存については、クエリ結果のダウンロードと保存をご覧ください。
最大 1 GB のサイズの論理テーブルデータを 1 つのファイルにエクスポートできます。1 GB を超えるデータをエクスポートする場合は、ワイルドカードを使用してデータを複数のファイルにエクスポートします。データを複数のファイルにエクスポートすると、さまざまなサイズのファイルになります。エクスポートするファイルサイズを制御するには、データをパーティショニングし、各パーティションをエクスポートします。
EXPORT DATA ステートメントの使用時に生成されるファイルのサイズは保証されません。
抽出ジョブによって生成されるファイルの数はさまざまです。
ネストや繰り返しのあるデータを CSV 形式でエクスポートすることはできません。ネストされたデータと繰り返しデータは、Avro、JSON、Parquet のエクスポートでサポートされています。
データを JSON 形式でエクスポートするときは、INT64（整数）データ型が JSON 文字列としてエンコードされます。これは、そのデータが他のシステムで読み込まれるときに 64 ビットの精度を保持するためです。
単一の抽出ジョブで複数のテーブルからデータをエクスポートすることはできません。
Google Cloud コンソールを使用してデータをエクスポートする場合、GZIP 以外の圧縮タイプを選択することはできません。
JSON 形式でテーブルをエクスポートする場合、記号 <、>、& は Unicode 表記の \uNNNN に変換されます。ここで、N は 16 進数です。たとえば、profit&loss は profit\u0026loss になります。この Unicode 変換は、セキュリティの脆弱性を回避するために行われます。
EXPORT DATA ステートメントを使用して query_statement で ORDER BY 句を指定しない限り、エクスポートされるテーブルデータの順序は保証されません。
BigQuery では、最初のダブルスラッシュの後に複数の連続スラッシュが含まれる Cloud Storage リソースパスはサポートされていません。Cloud Storage オブジェクトの名前には複数の連続スラッシュ（"/"）文字を含めることができます。一方、BigQuery では、複数の連続スラッシュは単一のスラッシュに変換されます。たとえば、リソースパス gs://bucket/my//object//name は Cloud Storage では有効ですが、BigQuery では機能しません。
抽出ジョブの実行中に BigQuery に読み込まれた新しいデータは、その抽出ジョブには含まれません。新しいデータをエクスポートするには、新しい抽出ジョブを作成する必要があります。

始める前に

このドキュメントの各タスクを実行するために必要な権限をユーザーに与える Identity and Access Management（IAM）のロールを付与します。

必要な権限

このドキュメントのタスクを実行するには、次の権限が必要です。

BigQuery テーブルからデータをエクスポートするための権限

BigQuery テーブルからデータをエクスポートするには、bigquery.tables.export IAM 権限が必要です。

次に示す各 IAM 事前定義ロールには bigquery.tables.export 権限が含まれています。

roles/bigquery.dataViewer
roles/bigquery.dataOwner
roles/bigquery.dataEditor
roles/bigquery.admin

抽出ジョブを実行する権限

抽出ジョブを実行するには、bigquery.jobs.create IAM 権限が必要です。

次の IAM 事前定義ロールには、抽出ジョブの実行に必要な権限が含まれています。

roles/bigquery.user
roles/bigquery.jobUser
roles/bigquery.admin

Cloud Storage バケットにデータを書き込む権限

既存の Cloud Storage バケットにデータを書き込むには、次の IAM 権限が必要です。

storage.objects.create
storage.objects.delete

次の IAM 事前定義ロールには、既存の Cloud Storage バケットにデータを書き込むために必要な権限が含まれています。

roles/storage.objectAdmin
roles/storage.admin

BigQuery での IAM のロールと権限について詳しくは、事前定義ロールと権限をご覧ください。

エクスポート形式と圧縮形式

BigQuery は、エクスポートされるデータに対して次のデータ形式と圧縮形式をサポートしています。

データ形式	サポートされている圧縮タイプ	詳細
CSV	GZIP	エクスポートされるデータの CSV 区切り文字を制御するには、`--field_delimiter` コマンドラインツールフラグまたは `configuration.extract.fieldDelimiter` 抽出ジョブプロパティを使用します。ネストされたデータや繰り返しデータは、サポートされていません。
JSON	GZIP	ネストされたデータと繰り返しデータはサポートされます。
Avro	DEFLATE、SNAPPY	Avro のエクスポートでは、GZIP はサポートされていません。ネストされたデータと繰り返しデータはサポートされます。Avro のエクスポートの詳細をご覧ください。
Parquet	SNAPPY、GZIP、ZSTD	ネストされたデータと繰り返しデータはサポートされます。Parquet エクスポートの詳細をご覧ください。

データのエクスポート

次のセクションでは、テーブルデータ、テーブルメタデータ、クエリ結果を Cloud Storage にエクスポートする方法について説明します。

テーブルデータをエクスポートする

テーブルデータは次の方法でエクスポートできます。

Google Cloud コンソールの使用
bq コマンドラインツールの bq extract コマンドを使用する
API またはクライアントライブラリを使用して extract ジョブを送信する

次のいずれかを選択します。

コンソール

Google Cloud コンソールで [BigQuery] ページを開きます。

[BigQuery] ページに移動
左側のペインで、 [エクスプローラ] をクリックします。

左側のペインが表示されていない場合は、 左側のペインを開くをクリックしてペインを開きます。
[エクスプローラ] ペインで、プロジェクトを開き、[データセット] をクリックして、データセットをクリックします。
[概要 > テーブル] をクリックし、テーブルを選択します。
詳細ペインで、[アップロード] [エクスポート] をクリックします。
[Google Cloud Storage にエクスポート] ダイアログで、次の操作を行います。
- [GCS のロケーション] で、データのエクスポート先となるバケット、フォルダ、またはファイルを参照します。
- [エクスポート形式] で、エクスポートするデータの形式を CSV、JSON（改行区切り）、Avro、または Parquet から選択します。
- [圧縮] で、圧縮形式を選択するか、None を選択して圧縮なしにします。
[保存] をクリックしてテーブルをエクスポートします。

ジョブの進行状況を確認するには、[エクスプローラ] ペインで [ジョブ履歴] をクリックし、EXTRACT タイプのジョブを探します。

ビューを Cloud Storage にエクスポートするには、EXPORT DATA OPTIONS ステートメントを使用します。

SQL

EXPORT DATA ステートメントを使用します。次の例では、mydataset.table1 という名前のテーブルから選択したフィールドをエクスポートします。

Google Cloud コンソールで、[BigQuery] ページに移動します。

[BigQuery] に移動

クエリエディタで次のステートメントを入力します。

EXPORT DATA
  OPTIONS (
    uri = 'gs://bucket/folder/*.csv',
    format = 'CSV',
    overwrite = true,
    header = true,
    field_delimiter = ';')
AS (
  SELECT field1, field2
  FROM mydataset.table1
  ORDER BY field1
);

[実行] をクリックします。

クエリの実行方法については、インタラクティブクエリを実行するをご覧ください。

bq

bq extract コマンドを使用し、--destination_format フラグを指定します。

（省略可）--location フラグを指定して、その値をロケーションに設定します。

次のフラグを使用することもできます。

--compression: エクスポートされるファイルに使用する圧縮タイプ。
--field_delimiter: CSV エクスポートの出力ファイル内での列間の境界を示す文字。タブ区切り文字には \t と tab の両方を使用できます。
--print_header: 指定すると、CSV などのヘッダーを持つ形式でヘッダー行が出力されます。

bq extract --location=location \
--destination_format format \
--compression compression_type \
--field_delimiter delimiter \
--print_header=boolean \
project_id:dataset.table \
gs://bucket/filename.ext

ここで

location はロケーションの名前です。--location フラグは省略可能です。たとえば、BigQuery を東京リージョンで使用している場合は、このフラグの値を asia-northeast1 に設定します。.bigqueryrc ファイルを使用してロケーションのデフォルト値を設定できます。
format は、エクスポートされるデータの形式です（CSV、NEWLINE_DELIMITED_JSON、AVRO、または PARQUET）。
compression_type は、データ形式に対してサポートされる圧縮タイプです。エクスポート形式と圧縮形式をご覧ください。
delimiter は、CSV エクスポートの列間の境界を示す文字です。タブの名前として受け入れられるのは \t と tab です。
boolean は true または false です。true に設定すると、データ形式がヘッダーをサポートする場合に、エクスポートされるデータにヘッダー行が出力されます。デフォルト値は true です。
project_id はプロジェクト ID です。
dataset はソースデータセットの名前です。
table は、エクスポートするテーブルです。パーティションデコレータを使用する場合は、テーブルパスを単一引用符で囲むか、$ 文字をエスケープする必要があります。
bucket は、データのエクスポート先の Cloud Storage バケットの名前です。BigQuery データセットと Cloud Storage バケットは同じロケーションに存在する必要があります。
filename.ext は、エクスポートされるデータファイルの名前と拡張子です。ワイルドカードを使用して複数のファイルにエクスポートできます。

例:

たとえば、次のコマンドは、mydataset.mytable を myfile.csv という名前の gzip 圧縮ファイルにエクスポートします。myfile.csv は、example-bucket という名前の Cloud Storage バケットに保存されます。

bq extract \
--compression GZIP \
'mydataset.mytable' \
gs://example-bucket/myfile.csv

デフォルトの出力形式は CSV です。JSON または Avro 形式でエクスポートするには、destination_format フラグを NEWLINE_DELIMITED_JSON または AVRO に設定します。次に例を示します。

bq extract \
--destination_format NEWLINE_DELIMITED_JSON \
'mydataset.mytable' \
gs://example-bucket/myfile.json

次のコマンドは、mydataset.mytable を、Snappy を使用して圧縮された Avro ファイルにエクスポートします。ファイル名は、myfile.avro になります。myfile.avro は、example-bucket という名前の Cloud Storage バケットにエクスポートされます。

bq extract \
--destination_format AVRO \
--compression SNAPPY \
'mydataset.mytable' \
gs://example-bucket/myfile.avro

次のコマンドは、mydataset.my_partitioned_table の単一パーティションを Cloud Storage の CSV ファイルにエクスポートします。

bq extract \
--destination_format CSV \
'mydataset.my_partitioned_table$0' \
gs://example-bucket/single_partition.csv

API

データをエクスポートするには、extract ジョブを作成し、ジョブ構成に入力します。

（省略可）ジョブリソースの jobReference セクションにある location プロパティでロケーションを指定します。

抽出ジョブを作成し、抽出元の BigQuery データと抽出先の Cloud Storage を指定します。
プロジェクト ID、データセット ID、テーブル ID を含む sourceTable 構成オブジェクトを使用して、ソーステーブルを指定します。
destination URI(s) プロパティは、gs://bucket/filename.ext の形式で完全修飾する必要があります。各 URI に '*' ワイルドカード文字を 1 つ含めることができますが、このワイルドカードはバケット名より後にある必要があります。
configuration.extract.destinationFormat プロパティを設定して、データ形式を指定します。たとえば、JSON ファイルとしてエクスポートするには、このプロパティの値を NEWLINE_DELIMITED_JSON に設定します。
ジョブステータスを確認するには、最初のリクエストで返されるジョブの ID を指定して jobs.get(job_id) を呼び出します。
- status.state = DONE である場合、ジョブは正常に完了しています。
- status.errorResult プロパティが存在する場合は、リクエストが失敗したことを意味し、該当するオブジェクトにエラーを説明する情報が格納されます。
- status.errorResult が存在しない場合、ジョブは正常に完了したものの、致命的でないエラーが発生した可能性があります。致命的でないエラーは、返されたジョブオブジェクトの status.errors プロパティに格納されています。

API に関する注:

おすすめの方法として、jobs.insert を呼び出して読み込みジョブを作成する際に、一意の ID を生成して、その ID を jobReference.jobId として渡します。この手法を使用すると、ネットワーク障害時にクライアントは既知のジョブ ID を使ってポーリングまたは再試行できるので、頑健性が向上します。
特定のジョブ ID で jobs.insert を呼び出す操作は「べき等」です。つまり、同じジョブ ID で何回でも再試行できますが、成功するオペレーションはそのうちの 1 回だけです。

C#

このサンプルを試す前に、クライアントライブラリを使用した BigQuery クイックスタートにある C# の設定手順を完了してください。詳細については、BigQuery C# API のリファレンスドキュメントをご覧ください。

BigQuery に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、クライアントライブラリの認証情報を設定するをご覧ください。


using Google.Cloud.BigQuery.V2;
using System;

public class BigQueryExtractTable
{
    public void ExtractTable(
        string projectId = "your-project-id",
        string bucketName = "your-bucket-name")
    {
        BigQueryClient client = BigQueryClient.Create(projectId);
        // Define a destination URI. Use a single wildcard URI if you think
        // your exported data will be larger than the 1 GB maximum value.
        string destinationUri = $"gs://{bucketName}/shakespeare-*.csv";
        BigQueryJob job = client.CreateExtractJob(
            projectId: "bigquery-public-data",
            datasetId: "samples",
            tableId: "shakespeare",
            destinationUri: destinationUri
        );
        job = job.PollUntilCompleted().ThrowOnAnyError();  // Waits for the job to complete.
        Console.Write($"Exported table to {destinationUri}.");
    }
}

Go

このサンプルを試す前に、クライアントライブラリを使用した BigQuery クイックスタートにある Go の設定手順を完了してください。詳細については、BigQuery Go API のリファレンスドキュメントをご覧ください。

import (
	"context"
	"fmt"

	"cloud.google.com/go/bigquery"
)

// exportTableAsCompressedCSV demonstrates using an export job to
// write the contents of a table into Cloud Storage as CSV.
func exportTableAsCSV(projectID, gcsURI string) error {
	// projectID := "my-project-id"
	// gcsUri := "gs://mybucket/shakespeare.csv"
	ctx := context.Background()
	client, err := bigquery.NewClient(ctx, projectID)
	if err != nil {
		return fmt.Errorf("bigquery.NewClient: %v", err)
	}
	defer client.Close()

	srcProject := "bigquery-public-data"
	srcDataset := "samples"
	srcTable := "shakespeare"

	gcsRef := bigquery.NewGCSReference(gcsURI)
	gcsRef.FieldDelimiter = ","

	extractor := client.DatasetInProject(srcProject, srcDataset).Table(srcTable).ExtractorTo(gcsRef)
	extractor.DisableHeader = true
	// You can choose to run the job in a specific location for more complex data locality scenarios.
	// Ex: In this example, source dataset and GCS bucket are in the US.
	extractor.Location = "US"

	job, err := extractor.Run(ctx)
	if err != nil {
		return err
	}
	status, err := job.Wait(ctx)
	if err != nil {
		return err
	}
	if err := status.Err(); err != nil {
		return err
	}
	return nil
}

Java

このサンプルを試す前に、クライアントライブラリを使用した BigQuery クイックスタートにある Java の設定手順を完了してください。詳細については、BigQuery Java API のリファレンスドキュメントをご覧ください。

import com.google.cloud.RetryOption;
import com.google.cloud.bigquery.BigQuery;
import com.google.cloud.bigquery.BigQueryException;
import com.google.cloud.bigquery.BigQueryOptions;
import com.google.cloud.bigquery.Job;
import com.google.cloud.bigquery.Table;
import com.google.cloud.bigquery.TableId;
import org.threeten.bp.Duration;

public class ExtractTableToCsv {

  public static void runExtractTableToCsv() {
    // TODO(developer): Replace these variables before running the sample.
    String projectId = "bigquery-public-data";
    String datasetName = "samples";
    String tableName = "shakespeare";
    String bucketName = "my-bucket";
    String destinationUri = "gs://" + bucketName + "/path/to/file";
    // For more information on export formats available see:
    // https://cloud.google.com/bigquery/docs/exporting-data#export_formats_and_compression_types
    // For more information on Job see:
    // https://googleapis.dev/java/google-cloud-clients/latest/index.html?com/google/cloud/bigquery/package-summary.html

    String dataFormat = "CSV";
    extractTableToCsv(projectId, datasetName, tableName, destinationUri, dataFormat);
  }

  // Exports datasetName:tableName to destinationUri as raw CSV
  public static void extractTableToCsv(
      String projectId,
      String datasetName,
      String tableName,
      String destinationUri,
      String dataFormat) {
    try {
      // Initialize client that will be used to send requests. This client only needs to be created
      // once, and can be reused for multiple requests.
      BigQuery bigquery = BigQueryOptions.getDefaultInstance().getService();

      TableId tableId = TableId.of(projectId, datasetName, tableName);
      Table table = bigquery.getTable(tableId);

      Job job = table.extract(dataFormat, destinationUri);

      // Blocks until this job completes its execution, either failing or succeeding.
      Job completedJob =
          job.waitFor(
              RetryOption.initialRetryDelay(Duration.ofSeconds(1)),
              RetryOption.totalTimeout(Duration.ofMinutes(3)));
      if (completedJob == null) {
        System.out.println("Job not executed since it no longer exists.");
        return;
      } else if (completedJob.getStatus().getError() != null) {
        System.out.println(
            "BigQuery was unable to extract due to an error: \n" + job.getStatus().getError());
        return;
      }
      System.out.println(
          "Table export successful. Check in GCS bucket for the " + dataFormat + " file.");
    } catch (BigQueryException | InterruptedException e) {
      System.out.println("Table extraction job was interrupted. \n" + e.toString());
    }
  }
}

Node.js

このサンプルを試す前に、クライアントライブラリを使用した BigQuery クイックスタートにある Node.js の設定手順を完了してください。詳細については、BigQuery Node.js API のリファレンスドキュメントをご覧ください。

// Import the Google Cloud client libraries
const {BigQuery} = require('@google-cloud/bigquery');
const {Storage} = require('@google-cloud/storage');

const bigquery = new BigQuery();
const storage = new Storage();

async function extractTableToGCS() {
  // Exports my_dataset:my_table to gcs://my-bucket/my-file as raw CSV.

  /**
   * TODO(developer): Uncomment the following lines before running the sample.
   */
  // const datasetId = "my_dataset";
  // const tableId = "my_table";
  // const bucketName = "my-bucket";
  // const filename = "file.csv";

  // Location must match that of the source table.
  const options = {
    location: 'US',
  };

  // Export data from the table into a Google Cloud Storage file
  const [job] = await bigquery
    .dataset(datasetId)
    .table(tableId)
    .extract(storage.bucket(bucketName).file(filename), options);

  console.log(`Job ${job.id} created.`);

  // Check the job's status for errors
  const errors = job.status.errors;
  if (errors && errors.length > 0) {
    throw errors;
  }
}

PHP

このサンプルを試す前に、クライアントライブラリを使用した BigQuery クイックスタートにある PHP の設定手順を完了してください。詳細については、BigQuery PHP API のリファレンスドキュメントをご覧ください。

use Google\Cloud\BigQuery\BigQueryClient;

/**
 * Extracts the given table as json to given GCS bucket.
 *
 * @param string $projectId The project Id of your Google Cloud Project.
 * @param string $datasetId The BigQuery dataset ID.
 * @param string $tableId The BigQuery table ID.
 * @param string $bucketName Bucket name in Google Cloud Storage
 */
function extract_table(
    string $projectId,
    string $datasetId,
    string $tableId,
    string $bucketName
): void {
    $bigQuery = new BigQueryClient([
      'projectId' => $projectId,
    ]);
    $dataset = $bigQuery->dataset($datasetId);
    $table = $dataset->table($tableId);
    $destinationUri = "gs://{$bucketName}/{$tableId}.json";
    // Define the format to use. If the format is not specified, 'CSV' will be used.
    $format = 'NEWLINE_DELIMITED_JSON';
    // Create the extract job
    $extractConfig = $table->extract($destinationUri)->destinationFormat($format);
    // Run the job
    $job = $table->runJob($extractConfig);  // Waits for the job to complete
    printf('Exported %s to %s' . PHP_EOL, $table->id(), $destinationUri);
}

Python

このサンプルを試す前に、クライアントライブラリを使用した BigQuery クイックスタートにある Python の設定手順を完了してください。詳細については、BigQuery Python API のリファレンスドキュメントをご覧ください。

# from google.cloud import bigquery
# client = bigquery.Client()
# bucket_name = 'my-bucket'
project = "bigquery-public-data"
dataset_id = "samples"
table_id = "shakespeare"

destination_uri = "gs://{}/{}".format(bucket_name, "shakespeare.csv")
dataset_ref = bigquery.DatasetReference(project, dataset_id)
table_ref = dataset_ref.table(table_id)

extract_job = client.extract_table(
    table_ref,
    destination_uri,
    # Location must match that of the source table.
    location="US",
)  # API request
extract_job.result()  # Waits for job to complete.

print(
    "Exported {}:{}.{} to {}".format(project, dataset_id, table_id, destination_uri)
)

Ruby

このサンプルを試す前に、クライアントライブラリを使用した BigQuery クイックスタートにある Ruby の設定手順を完了してください。詳細については、BigQuery Ruby API のリファレンスドキュメントをご覧ください。

require "google/cloud/bigquery"

def extract_table bucket_name = "my-bucket",
                  dataset_id  = "my_dataset_id",
                  table_id    = "my_table_id"
  bigquery = Google::Cloud::Bigquery.new
  dataset  = bigquery.dataset dataset_id
  table    = dataset.table    table_id

  # Define a destination URI. Use a single wildcard URI if you think
  # your exported data will be larger than the 1 GB maximum value.
  destination_uri = "gs://#{bucket_name}/output-*.csv"

  extract_job = table.extract_job destination_uri do |config|
    # Location must match that of the source table.
    config.location = "US"
  end
  extract_job.wait_until_done! # Waits for the job to complete

  puts "Exported #{table.id} to #{destination_uri}"
end

テーブルメタデータをエクスポートする

Iceberg テーブルからテーブルメタデータをエクスポートするには、次の SQL ステートメントを使用します。

EXPORT TABLE METADATA FROM `[[PROJECT_NAME.]DATASET_NAME.]TABLE_NAME`;

次のように置き換えます。

PROJECT_NAME: テーブルのプロジェクトの名前。値はこのクエリを実行するプロジェクトにデフォルトで設定されます。
DATASET_NAME: テーブルのデータセットの名前。
TABLE_NAME: テーブルの名前。

エクスポートされたメタデータは STORAGE_URI/metadata フォルダにあります。ここで、STORAGE_URI はオプションで設定されたテーブルのストレージロケーションです。

クエリ結果をエクスポートする

次の手順により、 Google Cloud コンソールでクエリ結果を Cloud Storage にエクスポートできます。

Google Cloud コンソールで [BigQuery] ページを開きます。

[BigQuery] ページに移動
[ SQL クエリ] をクリックします。
[クエリエディタ] テキスト領域に有効な GoogleSQL クエリを入力します。
[実行] をクリックします。
結果が返されたら、[結果を保存] > [Cloud Storage] をクリックします。
[Google Cloud Storage にエクスポート] ダイアログで、次の操作を行います。
- [GCS のロケーション] で、データのエクスポート先となるバケット、フォルダ、またはファイルを参照します。
- [エクスポート形式] で、エクスポートするデータの形式を CSV、JSON（改行区切り）、Avro、または Parquet から選択します。
- [圧縮] で、圧縮形式を選択するか、None を選択して圧縮なしにします。
[保存] をクリックしてクエリ結果をエクスポートします。

ジョブの進行状況を確認するには、[ジョブ履歴] ペインを開き、EXTRACT タイプのジョブを探します。

Avro エクスポートの詳細

BigQuery は次の方法で Avro 形式のデータを表現します。

エクスポートされたファイルは Avro コンテナファイルになります。
各 BigQuery 行は 1 つの Avro レコードとして表されます。ネストされたデータは、ネストされたレコードオブジェクトによって表されます。
REQUIRED フィールドは、対応する Avro 型として表されます。たとえば、BigQuery の INTEGER 型は Avro の LONG 型に対応しています。
NULLABLE フィールドは、対応する型と "null" の Avro ユニオンとして表されます。
REPEATED フィールドは Avro 配列として表されます。
TIMESTAMP データ型は、抽出ジョブとエクスポートデータ SQL の両方のデフォルトで timestamp-micros 論理型（Avro の LONG 型にアノテーションが追加されます）として表されます。（注意: use_avro_logical_types=False を Export Data Options に追加して論理型を無効にし、タイムスタンプ列ではなく string 型を使用できますが、抽出ジョブでは常に Avro の論理型を使用します。）
DATE データ型はエクスポートデータ SQL のデフォルトで date 論理型（Avro の INT 型にアノテーションが追加されます）として表されますが、抽出ジョブのデフォルトでは string 型として表されます。（注: use_avro_logical_types=False を Export Data Options に追加して論理型を無効にしたり、フラグ --use_avro_logical_types=True を使用して抽出ジョブの論理型を有効にしたりできます）。
TIME データ型はエクスポートデータ SQL のデフォルトで timestamp-micro 論理型（Avro の LONG 型にアノテーションが追加されます）として表されますが、抽出ジョブのデフォルトでは string 型として表されます。（注: use_avro_logical_types=False を Export Data Options に追加して論理型を無効にしたり、フラグ --use_avro_logical_types=True を使用して抽出ジョブの論理型を有効にしたりできます）。
DATETIME データ型はデフォルトではエクスポートデータ SQL のデフォルトで Avro の STRING 型（カスタムの名前付き論理型 datetime の文字列型）として表されますが、抽出ジョブのデフォルトでは string 型として表されます。（注: use_avro_logical_types=False を Export Data Options に追加して論理型を無効にしたり、フラグ --use_avro_logical_types=True を使用して抽出ジョブの論理型を有効にしたりできます）。
RANGE タイプは Avro エクスポートではサポートされていません。

パラメータ化された NUMERIC(P[, S]) データ型と BIGNUMERIC(P[, S]) データ型の場合、精度とスケール型のパラメータが Avro の decimal 論理型に変換されます。

Avro 形式を GZIP 圧縮とともに使用することはできません。Avro データを圧縮するには、bq コマンドラインツールまたは API を使用して、Avro データでサポートされている圧縮タイプの 1 つ（DEFLATE または SNAPPY）を指定します。

Parquet エクスポートの詳細

BigQuery は、GoogleSQL のデータ型を次の Parquet データ型に変換します。

BigQuery のデータ型	Parquet のプリミティブ型	Parquet の論理型
整数	`INT64`	`NONE`
数値	`FIXED_LEN_BYTE_ARRAY`	`DECIMAL (precision = 38, scale = 9)`
Numeric(P[, S])	`FIXED_LEN_BYTE_ARRAY`	`DECIMAL (precision = P, scale = S)`
BigNumeric	`FIXED_LEN_BYTE_ARRAY`	`DECIMAL (precision = 76, scale = 38)`
BigNumeric(P[, S])	`FIXED_LEN_BYTE_ARRAY`	`DECIMAL (precision = P, scale = S)`
浮動小数点数	`FLOAT`	`NONE`
ブール値	`BOOLEAN`	`NONE`
文字列	`BYTE_ARRAY`	`STRING` `(UTF8)`
バイト	`BYTE_ARRAY`	`NONE`
日付	`INT32`	`DATE`
日時	`INT64`	`TIMESTAMP (isAdjustedToUTC = false, unit = MICROS)`
時間	`INT64`	`TIME (isAdjustedToUTC = true, unit = MICROS)`
タイムスタンプ	`INT64`	`TIMESTAMP (isAdjustedToUTC = false, unit = MICROS)`
地域	`BYTE_ARRAY`	`GEOGRAPHY (edges = spherical)`

Parquet スキーマでは、ネストされたデータをグループとして表し、繰り返しレコードを繰り返しグループとして表します。BigQuery でネストされた繰り返しデータを使用する詳しい方法については、ネストされた繰り返し列の指定をご覧ください。

DATETIME 型には、次の回避策を使用できます。

ステージングテーブルにファイルを読み込みます。その後、SQL クエリを使用してフィールドを DATETIME にキャストし、結果を新しいテーブルに保存します。詳細については、列のデータ型の変更をご覧ください。
読み込みジョブで --schema フラグを使用してテーブルのスキーマを指定します。日時列を col:DATETIME として定義します。

GEOGRAPHY 論理型は、エクスポートされたファイルに追加された GeoParquet メタデータで表されます。

1 つまたは複数のファイルへのデータのエクスポート

destinationUris プロパティには、BigQuery によるファイルの 1 つ以上のエクスポート先とファイル名を指定します。

BigQuery は URI ごとに 1 つのワイルドカード演算子（*）をサポートします。ワイルドカードは、ファイル名コンポーネントの任意の場所に使用できます。ワイルドカード演算子を使用すると、指定したパターンに基づいて複数の分割ファイルが作成されます。ワイルドカード演算子は、左側に 0 が埋められた 12 桁の数値（0 から始まるシーケンス番号）に置き換えられます。たとえば、ファイル名の最後にワイルドカードがある URI の場合、最初のファイルに 000000000000 が追加され、2 番目のファイルに 000000000001 が追加されます。このパターンが続きます。

destinationUris プロパティで使用できるオプションを次の表に示します。

`destinationUris` オプション
単一の URI	1 GB 以下のテーブルデータをエクスポートする場合は、単一の URI を使用します。ほとんどの場合、エクスポートされるデータは最大値の 1 GB に満たないため、このオプションは最も一般的なユースケースとなります。このオプションは、`EXPORT DATA` ステートメントではサポートされていません。1 つのワイルドカード URI を使用する必要があります。プロパティの定義: `['gs://my-bucket/file-name.json']` 作成されるファイル: gs://my-bucket/file-name.json
単一のワイルドカード URI	単一のワイルドカードは、URI のファイル名コンポーネントでのみ使用できます。エクスポートされるデータが最大値の 1 GB を超えそうな場合は、単一のワイルドカード URI を使用します。データは、指定したパターンに基づいて複数のファイルに分割されます。エクスポートされたファイルのサイズは一定ではありません。プロパティの定義: `['gs://my-bucket/file-name-.json']` 作成されるファイル:* gs://my-bucket/file-name-000000000000.json gs://my-bucket/file-name-000000000001.json gs://my-bucket/file-name-000000000002.json ... `['gs://my-bucket/']` 作成されるファイル:* gs://my-bucket/000000000000 gs://my-bucket/000000000001 gs://my-bucket/000000000002 ...

destinationUris オプション

単一の URI

1 GB 以下のテーブルデータをエクスポートする場合は、単一の URI を使用します。ほとんどの場合、エクスポートされるデータは最大値の 1 GB に満たないため、このオプションは最も一般的なユースケースとなります。このオプションは、EXPORT DATA ステートメントではサポートされていません。1 つのワイルドカード URI を使用する必要があります。

プロパティの定義:

['gs://my-bucket/file-name.json']

作成されるファイル:

gs://my-bucket/file-name.json

単一のワイルドカード URI

単一のワイルドカードは、URI のファイル名コンポーネントでのみ使用できます。

エクスポートされるデータが最大値の 1 GB を超えそうな場合は、単一のワイルドカード URI を使用します。データは、指定したパターンに基づいて複数のファイルに分割されます。エクスポートされたファイルのサイズは一定ではありません。

プロパティの定義:

['gs://my-bucket/file-name-*.json']

作成されるファイル:

gs://my-bucket/file-name-000000000000.json
gs://my-bucket/file-name-000000000001.json
gs://my-bucket/file-name-000000000002.json
...

['gs://my-bucket/*']

作成されるファイル:

gs://my-bucket/000000000000
gs://my-bucket/000000000001
gs://my-bucket/000000000002
...

エクスポートするファイルのサイズを制限する

1 回に 1 GB を超えるデータをエクスポートする場合は、ワイルドカードを使用して複数のファイルにデータをエクスポートする必要があります。また、ファイルサイズは異なります。エクスポートする各ファイルの最大サイズを制限する必要がある場合は、データをランダムに分割してから各パーティションをファイルにエクスポートするという方法があります。

必要なパーティションの数を決定します。これは、データの合計サイズを選択したエクスポートファイルのサイズで割った値です。たとえば、8,000 MB のデータがあり、各エクスポートファイルを約 20 MB にする場合、400 パーティションが必要です。
export_id というランダムに生成された新しい列でパーティション分割およびクラスタ化される、新しいテーブルを作成します。次の例は、選択したファイルサイズにするために n パーティションを必要とする既存のテーブル source_table から新しい processed_table を作成する方法を示しています。
```
CREATE TABLE my_dataset.processed_table
PARTITION BY RANGE_BUCKET(export_id, GENERATE_ARRAY(0, n, 1))
CLUSTER BY export_id
AS (
  SELECT *, CAST(FLOOR(n*RAND()) AS INT64) AS export_id
  FROM my_dataset.source_table
);
```
0 から n-1 までの整数 i ごとに、次のクエリで EXPORT DATA ステートメントを実行します。
```
SELECT * EXCEPT(export_id)
FROM my_dataset.processed_table
WHERE export_id = i;
```

圧縮されたテーブルの抽出

Go

import (
	"context"
	"fmt"

	"cloud.google.com/go/bigquery"
)

// exportTableAsCompressedCSV demonstrates using an export job to
// write the contents of a table into Cloud Storage as compressed CSV.
func exportTableAsCompressedCSV(projectID, gcsURI string) error {
	// projectID := "my-project-id"
	// gcsURI := "gs://mybucket/shakespeare.csv"
	ctx := context.Background()
	client, err := bigquery.NewClient(ctx, projectID)
	if err != nil {
		return fmt.Errorf("bigquery.NewClient: %w", err)
	}
	defer client.Close()

	srcProject := "bigquery-public-data"
	srcDataset := "samples"
	srcTable := "shakespeare"

	gcsRef := bigquery.NewGCSReference(gcsURI)
	gcsRef.Compression = bigquery.Gzip

	extractor := client.DatasetInProject(srcProject, srcDataset).Table(srcTable).ExtractorTo(gcsRef)
	extractor.DisableHeader = true
	// You can choose to run the job in a specific location for more complex data locality scenarios.
	// Ex: In this example, source dataset and GCS bucket are in the US.
	extractor.Location = "US"

	job, err := extractor.Run(ctx)
	if err != nil {
		return err
	}
	status, err := job.Wait(ctx)
	if err != nil {
		return err
	}
	if err := status.Err(); err != nil {
		return err
	}
	return nil
}

Java

import com.google.cloud.bigquery.BigQuery;
import com.google.cloud.bigquery.BigQueryException;
import com.google.cloud.bigquery.BigQueryOptions;
import com.google.cloud.bigquery.ExtractJobConfiguration;
import com.google.cloud.bigquery.Job;
import com.google.cloud.bigquery.JobInfo;
import com.google.cloud.bigquery.TableId;

// Sample to extract a compressed table
public class ExtractTableCompressed {

  public static void main(String[] args) {
    // TODO(developer): Replace these variables before running the sample.
    String projectName = "MY_PROJECT_NAME";
    String datasetName = "MY_DATASET_NAME";
    String tableName = "MY_TABLE_NAME";
    String bucketName = "MY-BUCKET-NAME";
    String destinationUri = "gs://" + bucketName + "/path/to/file";
    // For more information on export formats available see:
    // https://cloud.google.com/bigquery/docs/exporting-data#export_formats_and_compression_types
    String compressed = "gzip";
    // For more information on Job see:
    // https://googleapis.dev/java/google-cloud-clients/latest/index.html?com/google/cloud/bigquery/package-summary.html
    String dataFormat = "CSV";

    extractTableCompressed(
        projectName, datasetName, tableName, destinationUri, dataFormat, compressed);
  }

  public static void extractTableCompressed(
      String projectName,
      String datasetName,
      String tableName,
      String destinationUri,
      String dataFormat,
      String compressed) {
    try {
      // Initialize client that will be used to send requests. This client only needs to be created
      // once, and can be reused for multiple requests.
      BigQuery bigquery = BigQueryOptions.getDefaultInstance().getService();

      TableId tableId = TableId.of(projectName, datasetName, tableName);

      ExtractJobConfiguration extractConfig =
          ExtractJobConfiguration.newBuilder(tableId, destinationUri)
              .setCompression(compressed)
              .setFormat(dataFormat)
              .build();

      Job job = bigquery.create(JobInfo.of(extractConfig));

      // Blocks until this job completes its execution, either failing or succeeding.
      Job completedJob = job.waitFor();
      if (completedJob == null) {
        System.out.println("Job not executed since it no longer exists.");
        return;
      } else if (completedJob.getStatus().getError() != null) {
        System.out.println(
            "BigQuery was unable to extract due to an error: \n" + job.getStatus().getError());
        return;
      }
      System.out.println("Table extract compressed successful");
    } catch (BigQueryException | InterruptedException e) {
      System.out.println("Table extraction job was interrupted. \n" + e.toString());
    }
  }
}

Node.js

// Import the Google Cloud client libraries
const {BigQuery} = require('@google-cloud/bigquery');
const {Storage} = require('@google-cloud/storage');

const bigquery = new BigQuery();
const storage = new Storage();

async function extractTableCompressed() {
  // Exports my_dataset:my_table to gcs://my-bucket/my-file as a compressed file.

  /**
   * TODO(developer): Uncomment the following lines before running the sample.
   */
  // const datasetId = "my_dataset";
  // const tableId = "my_table";
  // const bucketName = "my-bucket";
  // const filename = "file.csv";

  // Location must match that of the source table.
  const options = {
    location: 'US',
    gzip: true,
  };

  // Export data from the table into a Google Cloud Storage file
  const [job] = await bigquery
    .dataset(datasetId)
    .table(tableId)
    .extract(storage.bucket(bucketName).file(filename), options);

  console.log(`Job ${job.id} created.`);

  // Check the job's status for errors
  const errors = job.status.errors;
  if (errors && errors.length > 0) {
    throw errors;
  }
}

Python

# from google.cloud import bigquery
# client = bigquery.Client()
# bucket_name = 'my-bucket'

destination_uri = "gs://{}/{}".format(bucket_name, "shakespeare.csv.gz")
dataset_ref = bigquery.DatasetReference(project, dataset_id)
table_ref = dataset_ref.table("shakespeare")
job_config = bigquery.job.ExtractJobConfig()
job_config.compression = bigquery.Compression.GZIP

extract_job = client.extract_table(
    table_ref,
    destination_uri,
    # Location must match that of the source table.
    location="US",
    job_config=job_config,
)  # API request
extract_job.result()  # Waits for job to complete.

使用例

この例は、Cloud Storage にデータをエクスポートする方法を示しています。

エンドポイントログから Cloud Storage に継続的にデータをストリーミングしているとします。バックアップとアーカイブの目的で、毎日のスナップショットが Cloud Storage にエクスポートされます。最適な選択は、特定の割り当てと制限に従う必要がある抽出ジョブです。

jobReference.jobId として一意の ID を渡し、API またはクライアントライブラリを使用して抽出ジョブを送信します。抽出ジョブは非同期です。ジョブの作成に使用された一意のジョブ ID を使用して、ジョブのステータスを確認します。status.status が DONE の場合、ジョブは正常に完了しています。status.errorResult が存在する場合は、ジョブが失敗するため、再試行する必要があります。

バッチデータ処理

決められた期限までにデータを読み込むために、夜間のバッチジョブを使用するとします。この読み込みジョブが完了すると、前のセクションで説明したように、統計情報を含むテーブルがクエリから実体化されます。このテーブルのデータは、取得して PDF レポートにコンパイルし、規制機関に送信されます。

読み取る必要があるデータの量は少ないため、tabledata.list API を使用して、テーブルのすべての行を JSON 辞書形式で取得します。データページが複数ある場合は、結果に pageToken プロパティが設定されます。次のページの結果を取得するには、別の tabledata.list 呼び出しを行い、トークン値を pageToken パラメータとして指定します。API 呼び出しが 5xx エラーで失敗した場合は、指数バックオフで再試行します。ほとんどの 4xx エラーは再試行できません。BigQuery エクスポートとレポート生成をより適切に分離するには、結果をディスクに保存する必要があります。

割り当てポリシー

抽出ジョブの割り当てについては、「割り当てと上限」のページの抽出ジョブをご覧ください。

抽出ジョブの使用状況は INFORMATION_SCHEMA で確認できます。抽出ジョブの JOBS_BY_* システムテーブルのジョブエントリには、合計使用量をモニタリングして、1 日あたり 50 TiB 未満にするために使用できる total_bytes_processed 値が含まれます。INFORMATION_SCHEMA.JOBS ビューに対してクエリを実行して total_bytes_processed 値を取得する方法については、INFORMATION_SCHEMA.JOBS スキーマをご覧ください。

現在の割り当て使用量を確認する

クエリ、読み込み、抽出、コピージョブの現在の使用状況を確認するには、INFORMATION_SCHEMA クエリを実行して、指定した期間に実行されたジョブに関するメタデータを表示します。現在の使用量と割り当て上限を比較することで、特定の種類のジョブの割り当て使用量を確認できます。次のクエリの例では、INFORMATION_SCHEMA.JOBS ビューを使用して、プロジェクトごとにクエリ、読み込み、抽出、コピーの各ジョブの数を一覧表示します。

SELECT
  sum(case  when job_type="QUERY" then 1 else 0 end) as QRY_CNT,
  sum(case  when job_type="LOAD" then 1 else 0 end) as LOAD_CNT,
  sum(case  when job_type="EXTRACT" then 1 else 0 end) as EXT_CNT,
  sum(case  when job_type="COPY" then 1 else 0 end) as CPY_CNT
FROM `region-REGION_NAME`.INFORMATION_SCHEMA.JOBS_BY_PROJECT
WHERE date(creation_time)= CURRENT_DATE()

エクスポートされたバイト数をモニタリングする Cloud Monitoring アラートポリシーを設定できます。

Google Cloud コンソールで、[ アラート] ページに移動します。
[アラート] に移動

検索バーを使用してこのページを検索する場合は、小見出しが [Monitoring] の結果を選択します。
[アラート] ページで、[ポリシーを作成] をクリックします。
[ポリシー構成モード] で、[コードエディタ（MQL または PromQL）] を選択します。

PromQL クエリエディタで、次のクエリを入力します。

(
  sum by (project_id, quota_metric, location) (increase({"serviceruntime.googleapis.com/quota/rate/net_usage", monitored_resource="consumer_quota", service="bigquery.googleapis.com"}[1m]))
  /
  max by (project_id, quota_metric, location) ({"serviceruntime.googleapis.com/quota/limit", monitored_resource="consumer_quota", service="bigquery.googleapis.com", limit_name="ExtractBytesPerDay"})
) > 0.01

[自動実行] が有効になっていない場合は、[クエリを実行] をクリックします。

アラートの残りの部分を構成して、[ポリシーを作成] をクリックします。

PromQL ベースのアラートポリシーを作成する手順の詳細については、PromQL ベースのアラートポリシーを作成する（コンソール）をご覧ください。

トラブルシューティング

抽出ジョブの問題を診断するには、ログエクスプローラを使用して、特定の抽出ジョブのログを確認し、考えられるエラーを特定します。次のログエクスプローラフィルタは、抽出ジョブに関する情報を返します。

resource.type="bigquery_resource"
protoPayload.methodName="jobservice.insert"
(protoPayload.serviceData.jobInsertRequest.resource.jobConfiguration.query.query=~"EXPORT" OR
protoPayload.serviceData.jobCompletedEvent.eventName="extract_job_completed" OR
protoPayload.serviceData.jobCompletedEvent.job.jobConfiguration.query.query=~"EXPORT")

料金

データエクスポートの料金については、BigQuery の料金ページをご覧ください。

データのエクスポート後は、Cloud Storage にデータを保存することで料金が発生します。詳しくは、Cloud Storage の料金をご覧ください。

テーブルのセキュリティ

BigQuery でテーブルへのアクセスを制御するには、IAM を使用してリソースへのアクセスを制御するをご覧ください。

次のステップ

Google Cloud コンソールの詳細については、 Google Cloud コンソールの使用をご覧ください。
bq コマンドラインツールの詳細については、bq コマンドラインツールの使用をご覧ください。
BigQuery API クライアントライブラリを使ってアプリケーションを作成する方法を学習するには、クライアントライブラリクイックスタートガイドをご覧ください。

テーブルデータを Cloud Storage にエクスポートする

エクスポートの制限事項

始める前に

必要な権限

BigQuery テーブルからデータをエクスポートするための権限

抽出ジョブを実行する権限

Cloud Storage バケットにデータを書き込む権限

エクスポート形式と圧縮形式

データのエクスポート

テーブルデータをエクスポートする

コンソール

SQL

bq

API

C#

Go

Java

Node.js

PHP

Python

Ruby

テーブル メタデータをエクスポートする

クエリ結果をエクスポートする

Avro エクスポートの詳細

Parquet エクスポートの詳細

1 つまたは複数のファイルへのデータのエクスポート

エクスポートするファイルのサイズを制限する

圧縮されたテーブルの抽出

Go

Java

Node.js

Python

使用例

割り当てポリシー

現在の割り当て使用量を確認する

トラブルシューティング

料金

テーブルのセキュリティ

次のステップ

テーブルメタデータをエクスポートする