インタラクティブ クエリとバッチクエリのジョブの実行

このドキュメントでは、インタラクティブ(オンデマンド)クエリ、およびバッチクエリのジョブを実行する方法について説明します。

必要な権限

ジョブとは、データの読み込みデータのエクスポートデータのクエリデータのコピーなど、BigQuery がユーザーに代わって実行するアクションのことです。

GCP Console、従来の BigQuery ウェブ UI、CLI を使用してデータの読み込み、エクスポート、クエリ、コピーを行う際に、ジョブリソースが自動的に作成され、スケジュールが設定されて実行されます。また、読み込み、エクスポート、クエリ、コピーのジョブをプログラムで作成することもできます。プログラムでジョブを作成すると、BigQuery によってジョブがスケジュールされ、実行されます。

ジョブの実行には長い時間がかかる場合があるため、ジョブは非同期で実行され、ステータスをポーリングできます。リソースの一覧表示やメタデータの取得など、短時間のアクションは、ジョブリソースでは管理されません。

クエリジョブを実行するには、少なくとも bigquery.jobs.create 権限が付与されている必要があります。クエリジョブを正常に完了させるには、クエリで参照するテーブルまたはビューが含まれるデータセットに対するアクセス権も付与されている必要があります。データセットに対するアクセス制御については、データセットへのアクセスの制御をご覧ください。

bigquery.jobs.create 権限は、事前定義された以下の Cloud IAM の役割に含まれています。

  • bigquery.user
  • bigquery.jobUser
  • bigquery.admin

また、bigquery.datasets.create 権限を持つユーザーがデータセットを作成すると、そのデータセットに対する bigquery.dataOwner アクセス権がユーザーに付与されます。bigquery.dataOwner アクセス権により、データセットに含まれるテーブルとビューに対するクエリの実行が許可されます。

BigQuery での Cloud IAM の役割については、事前定義された役割と権限をご覧ください。

インタラクティブ クエリの実行

デフォルトでは、BigQuery によってインタラクティブ(オンデマンド)クエリジョブが実行されます。すなわち、クエリは可能な限り速やかに実行されます。インタラクティブ クエリは、同時実行のレート上限と毎日の上限のカウント対象になります。

クエリの結果は、一時テーブルまたは永続テーブルのいずれかに保存されます。既存のテーブルにデータを追加するか上書きするか、あるいは同じ名前のテーブルが存在しない場合は新しいテーブルを作成するかどうかを選択できます。

一時テーブルに書き込むインタラクティブ クエリを実行するには:

Console

  1. GCP Console で BigQuery ウェブ UI を開きます。
    GCP Console に移動する

  2. [クエリを新規作成] をクリックします。

    クエリの新規作成

  3. クエリエディタのテキスト領域に、有効な BigQuery SQL クエリを入力します。

  4. (省略可)データを処理するロケーションを変更するには、[展開]、[クエリの設定] の順にクリックします。[処理を行うロケーション] で [自動選択] をクリックし、データのロケーションを選択します。最後に [保存] をクリックしてクエリの設定を更新します。

  5. [実行] をクリックします。

これにより、出力を一時テーブルに書き込むクエリジョブが作成されます。

従来の UI

  1. BigQuery ウェブ UI に移動します。
    BigQuery ウェブ UI に移動

  2. [Compose query] をクリックします。

  3. [New Query] テキスト領域に有効な SQL クエリを入力します。

  4. [Show Options] をクリックします。

  5. (省略可)[Processing Location] で [Unspecified] をクリックし、データのロケーションを選択します。

  6. [RUN QUERY] をクリックします。

これにより、出力を一時テーブルに書き込むクエリジョブが作成されます。

CLI

bq query コマンドを入力し、クエリテキストを含めます。

(省略可)--location フラグを指定して、その値をロケーションに設定します。

次のオプションのフラグを指定できます。このリストには、最も一般的なフラグのいくつかが含まれています。query コマンドのフラグの一覧については、bq コマンドライン ツールのリファレンスで bq query をご覧ください。

次のフラグを指定できます。

  • --destination_table フラグ。クエリ結果に基づいて永続テーブルを作成します。デフォルト プロジェクト以外のプロジェクトにあるテーブルにクエリ結果を書き込むには、project_id:dataset の形式でプロジェクト ID をデータセット名に追加します。--destination_table を指定しない場合、出力を一時(キャッシュ)テーブルに書き込むクエリジョブが生成されます。
  • --append_table フラグ。クエリの結果を宛先テーブルに追加します。
  • --destination_kms_key フラグ。Cloud Key Management Service キーを使用して宛先テーブルデータを暗号化します。
  • --use_legacy_sql=false フラグ。標準 SQL 構文を使用します。.bigqueryrc ファイルを使用して、コマンドライン ツールのデフォルト構文を設定できます。
  • --label フラグ。key:value の形式でクエリジョブにラベルを適用します。複数のラベルを指定するには、このフラグを繰り返します。
  • --max_rows または -n フラグ。クエリ結果で返される行数を指定します。
  • --maximum_bytes_billed フラグ。クエリに対して課金されるバイト数を制限します。クエリがこのフラグで設定した上限を超える場合、そのクエリは失敗します(料金は発生しません)。指定しない場合、課金されるバイトはプロジェクトのデフォルトに設定されます。
  • --udf_resource フラグ。ユーザー定義の関数リソースとして使用するコードファイルを読み込み、評価します。Cloud Storage の URI またはローカル コードファイルのパスを指定できます。複数のファイルを指定するには、このフラグを繰り返します。

標準 SQL 構文を使用してインタラクティブ クエリを実行するには、次のコマンドを入力します。

bq --location=location query \
--use_legacy_sql=false \
'query'

ここで

  • location は、クエリが処理されるロケーションの名前です。--location フラグは省略可能です。たとえば、BigQuery を東京リージョンで使用している場合は、このフラグの値を asia-northeast1 に設定します。.bigqueryrc ファイルを使用してロケーションのデフォルト値を設定できます。
  • query は、標準 SQL 構文のクエリです。

例:

次のコマンドを入力すると、mydataset 内の mytable という名前の宛先テーブルにインタラクティブなクエリの結果が書き込まれます。このデータセットはデフォルト プロジェクトにあります。このクエリは、一般公開データセット USA Name Data からデータを取得します。

bq query \
--destination_table mydataset.mytable \
--use_legacy_sql=false \
'SELECT
  name,
  number
FROM
  `bigquery-public-data.usa_names.usa_1910_current`
WHERE
  gender = "M"
ORDER BY
  number DESC'

次のコマンドを入力すると、mydataset 内の mytable という名前の宛先テーブルにインタラクティブなクエリの結果が書き込まれます。このデータセットはデフォルト プロジェクトではなく myotherproject にあります。このクエリは、パーティション分割されていないテーブル(一般公開データセット USA Name Data)からデータを取得します。

bq query \
--destination_table myotherproject:mydataset.mytable \
--use_legacy_sql=false \
'SELECT
  name,
  number
FROM
  `bigquery-public-data.usa_names.usa_1910_current`
WHERE
  gender = "M"
ORDER BY
  number DESC'

API

API を使用してクエリを実行するには、新しいジョブを挿入して、jobs#configuration.query プロパティに値を入力します。ジョブリソースjobReference セクションにある location プロパティでロケーションを指定します。

getQueryResults を呼び出して結果を取得します。jobCompletetrue と等しくなるまで取得を続けます。エラーと警告は、errors リストで確認してください。

C#

このサンプルを試す前に、BigQuery クイックスタート: クライアント ライブラリの使用の C# の設定手順を実施してください。詳細については、BigQuery C# API のリファレンス ドキュメントをご覧ください。


using Google.Cloud.BigQuery.V2;
using System;

public class BigQueryQuery
{
    public void Query(
        string projectId = "your-project-id"
    )
    {
        BigQueryClient client = BigQueryClient.Create(projectId);
        string query = @"
            SELECT name FROM `bigquery-public-data.usa_names.usa_1910_2013`
            WHERE state = 'TX'
            LIMIT 100";
        BigQueryJob job = client.CreateQueryJob(
            sql: query,
            parameters: null,
            options: new QueryOptions { UseQueryCache = false });
        // Wait for the job to complete.
        job.PollUntilCompleted();
        // Display the results
        foreach (BigQueryRow row in client.GetQueryResults(job.Reference))
        {
            Console.WriteLine($"{row["name"]}");
        }
    }
}

Go

このサンプルを試す前に、BigQuery クイックスタート: クライアント ライブラリの使用の Go の設定手順を実施してください。詳細については、BigQuery Go API のリファレンス ドキュメントをご覧ください。

// To run this sample, you will need to create (or reuse) a context and
// an instance of the bigquery client.  For example:
// import "cloud.google.com/go/bigquery"
// ctx := context.Background()
// client, err := bigquery.NewClient(ctx, "your-project-id")

q := client.Query(
	"SELECT name FROM `bigquery-public-data.usa_names.usa_1910_2013` " +
		"WHERE state = \"TX\" " +
		"LIMIT 100")
// Location must match that of the dataset(s) referenced in the query.
q.Location = "US"
job, err := q.Run(ctx)
if err != nil {
	return err
}
status, err := job.Wait(ctx)
if err != nil {
	return err
}
if err := status.Err(); err != nil {
	return err
}
it, err := job.Read(ctx)
for {
	var row []bigquery.Value
	err := it.Next(&row)
	if err == iterator.Done {
		break
	}
	if err != nil {
		return err
	}
	fmt.Println(row)
}

Java

このサンプルを試す前に、BigQuery クイックスタート: クライアント ライブラリの使用の Java の設定手順を実施してください。詳細については、BigQuery Java API のリファレンス ドキュメントをご覧ください。

// BigQuery bigquery = BigQueryOptions.getDefaultInstance().getService();
String query = "SELECT corpus FROM `bigquery-public-data.samples.shakespeare` GROUP BY corpus;";
QueryJobConfiguration queryConfig = QueryJobConfiguration.newBuilder(query).build();

// Print the results.
for (FieldValueList row : bigquery.query(queryConfig).iterateAll()) {
  for (FieldValue val : row) {
    System.out.printf("%s,", val.toString());
  }
  System.out.printf("\n");
}

Node.js

このサンプルを試す前に、BigQuery クイックスタート: クライアント ライブラリの使用の Node.js の設定手順を実施してください。詳細については、BigQuery Node.js API のリファレンス ドキュメントをご覧ください。

// Import the Google Cloud client library using default credentials
const {BigQuery} = require('@google-cloud/bigquery');
const bigquery = new BigQuery();
async function query() {
  // Queries the U.S. given names dataset for the state of Texas.

  const query = `SELECT name
    FROM \`bigquery-public-data.usa_names.usa_1910_2013\`
    WHERE state = 'TX'
    LIMIT 100`;

  // For all options, see https://cloud.google.com/bigquery/docs/reference/rest/v2/jobs/query
  const options = {
    query: query,
    // Location must match that of the dataset(s) referenced in the query.
    location: 'US',
  };

  // Run the query as a job
  const [job] = await bigquery.createQueryJob(options);
  console.log(`Job ${job.id} started.`);

  // Wait for the query to finish
  const [rows] = await job.getQueryResults();

  // Print the results
  console.log('Rows:');
  rows.forEach(row => console.log(row));
}

PHP

このサンプルを試す前に、BigQuery クイックスタート: クライアント ライブラリの使用の PHP の設定手順を実施してください。詳細については、BigQuery PHP API のリファレンス ドキュメントをご覧ください。

use Google\Cloud\BigQuery\BigQueryClient;
use Google\Cloud\Core\ExponentialBackoff;

/** Uncomment and populate these variables in your code */
// $projectId = 'The Google project ID';
// $query = 'SELECT id, view_count FROM `bigquery-public-data.stackoverflow.posts_questions`';

$bigQuery = new BigQueryClient([
    'projectId' => $projectId,
]);
$jobConfig = $bigQuery->query($query);
$job = $bigQuery->startQuery($jobConfig);

$backoff = new ExponentialBackoff(10);
$backoff->execute(function () use ($job) {
    print('Waiting for job to complete' . PHP_EOL);
    $job->reload();
    if (!$job->isComplete()) {
        throw new Exception('Job has not yet completed', 500);
    }
});
$queryResults = $job->queryResults();

$i = 0;
foreach ($queryResults as $row) {
    printf('--- Row %s ---' . PHP_EOL, ++$i);
    foreach ($row as $column => $value) {
        printf('%s: %s' . PHP_EOL, $column, json_encode($value));
    }
}
printf('Found %s row(s)' . PHP_EOL, $i);

Python

このサンプルを試す前に、BigQuery クイックスタート: クライアント ライブラリの使用の Python の設定手順を実施してください。詳細については、BigQuery Python API のリファレンス ドキュメントをご覧ください。

# from google.cloud import bigquery
# client = bigquery.Client()

query = (
    "SELECT name FROM `bigquery-public-data.usa_names.usa_1910_2013` "
    'WHERE state = "TX" '
    "LIMIT 100"
)
query_job = client.query(
    query,
    # Location must match that of the dataset(s) referenced in the query.
    location="US",
)  # API request - starts the query

for row in query_job:  # API request - fetches results
    # Row values can be accessed by field name or index
    assert row[0] == row.name == row["name"]
    print(row)

Ruby

このサンプルを試す前に、BigQuery クイックスタート: クライアント ライブラリの使用の Ruby の設定手順を実施してください。詳細については、BigQuery Ruby API のリファレンス ドキュメントをご覧ください。

require "google/cloud/bigquery"

def query
  bigquery = Google::Cloud::Bigquery.new
  sql = "SELECT name FROM `bigquery-public-data.usa_names.usa_1910_2013` " +
        "WHERE state = 'TX' " +
        "LIMIT 100"

  # Location must match that of the dataset(s) referenced in the query.
  results = bigquery.query sql do |config|
    config.location = "US"
  end

  results.each do |row|
    puts row.inspect
  end
end

バッチクエリの実行

BigQuery ではバッチクエリも提供されています。BigQuery はユーザーに代わって各バッチクエリをキューに格納し、アイドル状態のリソースが BigQuery 共有リソースプールで使用可能になり次第、クエリを開始します。これは、通常は数分以内に行われます。24 時間以内にクエリが開始されなかった場合、BigQuery はジョブの優先度をインタラクティブに変更します。

バッチクエリは同時実行レート上限に対してカウントされないので、簡単に多くのクエリを一度に開始できます。バッチクエリは、インタラクティブ(オンデマンド)クエリと同じリソースを使用します。定額料金設定を使用すると、割り当てられたスロットをバッチクエリとインタラクティブ クエリで分け合います。

バッチクエリを実行するには:

Console

  1. GCP Console で BigQuery ウェブ UI を開きます。
    GCP Console に移動する

  2. [クエリを新規作成] ボタンをクリックします。

    クエリの新規作成

  3. [クエリエディタ] テキスト領域に有効な SQL クエリを入力します。

  4. [展開] ボタンをクリックし、[クエリの設定] をクリックします。

    クエリの設定

  5. [ジョブの優先度] セクションで [バッチ] オプションを選択します。

    バッチ実行

  6. (省略可)[処理を行うロケーション] で [未設定] をクリックし、データのロケーションを選択します。

  7. [保存] をクリックしてクエリの設定を更新します。

  8. [実行] をクリックします。

従来の UI

  1. BigQuery ウェブ UI に移動します。
    BigQuery ウェブ UI に移動

  2. [Compose query] ボタンをクリックします。

  3. 有効な BigQuery SQL クエリを [New Query] テキスト領域に入力します。

  4. [Show Options] ボタンをクリックします。

  5. [Query Priority] セクションで、[Batch] オプションをオンにします。

  6. (省略可)[Processing Location] で [Unspecified] をクリックし、データのロケーションを選択します。

  7. [RUN QUERY] ボタンをクリックします。

CLI

bq query コマンドを入力し、クエリテキストを含めます。バッチクエリを実行するには、-- batch フラグを指定します。

(省略可)--location フラグを指定して、その値をロケーションに設定します。

次のオプションのフラグを指定できます。このリストには、最も一般的なフラグのいくつかが含まれています。query コマンドのフラグの一覧については、bq コマンドライン ツールのリファレンスで bq query をご覧ください。

次のフラグを指定できます。

  • --destination_table フラグ。クエリ結果に基づいて永続テーブルを作成します。デフォルト プロジェクト以外のプロジェクトにあるテーブルにクエリ結果を書き込むには、project_id:dataset の形式でプロジェクト ID をデータセット名に追加します。--destination_table を指定しない場合、出力を一時(キャッシュ)テーブルに書き込むクエリジョブが生成されます。
  • --append_table フラグ。クエリの結果を宛先テーブルに追加します。
  • --destination_kms_key フラグ。Cloud Key Management Service キーを使用して宛先テーブルデータを暗号化します。
  • --use_legacy_sql=false フラグ。標準 SQL 構文を使用します。.bigqueryrc ファイルを使用して、コマンドライン ツールのデフォルト構文を設定できます。
  • --label フラグ。key:value の形式でクエリジョブにラベルを適用します。複数のラベルを指定するには、このフラグを繰り返します。
  • --max_rows または -n フラグ。クエリ結果で返される行数を指定します。
  • --maximum_bytes_billed フラグ。クエリに対して課金されるバイト数を制限します。クエリがこのフラグで設定した上限を超える場合、そのクエリは失敗します(料金は発生しません)。指定しない場合、課金されるバイトはプロジェクトのデフォルトに設定されます。
  • --udf_resource フラグ。ユーザー定義の関数リソースとして使用するコードファイルを読み込み、評価します。Cloud Storage の URI またはローカル コードファイルのパスを指定できます。複数のファイルを指定するには、このフラグを繰り返します。

標準 SQL 構文を使用してバッチクエリを実行するには、次のコマンドを入力します。

bq --location=location query \
--batch \
--use_legacy_sql=false \
'query'

ここで

  • location は、クエリが処理されるロケーションの名前です。--location フラグは省略可能です。たとえば、BigQuery を東京リージョンで使用している場合は、このフラグの値を asia-northeast1 に設定します。.bigqueryrc ファイルを使用してロケーションのデフォルト値を設定できます。
  • query は、標準 SQL 構文のクエリです。

例:

次のコマンドを入力すると、mydataset 内の mytable という名前の宛先テーブルにバッチクエリの結果が書き込まれます。このデータセットはデフォルト プロジェクトにあります。このクエリは、一般公開データセット USA Name Data からデータを取得します。

bq query \
--batch \
--destination_table mydataset.mytable \
--use_legacy_sql=false \
'SELECT
  name,
  number
FROM
  `bigquery-public-data.usa_names.usa_1910_current`
WHERE
  gender = "M"
ORDER BY
  number DESC'

次のコマンドを入力すると、mydataset 内の mytable という名前の宛先テーブルにバッチクエリの結果が書き込まれます。このデータセットはデフォルト プロジェクトではなく myotherproject にあります。このクエリは、パーティション分割されていないテーブル(一般公開データセット USA Name Data)からデータを取得します。

bq query \
--batch \
--destination_table myotherproject:mydataset.mytable \
--use_legacy_sql=false \
'SELECT
  name,
  number
FROM
  `bigquery-public-data.usa_names.usa_1910_current`
WHERE
  gender = "M"
ORDER BY
  number DESC'

API

API を使用してクエリを実行するには、新しいジョブを挿入して query ジョブ構成プロパティに値を設定します。(省略可)ジョブリソースjobReference セクションにある location プロパティでロケーションを指定します。

クエリジョブのプロパティにデータを入力するには、値を BATCH に設定した上で、configuration.query.priority プロパティを含めます。

Go

このサンプルを試す前に、BigQuery クイックスタート: クライアント ライブラリの使用の Go の設定手順を実施してください。詳細については、BigQuery Go API のリファレンス ドキュメントをご覧ください。

	// To run this sample, you will need to create (or reuse) a context and
	// an instance of the bigquery client.  For example:
	// import "cloud.google.com/go/bigquery"
	// ctx := context.Background()
	// client, err := bigquery.NewClient(ctx, "your-project-id")
	// Build an aggregate table.
	q := client.Query(`
		SELECT
  			corpus,
  			SUM(word_count) as total_words,
  			COUNT(1) as unique_words
		FROM ` + "`bigquery-public-data.samples.shakespeare`" + `
		GROUP BY corpus;`)
	q.Priority = bigquery.BatchPriority
	q.QueryConfig.Dst = client.Dataset(dstDatasetID).Table(dstTableID)

	// Start the job.
	job, err := q.Run(ctx)
	if err != nil {
		return err
	}
	// Job is started and will progress without interaction.
	// To simulate other work being done, sleep a few seconds.
	time.Sleep(5 * time.Second)
	status, err := job.Status(ctx)
	if err != nil {
		return err
	}

	state := "Unknown"
	switch status.State {
	case bigquery.Pending:
		state = "Pending"
	case bigquery.Running:
		state = "Running"
	case bigquery.Done:
		state = "Done"
	}
	// You can continue to monitor job progress until it reaches
	// the Done state by polling periodically.  In this example,
	// we print the latest status.
	fmt.Printf("Job %s in Location %s currently in state: %s\n", job.ID(), job.Location(), state)

Java

バッチクエリを実行するには、QueryJobConfiguration の作成時に、クエリの優先度の設定QueryJobConfiguration.Priority.BATCH にします。

// BigQuery bigquery = BigQueryOptions.getDefaultInstance().getService();
String query = "SELECT corpus FROM `bigquery-public-data.samples.shakespeare` GROUP BY corpus;";
QueryJobConfiguration queryConfig =
    QueryJobConfiguration.newBuilder(query)
        // Run at batch priority, which won't count toward concurrent rate
        // limit.
        .setPriority(QueryJobConfiguration.Priority.BATCH)
        .build();

// Location must match that of the dataset(s) referenced in the query.
JobId jobId = JobId.newBuilder().setRandomJob().setLocation("US").build();
String jobIdString = jobId.getJob();

// API request - starts the query.
bigquery.create(JobInfo.newBuilder(queryConfig).setJobId(jobId).build());

// Check on the progress by getting the job's updated state. Once the state
// is `DONE`, the results are ready.
Job queryJob = bigquery.getJob(
    JobId.newBuilder().setJob(jobIdString).setLocation("US").build());
System.out.printf(
    "Job %s in location %s currently in state: %s%n",
    queryJob.getJobId().getJob(),
    queryJob.getJobId().getLocation(),
    queryJob.getStatus().getState().toString());

Python

このサンプルを試す前に、BigQuery クイックスタート: クライアント ライブラリの使用の Python の設定手順を実施してください。詳細については、BigQuery Python API のリファレンス ドキュメントをご覧ください。

# from google.cloud import bigquery
# client = bigquery.Client()

job_config = bigquery.QueryJobConfig()
# Run at batch priority, which won't count toward concurrent rate limit.
job_config.priority = bigquery.QueryPriority.BATCH
sql = """
    SELECT corpus
    FROM `bigquery-public-data.samples.shakespeare`
    GROUP BY corpus;
"""
# Location must match that of the dataset(s) referenced in the query.
location = "US"

# API request - starts the query
query_job = client.query(sql, location=location, job_config=job_config)

# Check on the progress by getting the job's updated state. Once the state
# is `DONE`, the results are ready.
query_job = client.get_job(
    query_job.job_id, location=location
)  # API request - fetches job
print("Job {} is currently in state {}".format(query_job.job_id, query_job.state))
このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

ご不明な点がありましたら、Google のサポートページをご覧ください。