クエリの実行
このドキュメントでは、BigQuery でクエリを実行する方法と、ドライランを実行して、クエリの実行前に処理されるデータの量を把握する方法について説明します。
クエリの種類
次のいずれかの種類のクエリジョブを使用して、BigQuery データをクエリできます。
- インタラクティブなクエリジョブ。デフォルトでは、BigQuery はインタラクティブ(オンデマンド)クエリジョブをできるだけ早く実行します。
継続的クエリジョブ(プレビュー)。これらのジョブでは、クエリが継続的に実行されるため、BigQuery で受信データをリアルタイムで分析し、結果を BigQuery テーブルに書き込むか、Bigtable または Pub/Sub にエクスポートできます。この機能を使用すると、分析情報の作成と即時対応、リアルタイムの ML 推論の適用、イベント ドリブン データ パイプラインの構築など、時間に敏感なタスクを実行できます。
バッチ クエリ ジョブ。これらのジョブでは、BigQuery がユーザーに代わって各バッチクエリをキューに入れ、アイドル状態のリソースが使用可能になると(通常は数分以内)直ちにクエリを開始します。
クエリジョブは、次の方法で実行できます。
- Google Cloud コンソールでクエリを作成して実行します。
- bq コマンドライン ツールの
bq query
コマンドを実行します。 - プログラマティックな方法で BigQuery REST API の
jobs.query
またはjobs.insert
メソッドを呼び出します。 - BigQuery クライアント ライブラリを使用します。
デフォルトでは、BigQuery はできるだけすぐに実行されるインタラクティブ クエリジョブとしてクエリを実行します。BigQuery は、リソースの可用性に基づいて同時実行クエリの上限を動的に計算し、バッチクエリよりも多くの同時インタラクティブ クエリの実行を優先します。同時実行クエリの上限に達すると、追加のクエリがキューで待機します。詳細については、クエリキューをご覧ください。
BigQuery は、クエリ結果を一時テーブル(デフォルト)または永続テーブルに保存します。結果の宛先テーブルとして永続テーブルを指定する場合は、既存のテーブルを追加または上書きするか、一意の名前で新しいテーブルを作成するかを選択できます。
必要なロール
クエリジョブを実行するために必要な権限を取得するには、次の IAM ロールを付与するように管理者へ依頼してください。
-
プロジェクトに対する BigQuery ジョブユーザー(
roles/bigquery.jobUser
)。 -
クエリが参照するすべてのテーブルとビューに対する BigQuery データ閲覧者(
roles/bigquery.dataViewer
)。ビューにクエリを実行するには、基になるすべてのテーブルとビューに対するこのロールも必要です。承認済みビューまたは承認済みデータセットを使用している場合は、基になるソースデータにアクセスする必要はありません。
ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。
これらの事前定義ロールには、クエリジョブの実行に必要な権限が含まれています。必要とされる正確な権限については、「必要な権限」セクションを開いてご確認ください。
必要な権限
クエリジョブを実行するには、次の権限が必要です。
-
クエリを実行するプロジェクトに対する
bigquery.jobs.create
。データの保存場所は関係ありません。 -
クエリが参照するすべてのテーブルとビューに対する
bigquery.tables.getData
。ビューにクエリを実行するには、基になるすべてのテーブルとビューに対するこの権限も必要です。承認済みビューまたは承認済みデータセットを使用している場合は、基になるソースデータにアクセスする必要はありません。
カスタムロールや他の事前定義ロールを使用して、これらの権限を取得することもできます。
トラブルシューティング
Access Denied: Project [project_id]: User does not have bigquery.jobs.create
permission in project [project_id].
このエラーは、プロジェクトでクエリジョブを作成する権限がプリンシパルにない場合に発生します。
解決策: 管理者が、クエリを実行するプロジェクトに対する bigquery.jobs.create
権限を付与する必要があります。クエリされたデータへのアクセスに必要な権限に加えて、この権限が必要になります。
BigQuery の権限の詳細については、IAM でのアクセス制御をご覧ください。
インタラクティブ クエリを実行する
インタラクティブ クエリを実行するには、次のいずれかのオプションを選択します。
コンソール
[BigQuery] ページに移動します。
[
クエリを新規作成] をクリックします。クエリエディタで、有効な GoogleSQL のクエリを入力します。
たとえば、BigQuery 一般公開データセット
usa_names
に対してクエリを実行し、1910 年から 2013 年の間に米国で最も多くつけられた名前を特定します。SELECT name, gender, SUM(number) AS total FROM `bigquery-public-data.usa_names.usa_1910_2013` GROUP BY name, gender ORDER BY total DESC LIMIT 10;
省略可: クエリ結果の宛先テーブルとロケーションを指定します。
- クエリエディタで、[ その他] をクリックしてから、[クエリの設定] をクリックします。
- [送信先] セクションで、[クエリ結果の宛先テーブルを設定する] を選択します。
- [データセット] に、宛先テーブルの既存のデータセットの名前を入力します(例:
myProject.myDataset
)。 - [テーブル ID] に、宛先テーブルの名前を入力します(例:
myTable
)。 宛先テーブルが既存のテーブルの場合は、[宛先テーブルの書き込み設定] で、クエリ結果でテーブルを追加するか、上書きするかを選択します。
宛先テーブルが新しいテーブルの場合、クエリを実行すると BigQuery によってテーブルが作成されます。
[追加の設定] セクションで、[データのロケーション] メニューをクリックし、オプションを選択します。
この例では、
usa_names
データセットは米国のマルチリージョン ロケーションに保存されています。このクエリの宛先テーブルを指定する場合は、宛先テーブルを含むデータセットも US マルチリージョンに存在する必要があります。あるロケーションのデータセットに対するクエリを実行して、結果を別のロケーションにあるテーブルに書き込むことはできません。[保存] をクリックします。
[
実行] をクリックします。宛先テーブルを指定しない場合、クエリジョブは出力を一時(キャッシュ)テーブルに書き込みます。
これで、[クエリ結果] ペインの [結果] タブでクエリ結果を確認できるようになりました。
省略可: クエリ結果を列で並べ替えるには、列名の横にある [
並べ替えメニューを開く] をクリックし、並べ替え順を選択します。並べ替えた内容の推定バイト数が 0 より大きい場合は、メニューの一番上にバイト数が表示されます。省略可: クエリ結果を可視化するには、[グラフ] タブに移動します。グラフの拡大や縮小、PNG ファイルとしてグラフのダウンロード、凡例の表示の切り替えができます。
[グラフの構成] ペインでは、グラフの種類(折れ線グラフ、棒グラフ、散布図)を変更することや、グラフの measure とディメンションを構成することが可能です。このペインのフィールドには、クエリの宛先テーブル スキーマから推定された初期構成が事前に入力されています。構成は、同じクエリエディタでの次のクエリ実行間で保持されます。ディメンションは
INTEGER
、INT64
、FLOAT
、FLOAT64
、NUMERIC
、BIGNUMERIC
、TIMESTAMP
、DATE
、DATETIME
、TIME
、STRING
データタイプをサポートし、measure はINTEGER
、INT64
、FLOAT
、FLOAT64
、NUMERIC
、BIGNUMERIC
データタイプをサポートします。省略可: [JSON] タブで、JSON 形式のクエリ結果を確認できます。ここで、キーは列名、値は列の結果です。
bq
-
In the Google Cloud console, activate Cloud Shell.
At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.
bq query
コマンドを使用します。次の例では、--use_legacy_sql=false
フラグにより GoogleSQL の構文を使用できます。bq query \ --use_legacy_sql=false \ 'QUERY'
QUERY は、有効な GoogleSQL クエリに置き換えます。たとえば、BigQuery 一般公開データセット
usa_names
に対してクエリを実行し、1910 年から 2013 年の間に米国で最も多くつけられた名前を特定します。bq query \ --use_legacy_sql=false \ 'SELECT name, gender, SUM(number) AS total FROM `bigquery-public-data.usa_names.usa_1910_2013` GROUP BY name, gender ORDER BY total DESC LIMIT 10;'
クエリジョブは、出力を一時(キャッシュ)テーブルに書き込みます。
必要に応じて、クエリ結果の宛先テーブルとロケーションを指定できます。結果を既存のテーブルに書き込むには、テーブルを追加(
--append_table=true
)または上書き(--replace=true
)する適切なフラグを指定します。bq query \ --location=LOCATION \ --destination_table=TABLE \ --use_legacy_sql=false \ 'QUERY'
次のように置き換えます。
LOCATION: 宛先テーブルのリージョンまたはマルチリージョン(例:
US
)この例では、
usa_names
データセットは米国のマルチリージョン ロケーションに保存されています。このクエリの宛先テーブルを指定する場合は、宛先テーブルを含むデータセットも US マルチリージョンに存在する必要があります。あるロケーションのデータセットに対するクエリを実行して、結果を別のロケーションにあるテーブルに書き込むことはできません。.bigqueryrc ファイルを使用してロケーションのデフォルト値を設定できます。
TABLE: 宛先テーブルの名前(例:
myDataset.myTable
)宛先テーブルが新しいテーブルの場合、クエリを実行すると BigQuery によってテーブルが作成されます。ただし、既存のデータセットを指定する必要があります。
テーブルが現在のプロジェクトにない場合は、
PROJECT_ID:DATASET.TABLE
の形式で Google Cloud プロジェクト ID を追加します(例:myProject:myDataset.myTable
)。--destination_table
を指定しない場合、出力を一時テーブルに書き込むクエリジョブが生成されます。
API
API を使用してクエリを実行するには、新しいジョブを挿入して query
ジョブ構成プロパティに値を設定します。必要に応じて、ジョブリソースの jobReference
セクションにある location
プロパティでロケーションを指定します。
getQueryResults
を呼び出して結果をポーリングします。jobComplete
が true
と等しくなるまで取得を続けます。エラーと警告は、errors
リストで確認してください。
C#
このサンプルを試す前に、クライアント ライブラリを使用した BigQuery クイックスタートにある C# の設定手順を完了してください。詳細については、BigQuery C# API のリファレンス ドキュメントをご覧ください。
BigQuery に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、クライアント ライブラリの認証を設定するをご覧ください。
Go
このサンプルを試す前に、クライアント ライブラリを使用した BigQuery クイックスタートにある Go の設定手順を完了してください。詳細については、BigQuery Go API のリファレンス ドキュメントをご覧ください。
BigQuery に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、クライアント ライブラリの認証を設定するをご覧ください。
Java
このサンプルを試す前に、クライアント ライブラリを使用した BigQuery クイックスタートにある Java の設定手順を完了してください。詳細については、BigQuery Java API のリファレンス ドキュメントをご覧ください。
BigQuery に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、クライアント ライブラリの認証を設定するをご覧ください。
プロキシを使用してクエリを実行するには、プロキシの構成をご覧ください。
Node.js
このサンプルを試す前に、クライアント ライブラリを使用した BigQuery クイックスタートにある Node.js の設定手順を完了してください。詳細については、BigQuery Node.js API のリファレンス ドキュメントをご覧ください。
BigQuery に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、クライアント ライブラリの認証を設定するをご覧ください。
PHP
このサンプルを試す前に、クライアント ライブラリを使用した BigQuery クイックスタートにある PHP の設定手順を完了してください。詳細については、BigQuery PHP API のリファレンス ドキュメントをご覧ください。
BigQuery に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、クライアント ライブラリの認証を設定するをご覧ください。
Python
このサンプルを試す前に、クライアント ライブラリを使用した BigQuery クイックスタートにある Python の設定手順を完了してください。詳細については、BigQuery Python API のリファレンス ドキュメントをご覧ください。
BigQuery に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、クライアント ライブラリの認証を設定するをご覧ください。