このページは Cloud Translation API によって翻訳されました。

BigQuery 分析の概要

このドキュメントでは、BigQuery がクエリを処理する方法と、データの理解と分析に役立ついくつかの機能の概要について説明します。

BigQuery は、大規模なデータセットで（数テラバイトのデータを数秒で、数ペタバイトのデータを数分で）分析クエリを実行するように最適化されています。その機能とクエリの処理方法を理解することで、データ分析への投資を最大限に活用できます。

Google Cloud コンソールで BigQuery のデータ分析機能を直接使用するには、[ツアーを見る] をクリックします。

ツアーを見る

分析ワークフロー

BigQuery は、次のようなデータ分析ワークフローをサポートしています。

アドホック分析。BigQuery は、BigQuery の SQL 言語である GoogleSQL を使用して、アドホック分析をサポートします。 Google Cloud コンソール、または BigQuery と統合するサードパーティツールでクエリを実行できます。
地理空間分析。BigQuery では、地理データ型と GoogleSQL 地理関数を使用して地理空間データの分析と可視化を行うことができます。これらのデータ型と関数の詳細については、地理空間分析の概要をご覧ください。
データの検索。データをインデックス化して、非構造化テキストまたは半構造化 JSON データに対して柔軟で最適化された検索を実行できます。
Google Cloud リソースの検索。自然言語検索（プレビュー）を使用して、BigQuery 内の Google Cloud リソースを検出します。
ML。BigQuery ML は、GoogleSQL クエリを使用して、BigQuery で機械学習（ML）モデルを作成および実行できます。
ビジネスインテリジェンス。BigQuery BI Engine は、パフォーマンス、スケーラビリティ、セキュリティ、データの鮮度を損なうことなく、高機能かつインタラクティブなダッシュボードやレポートを構築できる、高速なインメモリ分析サービスです。
AI アシスタンス。Gemini in BigQuery を使用すると、データの準備と探索、SQL クエリと Python コードの生成、結果の可視化を行うことができます。

データ探索

BigQuery を使用すると、SQL クエリの作成を開始する前にデータを把握できます。データを検索する必要がある場合、データに慣れていない場合、どのような質問をすればよいかわからない場合、SQL の作成にサポートが必要な場合は、次の機能を使用します。

Dataplex Universal Catalog。BigQuery 内のGoogle Cloud リソース（データセットやテーブルなど）を検索します。
テーブルエクスプローラ。テーブル内の値の範囲と頻度を視覚的に探索し、インタラクティブにクエリを作成します。
データ分析情報。データに関する自然言語の質問と、それらの質問に回答する SQL クエリを生成します。
データプロファイルのスキャン。平均値、一意の値、最大値、最小値など、データの統計特性を確認します。
データキャンバス。自然言語を使用してデータにクエリを実行し、グラフで結果を可視化して、フォローアップの質問をします。

クエリ

BigQuery でデータを分析する主な方法は、SQL クエリを実行することです。GoogleSQL 言語は SQL: 2011 をサポートし、地理空間分析と ML をサポートする拡張機能が含まれています。

データソース

BigQuery では、次のタイプのデータソースに対してクエリを実行できます。

BigQuery に格納されるデータ。BigQuery にデータを読み込む、データ操作言語（DML）ステートメントを使用して既存のデータを変更する、またはクエリ結果をテーブルに書き込むことができます。タイムトラベル期間内の任意の時点の過去のデータをクエリできます。

シングルリージョンロケーションまたはマルチリージョンロケーションに保存されているデータに対してクエリを実行できます。しかし、複数のロケーションに対しては、1 つがシングルリージョンロケーションで、もう 1 つがそのシングルリージョンロケーションを含むマルチリージョンロケーションであっても、クエリを実行することはできません。詳細については、ロケーション、予約、ジョブをご覧ください。
外部データ。Cloud Storage などのさまざまな外部データソースや、Spanner や Cloud SQL などのデータベースサービスに対してクエリを実行できます。外部ソースとの接続を設定する方法については、外部データソースの概要をご覧ください。
マルチクラウドデータ。AWS や Azure などの他のパブリッククラウドに保存されているデータをクエリできます。Amazon Simple Storage Service（Amazon S3）または Azure Blob Storage への接続を設定する方法については、BigQuery Omni の概要をご覧ください。
一般公開データセット。一般公開データセットマーケットプレイスで入手可能な任意のデータセットを分析できます。
BigQuery Sharing（旧 Analytics Hub）。BigQuery データセットと Pub/Sub トピックをパブリッシュしてサブスクライブし、組織の境界を越えてデータを共有できます。詳細については、BigQuery Sharing の概要をご覧ください。

クエリの種類

次のいずれかの種類のクエリジョブを使用して、BigQuery データをクエリできます。

インタラクティブクエリジョブ。デフォルトでは、BigQuery はクエリをインタラクティブクエリジョブとして実行します。このジョブは、できるだけ早く実行を開始することを目的としています。
バッチクエリジョブ。バッチクエリは、インタラクティブクエリよりも優先度が低くなります。プロジェクトまたは予約で利用可能なコンピューティングリソースがすべて使用されている場合、バッチクエリはキューに追加され、キュー内に残る可能性が高くなります。実行の開始後は、バッチクエリとインタラクティブクエリの動作に違いはありません。詳細については、クエリキューをご覧ください。
継続的クエリジョブ。これらのジョブでは、クエリが継続的に実行されるため、BigQuery で受信データをリアルタイムで分析し、結果を BigQuery テーブルに書き込むか、Bigtable または Pub/Sub にエクスポートできます。この機能を使用すると、分析情報の作成と即時対応、リアルタイムの ML 推論の適用、イベントドリブンデータパイプラインの構築など、時間的制約があるタスクを実行できます。

クエリジョブは、次の方法で実行できます。

Google Cloud コンソールでクエリを作成して実行します。
bq コマンドラインツールで bq query コマンドを実行します。
プログラムで BigQuery REST API の jobs.query または jobs.insert メソッドを呼び出す。
BigQuery クライアントライブラリを使用します。

複数ステートメントクエリ

複数ステートメントクエリを使用すると、共有状態の複数のステートメントを順番に実行できます。複数ステートメントクエリはストアドプロシージャで頻繁に使用され、手続き型言語ステートメントをサポートします。これにより、変数の定義や制御フローの実装などを行うことができます。

保存された共有クエリ

BigQuery では、クエリの保存や、他のユーザーとのクエリの共有が可能です。

クエリを保存する際には、非公開（自分にのみ表示可能）、プロジェクトレベルで共有（特定のプリンシパルに表示可能）、一般公開（任意のユーザーに表示可能）のいずれかを選択できます。詳細については、保存したクエリを操作するをご覧ください。

BigQuery がクエリを処理する方法

BigQuery がクエリを実行すると、いくつかのプロセスが発生します。

実行ツリー。クエリを実行すると、BigQuery は実行ツリーを生成し、クエリをいくつかのステージに分割します。これらのステージには、並行して実行できるステップが含まれています。
シャッフルティア。ステージは、高速分散シャッフルティアを使用して、ステージのワーカーから生成された中間データを格納し、相互に通信を行います。可能な場合、シャッフルティアでは、ペタビットネットワークや RAM などのテクノロジーを活用して、ワーカーノードにデータをすばやく移動します。
クエリプラン。BigQuery は、クエリの実行に必要なすべての情報を取得したら、クエリプランを生成します。 Google Cloud コンソールでクエリプランを表示し、それを使用してトラブルシューティングやクエリのパフォーマンスの最適化を行うことができます。
クエリ実行グラフ。実行中または完了したあらゆるクエリのクエリプラン情報をグラフ形式で確認し、パフォーマンスの分析情報を確認してクエリを最適化できます。
クエリのモニタリングと動的な計画。クエリプランの作業自体を実行するワーカーに加え、別のワーカーがシステム全体の作業の進捗を監視、監督します。クエリが進行すると、BigQuery はさまざまなステージの結果に合わせてクエリプランを動的に調整します。
クエリ結果。クエリが完了すると、BigQuery は結果を永続ストレージに書き込み、ユーザーに返します。この設計により、BigQuery が次回クエリを実行するときに、キャッシュに保存された結果を提供できます。

クエリの同時実行とパフォーマンス

同じデータに対して繰り返し実行されるクエリのパフォーマンスは、BigQuery 環境の共有特性、キャッシュに保存されたクエリ結果の使用、クエリの実行中に BigQuery がクエリプランを動的に調整することにより、変動することがあります。多くのクエリが同時に実行されている一般的な使用中のシステムの場合、BigQuery では複数のプロセスを使用してクエリのパフォーマンスの変動を平準化します。

BigQuery は多くのクエリを並行して実行し、クエリをキューに入れて、リソースが使用可能になったときに実行できます。
クエリが開始し完了すると、BigQuery は新しいクエリと実行中のクエリの間でリソースを適正に再分散します。このプロセスにより、クエリのパフォーマンスは、クエリの送信順序ではなく、特定の時点で実行されるクエリの数に依存します。

クエリの最適化

クエリを実行すると、 Google Cloud コンソールでクエリプランを表示できます。INFORMATION_SCHEMA.JOBS* ビューや jobs.get REST API メソッドを使用して、実行の詳細をリクエストすることもできます。

クエリプランには、クエリのステージとステップの詳細が含まれます。これらの詳細は、クエリのパフォーマンスを改善する方法を特定する際に役立ちます。たとえば、あるステージの書き込み出力が他のステージよりもはるかに多い場合は、クエリの早い段階でフィルタリングする必要がある可能性があります。

クエリプランとクエリの最適化の詳細については、次のリソースをご覧ください。

クエリプランの詳細と、プランの情報を使用してクエリのパフォーマンスを改善する例については、クエリプランとタイムラインをご覧ください。
クエリの最適化に関する一般的な情報については、クエリパフォーマンスの最適化の概要をご覧ください。

クエリのモニタリング

モニタリングとロギングは、クラウドで信頼性の高いアプリケーションを実行するために不可欠です。ワークロードが大きい場合やミッションクリティカルな場合、BigQuery ワークロードも例外ではありません。BigQuery には、BigQuery の使用状況のモニタリングに役立つさまざまな指標、ログ、メタデータビューが用意されています。

詳しくは、次のリソースをご覧ください。

BigQuery のモニタリングオプションの詳細については、BigQuery モニタリングの概要をご覧ください。
監査ログとクエリの動作を分析する方法については、BigQuery 監査ログをご覧ください。

クエリの料金

BigQuery には、分析用の次の 2 つの料金モデルが用意されています。

オンデマンド料金。 クエリでスキャンされたデータに対して料金が発生します。プロジェクトごとに固定のクエリ処理容量があり、費用は処理されたバイト数に基づきます。
容量ベースの料金。 専用のクエリ処理容量を購入します。

2 つの料金モデルと、容量ベースの料金の予約について詳しくは、予約の概要をご覧ください。

割り当てとクエリ費用を抑える

BigQuery は、実行中のクエリに対してプロジェクトレベルの割り当てを強制します。クエリ割り当ての詳細については、割り当てポリシーをご覧ください。

クエリ費用を抑えるために、BigQuery は、カスタム割り当てと請求アラートを含むいくつかのオプションを提供しています。詳細については、カスタムコスト管理の作成をご覧ください。

データ分析機能

BigQuery は記述的分析と予測的分析の両方をサポートしており、AI を活用したツール、SQL、ML、ノートブック、その他のサードパーティ・インテグレーションを使用してデータを探索できます。

BigQuery Studio

BigQuery Studio には、BigQuery 内のデータの検出、分析、推論に役立つ次の機能があります。

堅牢な SQL エディタ。コード補完と生成、クエリ検証、処理されるバイト数の推定値を提供します。
Colab Enterprise を使用して構築された埋め込み Python ノートブック。Notebooks は、ワンクリックの Python 開発ランタイム、および BigQuery DataFrames の組み込みサポートを提供します。
Apache Spark 用の Python ストアドプロシージャを作成できる PySpark エディタ。
Dataform 上に構築された、ノートブックや保存済みクエリなどのコードアセットのアセット管理と変更履歴。
Gemini 生成 AI（プレビュー）上に構築された、SQL エディタとノートブックでのコード開発支援。
データ検出、データプロファイリングスキャン、データ品質スキャンのための Dataplex Universal Catalog 機能。
ユーザー単位またはプロジェクト単位でジョブ履歴を表示する機能。
Looker や Google スプレッドシートなどの他のツールに接続して保存したクエリ結果を分析し、他のアプリケーションで使用するために保存したクエリ結果をエクスポートする機能。

BigQuery ML

BigQuery ML を使用すると、BigQuery で SQL を使用して機械学習（ML）と予測分析を実行できます。詳細については、BigQuery ML の概要をご覧ください。

分析ツールの統合

BigQuery でクエリを実行するだけでなく、次のような BigQuery と統合するさまざまな分析ツールとビジネスインテリジェンスツールを使用してデータを分析できます。

Looker。Looker は、ビジネスインテリジェンス、データアプリケーション、組み込み型アナリティクスのためのエンタープライズプラットフォームです。Looker プラットフォームは、BigQuery を含む多数のデータストアに対応しています。Looker を BigQuery に接続する方法については、Looker の使用をご覧ください。
Looker Studio。クエリを実行した後、Google Cloud コンソールで BigQuery から直接 Looker Studio を起動できます。Looker Studio では、可視化を行い、クエリから返されるデータを調べることができます。Looker Studio の詳細については、Looker Studio の概要をご覧ください。
コネクテッドシート。コンソールで BigQuery から直接コネクテッドシートを起動することもできます。コネクテッドシートは、リクエストまたは定義済みのスケジュールに従って、BigQuery クエリをユーザーに代わって実行します。クエリの結果はスプレッドシートに保存され、分析と共有に利用できます。コネクテッドシートの詳細については、コネクテッドシートの使用をご覧ください。
Tableau。 Tableau からデータセットに接続できます。BigQuery を使用して、チャート、ダッシュボード、その他のデータビジュアリゼーションを強化します。

サードパーティ製ツールの統合

BigQuery と連携するいくつかのサードパーティ分析ツール。たとえば、Tableau を BigQuery データに接続し、その可視化ツールを使用して分析を共有できます。サードパーティツールを使用する際の考慮事項の詳細については、サードパーティツールの統合をご覧ください。

ODBC ドライバと JDBC ドライバが利用可能です。これらのドライバを使用して、アプリケーションを BigQuery と統合できます。このドライバの目的は、既存のツールとインフラストラクチャで BigQuery の機能を活用できるようにすることです。最新リリースと既知の問題については、BigQuery 用の ODBC ドライバと JDBC ドライバをご覧ください。

pandas-gbq などの pandas ライブラリを使用すると、Jupyter ノートブックで BigQuery データを操作できます。このライブラリの詳細、BigQuery Python クライアントライブラリを使用する場合との違いについては、pandas-gbqとの比較をご覧ください。

その他のノートブックと分析ツールとともに BigQuery を使用することもできます。詳細しくは、プログラムによる分析ツールをご覧ください。

BigQuery 分析とさまざまな技術パートナーの一覧については、BigQuery プロダクトページのパートナーのリストをご覧ください。

次のステップ

サポートされている SQL ステートメントの導入と概要については、BigQuery での SQL の概要をご覧ください。
BigQuery でデータのクエリに使用される GoogleSQL 構文については、GoogleSQL のクエリ構文をご覧ください。
BigQuery でクエリを実行する方法を学習する。
クエリパフォーマンスの最適化について詳しく確認する。
ノートブックの使用を開始する方法を学習する。
繰り返し実行するクエリのスケジューリングについて詳しく確認する。