BigQuery の概要
BigQuery は、ML、検索、地理空間分析、ビジネス インテリジェンスなどの組み込み機能を使用してデータの管理と分析を支援する、フルマネージドの AI 対応データ プラットフォームです。BigQuery のサーバーレス アーキテクチャを使用すると、SQL や Python などの言語を使用して、インフラストラクチャ管理なしで組織の最も大きな課題に対応できます。
BigQuery は、構造化データと非構造化データの両方を使用するための統一的な方法を提供するものであり、Apache Iceberg、Delta、Hudi などのオープン テーブル形式をサポートしています。BigQuery ストリーミングは、継続的なデータ取り込みと分析をサポートしています。BigQuery のスケーラブルな分散型分析エンジンを使用すると、数テラバイトのデータであれば数秒、数ペタバイトのデータであれば数分でクエリを実行できます。
BigQuery のアーキテクチャは、データを取り込み、保存、最適化するストレージ レイヤと、分析機能を提供するコンピューティング レイヤの 2 つの部分で構成されています。これらのコンピューティング レイヤとストレージ レイヤは、レイヤ間の必要な通信を可能にする Google のペタビット規模のネットワークにより、相互に独立して効率的に動作します。
一般的に以前のデータベースでは、読み取り / 書き込みオペレーションと分析オペレーションでリソースを共有する必要があります。これによりリソースの競合が発生し、データがストレージに書き込まれるとき、またはストレージから読み込まれるときにクエリが遅くなる可能性があります。権限の割り当てや取り消しなど、データベース管理タスクにリソースが必要な場合、共有リソースプールの負荷はさらに増大します。BigQuery では、コンピューティング レイヤとストレージ レイヤが分離されているため、他方のレイヤのパフォーマンスや可用性に影響を与えることなく、各レイヤでリソースを動的に割り当てることができます。
この分離原則により、BigQuery はダウンタイムやシステム パフォーマンスへの悪影響なしに、ストレージとコンピューティングの改善を個別にデプロイできるため、より迅速にイノベーションを実現できます。また、BigQuery エンジニアリング チームが更新とメンテナンスを処理するフルマネージド サーバーレス データ ウェアハウスを提供することも不可欠です。結果として、リソースのプロビジョニングや手動スケーリングを行う必要がないため、従来のデータベース管理タスクではなく、価値の提供に集中できます。
BigQuery インターフェースには、Google Cloud コンソールのインターフェースと BigQuery コマンドライン ツールが含まれます。デベロッパーやデータ サイエンティストは、Python、Java、JavaScript、Go などの使い慣れたプログラミング言語でクライアント ライブラリを使用することも、BigQuery の REST API と RPC API でデータを変換、管理することもできます。ODBC ドライバと JDBC ドライバにより、サードパーティのツールやユーティリティなどの既存のアプリケーションとやり取りできるようになります。
データ アナリスト、データ エンジニア、データ ウェアハウス管理者、またはデータ サイエンティストであれば、BigQuery は、データを読み込み、処理、分析して、重要なビジネス上の意思決定を支援します。
BigQuery を使ってみる
BigQuery は数分で使い始めることができます。BigQuery の無料枠または無料サンドボックスを活用して、データの読み込みとクエリを開始できます。
- BigQuery のサンドボックス: BigQuery サンドボックスをリスクフリーかつ無料でご利用いただけます。
- Google Cloud コンソールクイックスタート: BigQuery Console の機能に慣れるようにします。
- 一般公開データセット: 一般公開データセット プログラムの大規模な実際のデータを検索することで、BigQuery のパフォーマンスを体験します。
BigQuery を詳しく見る
BigQuery のサーバーレス インフラストラクチャを使用すると、リソース管理ではなくデータに集中できます。BigQuery は、クラウドベースのデータ ウェアハウスと強力な分析ツールを組み合わせたものです。
BigQuery ストレージ
BigQuery は、分析クエリに最適化されたカラム型ストレージ形式でデータを保存します。BigQuery はデータをテーブル、行、列に表示し、データベース トランザクション セマンティクス(ACID)を完全にサポートします。高可用性を実現するため、BigQuery ストレージは複数のロケーションに自動的に複製されます。
- データ ウェアハウスとデータマートで BigQuery リソースを整理するための一般的なパターンについて確認します。
- BigQuery のテーブルとビューの最上位コンテナであるデータセットについて学習します。
- 次の機能を使用して、BigQuery にデータを読み込みます。
- Storage Write API を使用してデータをストリーミングします。
- Avro、Parquet、ORC、CSV、JSON、Datastore、Firestoreなどの形式でローカル ファイルまたは Cloud Storage から、データをバッチ読み込みします。
- BigQuery Data Transfer Service は、データの取り込みを自動化します。
詳細については、BigQuery のストレージの概要をご覧ください。
BigQuery による分析
記述的分析および処方的分析を行う際、ビジネス インテリジェンス、アドホック分析、地理空間分析、機械学習が使用されます。BigQuery に保存されたデータに対してクエリを実行することも、Cloud Storage、Bigtable、Spanner、Google ドライブに保存された Google スプレッドシートなどの外部テーブルや連携クエリを使用して、外部テーブルのデータに対するクエリを実行することもできます。
- 結合、ネスト、繰り返しのフィールド、分析関数と集計関数、マルチステートメントクエリ、地理空間分析(地理情報システム)などのさまざまな空間関数のサポートを含む ANSI 標準 SQL クエリ(SQL:2011 準拠)を行います。
- ビューを作成して分析を共有します。
- Looker Studio を使用する BI Engine、Looker、Google スプレッドシート、Tableau や Power BI などのサードパーティ製ツールを含むビジネス インテリジェンス ツールをサポートします。
- BigQuery ML は、ML と予測分析を提供します。
- BigQuery Studio には、Python ノートブックや、ノートブックと保存済みクエリの両方のバージョン管理などの機能が用意されています。これらの機能を使用すると、BigQuery でデータ分析と ML のワークフローを簡単に完了できます。
- 外部テーブルと連携クエリを使用して、BigQuery の外部でデータをクエリします。
詳細については、BigQuery の分析の概要をご覧ください。
BigQuery の管理
BigQuery では、データとコンピューティング リソースの一元管理が可能ですが、Identity and Access Management(IAM)では、Google Cloud 全体で使用されるアクセスモデルにより、これらのリソースを保護できます。Google Cloud セキュリティのベスト プラクティスでは、従来の境界セキュリティや、より複雑できめ細かい多層防御アプローチを含めることができる、堅牢かつ柔軟なアプローチが用意されています。
- データ セキュリティとガバナンスの概要では、データ ガバナンスと、BigQuery リソースの保護に必要な制御について確認できます。
- ジョブとは、データの読み込み、エクスポート、クエリ、コピーなど、ユーザーに代わって BigQuery が実行するアクションのことです。
- Reservations では、オンデマンド料金と容量ベースの料金を切り替えることができます。
詳細については、BigQuery の管理の概要をご覧ください。
BigQuery リソース
次の BigQuery リソースを詳しく見てみます。
- リリースノート。機能、変更、非推奨の変更履歴が記載されています。
分析とストレージの料金。BigQuery ML、BI Engine、Data Transfer Service の料金もご覧ください。
ロケーション。データセットを作成して保存する場所(リージョンとマルチリージョンのロケーション)を定義します。
Stack Overflow。BigQuery を使用するデベロッパーとアナリストのコミュニティがホストされています。
BigQuery のサポートについては、BigQuery のサポートにお問い合わせください。
Google BigQuery: Definitive Guide: Data Warehousing, Analytics, and Machine Learning at Scale(Valliappa Lakshmanan、Jordan Tigani 著)は、BigQuery の仕組みについて解説し、サービスの使用方法に関するエンドツーエンドのチュートリアルを提供しています。
API、ツール、リファレンス
BigQuery のデベロッパーとアナリスト向けの参考資料:
- GoogleSQL の使用方法の詳細は、SQL クエリ構文をご覧ください。
- BigQuery API とクライアント ライブラリには、BigQuery の機能と用途の概要が記載されています。
- BigQuery コードサンプル: C#、Go、Java、Node.js、Python、Ruby のクライアント ライブラリ向けに数百のスニペットが用意されています。また、サンプル ブラウザも表示できます。
- DML、DDL、ユーザー定義関数(UDF)の構文により、BigQuery データの管理および変換が可能です。
- bq コマンドライン ツール リファレンスには、
bq
CLI インターフェース用の構文、コマンド、フラグ、引数が記載されています。 - ODBC / JDBC の統合により、BigQuery が既存のツールやインフラストラクチャに接続されます。
BigQuery の役割とリソース
BigQuery は、次の役割と責任にわたってデータ プロフェッショナルのニーズに対応しています。
データ アナリスト
次の操作を行う必要がある場合のサポート用タスク ガイダンス。
- SQL クエリ構文を使用してインタラクティブ クエリまたはバッチクエリで BigQuery データにクエリを実行する。
- SQL のfunctions、演算子、条件式を参照してデータにクエリを実行する
Looker、Looker Studio、Google スプレッドシートなどのツールを使用して、BigQuery データを分析、可視化します。
地理空間分析を使用して、BigQuery の地理情報システムで地理空間データを分析および可視化する。
次の機能を使用して、クエリ パフォーマンスを最適化します。
- パーティション分割テーブル: 時間または整数の範囲に基づいて、大きなテーブルをプルーニングします。
- マテリアライズド ビュー: キャッシュされたビューを定義して、クエリを最適化したり、永続的な結果を提供したりします。
- BI Engine: BigQuery の高速なインメモリ分析サービス。
Google Cloud コンソールで BigQuery のデータ分析機能を直接使用するには、[ツアーを見る] をクリックします。
データ管理者
次の操作が必要な場合に役立つタスク ガイダンス。
- Reservations で費用を管理し、オンデマンドと容量ベースの料金のバランスをとる。
- データ セキュリティとガバナンスを把握して、データセット、テーブル、列、行、ビューごとにデータを保護する。
- テーブルのスナップショットでデータをバックアップして、特定の時点でのテーブルのコンテンツを保存する。
- BigQuery INFORMATION_SCHEMA を表示して、データセット、ジョブ、アクセス制御、予約、テーブルなどのメタデータについて把握します。
- ジョブを使用して、ユーザーの代わりに BigQuery がデータの読み込み、エクスポート、クエリ、コピーなどのアクションを行う。
- ログとリソースをモニタリングして、BigQuery とワークロードを把握する。
詳細については、BigQuery の管理の概要をご覧ください。
Google Cloud コンソールで BigQuery データ管理機能を直接使用するには、[ツアーを見る] をクリックします。
データ サイエンティスト
BigQuery ML の機械学習を使用して、次の操作を行う必要がある場合のサポート用タスク ガイダンス。
- 機械学習モデルのエンドツーエンドのユーザー ジャーニーを理解する。
- BigQuery ML のアクセス制御を管理する
- 以下を含む BigQuery ML モデルを作成してトレーニングする
- 線形回帰予測
- 2 項ロジスティック回帰と多項ロジスティック回帰分類
- データ セグメンテーション用の K 平均法クラスタリング
- Arima+ モデルを使用した時系列予測
データ デベロッパー
次の操作を行う必要がある場合のサポート用タスク ガイダンス。
BigQuery の動画チュートリアル
次の動画チュートリアルでは、BigQuery の紹介と簡単な使い方の説明を行っています。
タイトル |
説明 |
---|---|
BigQuery の使用を開始する方法(17:18) | BigQuery の概要とその使用方法について概説します。セグメントには、ETL パイプライン、料金と最適化、BigQuery ML と BI Engine、および Google Cloud コンソール内の BigQuery のデモが含まれます。 |
BigQuery とは(4:39) | アナリストやデベロッパーなどをサポートするために、大量のデータの取り込みと保存を可能にする BigQuery がどのように設計されているかについての概要 |
BigQuery サンドボックスの使用(3:05) | BigQuery サンドボックスを設定して、クレジット カードの登録なしでクエリを実行できるようにする方法 |
質問とクエリの実行(5:11) | BigQuery UI で SQL クエリを作成して実行する方法(例: 魅力的な背番号を選択する) |
BigQuery へのデータの読み込み(5:31) | リアルタイムでデータを取り込んで分析する方法、または一括でのデータのバッチ分析(例: 猫と犬) |
クエリ結果の可視化(5:38) | 複雑なデータセットの把握と習得を容易にするためにデータの可視化を役立てる方法 |
IAM によるアクセス管理(5:23) | IAM 権限とアクセス制御を使用して、他のユーザーが BigQuery 内のデータセットをクエリできるようにする方法 |
クエリの保存と共有(6:17) | BigQuery にクエリを保存して共有する簡単な方法 |
認可済みビューでの機密データの保護(7:12) | カスタマイズしたアクセス制御を設定して、異なるユーザーとデータセットを簡単に共有する方法 |
BigQuery を使用した外部データのクエリ(5:49) | BigQuery で外部データソースを設定し、Cloud Storage、Cloud SQL、Google ドライブなどのデータにクエリを実行する方法 |
ユーザー定義関数とは(4:59) | BigQuery でのデータセットの分析に使用するユーザー定義関数(UDF)の作成方法 |
次のステップ
- BigQuery ストレージの概要については、BigQuery ストレージの概要をご覧ください。
- BigQuery クエリの概要については、BigQuery 分析の概要をご覧ください。
- BigQuery の管理の概要については、BigQuery の管理の概要をご覧ください。
- BigQuery セキュリティの概要については、データ セキュリティとガバナンスの概要をご覧ください。