BigQuery で「ビッグ」なクエリを実行: クイック リファレンス
Google Cloud Japan Team
※この投稿は米国時間 2021 年 7 月 22 日に、Google Cloud blog に投稿されたものの抄訳です。
組織は、異なるソースからデータを集計して処理し、戦略的な意思決定の裏付けとなるデータ分析に活用できるようにするために、データ ウェアハウスを利用しています。BigQuery は、Google Cloud のエンタープライズ データ ウェアハウスで、大規模な分析を容易に実行し、行動につながる分析情報を迅速に引き出すことができるように設計されています。一括アップロード、またはデータを直接ストリーミングすることで BigQuery にデータを取り込み、リアルタイムで分析情報を得ることができます。フルマネージド データ ウェアハウスである BigQuery によりインフラストラクチャが管理されるため、お客様はペタバイト スケールまでのデータ分析に注力できます。BigQuery は SQL(Structured Query Language)をサポートしています。ANSI 規格に準拠したリレーショナル データベースを扱ったことがあるなら、なじみのある言語でしょう。
BigQuery のユニークな特徴
BI Engine - BigQuery BI Engine は、高速なインメモリ分析サービスです。クエリの応答時間は 1 秒未満で、同時実行性にも優れています。BI Engine は、Google データポータルや Looker と統合してクエリ結果を視覚化し、他の一般的なビジネス インテリジェンス(BI)ツールとの統合を可能にします。
BigQuery ML: BigQuery ML は、何百万人ものデータ アナリストに機械学習を提供しています。BigQuery ML を利用すると、データ アナリストやデータ サイエンティストは、簡単な SQL を使って BigQuery 内に機械学習モデルを直接構築し、運用することができます。
BigQuery Omni - BigQuery Omni は、Anthos が搭載された柔軟なマルチクラウド分析ソリューションです。BigQuery のユーザー インターフェース(UI)から離れることなく、Google Cloud、Amazon Web Services(AWS)、Azure 上のデータにコスト効率よくアクセスし、安全にデータ分析を行うことができます。標準 SQL と使い慣れた BigQuery API を使用して、データサイロを解消し、ビジネスに関する重要な分析情報を 1 つの画面から得ることができます。
Data QnA: Data QnA を使えば、ビジネス ユーザーは BigQuery データだけでなく、Cloud Storage、Bigtable、Cloud SQL、あるいは Google ドライブからのフェデレーション データに対してもセルフサービス分析を実行できるようになります。Data QnA はDialogflow を使用しています。Data QnA を使えば、ユーザーは質問の入力中に候補として自動表示されるエンティティを使用して、自由形式テキストで分析用の質問を作成できます。
コネクテッド シート - スプレッドシートと BigQuery のネイティブな統合により、表計算ツールを使い慣れたビジネスの関係者全員が、いつでも最新の分析情報を得ることができるようになります。
地理空間データ - BigQuery は、地理データタイプを用いた正確でスケーラブルな地理空間分析を提供します。標準 SQL を使用して、測定、変換、コンストラクタなど、GIS のコア機能をサポートしています。
仕組み
仕組みは次のとおりです。自分で作成したデータを BigQuery に取り込むか、一般公開データセットから取得したデータを利用します。ストレージとコンピューティングが分離しているので、それぞれオンデマンドでスケーリングできます。この特長により、高価なコンピューティング リソースを常に稼働する必要がなくなるので、柔軟にビジネスを展開し、経費を抑えることができます。その結果、BigQuery は、従来のノードベースのクラウド データ ウェアハウス ソリューションやオンプレミス システムに比べて、はるかにコスト効率が高いものとなります。また、BigQuery では、データの自動バックアップと復元が可能です。
BigQuery には、データを一括して取り込むか、Pub/Sub を介してウェブ、IoT、モバイル デバイスからリアルタイムにデータをストリーミングできます。また、Data Transfer Service を利用して、他のクラウドやオンプレミスのシステム、サードパーティのサービスからデータを取り込むこともできます。BigQuery は ODBC や JDBC ドライバもサポートしており、既存のツールやインフラストラクチャとの接続が可能です。
データの読み込み、クエリの実行、ML モデルの作成など、BigQuery とのやりとりは 3 つの方法で行うことができます。Cloud Console の UI、BigQuery コマンドライン ツール、または複数の言語で提供されているクライアント ライブラリを介した API を使用できます。
データを可視化する際には、Looker をはじめとする、BigQuery と統合されている Google パートナー エコシステムのビジネス インテリジェンス ツールを利用できます。
セキュリティについて
BigQuery には、大規模なデータ保護機能が組み込まれています。データを効率的に管理し、組織内のだれでも分析情報にアクセスできるようにするためのセキュリティおよびガバナンス ツールを提供します。
BigQuery では、ユーザーはデータセット レベルやプロジェクト レベルの権限を割り当て、データアクセスを管理できます。安全なデータ共有により、信頼性の高いコラボレーションとビジネスの運営が可能になります。
データは転送中も保存されている間も自動的に暗号化されるため、侵入、盗難、攻撃から確実に保護されます。
Cloud DLP は、センシティブ データ アセットを発見し、分類するのに役立ちます。
Cloud IAM はアクセス制御とセキュリティ ポリシーの可視化を実現します。
Data Catalog は、データの発見と管理に役立ちます。
料金について
BigQuery サンドボックスでは、BigQuery 機能を無料で使ってみることができるため、お客様のニーズに適合するかどうかを確認できます。BigQuery では、データの保存とクエリ、ストリーミング挿入に対して料金を支払ううえで、予測可能なコスト パフォーマンスを得ることができます。データの読み込みとエクスポートは無料です。ストレージの料金は、BigQuery に格納されているデータの量に基づいて計算されます。データの変更頻度に応じて 2 つのレートがあります。クエリの費用は次のいずれかになります。
オンデマンド - 処理されたデータの量に応じて、クエリごとに課金されます
フラットレート - 専用リソースの購入をご希望の場合
最初は従量課金制のオンデマンド方式でスタートし、使用状況に応じてフラットレートに移行することも可能です。また、フラットレートでスタートし、使用状況を把握したうえで、ワークロードの追加に応じて従量課金制に移行することも可能です。
BigQuery とその機能をもっと詳しくお知りになりたい場合は、サンドボックスをご確認ください。BigQuery でデータ ウェアハウスをモダナイズする準備ができたら、移行プロセスを合理化するためのドキュメントはここからご覧いただけます。
#GCPSketchnote の詳細については、GitHub リポジトリをフォローしてください。同様のクラウド コンテンツについては、Twitter で @pvergadia で発信しています。thecloudgirl.dev もぜひご覧ください。
-Google デベロッパー アドボケイト Priyanka Vergadia