コンテンツに移動
データ分析

障壁を打ち破る: BigQuery データ分析情報によってデータ探索プロセスを強化する方法

2024年5月22日
Sai Charan Tej Kommuri

Product Manager, Data Analytics

※この投稿は米国時間 2024 年 5 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。

ほとんどのデータ分析は、適切なデータセットを見つける、データの構造を理解する、主要なパターンを特定する、抽出したい最も価値のある分析情報を特定する、といった探索から始まります。このステップは、特に新しいデータセットを扱う場合や、チームに加入したばかりの場合は、面倒で時間がかかることがあります。

この問題に対処するため、Google Next ‘24 BigQuery 新しいデータ分析情報機能のプレビューを発表しました。この機能を使用すると、テーブルに対する関連性の高い実行可能なクエリをワンクリックで生成することができます。これらの機能は Gemini in BigQuery の一部として利用でき、Dataplex のテーブルのメタデータとプロファイリング情報を利用します。

このブログ投稿では、大企業で働くデータ アナリストである Alex が、新しい BigQuery データ分析情報機能を使用して分析ワークフローを高速化する方法について説明します。多くのデータ専門家と同様、彼は新しいデータセットを調べるとき、「コールド スタート」の問題によく直面します。扱うデータに関する事前知識がほとんど、またはまったくない場合、パターンを特定することは困難であり、ましてや貴重な分析情報を引き出すことはさらに困難です。さらに、生成されたクエリのグラウンディングのコンセプトと、このプロセスに関係するさまざまなペルソナのロールについても詳しく説明します。

データ分析情報によりコールド スタートの問題に対処する

データ分析情報は、Google Gemini モデルを活用し、テーブルのメタデータを利用することにより、テーブル内の隠れたパターンに関する有益なクエリを生成します。データ型、統計的な概要、その他のメタデータ属性を分析することにより、Alex のようなデータ アナリストがコールド スタートの問題を克服し、データ探索の可能性を最大限に引き出せるようサポートします。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/BigQuery_Data_Insights.gif

「データ分析情報機能は、テーブルを理解しているように感じられました。作成時刻、取引 ID などのそれほど役に立たない列をフィルタで除外する一方、金額、インテント タイプ、銀行名、アプリ バージョン、プラットフォームなどの重要な列が目立つように表示してくれました。」- 金融サービス業界、プロダクト マネージャー

データの関連性と精度を確保するため、生成されたクエリをグラウンディング

BigQuery データ分析情報の主な特徴の一つは、生成されたクエリをグラウンディングできることです。これは、クエリがデータセット内の実際のデータ分布とパターンに基づいており、クエリの関連性と精度が確保されていることを意味します。グラウンディング プロセスの内容は次のとおりです。

  1. プロファイル スキャンデータを分析する: データ分析情報は、データ型、統計的な概要、その他のメタデータ属性などの情報を含む、データセットの公開されたプロファイル スキャンデータを調べます。

  2. データ分布に基づいてクエリを生成する: データ分析情報は、プロファイル スキャンデータを使用して、データセット内の特定のデータ分布とパターンに合わせたクエリを作成します。

  3. クエリを検証する: 生成されたクエリは、関連性と精度を確保するため検証されます。

2 つの主なペルソナ: 管理者とデータ利用者

BigQuery のデータ分析情報を使用することから恩恵を受けられる 2 つの主なペルソナは次のとおりです。

管理者 - データ分析情報機能を使用して分析情報を生成します。通常、管理者には、データ スチュワード、データ ガバナー、または基盤となるデータへの必要な権限とアクセス権を持つその他の技術系ユーザーが含まれます。

データ利用者 - 基盤となるデータに直接アクセスすることなく、生成されたクエリを表示および実行できます。データ利用者には、ビジネス アナリスト、データ サイエンティスト、または BigQuery データ分析情報によって生成された分析情報を利用して情報に基づく意思決定を行うその他の非技術系ユーザーが含まれる場合があります。このシナリオでは、Alex はデータ利用者です。

BigQuery データ分析情報を使用する

データの BigQuery データ分析情報を使用する手順は次のとおりです。

  1. データ分析情報にアクセスする: データが BigQuery にある状態で、Google Cloud コンソールの BigQuery Studio に移動します。BigQuery Studio では、テーブルとそれに関連するメタデータの概要を確認できます。

  2. クエリを生成する: テーブルを選択し、[分析情報を生成] ボタンをクリックします。データ分析情報によりメタデータが分析され、データセットに合わせた有益なクエリのリストが生成されます。

  3. クエリを確認して絞り込む: 生成されたクエリを調べ、必要に応じて絞り込みます。

  4. クエリを実行する: テーブルに対してクエリを実行し、結果を分析して貴重な分析情報を引き出します。

より優れたデータ分析情報を引き出すための Alex の取り組み

Alex は当初、新しいデータセットを扱う際、スピードを向上させるのに苦労していました。しかし、BigQuery データ分析情報を使い始めてからは、データ探索プロセスを合理化することができました。データ分析情報によって、Alex の作業に次のものがもたらされました。

  1. 効率的なデータ探索: データ分析情報は、メタデータに基づいて有益なクエリを自動的に生成するため、Alex は新しいテーブルをより効率的かつ独立して探索できるようになりました。

  2. 時間とリソースの節約: 複雑さが低いか中程度のデータ分析タスクはデータ分析情報によって処理されるため、Alex はより困難なプロジェクトに集中し、貴重な時間とリソースを節約することができました。

  3. コラボレーションと民主化: データ分析情報により、Alex の組織内の非技術系ユーザーがデータ分析にアクセスしやすくなったため、コラボレーションが促され、データ解釈への統一的なアプローチが推進されました。

  4. リアルタイムの分析情報: データ分析情報により、継続的に流れるビジネスデータから分析情報が自動的に引き出されるため、Alex とそのチームは変化するビジネス状況にリアルタイムで対応することができました。

BigQuery の分析情報生成機能は、新しい分析情報を提供するだけでなく、派生クエリの実行プロセスも簡素化してくれるところがすばらしいです。このツールは、私が最初に考えていたものを超える、新鮮な視点によって私を驚かせてくれました。ユーザー フレンドリーなつくりで誰でも利用できるため、効率的なクエリ実行が可能になります。」- 再生可能エネルギー業界、データ アナリスト

データから分析情報をすばやく引き出す

BigQuery データ分析情報は、データから貴重な分析情報を引き出すことができる強力なツールです。テーブルのメタデータを活用することにより、データ探索プロセスが合理化され、データ専門家がより困難なタスクに集中できるようになります。生成されたクエリのグラウンディングにより、分析情報の関連性と精度が確保されると同時に、2 つの主なペルソナ(管理者とデータ利用者)がデータ分析のコラボレーションと民主化を促します。

データ分析情報の詳細を確認し、データの探索および分析方法を再考するには、ドキュメントをご覧ください。

ー データ分析担当プロダクト マネージャー Sai Charan Tej Kommuri

投稿先