データ分析情報があると、データを自動的に探索して理解できます。データ分析情報を使用すると、Gemini はメタデータを使用してテーブルとクエリに関する自然言語の質問を生成し、それらの質問に回答します。これにより、パターンの検出、データ品質の評価、統計分析を行うことができます。
このドキュメントでは、データ分析情報の主な機能と、有益なデータ探索のためにデータ分析情報を表示する方法について説明します。
始める前に
データ分析情報は Gemini in BigQuery を使用して生成され、BigQuery Studio でのみ生成できます。まず、Gemini in BigQuery を設定します。次に、BigQuery で分析情報を生成します。Gemini は、インサイト用のメタデータを us-central1
リージョンでのみ処理します。詳細については、Gemini のサービス提供ロケーションをご覧ください。分析情報を生成したら、Dataplex で表示できます。
必要なロール
生成された分析情報への読み取り専用アクセス権を取得するには、次の IAM ロールを付与するよう管理者に依頼してください。
- 分析情報を表示する BigQuery テーブルを含むプロジェクトに対する Dataplex DataScan データ閲覧者(
roles/dataplex.dataScanDataViewer
)
ロールの付与については、プロジェクト、フォルダ、組織へのアクセスを管理するをご覧ください。
必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。 分析情報を生成するために必要な正確な権限については、「必要な権限」セクションを開いてください。
必要な権限
dataplex.datascans.get
dataplex.datascans.getData
API を有効にする
データ分析情報を使用するには、プロジェクトで次の API を有効にします。
Gemini for Google Cloud API の有効化の詳細については、Google Cloud プロジェクトで Gemini for Google Cloud API を有効にするをご覧ください。
データ分析情報について
データ アナリストは、精通していない新しいテーブルを探索するときに、多くのケースでコールド スタートの問題に直面します。多くの場合、この問題には、データ構造、キーパターン、データ内の関連する分析情報に関する不確実性が伴い、クエリの作成を開始するのが困難になります。
データ分析情報は、テーブルのメタデータに基づいて自然言語クエリとその SQL 同等物を自動的に生成することで、コールド スタートの問題に対処します。空のクエリエディタから始めるのではなく、有益な分析情報を提供する意味のあるクエリを使用して、データ探索をすばやく開始できます。 詳しく調査するには、データ キャンバスでフォローアップの質問をします。
分析情報の実行例
次のメタデータを持つ telco_churn
というテーブルについて考えてみましょう。
フィールド名 | 型 |
---|---|
CustomerID | STRING |
性別 | STRING |
Tenure | INT64 |
InternetService | STRING |
StreamingTV | STRING |
OnlineBackup | STRING |
契約 | STRING |
TechSupport | STRING |
PaymentMethod | STRING |
MonthlyCharges | FLOAT |
チャーン | BOOLEAN |
データ分析情報によってこのテーブルに対して生成されるクエリのサンプルを次に示します。
すべてのプレミアム サービスを定期購入していて、50 か月以上定期購入している顧客を特定します。
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;
解約した顧客が最も多いインターネット サービスを特定します。
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;
価値の高い顧客のセグメント別解約率を特定します。
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
統計情報を表示
BigQuery テーブルの分析情報を表示するには、Dataplex Search を使用して Dataplex のテーブル エントリにアクセスします。
Google Cloud コンソールで、Dataplex の [検索] ページに移動します。
BigQuery でテーブル エントリを検索します。
[分析情報] タブをクリックします。タブが空の場合、このテーブルの分析情報はまだ生成されていません。 BigQuery Studio でデータ分析情報を生成できます。
料金
この機能の料金の詳細については、Gemini in BigQuery の料金の概要をご覧ください。
割り当てと上限
この機能の割り当てと上限については、Gemini in BigQuery の割り当てをご覧ください。
制限事項
- データ分析情報は、BigQuery テーブル、BigLake テーブル、外部テーブル、ビューで使用できます。
- マルチクラウドのお客様の場合、他のクラウドのデータは利用できません。
- データ分析情報は、
Geo
またはJSON
の列タイプをサポートしていません。 - 分析情報の実行で、毎回クエリが表示されるとは限りません。関連性のより高いクエリが生成されやすくするには、BigQuery Studio で分析情報を再生成します。
次のステップ
- BigQuery で分析情報を生成する方法を確認する。
- データ プロファイリング スキャンを生成する方法を確認する。
- BigQuery で Gemini の支援機能を使用してクエリを作成する方法を学習する。