データ分析情報があると、データを自動的に探索して理解できます。データ分析情報を使用すると、Gemini はメタデータを使用してテーブルとクエリに関する自然言語の質問を生成し、それらに回答します。これにより、パターンの検出、データ品質の評価、統計分析を行うことができます。
このドキュメントでは、データ分析情報の主な機能と、有益なデータ探索のためにデータ分析情報を表示する方法について説明します。
始める前に
データ分析情報は Gemini in BigQuery を使用して生成され、BigQuery Studio でのみ生成できます。まず、Gemini in BigQuery を設定します。次に、BigQuery で分析情報を生成します。Gemini は、インサイト用のメタデータを us-central1
リージョンでのみ処理します。詳細については、Gemini のサービス提供ロケーションをご覧ください。分析情報を生成したら、Dataplex で表示できます。
必要なロール
生成された分析情報への読み取り専用アクセス権を取得するには、次の IAM ロールを付与するよう管理者に依頼してください。
- 分析情報を表示する BigQuery テーブルを含むプロジェクトに対する Dataplex DataScan データ閲覧者(
roles/dataplex.dataScanDataViewer
)
ロールの付与の詳細については、サービス アカウントに対するアクセスの管理をご覧ください。
必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。 分析情報を生成するために必要な正確な権限については、「必要な権限」セクションを開いてください。
必要な権限
dataplex.datascans.get
dataplex.datascans.getData
API を有効にする
データ分析情報を使用するには、プロジェクトで次の API を有効にします。
Gemini for Google Cloud API の有効化の詳細については、 Google Cloud プロジェクトで Gemini for Google Cloud API を有効にするをご覧ください。
データ分析情報について
データ アナリストは、精通していない新しいテーブルを探索するときに、多くのケースでコールド スタートの問題に直面します。多くの場合、この問題には、データ構造、キーパターン、データ内の関連する分析情報に関する不確実性が伴い、クエリの作成を開始するのが困難になります。
データ分析情報は、テーブルのメタデータに基づいて自然言語クエリとその SQL 同等物を自動的に生成することで、コールド スタートの問題に対処します。空のクエリエディタから始めるのではなく、有益な分析情報を提供する意味のあるクエリを使用して、データ探索をすばやく開始できます。詳しく調査するには、データ キャンバスでフォローアップの質問をします。
分析情報の実行例
次のメタデータを持つ telco_churn
というテーブルについて考えてみましょう。
フィールド名 | 型 |
---|---|
CustomerID | STRING |
性別 | STRING |
Tenure | INT64 |
InternetService | STRING |
StreamingTV | STRING |
OnlineBackup | STRING |
契約 | STRING |
TechSupport | STRING |
PaymentMethod | STRING |
MonthlyCharges | FLOAT |
チャーン | BOOLEAN |
データ分析情報によってこのテーブルに対して生成されるクエリのサンプルを次に示します。
すべてのプレミアム サービスを定期購入していて、50 か月以上定期購入している顧客を特定します。
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;
解約した顧客が最も多いインターネット サービスを特定します。
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;
価値の高い顧客のセグメント別解約率を特定します。
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
統計情報を表示
BigQuery テーブルの分析情報を表示するには、Dataplex Search を使用して Dataplex のテーブル エントリにアクセスします。
Google Cloud コンソールで、Dataplex の [検索] ページに移動します。
BigQuery でテーブル エントリを検索します。
[分析情報] タブをクリックします。タブが空の場合、このテーブルの分析情報はまだ生成されていません。 BigQuery Studio でデータ分析情報を生成できます。
料金
この機能の料金の詳細については、Gemini in BigQuery の料金の概要をご覧ください。
割り当てと上限
この機能の割り当てと上限については、Gemini in BigQuery の割り当てをご覧ください。
制限事項
- データ分析情報は、BigQuery テーブル、BigLake テーブル、外部テーブル、ビューで使用できます。
- マルチクラウドのお客様の場合、他のクラウドのデータは利用できません。
- データ分析情報は、
Geo
またはJSON
の列タイプをサポートしていません。 - 分析情報の実行で、毎回クエリが表示されるとは限りません。関連性のより高いクエリが生成されやすくするには、BigQuery Studio で分析情報を再生成します。
次のステップ
- BigQuery で分析情報を生成する方法を確認する。
- データ プロファイリング スキャンを生成する方法を確認する。
- BigQuery で Gemini の支援機能を使用してクエリを作成する方法を学習する。