Dataplex のデータ分析情報にアクセスする

データ分析情報があると、データを自動的に探索して理解できます。データ分析情報を使用すると、Gemini はメタデータを使用してテーブルとクエリに関する自然言語の質問を生成し、それらに回答します。これにより、パターンの検出、データ品質の評価、統計分析を行うことができます。

このドキュメントでは、データ分析情報の主な機能と、有益なデータ探索のためにデータ分析情報を表示する方法について説明します。

始める前に

データ分析情報は Gemini in BigQuery を使用して生成され、BigQuery Studio でのみ生成できます。まず、Gemini in BigQuery を設定します。次に、BigQuery で分析情報を生成します。Gemini は、インサイト用のメタデータを us-central1 リージョンでのみ処理します。詳細については、Gemini のサービス提供ロケーションをご覧ください。分析情報を生成したら、Dataplex で表示できます。

必要なロール

生成された分析情報への読み取り専用アクセス権を取得するには、次の IAM ロールを付与するよう管理者に依頼してください。

ロールの付与の詳細については、サービス アカウントに対するアクセスの管理をご覧ください。

必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。 分析情報を生成するために必要な正確な権限については、「必要な権限」セクションを開いてください。

必要な権限

  • dataplex.datascans.get
  • dataplex.datascans.getData

API を有効にする

データ分析情報を使用するには、プロジェクトで次の API を有効にします。

Gemini for Google Cloud API の有効化の詳細については、 Google Cloud プロジェクトで Gemini for Google Cloud API を有効にするをご覧ください。

データ分析情報について

データ アナリストは、精通していない新しいテーブルを探索するときに、多くのケースでコールド スタートの問題に直面します。多くの場合、この問題には、データ構造、キーパターン、データ内の関連する分析情報に関する不確実性が伴い、クエリの作成を開始するのが困難になります。

データ分析情報は、テーブルのメタデータに基づいて自然言語クエリとその SQL 同等物を自動的に生成することで、コールド スタートの問題に対処します。空のクエリエディタから始めるのではなく、有益な分析情報を提供する意味のあるクエリを使用して、データ探索をすばやく開始できます。詳しく調査するには、データ キャンバスでフォローアップの質問をします。

分析情報の実行例

次のメタデータを持つ telco_churn というテーブルについて考えてみましょう。

フィールド名
CustomerID STRING
性別 STRING
Tenure INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
契約 STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
チャーン BOOLEAN

データ分析情報によってこのテーブルに対して生成されるクエリのサンプルを次に示します。

  • すべてのプレミアム サービスを定期購入していて、50 か月以上定期購入している顧客を特定します。

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • 解約した顧客が最も多いインターネット サービスを特定します。

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • 価値の高い顧客のセグメント別解約率を特定します。

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

統計情報を表示

BigQuery テーブルの分析情報を表示するには、Dataplex Search を使用して Dataplex のテーブル エントリにアクセスします。

  1. Google Cloud コンソールで、Dataplex の [検索] ページに移動します。

    [Dataplex Search] に移動

  2. BigQuery でテーブル エントリを検索します。

  3. [分析情報] タブをクリックします。タブが空の場合、このテーブルの分析情報はまだ生成されていません。 BigQuery Studio でデータ分析情報を生成できます。

料金

この機能の料金の詳細については、Gemini in BigQuery の料金の概要をご覧ください。

割り当てと上限

この機能の割り当てと上限については、Gemini in BigQuery の割り当てをご覧ください。

制限事項

  • データ分析情報は、BigQuery テーブル、BigLake テーブル、外部テーブル、ビューで使用できます。
  • マルチクラウドのお客様の場合、他のクラウドのデータは利用できません。
  • データ分析情報は、Geo または JSON の列タイプをサポートしていません。
  • 分析情報の実行で、毎回クエリが表示されるとは限りません。関連性のより高いクエリが生成されやすくするには、BigQuery Studio で分析情報を再生成します。

次のステップ