Diese Seite wurde von der Cloud Translation API übersetzt.

Auf Datenstatistiken im Dataplex Universal Catalog zugreifen

Über Data Insights können Sie Ihre Daten automatisch untersuchen und verstehen. Bei Daten-Insights verwendet Gemini in BigQuery Metadaten, um Fragen in natürlicher Sprache zu Ihrer Tabelle und die Abfragen zu generieren, mit denen sie beantwortet werden. So können Sie Muster erkennen, die Datenqualität bewerten und statistische Analysen auslösen.

In diesem Dokument werden die wichtigsten Funktionen von Data Insights und die Vorgehensweise zum Aufrufen von Data Insights für eine aufschlussreiche Datenexploration beschrieben.

Hinweise

Datenstatistiken werden mit Gemini in BigQuery generiert und können nur in BigQuery Studio generiert werden. Richten Sie zuerst Gemini in BigQuery ein und generieren Sie dann Statistiken in BigQuery. Gemini verarbeitet Ihre Metadaten für Statistiken ausschließlich in der Region us-central1. Weitere Informationen finden Sie unter Gemini-Bereitstellungsorte. Nachdem Sie Statistiken generiert haben, können Sie sie im Dataplex Universal Catalog ansehen.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgende IAM-Rolle zuzuweisen, um Lesezugriff auf die generierten Statistiken zu erhalten:

Dataplex DataScan DataViewer (roles/dataplex.dataScanDataViewer) im Projekt mit den BigQuery-Tabellen, für die Sie die Statistiken ansehen.

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die genauen Berechtigungen anzuzeigen, die zum Generieren von Statistiken erforderlich sind:

Erforderliche Berechtigungen

dataplex.datascans.get
dataplex.datascans.getData

APIs aktivieren

Aktivieren Sie die folgenden APIs in Ihrem Projekt, um Data Insights zu verwenden: Dataplex API, BigQuery API und Gemini for Google Cloud API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Weitere Informationen zum Aktivieren der Gemini for Google Cloud API finden Sie unter Gemini for Google Cloud API in einem Google Cloud Projekt aktivieren.

Informationen zu Data Insights

Bei der explorativen Datenanalyse einer neuen, unbekannten Tabelle stehen Datenanalysten oft vor dem Kaltstartproblem. Das Problem beinhaltet häufig Unsicherheiten in Bezug auf die Datenstruktur, Schlüsselmuster und relevante Einblicke in den Daten, was den Einstieg in das Schreiben von Abfragen erschwert.

Data Insights beheben das Kaltstartproblem, indem automatisch Abfragen in natürlicher Sprache und ihre SQL-Entsprechungen anhand der Metadaten einer Tabelle generiert werden. Anstatt bei Null anzufangen, können Sie die Datenexploration schneller über aussagekräftige Abfragen starten, die wertvolle Informationen bieten. Wenn Sie die Ergebnisse weiter untersuchen möchten, können Sie im Data Canvas Folgefragen stellen.

Beispiel für eine Ausführung von Statistiken

Angenommen, Sie haben eine Tabelle mit dem Namen telco_churn mit den folgenden Metadaten:

Feldname	Typ
Kundennummer	`STRING`
Geschlecht	`STRING`
Zugehörigkeit zum Unternehmen	`INT64`
InternetService	`STRING`
StreamingTV	`STRING`
OnlineBackup	`STRING`
Vertrag	`STRING`
TechSupport	`STRING`
Zahlungsmethode	`STRING`
Monatliche Gebühren	`FLOAT`
Abwanderung	`BOOLEAN`

Im Folgenden finden Sie einige der Beispielabfragen, die von Data Insights für diese Tabelle generiert werden:

Kunden ermitteln, die alle Premiumdienste abonniert haben und seit mehr als 50 Monaten Kunde sind.

SELECT
  CustomerID,
  Contract,
  Tenure
FROM
  agentville_datasets.telco_churn
WHERE
  OnlineBackup = 'Yes'
  AND TechSupport = 'Yes'
  AND StreamingTV = 'Yes'
  AND Tenure > 50;

Ermitteln, welcher Internetdienst die meisten abgewanderten Kunden hat.

SELECT
  InternetService,
  COUNT(DISTINCT CustomerID) AS total_customers
FROM
  agentville_datasets.telco_churn
WHERE
  Churn = TRUE
GROUP BY
  InternetService
ORDER BY
  total_customers DESC
LIMIT 1;

Abwanderungsraten nach Segment bei Kunden mit hohem Umsatzpotenzial ermitteln

SELECT
  Contract,
  InternetService,
  Gender,
  PaymentMethod,
  COUNT(DISTINCT CustomerID) AS total_customers,
  SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
  (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
  * 100 AS churn_rate
FROM
  agentville_datasets.telco_churn
WHERE
  MonthlyCharges > 100
GROUP BY
  Contract,
  InternetService,
  Gender,
  PaymentMethod;

Statistiken ansehen

Wenn Sie Statistiken für eine BigQuery-Tabelle aufrufen möchten, greifen Sie mit der Dataplex Universal Catalog-Suche auf den Tabelleneintrag im Dataplex Universal Catalog zu.

Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Suche auf.

Zur Suche
Suchen Sie im Dataplex Universal Catalog nach dem Tabelleneintrag.
Klicken Sie auf den Tab Statistiken. Wenn der Tab leer ist, wurden die Statistiken für diese Tabelle noch nicht generiert. In BigQuery Studio können Sie Data Insights generieren.

Preise

Weitere Informationen zu den Preisen für diese Funktion finden Sie unter Preisübersicht für Gemini in BigQuery.

Kontingente und Limits

Informationen zu Kontingenten und Limits für diese Funktion finden Sie unter Kontingente für Gemini in BigQuery.

Standorte

Gemini ist global verfügbar. Sie können die Datenverarbeitung daher nicht auf eine bestimmte Region beschränken. Weitere Informationen zu den Standorten, an denen Daten von Gemini in BigQuery verarbeitet werden, finden Sie unter Gemini-Bereitstellungsorte.

Beschränkungen

Data Insights sind für BigQuery-Tabellen, BigLake-Tabellen, externe Tabellen und Ansichten verfügbar.
Für Kunden mit mehreren Clouds sind keine Daten aus anderen Clouds verfügbar.
Data Insights unterstützen die Spaltentypen Geo und JSON nicht.
Insights-Ausführungen bedeuten nicht, dass jedes Mal Abfragen dargestellt werden. Wenn Sie die Wahrscheinlichkeit erhöhen möchten, dass nützlichere Abfragen generiert werden, können Sie die Statistiken in BigQuery Studio neu generieren.