Über Data Insights können Sie Ihre Daten automatisch untersuchen und verstehen. Mit Gemini werden Abfragen anhand der Metadaten einer Tabelle generiert. Damit können Sie Muster erkennen, die Datenqualität bewerten und statistische Analysen auslösen.
In diesem Dokument werden die wichtigsten Features von Datenstatistiken und deren Anzeige beschrieben. aufschlussreiche Datenerkundung.
Hinweise
Datenstatistiken werden mit Gemini in BigQuery generiert und können nur in BigQuery Studio generiert werden. Zuerst Gemini in BigQuery einrichten, dann Statistiken in BigQuery generieren. Nachdem Sie Statistiken erstellt haben, können Sie sie in Dataplex aufrufen.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die folgende IAM-Rolle zuzuweisen, um Lesezugriff auf die generierten Statistiken zu erhalten:
- Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer
) im Projekt mit den BigQuery-Tabellen, für die Sie die Statistiken ansehen.
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Dienstkonten verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die genauen Berechtigungen anzuzeigen, die zum Generieren von Statistiken erforderlich sind:
Erforderliche Berechtigungen
dataplex.datascans.get
dataplex.datascans.getData
APIs aktivieren
Aktivieren Sie die folgenden APIs in Ihrem Projekt, um Data Insights zu verwenden:
Weitere Informationen zum Aktivieren von Gemini for Google Cloud API finden Sie unter Gemini für Google Cloud API in einem Google Cloud-Projekt aktivieren.
Informationen zu Data Insights
Bei der explorativen Datenanalyse einer neuen, unbekannten Tabelle stehen Datenanalysten oft vor dem Kaltstartproblem. Das Problem beinhaltet häufig Unsicherheiten in Bezug auf die Datenstruktur, Schlüsselmuster und relevante Einblicke in den Daten, was den Einstieg in das Schreiben von Abfragen erschwert. Data Insights beheben das Kaltstartproblem, indem automatisch Abfragen in natürlicher Sprache und SQL anhand der Metadaten der Tabelle generiert werden. Anstatt bei Null anzufangen, können Sie die Datenexploration schneller über aussagekräftige Abfragen starten, die wertvolle Informationen bieten. Abfragen, die mit Datenstatistiken generiert wurden, basieren auf veröffentlichten Daten-Profilerstellungsergebnisse, um die Genauigkeit und Nützlichkeit.
Beispiel für eine Ausführung von Statistiken
Angenommen, Sie haben eine Tabelle namens telco_churn
mit den folgenden Metadaten:
Feldname | Typ |
---|---|
Kundennummer | STRING |
Geschlecht | STRING |
Zugehörigkeit zum Unternehmen | INT64 |
InternetService | STRING |
StreamingTV | STRING |
OnlineBackup | STRING |
Vertrag | STRING |
TechSupport | STRING |
Zahlungsmethode | STRING |
Monatliche Gebühren | FLOAT |
Abwanderung | BOOLEAN |
Im Folgenden finden Sie einige der Beispielabfragen, die von Data Insights für diese Tabelle generiert werden:
Kunden ermitteln, die alle Premiumdienste abonniert haben und seit mehr als 50 Monaten Kunde sind.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;
Ermitteln, welcher Internetdienst die meisten abgewanderten Kunden hat.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;
Ermitteln Sie die Abwanderungsraten von Kund*innen mit hohem Umsatzpotenzial nach Segment.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Statistiken ansehen
Wenn Sie Statistiken für eine BigQuery-Tabelle aufrufen möchten, greifen Sie mit der Dataplex-Suche auf den Tabelleneintrag in Dataplex zu.
Rufen Sie in der Google Cloud Console die Seite der Dataplex-Suche auf.
Suchen Sie in Dataplex nach dem Tabelleneintrag.
Klicken Sie auf den Tab Statistiken. Wenn der Tab leer ist, wurden die Statistiken für diese Tabelle noch nicht erstellt. In BigQuery Studio können Sie Statistiken generieren.
Preise
Weitere Informationen zu den Preisen für diese Funktion finden Sie unter Preisübersicht für Gemini in BigQuery.
Kontingente und Limits
Informationen zu Kontingenten und Limits für diese Funktion finden Sie unter Kontingente für Gemini in BigQuery.
Beschränkungen
- Data Insights sind für BigQuery-Tabellen, BigLake-Tabellen, externe Tabellen und Ansichten verfügbar.
- Für Multi-Cloud-Kunden sind keine Daten aus anderen Clouds verfügbar.
- Data Insights unterstützen die Spaltentypen
Geo
undJSON
nicht. - Insights-Ausführungen bedeuten nicht, dass jedes Mal Abfragen dargestellt werden. Bis erhöhen Sie die Wahrscheinlichkeit, dass Nutzer ansprechendere Suchanfragen generieren, Statistiken in BigQuery Studio erstellen.
Nächste Schritte
- Informationen zum Erstellen von Statistiken in BigQuery
- Datenprofilerstellungsscan generieren
- Abfragen mit Gemini-Unterstützung in BigQuery schreiben.