Data Insights in BigQuery generieren
Über Data Insights können Sie Ihre Daten automatisch untersuchen und verstehen. Bei Datenerkenntnissen verwendet Gemini Metadaten, um Fragen in natürlicher Sprache zu Ihrer Tabelle und die Abfragen zur Beantwortung dieser Fragen zu generieren. So können Sie Muster erkennen, die Datenqualität bewerten und statistische Analysen ausführen.
In diesem Dokument werden die wichtigsten Features von Data Insights und der Prozess zur Automatisierung der Abfragegenerierung für eine aufschlussreiche Datenexploration beschrieben.
Hinweise
Datenstatistiken werden mit Gemini in BigQuery generiert. Damit Sie Statistiken generieren können, müssen Sie zuerst Gemini in BigQuery einrichten. Gemini verarbeitet Ihre Daten möglicherweise nicht in der Region, in der sie gespeichert sind. Weitere Informationen finden Sie unter Gemini-Auslieferungsstandorte.
Erforderliche Rollen
Wenn Sie Datenstatistiken erstellen, verwalten und abrufen möchten, bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen:
Dataplex DataScan-Bearbeiter (
roles/dataplex.dataScanEditor
) oder Dataplex DataScan-Administrator (roles/dataplex.dataScanAdmin
) für das Projekt, in dem Sie Statistiken generieren möchten.BigQuery-Datenbetrachter (
roles/bigquery.dataViewer
) für die BigQuery-Tabellen, für die Sie Statistiken generieren möchten.BigQuery-Dateneditor (
roles/bigquery.dataEditor
) für die BigQuery-Tabellen, für die Sie Statistiken generieren möchten.BigQuery-Nutzer (
roles/bigquery.user
) oder BigQuery Studio-Nutzer (roles/bigquery.studioUser
) für das Projekt, für das Sie Statistiken generieren möchten.
Bitten Sie Ihren Administrator, Ihnen die folgende IAM-Rolle zuzuweisen, um Lesezugriff auf die generierten Statistiken zu erhalten:
- Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer
) im Projekt mit den BigQuery-Tabellen, für die Sie die Statistiken ansehen.
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Dienstkonten verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die genauen Berechtigungen anzuzeigen, die zum Generieren von Statistiken erforderlich sind:
Erforderliche Berechtigungen
bigquery.jobs.create
bigquery.tables.get
bigquery.tables.getData
dataplex.datascans.create
dataplex.datascans.get
dataplex.datascans.getData
dataplex.datascans.run
APIs aktivieren
Aktivieren Sie die folgenden APIs in Ihrem Projekt, um Data Insights zu verwenden:
Weitere Informationen zum Aktivieren von Gemini for Google Cloud API finden Sie unter Gemini für Google Cloud API in einem Google Cloud-Projekt aktivieren.
Informationen zu Data Insights
Bei der explorativen Datenanalyse einer neuen, unbekannten Tabelle stehen Datenanalysten oft vor dem Kaltstartproblem. Das Problem beinhaltet häufig Unsicherheiten in Bezug auf die Datenstruktur, Schlüsselmuster und relevante Einblicke in den Daten, was den Einstieg in das Schreiben von Abfragen erschwert.
Data Insights beheben das Kaltstartproblem, indem automatisch Abfragen in natürlicher Sprache und ihre SQL-Äquivalente anhand der Metadaten einer Tabelle generiert werden. Anstatt bei Null anzufangen, können Sie die Datenexploration schneller über aussagekräftige Abfragen starten, die wertvolle Informationen bieten. Wenn Sie weitere Untersuchungen durchführen möchten, können Sie im Datencanvas weiterführende Fragen stellen.
Beispiel für eine Ausführung von Statistiken
Angenommen, Sie haben eine Tabelle namens telco_churn
mit den folgenden Metadaten:
Feldname | Typ |
---|---|
Kundennummer | STRING |
Geschlecht | STRING |
Zugehörigkeit zum Unternehmen | INT64 |
InternetService | STRING |
StreamingTV | STRING |
OnlineBackup | STRING |
Vertrag | STRING |
TechSupport | STRING |
Zahlungsmethode | STRING |
Monatliche Gebühren | FLOAT |
Abwanderung | BOOLEAN |
Im Folgenden finden Sie einige der Beispielabfragen, die von Data Insights für diese Tabelle generiert werden:
Kunden ermitteln, die alle Premiumdienste abonniert haben und seit mehr als 50 Monaten Kunde sind.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;
Ermitteln, welcher Internetdienst die meisten abgewanderten Kunden hat.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;
Segmentspezifische Abwanderungsraten bei Kunden mit hohem Umsatzpotenzial ermitteln
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Best Practices
Mit den folgenden Best Practices können Sie die Genauigkeit der generierten Statistiken verbessern:
Erkenntnisse auf Ergebnisse der Datenprofilerstellung stützen
Bei der generativen KI ist Fundierung die Fähigkeit, die Modellausgabe mit überprüfbaren Informationsquellen zu verbinden. Sie können die generierten Statistiken auf die Ergebnisse der Datenprofilerstellung stützen. Bei der Datenprofilerstellung werden die Spalten in Ihren BigQuery-Tabellen analysiert und allgemeine statistische Merkmale wie typische Datenwerte und die Datenverteilung ermittelt. Wenn Sie einen Datenprofilscan für eine Tabelle erstellen, können Sie die Scanergebnisse in BigQuery und Dataplex Catalog veröffentlichen. In BigQuery werden die Ergebnisse des Datenprofilings verwendet, um genauere und relevantere Abfragen zu erstellen. Dazu gehen Sie so vor:
- Die Ergebnisse der Datenprofilierung werden analysiert, um interessante Muster, Trends oder Ausreißer in den Daten zu identifizieren.
- Es werden Abfragen generiert, die sich auf diese Muster, Trends oder Ausreißer konzentrieren, um Statistiken zu gewinnen.
- Die generierten Abfragen werden anhand der Ergebnisse der Datenprofilerstellung validiert, um sicherzustellen, dass die Abfragen aussagekräftige Ergebnisse zurückgeben.
Ohne Datenprofil-Scans enthalten die von Gemini generierten Abfragen mit höherer Wahrscheinlichkeit ungenaue Klauseln oder liefern unsinnige Ergebnisse.
Achten Sie darauf, dass der Datenprofilierungs-Scan für Ihre Tabelle auf dem neuesten Stand ist und die Ergebnisse in BigQuery veröffentlicht werden.
Sie können die Einstellungen für das Datenprofil anpassen, um die Stichprobengröße zu erhöhen und Zeilen und Spalten herausfiltern. Generieren Sie Statistiken neu, nachdem Sie einen neuen Datenprofilierungs-Scan ausgeführt haben.
Tabellenbeschreibung hinzufügen
Detaillierte Tabellenbeschreibungen, in denen Sie angeben, was Sie in Ihrer Tabelle analysieren möchten, können Gemini in BigQuery dabei helfen, relevantere Statistiken zu erstellen. Nachdem Sie eine Tabellenbeschreibung hinzugefügt haben, generieren Sie die Statistiken neu.
Sie könnten der Tabelle telco_churn
beispielsweise die folgende Beschreibung hinzufügen: „In dieser Tabelle werden Daten zur Kundenabwanderung erfasst, einschließlich Abodetails, Dauer und Dienstnutzung, um das Kundenabwanderungsverhalten vorherzusagen.“
Spaltenbeschreibungen hinzufügen
Spaltenbeschreibungen, in denen erläutert wird, was die einzelnen Spalten bedeuten oder wie sie sich zueinander verhalten, können die Qualität Ihrer Statistiken verbessern. Nachdem Sie die Spaltenbeschreibungen in Ihrer Tabelle aktualisiert haben, generieren Sie die Statistiken neu.
Sie könnten beispielsweise bestimmten Spalten der Tabelle telco_churn
die folgenden Beschreibungen hinzufügen:
Tenure
: „Die Anzahl der Monate, in denen der Kunde den Dienst nutzt.“Churn
: „Ob der Kunde die Nutzung des Dienstes eingestellt hat. „TRUE“ gibt an, dass der Kunde den Dienst nicht mehr nutzt, „FALSE“, dass er aktiv ist.“
Statistiken für eine BigQuery-Tabelle generieren
Um Statistiken für eine BigQuery-Tabelle generieren zu können, müssen Sie mit BigQuery Studio auf den Tabelleneintrag in BigQuery zugreifen.
Wechseln Sie in der Google Cloud Console zu BigQuery Studio.
Wählen Sie im Bereich Explorer die Tabelle aus, für die Sie Statistiken erstellen möchten.
Klicken Sie auf den Tab Statistiken. Wenn der Tab leer ist, wurden die Statistiken für diese Tabelle noch nicht erstellt.
Klicken Sie zum Auslösen der Insight-Pipeline auf Statistiken generieren.
Es dauert einige Minuten, bis die Statistiken erfasst werden.
Wenn veröffentlichte Ergebnisse der Datenprofilerstellung für die Tabelle verfügbar sind, werden sie verwendet, um Statistiken zu generieren. Andernfalls werden Statistiken anhand der Spaltennamen und -beschreibungen generiert.
Sehen Sie sich auf dem Tab Statistiken die generierten Fragen in natürlicher Sprache an.
Klicken Sie auf die Frage, um die SQL-Abfrage aufzurufen, mit der sie beantwortet wird.
Klicken Sie auf In Abfrage kopieren, um eine Abfrage in BigQuery zu öffnen.
So stellen Sie Folgefragen:
Klicken Sie auf Weitere Frage stellen. Die Abfrage wird in einem neuen Daten-Canvas geöffnet.
Klicken Sie auf Ausführen und dann auf Diese Ergebnisse abfragen.
Wenn Sie eine Anschlussfrage stellen möchten, geben Sie einen Prompt in das Feld Natürliche Sprache ein oder bearbeiten Sie die SQL-Abfrage im Abfrageeditor.
Wenn Sie eine neue Reihe von Abfragen generieren möchten, klicken Sie auf Statistiken generieren und lösen Sie die Pipeline noch einmal aus.
Nachdem Sie Statistiken für eine Tabelle erstellt haben, können alle Nutzer mit der Berechtigung dataplex.datascans.getData
und Zugriff auf die Tabelle diese Statistiken aufrufen.
Statistiken für eine externe BigQuery-Tabelle generieren
BigQuery Data Insights unterstützt das Erstellen von Statistiken für externe BigQuery-Tabellen mit Daten in Cloud Storage.
Sie und das Dataplex-Dienstkonto für das aktuelle Projekt müssen die Rolle Storage-Objekt-Betrachter (roles/storage.objectViewer
) für den Cloud Storage-Bucket haben, der die Daten enthält. Weitere Informationen finden Sie unter Hauptkonto zu einer Richtlinie auf Bucket-Ebene hinzufügen.
Folgen Sie der Anleitung im Abschnitt Statistiken für eine BigQuery-Tabelle generieren, um Statistiken für eine externe BigQuery-Tabelle zu generieren.
Statistiken für eine BigLake-Tabelle generieren
So generieren Sie Statistiken für eine BigLake-Tabelle:
Aktivieren Sie die BigQuery Connection API in Ihrem Projekt.
BigQuery-Verbindung erstellen Weitere Informationen finden Sie unter Verbindungen verwalten.
Weisen Sie dem Dienstkonto, das der von Ihnen erstellten BigQuery-Verbindung entspricht, die IAM-Rolle „Storage Object Betrachter“ (
roles/storage.objectViewer
) zu.Sie können die Dienstkonto-ID über die Verbindungsdetails abrufen.
Folgen Sie dazu der Anleitung im Abschnitt Statistiken für eine BigQuery-Tabelle generieren dieses Dokuments.
Preise
Weitere Informationen zu den Preisen für diese Funktion finden Sie unter Preisübersicht für Gemini in BigQuery.
Kontingente und Limits
Informationen zu Kontingenten und Limits für diese Funktion finden Sie unter Kontingente für Gemini in BigQuery.
Beschränkungen
- Data Insights sind für BigQuery-Tabellen, BigLake-Tabellen, externe Tabellen und Ansichten verfügbar.
- Für Multi-Cloud-Kunden sind keine Daten aus anderen Clouds verfügbar.
- Data Insights unterstützen die Spaltentypen
Geo
undJSON
nicht. - Insights-Ausführungen bedeuten nicht, dass jedes Mal Abfragen dargestellt werden. Starten Sie die Insight-Pipeline noch einmal, um die Wahrscheinlichkeit zu erhöhen, nützlichere Abfragen zu erzeugen.
- Bei Tabellen mit Zugriffssteuerung auf Spaltenebene (Access Control Lists, ACLs) und eingeschränkten Nutzerberechtigungen können Sie Statistiken generieren, wenn Sie Lesezugriff auf alle Spalten der Tabelle haben. Zum Ausführen der generierten Abfragen benötigen Sie ausreichende Berechtigungen.
Nächste Schritte
- Weitere Informationen zur Dataplex-Datenprofilerstellung.
- Abfragen mit Gemini-Unterstützung in BigQuery schreiben.