Diese Seite wurde von der Cloud Translation API übersetzt.

Data Insights in BigQuery generieren

Data Insights bietet eine automatisierte Möglichkeit, Ihre Daten zu analysieren, zu verstehen und zu kuratieren. Mit Data Insights generiert Gemini in BigQuery anhand von Tabellenmetadaten Fragen in natürlicher Sprache und die SQL-Abfragen, mit denen sie beantwortet werden. Mithilfe dieser Statistiken können Sie Muster erkennen, die Datenqualität bewerten und statistische Analysen durchführen.

Sie können auch Tabellen- und Spaltenbeschreibungen auf Grundlage von Tabellenmetadaten generieren lassen. Mit diesem Feature können Sie Ihre Daten für aussagekräftige Analysen dokumentieren und die Auffindbarkeit von Datasets verbessern.

Auf dieser Seite werden die wichtigsten Funktionen von Data Insights und der Prozess zur Automatisierung der Abfragegenerierung für eine aufschlussreiche Datenexploration beschrieben.

Hinweise

Datenstatistiken werden mit Gemini in BigQuery generiert. Damit Sie Statistiken generieren können, müssen Sie zuerst Gemini in BigQuery einrichten.

Erforderliche Rollen

Wenn Sie Datenstatistiken erstellen, verwalten und abrufen möchten, bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen:

Dataplex DataScan-Bearbeiter (roles/dataplex.dataScanEditor) oder Dataplex DataScan-Administrator (roles/dataplex.dataScanAdmin) für das Projekt, in dem Sie Statistiken generieren möchten.
BigQuery-Datenbetrachter (roles/bigquery.dataViewer) für die BigQuery-Tabellen, für die Sie Statistiken generieren möchten.
BigQuery-Dateneditor (roles/bigquery.dataEditor) für die BigQuery-Tabellen, für die Sie Statistiken generieren möchten.
BigQuery-Nutzer (roles/bigquery.user) oder BigQuery Studio-Nutzer (roles/bigquery.studioUser) für das Projekt, für das Sie Statistiken generieren möchten.

Bitten Sie Ihren Administrator, Ihnen die folgende IAM-Rolle zuzuweisen, um Lesezugriff auf die generierten Statistiken zu erhalten:

Dataplex DataScan DataViewer (roles/dataplex.dataScanDataViewer) im Projekt mit den BigQuery-Tabellen, für die Sie die Statistiken ansehen.

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die genauen Berechtigungen anzuzeigen, die zum Generieren von Statistiken erforderlich sind:

Erforderliche Berechtigungen

bigquery.jobs.create
bigquery.tables.get
bigquery.tables.getData
dataplex.datascans.create
dataplex.datascans.get
dataplex.datascans.getData
dataplex.datascans.run

APIs aktivieren

Aktivieren Sie die folgenden APIs in Ihrem Projekt, um Data Insights zu verwenden: Dataplex API, BigQuery API und Gemini for Google Cloud API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Weitere Informationen zum Aktivieren der Gemini for Google Cloud API finden Sie unter Gemini for Google Cloud API in einem Projekt in Google Cloud aktivieren.

Informationen zu Data Insights

Bei der explorativen Datenanalyse einer neuen, unbekannten Tabelle stehen Datenanalysten oft vor dem Kaltstartproblem. Das Problem beinhaltet häufig Unsicherheiten in Bezug auf die Datenstruktur, Schlüsselmuster und relevante Einblicke in den Daten, was den Einstieg in das Schreiben von Abfragen erschwert.

Data Insights beheben das Kaltstartproblem, indem automatisch Abfragen in natürlicher Sprache und ihre SQL-Entsprechungen anhand der Metadaten einer Tabelle generiert werden. Anstatt bei Null anzufangen, können Sie die Datenexploration schneller über aussagekräftige Abfragen starten, die wertvolle Informationen bieten. Wenn Sie das Problem weiter untersuchen möchten, können Sie im Data Canvas Folgefragen stellen.

Beispiel für eine Ausführung von Statistiken

Angenommen, Sie haben eine Tabelle mit dem Namen telco_churn mit den folgenden Metadaten:

Feldname	Typ
Kundennummer	`STRING`
Geschlecht	`STRING`
Zugehörigkeit zum Unternehmen	`INT64`
InternetService	`STRING`
StreamingTV	`STRING`
OnlineBackup	`STRING`
Vertrag	`STRING`
TechSupport	`STRING`
Zahlungsmethode	`STRING`
Monatliche Gebühren	`FLOAT`
Abwanderung	`BOOLEAN`

Im Folgenden finden Sie einige der Beispielabfragen, die von Data Insights für diese Tabelle generiert werden:

Kunden ermitteln, die alle Premiumdienste abonniert haben und seit mehr als 50 Monaten Kunde sind.

SELECT
  CustomerID,
  Contract,
  Tenure
FROM
  agentville_datasets.telco_churn
WHERE
  OnlineBackup = 'Yes'
  AND TechSupport = 'Yes'
  AND StreamingTV = 'Yes'
  AND Tenure > 50;

Ermitteln, welcher Internetdienst die meisten abgewanderten Kunden hat.

SELECT
  InternetService,
  COUNT(DISTINCT CustomerID) AS total_customers
FROM
  agentville_datasets.telco_churn
WHERE
  Churn = TRUE
GROUP BY
  InternetService
ORDER BY
  total_customers DESC
LIMIT 1;

Abwanderungsraten nach Segment bei Kunden mit hohem Umsatzpotenzial ermitteln

SELECT
  Contract,
  InternetService,
  Gender,
  PaymentMethod,
  COUNT(DISTINCT CustomerID) AS total_customers,
  SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
  (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
  * 100 AS churn_rate
FROM
  agentville_datasets.telco_churn
WHERE
  MonthlyCharges > 100
GROUP BY
  Contract,
  InternetService,
  Gender,
  PaymentMethod;

Best Practices zur Verbesserung der generierten Statistiken

Mit den folgenden Best Practices können Sie die Genauigkeit der generierten Statistiken verbessern:

Fundierung von Statistiken mit Ergebnissen der Datenprofilerstellung

Bei der generativen KI ist Fundierung die Fähigkeit, die Modellausgabe mit überprüfbaren Informationsquellen zu verbinden. Sie können die generierten Statistiken auf die Ergebnisse der Datenprofilerstellung stützen. Bei der Datenprofilerstellung werden die Spalten in Ihren BigQuery-Tabellen analysiert und allgemeine statistische Merkmale wie typische Datenwerte und Datenverteilung ermittelt. Wenn Sie einen Scan zur Datenprofilerstellung für eine Tabelle erstellen, können Sie die Scanergebnisse auf den BigQuery- und Dataplex Universal Catalog-Seiten in der Google Cloud Console veröffentlichen. BigQuery verwendet die Ergebnisse der Datenprofilerstellung, um genauere und relevantere Abfragen zu erstellen. Dazu wird Folgendes ausgeführt:

Analysiert die Ergebnisse des Datenprofilings, um interessante Muster, Trends oder Ausreißer in den Daten zu erkennen.
Es werden Abfragen generiert, die sich auf diese Muster, Trends oder Ausreißer konzentrieren, um Erkenntnisse zu gewinnen.
Validiert die generierten Abfragen anhand der Ergebnisse der Datenprofilerstellung, um sicherzustellen, dass die Abfragen aussagekräftige Ergebnisse zurückgeben.

Ohne Scans zur Datenprofilerstellung passiert Folgendes:

Die generierten Anfragen enthalten mit höherer Wahrscheinlichkeit ungenaue Klauseln oder liefern sinnlose Ergebnisse.
Die generierten Spaltenbeschreibungen basieren nur auf dem Spaltennamen.

Achten Sie darauf, dass der Datenprofilscan für Ihre Tabelle aktuell ist und die Ergebnisse in BigQuery veröffentlicht werden.

Sie können die Einstellungen für die Datenprofilerstellung anpassen, um die Stichprobengröße zu erhöhen und Zeilen und Spalten herauszufiltern. Nachdem Sie einen neuen Datenprofilscan ausgeführt haben, generieren Sie Statistiken neu.

Tabellenbeschreibung hinzufügen

Detaillierte Tabellenbeschreibungen, in denen Sie angeben, was Sie in Ihrer Tabelle analysieren möchten, können Gemini in BigQuery helfen, relevantere Statistiken zu erstellen. Nachdem Sie eine Tabellenbeschreibung hinzugefügt haben, generieren Sie Statistiken neu.

Sie können der Tabelle telco_churn beispielsweise die folgende Beschreibung hinzufügen: „Diese Tabelle enthält Daten zum Kunden-Churn, einschließlich Abodetails, Laufzeit und Dienstnutzung, um das Kunden-Churn-Verhalten vorherzusagen.“

Wenn Sie die von Gemini generierte Tabellenbeschreibung speichern, wird diese Beschreibung verwendet, um zukünftige Statistiken zu generieren.

Spaltenbeschreibungen hinzufügen

Spaltenbeschreibungen, in denen erklärt wird, was die einzelnen Spalten enthalten oder wie sie zueinander in Beziehung stehen, können die Qualität Ihrer Statistiken verbessern. Nachdem Sie die Spaltenbeschreibungen in Ihrer Tabelle aktualisiert haben, generieren Sie Statistiken neu.

Sie können beispielsweise die folgenden Beschreibungen zu bestimmten Spalten der Tabelle telco_churn hinzufügen:

Tenure: „Die Anzahl der Monate, die der Kunde den Dienst genutzt hat.“
Churn: Gibt an, ob der Kunde die Nutzung des Dienstes eingestellt hat. TRUE gibt an, dass der Kunde den Dienst nicht mehr verwendet, FALSE gibt an, dass der Kunde aktiv ist.“

Wenn Sie die von Gemini generierten Spaltenbeschreibungen speichern, werden diese Beschreibungen verwendet, um zukünftige Statistiken zu generieren.

Statistiken für eine BigQuery-Tabelle generieren

Um Statistiken für eine BigQuery-Tabelle generieren zu können, müssen Sie mit BigQuery Studio auf den Tabelleneintrag in BigQuery zugreifen.

Wechseln Sie in der Google Cloud Console zu BigQuery Studio.

Zu BigQuery Studio
Klicken Sie im linken Bereich auf Explorer:

Wenn Sie den linken Bereich nicht sehen, klicken Sie auf Linken Bereich maximieren, um ihn zu öffnen.
Klicken Sie im Bereich Explorer auf Datasets und wählen Sie dann Ihr Dataset aus.
Klicken Sie auf Übersicht > Tabellen und wählen Sie dann die Tabelle aus, für die Sie Statistiken generieren möchten.
Klicken Sie auf den Tab Statistiken. Wenn der Tab leer ist, wurden die Statistiken für diese Tabelle noch nicht generiert.
Klicken Sie zum Auslösen der Insight-Pipeline auf Statistiken generieren.

Es dauert einige Minuten, bis die Statistiken erfasst werden.

Wenn veröffentlichte Ergebnisse der Datenprofilerstellung für die Tabelle verfügbar sind, werden sie verwendet, um Statistiken zu generieren. Andernfalls werden Statistiken anhand der Spaltennamen und -beschreibungen generiert.
Sehen Sie sich auf dem Tab Insights die generierten Fragen in natürlicher Sprache an.
Wenn Sie die SQL-Abfrage sehen möchten, mit der eine Frage beantwortet wird, klicken Sie auf die Frage.
Klicken Sie auf In Abfrage kopieren, um eine Abfrage in BigQuery zu öffnen.
So stellen Sie Folgefragen:
1. Klicken Sie auf Weiterführende Frage stellen. Die Abfrage wird in einem neuen Daten-Canvas geöffnet.
2. Klicken Sie auf Ausführen und dann auf Diese Ergebnisse abfragen.
3. Wenn Sie eine Folgefrage stellen möchten, geben Sie einen Prompt in das Feld Prompt in natürlicher Sprache ein oder bearbeiten Sie die SQL-Abfrage im Abfrageeditor.
Wenn Sie eine neue Reihe von Abfragen generieren möchten, klicken Sie auf Statistiken generieren und lösen Sie die Pipeline noch einmal aus.

Nachdem Sie Statistiken für eine Tabelle erstellt haben, können alle Nutzer mit der Berechtigung dataplex.datascans.getData und Zugriff auf die Tabelle diese Statistiken aufrufen.

Statistiken für eine externe BigQuery-Tabelle generieren

BigQuery Data Insights unterstützt das Erstellen von Statistiken für externe BigQuery-Tabellen mit Daten in Cloud Storage. Sie und das Dataplex Universal Catalog-Dienstkonto für das aktuelle Projekt müssen die Rolle Storage-Objekt-Betrachter (roles/storage.objectViewer) für den Cloud Storage-Bucket haben, der die Daten enthält. Weitere Informationen finden Sie unter Hauptkonto zu einer Richtlinie auf Bucket-Ebene hinzufügen.

Folgen Sie der Anleitung im Abschnitt Statistiken für eine BigQuery-Tabelle generieren, um Statistiken für eine externe BigQuery-Tabelle zu generieren.

Statistiken für eine BigLake-Tabelle generieren

So generieren Sie Statistiken für eine BigLake-Tabelle:

Aktivieren Sie die BigQuery Connection API in Ihrem Projekt.

BigQuery Connection API aktivieren
BigQuery-Verbindung erstellen Weitere Informationen finden Sie unter Verbindungen verwalten.
Weisen Sie dem Dienstkonto, das der von Ihnen erstellten BigQuery-Verbindung entspricht, die IAM-Rolle „Storage Object Betrachter“ (roles/storage.objectViewer) zu.

Sie können die Dienstkonto-ID über die Verbindungsdetails abrufen.
Folgen Sie dazu der Anleitung im Abschnitt Statistiken für eine BigQuery-Tabelle generieren dieses Dokuments.

Tabellen- und Spaltenbeschreibungen generieren

Gemini in BigQuery generiert automatisch Tabellen- und Spaltenbeschreibungen, wenn Sie Datenstatistiken erstellen. Sie können diese Beschreibungen nach Bedarf bearbeiten und dann in den Metadaten der Tabelle speichern. Die gespeicherten Beschreibungen werden verwendet, um zukünftige Statistiken zu generieren.

So generieren Sie Tabellen- und Spaltenbeschreibungen:

Folgen Sie dazu der Anleitung im entsprechenden Abschnitt dieses Dokuments:
Klicken Sie auf den Tab Schema.
Klicken Sie auf Spaltenbeschreibungen ansehen.

Hinweis :Wenn die Schaltfläche Spaltenbeschreibungen ansehen nicht angezeigt wird, klicken Sie auf Daten beschreiben. Eventuell müssen Sie scrollen, um diese Schaltfläche zu sehen.

Die generierte Tabellenbeschreibung und die Spaltenbeschreibungen werden angezeigt.
So bearbeiten und speichern Sie die generierte Tabellenbeschreibung:
1. Klicken Sie im Abschnitt Tabellenbeschreibung auf In Details speichern.
2. Wenn Sie die aktuelle Beschreibung durch die generierte Beschreibung ersetzen möchten, klicken Sie auf Vorgeschlagene Beschreibung kopieren.
3. Bearbeiten Sie die Tabellenbeschreibung nach Bedarf und klicken Sie dann auf In Details speichern.
  
  Die Tabellenbeschreibung wird sofort aktualisiert.
So bearbeiten und speichern Sie die generierten Spaltenbeschreibungen:
1. Klicken Sie im Bereich Spaltenbeschreibungen auf Im Schema speichern.
  
  Die generierten Spaltenbeschreibungen werden für jede Spalte in das Feld Neue Beschreibung eingefügt.
2. Bearbeiten Sie die Spaltenbeschreibungen nach Bedarf und klicken Sie dann auf Speichern.
  
  Die Spaltenbeschreibungen werden sofort aktualisiert.
Klicken Sie auf Schließen, um den Vorschaubereich zu schließen.

Preise

Weitere Informationen zu den Preisen für diese Funktion finden Sie unter Preisübersicht für Gemini in BigQuery.

Kontingente und Limits

Informationen zu Kontingenten und Limits für diese Funktion finden Sie unter Kontingente für Gemini in BigQuery.

Beschränkungen

Data Insights sind für BigQuery-Tabellen, BigLake-Tabellen, externe Tabellen und Ansichten verfügbar.
Für Kunden mit mehreren Clouds sind keine Daten aus anderen Clouds verfügbar.
Data Insights unterstützen die Spaltentypen Geo und JSON nicht.
Insights-Ausführungen bedeuten nicht, dass jedes Mal Abfragen dargestellt werden. Starten Sie die Insight-Pipeline noch einmal, um die Wahrscheinlichkeit zu erhöhen, nützlichere Abfragen zu erzeugen.
Für Tabellen mit Zugriffssteuerung auf Spaltenebene (Access Control Lists, ACLs) und eingeschränkten Nutzerberechtigungen können Sie Statistiken generieren, wenn Sie Lesezugriff auf alle Spalten der Tabelle haben. Zum Ausführen der generierten Abfragen benötigen Sie ausreichende Berechtigungen.
Spaltenbeschreibungen werden für maximal 350 Spalten in einer Tabelle generiert.

Standorte

Sie können Datenstatistiken an allen BigQuery-Standorten verwenden. Gemini in BigQuery ist global verfügbar. Sie können die Datenverarbeitung daher nicht auf eine bestimmte Region beschränken. Weitere Informationen zu den Standorten, an denen Gemini in BigQuery Daten verarbeitet, finden Sie unter Gemini-Bereitstellungsorte.

Nächste Schritte

Weitere Informationen zur Datenprofilerstellung in Dataplex Universal Catalog
Abfragen mit Gemini-Unterstützung in BigQuery schreiben.
Weitere Informationen zu Gemini in BigQuery
Data Canvas verwenden, um Abfrageergebnisse mit Fragen in natürlicher Sprache zu optimieren