Data Insights in BigQuery generieren

Über Data Insights können Sie Ihre Daten automatisch untersuchen und verstehen. Bei Datenerkenntnissen verwendet Gemini Metadaten, um Fragen in natürlicher Sprache zu Ihrer Tabelle und die Abfragen zur Beantwortung dieser Fragen zu generieren. So können Sie Muster erkennen, die Datenqualität bewerten und statistische Analysen ausführen.

In diesem Dokument werden die wichtigsten Features von Data Insights und der Prozess zur Automatisierung der Abfragegenerierung für eine aufschlussreiche Datenexploration beschrieben.

Hinweise

Datenstatistiken werden mit Gemini in BigQuery generiert. Damit Sie Statistiken generieren können, müssen Sie zuerst Gemini in BigQuery einrichten. Gemini verarbeitet Ihre Daten möglicherweise nicht in der Region, in der sie gespeichert sind. Weitere Informationen finden Sie unter Gemini-Auslieferungsstandorte.

Erforderliche Rollen

Wenn Sie Datenstatistiken erstellen, verwalten und abrufen möchten, bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen:

Bitten Sie Ihren Administrator, Ihnen die folgende IAM-Rolle zuzuweisen, um Lesezugriff auf die generierten Statistiken zu erhalten:

  • Dataplex DataScan DataViewer (roles/dataplex.dataScanDataViewer) im Projekt mit den BigQuery-Tabellen, für die Sie die Statistiken ansehen.

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Dienstkonten verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die genauen Berechtigungen anzuzeigen, die zum Generieren von Statistiken erforderlich sind:

Erforderliche Berechtigungen

  • bigquery.jobs.create
  • bigquery.tables.get
  • bigquery.tables.getData
  • dataplex.datascans.create
  • dataplex.datascans.get
  • dataplex.datascans.getData
  • dataplex.datascans.run

APIs aktivieren

Aktivieren Sie die folgenden APIs in Ihrem Projekt, um Data Insights zu verwenden:

Weitere Informationen zum Aktivieren von Gemini for Google Cloud API finden Sie unter Gemini für Google Cloud API in einem Google Cloud-Projekt aktivieren.

Informationen zu Data Insights

Bei der explorativen Datenanalyse einer neuen, unbekannten Tabelle stehen Datenanalysten oft vor dem Kaltstartproblem. Das Problem beinhaltet häufig Unsicherheiten in Bezug auf die Datenstruktur, Schlüsselmuster und relevante Einblicke in den Daten, was den Einstieg in das Schreiben von Abfragen erschwert.

Data Insights beheben das Kaltstartproblem, indem automatisch Abfragen in natürlicher Sprache und ihre SQL-Äquivalente anhand der Metadaten einer Tabelle generiert werden. Anstatt bei Null anzufangen, können Sie die Datenexploration schneller über aussagekräftige Abfragen starten, die wertvolle Informationen bieten. Wenn Sie weitere Untersuchungen durchführen möchten, können Sie im Datencanvas weiterführende Fragen stellen.

Beispiel für eine Ausführung von Statistiken

Angenommen, Sie haben eine Tabelle namens telco_churn mit den folgenden Metadaten:

Feldname Typ
Kundennummer STRING
Geschlecht STRING
Zugehörigkeit zum Unternehmen INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Vertrag STRING
TechSupport STRING
Zahlungsmethode STRING
Monatliche Gebühren FLOAT
Abwanderung BOOLEAN

Im Folgenden finden Sie einige der Beispielabfragen, die von Data Insights für diese Tabelle generiert werden:

  • Kunden ermitteln, die alle Premiumdienste abonniert haben und seit mehr als 50 Monaten Kunde sind.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • Ermitteln, welcher Internetdienst die meisten abgewanderten Kunden hat.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Segmentspezifische Abwanderungsraten bei Kunden mit hohem Umsatzpotenzial ermitteln

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Best Practices

Mit den folgenden Best Practices können Sie die Genauigkeit der generierten Statistiken verbessern:

Erkenntnisse auf Ergebnisse der Datenprofilerstellung stützen

Bei der generativen KI ist Fundierung die Fähigkeit, die Modellausgabe mit überprüfbaren Informationsquellen zu verbinden. Sie können die generierten Statistiken auf die Ergebnisse der Datenprofilerstellung stützen. Bei der Datenprofilerstellung werden die Spalten in Ihren BigQuery-Tabellen analysiert und allgemeine statistische Merkmale wie typische Datenwerte und die Datenverteilung ermittelt. Wenn Sie einen Datenprofilscan für eine Tabelle erstellen, können Sie die Scanergebnisse in BigQuery und Dataplex Catalog veröffentlichen. In BigQuery werden die Ergebnisse des Datenprofilings verwendet, um genauere und relevantere Abfragen zu erstellen. Dazu gehen Sie so vor:

  1. Die Ergebnisse der Datenprofilierung werden analysiert, um interessante Muster, Trends oder Ausreißer in den Daten zu identifizieren.
  2. Es werden Abfragen generiert, die sich auf diese Muster, Trends oder Ausreißer konzentrieren, um Statistiken zu gewinnen.
  3. Die generierten Abfragen werden anhand der Ergebnisse der Datenprofilerstellung validiert, um sicherzustellen, dass die Abfragen aussagekräftige Ergebnisse zurückgeben.

Ohne Datenprofil-Scans enthalten die von Gemini generierten Abfragen mit höherer Wahrscheinlichkeit ungenaue Klauseln oder liefern unsinnige Ergebnisse.

Achten Sie darauf, dass der Datenprofilierungs-Scan für Ihre Tabelle auf dem neuesten Stand ist und die Ergebnisse in BigQuery veröffentlicht werden.

Sie können die Einstellungen für das Datenprofil anpassen, um die Stichprobengröße zu erhöhen und Zeilen und Spalten herausfiltern. Generieren Sie Statistiken neu, nachdem Sie einen neuen Datenprofilierungs-Scan ausgeführt haben.

Tabellenbeschreibung hinzufügen

Detaillierte Tabellenbeschreibungen, in denen Sie angeben, was Sie in Ihrer Tabelle analysieren möchten, können Gemini in BigQuery dabei helfen, relevantere Statistiken zu erstellen. Nachdem Sie eine Tabellenbeschreibung hinzugefügt haben, generieren Sie die Statistiken neu.

Sie könnten der Tabelle telco_churn beispielsweise die folgende Beschreibung hinzufügen: „In dieser Tabelle werden Daten zur Kundenabwanderung erfasst, einschließlich Abodetails, Dauer und Dienstnutzung, um das Kundenabwanderungsverhalten vorherzusagen.“

Spaltenbeschreibungen hinzufügen

Spaltenbeschreibungen, in denen erläutert wird, was die einzelnen Spalten bedeuten oder wie sie sich zueinander verhalten, können die Qualität Ihrer Statistiken verbessern. Nachdem Sie die Spaltenbeschreibungen in Ihrer Tabelle aktualisiert haben, generieren Sie die Statistiken neu.

Sie könnten beispielsweise bestimmten Spalten der Tabelle telco_churn die folgenden Beschreibungen hinzufügen:

  • Tenure: „Die Anzahl der Monate, in denen der Kunde den Dienst nutzt.“
  • Churn: „Ob der Kunde die Nutzung des Dienstes eingestellt hat. „TRUE“ gibt an, dass der Kunde den Dienst nicht mehr nutzt, „FALSE“, dass er aktiv ist.“

Statistiken für eine BigQuery-Tabelle generieren

Um Statistiken für eine BigQuery-Tabelle generieren zu können, müssen Sie mit BigQuery Studio auf den Tabelleneintrag in BigQuery zugreifen.

  1. Wechseln Sie in der Google Cloud Console zu BigQuery Studio.

    Zu BigQuery Studio

  2. Wählen Sie im Bereich Explorer die Tabelle aus, für die Sie Statistiken erstellen möchten.

  3. Klicken Sie auf den Tab Statistiken. Wenn der Tab leer ist, wurden die Statistiken für diese Tabelle noch nicht erstellt.

  4. Klicken Sie zum Auslösen der Insight-Pipeline auf Statistiken generieren.

    Es dauert einige Minuten, bis die Statistiken erfasst werden.

    Wenn veröffentlichte Ergebnisse der Datenprofilerstellung für die Tabelle verfügbar sind, werden sie verwendet, um Statistiken zu generieren. Andernfalls werden Statistiken anhand der Spaltennamen und -beschreibungen generiert.

  5. Sehen Sie sich auf dem Tab Statistiken die generierten Fragen in natürlicher Sprache an.

  6. Klicken Sie auf die Frage, um die SQL-Abfrage aufzurufen, mit der sie beantwortet wird.

  7. Klicken Sie auf In Abfrage kopieren, um eine Abfrage in BigQuery zu öffnen.

  8. So stellen Sie Folgefragen:

    1. Klicken Sie auf Weitere Frage stellen. Die Abfrage wird in einem neuen Daten-Canvas geöffnet.

    2. Klicken Sie auf Ausführen und dann auf Diese Ergebnisse abfragen.

    3. Wenn Sie eine Anschlussfrage stellen möchten, geben Sie einen Prompt in das Feld Natürliche Sprache ein oder bearbeiten Sie die SQL-Abfrage im Abfrageeditor.

  9. Wenn Sie eine neue Reihe von Abfragen generieren möchten, klicken Sie auf Statistiken generieren und lösen Sie die Pipeline noch einmal aus.

Nachdem Sie Statistiken für eine Tabelle erstellt haben, können alle Nutzer mit der Berechtigung dataplex.datascans.getData und Zugriff auf die Tabelle diese Statistiken aufrufen.

Statistiken für eine externe BigQuery-Tabelle generieren

BigQuery Data Insights unterstützt das Erstellen von Statistiken für externe BigQuery-Tabellen mit Daten in Cloud Storage. Sie und das Dataplex-Dienstkonto für das aktuelle Projekt müssen die Rolle Storage-Objekt-Betrachter (roles/storage.objectViewer) für den Cloud Storage-Bucket haben, der die Daten enthält. Weitere Informationen finden Sie unter Hauptkonto zu einer Richtlinie auf Bucket-Ebene hinzufügen.

Folgen Sie der Anleitung im Abschnitt Statistiken für eine BigQuery-Tabelle generieren, um Statistiken für eine externe BigQuery-Tabelle zu generieren.

Statistiken für eine BigLake-Tabelle generieren

So generieren Sie Statistiken für eine BigLake-Tabelle:

  1. Aktivieren Sie die BigQuery Connection API in Ihrem Projekt.

    BigQuery Connection API aktivieren

  2. BigQuery-Verbindung erstellen Weitere Informationen finden Sie unter Verbindungen verwalten.

  3. Weisen Sie dem Dienstkonto, das der von Ihnen erstellten BigQuery-Verbindung entspricht, die IAM-Rolle „Storage Object Betrachter“ (roles/storage.objectViewer) zu.

    Sie können die Dienstkonto-ID über die Verbindungsdetails abrufen.

  4. Folgen Sie dazu der Anleitung im Abschnitt Statistiken für eine BigQuery-Tabelle generieren dieses Dokuments.

Preise

Weitere Informationen zu den Preisen für diese Funktion finden Sie unter Preisübersicht für Gemini in BigQuery.

Kontingente und Limits

Informationen zu Kontingenten und Limits für diese Funktion finden Sie unter Kontingente für Gemini in BigQuery.

Beschränkungen

  • Data Insights sind für BigQuery-Tabellen, BigLake-Tabellen, externe Tabellen und Ansichten verfügbar.
  • Für Multi-Cloud-Kunden sind keine Daten aus anderen Clouds verfügbar.
  • Data Insights unterstützen die Spaltentypen Geo und JSON nicht.
  • Insights-Ausführungen bedeuten nicht, dass jedes Mal Abfragen dargestellt werden. Starten Sie die Insight-Pipeline noch einmal, um die Wahrscheinlichkeit zu erhöhen, nützlichere Abfragen zu erzeugen.
  • Bei Tabellen mit Zugriffssteuerung auf Spaltenebene (Access Control Lists, ACLs) und eingeschränkten Nutzerberechtigungen können Sie Statistiken generieren, wenn Sie Lesezugriff auf alle Spalten der Tabelle haben. Zum Ausführen der generierten Abfragen benötigen Sie ausreichende Berechtigungen.

Nächste Schritte