Data Insights in BigQuery generieren

Wenn Sie Unterstützung benötigen, senden Sie eine E-Mail an dataplex-data-insights-help@google.com.

Über Data Insights können Sie Ihre Daten automatisch untersuchen und verstehen. Mit Gemini werden Abfragen anhand der Metadaten einer Tabelle generiert. Damit können Sie Muster erkennen, die Datenqualität bewerten und statistische Analysen auslösen.

In diesem Dokument werden die wichtigsten Features von Data Insights und der Prozess zur Automatisierung der Abfragegenerierung für eine aufschlussreiche Datenexploration beschrieben.

Informationen zu Data Insights

Datenanalysten stehen bei der Datenexploration vor dem Kaltstartproblem, wenn sie ein neues Dataset mit wenig oder keinem Vorwissen untersuchen. Dieses Problem beinhaltet häufig Unsicherheiten in Bezug auf die Datenstruktur, die Schlüsselmuster und die relevanten Erkenntnisse. Durch die Verwendung der automatischen Abfragegenerierung basierend auf Metadaten lösen Data Insights das Kaltstartproblem bei der Datenexploration. Diese Erkenntnisse sind wertvolle Anhaltspunkte, um fundierte Entscheidungen zu treffen und umfassendere Einblicke in Ihre Daten zu erhalten. Anstatt bei Null anzufangen, können Sie die Datenexploration schneller über aussagekräftige Abfragen starten, die wertvolle Informationen bieten.

Abfragen, die mit Data Insights generiert wurden, basieren auf veröffentlichten Profilscandaten. Data Insights verwenden veröffentlichte Profilscandaten, um Abfragen zu erstellen, die Ergebnisse liefern und einen effizienten und zuverlässigen Informationsabruf ermöglichen. Dies beschleunigt die Einleitung des Datenanalyseprozesses erheblich und ermöglicht es Ihnen, die Daten mit einer klareren Richtung und einem besseren Zweck zu untersuchen.

Data Insights dienen als Orientierungshilfe, die häufige Herausforderungen beim Suchen in unbekannten Datasets löst. So können Sie fundierte Entscheidungen treffen und Muster während der Datenexploration schneller erkennen.

Beispiel für eine Statistikausführung

Nehmen wir eine Tabelle mit dem Namen telco_churn und den folgenden Metadaten:

Feldname Typ
Kundennummer STRING
Geschlecht STRING
Zugehörigkeit zum Unternehmen INT64
PhoneService STRING
OnlineBackup STRING
Abhängige BOOLEAN
Vertrag STRING
Technischer Support STRING
Zahlungsmethode STRING
Monatliche Gebühren FLOAT
Abwandern BOOLEAN

Im Folgenden finden Sie einige der Beispielabfragen, die von Data Insights für diese Tabelle generiert werden:

  • Kunden ermitteln, die alle Premiumdienste abonniert haben und seit mehr als 50 Monaten Kunde sind.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineSecurity = 'Yes'
      AND OnlineBackup = 'Yes'
      AND DeviceProtection = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND StreamingMovies = 'Yes'
      AND Tenure > 50;
    
  • Ermitteln, welcher Internetdienst die meisten abgewanderten Kunden hat.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Abwanderungsraten nach Segment bei Kunden mit hohem Umsatzpotenzial identifizieren.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
    * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Fundierungsinformationen über Profilscans erhalten

Data Insights verwendet die veröffentlichten Profilscandaten, um die Accuracy generierter Abfragen zu verbessern. Profilscandaten liefern wertvolle Informationen über die Datenverteilung, die Datentypen und die statistische Zusammenfassungen des Datasets.

Profilscandaten

Profilscandaten sind die Metadaten, die den Inhalt einer Tabelle beschreiben. Sie enthalten die folgenden Informationen:

  • Spaltendatentypen
  • Mindest- und Höchstwerte
  • Verteilung von Werten
  • Nullwerte oder fehlende Werte
  • Top-Werte
  • Eindeutige Werte und deren Häufigkeit

Data Insights verwendet diese Informationen, um Abfragen zu generieren, die auf eine bestimmte Tabelle zugeschnitten sind.

Wie Data Insights Abfragen mithilfe von Profilscandaten fundieren

Data Insights verwenden Profilscandaten, um Abfragen zu erstellen, die auf der tatsächlichen Datenverteilung und den Mustern im Dataset basieren. Dieser Vorgang umfasst folgende Schritte:

  • Daten des Profilscans analysieren, um interessante Muster, Trends oder Ausreißer in den Daten zu identifizieren
  • Abfragen generieren, die sich auf diese Muster, Trends oder Ausreißer konzentrieren, um Erkenntnisse zu gewinnen
  • Generierte Abfragen anhand der Profilscandaten validieren, um zu sichern, dass die Abfragen aussagekräftige Ergebnisse zurückgeben

Tipps zur Maximierung der Vorteile von Data Insights

Fundierte Abfragen sorgen dafür, dass die gewonnenen Informationen präzise, relevant und verwertbar sind, sodass Sie bessere datengestützte Entscheidungen treffen können. Beachten Sie die folgenden Tipps, um fundierte Abfragen mithilfe von Profilscandaten optimal zu nutzen:

  • Prüfen Sie, ob Ihre Tabelle aktuelle Scandaten für veröffentlichte Profile enthält. So können Datenanalysen präzisere und relevantere Abfragen generieren.
  • Sehen Sie sich die generierten Abfragen an, um zu verstehen, warum sie auf den Profilscandaten basieren. So können Sie die Ergebnisse interpretieren und tiefere Einblicke in Ihre Daten erhalten.
  • Passen Sie die Einstellungen des Profilscans Ihrer Tabelle an oder stellen Sie zusätzlichen Kontext zu Data Insights bereit, wenn die generierten Abfragen nicht relevant oder nützlich sind.

Preise

Das BigQuery-Feature Data Insights wird während der Vorschau nicht in Rechnung gestellt.

Beschränkungen

  • Data Insights sind für BigQuery-Tabellen, BigLake-Tabellen, externe Tabellen und Ansichten verfügbar.
  • Für Multi-Cloud-Kunden sind keine Daten aus anderen Clouds verfügbar.
  • Data Insights unterstützen die Spaltentypen Geo und JSON nicht.
  • Insights-Ausführungen bedeuten nicht, dass jedes Mal Abfragen dargestellt werden. Starten Sie die Insight-Pipeline noch einmal, um die Wahrscheinlichkeit zu erhöhen, nützlichere Abfragen zu erzeugen.
  • Für Tabellen mit Zugriffssteuerung auf Spaltenebene (ACLs) und eingeschränkten Nutzerberechtigungen können Sie Statistiken generieren, wenn Sie Lesezugriff auf alle Spalten der Tabelle haben. Sie benötigen ausreichende Berechtigungen, um die generierten Abfragen auszuführen.

Hinweise

Erforderliche Rollen und Berechtigungen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für das Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie zur Verwendung von Data Insights benötigen:

  • Führen Sie die Insights-Pipeline aus:

    • IAM-Rolle „Cloud AI Companion User“ (roles/cloudaicompanion.user) für das Dienstkonto und das Projekt, in dem Sie den Statistikscan auslösen

      Die E-Mail-Adresse des Dienstkontos hat das folgende Format:

      service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com

    • dataplex.datascans.create-Berechtigung für das Projekt

    • bigquery.tables.getData-Berechtigung für die BigQuery-Tabelle

    • Lesezugriff auf alle Spalten der Tabelle

  • Generierte Statistiken aufrufen:

    • dataplex.datascans.getData für den Scan der generierten Daten
  • Basisabfragen mit Profilscans:

    • IAM-Rolle BigQuery DataScan DataViewer (roles/dataplex.dataScanDataViewer) für das Dienstkonto (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com)

    • dataplex.datascans.getData-Berechtigung für den veröffentlichten Datenprofilscan

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Dienstkonten verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

APIs aktivieren

Aktivieren Sie die folgenden APIs in Ihrem Projekt, um Data Insights zu verwenden:

Weitere Informationen zum Aktivieren der Gemini API finden Sie unter Gemini-Codeassistent in einem Google Cloud-Projekt aktivieren.

Statistiken für eine BigQuery-Tabelle generieren

Um Statistiken für eine BigQuery-Tabelle generieren zu können, müssen Sie mit BigQuery Studio auf den Tabelleneintrag in BigQuery zugreifen.

  1. Wechseln Sie in der Google Cloud Console zu BigQuery Studio.

    Zu BigQuery Studio

  2. Suchen Sie in BigQuery nach dem Tabelleneintrag.

  3. Klicken Sie auf den Tab Statistiken. Wenn der Tab leer ist, wurden die Statistiken für diese Tabelle noch nicht generiert.

  4. Klicken Sie zum Auslösen der Insight-Pipeline auf Statistiken generieren.

    Dieser Prozess dauert 5 bis 10 Minuten.

    Wenn ein veröffentlichter Profilscan für die Tabelle zugänglich ist, wird er verwendet, um umfassende Statistiken zu generieren. Andernfalls werden Statistiken anhand der Spaltennamen und ihrer entsprechenden Beschreibungen formuliert. Dieser Ansatz sorgt dafür, dass Sie unabhängig von der Verfügbarkeit eines Profilscans Statistiken erhalten.

  5. Sehen Sie sich auf dem Tab Statistiken die generierten Abfragen und ihre Beschreibungen an.

  6. Klicken Sie zum Öffnen einer Abfrage in BigQuery auf In BigQuery öffnen.

  7. Klicken Sie zum Generieren neuer Abfragen auf Statistiken generieren und lösen Sie die Pipeline noch einmal aus.

Statistiken für eine externe BigQuery-Tabelle generieren

BigQuery Data Insights unterstützt externe BigQuery-Tabellen, die sich im selben Google Cloud-Projekt befinden. Wenn die BigQuery-Tabelle auf Daten verweist, die in Cloud Storage in einem anderen Google Cloud-Projekt gespeichert sind, schlägt die Generierung von Statistiken fehl.

Folgen Sie der Anleitung im Abschnitt Statistiken für eine BigQuery-Tabelle generieren in diesem Dokument, um Statistiken für eine externe BigQuery-Tabelle zu generieren.

Statistiken für eine BigLake-Tabelle generieren

So generieren Sie Statistiken für eine BigLake-Tabelle:

  1. Aktivieren Sie die BigQuery Connection API in Ihrem Projekt.

    BigQuery Connection API aktivieren

  2. BigQuery-Verbindung erstellen Weitere Informationen finden Sie unter Verbindungen verwalten.

  3. Weisen Sie dem Dienstkonto, das der von Ihnen erstellten BigQuery-Verbindung entspricht, die IAM-Rolle „Storage Object Betrachter“ (roles/storage.objectViewer) zu.

    Sie können die Dienstkonto-ID über die Verbindungsdetails abrufen.

  4. Folgen Sie der Anleitung im Abschnitt Statistiken für eine BigQuery-Tabelle generieren in diesem Dokument, um Statistiken zu generieren.

Nächste Schritte