Datenstatistiken in Dataplex generieren

Dateneinblicke bieten eine automatisierte und intuitive Möglichkeit, zu untersuchen und zu verstehen Ihre Daten. Zur Erstellung von Abfragen werden Large Language Models von Gemini verwendet basierend auf den Metadaten einer Tabelle und können Muster aufdecken, Daten bewerten und statistische Analysen durchführen.

In diesem Dokument werden die wichtigsten Features von Data Insights und der Prozess zur Automatisierung der Abfragegenerierung für eine aufschlussreiche Datenexploration beschrieben.

Informationen zu Data Insights

Fachkräfte für Datenanalyse stehen vor dem Kaltstartproblem bei der Datenerkundung, wenn sie eine neuen Datasets mit wenig oder keinen Vorkenntnissen. Das Problem ist häufig, Unsicherheiten in Bezug auf die Datenstruktur, Schlüsselmuster und relevante Erkenntnisse. Durch die Verwendung der automatischen Abfragegenerierung basierend auf Metadaten lösen Data Insights das Kaltstartproblem bei der Datenexploration. Die Erkenntnisse liefern wertvolle Hinweise, die Ihnen helfen, fundierte Entscheidungen zu treffen und tiefere Einblicke in Ihre Daten. Anstatt bei Null anzufangen, können Sie die Datenexploration schneller über aussagekräftige Abfragen starten, die wertvolle Informationen bieten.

Abfragen, die mit Data Insights generiert wurden, basieren auf veröffentlichten Profilscandaten. Data Insights verwenden veröffentlichte Profilscandaten, um Abfragen zu erstellen, die Ergebnisse liefern und einen effizienten und zuverlässigen Informationsabruf ermöglichen. Dadurch wird die Initiierung des Datenanalyseprozesses und ermöglichen es Ihnen, eine klarere Richtung und einen klaren Zweck haben.

Data Insights dienen als Orientierungshilfe, die häufige Herausforderungen beim Suchen in unbekannten Datasets löst. So können Sie fundierte Entscheidungen treffen und Muster während der Datenexploration schneller erkennen.

Beispiel für eine Statistikausführung

Sehen Sie sich eine Tabelle mit dem Namen telco_churn mit den folgenden technischen Metadaten an:

Feldname Typ
Kundennummer STRING
Geschlecht STRING
Zugehörigkeit zum Unternehmen INT64
PhoneService STRING
OnlineBackup STRING
Abhängige BOOLEAN
Vertrag STRING
TechSupport STRING
Zahlungsmethode STRING
Monatliche Gebühren FLOAT
Abwanderung BOOLEAN

Im Folgenden finden Sie einige der Beispielabfragen, die von Data Insights für diese Tabelle generiert werden:

  • Kunden ermitteln, die alle Premiumdienste abonniert haben und seit mehr als 50 Monaten Kunde sind.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineSecurity = 'Yes'
      AND OnlineBackup = 'Yes'
      AND DeviceProtection = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND StreamingMovies = 'Yes'
      AND Tenure > 50;
    
  • Ermitteln, welcher Internetdienst die meisten abgewanderten Kunden hat.

    SELECT
      InternetService,
      COUNT(DISTINCT customerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifizieren Sie Kundensegmente mit hohen Abwanderungsraten bei Kundinnen und Kunden mit hohem Umsatzpotenzial.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT customerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT customerID))
    * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Fundierungsinformationen über Profilscans erhalten

Wenn Sie einen Datenprofilscan erstellen für eine Tabelle können Sie die Scanergebnisse in BigQuery veröffentlichen Data Catalog Data Insights nutzt diese veröffentlichten Profilscandaten, genauere und relevantere Abfragen zur Tabelle generieren.

Die veröffentlichten Profilscandaten können in der Google Cloud Console aufgerufen werden. Weitere Informationen Informationen zum Aufrufen veröffentlichter Profilscandaten finden Sie unter Berichterstellung und Monitoring:

Wenn ein veröffentlichter Profilscan für die Tabelle zugänglich ist, wird dieser zum Generieren umfassende Einblicke. Andernfalls werden Erkenntnisse basierend auf der Spalte Namen und die entsprechenden Beschreibungen. Mit diesem Ansatz erhalten Sie Statistiken erstellt werden, unabhängig von der Verfügbarkeit eines Profilscans.

Die Daten des Profilscans liefern wertvolle Informationen zur Datenverteilung, Datentypen und statistische Zusammenfassungen des Datasets. Da Abfragen die auf Profilscandaten basieren, wird durch Dateneinblicke sichergestellt, dass die generierten Abfragen sind aussagekräftig und geben Ergebnisse zurück, die bei der weiteren Analyse hilfreich sind.

Weitere Informationen zu Profilscans finden Sie unter Datenprofilerstellung

Weitere Informationen zum Erstellen und Veröffentlichen von Profilscans finden Sie unter Datenprofilscans erstellen und verwenden

In den folgenden Abschnitten wird beschrieben, wie Data Insights die veröffentlichten Profilscandaten verwenden, um Abfragen zu fundieren.

Informationen zu Profilscandaten

Profilscandaten sind die Metadaten, die den Inhalt eines Datasets beschreiben. Sie enthalten die folgenden Informationen:

  • Datentypen von Spalten
  • Minimal- und Maximalwerte
  • Verteilung von Werten
  • Nullwerte oder fehlende Werte
  • Top-Werte
  • Eindeutige Werte und deren Häufigkeit

In Data Insights werden anhand dieser Informationen Abfragen generiert, die auf spezifischen Datasets und um aussagekräftige Erkenntnisse zu liefern.

Wie Data Insights Abfragen mithilfe von Profilscandaten fundieren

Data Insights verwenden Profilscandaten, um Abfragen zu erstellen, die auf der tatsächlichen Datenverteilung und den Mustern im Dataset basieren. Dieser Vorgang umfasst folgende Schritte:

  • Die Analyse der Profilscandaten, um interessante Muster, Trends oder und Ausreißer in den Daten.
  • Suchanfragen generieren, die sich auf diese Muster, Trends oder Ausreißer konzentrieren, Erkenntnisse zu gewinnen.
  • Validieren der generierten Abfragen anhand der Profilscandaten, um sicherzustellen, liefern die Abfragen aussagekräftige Ergebnisse.

Tipps zur Maximierung der Vorteile von Data Insights

Fundierte Abfragen sorgen dafür, dass die gewonnenen Informationen präzise, relevant und umsetzbar, sodass Sie bessere datengesteuerte Entscheidungen treffen können. Damit die der meisten geerdeten Abfragen mithilfe von Profilscandaten Tipps:

  • Achten Sie darauf, dass Ihre Tabelle aktuelle veröffentlichten Profilscandaten enthält. Dieses können Sie mithilfe von Dateneinblicken genauere und relevantere Suchanfragen generieren.
  • Sehen Sie sich die generierten Abfragen an, um zu verstehen, warum sie auf den Profilscandaten basieren. So können Sie die Ergebnisse auswerten und Einblicke in Ihre Daten zu gewinnen.
  • Passen Sie die Einstellungen des Profilscans Ihrer Tabelle an oder stellen Sie zusätzlichen Kontext zu Data Insights bereit, wenn die generierten Abfragen nicht relevant oder nützlich sind.

Preise

Das Dataplex-Feature für Data Insights ist während diese Vorschau.

Beschränkungen

  • Datenstatistiken sind für native BigQuery-Tabellen, BigLake-Tabellen, externe Tabellen und Ansichten.
  • Für Multi-Cloud-Kunden sind keine Daten aus anderen Clouds verfügbar.
  • Datenstatistiken sind in allen Dataplex-Regionen verfügbar.
  • Data Insights unterstützen die Spaltentypen Geo und JSON nicht.
  • Insights-Ausführungen bedeuten nicht, dass jedes Mal Abfragen dargestellt werden. Starten Sie die Insight-Pipeline noch einmal, um die Wahrscheinlichkeit zu erhöhen, nützlichere Abfragen zu erzeugen.
  • Für Tabellen mit Zugriffssteuerung auf Spaltenebene und eingeschränktem Nutzer Berechtigungen erstellen, können Sie Statistiken generieren, wenn Sie Lesezugriff auf Spalten der Tabelle. Zum Ausführen der generierten Abfragen benötigen Sie: entsprechenden Berechtigungen.

Hinweise

Erforderliche Rollen und Berechtigungen

Wenn Sie Datenstatistiken erstellen, verwalten und abrufen möchten, bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen:

Bitten Sie Ihren Administrator, Ihnen die folgende IAM-Rolle zuzuweisen, um Lesezugriff auf die generierten Statistiken zu erhalten:

  • Dataplex DataScan-DataViewer (roles/dataplex.dataScanDataViewer) für das Projekt, das die BigQuery-Tabellen enthält, für die Sie Statistiken ansehen

Damit das Dataplex-Dienstkonto die erforderlichen Berechtigungen hat, die veröffentlichten Datenprofilscans lesen, bitten Sie Ihren Administrator, Dataplex-Dienst-Agent in Ihrem Projekt, die folgenden IAM-Rolle Dies hilft dabei, die generierten Abfragen mit realen Werten zu konstruieren in der BigQuery-Tabelle.

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Dienstkonten verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

APIs aktivieren

Aktivieren Sie die folgenden APIs in Ihrem Projekt, um Data Insights zu verwenden:

Weitere Informationen zum Aktivieren der Cloud AI Companion API finden Sie unter Cloud AI Companion API in einem Google Cloud-Projekt aktivieren.

Statistiken für eine BigQuery-Tabelle generieren

Zum Generieren von Statistiken für eine BigQuery-Tabelle müssen Sie auf die Tabelle zugreifen in Dataplex mit der Dataplex-Suche.

  1. Rufen Sie in der Google Cloud Console die Seite der Dataplex-Suche auf.

    Dataplex Search aufrufen

  2. Suchen Sie in Dataplex nach dem Tabelleneintrag.

  3. Klicken Sie auf den Tab Statistiken. Ist der Tab leer, werden die Statistiken für diese Tabelle noch nicht generiert.

  4. Klicken Sie zum Auslösen der Insight-Pipeline auf Statistiken generieren.

    Dieser Prozess dauert 5 bis 10 Minuten.

  5. Sehen Sie sich auf dem Tab Statistiken die generierten Abfragen und die zugehörigen Beschreibungen an.

  6. Klicken Sie zum Ausführen einer Abfrage auf Open in BigQuery (In BigQuery öffnen). Die Abfrage wird in BigQuery

  7. Um neue Abfragen zu generieren, klicken Sie auf Statistiken generieren und lösen Sie das Ereignis zu erstellen.

Statistiken für eine externe BigQuery-Tabelle generieren

Dataplex-Datenstatistiken unterstützen externe BigQuery-Tabellen die sich im selben Google Cloud-Projekt befinden. Wenn die BigQuery-Bibliothek Tabelle verweist auf Daten, die in Cloud Storage in einer anderen Google Cloud gespeichert sind scheitert die Generierung von Erkenntnissen.

Um Statistiken für eine externe BigQuery-Tabelle zu generieren, folgen Sie den wie in den Statistiken für eine BigQuery-Tabelle generieren dieses Dokuments.

Statistiken für eine BigLake-Tabelle generieren

So generieren Sie Insights für eine BigLake-Tabelle:

  1. Aktivieren Sie die BigQuery Connection API in Ihrem Projekt.

    BigQuery Connection API aktivieren

  2. BigQuery-Verbindung erstellen Weitere Informationen finden Sie unter Verbindungen verwalten.

  3. IAM-Rolle „Storage Object Viewer“ (roles/storage.objectViewer) gewähren mit dem Dienstkonto, das der BigQuery-Verbindung entspricht die Sie erstellt haben.

    Sie können die Dienstkonto-ID auf der Seite mit den Verbindungsinformationen abrufen für das Dienstkonto.

  4. Um Statistiken zu generieren, folgen Sie der Anleitung in der Statistiken für eine BigQuery-Tabelle generieren dieses Dokuments.

Nächste Schritte