Dateneinblicke bieten eine automatisierte und intuitive Möglichkeit, zu untersuchen und zu verstehen Ihre Daten. Zur Erstellung von Abfragen werden Large Language Models von Gemini verwendet basierend auf den Metadaten einer Tabelle und können Muster aufdecken, Daten bewerten und statistische Analysen durchführen.
In diesem Dokument werden die wichtigsten Features von Data Insights und der Prozess zur Automatisierung der Abfragegenerierung für eine aufschlussreiche Datenexploration beschrieben.
Informationen zu Data Insights
Fachkräfte für Datenanalyse stehen vor dem Kaltstartproblem bei der Datenerkundung, wenn sie eine neuen Datasets mit wenig oder keinen Vorkenntnissen. Das Problem ist häufig, Unsicherheiten in Bezug auf die Datenstruktur, Schlüsselmuster und relevante Erkenntnisse. Durch die Verwendung der automatischen Abfragegenerierung basierend auf Metadaten lösen Data Insights das Kaltstartproblem bei der Datenexploration. Die Erkenntnisse liefern wertvolle Hinweise, die Ihnen helfen, fundierte Entscheidungen zu treffen und tiefere Einblicke in Ihre Daten. Anstatt bei Null anzufangen, können Sie die Datenexploration schneller über aussagekräftige Abfragen starten, die wertvolle Informationen bieten.
Abfragen, die mit Data Insights generiert wurden, basieren auf veröffentlichten Profilscandaten. Data Insights verwenden veröffentlichte Profilscandaten, um Abfragen zu erstellen, die Ergebnisse liefern und einen effizienten und zuverlässigen Informationsabruf ermöglichen. Dadurch wird die Initiierung des Datenanalyseprozesses und ermöglichen es Ihnen, eine klarere Richtung und einen klaren Zweck haben.
Data Insights dienen als Orientierungshilfe, die häufige Herausforderungen beim Suchen in unbekannten Datasets löst. So können Sie fundierte Entscheidungen treffen und Muster während der Datenexploration schneller erkennen.
Beispiel für eine Statistikausführung
Sehen Sie sich eine Tabelle mit dem Namen telco_churn
mit den folgenden technischen Metadaten an:
Feldname | Typ |
---|---|
Kundennummer | STRING |
Geschlecht | STRING |
Zugehörigkeit zum Unternehmen | INT64 |
PhoneService | STRING |
OnlineBackup | STRING |
Abhängige | BOOLEAN |
Vertrag | STRING |
TechSupport | STRING |
Zahlungsmethode | STRING |
Monatliche Gebühren | FLOAT |
Abwanderung | BOOLEAN |
Im Folgenden finden Sie einige der Beispielabfragen, die von Data Insights für diese Tabelle generiert werden:
Kunden ermitteln, die alle Premiumdienste abonniert haben und seit mehr als 50 Monaten Kunde sind.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineSecurity = 'Yes' AND OnlineBackup = 'Yes' AND DeviceProtection = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND StreamingMovies = 'Yes' AND Tenure > 50;
Ermitteln, welcher Internetdienst die meisten abgewanderten Kunden hat.
SELECT InternetService, COUNT(DISTINCT customerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;
Identifizieren Sie Kundensegmente mit hohen Abwanderungsraten bei Kundinnen und Kunden mit hohem Umsatzpotenzial.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT customerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT customerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Fundierungsinformationen über Profilscans erhalten
Wenn Sie einen Datenprofilscan erstellen für eine Tabelle können Sie die Scanergebnisse in BigQuery veröffentlichen Data Catalog Data Insights nutzt diese veröffentlichten Profilscandaten, genauere und relevantere Abfragen zur Tabelle generieren.
Die veröffentlichten Profilscandaten können in der Google Cloud Console aufgerufen werden. Weitere Informationen Informationen zum Aufrufen veröffentlichter Profilscandaten finden Sie unter Berichterstellung und Monitoring:
Wenn ein veröffentlichter Profilscan für die Tabelle zugänglich ist, wird dieser zum Generieren umfassende Einblicke. Andernfalls werden Erkenntnisse basierend auf der Spalte Namen und die entsprechenden Beschreibungen. Mit diesem Ansatz erhalten Sie Statistiken erstellt werden, unabhängig von der Verfügbarkeit eines Profilscans.
Die Daten des Profilscans liefern wertvolle Informationen zur Datenverteilung, Datentypen und statistische Zusammenfassungen des Datasets. Da Abfragen die auf Profilscandaten basieren, wird durch Dateneinblicke sichergestellt, dass die generierten Abfragen sind aussagekräftig und geben Ergebnisse zurück, die bei der weiteren Analyse hilfreich sind.
Weitere Informationen zu Profilscans finden Sie unter Datenprofilerstellung
Weitere Informationen zum Erstellen und Veröffentlichen von Profilscans finden Sie unter Datenprofilscans erstellen und verwenden
In den folgenden Abschnitten wird beschrieben, wie Data Insights die veröffentlichten Profilscandaten verwenden, um Abfragen zu fundieren.
Informationen zu Profilscandaten
Profilscandaten sind die Metadaten, die den Inhalt eines Datasets beschreiben. Sie enthalten die folgenden Informationen:
- Datentypen von Spalten
- Minimal- und Maximalwerte
- Verteilung von Werten
- Nullwerte oder fehlende Werte
- Top-Werte
- Eindeutige Werte und deren Häufigkeit
In Data Insights werden anhand dieser Informationen Abfragen generiert, die auf spezifischen Datasets und um aussagekräftige Erkenntnisse zu liefern.
Wie Data Insights Abfragen mithilfe von Profilscandaten fundieren
Data Insights verwenden Profilscandaten, um Abfragen zu erstellen, die auf der tatsächlichen Datenverteilung und den Mustern im Dataset basieren. Dieser Vorgang umfasst folgende Schritte:
- Die Analyse der Profilscandaten, um interessante Muster, Trends oder und Ausreißer in den Daten.
- Suchanfragen generieren, die sich auf diese Muster, Trends oder Ausreißer konzentrieren, Erkenntnisse zu gewinnen.
- Validieren der generierten Abfragen anhand der Profilscandaten, um sicherzustellen, liefern die Abfragen aussagekräftige Ergebnisse.
Tipps zur Maximierung der Vorteile von Data Insights
Fundierte Abfragen sorgen dafür, dass die gewonnenen Informationen präzise, relevant und umsetzbar, sodass Sie bessere datengesteuerte Entscheidungen treffen können. Damit die der meisten geerdeten Abfragen mithilfe von Profilscandaten Tipps:
- Achten Sie darauf, dass Ihre Tabelle aktuelle veröffentlichten Profilscandaten enthält. Dieses können Sie mithilfe von Dateneinblicken genauere und relevantere Suchanfragen generieren.
- Sehen Sie sich die generierten Abfragen an, um zu verstehen, warum sie auf den Profilscandaten basieren. So können Sie die Ergebnisse auswerten und Einblicke in Ihre Daten zu gewinnen.
- Passen Sie die Einstellungen des Profilscans Ihrer Tabelle an oder stellen Sie zusätzlichen Kontext zu Data Insights bereit, wenn die generierten Abfragen nicht relevant oder nützlich sind.
Preise
Das Dataplex-Feature für Data Insights ist während diese Vorschau.
Beschränkungen
- Datenstatistiken sind für native BigQuery-Tabellen, BigLake-Tabellen, externe Tabellen und Ansichten.
- Für Multi-Cloud-Kunden sind keine Daten aus anderen Clouds verfügbar.
- Datenstatistiken sind in allen Dataplex-Regionen verfügbar.
- Data Insights unterstützen die Spaltentypen
Geo
undJSON
nicht. - Insights-Ausführungen bedeuten nicht, dass jedes Mal Abfragen dargestellt werden. Starten Sie die Insight-Pipeline noch einmal, um die Wahrscheinlichkeit zu erhöhen, nützlichere Abfragen zu erzeugen.
- Für Tabellen mit Zugriffssteuerung auf Spaltenebene und eingeschränktem Nutzer Berechtigungen erstellen, können Sie Statistiken generieren, wenn Sie Lesezugriff auf Spalten der Tabelle. Zum Ausführen der generierten Abfragen benötigen Sie: entsprechenden Berechtigungen.
Hinweise
Erforderliche Rollen und Berechtigungen
Wenn Sie Datenstatistiken erstellen, verwalten und abrufen möchten, bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen:
Dataplex DataScan-Bearbeiter (
roles/dataplex.dataScanEditor
) oder Dataplex DataScan Administrator (roles/dataplex.dataScanAdmin
) für das Projekt, in dem Sie ErkenntnisseBigQuery-Datenbetrachter (
roles/bigquery.dataViewer
) in den BigQuery-Tabellen, für die Sie Statistiken generieren möchten
Bitten Sie Ihren Administrator, Ihnen die folgende IAM-Rolle zuzuweisen, um Lesezugriff auf die generierten Statistiken zu erhalten:
- Dataplex DataScan-DataViewer (
roles/dataplex.dataScanDataViewer
) für das Projekt, das die BigQuery-Tabellen enthält, für die Sie Statistiken ansehen
Damit das Dataplex-Dienstkonto die erforderlichen Berechtigungen hat, die veröffentlichten Datenprofilscans lesen, bitten Sie Ihren Administrator, Dataplex-Dienst-Agent in Ihrem Projekt, die folgenden IAM-Rolle Dies hilft dabei, die generierten Abfragen mit realen Werten zu konstruieren in der BigQuery-Tabelle.
- Dataplex DataScan-DataViewer (
roles/dataplex.dataScanDataViewer
)
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Dienstkonten verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
APIs aktivieren
Aktivieren Sie die folgenden APIs in Ihrem Projekt, um Data Insights zu verwenden:
Weitere Informationen zum Aktivieren der Cloud AI Companion API finden Sie unter Cloud AI Companion API in einem Google Cloud-Projekt aktivieren.
Statistiken für eine BigQuery-Tabelle generieren
Zum Generieren von Statistiken für eine BigQuery-Tabelle müssen Sie auf die Tabelle zugreifen in Dataplex mit der Dataplex-Suche.
Rufen Sie in der Google Cloud Console die Seite der Dataplex-Suche auf.
Suchen Sie in Dataplex nach dem Tabelleneintrag.
Klicken Sie auf den Tab Statistiken. Ist der Tab leer, werden die Statistiken für diese Tabelle noch nicht generiert.
Klicken Sie zum Auslösen der Insight-Pipeline auf Statistiken generieren.
Dieser Prozess dauert 5 bis 10 Minuten.
Sehen Sie sich auf dem Tab Statistiken die generierten Abfragen und die zugehörigen Beschreibungen an.
Klicken Sie zum Ausführen einer Abfrage auf Open in BigQuery (In BigQuery öffnen). Die Abfrage wird in BigQuery
Um neue Abfragen zu generieren, klicken Sie auf Statistiken generieren und lösen Sie das Ereignis zu erstellen.
Statistiken für eine externe BigQuery-Tabelle generieren
Dataplex-Datenstatistiken unterstützen externe BigQuery-Tabellen die sich im selben Google Cloud-Projekt befinden. Wenn die BigQuery-Bibliothek Tabelle verweist auf Daten, die in Cloud Storage in einer anderen Google Cloud gespeichert sind scheitert die Generierung von Erkenntnissen.
Um Statistiken für eine externe BigQuery-Tabelle zu generieren, folgen Sie den wie in den Statistiken für eine BigQuery-Tabelle generieren dieses Dokuments.
Statistiken für eine BigLake-Tabelle generieren
So generieren Sie Insights für eine BigLake-Tabelle:
Aktivieren Sie die BigQuery Connection API in Ihrem Projekt.
BigQuery-Verbindung erstellen Weitere Informationen finden Sie unter Verbindungen verwalten.
IAM-Rolle „Storage Object Viewer“ (
roles/storage.objectViewer
) gewähren mit dem Dienstkonto, das der BigQuery-Verbindung entspricht die Sie erstellt haben.Sie können die Dienstkonto-ID auf der Seite mit den Verbindungsinformationen abrufen für das Dienstkonto.
Um Statistiken zu generieren, folgen Sie der Anleitung in der Statistiken für eine BigQuery-Tabelle generieren dieses Dokuments.
Nächste Schritte
- Weitere Informationen zur Dataplex-Datenprofilerstellung.
- Abfragen mit Gemini-Unterstützung in BigQuery schreiben.