Dataprep by Trifacta

Intelligenter Cloud-Datendienst für die visuelle Erkundung, Bereinigung und Vorbereitung von Daten für Analysen und maschinelles Lernen

Dokumentation für dieses Produkt ansehen

Intelligente Vorbereitung von Daten

Intelligente Vorbereitung von Daten

Cloud Dataprep von Trifacta ist ein intelligenter Datendienst für die visuelle Erkundung, Bereinigung und Vorbereitung von strukturierten und unstrukturierten Daten für Analysen, Berichte und maschinelles Lernen. Der Dienst ist serverlos und eignet sich für Daten jeder Größenordnung – es muss keine Infrastruktur bereitgestellt oder verwaltet werden. Bei jeder Eingabe in der Benutzeroberfläche wird Ihnen die ideale nächste Datentransformation vorgeschlagen und vorausberechnet. Damit wird das Schreiben von Code überflüssig.

Das ist neu

Serverlose Einfachheit

Cloud Dataprep ist ein integrierter Partnerdienst, der von Trifacta verwaltet wird und auf der branchenführenden Datenvorbereitungslösung von Trifacta basiert. Google arbeitet eng mit Trifacta zusammen, um einen reibungslosen Ablauf zu gewährleisten, durch den die vorbereitende Installation von Software, separate Lizenzgebühren und operativer Overhead vermieden werden. Cloud Dataprep ist vollständig verwaltet und kann bei Bedarf nahtlos skaliert werden, um den wachsenden Anforderungen an die Vorbereitung von Daten nachzukommen. Sie können sich also ganz auf die Analyse konzentrieren.

Schnelle Erkundung und Anomalieerkennung

Dank visueller Datenverteilung lassen sich Daten im Handumdrehen untersuchen und verstehen. Cloud Dataprep erkennt automatisch Schemas, Datentypen, Möglichkeiten zur Zusammenführung und Anomalien wie fehlende Werte, Ausreißer und Duplikate. Somit können Sie die zeitaufwändige Bewertung der Datenqualität überspringen und direkt zur Datenanalyse übergehen.

Einfache und effektive Datenvorbereitung

Bei jeder Bewegung auf der Benutzeroberfläche wird durch Cloud Dataprep automatisch die ideale nächste Datentransformation vorgeschlagen und prognostiziert. Nachdem Sie eine Sequenz von Transformationen definiert haben, greift Cloud Dataprep auf Cloud Dataflow zurück. Dadurch können Sie strukturierte und unstrukturierte Datasets jeder Größe bequem mit ein paar Klicks anstatt mit Code verarbeiten.

Vorteile von Cloud Dataprep

Standard- und Premiumversionen

Vorausschauende Transformation

Cloud Dataprep nutzt einen proprietären Ableitungsalgorithmus, um die Absicht der Datentransformation basierend auf der Datenauswahl eines Nutzers zu interpretieren. Es wird automatisch eine Reihe von Vorschlägen und Mustern für die entsprechende Auswahl generiert.

Vielfältige Transformationen

Nutzen Sie Hunderte von Transformationsfunktionen, um aus den Daten das gewünschte Asset zu formen. Wenden Sie Aggregation, Pivot, Unpivot, Join, Union, Extraktion, Berechnung, Vergleich, Bedingung, Zusammenführung, reguläre Ausdrücke und vieles mehr mit einem Mausklick an.

Parametrisierung

Zum Ausführen eines Schemas auf mehreren Instanzen identischer Datasets können Sie eine Variable parametrisieren, um diejenigen Teile des Dateipfades zu ersetzen, die sich bei jeder Aktualisierung ändern. Diese Variable kann bei Bedarf zur Joblaufzeit geändert werden.

Zusammenarbeit

In Teamumgebungen kann es hilfreich sein, wenn mehrere Nutzer mit denselben Ressourcen arbeiten oder Kopien von qualitativ guter Arbeit erstellt werden, die anderen Nutzern dann als Vorlagen dienen können. Mit Cloud Dataprep haben Nutzer die Möglichkeit, gemeinsam mit denselben Ablaufobjekten zu arbeiten oder Kopien für andere Mitarbeiter zu erstellen, die diese für unabhängige Arbeiten verwenden können.

Musterabgleich

Nutzen Sie den Spaltenmusterabgleich, um relevante Datenmuster zu identifizieren und diese auf der Benutzeroberfläche zum Erstellen von Schemas bereitzustellen. Außerdem können Sie in Ihren Schemaschritten reguläre Ausdrücke oder Cloud Dataprep-Muster anwenden, um Muster zu suchen und die übereinstimmenden Daten in Ihren Datasets zu transformieren.

Standardisierung

Gruppieren Sie Werte nach Ähnlichkeiten anhand ihrer Schreibung oder sprachunabhängigen Aussprache und bilden Sie so standardisierte Cluster konsistenter Werte.

Aktive Profilerstellung

Mit der interaktiven visuellen Datenverteilung können Sie Daten sehen und untersuchen. Die Erkennung, Bereinigung und Transformation von Daten wird somit vereinfacht. Visuelle Darstellungen ermöglichen die Auswertung großer Datenmengen. Mit den innovativen Profilerstellungstechniken von Cloud Dataprep können Sie wichtige statistische Informationen in einem dynamischen und einfach anwendbaren Format visualisieren.

Probenahme

Zur Leistungsverbesserung generiert Cloud Dataprep automatisch eine oder mehrere Stichproben der Daten, um diese in der Client-Anwendung anzuzeigen und zu bearbeiten. Sie können die Größe und den Umfang der Stichprobe sowie deren Erfassungsmethode jedoch mühelos ändern.

Planung

Sie haben die Möglichkeit, eine regelmäßige oder bedarfsbasierte Ausführung von Schemas in Ihren Abläufen zu planen. Nach erfolgreicher Ausführung des geplanten Jobs können Sie die Wrangle-codierte Ausgabe aus dem angegebenen Ausgabespeicherort in dem von Ihnen festgelegten Veröffentlichungsformat abrufen.

Schnelles Targeting

Definieren Sie Zielschemas über importierte oder erstellte Datasets und weisen Sie diese einem vorhandenen Schema zu, um die Wrangling-Codierung zu systematisieren und zu beschleunigen. Die Ziele werden auf der Seite „Transformer” angezeigt und können auf das gesamte Dataset oder ausgewählte Spalten des Datasets angewendet werden, für das Sie die Wrangling-Codierung durchführen müssen.

Gängige Datentypen

Strukturierte und unstrukturierte Datasets, die in CSV-, JSON- oder relationalen Tabellenformaten gespeichert sind, lassen sich unabhängig von ihrer Größe – Megabyte oder Terabyte – einfach und intuitiv transformieren.

In die Google Cloud Platform eingebunden

Verarbeiten Sie Daten, die in Cloud Storage, BigQuery oder auf Ihrem Desktop gespeichert sind. Die bereinigten Daten können dann zur Speicherung, Analyse, Visualisierung oder maschinellen Verarbeitung nach BigQuery oder Cloud Storage exportiert werden. Nutzerzugriff und Datensicherheit werden mit Cloud Identity and Access Management nahtlos verwaltet.

Höhere Konnektivität

Bereichern Sie neben der Standardkonnektivität von BigQuery, Cloud Storage, Microsoft Excel und Google Tabellen Ihre Self-Service-Analysen mit Datenquellen von Salesforce, Oracle, Microsoft SQL Server, MySQL und PostgreSQL.

Datenpipelineorchestrierung

Erhöhen Sie Ihre Automatisierung durch Ändern von Datenvorbereitungsjobs in sequenzieller und bedingter Reihenfolge. Benachrichtigen Sie Nutzer über Erfolg oder Misserfolg und lösen Sie externe Aufgaben wie Cloud Functions aus. Nutzen Sie umfassende APIs, um Cloud Dataprep in eine End-to-End-Lösung eines Unternehmens einzubinden.

Operationalisierung für Unternehmen

Setzen Sie eine kontinuierliche Bereitstellung mit Schemaimport/-export unabhängig von Version, Ablaufparametern, benutzerdefinierter Konfiguration für die Leistungsoptimierung von Google Dataflow und fortgeschrittenen APIs ein. Damit automatisieren Sie Lebenszyklen von Softwareentwicklung und Monitoring.

Regeln für Datenqualität

Regeln für Datenqualität schlagen Qualitätsindikatoren für die Daten vor, um die Genauigkeit, Vollständigkeit, Konsistenz, Gültigkeit und Eindeutigkeit der Daten zu beobachten und zu beheben. Dabei erhalten Sie eine umfassende Übersicht über die Datenreinheit.

Erweiterte Sicherheit

Erweitern Sie aktuelle Sicherheitsstandards durch individuelle Datenzugriffssteuerung. Nutzen Sie dazu eine Kombination aus Google IAM-Rollen und Zugriffsrechten für BigQuery, Cloud Storage und Google Tabellen.

Architektur von Cloud Dataprep

Architektur von Cloud Dataprep

Mit Cloud Dataprep können wir neue Datasets schnell untersuchen. Aufgrund der Flexibilität dieser Lösung können wir allen unseren Anforderungen zur Datentransformation nachkommen. Da wir bei Merkle jetzt nur noch Minuten statt Stunden für die Datenvorbereitung benötigen, konnten wir diese um 90 % beschleunigen.

Henry Culver, IT Architect, Merkle

Unsere Kunden

Ressourcen

Preise

Cloud Dataprep ist eine interaktive Webanwendung, in der Nutzer die Datenvorbereitungsregeln anhand einer Stichprobe ihrer Daten definieren. Der Ablauf für das vollständige Dataset kann (unter Verwendung von Google Cloud Dataflow) als Cloud Dataprep-Job ausgeführt werden.  Die Preise verteilen sich über zwei Variablen: Design und Ausführung. Das Design wird auf einer Pro-Projekt-Basis für eine unbegrenzte Anzahl von Nutzern berechnet. Die Preise für die Ausführung setzen sich aus der Dataflow-Nutzung für laufende Jobs in Dataprep zusammen. Weitere Informationen und alle Einzelheiten finden Sie auf unserer Preisseite in Google Cloud Marketplace. 

Gleich loslegen

Profitieren Sie von einer Gutschrift über 300 $ und lernen Sie Google Cloud und mehr als 20 „Immer kostenlos“-Produkte kennen.

Benötigen Sie Hilfe beim Einstieg?
Unterstützung durch Google Cloud-Partner