Dataprep by Trifacta
Un service visuel intelligent basé sur le cloud permettant d'explorer, de nettoyer et de préparer des données à analyser et à utiliser pour le machine learning
Consultez la documentation de ce produit.
Préparation intelligente des données
Nouveautés
Simplicité sans serveur
Dataprep est un service partenaire intégré, géré par la société Trifacta. Il est basé sur sa solution avancée de préparation des données. Google collabore étroitement avec Trifacta pour offrir une expérience utilisateur fluide qui élimine la nécessité d'installer des logiciels en amont, ainsi que les coûts de licence distincts ou les frais de fonctionnement continus. Dataprep est un service entièrement géré qui évolue à la demande pour répondre à vos besoins croissants en préparation de données. Vous pouvez ainsi vous concentrer sur vos tâches d'analyse.
Exploration immédiate des données et détection rapide des anomalies
La distribution visuelle des données facilite leur compréhension et leur exploration. Dataprep détecte automatiquement les schémas, les types de données, les jointures possibles et les problèmes tels que les valeurs manquantes, les anomalies et les doublons. Finie l'évaluation fastidieuse de la qualité des données : vous pouvez vous consacrer immédiatement à leur exploration ainsi qu'à leur analyse.
Préparation facile et performante des données
Pour chaque geste effectué dans l'UI, Dataprep suggère et prédit automatiquement la transformation idéale suivante. Une fois que vous avez défini votre séquence de transformations, Dataprep utilise Dataflow ou BigQuery en arrière-plan pour vous permettre de traiter des ensembles de données structurés ou non structurés de n'importe quelle taille en quelques clics, et non via du code.
Fonctionnalités de Dataprep
Éditions Starter, Professional et Enterprise
Transformation prédictive
Dataprep se sert d'un algorithme d'inférence propriétaire pour interpréter l'intention de transformation d'un ensemble de données sélectionné. Un classement de suggestions et de modèles de mise en correspondance est automatiquement généré.
Large choix de fonctions de transformation
Exploitez des centaines de fonctions de transformation pour tirer profit de vos données comme vous le souhaitez. Accédez en un clic à des fonctions telles que l'agrégation, l'ajout ou la suppression de tableaux croisés dynamiques, la jointure, l'union, l'extraction, le calcul, la comparaison, la condition, la fusion, les expressions régulières, et bien plus.
Débit de traitement optimisé
Dataprep sélectionne automatiquement le meilleur moteur de traitement Google Cloud sous-jacent pour transformer les données le plus rapidement possible. En fonction de la localisation et du volume des données, Dataprep utilise BigQuery (transformations ELT sur place), Dataflow ou, pour les petits volumes, son propre moteur en mémoire.
Profilage actif
Consultez et explorez vos données via une distribution visuelle interactive qui vous aide à les découvrir, à les nettoyer et à les transformer. Des représentations visuelles vous permettent d'interpréter d'importants volumes de données, et les techniques de profilage innovantes de Dataprep permettent de visualiser des informations statistiques clés dans un format dynamique et simple d'utilisation.
Règles sur la qualité des données
Les règles sur la qualité des données proposent des indicateurs de qualité des données pour surveiller et corriger l'exactitude, l'exhaustivité, la cohérence, la validité et l'unicité des données, afin de bénéficier d'une vue complète de la propreté des données.
Collaboration
Au sein d'une équipe, il peut s'avérer utile de partager les mêmes ressources entre plusieurs utilisateurs ou de créer des copies de tâches de qualité qui serviront de modèles aux autres membres. Dataprep permet aux utilisateurs de collaborer sur les mêmes objets de flux en temps réel ou de créer des copies que d'autres pourront utiliser de manière indépendante.
Connectivité complète
En plus de la connectivité standard avec BigQuery, Cloud Storage, Microsoft Excel et Google Sheets, enrichissez vos analyses en libre-service avec des centaines de sources de données comme Salesforce, Oracle, Microsoft SQL Server, MySQL et PostgreSQL.
Orchestration des pipelines de données
Planifiez et automatisez vos jobs de préparation des données en les chaînant dans un ordre séquentiel et conditionnel. Alertez les utilisateurs en cas de réussite ou d'échec, et déclenchez des tâches externes (telles que Cloud Functions). Exploitez les API complètes pour intégrer Dataprep dans le cadre d'une solution de bout en bout.
Opérationnalisation à l'échelle de l'entreprise
Adoptez une pratique de déploiement continu avec l'importation/exportation de recettes entre les éditions et les versions, des paramètres de flux, une configuration personnalisée pour Dataflow ou BigQuery, le réglage des performances et des API avancées pour automatiser les cycles de vie de développement des logiciels et la surveillance.
Types de données courants
Transformez facilement et simplement des ensembles de données structurés ou non structurés, stockés aux formats CSV, JSON ou de table relationnelle, ou bien des données d'application SaaS, quelle que soit leur taille (mégaoctets ou pétaoctets).
Correspondance de modèles
Tirez parti de la correspondance de modèles par colonne pour identifier les modèles de données qui vous intéressent. Ceux-ci sont affichés dans l'interface et vous pouvez vous en servir pour créer vos recettes. En outre, vous pouvez appliquer des expressions régulières ou des modèles Dataprep dans vos étapes de recette pour localiser les modèles et transformer les données correspondantes dans vos ensembles de données.
Standardisation
Groupez les valeurs par similarités en fonction de l'orthographe ou d'une prononciation indépendante de la langue, et créez des clusters standardisés de valeurs cohérentes.
Échantillonnage
Afin d'optimiser les performances, Dataprep génère automatiquement un ou plusieurs échantillons de données pour affichage et manipulation dans l'application cliente. Toutefois, vous pouvez facilement modifier la taille, la portée et la méthode de création des échantillons.
Sécurité avancée
Développez les normes de sécurité actuelles en fournissant un contrôle des accès individuel aux données à l'aide des rôles Google IAM et des droits d'accès BigQuery, Cloud Storage et Google Sheets pour déterminer l'accès.
Architecture des pipelines ELT Dataprep
"Dataprep nous permet d'explorer rapidement de nouveaux ensembles de données, et sa flexibilité répond à tous nos besoins en termes de transformation de données. Chez Merkle, le temps consacré à la préparation des données ne se compte plus en heures ni en jours, mais en minutes. Cela correspond à une réduction de 90 % du temps dédié à ces tâches."
Henry Culver, architecte IT, Merkle
Lire le témoignageNos clients
Ressources
-
Premiers pas avec le guide de démarrage rapide de Dataprep
-
Annonces et informations concernant le produit Dataprep
-
Interagir avec d'autres utilisateurs de Cloud Dataprep sur Stack Overflow
-
Questions fréquentes sur Dataprep by TrifactaDécouvrez comment Trifacta respecte les normes de sécurité, de confidentialité et de protection des données.
-
Automatiser les pipelines Cloud Dataprep à l'arrivée d'un fichier avec Cloud Functions
-
Atelier d'auto-formation sur l'utilisation de Dataprep
-
Automatisation ML avec BigQuery ML, Dataprep et Cloud Composer
-
Créer un entrepôt de données marketing
-
Transférer des données IoT Core vers Dataprep
Tarification
Consultez la page des tarifs sur Google Cloud Marketplace.
Commencez à créer des applications sur Google Cloud avec 300 $ de crédits offerts et plus de 20 produits toujours gratuits.
Démarrez votre prochain projet, consultez des tutoriels interactifs et gérez votre compte.