Découvrez les nouveautés concernant Cloud Dataprep : regardez la session Next intitulée Créer un pipeline de transformation de données avec Cloud Dataprep.

Dataprep by Trifacta

Un service visuel intelligent pour explorer, nettoyer et préparer des données cloud à analyser et à utiliser pour le machine learning

Consultez la documentation de ce produit.

L'icône Dataprep se trouve devant un ordinateur portable ouvert avec de nombreuses pages Web situées à droite, une feuille de calcul avec le logo Trifacta située à gauche, et un graphique à barres dans le cloud derrière

Préparation intelligente des données

Dataprep by Trifacta est un service intelligent qui permet d'explorer visuellement, de nettoyer et de préparer des données structurées et non structurées à des fins d'analyse, de création de rapports et de machine learning. Cette solution sans serveur fonctionne à n'importe quelle échelle. Vous n'avez aucune infrastructure à déployer ni à gérer. La transformation idéale suivante est suggérée et prédite à chaque entrée d'UI afin que vous n'ayez pas à écrire de code.

Nouveautés

Écran d'ordinateur affichant des données

Simplicité sans serveur

Dataprep est un service partenaire d'intégration, géré par la société Trifacta. Il est basé sur sa solution avancée de préparation des données. Google collabore étroitement avec Trifacta pour offrir une expérience utilisateur fluide qui élimine la nécessité d'installer des logiciels en amont, ainsi que les coûts de licence distincts ou les frais de fonctionnement continus. Dataprep est un service entièrement géré qui évolue en fonction de la demande pour répondre à vos besoins croissants en matière de préparation de données, et vous permettre de rester concentré sur vos tâches d'analyse.

Graphique stylisé accompagné d'une icône de chronomètre

Exploration immédiate des données et détection rapide des anomalies

La distribution visuelle des données facilite leur compréhension et leur exploration. Dataprep détecte automatiquement les schémas, les types de données, les jointures possibles et les problèmes tels que les valeurs manquantes, les anomalies et les doubles. Finis les fastidieux contrôles de qualité des données : consacrez-vous immédiatement à leur exploration et à leur analyse.

Page émergeant d'un carton ouvert et comportant du texte ainsi que des coches de couleur bleue dans la marge droite. L'icône Dataprep est visible à gauche.

Préparation facile et performante des données

Pour chaque geste effectué dans l'UI, Dataprep suggère et prédit automatiquement la transformation idéale suivante. Une fois que vous avez défini votre séquence de transformations, Dataprep utilise Cloud Dataflow ou BigQuery en arrière-plan pour vous permettre de traiter des ensembles de données structurés ou non structurés de n'importe quelle taille en quelques clics, et non via du code.

Fonctionnalités de Dataprep

Éditions Starter, Professional et Enterprise

Transformation prédictive

Dataprep se sert d'un algorithme d'inférence propriétaire pour interpréter l'intention de transformation d'un ensemble de données sélectionné. Un classement de suggestions et de modèles de mise en correspondance est automatiquement généré.

Large choix de fonctions de transformation

Exploitez des centaines de fonctions de transformation pour tirer profit de vos données comme vous le souhaitez. Accédez en un clic à des fonctions telles que l'agrégation, l'ajout ou la suppression de tableaux croisés dynamiques, la jointure, l'union, l'extraction, le calcul, la comparaison, la condition, la fusion, les expressions régulières, et bien plus.

Débit de traitement optimisé

Dataprep sélectionne automatiquement le meilleur moteur de traitement Google Cloud sous-jacent pour transformer les données le plus rapidement possible. En fonction de la localisation et du volume des données, Dataprep utilise BigQuery (transformations ELT sur place) pour préparer les données, pour Dataflow ou pour le moteur en mémoire de Dataprep pour petits volumes.

Profilage actif

Consultez et explorez vos données via une distribution visuelle interactive qui vous aide à les découvrir, à les nettoyer et à les transformer. Des représentations visuelles vous permettent d'interpréter d'importants volumes de données, et les techniques de profilage innovantes de Dataprep permettent de visualiser des informations statistiques clés dans un format dynamique et simple d'utilisation.

Règles sur la qualité des données

Les règles de qualité des données proposent des indicateurs de qualité des données pour surveiller et corriger la précision, l'exhaustivité, la cohérence, la validité et l'unicité des données, afin de bénéficier d'une vue complète sur la propre ligne des données.

Collaboration

Au sein d'une équipe, il peut s'avérer utile de partager les mêmes ressources entre plusieurs utilisateurs ou de créer des copies de tâches de qualité qui serviront de modèles aux autres membres. Dataprep permet aux utilisateurs de collaborer sur les mêmes objets de flux en temps réel ou de créer des copies que d'autres pourront utiliser de manière indépendante.

Connectivité complète

En plus de la connectivité standard de BigQuery, Cloud Storage, Microsoft Excel et Google Sheets, enrichissez vos analyses en libre-service avec des centaines de sources de données comme Salesforce, Oracle, Microsoft SQL Server, MySQL et PostgreSQL.

Orchestration des pipelines de données

Planifiez et automatisez vos tâches de préparation des données en les regroupant dans un ordre séquentiel et conditionnel. Alertez les utilisateurs en cas de réussite ou d'échec et déclenchez des tâches externes (telles que Cloud Functions). Exploitez les API complètes pour intégrer Dataprep dans le cadre d'une solution de bout en bout.

Opérationnalisation à l'échelle de l'entreprise

Adoptez un cabinet de déploiement continu grâce à l'importation/exportation de recettes dans différentes éditions et versions, des paramètres de flux, une configuration personnalisée pour le réglage des performances Dataflow ou BigQuery et des API avancées pour automatiser les cycles de vie de développement des logiciels et la surveillance.

Types de données courants

Transformez facilement et simplement des ensembles de données structurés ou non structurés, stockés au format CSV, JSON, ou de table relationnelle, ou des données d'application SaaS, quelle que soit leur taille (mégaoctets ou pétaoctets).

Correspondance de modèles

Tirez parti de la correspondance de modèles par colonne pour identifier les modèles de données qui vous intéressent. Ceux-ci sont affichés dans l'interface et vous pouvez vous en servir pour créer vos recettes. En outre, vous pouvez appliquer des expressions régulières ou des modèles Dataprep dans vos étapes de recette pour localiser les modèles et transformer les données correspondantes dans vos ensembles de données.

Standardisation

Groupez les valeurs par similarités en fonction de l'orthographe ou d'une prononciation indépendante de la langue, et créez des clusters standardisés de valeurs cohérentes.

Échantillonnage

Afin d'optimiser les performances, Dataprep génère automatiquement un ou plusieurs échantillons de données pour affichage et manipulation dans l'application cliente. Toutefois, vous pouvez facilement modifier la taille, la portée et la méthode de création des échantillons.

Sécurité avancée

Développez les normes de sécurité actuelles en fournissant un contrôle d'accès individuel aux données à l'aide des rôles Google IAM et des droits d'accès BigQuery, Cloud Storage et Google Sheets pour déterminer l'accès.

Architecture des pipelines Dataprep ELT

Sur la gauche, la colonne "Ingestion" contient des données brutes dans BigQuery, Cloud Storage, Google Sheets, Microsoft Excel, des bases de données, des applications et l'importation de fichiers. Le flux se déplace vers la droite et traverse la colonne de préparation et de stockage pour atteindre Cloud Dataprep et Dataflow. Les données sont affinées dans BigQuery et Cloud Storage. Sous cette colonne se trouvent la gouvernance et l'automatisation : Data Catalog, Cloud Functions et Cloud Composer. Le flux continue d'avancer vers la droite pour atteindre la colonne d'analyse et de machine learning contenant BigQuery, BigQueryML, Looker, Google Data Studio, les services d'informatique décisionnelle de nos partenaires (logo Qlik ici) et Cloud AI Platform.

Dataprep nous permet d'explorer rapidement de nouveaux ensembles de données, et sa flexibilité répond à tous nos besoins de transformation des données. Chez Merkle, le temps consacré à la préparation des données ne se compte plus en heures ni en jours, mais en minutes. Cela correspond à une réduction de 90 % du temps dédié à ces tâches.

Henry Culver, architecte informatique, Merkle

Nos clients

Tarifs

Dataprep est une application Web interactive dans laquelle les utilisateurs définissent les règles de préparation des données en interagissant avec un échantillon. Pour exécuter le flux sur l'intégralité d'un ensemble de données, exécutez-le en tant que tâche Cloud Dataprep (à l'aide de Dataflow).  La tarification est répartie sur deux variables : la conception et l'exécution. La conception est facturée par projet pour un nombre illimité d'utilisateurs. Le tarif d'exécution comprend l'utilisation de Dataflow pour exécuter des tâches dans Dataprep. Pour obtenir tous les détails, consultez notre grille tarifaire de Google Cloud Marketplace.

Passez à l'étape suivante

Profitez de 300 $ de crédit offert et de plus de 20 produits Always Free pour commencer à créer des applications sur Google Cloud.

Vous avez besoin d'aide pour démarrer ?
Faites appel à un partenaire de confiance
Poursuivez vos recherches

Passez à l'étape suivante

Démarrez votre prochain projet, consultez des tutoriels interactifs et gérez votre compte.

Vous avez besoin d'aide pour démarrer ?
Faites appel à un partenaire de confiance
Consultez des conseils et bonnes pratiques