Cette page explique comment analyser des fichiers lorsque vous préparez des données dans l'espace de travail Wrangler de Cloud Data Fusion Studio. Wrangler vous permet d'analyser un fichier avant de le charger dans l'espace de travail Wrangler:
- Wrangler déduit les types de données et mappe chaque colonne sur le type de données déduit de la même manière que les plug-ins de source de fichiers dans Pipeline Studio.
- Lorsque l'inférence de schéma n'est pas possible, vous pouvez importer le schéma pour un format de fichier, tel que JSON.
- La recette n'inclut pas la directive d'analyse, ce qui réduit la logique de transformation lors des exécutions de pipeline.
- Lorsque vous créez un pipeline à partir de Wrangler, le plug-in source inclut toutes les mêmes propriétés et valeurs d'analyse que celles que vous avez définies dans Wrangler.
Créer une connexion de fichier
Pour analyser un fichier avant de le charger dans Wrangler, vous devez utiliser une connexion de fichier, telle que File, Cloud Storage ou Amazon S3.
- Accédez à l'espace de travail Wrangler dans Cloud Data Fusion.
- Cliquez sur la flèche de développement Sélectionner des données pour afficher les connexions disponibles.
- Ajoutez une connexion pour File, Cloud Storage ou S3. Pour en savoir plus, consultez la section Créer et gérer des connexions.
- Pour ouvrir la boîte de dialogue des options d'analyse, accédez au panneau Sélectionner des données, puis cliquez sur le nom du fichier.
Dans la boîte de dialogue Options d'analyse, saisissez les informations suivantes:
Dans le champ Format, choisissez le format de fichier des données lues (par exemple, csv). Pour en savoir plus, consultez la section Formats compatibles.
- Si vous choisissez le format de délimiteur, saisissez les informations de délimiteur dans le champ Délimiteur qui s'affiche.
- Si vous choisissez le format CSV, TSV ou délimiteur, un champ Activer les valeurs entre guillemets s'affiche. Si vos données sont placées entre guillemets, sélectionnez True. Ce paramètre supprime les guillemets de la sortie analysée. Par exemple, l'entrée suivante,
1, "a, b, c"
, est analysée en deux champs. La valeur du premier champ est1
. Le deuxième champ a la valeur:a, b, c
. Le délimiteur de nouvelle ligne ne peut pas être placé entre guillemets. - Si vous avez choisi le format texte, CSV, TSV ou délimiteur, un champ Utiliser la première ligne comme en-tête s'affiche. Pour utiliser la première ligne de chaque fichier comme en-tête de colonne, sélectionnez True (Vrai).
Dans le champ File encoding (Encodage de fichier), choisissez le type d'encodage du fichier source (par exemple, UTF-8).
Facultatif: Pour importer le schéma ou remplacer le schéma inféré pour le fichier, cliquez sur Import Schema (Importer le schéma). Vous importez le schéma pour les formats tels que JSON et certains fichiers Avro, pour lesquels l'inférence de schéma n'est pas possible. Le schéma doit être au format Avro.
Cliquez sur Confirmer. Le fichier analysé s'affiche dans l'espace de travail Wrangler.
Formats compatibles
Les formats suivants sont acceptés pour l'analyse de fichiers:
- Avro
- Blob (le format blob nécessite un schéma contenant un champ nommé
body
de typebytes
) - CSV
- Délimité
- JSON
- Parquet
- Texte (le format de texte nécessite un schéma contenant un champ nommé
body
de typestring
) - TSV
Étape suivante
- En savoir plus sur les directives Wrangler