Analyser les fichiers

Cette page explique comment analyser des fichiers lorsque vous préparez des données dans l'espace de travail Wrangler de Cloud Data Fusion Studio. Wrangler vous permet d'analyser un fichier avant en le chargeant dans l'espace de travail Wrangler:

  • Wrangler déduit les types de données et mappe chaque colonne au type de données déduit dans de la même manière que les plug-ins de source de fichiers dans Pipeline Studio.
  • Lorsque l'inférence de schéma n'est pas possible, vous pouvez importer le schéma d'un fichier tel que JSON.
  • La recette n'inclut pas la directive d'analyse, ce qui réduit la transformation pendant l'exécution du pipeline.
  • Lorsque vous créez un pipeline à partir de Wrangler, le plug-in source inclut toutes les mêmes propriétés et valeurs d'analyse que celles que vous avez définies dans Wrangler.

Créer une connexion de fichier

Pour analyser un fichier avant de le charger dans Wrangler, vous devez utiliser une connexion de fichier, comme File, Cloud Storage ou Amazon S3.

  1. Accéder à l'espace de travail Wrangler dans Cloud Data Fusion
  2. Cliquez sur la flèche de développement Sélectionner des données pour afficher les connexions disponibles.
  3. Ajoutez une connexion pour Fichier, Cloud Storage ou S3. Pour plus d'informations, consultez Créer et gérer des connexions.
  4. Pour ouvrir la boîte de dialogue des options d'analyse, accédez au panneau Select data (Sélectionner des données). cliquez sur le nom du fichier.
  5. Dans la boîte de dialogue Parsing options (Options d'analyse), saisissez les informations suivantes:

    1. Dans le champ Format, choisissez le format de fichier des données faisant l'objet read (par exemple, csv). Pour en savoir plus, consultez la section Formats compatibles.

      • Si vous choisissez le format du délimiteur, dans le champ Délimiteur, s'affiche, saisissez les informations du délimiteur.
      • Si vous choisissez le format CSV, TSV ou délimiteur, une option Activer les guillemets values s'affiche. Si vos données sont entre guillemets, sélectionnez True (Vrai). Ce paramètre supprime les guillemets des lignes de sortie. Par exemple, l'entrée suivante, 1, "a, b, c", analyse en deux domaines. Le premier champ a la valeur: 1. Le deuxième le champ a la valeur: a, b, c. Le délimiteur de nouvelle ligne ne peut pas être placé entre guillemets.
      • Si vous avez choisi le format texte, CSV, TSV ou délimiteur, un champ Utiliser la première ligne comme en-tête s'affiche. Pour utiliser la première ligne de chaque fichier en tant que un en-tête de colonne, sélectionnez True (Vrai).
    2. Dans le champ Encodage de fichier, sélectionnez le type d'encodage de fichier fichier source, par exemple UTF-8.

    3. Facultatif : pour importer le schéma ou remplacer le schéma inféré pour le fichier, cliquez sur Import Schema (Importer le schéma). Vous importez le schéma pour des formats tels que JSON et certains fichiers Avro, où l'inférence de schéma n'est pas possible. Le schéma doit être au format Avro.

    4. Cliquez sur Confirmer. Le fichier analysé apparaît dans l'espace de travail Wrangler.

Formats compatibles

Les formats suivants sont acceptés pour l'analyse de fichiers :

  • Avro
  • Blob (le format blob nécessite un schéma contenant un champ nommé body) de type bytes)
  • CSV
  • Délimité
  • JSON
  • Parquet
  • Texte (le format texte nécessite un schéma contenant un champ nommé body de type string)
  • TSV

Étape suivante