Analizza i file

Questa pagina spiega come analizzare i file durante la preparazione dei dati nello spazio di lavoro Wrangler di Studio di Cloud Data Fusion. Wrangler ti consente di analizzare un file prima di caricarlo nello spazio di lavoro Wrangler:

  • Wrangler deducono i tipi di dati e mappano ogni colonna al tipo dedotto allo stesso modo dei plug-in di origine file in Pipeline Studio.
  • Quando l'inferenza dello schema non è possibile, puoi importare lo schema per un formato file, ad esempio JSON.
  • La ricetta non include la direttiva di analisi, che riduce la logica di trasformazione durante le esecuzioni della pipeline.
  • Quando crei una pipeline da Wrangler, il plug-in di origine include tutte le proprietà e gli stessi valori di analisi che hai impostato in Wrangler.

Creare una connessione file

Per analizzare un file prima di caricarlo in Wrangler, devi utilizzare una connessione file, come File, Cloud Storage o Amazon S3.

  1. Vai allo spazio di lavoro Wrangler in Cloud Data Fusion.
  2. Fai clic sulla freccia di espansione Seleziona dati per visualizzare le connessioni disponibili.
  3. Aggiungi una connessione per File, Cloud Storage o S3. Per scoprire di più, consulta Creare e gestire le connessioni.
  4. Per aprire la finestra di dialogo delle opzioni di analisi, vai al riquadro Seleziona dati e fai clic sul nome del file.
  5. Nella finestra di dialogo Parsing options (Opzioni di analisi), inserisci le seguenti informazioni:

    1. Nel campo Formato, scegli il formato file dei dati in lettura, ad esempio csv. Per ulteriori informazioni, consulta Formati supportati.

      • Se scegli il formato del delimitatore, inserisci le informazioni sul delimitatore nel campo Delimitatore visualizzato.
      • Se scegli il formato CSV, TSV o delimitatore, viene visualizzato il campo Attiva valori tra virgolette. Se i dati sono racchiusi tra virgolette, seleziona True. Questa impostazione elimina le virgolette dall'output analizzato. Ad esempio, il seguente input, 1, "a, b, c", viene analizzato in due campi. Il primo campo ha il valore 1. Il secondo campo ha il valore: a, b, c. Il delimitatore di nuova riga non può essere tra virgolette.
      • Se hai scelto il formato di testo, CSV, TSV o delimitatore, viene visualizzato il campo Utilizza prima riga come intestazione. Per utilizzare la prima riga di ogni file come riga di intestazione di una colonna, seleziona True.
    2. Nel campo Codifica file, scegli il tipo di codifica del file di origine, ad esempio UTF-8.

    3. (Facoltativo) Per importare lo schema o sostituire lo schema dedotto per il file, fai clic su Importa schema. Importa lo schema per i formati, come JSON e alcuni file Avro, in cui non è possibile dedurre lo schema. Lo schema deve essere in formato Avro.

    4. Fai clic su Conferma. Il file analizzato viene visualizzato nello spazio di lavoro Wrangler.

Formati supportati

Per l'analisi dei file sono supportati i seguenti formati:

  • Avro
  • Blob (il formato blob richiede uno schema che contenga un campo denominato body di tipo bytes)
  • CSV
  • Delimitato
  • JSON
  • Parquet
  • Testo (il formato di testo richiede uno schema che contenga un campo denominato body di tipo string)
  • TSV

Passaggi successivi