Analisar arquivos

Esta página explica como analisar arquivos ao preparar dados no espaço de trabalho do Wrangler do Cloud Data Fusion Studio. O Wrangler permite analisar um arquivo antes de carregá-lo no espaço de trabalho do Wrangler:

  • O Wrangler infere tipos de dados e mapeia cada coluna para o tipo de dados inferido da mesma forma que os plug-ins de origem de arquivo fazem no Pipeline Studio.
  • Quando a inferência de esquema não for possível, você poderá importar o esquema para um formato de arquivo, como JSON.
  • A receita não inclui a diretiva de análise, o que reduz a lógica de transformação durante as execuções do pipeline.
  • Quando você cria um pipeline no Wrangler, o plug-in de origem inclui todas as mesmas propriedades e valores de análise definidos no Wrangler.

Criar uma conexão de arquivo

Para analisar um arquivo antes de carregá-lo no Wrangler, use uma conexão de arquivo, como o File, o Cloud Storage ou o Amazon S3.

  1. Acesse o espaço de trabalho do Wrangler no Cloud Data Fusion.
  2. Clique na seta de expansão Selecionar dados para ver as conexões disponíveis.
  3. Adicione uma conexão para o File, o Cloud Storage ou o S3. Para mais informações, consulte Criar e gerenciar conexões.
  4. Para abrir a caixa de diálogo de opções de análise, acesse o painel Selecionar dados e clique no nome do arquivo.
  5. Na caixa de diálogo Parsing options, insira as seguintes informações:

    1. No campo Formato, escolha o formato de arquivo dos dados que estão sendo lidos, por exemplo, csv. Para mais informações, consulte Formatos compatíveis.

      • Se você escolher o formato de delimitador, insira as informações do delimitador no campo Delimitador que aparecer.
      • Se você escolher o formato CSV, TSV ou delimitador, um campo Ativar valores com aspas vai aparecer. Se os dados estiverem entre aspas, selecione Verdadeiro. Essa configuração remove as aspas da saída analisada. Por exemplo, a entrada 1, "a, b, c" a seguir é analisada em dois campos. O primeiro campo tem o valor: 1. O segundo campo tem o valor: a, b, c. O delimitador de nova linha não pode estar entre aspas.
      • Se você escolher o formato de texto, CSV, TSV ou delimitador, um campo Usar a primeira linha como cabeçalho vai aparecer. Para usar a primeira linha de cada arquivo como um cabeçalho de coluna, selecione True.
    2. No campo Codificação do arquivo, escolha o tipo de codificação do arquivo de origem, por exemplo, UTF-8.

    3. Opcional: para importar o esquema ou substituir o esquema inferido do arquivo, clique em Import Schema. Você importa o esquema para formatos, como JSON e alguns arquivos Avro, em que a inferência de esquema não é possível. O esquema precisa estar no formato Avro.

    4. Clique em Confirmar. O arquivo analisado aparece no espaço de trabalho do Wrangler.

Formatos compatíveis

Os seguintes formatos são compatíveis com a análise de arquivos:

  • Avro
  • Blob (o formato blob requer um esquema que contenha um campo chamado body do tipo bytes)
  • CSV
  • Delimitado
  • JSON
  • Parquet
  • Texto: o formato de texto exige um esquema que contenha um campo chamado body do tipo string.
  • TSV

A seguir