Analisar arquivos

Esta página explica como analisar arquivos ao preparar dados no espaço de trabalho do Wrangler do Cloud Data Fusion Studio. O Wrangler permite analisar um arquivo antes carregá-lo no espaço de trabalho do Wrangler:

  • O Wrangler infere tipos de dados e mapeia cada coluna para o tipo de dados inferido da mesma forma que os plug-ins de origem de arquivo fazem no Pipeline Studio.
  • Quando a inferência de esquema não for possível, você poderá importar o esquema para um formato de arquivo, como JSON.
  • A receita não inclui a diretiva de análise, o que reduz a lógica de transformação durante as execuções do pipeline.
  • Quando você cria um pipeline no Wrangler, o plug-in de origem inclui todas as propriedades de análise e valores definidos no Wrangler.

Criar uma conexão de arquivo

Para analisar um arquivo antes de carregá-lo no Wrangler, você precisa usar uma conexão de arquivo, como File, Cloud Storage ou Amazon S3.

  1. Acesse o espaço de trabalho do Wrangler no Cloud Data Fusion.
  2. Clique na seta de expansão Selecionar dados para exibir as conexões disponíveis.
  3. Adicione uma conexão para o File, Cloud Storage ou S3. Para mais mais informações, consulte Criar e gerenciar conexões.
  4. Para abrir a caixa de diálogo de opções de análise, acesse o painel Selecionar dados e clique no nome do arquivo.
  5. Na caixa de diálogo Parsing options, insira as seguintes informações:

    1. No campo Formato, escolha o formato de arquivo dos dados que estão sendo lidos, por exemplo, csv. Para mais informações, consulte Formatos compatíveis.

      • Se você escolher o formato delimitador, no campo Delimitador que insira as informações do delimitador.
      • Se você escolher o formato CSV, TSV ou delimitador, um campo Ativar valores com aspas vai aparecer. Se os dados estiverem entre aspas, selecione Verdadeiro. Essa configuração corta aspas do texto analisado saída. Por exemplo, a entrada a seguir, 1, "a, b, c", analisa em dois campos. O primeiro campo tem o valor: 1. A segunda tem o valor: a, b, c. O delimitador de nova linha não pode estar entre aspas.
      • Se você escolher o formato de texto, CSV, TSV ou delimitador, um botão Usar primeira linha as header. Para usar a primeira linha de cada arquivo como um cabeçalho de coluna, selecione True.
    2. No campo Codificação do arquivo, escolha o tipo de codificação do arquivo do de origem, por exemplo, UTF-8.

    3. Opcional: para importar o esquema ou substituir o esquema inferido da clique em Importar esquema. Você importa o esquema para formatos, como como JSON e alguns arquivos Avro, em que a inferência de esquema não é possível. O esquema precisa estar no formato Avro.

    4. Clique em Confirmar. O arquivo analisado aparece no espaço de trabalho do Wrangler.

Formatos compatíveis

Os seguintes formatos são compatíveis com a análise de arquivos:

  • Avro
  • Blob (o formato blob requer um esquema que contenha um campo chamado body) do tipo bytes)
  • CSV
  • Delimitado
  • JSON
  • Parquet
  • Texto: o formato de texto exige um esquema que contenha um campo chamado body do tipo string.
  • TSV

A seguir