Analise ficheiros

Esta página explica como analisar ficheiros quando prepara dados no espaço de trabalho do Wrangler do Cloud Data Fusion Studio. O Wrangler permite-lhe analisar um ficheiro antes de o carregar para o espaço de trabalho do Wrangler:

  • O Wrangler infere os tipos de dados e mapeia cada coluna para o tipo de dados inferido da mesma forma que os plug-ins de origem de ficheiros no Pipeline Studio.
  • Quando a inferência de esquemas não é possível, pode importar o esquema para um formato de ficheiro, como JSON.
  • A receita não inclui a diretiva de análise, o que reduz a lógica de transformação durante as execuções da pipeline.
  • Quando cria um pipeline a partir do Wrangler, o plug-in de origem inclui todas as mesmas propriedades e valores de análise que definiu no Wrangler.

Crie uma associação de ficheiros

Para analisar um ficheiro antes de o carregar para o Wrangler, tem de usar uma ligação de ficheiro, como Ficheiro, Cloud Storage ou Amazon S3.

  1. Aceda ao espaço de trabalho do Wrangler no Cloud Data Fusion.
  2. Clique na seta do expansor Selecionar dados para ver as associações disponíveis.
  3. Adicione uma associação para Ficheiro, Cloud Storage ou S3. Para mais informações, consulte o artigo Crie e faça a gestão de associações.
  4. Para abrir a caixa de diálogo de opções de análise, aceda ao painel Selecionar dados e clique no nome do ficheiro.
  5. Na caixa de diálogo Opções de análise, introduza as seguintes informações:

    1. No campo Formato, escolha o formato de ficheiro dos dados que estão a ser lidos, por exemplo, csv. Para mais informações, consulte a secção Formatos compatíveis.

      • Se escolher o formato de delimitador, no campo Delimitador apresentado, introduza as informações do delimitador.
      • Se escolher o formato CSV, TSV ou delimitador, é apresentado um campo Ativar valores entre aspas. Se os seus dados estiverem entre aspas, selecione Verdadeiro. Esta definição remove as aspas do resultado analisado. Por exemplo, a seguinte entrada, 1, "a, b, c", é analisada em dois campos. O primeiro campo tem o valor: 1. O segundo campo tem o valor: a, b, c. O delimitador de nova linha não pode estar entre aspas.
      • Se escolheu o formato de texto, CSV, TSV ou delimitador, é apresentado o campo Usar primeira linha como cabeçalho. Para usar a primeira linha de cada ficheiro como cabeçalho de coluna, selecione Verdadeiro.
    2. No campo Codificação de ficheiros, escolha o tipo de codificação de ficheiros do ficheiro de origem, por exemplo, UTF-8.

    3. Opcional: para importar o esquema ou substituir o esquema inferido para o ficheiro, clique em Importar esquema. Importa o esquema para formatos, como JSON e alguns ficheiros Avro, em que a inferência de esquemas não é possível. O esquema tem de estar no formato Avro.

    4. Clique em Confirm. O ficheiro analisado aparece no espaço de trabalho do Wrangler.

Formatos suportados

Os seguintes formatos são suportados para a análise de ficheiros:

  • Avro
  • Blob (o formato blob requer um esquema que contenha um campo denominado body do tipo bytes)
  • CSV
  • Delimitado
  • JSON
  • Parquet
  • Texto (o formato de texto requer um esquema que contenha um campo denominado body do tipo string)
  • TSV

O que se segue?