Esta página explica como analisar ficheiros quando prepara dados no espaço de trabalho do Wrangler do Cloud Data Fusion Studio. O Wrangler permite-lhe analisar um ficheiro antes de o carregar para o espaço de trabalho do Wrangler:
- O Wrangler infere os tipos de dados e mapeia cada coluna para o tipo de dados inferido da mesma forma que os plug-ins de origem de ficheiros no Pipeline Studio.
- Quando a inferência de esquemas não é possível, pode importar o esquema para um formato de ficheiro, como JSON.
- A receita não inclui a diretiva de análise, o que reduz a lógica de transformação durante as execuções da pipeline.
- Quando cria um pipeline a partir do Wrangler, o plug-in de origem inclui todas as mesmas propriedades e valores de análise que definiu no Wrangler.
Crie uma associação de ficheiros
Para analisar um ficheiro antes de o carregar para o Wrangler, tem de usar uma ligação de ficheiro, como Ficheiro, Cloud Storage ou Amazon S3.
- Aceda ao espaço de trabalho do Wrangler no Cloud Data Fusion.
- Clique na seta do expansor Selecionar dados para ver as associações disponíveis.
- Adicione uma associação para Ficheiro, Cloud Storage ou S3. Para mais informações, consulte o artigo Crie e faça a gestão de associações.
- Para abrir a caixa de diálogo de opções de análise, aceda ao painel Selecionar dados e clique no nome do ficheiro.
Na caixa de diálogo Opções de análise, introduza as seguintes informações:
No campo Formato, escolha o formato de ficheiro dos dados que estão a ser lidos, por exemplo, csv. Para mais informações, consulte a secção Formatos compatíveis.
- Se escolher o formato de delimitador, no campo Delimitador apresentado, introduza as informações do delimitador.
- Se escolher o formato CSV, TSV ou delimitador, é apresentado um campo Ativar valores entre aspas. Se os seus dados estiverem entre aspas,
selecione Verdadeiro. Esta definição remove as aspas do resultado analisado. Por exemplo, a seguinte entrada,
1, "a, b, c"
, é analisada em dois campos. O primeiro campo tem o valor:1
. O segundo campo tem o valor:a, b, c
. O delimitador de nova linha não pode estar entre aspas. - Se escolheu o formato de texto, CSV, TSV ou delimitador, é apresentado o campo Usar primeira linha como cabeçalho. Para usar a primeira linha de cada ficheiro como cabeçalho de coluna, selecione Verdadeiro.
No campo Codificação de ficheiros, escolha o tipo de codificação de ficheiros do ficheiro de origem, por exemplo, UTF-8.
Opcional: para importar o esquema ou substituir o esquema inferido para o ficheiro, clique em Importar esquema. Importa o esquema para formatos, como JSON e alguns ficheiros Avro, em que a inferência de esquemas não é possível. O esquema tem de estar no formato Avro.
Clique em Confirm. O ficheiro analisado aparece no espaço de trabalho do Wrangler.
Formatos suportados
Os seguintes formatos são suportados para a análise de ficheiros:
- Avro
- Blob (o formato blob requer um esquema que contenha um campo denominado
body
do tipobytes
) - CSV
- Delimitado
- JSON
- Parquet
- Texto (o formato de texto requer um esquema que contenha um campo denominado
body
do tipostring
) - TSV
O que se segue?
- Saiba mais acerca das diretivas do Wrangler.