EXEMPLO: parâmetro quote

Neste exemplo, demonstramos como o parâmetro quote pode ser usado para uma divisão mais sofisticada de colunas de dados usando a transformação split.

Fonte:

Neste exemplo, os seguintes dados CSV, que contém dados de contato, são importados para o aplicativo:

LastName,FirstName,Role,Company,Address,Status
Wagner,Melody,VP of Engineering,Example.com,"123 Main Street, Oakland, CA 94601",Prospect
Gruber,Hans,"Director, IT",Example.com,"456 Broadway, Burlingame, CA, 94401",Customer
Franks,Mandy,"Sr. Manager, Analytics",Tricorp,"789 Market Street, San Francisco, CA, 94105",Customer

Transformação:

Quando esses dados são inseridos no aplicativo, algumas análises iniciais são realizadas para você:

column2column3column4column5column6column7
LastNameFirstNameRoleCompanyAddressStatus
WagnerMelodyVP of EngineeringExample.com"123 Main Street, Oakland, CA 94601"Prospect
GruberHans"Director, IT"Example.com"456 Broadway, Burlingame, CA, 94401"Cliente
FranksMandy"Sr. Manager, Analytics"Tricorp"789 Market Street, San Francisco, CA, 94105"Cliente

Ao abrir o Painel de receita, você verá as transformações abaixo:

splitrows col: column1 on: '\r' quote: '"'

split col: column1 on: ',' limit: 5 quote: '"'

A primeira transformação divide os dados da fonte bruta em linhas separadas no caractere de retorno de carro (\r), ignorando todos os valores entre os caracteres de aspas duplas. Observe que esse valor precisa de escape. As aspas duplas não exigem escape. Embora não haja retornos de carro dentro dos dados reais, o aplicativo reconhece que essas aspas duplas estão identificando valores únicos e adiciona o valor das aspas.

A segunda transformação divide cada linha de dados em colunas separadas. Como são dados separados por vírgulas, o aplicativo reconhece que esse valor é o delimitador de coluna, portanto, o valor on é definido como o caractere de vírgula (,). Neste caso, é necessário usar aspas, já que há vírgulas nos valores em column4 e column6, que são fáceis de limpar.

Para terminar a limpeza do conjunto de dados, você pode promover a primeira linha para ser o cabeçalho de coluna:

header

Você pode remover as aspas agora. Isso se aplica a duas colunas:

replace col: Role, Address with: '' on: `"` global: true

Agora, você pode dividir a coluna Address. Você pode destacar uma das vírgulas e o espaço depois dela na coluna, mas confira se a instrução final se parece com esta:

split col: Address on: ', ' limit: 2

Há um pouco de "sujeira" na coluna Address3 resultante:

Address3
CA 94601
CA, 94401
CA, 94105

Use o seguinte comando para remover a vírgula. Neste caso, é importante deixar o espaço entre os dois valores na coluna, de modo que o valor on precise ser apenas uma vírgula. Abaixo, o valor de width é representado por duas aspas simples:

replace col: Address3 with: '' on: `,` global: true

Agora você pode dividir a coluna Address3 no delimitador de espaço:

split col: Address3 on: `{delim}`

Como os dados são formatados regularmente, você pode usar o padrão do Cloud Dataprep {delim}.

Resultados:

Depois de renomear as colunas, você verá o seguinte:

LastNameFirstNameRoleCompanyAddressCityStateZipcodeStatus
WagnerMelodyVP of EngineeringExample.com123 Main StreetOaklandCA94601Prospect
GruberHansDiretor, TIExample.com456 BroadwayBurlingameCA94401Cliente
FranksMandyGerente sênior, analíticaTricorp789 Market StreetSão FranciscoCA94105Customer
Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.