Transformação Splitrows

OBSERVAÇÃO: as transformações fazem parte da linguagem subjacente não diretamente acessível aos usuários. Esse conteúdo é mantido apenas para fins de referência.

Divide uma coluna de valores em linhas separadas de dados com base no delimitador especificado. Você pode dividir as linhas apenas em valores literais de string. A divisão de linhas baseada em padrões não é aceita.

OBSERVAÇÃO: a transformação splitrows precisa ser a primeira no seu roteiro. Quando um conjunto de dados é carregado pela primeira vez na página "Transformer", uma transformação splitrows pode ser adicionada como o primeiro passo da receita. Não é possível adicionar outra transformação splitrows na receita posteriormente. Para mais informações, consulte Etapas de análise inicial.

Uso básico

Se você carregar dados CSV na página "Transformer" e, em seguida, revisar o primeiro passo da receita no painel "Recipe", o resultado deverá ter a seguinte aparência:

splitrows col: column1 on: '\r'

Saída: divide todos os dados CSV, que são armazenados inicialmente como valores separados por vírgula em column1. O delimitador para o fim da linha é um retorno do carro, indicado pelo valor com o caractere de escape \r.

Parâmetros

splitrows col:column_ref on:'string_literal' [quote:'quoted_string']

TokenObrigatório?Tipo de dadosDescrição
splitrowsStransformaçãoNome da transformação.
colSstringNome da coluna de origem
onSstringEspecifica o final do delimitador de linha para cada valor na coluna de origem
quoteNstringEspecifica um objeto entre aspas que é omitido da correspondência de padrões
quoteEscapeCharNstringEspecifica o caractere de escape que é usado para preceder aspas.

Para mais informações sobre os padrões de sintaxe, consulte as Observações sobre a sintaxe da documentação do idioma.

col

Identifica a coluna na qual aplicar a transformação. Você pode especificar apenas uma coluna.

Observações sobre o uso:

Obrigatório?Tipo de dados
SimString (nome da coluna)

on

Identifica o padrão de correspondência. Esse padrão consiste em um literal de string, um padrão do Cloud Dataprep ou uma expressão regular.

OBSERVAÇÃO: o valor tem que ser uma string. Para essa transformação, o parâmetro define a sequência de divisão da linha atual e de adição dos dados após a string na nova linha.

Observações sobre o uso:

Obrigatório?Tipo de dados
SimLiteral de string

quote

Pode ser usado para especificar uma string como um único objeto entre aspas.

OBSERVAÇÃO: esse valor do parâmetro precisa ser um único caractere.

splitrows col: MyCol on: '\r\n' quote: '"'

Saída: divide a coluna MyCol em linhas separadas na string do caractere de retorno/nova linha (\r\n). Os valores contidos entre aspas duplas (") são tratados como strings, mesmo que contenham valores \r\n.

Observações sobre o uso:

Obrigatório?Tipo de dados
NãoString

quoteEscapeChar

Por padrão, os caracteres a seguir são identificados na plataforma como escape das marcações de aspas em formatos baseados em texto que usam aspas para identificar campos:

  • JSON: a plataforma pressupõe o uso de \.
  • Todos os outros formatos de arquivo: a plataforma pressupõe o uso de ".

Também há a opção de especificar o caractere usado como escape de aspas em cada receita. Normalmente, esse valor é especificado para processar dados JSON ou para personalizar a transformação de seus dados específicos.

splitrows col: MyCol on: '\r\n' quote: '"' quoteEscapeChar:'"'

Observações sobre o uso:

Obrigatório?Tipo de dados
NãoLiteral de string (caractere único)

Exemplos

Exemplo: splitrows com dados CSV

Origem não estruturada:

Antes da importação, seus dados no formato CSV têm a seguinte aparência:

Date,UserId,Message
3/14/16,jjones,"Hi, everyone!
Happy, St. Patrick's Day!"
3/14/16,lsmith,"@jjones, it's on 3/17."
3/14/16,thughes,lol
3/14/16,jjones,"@lsmith, no harm in celebrating twice!"

Observações:

  • O valor de Message na primeira linha de dados contém retornos de carro, que precisam ser capturados no valor dos dados e não utilizados para dividir a linha.
  • O valor de Message para thughes é um único valor não delimitado por aspas.

Transformação:

Quando os dados são carregados pela primeira vez na página "Transformer", a etapa a seguir é adicionada como a primeira da receita:

splitrows col: column1 on: '\r' quote: '\"'

Essa transformação divide os dados CSV não estruturados no retorno de carro. No entanto, os valores armazenados entre aspas duplas são tratados como strings únicas e nenhuma quebra de linha é aplicada a esses dados.

Resultados:

Para os dados CSV, essa etapa, uma etapa split e uma etapa header normalmente são adicionadas automaticamente como as primeiras da receita. Na página "Transformer", esse conjunto de dados deve ter a seguinte aparência:

DateUserIdMessage
14/03/16jjonesOlá a todos! C R C RFeliz dia de São Patrício!
14/03/16lsmith@jjones, é em 17/03.
14/03/16Thugheslol
14/03/16jjones@lsmith, não há problema em comemorar duas vezes!

O marcador C R é usado para indicar um retorno de carro nos dados.


Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.