Extrair valores

Extrair um ou mais valores de uma coluna de valores pode transformar dados em informações significativas e distintas. Nesta seção, descrevemos como extrair dados da coluna, e os métodos para isso podem variar dependendo do tipo de dados.

Extração X divisão

As transformações de extração e divisão não fazem a mesma coisa:

  • Uma transformação de divisão separa uma única coluna em uma ou mais colunas separadas com base em um ou mais valores na coluna de origem que identificam onde os dados se dividem. Esses delimitadores podem ser determinados pelo aplicativo ou especificados pelo usuário ao definir a transformação.
  • Uma transformação de extração corresponde a valores literais ou de padrão de uma coluna de origem e os armazena em uma coluna separada.

    OBSERVAÇÃO: a coluna de origem é intocada por transformações de extração.

Métodos de extração

Na página "Transformer", use os seguintes métodos para extrair valores:

MétodoDescrição
Por seleçãoSelecione parte de um valor na grade de dados para solicitar uma série de sugestões do que fazer com os dados. Normalmente, as opções de extração estão próximas da parte superior das sugestões quando você seleciona parte de um valor.
Por menu de colunaNo menu à direita da coluna, selecione Extract e um item de submenu para começar a configurar uma transformação. Consulte Menus de colunas.
Por barra de ferramentas "Transformer"Na parte superior da grade de dados, clique no ícone "Extract" na barra de ferramentas "Transformer" para começar a configurar transformações de extração. Consulte Barra de ferramentas "Transformer".
Por painel de pesquisaNo painel de pesquisa, digite extract para criar uma transformação do zero. Consulte Painel de pesquisa.

Extrair texto ou padrões

Um uso principal da extração é remover valores literais ou padronizados de texto de uma coluna de valores. Suponhamos que o conjunto de dados tenha incluído uma coluna de atualizações do LinkedIn. Use um dos métodos a seguir para extrair palavras-chave desses valores.

Extrair valores únicos

A transformação de exemplo a seguir extrai a palavra #bigdata da coluna msg_LinkedIn:

extractpatterns type: custom col: msg_LinkedIn on: '#bigdata' limit: 1

Nome da transformação Extract text or pattern
Parâmetro: coluna da qual será extraída msg_LinkedIn
Parâmetro: opção Custom text or pattern
Parâmetro: texto a ser extraído '#bigdata'
Parâmetro: número de correspondências a serem extraídas 1

Observações:

  • O parâmetro option identifica que o padrão correspondente é personalizado e especificado pelo usuário.
  • O parâmetro Number of matches to extract assume como padrão 1, o que significa que a transformação extrai no máximo um valor de cada célula. Esse valor pode ser definido com os valores de 1 a 50.

Correspondência de restrição

Dentro da transformação de extração, especifique literais ou padrões antes ou depois da correspondência ser encontrada. Esse método pode ser usado para remover partes de cada valor de célula da correspondência incorreta no literal ou no padrão desejado.

O exemplo a seguir extrai o segundo elemento de três dígitos de um número de telefone, pulando o código da área:

Nome da transformação Extract text or pattern
Parâmetro: coluna da qual será extraída phone_num
Parâmetro: opção Custom text or pattern
Parâmetro: texto a ser extraído `{digit}`
Parâmetro: número de correspondências a serem extraídas 1
Parâmetro: ignorar correspondências entre `{start}{digit}{3}\-`

Extrair padrões únicos

Também faça extrações baseadas em padrões usando padrões do Cloud Dataprep ou expressões regulares.

  • Expressões regulares são um método baseado em padrões para descrever padrões de caracteres para fins de correspondência. As expressões regulares são muito eficientes, mas podem ser difíceis de usar.
  • Um padrão do Cloud Dataprep é um método reservado de padrões de descrição, que é muito mais simples de usar do que expressões regulares.
  • Para saber mais informações sobre os tipos de padrões, consulte Correspondência de texto.

O exemplo a seguir extrai todas as palavras que começam com # na coluna msg_LinkedIn:

extractpatterns type: custom col: msg_LinkedIn on: `\#{alphanum-underscore}+` limit: 50

Nome da transformação Extract text or pattern
Parâmetro: coluna da qual será extraída msg_LinkedIn
Parâmetro: opção Custom text or pattern
Parâmetro: texto a ser extraído `\#{alphanum-underscore}+`
Parâmetro: número de correspondências a serem extraídas 50

Observações:

  • O parâmetro Text to extract foi alterado:

    ElementoDescrição

    Dois apóstrofos (`)

    Indicam que a expressão entre eles representa um padrão do Cloud Dataprep.

    \#A barra indica que o caractere logo depois precisa ser interpretado apenas como um caractere. Ele não precisa ser interpretado como qualquer caractere especial no padrão.
    {alphanum-underscore}

    Esse elemento de padrão do Cloud Dataprep é usado para indicar um único caractere alfanumérico ou de sublinhado.

    +Acrescentar o sinal de adição depois do caractere acima significa que o padrão pode corresponder a uma sequência de caracteres alfanuméricos ou de sublinhados de um ou mais comprimentos.
  • O parâmetro Number of matches to extract foi aumentado para pegar até 50 hashtags.

Opções avançadas

OpçãoDescrição
Number of patterns to extract

Defina este valor como o número total de padrões que você queira extrair.

OBSERVAÇÃO: este valor determina o número de colunas geradas pela extração. Se nenhum valor estiver disponível, um valor vazio será gravado na coluna correspondente.

O padrão é 1.

Ignore casePor padrão, a correspondência de padrões diferencia maiúsculas de minúsculas. Marque essa caixa de seleção para ignorar maiúsculas e minúsculas na correspondência.
Ignore matches betweenÉ possível inserir um padrão aqui para descrever todos os padrões que não farão parte das correspondências. Essa opção será útil se você tiver várias instâncias de texto, mas quiser ignorar a primeira, por exemplo.

Extrair vários valores

Nas expressões padrão, use o caractere de barra vertical (|) para definir vários padrões a serem encontrados. O exemplo a seguir extrai todos os valores da coluna myDate que terminem em 7 ou em 8:

Nome da transformação Extract text or pattern
Parâmetro: coluna que terá dados extraídos myDate
Parâmetro: texto a ser extraído `{any}+7|{any}+8`
Parâmetro: terminar extração antes `{end}`

Use a barra vertical em padrões do Cloud Dataprep e expressões regulares.

Extrair primeiro ou último caractere

Extraia o primeiro ou o último grupo de caracteres de uma coluna para uma nova coluna. No exemplo a seguir, os primeiros cinco caracteres da coluna ProductName são extraídos para uma nova coluna do identificador de produto:

Nome da transformação Extract by positions
Parâmetro: coluna da qual será extraída ProductName
Parâmetro: opção First characters
Parâmetro: número de caracteres a serem extraídos 5

Altere o valor de opção para Last characters a fim de extrair do lado direito do valor da coluna.

Extrair e remover

Se precisar remover os caracteres extraídos, use a transformação a seguir. Nesse caso, os primeiros cinco caracteres, extraídos na transformação anterior, são removidos:

Nome da transformação Edit column with formula
Parâmetro: colunas ProductName
Parâmetro: fórmula RIGHT(ProductName, LEN(ProductName)-5)

Extrair por posições

Extraia valores entre posições de índice especificadas em um grupo de valores de coluna. No exemplo a seguir, o texto entre o quinto e o décimo caracteres em uma coluna é extraído para uma nova coluna.

Dica: esse método de extração será útil se o conteúdo antes e depois da área de correspondência for inconsistente e não puder ser descrito usando padrões. Se ele for consistente, você precisará usar o texto de transformação ou a transformação de padrão.

Nome da transformação Extract by positions
Parâmetro: coluna da qual será extraída ProductName
Parâmetro: opção Between two positions
Parâmetro: posição inicial 5
Parâmetro: posição final 10

Extrair por tipo de dados

Realize extrações específicas de um tipo de dados ou com base em falhas dos dados para corresponder a um tipo de dados especificado.

Extrair valores de data

Use funções para extrair valores de colunas de data e hora. O exemplo abaixo extrai o valor do ano da coluna myDate:

Nome da transformação New formula
Parâmetro: tipo de fórmula Single row formula
Parâmetro: fórmula YEAR(myDate)
Parâmetro: nome da nova coluna myYear

As seguintes funções podem ser usadas para extrair valores de uma coluna de data e hora, desde que os valores estejam presentes na data formatada:

Também é possível reformatar toda a coluna de data e hora usando a função DATEFORMAT. O exemplo a seguir reformata a coluna para mostrar apenas o ano de dois dígitos:

Nome da transformação Edit column with formula
Parâmetro: colunas myDate
Parâmetro: fórmula DATEFORMAT(myDate, "yy")

Extrair valores numéricos

Extraia dados numéricos de valores de texto. No seguinte exemplo, o primeiro número é extraído da coluna address, o que corresponderia a extrair o número da rua do endereço:

Nome da transformação Extract patterns
Parâmetro: coluna da qual será extraída address
Parâmetro: opção Numbers
Parâmetro: número de correspondências a serem extraídas 1

Valores vazios nesta nova coluna podem indicar um problema de formatação no endereço.

Dica: se você definir o número de padrões a serem extraídos como 2 na coluna address, será possível extrair informações de apartamento ou suíte.

Extrair valores de objeto

Se os dados incluírem conjuntos de matrizes, extraia elementos da matriz em colunas para cada chave, com os valores gravados em cada coluna-chave.

Suponhamos que o conjunto de dados inclua um grupo de características na coluna restFeatures no seguinte formato JSON:

{
  "Credit": "Y",
  "Accessible": "Y",
  "Restrooms": "Y",
  "EatIn": "Y",
  "ToGo": "N",
  "AlcoholBeer": "Y",
  "AlcoholHard": "N",
  "TotalTables": "10",
  "TotalTableSeats": "36",
  "Counter": "Y",
  "CounterSeats": "8"
}

Use a seguinte transformação para extrair os valores de TotalTableSeats e CounterSeats em colunas separadas:

Nome da transformação Unnest Objects into columns
Parâmetro: coluna restFeatures
Parâmetro: caminhos para elementos - 1 TotalTableSeats
Parâmetro: caminhos para elementos - 2 CounterSeats
Parâmetro: incluir nome da coluna original Selected

Depois que o item acima for executado, realize uma soma simples das colunas TotalTableSeats e CounterSeats para determinar o número total de vagas no restaurante.

Extrair valores da matriz

Em alguns casos, os dados podem conter matrizes de pares de chave-valor repetidos, em que cada par existiria em uma linha separada. Suponhamos que você tenha uma coluna chamada Events, que contém informações de data e hora sobre o músico descrito na mesma linha de dados. A coluna Events pode se parecer com a seguinte:

[{"Date":"2018-06-15","Time":"19:00"},{"Date":"2018-06-17","Time":"19:00"},{"Date":"2018-06-19","Time":"20:00"},{"Date":"2018-06-20","Time":"20:00"}]

A seguinte transformação cria uma linha separada para cada entrada na coluna Events, preenchendo os outros campos nas novas linhas com os dados da linha original:

OBSERVAÇÃO: esse tipo de transformação pode aumentar significativamente o tamanho do conjunto de dados.

Nome da transformação Expand arrays into rows
Parâmetro: coluna Events

Extrair componentes de um URL

Componentes do URL

Usando funções, extraia elementos específicos de um URL válido. A seguinte transformação recebe os valores de domínio da coluna myURL:

Nome da transformação New formula
Parâmetro: tipo de fórmula Single row formula
Parâmetro: fórmula DOMAIN(myURL)
Parâmetro: nome da nova coluna myDomain

Em alguns casos, a função talvez não retorne valores. Por exemplo, a função SUBDOMAIN retornará valores vazios se não houver uma parte de subdomínio do URL.

As seguintes funções podem ser usadas para extrair valores de um grupo de URLs:

Parâmetros de consulta

Extraia valores de parâmetro de consulta de um URL. O seguinte exemplo extrai o valor store_id do valor do campo storeURL:

Nome da transformação Extract patterns
Parâmetro: coluna da qual será extraída storeURL
Parâmetro: opção HTTP Query strings
Parâmetro: campos a serem extraídos store_id
Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.