Codificar e decodificar linhas

Esta página explica como codificar e decodificar linhas ao preparar dados no espaço de trabalho do Wrangler do Cloud Data Fusion Studio.

Codificar uma linha

É possível usar a codificação base de dados para armazenar ou transferir dados em ambientes que, por motivos legados, são restritos a dados US-ASCII. Ele pode ser usado em novos aplicativos sem essas restrições legados, porque permite a manipulação de objetos com editores de texto.

Você pode aplicar os esquemas de codificação a seguir, que são baseados em RFC-4648, a todos os valores em uma coluna:

  • Base32
  • Base64
  • Hexadecimal
  • URL

Ao codificar, o Wrangler gera uma nova coluna com um nome no seguinte formato: <column>_encode_<type> except for url-encode.

O Cloud Data Fusion usa as seguintes regras para os valores de coluna:

  • Se a coluna for null, a coluna resultante também será null.
  • Se a coluna escolhida não for encontrada na linha, ela será ignorada.
  • Se o valor da coluna não tiver dados tipo string ou byte, o a transformação falha, e um erro é exibido.

Opções de codificação compatíveis

O Wrangler é compatível com as seguintes opções de codificação:

Codificar base64
A opção Base64 adiciona a diretiva encode64 como uma etapa de transformação à receita e cria uma nova coluna com valores codificados.
Codificar base32
A opção Base32 adiciona a diretiva encode32 como uma etapa de transformação à receita e cria uma nova coluna com valores codificados.
Codificar hex
A opção Hex adiciona a diretiva encode_hex como uma etapa de transformação à receita e cria uma nova coluna com valores codificados.
Codificar URL
A opção URL adiciona a diretiva url-encode como uma etapa de transformação à receita e codifica a coluna atual.

Decodificar uma linha

É possível usar a decodificação básica de dados para armazenar ou transferir dados em ambientes que, por motivos legados, são restritos a dados US-ASCII. Ele pode ser usado em novos aplicativos sem essas restrições legados, porque permite a manipulação de objetos com editores de texto.

É possível aplicar os esquemas de decodificação a seguir, que são baseados em RFC-4648, a cada valor em uma coluna:

  • Base32
  • Base64
  • Hexadecimal
  • URL

Quando você decodifica, o Wrangler gera uma nova coluna com um nome no formato: <column>_encode_<type>, exceto para url-decode.

O Cloud Data Fusion usa as seguintes regras para os valores de coluna:

  • Se a coluna for null, a coluna resultante também será null.
  • Se a coluna escolhida não for encontrada na linha, ela será ignorada.
  • Se o valor da coluna não contiver os tipos de dados string ou matriz de bytes, o falha na operação.

Opções de decodificação com suporte

O Wrangler é compatível com as seguintes opções de codificação:

Decodificação base64
A opção base64 adiciona a diretiva decode64 como uma etapa de transformação para o roteiro e cria uma nova coluna com os valores decodificados.
Decodificar base32
A opção base32 adiciona a diretiva decode32 como uma etapa de transformação à receita e cria uma nova coluna com os valores decodificados.
Decodificar hexadecimal
A opção Hex adiciona a diretiva decode hex como uma etapa de transformação à receita e cria uma nova coluna com os valores decodificados.
Decodificação de URL
A opção URL adiciona a diretiva url-decode como uma etapa de transformação para a receita e decodifica a coluna atual.

A seguir