Codifica e decodifica le righe

Questa pagina spiega come codificare e decodificare le righe quando prepari i dati nello spazio di lavoro Wrangler di Cloud Data Fusion Studio.

Codifica una riga

Puoi utilizzare la codifica di base dei dati per archiviare o trasferire dati in ambienti che, per motivi di compatibilità con le versioni precedenti, sono limitati ai dati US-ASCII. Potresti utilizzarlo nelle nuove applicazioni senza queste limitazioni precedenti perché consente la manipolazione degli oggetti con gli editor di testo.

Puoi applicare i seguenti schemi di codifica, basati su RFC-4648, a tutti i valori di una colonna:

  • Base32
  • Base64
  • Esadecimale
  • URL

Quando esegui la codifica, Wrangler genera una nuova colonna con un nome nel seguente formato: <column>_encode_<type> except for url-encode.

Cloud Data Fusion utilizza le seguenti regole per i valori delle colonne:

  • Se la colonna è null, anche la colonna risultante è null.
  • Se la colonna scelta non viene trovata nella riga, la riga viene saltata.
  • Se il valore della colonna non include un tipo di dati stringa o in byte, durante la trasformazione non va a buon fine e viene visualizzato un errore.

Opzioni di codifica supportate

Wrangler supporta le seguenti opzioni di codifica:

Codifica base64
L'opzione Base64 aggiunge l'istruzione encode64 come passaggio di trasformazione alla formula e crea una nuova colonna con valori codificati.
Codifica base32
L'opzione Base32 aggiunge l'istruzione encode32 come passaggio di trasformazione alla formula e crea una nuova colonna con valori codificati.
Codifica esadecimale
L'opzione Hex aggiunge la direttiva encode_hex come passaggio di trasformazione alla ricetta e crea una nuova colonna con i valori codificati.
Codifica URL
L'opzione URL aggiunge l'istruzione url-encode come passaggio di trasformazione alla formula e codifica la colonna corrente.

Decodificare una riga

Puoi utilizzare la decodifica di base dei dati per archiviare o trasferire i dati in ambienti che, per motivi precedenti, si limitano ai dati US-ASCII. Potresti utilizzarlo nelle nuove applicazioni senza queste limitazioni precedenti perché consente la manipolazione degli oggetti con gli editor di testo.

Puoi applicare i seguenti schemi di decodifica, basati su RFC-4648, a ciascun valore di una colonna:

  • Base32
  • Base64
  • Esadecimale
  • URL

Durante la decodifica, Wrangler genera una nuova colonna con un nome nel seguente formato: <column>_encode_<type>, ad eccezione di url-decode.

Cloud Data Fusion utilizza le seguenti regole per i valori delle colonne:

  • Se la colonna è null, anche la colonna risultante è null.
  • Se la colonna scelta non viene trovata nella riga, la riga viene saltata.
  • Se il valore della colonna non contiene i tipi di dati di tipo stringa o array di byte, non va a buon fine.

Opzioni di decodifica supportate

Wrangler supporta le seguenti opzioni di codifica:

Decodifica in base64
L'opzione base64 aggiunge l'istruzione decode64 come passaggio di trasformazione alla formula e crea una nuova colonna con i valori decodificati.
Decodifica base32
L'opzione base32 aggiunge l'istruzione decode32 come passaggio di trasformazione alla formula e crea una nuova colonna con i valori decodificati.
Decodifica esadecimale
L'opzione esadecimale aggiunge l'istruzione decode hex come passaggio di trasformazione alla formula e crea una nuova colonna con i valori decodificati.
Decodifica URL
L'opzione URL aggiunge la direttiva url-decode come passaggio di trasformazione alla ricetta e decodifica la colonna corrente.

Passaggi successivi