Desglosar datos de campos

En esta página se explica cómo separar los datos de un campo (una celda) en varias filas al preparar los datos en el espacio de trabajo Wrangler de Cloud Data Fusion Studio.

Texto delimitado separado

Puede separar los valores de una celda en filas nuevas si los valores están separados por los siguientes delimitadores:

  • Coma
  • Tabulador
  • Barra vertical
  • Espacio en blanco
  • Separador personalizado

Si una celda no contiene el delimitador elegido, no se insertará ninguna fila nueva.

Para dividir los valores en función de un delimitador, sigue estos pasos:

  1. Ve al espacio de trabajo de Wrangler en Cloud Data Fusion.
  2. En la pestaña Datos, vaya al nombre de una columna y haga clic en la flecha de expansión arrow_drop_down.
  3. Haz clic en Desglosar > Texto delimitado.
  4. Elige un delimitador, por ejemplo, Barra vertical.
  5. Haz clic en Extraer.

Wrangler divide los campos en función del delimitador seleccionado y añade la directiva split-to-row a la receta. Cuando ejecutas la canalización de datos, Cloud Data Fusion aplica la transformación a todos los valores de la columna.

En este ejemplo, un conjunto de datos tiene una columna de valores de cadena que contiene el delimitador de comas:

ID Nombre
1 Lee, Lucian y Luka
2 Mahan,Noam

Para dividir el valor en filas independientes, Wrangler elimina la columna original y crea una nueva columna con una fila por cada valor. Los demás valores de columna de la fila original se copian en las nuevas filas:

ID Name_1
1 Lee
1 Lucian
1 Luka
2 Mahan
2 Noam

Matrices independientes

La directiva flatten separa los elementos de las matrices, como ["ELEMENT_1", "ELEMENT_2", "ELEMENT_3"], en filas nuevas. Los demás valores de columna del registro original se copian en los nuevos registros.

Siguientes pasos