Cómo separar datos de campos

Esta página explica cómo separar los datos de un campo (una celda) en varios filas cuando prepares datos en el lugar de trabajo de Wrangler de Cloud Data Fusion en Google Cloud.

Separa el texto delimitado

Puedes separar los valores de una celda en filas nuevas si los valores son separadas por los siguientes delimitadores:

  • Coma
  • Tab
  • Barra vertical
  • Espacio en blanco
  • Separador personalizado

Si una celda no contiene el delimitador elegido, no se inserta ninguna fila nueva.

Para dividir valores según un delimitador, sigue estos pasos:

  1. Ve al espacio de trabajo de Wrangler en Cloud Data Fusion.
  2. En la pestaña Datos, ve al nombre de una columna y haz clic en la flecha del expansor arrow_drop_down.
  3. Haz clic en Expandir > Texto delimitado.
  4. Elige un delimitador, por ejemplo, Canalización.
  5. Haz clic en Extract.

Wrangler divide los campos según el delimitador seleccionado y agrega la directiva split-to-row a la receta. Cuando ejecutas la canalización de datos, Cloud Data Fusion aplica la transformación a todos los valores de la columna.

En este ejemplo, un conjunto de datos tiene una columna de valores de cadena que contiene el delimitador de coma:

ID Nombre
1 López,Luciano,Luka
2 Mahan (Noam)

Para dividir el valor en filas separadas, Wrangler borra la columna original y crea una columna nueva con una fila para cada valor. Los otros valores de columna de la fila original se copian en las nuevas filas:

ID Nombre_1
1 Lee
1 Luciano
1 Luka
2 Mahan
2 Noam

Cómo separar arrays

La directiva flatten separa los elementos de los arrays, como ["ELEMENT_1", "ELEMENT_2", "ELEMENT_3"], en filas nuevas. Los otros valores de columna del registro original se copian en los registros nuevos.

¿Qué sigue?