Extraer datos de campos

En esta página se explica cómo extraer y transformar datos de un campo (una celda) al preparar datos en el espacio de trabajo Wrangler de Cloud Data Fusion Studio.

Para transformar estos datos, debe dividirlos en columnas independientes. En Wrangler, puede extraer datos de una columna y crear columnas nuevas para los datos extraídos. Puedes extraer valores basados en patrones, delimitadores o posiciones.

Extraer datos mediante patrones

Puede extraer datos de campos de columnas del tipo de datos de cadena con los siguientes patrones:

  • Tarjetas de crédito
  • Fecha
  • Fecha y hora
  • Correo electrónico
  • URLs de anclas HTML
  • Dirección IPv4
  • Códigos ISBN
  • Dirección MAC
  • Número de N dígitos
  • SSN
  • Patrón de inicio y finalización
  • Hora

Para extraer datos basados en un patrón, sigue estos pasos:

  1. Ve al espacio de trabajo de Wrangler en Cloud Data Fusion.
  2. En la pestaña Datos, vaya al nombre de una columna y haga clic en la flecha de expansión arrow_drop_down.
  3. Seleccione Extraer campos > Usar patrones y elija una opción (por ejemplo, URL).
  4. Opcional: Haz clic en Mostrar patrón para ver la expresión regular del patrón.
  5. Haz clic en Extraer.

Wrangler extrae los campos en función del patrón elegido y añade la directiva extract-regex-groups a la receta. Cuando ejecutas el flujo de datos, Cloud Data Fusion aplica la transformación a todas las filas de la columna.

En el siguiente ejemplo, una columna contiene un número seguido de una dirección de correo:

Correos electrónicos
1 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com

Para extraer la dirección de correo, selecciona el patrón Correo. Cuando haces clic en Extraer, Wrangler conserva la columna original y crea una nueva que contiene solo las direcciones de correo electrónico:

Correos electrónicos Emails_1
1 222larabrown@gmail.com 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com cloudysanfrancisco@gmail.com

Extraer datos con delimitadores

Puede extraer datos en dos o más columnas en función de los siguientes delimitadores:

  • Coma
  • Tabulador
  • Barra vertical
  • Espacio en blanco
  • Separador personalizado

Si un valor no tiene el delimitador, no se añade ningún valor al campo correspondiente de la nueva columna.

Para extraer valores en función de un delimitador, sigue estos pasos:

  1. Ve al espacio de trabajo de Wrangler en Cloud Data Fusion.
  2. En la pestaña Datos, vaya al nombre de una columna y haga clic en la flecha de expansión arrow_drop_down.
  3. Selecciona Extraer campos > Usar delimitadores y elige una opción (por ejemplo, Coma).
  4. Haz clic en Extraer.

Wrangler extrae los campos en función del delimitador seleccionado y añade la directiva split-to-columns a la receta. Cuando ejecutas la canalización de datos, Cloud Data Fusion transforma todos los valores de la columna.

En el ejemplo siguiente, una columna contiene varios nombres separados por comas:

ID Nombre
1 Lee, Lucian y Luka
2 Mahan,Noam,Nur

En este ejemplo, al usar el patrón de delimitadores de comas, se extraen los valores de la columna Name original en tres columnas nuevas:

ID Nombre Name_1 Name_2 Name_3
1 Lee, Lucian y Luka Lee Lucian Luka
2 Mahan,Noam,Nur Mahan Noam Nur

Extraer datos por posición

Puedes extraer parte de una cadena en función de su posición en la cadena.

Para extraer datos en función de su posición, sigue estos pasos:

  1. Ve al espacio de trabajo de Wrangler en Cloud Data Fusion.
  2. En la pestaña Datos, vaya al nombre de una columna y haga clic en la flecha de expansión arrow_drop_down.
  3. Selecciona Extraer campos > Usar posiciones. Los valores de las columnas que puedes extraer aparecen con un fondo azul.
  4. En cualquier celda de la columna, selecciona los caracteres que quieras extraer.
  5. En el campo Nombre de la columna de destino, introduce un nombre.
  6. Haz clic en Aplicar.

La parte elegida del valor se extrae de cada fila de la columna.

Wrangler extrae los campos en función del patrón seleccionado y añade la directiva cut-character a la receta. Cuando ejecutas la canalización de datos, Cloud Data Fusion aplica la transformación a todos los valores de la columna.

Siguientes pasos