Extrae datos de campos

En esta página, se explica cómo extraer y transformar datos de un campo (una celda) cuando preparas datos en el lugar de trabajo de Wrangler de Cloud Data Fusion Studio.

Para realizar transformaciones en estos datos, debes dividirlos en columnas. En Wrangler, puedes extraer datos de una columna y crear columnas nuevas para los datos extraídos. Puedes extraer valores según patrones, delimitadores o posiciones.

Extraer datos mediante patrones

Puedes extraer datos de campos en columnas del tipo de datos de cadena con los siguientes patrones:

  • Tarjetas de crédito
  • Fecha
  • Fecha y hora
  • Correo electrónico
  • URLs de anclas HTML
  • Dirección IPv4
  • Códigos ISBN
  • Dirección MAC
  • Número de N dígitos
  • SSN
  • Patrón de inicio y finalización
  • Hora

Para extraer datos según un patrón, sigue estos pasos:

  1. Ve al lugar de trabajo de Wrangler en Cloud Data Fusion.
  2. En la pestaña Datos, ve al nombre de una columna y haz clic en la flecha del expansor arrow_drop_down.
  3. Selecciona Extraer campos > Con patrones y elige una opción, por ejemplo, URL.
  4. Opcional: Haz clic en Mostrar patrón para ver la expresión regular del .
  5. Haz clic en Extract.

Wrangler extrae los campos según el patrón elegido y agrega el La directiva extract-regex-groups para la receta. Cuando ejecutas la canalización de datos, Cloud Data Fusion aplica la transformación a todas las filas de la columna.

En el siguiente ejemplo, una columna contiene un número, seguido de una dirección de correo electrónico:

Correos electrónicos
1 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com

Para extraer la dirección de correo electrónico, selecciona el patrón Email. Cuando haces clic Extraer, Wrangler retiene la columna original y crea una nueva. que contenga solo las direcciones de correo electrónico:

Correos electrónicos Emails_1
1 222larabrown@gmail.com 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com cloudysanfrancisco@gmail.com

Extrae datos con delimitadores

Puedes extraer datos en dos o más columnas según los siguientes delimitadores:

  • Coma
  • Tab
  • Barra vertical
  • Espacio en blanco
  • Separador personalizado

Si un valor no tiene el delimitador, no se agrega ningún valor al campo correspondiente en la columna nueva.

Para extraer valores en función de un delimitador:

  1. Ve al lugar de trabajo de Wrangler en Cloud Data Fusion.
  2. En la pestaña Datos, ve al nombre de una columna y haz clic en arrow_drop_down flecha de expansión.
  3. Selecciona Extraer campos > Usar delimitadores y elige una como Coma.
  4. Haz clic en Extract.

Wrangler extrae los campos según el delimitador seleccionado y agrega la directiva split-to-columns a la receta. Cuando ejecutas la canalización de datos, Cloud Data Fusion transforma todos los valores de la columna.

En el siguiente ejemplo, una columna contiene varios nombres separados por comas:

ID Nombre
1 Lee, Lucian, Luka
2 Mahan,Noam,Nur

En este ejemplo, el uso del patrón de delimitadores de comas extrae los valores de la columna Name original en tres columnas nuevas:

ID Nombre Name_1 Nombre_2 Name_3
1 López,Luciano,Luka Lee Luciano Luka
2 Mahan,Noam,Nur Mahan Noam Nur

Extrae datos por posición

Puedes extraer parte de una cadena según su posición.

Para extraer datos según su posición, haz lo siguiente:

  1. Ve al lugar de trabajo de Wrangler en Cloud Data Fusion.
  2. En la pestaña Datos, ve al nombre de una columna y haz clic en arrow_drop_down flecha de expansión.
  3. Selecciona Extraer campos > Usar posiciones. Los valores de columna que puedes extraer aparecen con un fondo azul.
  4. En cualquier celda de la columna, selecciona los caracteres que deseas extraer.
  5. En el campo Nombre de la columna de destino, ingresa un nombre.
  6. Haz clic en Aplicar.

La parte elegida del valor se extrae de cada fila de la columna.

Wrangler extrae los campos según el patrón seleccionado y agrega el La directiva cut-character para la receta. Cuando ejecutas la canalización de datos, Cloud Data Fusion aplica la transformación a todos los valores de la columna.

¿Qué sigue?