En esta página, se explica cómo extraer y transformar datos de un campo (una celda) cuando preparas datos en el lugar de trabajo de Wrangler de Cloud Data Fusion Studio.
Para realizar transformaciones en estos datos, debes dividirlos en columnas distintas. En Wrangler, puedes extraer datos de una columna y crear columnas nuevas para los datos extraídos. Puedes extraer valores según patrones, delimitadores o posiciones.
Extrae datos con patrones
Puedes extraer datos de campos en columnas del tipo de datos de cadena con los siguientes patrones:
- Tarjetas de crédito
- Fecha
- Fecha y hora
- Correo electrónico
- URLs de anclas HTML
- Dirección IPv4
- Códigos ISBN
- Dirección MAC
- Número de N dígitos
- SSN
- Patrón de inicio y finalización
- Hora
Para extraer datos según un patrón, sigue estos pasos:
- Ve al espacio de trabajo de Wrangler en Cloud Data Fusion.
- En la pestaña Datos, ve al nombre de una columna y haz clic en la flecha del expansor arrow_drop_down.
- Selecciona Extraer campos > Con patrones y elige una opción, por ejemplo, URL.
- Opcional: Haz clic en Mostrar patrón para ver la expresión regular del patrón.
- Haz clic en Extract.
Wrangler extrae los campos según el patrón elegido y agrega la directiva extract-regex-groups
a la receta. Cuando ejecutas la canalización de datos,
Cloud Data Fusion aplica la transformación a todas las filas de la columna.
En el siguiente ejemplo, una columna contiene un número, seguido de una dirección de correo electrónico:
Correos electrónicos |
---|
1 222larabrown@gmail.com |
2 cloudysanfrancisco@gmail.com |
Para extraer la dirección de correo electrónico, selecciona el patrón Email. Cuando haces clic en Extract, Wrangler retiene la columna original y crea una nueva que solo contiene las direcciones de correo electrónico:
Correos electrónicos | Emails_1 |
---|---|
1 222larabrown@gmail.com | 222larabrown@gmail.com |
2 cloudysanfrancisco@gmail.com | cloudysanfrancisco@gmail.com |
Extrae datos con delimitadores
Puedes extraer datos en dos o más columnas según los siguientes delimitadores:
- Coma
- Tab
- Barra vertical
- Espacio en blanco
- Separador personalizado
Si un valor no tiene el delimitador, no se agrega ningún valor al campo correspondiente en la columna nueva.
Para extraer valores según un delimitador, haz lo siguiente:
- Ve al espacio de trabajo de Wrangler en Cloud Data Fusion.
- En la pestaña Datos, ve al nombre de una columna y haz clic en la flecha del expansor arrow_drop_down.
- Selecciona Extraer campos > Con delimitadores y elige una opción, por ejemplo, Coma.
- Haz clic en Extract.
Wrangler extrae los campos según el delimitador seleccionado y agrega la directiva split-to-columns
a la receta. Cuando ejecutas la canalización de datos,
Cloud Data Fusion transforma todos los valores de la columna.
En el siguiente ejemplo, una columna contiene varios nombres separados por comas:
ID | Nombre |
---|---|
1 | Lee,Lucian,Luka |
2 | Mahan,Noam,Nur |
En este ejemplo, el uso del patrón de delimitadores de comas extrae los valores de la columna Name
original en tres columnas nuevas:
ID | Nombre | Nombre_1 | Nombre_2 | Name_3 |
---|---|---|---|---|
1 | Lee,Lucian,Luka | Lee | Luciano | Luka |
2 | Mahan,Noam,Nur | Mahan | Noam | Nur |
Extrae datos por posición
Puedes extraer parte de una cadena según su posición en ella.
Para extraer datos según su posición, haz lo siguiente:
- Ve al espacio de trabajo de Wrangler en Cloud Data Fusion.
- En la pestaña Datos, ve al nombre de una columna y haz clic en la flecha del expansor arrow_drop_down.
- Selecciona Extraer campos > Usar posiciones. Los valores de columna que puedes extraer aparecen con un fondo azul.
- En cualquier celda de la columna, selecciona los caracteres que deseas extraer.
- En el campo Nombre de la columna de destino, ingresa un nombre.
- Haz clic en Aplicar.
La parte elegida del valor se extrae de cada fila de la columna.
Wrangler extrae los campos según el patrón seleccionado y agrega la directiva cut-character
a la receta. Cuando ejecutas la canalización de datos,
Cloud Data Fusion aplica la transformación a todos los valores de la columna.
¿Qué sigue?
- Obtén más información sobre las directivas de Wrangler.