En esta página, se explica cómo extraer y transformar datos de un campo (una celda) cuando preparas datos en el lugar de trabajo de Wrangler de Cloud Data Fusion Studio.
Para realizar transformaciones en estos datos, debes dividirlos en columnas. En Wrangler, puedes extraer datos de una columna y crear columnas nuevas para los datos extraídos. Puedes extraer valores según patrones, delimitadores o posiciones.
Extraer datos mediante patrones
Puedes extraer datos de campos en columnas del tipo de datos de cadena con los siguientes patrones:
- Tarjetas de crédito
- Fecha
- Fecha y hora
- Correo electrónico
- URLs de anclas HTML
- Dirección IPv4
- Códigos ISBN
- Dirección MAC
- Número de N dígitos
- SSN
- Patrón de inicio y finalización
- Hora
Para extraer datos según un patrón, sigue estos pasos:
- Ve al lugar de trabajo de Wrangler en Cloud Data Fusion.
- En la pestaña Datos, ve al nombre de una columna y haz clic en la flecha del expansor arrow_drop_down.
- Selecciona Extraer campos > Con patrones y elige una opción, por ejemplo, URL.
- Opcional: Haz clic en Mostrar patrón para ver la expresión regular del .
- Haz clic en Extract.
Wrangler extrae los campos según el patrón elegido y agrega el
La directiva extract-regex-groups
para la receta. Cuando ejecutas la canalización de datos,
Cloud Data Fusion aplica la transformación a todas las filas de la columna.
En el siguiente ejemplo, una columna contiene un número, seguido de una dirección de correo electrónico:
Correos electrónicos |
---|
1 222larabrown@gmail.com |
2 cloudysanfrancisco@gmail.com |
Para extraer la dirección de correo electrónico, selecciona el patrón Email. Cuando haces clic Extraer, Wrangler retiene la columna original y crea una nueva. que contenga solo las direcciones de correo electrónico:
Correos electrónicos | Emails_1 |
---|---|
1 222larabrown@gmail.com | 222larabrown@gmail.com |
2 cloudysanfrancisco@gmail.com | cloudysanfrancisco@gmail.com |
Extrae datos con delimitadores
Puedes extraer datos en dos o más columnas según los siguientes delimitadores:
- Coma
- Tab
- Barra vertical
- Espacio en blanco
- Separador personalizado
Si un valor no tiene el delimitador, no se agrega ningún valor al campo correspondiente en la columna nueva.
Para extraer valores en función de un delimitador:
- Ve al lugar de trabajo de Wrangler en Cloud Data Fusion.
- En la pestaña Datos, ve al nombre de una columna y haz clic en arrow_drop_down flecha de expansión.
- Selecciona Extraer campos > Usar delimitadores y elige una como Coma.
- Haz clic en Extract.
Wrangler extrae los campos según el delimitador seleccionado y agrega la directiva split-to-columns
a la receta. Cuando ejecutas la canalización de datos,
Cloud Data Fusion transforma todos los valores de la columna.
En el siguiente ejemplo, una columna contiene varios nombres separados por comas:
ID | Nombre |
---|---|
1 | Lee, Lucian, Luka |
2 | Mahan,Noam,Nur |
En este ejemplo, el uso del patrón de delimitadores de comas extrae los valores de la columna Name
original en tres columnas nuevas:
ID | Nombre | Name_1 | Nombre_2 | Name_3 |
---|---|---|---|---|
1 | López,Luciano,Luka | Lee | Luciano | Luka |
2 | Mahan,Noam,Nur | Mahan | Noam | Nur |
Extrae datos por posición
Puedes extraer parte de una cadena según su posición.
Para extraer datos según su posición, haz lo siguiente:
- Ve al lugar de trabajo de Wrangler en Cloud Data Fusion.
- En la pestaña Datos, ve al nombre de una columna y haz clic en arrow_drop_down flecha de expansión.
- Selecciona Extraer campos > Usar posiciones. Los valores de columna que puedes extraer aparecen con un fondo azul.
- En cualquier celda de la columna, selecciona los caracteres que deseas extraer.
- En el campo Nombre de la columna de destino, ingresa un nombre.
- Haz clic en Aplicar.
La parte elegida del valor se extrae de cada fila de la columna.
Wrangler extrae los campos según el patrón seleccionado y agrega el
La directiva cut-character
para la receta. Cuando ejecutas la canalización de datos,
Cloud Data Fusion aplica la transformación a todos los valores de la columna.
¿Qué sigue?
- Obtén más información sobre las directivas de Wrangler.