Wrangler es una herramienta visual de preparación de datos dentro de la interfaz de Studio de Cloud Data Fusion. Te permite limpiar y transformar datos antes de usarlos en las canalizaciones de extracción, transformación y carga (ETL). Wrangler aplica transformaciones en un muestra de tus datos en un solo lugar (denominado Preview) antes de ejecutar la lógica. en todo el conjunto de datos. Esta vista previa te ayuda a aplicar transformaciones y a comprender cómo afectan a todo el conjunto de datos.
Directivas de Wrangler
Una directiva es una sola instrucción que se usa en Wrangler. Las directivas especifican cómo manipular tus datos, como transformar, filtrar o pivotar registros individuales.
Los siguientes conceptos están relacionados con las directivas:
- Receta
- Una receta es un conjunto de directivas. Consiste en una o más directivas.
- Paso de transformación
- Un paso de transformación es la implementación de una directiva de transformación de datos, que operan en un solo registro o conjunto de registros. Un paso de transformación puede generar cero o más registros a partir de la aplicación de una directiva. Wrangler aplica los pasos de transformación en el orden que se indica en la receta.
Componentes de Wrangler
En las siguientes secciones, se explican los componentes de Wrangler en Cloud Data Fusion Studio.
Lugar de trabajo de Wrangler
El lugar de trabajo de Wrangler es una página de la interfaz de Cloud Data Fusion Studio en el que analizas, combinas, limpias y transformas conjuntos de datos. En la página Workspace, puedes hacer lo siguiente:
- Agrega pasos de transformación a una receta con el menú desplegable en cada columna.
- Para ver o borrar los pasos de una receta, selecciona Transformation steps. .
- Para descubrir columnas con campos en blanco y otra información, revisa la barra Calidad de los datos.
- Haz clic en Más para ver el esquema del conjunto de datos.
- Crear una canalización de datos con un complemento de origen para el conjunto de datos y la transformación de Wrangler con la receta que contiene los de transformación, que se realizan cuando se ejecuta la canalización.
Modo de alimentación (CLI) de Wrangler
Para especificar directivas con la sintaxis declarativa, usa el modo de energía (CLI). Es útil para las siguientes tareas:
- Usar directivas que no están disponibles en la interfaz de Studio
- Cómo agregar directivas definidas por el usuario
- Cómo aplicar una directiva a varias columnas
Para usar el modo de potencia de Wrangler, ingresa directivas en la barra negra que se encuentra en la parte inferior de la pestaña Data de Wrangler.
Pestaña Estadísticas de Wrangler
Puedes usar la pestaña Insights de la página de Wrangler para realizar el descubrimiento de datos en un conjunto de datos.
Limitaciones
- Wrangler solo es compatible con canalizaciones de ETL por lotes.
- Wrangler aplica la transformación solo a los datos de muestra. Estos datos de muestra se limitan a los primeros 1,000 registros.
- Wrangler requiere que las conexiones se creen con la fuente. Para ver más información, consulta Crea y administra conexiones.
- Wrangler siempre requiere que haya al menos un espacio de trabajo de Wrangler abierto.
- No se admite hacer clic en el botón Wrangle en la transformación de Wrangler.
Navega a Wrangler en Cloud Data Fusion
Puedes acceder a Wrangler de dos maneras desde la interfaz de Cloud Data Fusion Studio:
- Para abrir el lugar de trabajo de Wrangler de Cloud Data Fusion, ve a Studio de Cloud Data Fusion y haz clic en Wrangler.
- Para configurar las propiedades de Wrangler, dirígete a Cloud Data Fusion Studio. y haz clic en Studio > Transformaciones > Wrangler.
Conectándose a una fuente de datos
Wrangler admite varias fuentes de datos, como BigQuery, Cloud Storage y bases de datos externas (con configuración adicional). Para usar Wrangler, debes crear una conexión con la fuente.
Para crear la conexión, ve a la lista Conexiones y selecciona con tu fuente de datos. Para obtener más información, consulta Crea y administra conexiones.
Explora los datos y obtén una vista previa de ellos
Wrangler muestra una muestra de tus datos (por lo general, 1,000 filas) para su inspección. Puedes obtener una descripción general del esquema de datos, incluidos los tipos de datos y las estadísticas básicas.
Aplica directivas
Wrangler ofrece una variedad de directivas integradas para tareas comunes de manejo de datos.
- Arrastra la directiva elegida a una columna específica o a la ventana de vista previa de los datos.
- Cada directiva tiene opciones de configuración para personalizar su comportamiento.
Para obtener más información, consulta Directivas de línea de comandos de Wrangler.
Obtén una vista previa de los resultados de la transformación
A medida que aplicas directivas, la ventana de vista previa de datos se actualiza de forma dinámica para reflejar los cambios. Esto te permite ver el impacto inmediato de cada transformación en tus datos.
Define mejor y, luego, itera.
Para definir mejor tu proceso de derivación de datos, sigue agregando directivas, modificando configuraciones y la revisión de la vista previa.
La interfaz visual de Wrangler te ayuda a experimentar y asegurarte de que tus transformaciones produzcan el resultado esperado.
Agrega transformaciones a una canalización
Si bien Wrangler en sí no es una solución de almacenamiento persistente, Cloud Data Fusion ofrece formas de capturar tu lógica de transformación:
Crea una canalización. Desde el espacio de trabajo de Wrangler, sigue estos pasos para convertir tus transformaciones de Wrangler en una canalización de Cloud Data Fusion:
- Haz clic en Crear canalización.
- Selecciona Canalización por lotes. Se abrirá la página Pipeline Studio que tiene una fuente y una transformación Wrangler.
Aplica transformaciones. Si usas el complemento Wrangler en el Studio, convierte tus transformaciones de Wrangler en Canalización de Cloud Data Fusion haciendo clic en Aplicar.
Edita recetas
Cuando usas el espacio de trabajo de Wrangler para crear una transformación de Wrangler, después de agregarla a una canalización, se recomienda que uses la interfaz de Wrangler para agregar o editar recetas.
En la transformación de Wrangler, si editas la receta de forma manual o agregas pasos nuevos a la receta y los cambios afectan el esquema de salida, debes actualizar de forma manual el esquema de salida en la transformación de Wrangler para que coincida con los cambios en la receta. Solo las recetas creadas o editadas en el espacio de trabajo de Wrangler crearán y actualizarán automáticamente el esquema de salida en la transformación de Wrangler.
Para editar una receta en la transformación de Wrangler que se creó en la interfaz web de Wrangler, sigue estos pasos:
- Ve al nodo Wrangler de tu canalización y haz clic en Properties.
- Haz clic en Wrangle.
- Edita o agrega una receta nueva.
- Haz clic en Aplicar.
¿Qué sigue?
- Obtén más información sobre las directivas de la CLI de Wrangler.