Descripción general de Wrangler

Wrangler es una herramienta visual de preparación de datos dentro de la interfaz de Studio de Cloud Data Fusion. Te permite limpiar y transformar datos antes de usarlos en las canalizaciones de extracción, transformación y carga (ETL). Wrangler aplica transformaciones en una muestra de tus datos en un solo lugar (denominado Vista previa) antes de ejecutar la lógica en todo el conjunto de datos. Esta vista previa te ayuda a aplicar transformaciones y a comprender cómo afectan a todo el conjunto de datos.

Directivas de Wrangler

Una directiva es una sola instrucción que se usa en Wrangler. Las directivas especifican cómo manipular tus datos, como transformar, filtrar o pivotar registros individuales.

Los siguientes conceptos se relacionan con las directivas:

Receta
Una receta es un conjunto de directivas. Consiste en una o más directivas.
Paso de transformación
Un paso de transformación es una implementación de una directiva de transformación de datos que opera en un solo registro o conjunto de registros. Un paso de transformación puede generar cero o más registros a partir de la aplicación de una directiva. Wrangler aplica los pasos de transformación en el orden que se indica en la receta.

Componentes de Wrangler

En las siguientes secciones, se explican los componentes de Wrangler en Cloud Data Fusion Studio.

Espacio de trabajo de Wrangler

El espacio de trabajo de Wrangler es una página de la interfaz de Studio de Cloud Data Fusion en la que analizas, combinas, limpias y transformas conjuntos de datos. En la página Workspace, puedes hacer lo siguiente:

  • Agrega pasos de transformación a una receta con el menú desplegable en cada columna.
  • Para ver o borrar pasos de una receta, selecciona la pestaña Pasos de transformación.
  • Para descubrir columnas con campos en blanco y otra información, revisa la barra Calidad de los datos.
  • Haz clic en Más para ver el esquema del conjunto de datos.
  • Crea una canalización de datos con un complemento de origen para el conjunto de datos y la transformación de Wrangler con la receta que contiene los pasos de transformación, que se ejecutan cuando se ejecuta la canalización.

Modo de energía de Wrangler (CLI)

Para especificar directivas con sintaxis declarativa, usa el modo Power (CLI). Es útil para las siguientes tareas:

  • Usar directivas que no están disponibles en la interfaz de Studio
  • Cómo agregar directivas definidas por el usuario
  • Cómo aplicar una directiva a varias columnas

Para usar el modo de potencia de Wrangler, ingresa directivas en la barra negra que se encuentra en la parte inferior de la pestaña Data de Wrangler.

Pestaña Estadísticas de Wrangler

Puedes usar la pestaña Insights en la página de Wrangler para realizar el descubrimiento de datos en un conjunto de datos.

Limitaciones

  • Wrangler solo es compatible con las canalizaciones de ETL por lotes.
  • Wrangler aplica la transformación solo a los datos de muestra. Estos datos de muestra se limitan a los primeros 1,000 registros.
  • Wrangler requiere que se creen conexiones con la fuente. Para obtener más información, consulta Cómo crear y administrar conexiones.
  • Wrangler siempre requiere que haya al menos un espacio de trabajo de Wrangler abierto.
  • No se admite hacer clic en el botón Wrangler en la transformación Wrangler.

Puedes acceder a Wrangler de dos maneras desde la interfaz de Cloud Data Fusion Studio:

  • Para abrir el lugar de trabajo de Wrangler de Cloud Data Fusion, ve a Studio de Cloud Data Fusion y haz clic en Wrangler.
  • Para configurar propiedades de Wrangler, ve a Studio de Cloud Data Fusion y haz clic en Studio > Transformaciones > Wrangler.

Conectándose a una fuente de datos

Wrangler admite varias fuentes de datos, como BigQuery, Cloud Storage y bases de datos externas (con configuración adicional). Para usar Wrangler, debes crear una conexión con la fuente.

Para crear la conexión, ve a la lista Conexiones y selecciona la conexión a tu fuente de datos. Para obtener más información, consulta Cómo crear y administrar conexiones.

Explora y obtén una vista previa de los datos

Wrangler muestra una muestra de tus datos (por lo general, 1,000 filas) para su inspección. Puedes obtener una descripción general del esquema de datos, incluidos los tipos de datos y las estadísticas básicas.

Aplica directivas

Wrangler ofrece una variedad de directivas integradas para tareas comunes de manejo de datos.

  • Arrastra la directiva elegida a una columna específica o a la ventana de vista previa de los datos.
  • Cada directiva tiene opciones de configuración para personalizar su comportamiento.

Para obtener más información, consulta Directivas de línea de comandos de Wrangler.

Obtén una vista previa de los resultados de la transformación

A medida que aplicas directivas, la ventana de vista previa de datos se actualiza de forma dinámica para reflejar los cambios. Esto te permite ver el impacto inmediato de cada transformación en tus datos.

Define mejor y repite

Para definir mejor tu proceso de manejo de datos, continúa agregando directivas, modificando configuraciones y revisando la vista previa.

La interfaz visual de Wrangler te ayuda a experimentar y asegurarte de que tus transformaciones produzcan el resultado esperado.

Agrega transformaciones a una canalización

Si bien Wrangler no es una solución de almacenamiento persistente, Cloud Data Fusion ofrece formas de capturar tu lógica de limpieza:

  • Crea una canalización. Desde el espacio de trabajo de Wrangler, sigue estos pasos para convertir tus transformaciones de Wrangler en una canalización de Cloud Data Fusion:

    1. Haz clic en Crear canalización.
    2. Selecciona Canalización por lotes. Se abrirá la página de Pipeline Studio con una canalización que tiene una fuente y una transformación de Wrangler.
  • Aplica transformaciones. Si usas el complemento Wrangler en la página Studio, haz clic en Apply para convertir tus transformaciones de Wrangler en una canalización de Cloud Data Fusion.

Edita recetas

Cuando usas el espacio de trabajo de Wrangler para crear una transformación de Wrangler, después de agregarla a una canalización, se recomienda que uses la interfaz de Wrangler para agregar o editar recetas.

En la transformación de Wrangler, si editas la receta de forma manual o agregas pasos nuevos a la receta y los cambios afectan el esquema de salida, debes actualizar manualmente el esquema de salida en la transformación de Wrangler para que coincida con los cambios en la receta. Solo las recetas creadas o editadas en el espacio de trabajo de Wrangler crearán y actualizarán automáticamente el esquema de salida en la transformación de Wrangler.

Para editar una receta en la transformación de Wrangler que se creó en la interfaz web de Wrangler, sigue estos pasos:

  1. Ve al nodo Wrangler de tu canalización y haz clic en Properties.
  2. Haz clic en Wrangle.
  3. Edita o agrega una receta nueva.
  4. Haz clic en Aplicar.

¿Qué sigue?