Descripción general de Wrangler

Wrangler es una herramienta visual de preparación de datos que se encuentra en la interfaz de Cloud Data Fusion Studio. Te permite limpiar y transformar datos antes de usarlos en flujos de procesamiento de extracción, transformación y carga (ETL). Wrangler aplica transformaciones en una muestra de tus datos en un lugar (llamado Vista previa) antes de ejecutar la lógica en todo el conjunto de datos. Esta vista previa te ayuda a aplicar transformaciones y a entender cómo afectan a todo el conjunto de datos.

Directivas de Wrangler

Una directiva es una sola instrucción que se usa en Wrangler. Las directivas especifican cómo manipular los datos, como transformarlos, filtrarlos o crear tablas dinámicas con registros individuales.

Los siguientes conceptos están relacionados con las directivas:

Recipe
Una receta es un conjunto de directivas. Consta de una o varias directivas.
Paso de transformación
Un paso de transformación es una implementación de una directiva de transformación de datos que opera en un solo registro o en un conjunto de registros. Un paso de transformación puede generar cero o varios registros al aplicar una directiva. Wrangler aplica los pasos de transformación en el orden en que aparecen en la receta.

Componentes de Wrangler

En las siguientes secciones se explican los componentes de Wrangler en Cloud Data Fusion Studio.

Espacio de trabajo de Wrangler

El espacio de trabajo de Wrangler es una página de la interfaz de Cloud Data Fusion Studio en la que puedes analizar, combinar, limpiar y transformar conjuntos de datos. En la página Workspace, puedes hacer lo siguiente:

  • Añade pasos de transformación a una receta mediante el menú desplegable de cada columna.
  • Para ver o eliminar pasos de una receta, selecciona la pestaña Pasos de transformación.
  • Descubra las columnas con campos en blanco y otra información consultando la barra Calidad de los datos.
  • Para ver el esquema del conjunto de datos, haga clic en Más.
  • Crea un flujo de datos con un complemento de origen para el conjunto de datos y la transformación de Wrangler con la receta que contiene los pasos de transformación, que se ejecutan cuando se ejecuta el flujo.

Modo Potencia de Wrangler (CLI)

Para especificar directivas mediante la sintaxis declarativa, usa el modo avanzado (CLI). Es útil para las siguientes tareas:

  • Usar directivas que no están disponibles en la interfaz de Studio
  • Añadir directivas definidas por el usuario
  • Aplicar una directiva a varias columnas

Para usar el modo avanzado de Wrangler, introduce directivas en la barra negra situada en la parte inferior de la pestaña Datos de Wrangler.

Pestaña Estadísticas de Wrangler

Puede usar la pestaña Estadísticas de la página Wrangler para descubrir datos de un conjunto de datos.

Limitaciones

  • Wrangler solo se admite en las canalizaciones de ETL por lotes.
  • Wrangler aplica la transformación solo a los datos de muestra. Estos datos de muestra se limitan a los primeros 1000 registros.
  • Wrangler requiere que se creen conexiones con la fuente. Para obtener más información, consulta Crear y gestionar conexiones.
  • Wrangler siempre requiere que haya abierto al menos un espacio de trabajo de Wrangler.
  • No se admite hacer clic en el botón Wrangler de la transformación Wrangler.

Puedes acceder a Wrangler de dos formas desde la interfaz de Cloud Data Fusion Studio:

  • Para abrir el espacio de trabajo Wrangler de Cloud Data Fusion, ve a Cloud Data Fusion Studio y haz clic en Wrangler.
  • Para configurar las propiedades de Wrangler, ve a Cloud Data Fusion Studio y haz clic en Studio > Transformations > Wrangler.

Conectarse a una fuente de datos

Wrangler admite varias fuentes de datos, como BigQuery, Cloud Storage y bases de datos externas (con una configuración adicional). Para usar Wrangler, debes crear una conexión con la fuente.

Para crear la conexión, ve a la lista Conexiones y selecciona la conexión a tu fuente de datos. Para obtener más información, consulta Crear y gestionar conexiones.

Explorar y previsualizar datos

Wrangler muestra una muestra de sus datos (normalmente, 1000 filas) para que pueda inspeccionarlos. Puede obtener una vista general del esquema de datos, incluidos los tipos de datos y las estadísticas básicas.

Aplicar directivas

Wrangler ofrece una gran variedad de directivas integradas para tareas habituales de tratamiento de datos.

  • Arrastra la directiva elegida a una columna específica o a la ventana de vista previa de los datos.
  • Cada directiva tiene opciones de configuración para personalizar su comportamiento.

Para obtener más información, consulta las directivas de línea de comandos de Wrangler.

Vista previa de los resultados de la transformación

A medida que apliques directivas, la ventana de vista previa de datos se actualizará dinámicamente para reflejar los cambios. De esta forma, puedes ver el impacto inmediato de cada transformación en tus datos.

Perfeccionar y repetir

Para perfeccionar el proceso de tratamiento de datos, sigue añadiendo directivas, modificando configuraciones y revisando la vista previa.

La interfaz visual de Wrangler te ayuda a experimentar y asegurarte de que tus transformaciones producen el resultado esperado.

Añadir transformaciones a una canalización

Aunque Wrangler no es una solución de almacenamiento persistente, Cloud Data Fusion ofrece formas de registrar tu lógica de transformación:

  • Crea un flujo de procesamiento. En el espacio de trabajo de Wrangler, convierte tus transformaciones de Wrangler en una canalización de Cloud Data Fusion siguiendo estos pasos:

    1. Haz clic en Crear canalización.
    2. Selecciona Pipeline por lotes. Se abre la página Pipeline Studio con una pipeline que tiene una fuente y una transformación de Wrangler.
  • Aplicar transformaciones Si usas el complemento Wrangler en la página Studio, convierte tus transformaciones de Wrangler en una canalización de Cloud Data Fusion haciendo clic en Aplicar.

Editar recetas

Cuando usas el espacio de trabajo de Wrangler para crear una transformación de Wrangler, después de añadirla a una canalización, te recomendamos que uses la interfaz de Wrangler para añadir o editar recetas.

En la transformación de Wrangler, si editas manualmente la receta o añades pasos nuevos a la receta y los cambios afectan al esquema de salida, debes actualizar manualmente el esquema de salida en la transformación de Wrangler para que coincida con los cambios de la receta. Solo las recetas creadas o editadas en el espacio de trabajo de Wrangler crearán y actualizarán automáticamente el esquema de salida en la transformación de Wrangler.

Para editar una receta en la transformación de Wrangler que se haya creado en la interfaz web de Wrangler, siga estos pasos:

  1. Ve al nodo Wrangler de tu canalización y haz clic en Propiedades.
  2. Haz clic en Organizar.
  3. Edita o añade una receta.
  4. Haz clic en Aplicar.

Siguientes pasos