En esta página, se explica cómo analizar archivos cuando preparas datos en el espacio de trabajo de Wrangler de Cloud Data Fusion Studio. Wrangler te permite analizar un archivo antes de cargarlo en el espacio de trabajo de Wrangler:
- Wrangler infiere los tipos de datos y asigna cada columna al tipo de datos inferido de la misma manera que lo hacen los complementos de fuentes de archivos en Pipeline Studio.
- Cuando no es posible la inferencia de esquemas, puedes importar el esquema para un formato de archivo, como JSON.
- La receta no incluye la directiva de análisis, lo que reduce la lógica de transformación durante las ejecuciones de canalización.
- Cuando creas una canalización desde Wrangler, el complemento de origen incluye todas las mismas propiedades y valores de análisis que configuraste en Wrangler.
Crea una conexión de archivo
Para analizar un archivo antes de cargarlo en Wrangler, debes usar una conexión de archivo, como File, Cloud Storage o Amazon S3.
- Ve al espacio de trabajo de Wrangler en Cloud Data Fusion.
- Haz clic en la flecha desplegable Seleccionar datos para ver las conexiones disponibles.
- Agrega una conexión para File, Cloud Storage o S3. Para obtener más información, consulta Cómo crear y administrar conexiones.
- Para abrir el diálogo de opciones de análisis, ve al panel Seleccionar datos y haz clic en el nombre del archivo.
En el diálogo Parsing options, ingresa la siguiente información:
En el campo Formato, elige el formato de archivo de los datos que se leen, por ejemplo, csv. Para obtener más información, consulta Formatos compatibles.
- Si eliges el formato de delimitador, ingresa la información del delimitador en el campo Delimitador que aparece.
- Si eliges CSV, TSV o formato de delimitador, aparecerá un campo Habilitar valores con comillas. Si tus datos están encerrados entre comillas, selecciona Verdadero. Este parámetro de configuración quita las comillas del resultado analizado. Por ejemplo, la siguiente entrada,
1, "a, b, c"
, se analiza en dos campos. El primer campo tiene el valor1
. El segundo campo tiene el valora, b, c
. El delimitador de línea nueva no puede estar entre comillas. - Si elegiste texto, CSV, TSV o formato de delimitador, aparecerá el campo Usar primera fila como encabezado. Para usar la primera línea de cada archivo como un encabezado de columna, selecciona True.
En el campo Codificación de archivo, elige el tipo de codificación del archivo fuente, por ejemplo, UTF-8.
Opcional: Para importar el esquema o anular el esquema inferido del archivo, haz clic en Import Schema. Importas el esquema para formatos, como JSON y algunos archivos Avro, en los que no es posible la inferencia de esquemas. El esquema debe estar en formato Avro.
Haz clic en Confirmar. El archivo analizado aparece en el espacio de trabajo de Wrangler.
Formatos admitidos
Se admiten los siguientes formatos para el análisis de archivos:
- Avro
- Blob (el formato de blob requiere un esquema que contenga un campo llamado
body
de tipobytes
) - CSV
- Delimitado
- JSON
- Parquet
- Texto (el formato de texto requiere un esquema que contenga un campo llamado
body
de tipostring
) - TSV
¿Qué sigue?
- Obtén más información sobre las directivas de Wrangler.