Cómo analizar archivos

En esta página, se explica cómo analizar archivos cuando preparas datos en el espacio de trabajo de Wrangler de Cloud Data Fusion Studio. Wrangler te permite analizar un archivo antes en el lugar de trabajo de Wrangler:

  • Wrangler infiere los tipos de datos y asigna cada columna al tipo de datos inferidos en del mismo modo que lo hacen los complementos de fuente de archivos en Pipeline Studio.
  • Cuando la inferencia de esquemas no es posible, puedes importar el esquema de un archivo. formato, como JSON.
  • La receta no incluye la directiva de análisis, que reduce la transformación. de seguridad durante las ejecuciones de las canalizaciones.
  • Cuando creas una canalización desde Wrangler, el complemento de origen incluye todas las mismas propiedades y valores de análisis que configuraste en Wrangler.

Crea una conexión de archivos

Para analizar un archivo antes de cargarlo en Wrangler, debes usar una conexión de archivos. como Archivo, Cloud Storage o Amazon S3.

  1. Ve al espacio de trabajo de Wrangler en Cloud Data Fusion.
  2. Haz clic en la flecha desplegable Seleccionar datos para ver las conexiones disponibles.
  3. Agrega una conexión para Archivo, Cloud Storage o S3. Para ver más consulta Crear y administrar conexiones.
  4. Para abrir el cuadro de diálogo de opciones de análisis, ve al panel Seleccionar datos y, luego, haz clic en el nombre del archivo.
  5. En el diálogo Parsing options, ingresa la siguiente información:

    1. En el campo Formato, elige el formato de archivo de los datos que se leen, por ejemplo, csv. Para obtener más información, consulta Formatos compatibles.

      • Si eliges el formato de delimitador, ingresa la información del delimitador en el campo Delimitador que aparece.
      • Si eliges el formato CSV, TSV o delimitador, aparecerá la opción Habilitar comillas valores. Si tus datos están entre comillas, selecciona True. Este parámetro de configuración quita las comillas del resultado analizado. Por ejemplo, la siguiente entrada, 1, "a, b, c", se analiza en dos campos. El primer campo tiene el valor 1. El segundo tiene el valor a, b, c. El delimitador de nueva línea no puede entre comillas.
      • Si elegiste texto, CSV, TSV o formato de delimitador, aparecerá el campo Usar primera fila como encabezado. Para usar la primera línea de cada archivo como un encabezado de columna, selecciona True.
    2. En el campo Codificación de archivos, selecciona el tipo de codificación de archivo de la archivo fuente, por ejemplo, UTF-8.

    3. Opcional: para importar el esquema o anular el esquema inferido para el haz clic en Importar esquema. Importas el esquema para los formatos, como como JSON y algunos archivos Avro, cuando no es posible realizar inferencias de esquemas. El esquema debe estar en formato Avro.

    4. Haz clic en Confirmar. El archivo analizado aparecerá en el espacio de trabajo de Wrangler.

Formatos admitidos

Los siguientes formatos son compatibles con el análisis de archivos:

  • Avro
  • Blob (el formato de blob requiere un esquema que contenga un campo llamado body de tipo bytes)
  • CSV
  • Delimitado
  • JSON
  • Parquet
  • Texto (el formato de texto requiere un esquema que contenga un campo llamado body) del tipo string)
  • TSV

¿Qué sigue?