Analizar archivos

En esta página se explica cómo analizar archivos al preparar datos en el espacio de trabajo Wrangler de Cloud Data Fusion Studio. Wrangler te permite analizar un archivo antes de cargarlo en el espacio de trabajo de Wrangler:

  • Wrangler infiere los tipos de datos y asigna cada columna al tipo de datos inferido de la misma forma que lo hacen los complementos de fuentes de archivos en Pipeline Studio.
  • Cuando no se puede inferir el esquema, puedes importar el esquema de un formato de archivo, como JSON.
  • La receta no incluye la directiva de análisis, lo que reduce la lógica de transformación durante las ejecuciones de la canalización.
  • Cuando creas una canalización desde Wrangler, el complemento de origen incluye las mismas propiedades y valores de análisis que has definido en Wrangler.

Crear una conexión de archivo

Para analizar un archivo antes de cargarlo en Wrangler, debe usar una conexión de archivo, como Archivo, Cloud Storage o Amazon S3.

  1. Ve al espacio de trabajo de Wrangler en Cloud Data Fusion.
  2. Haga clic en la flecha del desplegable Seleccionar datos para ver las conexiones disponibles.
  3. Añade una conexión para Archivo, Cloud Storage o S3. Para obtener más información, consulta Crear y gestionar conexiones.
  4. Para abrir el cuadro de diálogo de opciones de análisis, ve al panel Seleccionar datos y haz clic en el nombre del archivo.
  5. En el cuadro de diálogo Opciones de análisis, introduce la siguiente información:

    1. En el campo Formato, elija el formato de archivo de los datos que se van a leer (por ejemplo, csv). Para obtener más información, consulta Formatos admitidos.

      • Si elige el formato de delimitador, en el campo Delimitador que aparece, introduzca la información del delimitador.
      • Si elige el formato CSV, TSV o de delimitador, aparecerá el campo Habilitar valores entre comillas. Si los datos están entre comillas, seleccione Verdadero. Este ajuste elimina las comillas del resultado analizado. Por ejemplo, la siguiente entrada, 1, "a, b, c", se analiza en dos campos. El primer campo tiene el valor 1. El segundo campo tiene el valor a, b, c. El delimitador de salto de línea no puede estar entre comillas.
      • Si has elegido el formato de texto, CSV, TSV o delimitador, aparecerá el campo Usar la primera fila como encabezado. Para usar la primera línea de cada archivo como encabezado de columna, selecciona Verdadero.
    2. En el campo Codificación de archivo, elija el tipo de codificación del archivo de origen (por ejemplo, UTF-8).

    3. Opcional: Para importar el esquema o anular el esquema inferido del archivo, haz clic en Import Schema (Importar esquema). Importa el esquema de formatos como JSON y algunos archivos Avro, en los que no es posible inferir el esquema. El esquema debe estar en formato Avro.

    4. Haz clic en Confirmar. El archivo analizado aparece en el espacio de trabajo de Wrangler.

Formatos admitidos

Se admiten los siguientes formatos para el análisis de archivos:

  • Avro
  • Blob (el formato blob requiere un esquema que contenga un campo llamado body de tipo bytes)
  • CSV
  • Delimitado
  • JSON
  • Parquet
  • Texto (el formato de texto requiere un esquema que contenga un campo llamado body de tipo string)
  • TSV

Siguientes pasos