Lee desde Cloud Storage a Dataflow

Para leer datos de Cloud Storage a Dataflow, usa el conector de E/S TextIO o AvroIO de Apache Beam.

Incluye la dependencia de la biblioteca de Google Cloud

Para usar el conector TextIO o AvroIO con Cloud Storage, debes incluir la siguiente dependencia. Esta biblioteca proporciona un controlador de esquema para los nombres de archivo "gs://".

Java

<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-io-google-cloud-platform</artifactId>
  <version>${beam.version}</version>
</dependency>

Python

apache-beam[gcp]==VERSION

Go

import _ "github.com/apache/beam/sdks/v2/go/pkg/beam/io/filesystem/gcs"

Para obtener más información, consulta Instala el SDK de Apache Beam.

Paralelismo

Los conectores TextIO y AvroIO admiten dos niveles de paralelismo:

  • Los archivos individuales tienen claves por separado para que varios trabajadores puedan leerlos.
  • Si los archivos no están comprimidos, el conector puede leer subintervalos de cada archivo por separado, lo que genera un alto nivel de paralelismo. Esta división solo es posible si cada línea del archivo es un registro significativo. Por ejemplo, no está disponible de forma predeterminada para los archivos JSON.

Rendimiento

En la siguiente tabla, se muestran las métricas de rendimiento para leer desde Cloud Storage. Las cargas de trabajo se ejecutaron en un trabajador e2-standard2, con el SDK de Apache Beam 2.49.0 para Java. No usaron Runner v2.

100 millones de registros | 1 KB | 1 columna Capacidad de procesamiento (bytes) Capacidad de procesamiento (elementos)
Leer 320 MBps 320,000 elementos por segundo

Estas métricas se basan en canalizaciones por lotes simples. Están diseñadas para comparar el rendimiento entre los conectores de E/S y no representan necesariamente las canalizaciones del mundo real. El rendimiento de la canalización de Dataflow es complejo y es una función del tipo de VM, los datos que se procesan, el rendimiento de las fuentes y los receptores externos y el código de usuario. Las métricas se basan en la ejecución del SDK de Java y no representan las características de rendimiento de otros SDK de lenguaje. Para obtener más información, consulta Rendimiento de E/S de Beam.

Prácticas recomendadas

  • Evita usar watchForNewFiles con Cloud Storage. Este enfoque escala mal para las canalizaciones de producción grandes, ya que el conector debe mantener una lista de archivos vistos en la memoria. La lista no se puede limpiar de la memoria, lo que reduce la memoria de trabajo de los trabajadores a lo largo del tiempo. En su lugar, considera usar notificaciones de Pub/Sub para Cloud Storage. Para obtener más información, consulta Patrones de procesamiento de archivos.

  • Si el nombre de archivo y el contenido del archivo son datos útiles, usa la clase FileIO para leer los nombres de archivo. Por ejemplo, un nombre de archivo puede contener metadatos que son útiles cuando se procesan los datos en el archivo. Para obtener más información, consulta Accede a nombres de archivos. En la documentación de FileIO, también se muestra un ejemplo de este patrón.

¿Qué sigue?