Procesar datos de aprendizaje automático con Dataflow y Cloud Storage FUSE
Organízate con las colecciones
Guarda y clasifica el contenido según tus preferencias.
En esta página se describe cómo usar Cloud Storage FUSE con Dataflow para procesar conjuntos de datos para tareas de aprendizaje automático.
Cuando se trabaja con tareas de aprendizaje automático, Dataflow se puede usar para procesar grandes conjuntos de datos. Sin embargo, algunas bibliotecas de software comunes que se usan en el aprendizaje automático, como OpenCV, tienen requisitos para los archivos de entrada. A menudo, requieren que se acceda a los archivos como si estuvieran almacenados en la unidad de disco duro de un ordenador local, en lugar de en un almacenamiento basado en la nube. Este requisito genera dificultades y retrasos. Como solución, las canalizaciones pueden usar conectores de E/especiales para la entrada o descargar archivos en las máquinas virtuales (VMs) de Dataflow antes del procesamiento. Estas soluciones suelen ser ineficientes.
Cloud Storage FUSE ofrece una forma de evitar estas soluciones ineficientes.
Cloud Storage FUSE te permite montar tus segmentos de Cloud Storage en las VMs de Dataflow. De esta forma, los archivos de Cloud Storage se muestran como si fueran archivos locales. Por lo tanto, el software de aprendizaje automático puede acceder a ellos directamente sin necesidad de descargarlos previamente.
Ventajas
Usar Cloud Storage FUSE para tareas de aprendizaje automático ofrece las siguientes ventajas:
Se puede acceder a los archivos de entrada alojados en Cloud Storage en la VM de Dataflow mediante la semántica del sistema de archivos local.
Como se accede a los datos bajo demanda, no es necesario descargar los archivos de entrada previamente.
Compatibilidad y limitaciones
Para usar Cloud Storage FUSE con Dataflow, debes configurar las VMs de trabajador con direcciones IP externas para que cumplan los requisitos de acceso a Internet.
Especificar los segmentos que se van a usar con Cloud Storage FUSE
Para especificar un segmento de Cloud Storage que se va a montar en una VM, usa la marca --experiments. Para especificar varios segmentos, usa un punto y coma (;) como delimitador entre los nombres de los segmentos.
El formato es el siguiente:
--experiments="gcsfuse_buckets=CONFIG"
Haz los cambios siguientes:
CONFIG: lista delimitada por punto y coma de entradas de Cloud Storage, donde cada entrada es una de las siguientes:
BUCKET_NAME: nombre de un segmento de Cloud Storage.
Por ejemplo, dataflow-samples. Si omite el modo del segmento, el segmento se tratará como de solo lectura.
BUCKET_NAME:MODE: nombre de un segmento de Cloud Storage y su modo asociado, donde MODE es ro (solo lectura) o rw (lectura y escritura).
[[["Es fácil de entender","easyToUnderstand","thumb-up"],["Me ofreció una solución al problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Es difícil de entender","hardToUnderstand","thumb-down"],["La información o el código de muestra no son correctos","incorrectInformationOrSampleCode","thumb-down"],["Me faltan las muestras o la información que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-10 (UTC)."],[],[],null,["This page describes how to use\n[Cloud Storage FUSE](/storage/docs/cloud-storage-fuse/overview) with Dataflow\nto process datasets for machine learning (ML) tasks.\n\nWhen working with ML tasks, Dataflow can be used for processing large\ndatasets. However, some common software libraries used for ML, like OpenCV, have\ninput file requirements. They frequently require files to be accessed as if they\nare stored on a local computer's hard drive, rather than from cloud-based\nstorage. This requirement creates difficulties and delays. As a solution,\npipelines can either use special I/O connectors for input or download files onto\nthe Dataflow virtual machines (VMs) before processing. These solutions\nare frequently inefficient.\n\nCloud Storage FUSE provides a way to avoid these inefficient solutions.\nCloud Storage FUSE lets you mount your Cloud Storage buckets onto the\nDataflow VMs. This makes the files in Cloud Storage appear as if they\nare local files. As a result, the ML software can access them directly without\nneeding to download them beforehand.\n\nBenefits\n\nUsing Cloud Storage FUSE for ML tasks offers the following benefits:\n\n- Input files hosted on Cloud Storage can be accessed in the Dataflow VM using local file system semantics.\n- Because the data is accessed on-demand, the input files don't have to be downloaded beforehand.\n\nSupport and limitations\n\n- To use Cloud Storage FUSE with Dataflow, you must configure worker VMs with [external IP addresses](/dataflow/docs/guides/routes-firewall#internet_access_for) so that they meet the internet access requirements.\n\nSpecify buckets to use with Cloud Storage FUSE\n\nTo specify a Cloud Storage bucket to mount to a VM, use the\n[`--experiments`](/dataflow/docs/reference/pipeline-options) flag. To specify\nmultiple buckets, use a semicolon delimiter (`;`) between bucket names.\n\nThe format is as follows: \n\n --experiments=\"gcsfuse_buckets=\u003cvar translate=\"no\"\u003eCONFIG\u003c/var\u003e\"\n\nReplace the following:\n\n- \u003cvar translate=\"no\"\u003eCONFIG\u003c/var\u003e: a semicolon-delimited list of\n Cloud Storage entries, where each entry is one of the following:\n\n 1. \u003cvar translate=\"no\"\u003eBUCKET_NAME\u003c/var\u003e: A Cloud Storage bucket name.\n For example, `dataflow-samples`. If you omit the bucket mode, the bucket\n is treated as read-only.\n\n 2. \u003cvar translate=\"no\"\u003eBUCKET_NAME\u003c/var\u003e`:`\u003cvar translate=\"no\"\u003eMODE\u003c/var\u003e: A\n Cloud Storage bucket name and its associated mode, where `MODE` is\n either `ro` (read-only) or `rw` (read-write).\n\n For example: \n\n --experiments=\"gcsfuse_buckets=read-bucket1;read-bucket2:ro;write-bucket1:rw\"\n\n In this example, specifying the mode assures the following:\n - `gs://read-bucket1` is mounted in read-only mode.\n - `gs://read-bucket2` is mounted in read-only mode.\n - `gs://write-bucket1` is mounted in read-write mode.\n\n Beam pipeline code can access these buckets at\n `/var/opt/google/gcs/`\u003cvar translate=\"no\"\u003eBUCKET_NAME\u003c/var\u003e."]]