Cuotas y límites

Cuotas

Los límites de cuota del servicio gestionado Cloud Dataflow son los siguientes:

  • Cada usuario puede realizar hasta 3.000.000 de solicitudes por minuto.
  • Cada tarea de Cloud Dataflow puede usar un máximo de 1000 instancias de Compute Engine.
  • Cada proyecto de Google Cloud Platform puede ejecutar 100 tareas de Cloud Dataflow de manera simultánea.
  • Si habilitas las cuotas a nivel de organización, cada organización podrá ejecutar 125 tareas de Cloud Dataflow simultáneas.
  • Cada usuario puede realizar 15.000 solicitudes de supervisión por minuto.
  • Cada proyecto de Google Cloud Platform recibe 160 ranuras de Shuffle, que permiten procesar con Shuffle una cantidad aproximada de 50 TB de datos al mismo tiempo.
  • Cada proyecto de Google Cloud Platform recibe 60 GB por minuto de rendimiento de Streaming Engine en cada región de Cloud, los cuales sirven para transferir datos entre instancias de Compute Engine y Streaming Engine.

Para comprobar tu uso de la cuota de Cloud Dataflow:

  1. En la consola de Google Cloud Platform, ve a APIs y servicios.
    Ir a APIs y servicios
  2. Haz clic en Panel.
  3. Selecciona API de Dataflow.
  4. Haz clic en Cuotas.
    Por ejemplo, para comprobar tu uso de la cuota de ranuras de Shuffle, busca el gráfico Ranuras de Shuffle en la página Cuotas.
    Ranuras de Shuffle en la página Cuotas.

El servicio Cloud Dataflow utiliza varios componentes de GCP, como BigQuery, Cloud Storage, Cloud Pub/Sub y Compute Engine. Tanto estos como otros servicios de GCP disponen de cuotas para limitar el número máximo de recursos que puedes emplear en un proyecto. Cuando uses Cloud Dataflow, puede que debas ajustar la configuración de cuotas según los requisitos de estos servicios.

Cuotas de Compute Engine

Cuando ejecutas tu flujo de procesamiento en el servicio Cloud Dataflow, este crea instancias de Compute Engine para ejecutar el código de dicho flujo.

Las cuotas de Compute Engine se especifican según la región. Comprueba la cuota de Compute Engine que se aplica a tu proyecto y solicita los ajustes pertinentes (si procede):

  • CPUs: los tipos de máquinas predeterminadas de Cloud Dataflow son n1-standard-1 para los lotes y n1-standard-4 para el streaming. FlexRS utiliza máquinas n1-standard-2 de forma predeterminada. Durante su versión beta, FlexRS usa un 90 % de VM no garantizadas y un 10 % de VM convencionales. Para calcular el número de CPUs, Compute Engine suma el recuento total de CPUs de cada instancia Por ejemplo, si se ejecutan 10 instancias de n1-standard-4 se contabilizarán 40 CPU. Consulta los tipos de máquinas de Compute Engine para ver cuántas CPU usa cada uno.
  • Direcciones IP en uso: en tu proyecto, debes tener un número de direcciones IP en uso suficiente como para acomodar el número de instancias que quieras utilizar. Por ejemplo, si quieres usar 10 instancias de Compute Engine, tendrás que contar con 10 direcciones IP de dicho tipo.
  • Persistent Disk: Cloud Dataflow vincula discos persistentes con cada instancia.
    • El tamaño de disco predeterminado es de 250 GB para los flujos de procesamiento por lotes y de 420 GB para los de streaming. Por tanto, si quieres utilizar 10 instancias, necesitarás 2500 GB de disco persistente de forma predeterminada para realizar una tarea por lotes.
    • El tamaño de disco predeterminado es de 25 GB para los flujos de procesamiento por lotes de la función Shuffle de Cloud Dataflow.
    • Por otra parte, el tamaño de disco predeterminado para los flujos de procesamiento en streaming de Streaming Engine es de 30 GB.
  • Grupos de instancias gestionados: Cloud Dataflow despliega tus instancias de Compute Engine como un grupo de instancias gestionado. Para ello, debes tener disponible la siguiente cuota relacionada:
    • Un grupo de instancias por cada tarea de Cloud Dataflow
    • Un grupo de instancias administrado por cada tarea de Cloud Dataflow
    • Una plantilla de instancia por cada tarea de Cloud Dataflow

Otras cuotas

Según las fuentes y los sumideros que utilices, es posible que necesites otra cuota más.

  1. Cloud Pub/Sub: si utilizas este servicio, es posible que necesites una cuota más. A la hora de planificarla, ten en cuenta que procesar un mensaje desde Cloud Pub/Sub implica tres operaciones. Si utilizas marcas de tiempo personalizadas, tienes que duplicar el número esperado de operaciones, ya que Cloud Dataflow creará una suscripción por separado para hacer un seguimiento de dichas marcas de tiempo.
  2. BigQuery: si utilizas la API de streaming de BigQuery, se aplicarán límites de cuota y otras restricciones.

Límites

En esta sección se detallan los límites prácticos de producción de Cloud Dataflow.

Límite Importe
Número máximo de trabajadores por flujo de procesamiento 1000
Tamaño máximo para las peticiones de creación de una tarea. Este límite puede alcanzarse en las descripciones de los flujos de procesamiento que incluyan muchos pasos y nombres muy verbosos 10 MB
Número máximo de fragmentos de entrada secundaria 20.000
Tamaño máximo del valor de un único elemento de Streaming Engine. 100 MB
¿Te ha resultado útil esta página? Enviar comentarios:

Enviar comentarios sobre...

Si necesitas ayuda, visita nuestra página de asistencia.