Cuotas y límites

Cuotas

El servicio administrado de Cloud Dataflow tiene los siguientes límites de cuota:

  • Cada usuario puede realizar hasta 3,000,000 de solicitudes por minuto.
  • Cada trabajo de Cloud Dataflow puede usar un máximo de 1,000 instancias de Compute Engine.
  • Cada proyecto de Google Cloud Platform puede ejecutar 100 trabajos de Cloud Dataflow simultáneos.
  • Si aceptas las cuotas de nivel de organización, cada organización puede ejecutar 125 trabajos de Cloud Dataflow simultáneos.
  • Cada usuario puede realizar hasta 15,000 solicitudes de supervisión por minuto.
  • Cada proyecto de Google Cloud Platform obtiene 160 ranuras de Shuffle, que son suficientes para mezclar alrededor de 50 TB de datos a la vez.
  • Cada proyecto de Google Cloud Platform obtiene 60 GB por minuto por región de la nube de capacidad de procesamiento de Streaming Engine para enviar datos entre las instancias de Compute Engine y Streaming Engine.

Puedes verificar el uso actual de la cuota específica de Cloud Dataflow de la manera siguiente:

  1. En Google Cloud Platform Console, dirígete a APIs & services (API y servicios).
    Ir a API y servicios
  2. Haz clic en Panel.
  3. Haz clic en API de Dataflow.
  4. Haz clic en Cuotas.
    Por ejemplo, para verificar el uso actual de la cuota de las ranuras de Shuffle, busca el gráfico Ranuras de Shuffle en la página Cuotas.
    Ranuras aleatorias en la página de Cuotas.

Además, el servicio de Cloud Dataflow usa varios componentes de GCP, como BigQuery, Cloud Storage, Cloud Pub/Sub y Compute Engine. Estos (y otros servicios de GCP) emplean cuotas para limitar la cantidad máxima de recursos que puedes usar dentro de un proyecto. Cuando uses Cloud Dataflow, es posible que debas ajustar la configuración de cuotas para estos servicios.

Cuotas de Compute Engine

Cuando ejecutas tu canalización en el servicio de Cloud Dataflow, se crean instancias de Compute Engine para ejecutar el código de tu canalización.

La cuota de Compute Engine se especifica por región. Revisa la cuota de Compute Engine de tu proyecto y solicita los ajustes siguientes, si es necesario:

  • CPU: los tipos de máquinas predeterminados de Cloud Dataflow son n1-standard-1 para trabajos por lotes y n1-standard-4 para transmisión. FlexRS usa máquinas n1-standard-2 de forma predeterminada. Durante la versión Beta, FlexRS usa un 90% de VM interrumpibles y un 10% de VM normales. Compute Engine calcula el número de CPU mediante una suma del conteo total de las CPU de cada instancia. Por ejemplo, ejecutar 10 instancias n1-standard-4 cuenta como 40 CPU. Consulta los tipos de máquinas de Compute Engine para ver la correlación entre los tipos de máquina y los conteos de CPU.
  • Direcciones IP en uso: La cantidad de direcciones IP en uso en tu proyecto debe ser suficiente para adaptarse a la cantidad de instancias deseada. Para usar 10 instancias de Compute Engine, necesitarás 10 direcciones IP en uso.
  • Persistent Disk: Cloud Dataflow adjunta Persistent Disk a cada instancia.
    • El tamaño de disco predeterminado es de 250 GB para trabajos por lotes y de 420 GB para canalizaciones de transmisión. De manera predeterminada, para 10 instancias necesitas 2,500 GB de disco persistente destinados a un trabajo por lotes.
    • El tamaño de disco predeterminado es de 25 GB para las canalizaciones por lotes de Cloud Dataflow Shuffle.
    • El tamaño de disco predeterminado es de 30 GB para las canalizaciones de transmisión de Streaming Engine.
  • Grupos de instancias administrados: Cloud Dataflow implementa tus instancias de Compute Engine como un grupo de instancias administrado. Deberás asegurarte de tener disponibles las siguientes cuotas relacionadas:
    • Un grupo de instancias por trabajo de Cloud Dataflow
    • Un grupo de instancias administradas por trabajo de Cloud Dataflow
    • Una plantilla de instancia por trabajo de Cloud Dataflow

Cuotas adicionales

Según las fuentes y los receptores que uses, es probable que necesites cuota adicional.

  1. Cloud Pub/Sub: si usas Cloud Pub/Sub, es posible que necesites cuota adicional. Cuando planificas la cuota, ten en cuenta que procesar 1 mensaje de Cloud Pub/Sub involucra 3 operaciones. Si usas marcas de tiempo personalizadas, debes duplicar la cantidad de operaciones esperadas, ya que Cloud Dataflow creará una suscripción independiente para hacer un seguimiento de las marcas de tiempo personalizadas.
  2. BigQuery: si usas la API de transmisión para BigQuery, se aplican límites de cuota y otras restricciones.

Límites

En esta sección, se describen los límites de producción prácticos para Cloud Dataflow.

Límite Importe
Cantidad máxima de trabajadores por canalización. 1,000
Tamaño máximo de una solicitud de creación de trabajo. Las descripciones de canalización con varios pasos y nombres muy detallados pueden alcanzar este límite. 10 MB
Cantidad máxima de fragmentos de entradas complementarias. 20,000
Tamaño máximo para un valor de elemento único en Streaming Engine. 100 MB
¿Te sirvió esta página? Envíanos tu opinión:

Enviar comentarios sobre…

¿Necesitas ayuda? Visita nuestra página de asistencia.