Cuotas y límites

Cuotas

El servicio administrado de Cloud Dataflow tiene los siguientes límites de cuota:

  • Cada usuario puede generar un máximo de 3,000,000 de solicitudes por minuto.
  • Cada trabajo de Cloud Dataflow puede usar un máximo de 1,000 instancias de Compute Engine.
  • Cada proyecto de Google Cloud Platform puede ejecutar 25 trabajos de Cloud Dataflow simultáneos.
  • Cada organización puede ejecutar 125 trabajos de Cloud Dataflow simultáneos.
  • Cada usuario puede generar un máximo de 15,000 solicitudes de supervisión por minuto.
  • Cada proyecto de Google Cloud Platform obtiene 160 ranuras aleatorias que son suficientes para reproducir de forma aleatoria alrededor de 50 TB de datos en simultáneo.

Si deseas ejecutar más de 25 trabajos simultáneos de Cloud Dataflow en tu proyecto o más de 125 trabajos simultáneos de Cloud Dataflow en tu organización, comunícate con el servicio de asistencia de Google Cloud Platform y aumentaremos el límite a un valor que se adapte mejor a sus necesidades.
Además, puedes aumentar tu cuota de ranuras aleatorias si envías una solicitud de asistencia y especificas el tamaño máximo del conjunto de datos aleatorio simultáneo esperado para todos los trabajos de tu proyecto. Antes de solicitar la cuota aleatoria adicional, ejecuta tu canalización con Cloud Dataflow Shuffle y verifica el uso de cuota aleatoria real.

Puedes verificar el uso actual de la cuota específica de Cloud Dataflow de la manera siguiente:

  1. En Google Cloud Platform Console, dirígete a APIs & services (API y servicios).
    Ir a API y servicios
  2. Haz clic en Dashboard (Panel).
  3. Haz clic en Dataflow API (API de Dataflow).
  4. Haz clic en Quotas (Cuotas).
    Por ejemplo, para verificar el uso de la cuota de las ranuras aleatorias actual, busca el gráfico de Shuffle slots (Ranuras aleatorias) en la página Cuotas.
    Ranuras aleatorias en la página de Cuotas.

Además, el servicio de Cloud Dataflow usa varios componentes de GCP, como BigQuery, Cloud Storage, Cloud Pub/Sub y Compute Engine. Estos (y otros servicios de GCP) usan cuotas para limitar la cantidad máxima de recursos que puedes usar dentro de un proyecto. Cuando uses Cloud Dataflow, es posible que debas ajustar la configuración de cuotas para estos servicios.

Cuotas de Compute Engine

Cuando ejecutas tu canalización en el servicio de Cloud Dataflow, Cloud Dataflow inicia instancias de Compute Engine para ejecutar el código de tu canalización.

La cuota de Compute Engine se especifica por región. Revisa la cuota de Compute Engine de tu proyecto y solicita los ajustes siguientes, si es necesario:

  • CPU: los tipos de máquinas predeterminados de Cloud Dataflow son n1-standard-1 para lotes y n1-standard-4 destinado a la transmisión. Compute Engine calcula la cantidad máxima de CPU mediante la suma del conteo de CPU total de cada instancia. Por ejemplo, ejecutar 10 instancias n1-standard-4 cuenta como 40 CPU. Consulta los tipos de máquinas de Compute Engine para ver la correlación entre los tipos de máquina y los conteos de CPU.
  • Direcciones IP en uso: La cantidad de direcciones IP en uso en tu proyecto debe ser suficiente para adaptarse a la cantidad de instancias deseada. Para usar 10 instancias de Compute Engine, necesitarás 10 direcciones IP en uso.
  • Disco persistente: Cloud Dataflow adjunta discos persistentes a cada instancia. El tamaño de disco predeterminado es de 250 GB para lotes y de 420 GB para transmisión. Si usas 10 instancias, según la configuración predeterminada, necesitarías 2,500 GB de disco persistente para un trabajo en lotes.
  • Grupos de instancias administrados: Cloud Dataflow implementa tus instancias de Compute Engine como un grupo de instancias administrado. Deberás asegurarte de tener disponibles las siguientes cuotas relacionadas:
    • Un grupo de instancias por trabajo de Cloud Dataflow
    • Un grupo de instancias administradas por trabajo de Cloud Dataflow
    • Una plantilla de instancia por trabajo de Cloud Dataflow
Nota: Si usas un proyecto de Prueba gratuita, tu proyecto tendrá disponible un máximo de 8 núcleos. Debes especificar una combinación de numWorkers, workerMachineType y maxNumWorkers que no supere el límite de la prueba gratuita.

Cuotas adicionales

Según las fuentes y los receptores que uses, es probable que necesites una cuota adicional.

  1. Cloud Pub/Sub: si usas Cloud Pub/Sub, es posible que necesites cuota adicional. Cuando planificas la cuota, ten en cuenta que procesar 1 mensaje de Cloud Pub/Sub involucra 3 operaciones. Si usas marcas de tiempo personalizadas, debes duplicar la cantidad de operaciones esperadas, ya que Cloud Dataflow creará una suscripción independiente para hacer un seguimiento de las marcas de tiempo personalizadas.
  2. BigQuery: si usas la API de transmisión para BigQuery, se aplican límites de cuota y otras restricciones.

Límites

En esta sección, se describen los límites de producción prácticos para Cloud Dataflow.

Nota: Estos valores están sujetos a cambios y se aplican a las versiones más recientes de los SDK de Apache Beam. Es posible que las canalizaciones compiladas con versiones anteriores de los SDK de Cloud Dataflow tengan límites de entorno de ejecución más estrictos.

Límite Importe
Cantidad máxima de trabajadores por canalización. 1,000
Tamaño máximo de una solicitud de creación de trabajo. Las descripciones de canalización con varios pasos y nombres muy detallados pueden alcanzar este límite. 10 MB
Cantidad máxima de fragmentos de entradas complementarias. 20,000
¿Te sirvió esta página? Envíanos tu opinión:

Enviar comentarios sobre…

¿Necesitas ayuda? Visita nuestra página de asistencia.