En este documento, se proporcionan algunas sugerencias comunes para la solución de problemas de suscripciones de extracción de Pub/Sub. Obtén más información sobre las suscripciones de extracción en la Guía para suscriptores de extracción.
Para supervisar de manera eficaz tu suscripción a Pub/Sub, te recomendamos que primero observes la puntuación de estado de la latencia de entrega (subscription/delivery_latency_health_score) para verificar qué factores pueden contribuir a una latencia inesperada o aumentada.
La antigüedad del mensaje sin confirmación más antiguo sigue aumentando
oldest_unacked_message_age
es una métrica fundamental para supervisar el estado de las suscripciones a Pub/Sub. Mide la antigüedad, en segundos, del mensaje más antiguo de las tareas pendientes de una suscripción que un suscriptor aún no confirmó (confirmó). Esta métrica ofrece estadísticas valiosas sobre posibles retrasos en el procesamiento o cuellos de botella.
Supervisar el retraso de los mensajes garantiza un procesamiento de mensajes oportuno y eficiente. Si realizas un seguimiento de la antigüedad del mensaje no confirmado más antiguo, puedes identificar de forma proactiva las situaciones en las que los consumidores se retrasan. Esta práctica permite una intervención temprana para abordar posibles problemas relacionados con el rendimiento degradado.
Estos son algunos de los problemas comunes de la lista de tareas pendientes que puedes investigar:
Problemas de configuración del cliente
Cuando las métricas oldest_unacked_message_age
y num_undelivered_messages
aumentan de forma simultánea, es posible que los suscriptores no estén a la altura del volumen de mensajes. En esta situación, debes centrar tu investigación en los componentes del suscriptor:
Estado del cliente: Analiza el uso de recursos en las máquinas que alojan clientes de suscriptores, como la CPU, la memoria y el ancho de banda de la red. Busca puntos de presión que puedan impedir la eficiencia del procesamiento.
Código de cliente: revisa los cambios recientes del código y examina los registros de errores. Los errores o las ineficiencias en el código del suscriptor pueden afectar de forma significativa las tasas de procesamiento de mensajes. Ten en cuenta que podría haber problemas en mensajes específicos. Por ejemplo, es posible que varios mensajes deban acceder a la misma fila de una base de datos de forma simultánea. Este comportamiento puede generar contención y latencia alta.
Limitaciones de cuota: Verifica que no hayas excedido ninguna cuota o limitación de Pub/Sub que haya impuesto tu servicio de hosting. Si los suscriptores están alojados en Google Cloud, revisa las cuotas de recursos de Compute Engine o GKE para evitar posibles cuellos de botella.
El suscriptor confirmó negativamente los mensajes
Cuando un suscriptor confirma de forma negativa (rechaza) un mensaje, le indica a Pub/Sub que no se pudo procesar correctamente. Luego, Pub/Sub intenta volver a entregar el mismo mensaje. Los gestos repetidos de un mensaje producen duplicados y, potencialmente, una gran demora en la entrega del mensaje.
Ten en cuenta que marcar un mensaje no garantiza que la siguiente extracción recupere un mensaje diferente. Es posible que la política de reenvío de Pub/Sub siga reenviando mensajes sin encabezado antes que los nuevos. Por lo tanto, no confíes en los nac como un método para omitir mensajes específicos o filtrarlos. En cambio, establece una política de reintento, preferentemente una retirada exponencial, como una forma de retirarte de los mensajes individuales que probablemente se puedan procesar más tarde, pero que necesiten un poco más de tiempo antes de volver a entregarse.
Si necesitas omitir intencionalmente ciertos mensajes, el enfoque recomendado es confirmarlos, incluso si no los procesarás. Esto los quita de la suscripción, evita las reenviaciones innecesarias y reduce el consumo de recursos. Si no confirmas los mensajes, ya sea de forma intencional o no, se crean problemas de acumulación y entregas duplicadas.
Latencia de entrega alta
La latencia de entrega en Pub/Sub es el tiempo que tarda un mensaje de un publicador en llegar a un suscriptor. En las siguientes secciones, se describen algunas de las posibles causas de una latencia de publicación alta.
No hay suficientes suscriptores
En el caso de los clientes que usan StreamingPull, para lograr una latencia baja constante, mantén varias conexiones de StreamingPull abiertas en tu suscripción. Sin conexiones activas de suscriptores, Pub/Sub no puede entregar mensajes de forma oportuna. Una sola transmisión podría ser un punto único de fallo, lo que aumenta el riesgo de demoras. La métrica subscription/open_streaming_pulls
proporciona visibilidad sobre la cantidad de conexiones de transmisión activas. Úsala para asegurarte de tener de forma coherente transmisiones suficientes para manejar los mensajes entrantes.
En el caso de los clientes que usan una extracción unaria, para lograr una latencia baja constante, debes mantener múltiples solicitudes de extracción pendientes para tu suscripción. Las solicitudes poco frecuentes podrían acumular mensajes en la lista de tareas pendientes y aumentar la latencia. Este enfoque ayuda a minimizar las brechas en la conectividad y mejorar la latencia de entrega.
La biblioteca cliente de alto nivel se recomienda para los casos en los que necesites una capacidad de procesamiento alta y baja latencia con una sobrecarga operativa y un costo de procesamiento mínimos. De forma predeterminada, la biblioteca cliente de alto nivel usa la API de StreamingPull, ya que suele ser una mejor opción para minimizar la latencia. Las bibliotecas cliente de alto nivel contienen funciones y clases precompiladas que controlan las llamadas a la API subyacentes para la autenticación, la optimización de la latencia y el rendimiento, el formato de mensajes y otras funciones.
Problemas de configuración del cliente
Consulta Problemas de configuración del cliente.
Tareas pendientes
Ten en cuenta que un retraso de mensajes de mensajes no confirmados en una suscripción de Pub/Sub aumenta de forma inherente la latencia de extremo a extremo porque los suscriptores no procesan los mensajes de inmediato.
Claves de ordenamiento y entrega “exactamente una vez”
Las claves de pedido y la entrega exactamente una vez son características valiosas, pero requieren coordinación adicional dentro de Pub/Sub para garantizar una entrega correcta. Esta coordinación puede reducir la disponibilidad y aumentar la latencia. Si bien la diferencia es mínima en el estado estable, cualquier paso de coordinación necesario podría generar aumentos temporales en la latencia o un aumento en la tasa de errores. Si el ordenamiento está habilitado, los mensajes con una clave de ordenamiento no se pueden entregar hasta que los anteriores con la misma clave de ordenamiento se confirmen.
Considera si el orden de los mensajes o la entrega exactamente una vez son absolutamente esenciales para tu aplicación. Si tu prioridad es la baja latencia, minimizar el uso de estas funciones podría ayudar a reducir las demoras en el procesamiento de mensajes.
de aumento en el tamaño del mensaje
Un aumento repentino en el tamaño del mensaje podría aumentar el tiempo de transferencia entre Pub/Sub y tu cliente, y ralentizar el tiempo de procesamiento de los mensajes en el lado del cliente.
Si observas un aumento en la latencia de entrega, puedes verificar los tamaños de los mensajes con la métrica topic/message_sizes
, agrupando por topic_id
. Correlaciona los aumentos repentinos en el tamaño del mensaje con los problemas de rendimiento observados.
Mensajes faltantes
Si sospechas que los mensajes no se entregan correctamente a tu suscriptor, es posible que uno de los siguientes motivos sea el factor que contribuye a ello.
Distribución de mensajes en suscripciones de Pub/Sub con varios consumidores
En Pub/Sub, los mensajes pueden distribuirse de forma desigual entre los consumidores. Este comportamiento ocurre porque Pub/Sub distribuye mensajes entre consumidores activos para mejorar la eficiencia. A veces, un solo consumidor podría recibir menos mensajes de los esperados o un subconjunto de mensajes diferente que otros consumidores.
Ten en cuenta que los mensajes ya podrían estar pendientes para los clientes y que una acumulación de mensajes no confirmados no necesariamente significa que recibirás esos mensajes en tu próxima solicitud de extracción. Ten en cuenta que un consumidor puede ser alguien que usa la extracción en la consola de Google Cloud o Google Cloud CLI, o que ejecuta un suscriptor personalizado de forma local para verificar los mensajes.
En el caso de los clientes de extracción unarios, es posible que observes que algunas solicitudes de extracción no muestran ningún mensaje. Como se explicó en la sección No hay suficientes suscriptores, se recomienda mantener varias solicitudes de extracción pendientes, ya que algunas podrían mostrar menos mensajes que la cantidad máxima configurada o incluso cero mensajes.
Si sospechas que se produce alguno de estos comportamientos, investiga si hay varios consumidores conectados de forma simultánea a la suscripción y, luego, inspecciona la situación.
Filtra la suscripción
Verifica si la suscripción tiene un filtro adjunto. Si es así, solo recibirás los mensajes que coincidan con el filtro. El servicio de Pub/Sub confirma automáticamente los mensajes que no coinciden con el filtro. Ten en cuenta cómo los filtros afectan las métricas de lista de tareas pendientes.
Usa la opción returnImmediately
Si tu cliente usa el método de extracción unaria, verifica si el campo returnImmediately
está configurado como verdadero. Este es un campo obsoleto que le indica al servicio de Pub/Sub que responda a la solicitud de extracción de inmediato, incluso si no muestra ningún mensaje. Esto puede hacer que las solicitudes de extracción muestren 0 mensajes incluso cuando hay una tarea pendiente.
Cómo abordar los duplicados
La duplicación de mensajes en Pub/Sub suele ocurrir cuando los suscriptores no pueden confirmar los mensajes dentro del plazo de confirmación. Esto provoca que los mensajes se vuelvan a entregar, lo que crea la impresión de duplicados. Puedes medir la frecuencia con la que los suscriptores no cumplen el plazo de confirmación con la métrica subscription/expired_ack_deadlines_count
. Obtén más información para supervisar el vencimiento del plazo de confirmación.
Para reducir la tasa de duplicación, extiende los plazos de los mensajes.
- Las bibliotecas cliente controlan la extensión de la fecha límite automáticamente, pero existen límites predeterminados sobre la fecha límite máxima de extensión que puedes configurar.
- Si estás compilando tu propia biblioteca cliente, usa el método
modifyAckDeadline
para extender el plazo de confirmación.
Si los mensajes se extraen del suscriptor más rápido de lo que se pueden procesar y confirmar, es posible que algunos mensajes venzan y requieran extensiones de plazo. Sin embargo, si el suscriptor sigue sin poder cumplir con la tarea, las extensiones repetidas de la fecha límite eventualmente fallarán. En el peor de los casos, esto puede provocar que un suscriptor tenga una gran cantidad de duplicados, lo que agravará la acumulación. Los duplicados con vencimiento, luego, generan duplicados nuevos.
Para evitar abrumar al suscriptor, reduce la cantidad de mensajes que extrae a la vez. De esta manera, el suscriptor tiene menos mensajes que procesar dentro del plazo. Vencerán menos mensajes y se volverán a entregar menos.
Para reducir la cantidad de mensajes que el suscriptor extrae a la vez, debes reducir la cantidad máxima de mensajes pendientes en la configuración de control de flujo del suscriptor. No hay un valor único para todos, por lo que debes ajustar el límite máximo de mensajes pendientes según tu capacidad de procesamiento y la de suscriptor. Ten en cuenta que cada aplicación procesa los mensajes de manera diferente y tarda una cantidad de tiempo diferente en confirmarlos.
Cómo forzar los reintentos
Para forzar a Pub/Sub a volver a enviar un mensaje, envía una solicitud nack
. Si no usas las bibliotecas cliente de alto nivel, envía una solicitud modifyAckDeadline
con ackDeadlineSeconds
establecido en 0.
Claves de ordenamiento
Cuando Pub/Sub vuelve a enviar un mensaje con una clave de pedido, también volverá a entregar con la misma clave de ordenamiento, incluso si ya se confirmaron. Esto se hace para preservar el orden de la secuencia. Sin embargo, no hay una garantía estricta de que los mensajes dependientes solo se envíen después de que se haya realizado correctamente el ataque a los mensajes anteriores de la secuencia.
El suscriptor está ingresando los mensajes
Consulta el suscriptor está guardando los mensajes.
Soluciona problemas de una suscripción a StreamingPull
Relación entre la métrica de latencia de la solicitud y la latencia de entrega de extremo a extremo
Para StreamingPull, la métrica serviceruntime.googleapis.com/api/request_latencies representa el tiempo durante el cual está abierta la transmisión. La métrica no es útil para determinar la latencia de entrega de extremo a extremo.
En lugar de usar la métrica de latencia de la solicitud, usa la puntuación de estado de la latencia de entrega para verificar qué factores contribuyen a aumentar la latencia de entrega de extremo a extremo.
Las conexiones de StreamingPull se cierran con un estado incorrecto
Las transmisiones de StreamingPull siempre se cierran con un estado que no es correcto. Cómo diferenciar un estado de error Para RPC unarias, este estado para StreamingPull es solo una indicación de que transmisión está desconectada. Las solicitudes no fallan. Por lo tanto, si bien La API de StreamingPull puede tener una sorprendente tasa de error del 100%. Este comportamiento se presenta el diseño de tu producto.
Dado que las transmisiones de StreamingPull siempre se cierran con un error, no es útil
examinar las métricas de finalización de transmisión mientras diagnosticas errores Más bien, enfócate en la métrica de respuesta de StreamingPull subscription/streaming_pull_response_count
, agrupada por response_code
o response_class
.
Busca estos errores:
Pueden ocurrir errores de condición previa fallida si hay mensajes en el de suscripciones que están encriptadas con una clave de Cloud KMS inhabilitada. Para reanudar la extracción y restablecer el acceso a la clave
Los errores no disponibles pueden ocurrir cuando Pub/Sub no puede procesar una solicitud. Lo más probable es que esta sea una condición transitoria la biblioteca reintenta las solicitudes. No es necesario que realices ninguna acción si con una biblioteca cliente.
Los errores No encontrado pueden ocurrir cuando se borra la suscripción o si nunca existían en primer lugar. Este último caso ocurre si proporcionaste una ruta de acceso de la suscripción.