Supervisa Pub/Sub en Cloud Monitoring

Puedes usar la consola de Google Cloud o la API de Cloud Monitoring para supervisar Pub/Sub.

En este documento, se muestra cómo supervisar el uso de Pub/Sub en la consola de Google Cloud con Monitoring.

  • Si quieres ver las métricas de otros recursos de Google Cloud además de las métricas de Pub/Sub, usa Monitoring.

  • De lo contrario, puedes usar los paneles de supervisión que se proporcionan en Pub/Sub. Consulta cómo supervisar temas y cómo supervisar suscripciones.

Si deseas conocer las prácticas recomendadas sobre el uso de métricas en el ajuste de escala automático, consulta Prácticas recomendadas para usar las métricas de Pub/Sub como indicador de escalamiento.

Antes de comenzar

Antes de usar Monitoring, asegúrate de haber preparado lo siguiente:

  • Una cuenta de Facturación de Cloud

  • Un proyecto de Pub/Sub con facturación habilitada

Una forma de asegurarte de haber obtenido los dos es completar la Guía de inicio rápido para usar la consola de Cloud.

Cómo ver un panel existente

Un panel te permite ver y analizar datos de diferentes fuentes en el mismo contexto. Google Cloud proporciona paneles predefinidos y personalizados. Por ejemplo, puedes ver un panel predefinido de Pub/Sub o crear un panel personalizado que muestre datos de métricas, políticas de alertas y entradas de registro relacionadas con Pub/Sub.

Para supervisar tu proyecto de Pub/Sub con Cloud Monitoring, sigue estos pasos:

  1. En la consola de Google Cloud, ve a la página Monitoring.

    Ir a Monitoring

  2. Selecciona el nombre de tu proyecto si aún no está seleccionado en la parte superior de la página.

  3. Haz clic en Paneles en el menú de navegación.

  4. En la página Descripción general de los paneles, crea un panel nuevo o selecciona el panel de Pub/Sub existente.

    Para buscar el panel de Pub/Sub existente, en el filtro Todos los paneles, selecciona la propiedad Nombre y, luego, ingresa Pub/Sub.

Si deseas obtener más información para crear, editar y administrar un panel personalizado, consulta Administra paneles personalizados.

Visualiza una sola métrica de Pub/Sub

Para ver una sola métrica de Pub/Sub con la consola de Google Cloud, sigue estos pasos:

  1. En la consola de Google Cloud, ve a la página Monitoring.

    Ir a Monitoring

  2. En el panel de navegación, selecciona el Explorador de métricas.

  3. En la sección Configuración, haz clic en Seleccionar una métrica.

  4. En el filtro, ingresa Pub/Sub.

  5. En Recursos activos, selecciona Suscripción a Pub/Sub o Tema de Pub/Sub.

  6. Desglosa una métrica específica y haz clic en Aplicar.

    Se abrirá la página de una métrica específica.

Para obtener más información sobre el panel de supervisión, consulta la documentación de Cloud Monitoring.

Visualiza métricas y tipos de recursos de Pub/Sub

Supervisa el uso de la cuota

En un proyecto determinado, puedes usar el panel Cuotas de IAM y administración para ver las cuotas y el uso actuales.

Puedes ver el historial de uso de la cuota con las siguientes métricas:

Estas métricas usan el tipo de recurso supervisado consumer_quota. Para obtener más métricas relacionadas con las cuotas, consulta la Lista de métricas.

Por ejemplo, la siguiente consulta en el lenguaje de consultas de Monitoring crea un gráfico con la fracción de la cuota de publicadores que se usa en cada región:

fetch consumer_quota
| filter resource.service == 'pubsub.googleapis.com'
| { metric serviceruntime.googleapis.com/quota/rate/net_usage
    | filter metric.quota_metric == 'pubsub.googleapis.com/regionalpublisher'
    | align delta_gauge(1m)
    | group_by [metric.quota_metric, resource.location],
        sum(value.net_usage)
  ; metric serviceruntime.googleapis.com/quota/limit
    | filter metric.quota_metric == 'pubsub.googleapis.com/regionalpublisher'
    | group_by [metric.quota_metric, resource.location],
        sliding(1m), max(val()) }
| ratio

Si prevés que tu uso excederá los límites de cuota predeterminados, crea políticas de alertas para todas las cuotas relevantes. Estas alertas se activan cuando el uso alcanza una fracción del límite. Por ejemplo, la siguiente consulta del Lenguaje de consulta de Monitoring activa una política de alertas cuando una cuota de Pub/Sub supera el 80% del uso:

fetch consumer_quota
| filter resource.service == 'pubsub.googleapis.com'
| { metric serviceruntime.googleapis.com/quota/rate/net_usage
    | align delta_gauge(1m)
    | group_by [metric.quota_metric, resource.location],
        sum(value.net_usage)
  ; metric serviceruntime.googleapis.com/quota/limit
    | group_by [metric.quota_metric, resource.location],
        sliding(1m), max(val()) }
| ratio
| every 1m
| condition gt(val(), 0.8 '1')

Para obtener supervisión y alertas más personalizadas sobre las métricas de cuota, consulta Usa métricas de cuota.

Consulta Cuotas y límites para obtener más información sobre las cuotas.

Mantén una suscripción en buen estado

Para mantener una suscripción en buen estado, puedes supervisar varias propiedades de suscripción con las métricas que proporciona Pub/Sub. Por ejemplo, puedes supervisar el volumen de mensajes no confirmados, el vencimiento de los plazos de confirmación de recepción de mensajes, etcétera. También puedes verificar si tu suscripción está en buen estado como para lograr una latencia de entrega de mensajes baja.

Consulta las siguientes secciones para obtener más detalles sobre las métricas específicas.

Supervisar la lista de mensajes pendientes

Para asegurarte de que tus suscriptores sigan el flujo de mensajes, crea un panel. El panel puede mostrar las siguientes métricas de tareas pendientes, agregadas por recurso, para todas tus suscripciones:

Crea políticas de alertas que se activen cuando estos valores estén fuera del rango aceptable en el contexto de tu sistema. Por ejemplo, el número absoluto de mensajes no confirmados no es necesariamente significativo. Un trabajo pendiente de un millón de mensajes puede ser aceptable para una suscripción de un millón de mensajes por segundo, pero inaceptable para una suscripción de un mensaje por segundo.

Problemas comunes de tareas pendientes

Síntomas Problema Soluciones
oldest_unacked_message_age y num_undelivered_messages están creciendo en conjunto. Los suscriptores no le siguen el ritmo al volumen de mensajes.
  • Agrega más subprocesos o procesos de suscriptor.
  • Agrega más máquinas o contenedores de suscriptor.
  • Busca indicios de errores en tu código que impidan que reconozca los mensajes correctamente o los procese de manera oportuna. Consulta Supervisa el vencimiento del plazo de confirmación.
Si se combina un tamaño constante y pequeño de tareas pendientes con un oldest_unacked_message_age que crece de forma constante, es posible que haya algunos mensajes que no se puedan procesar. Los mensajes están atascados.
  • Examina los registros de tu aplicación para comprender si algunos mensajes están haciendo que el código falle. Es poco probable, pero posible, que los mensajes ofensivos queden atascados en Pub/Sub en lugar de en tu cliente. Presenta un caso de asistencia una vez que estés seguro de que tu código procesa correctamente cada mensaje.
  • Si algunos mensajes provocan la falla de tu código, considera reenviarlos a un tema de mensajes no entregados.
La oldest_unacked_message_age supera la duración de retención de mensajes de la suscripción. Existe una pérdida permanente de datos.
  • Configura una alerta que se active antes de que finalice el período de retención de mensajes.

Supervisa el estado de la latencia de entrega

En Pub/Sub, la latencia de entrega es el tiempo que tarda un mensaje publicado en entregarse a un suscriptor. Si las tareas pendientes de mensajes aumentan, puedes usar la puntuación del estado de la latencia de entrega (subscription/delivery_latency_health_score) para verificar qué factores contribuyen al aumento de la latencia.

Esta métrica mide el estado de una sola suscripción en un período de 10 minutos progresivos. La métrica proporciona estadísticas sobre los siguientes criterios, que son necesarios para que una suscripción logre una latencia baja coherente:

  • Solicitudes de búsqueda insignificantes.

  • Mensajes insignificantes y recibidos de forma negativa (sin confirmación).

  • Los plazos para la confirmación de los mensajes vencidos son insignificantes.

  • Latencia de confirmación coherente inferior a 30 segundos.

  • Uso bajo y constante, lo que significa que la suscripción tiene la capacidad adecuada para procesar mensajes nuevos de forma coherente.

La métrica Puntuación del estado de la latencia de entrega informa una puntuación de 0 o 1 para cada uno de los criterios especificados. Una puntuación de 1 indica un estado correcto y una puntuación de 0 indica un mal estado.

  • Solicitudes de búsqueda: Si la suscripción tuvo alguna solicitud de búsqueda en los últimos 10 minutos, la puntuación se establece en 0. Si buscas una suscripción, es posible que los mensajes antiguos se vuelvan a reproducir mucho después de su publicación, lo que aumenta la latencia de entrega.

  • Mensajes con confirmación negativa (correspondiente): Si la suscripción tuvo alguna solicitud de confirmación negativa (nack) en los últimos 10 minutos, la puntuación se establece en 0. Una confirmación negativa hace que un mensaje se vuelva a entregar con una latencia de entrega aumentada.

  • Plazos de confirmación vencidos: Si la suscripción tenía plazos de confirmación de recepción vencidos en los últimos 10 minutos, la puntuación se establece en 0. Los mensajes cuyo plazo de confirmación de recepción venció se vuelven a entregar con una latencia de entrega mayor.

  • Latencias de confirmación: Si el percentil 99.9 de todas las latencias de confirmación en los últimos 10 minutos era mayor que 30 segundos, la puntuación se establece en 0. Una latencia de confirmación alta es una señal de que un cliente suscriptor está tardando mucho tiempo en procesar un mensaje. Esta puntuación podría implicar un error o algunas restricciones de recursos del cliente suscriptor.

  • Uso bajo: El uso se calcula de manera diferente para cada tipo de suscripción.

    • StreamingPull: Si no tienes suficientes transmisiones abiertas, la puntuación se establece en 0. Abre más transmisiones para asegurarte de tener la capacidad adecuada para mensajes nuevos.

    • De envío: Si tienes demasiados mensajes pendientes en tu extremo de envío, la puntuación se establece en 0. Agrega más capacidad a tu extremo de envío para tener capacidad para mensajes nuevos.

    • Extracción: Si no tienes suficientes solicitudes de extracción pendientes, la puntuación se establece en 0. Abre más solicitudes de extracción simultáneas para asegurarte de que tienes todo listo para recibir mensajes nuevos.

Para ver la métrica, en el Explorador de métricas, selecciona la métrica Puntuación del estado de la latencia de entrega como tipo de recurso de suscripción a Pub/Sub. Agrega un filtro para seleccionar solo una suscripción a la vez. Selecciona el Gráfico de áreas apiladas y señala un momento específico para verificar las puntuaciones de los criterios de la suscripción de ese momento.

La siguiente es una captura de pantalla de la métrica trazada para un período de una hora con un gráfico de áreas apiladas. La puntuación de salud combinada sube a 5 a las 4:15 a.m., con una puntuación de 1 para cada criterio. Más adelante, la puntuación combinada disminuye a 4 a las 4:20 a.m., cuando la puntuación de uso desciende a 0.

Captura de pantalla de la métrica de latencia de entrega

El lenguaje de consulta de Monitoring proporciona una interfaz expresiva basada en texto para los datos de series temporales de Cloud Monitoring. Con la siguiente consulta de MQL, se crea un gráfico para medir la puntuación del estado de la latencia de entrega de una suscripción.

fetch pubsub_subscription
| metric 'pubsub.googleapis.com/subscription/delivery_latency_health_score'
| filter (resource.subscription_id == '$SUBSCRIPTION')
| group_by 1m,
   [value_delivery_latency_health_score_sum:
     sum(if(value.delivery_latency_health_score, 1, 0))]
| every 1m

Supervisa el vencimiento del plazo de confirmación

Para reducir la latencia de entrega de mensajes, Pub/Sub permite que los clientes suscriptores tengan una cantidad de tiempo limitada para confirmar (confirmar) un mensaje determinado. Este período se conoce como plazo de confirmación. Si tus suscriptores tardan demasiado en confirmar la recepción de mensajes, estos se vuelven a entregar, lo que provoca que los suscriptores vean mensajes duplicados. Este reintento de publicación puede ocurrir por varios motivos:

  • Tus suscriptores no cuentan con el aprovisionamiento suficiente (necesitas más subprocesos o máquinas).

  • El procesamiento de cada mensaje tarda más que el plazo de confirmación de recepción. Por lo general, las bibliotecas cliente de Cloud extienden el plazo para mensajes individuales hasta un máximo configurable. Sin embargo, un plazo de extensión máxima también está vigente para las bibliotecas.

  • Algunos mensajes generan fallas en el cliente todo el tiempo.

Puedes medir el porcentaje de suscriptores que no cumplen con el plazo de confirmación. La métrica específica depende del tipo de suscripción:

Si la frecuencia con la que no se cumplen los plazos de confirmación es demasiado alta, se pueden generar ineficiencias costosas en tu sistema. Se te cobra por cada entrega nueva y por intento de procesar cada mensaje repetidas veces. Por el contrario, una tasa de vencimiento pequeña (por ejemplo, 0.1% a 1%) podría ser buena.

Supervisa la capacidad de procesamiento de los mensajes

Los suscriptores de extracción y de StreamingPull pueden recibir lotes de mensajes en cada respuesta de extracción. Las suscripciones de envío reciben un solo mensaje en cada solicitud de envío. Puedes supervisar la capacidad de procesamiento de mensajes por lote que procesan tus suscriptores con estas métricas:

Puedes supervisar la capacidad de procesamiento de mensajes individual o sin lotes que procesan tus suscriptores con la métrica subscription/sent_message_count filtrada por la etiqueta delivery_type.

Supervisa las suscripciones de envío

Para las suscripciones de envío, supervisa estas métricas:

  • subscription/push_request_count

    Agrupa la métrica por response_code y subcription_id. Dado que las suscripciones de envío de Pub/Sub usan códigos de respuesta como confirmaciones de mensajes implícitos, es importante supervisar los códigos de respuesta de las solicitudes de envío. Debido a que las suscripciones de envío se interrumpen de manera exponencial cuando se les presentan tiempos de espera o errores, tu conjunto de tareas pendientes puede crecer con rapidez en función de cómo responde tu extremo.

    Considera establecer una alerta para tasas de errores altas, ya que estas tasas generan una entrega lenta y un trabajo pendiente creciente. Puedes crear una métrica filtrada por clase de respuesta. Sin embargo, es probable que los recuentos de solicitudes de envío sean más útiles como herramienta para investigar el tamaño y la antigüedad de la lista creciente de tareas pendientes.

  • subscription/num_outstanding_messages

    Por lo general, Pub/Sub limita la cantidad de mensajes pendientes. Intenta tener menos de 1,000 mensajes pendientes en la mayoría de las situaciones. Una vez que la capacidad de procesamiento alcanza un ritmo de 10,000 mensajes por segundo, el servicio ajusta el límite a la cantidad de mensajes pendientes. Esta limitación se realiza en incrementos de 1,000. No se ofrecen garantías específicas más allá del valor máximo, por lo que 1,000 mensajes pendientes son una buena guía.

  • subscription/push_request_latencies

    Esta métrica te ayuda a comprender la distribución de la latencia de respuesta del extremo de envío. Debido al límite en la cantidad de mensajes pendientes, la latencia del extremo afecta la capacidad de procesamiento de la suscripción. Si se necesitan 100 milisegundos para procesar cada mensaje, tu límite de capacidad de procesamiento es de 10 mensajes por segundo.

Para acceder a límites de mensajes pendientes más altos, los suscriptores de envío deben confirmar más del 99% de los mensajes que reciben.

Puedes calcular la fracción de los mensajes que los suscriptores reconocen mediante el lenguaje de consultas de Monitoring. La siguiente consulta MQL crea un gráfico con la fracción de los mensajes que los suscriptores reconocen sobre una suscripción:

fetch pubsub_subscription
| metric 'pubsub.googleapis.com/subscription/push_request_count'
| filter
    (resource.subscription_id == '$SUBSCRIPTION')
    | filter_ratio_by [], metric.response_class == 'ack'
    | every 1m

Supervisa suscripciones con filtros

Si configuras un filtro en una suscripción, Pub/Sub confirma automáticamente los mensajes que no coinciden con el filtro. Puedes supervisar esta confirmación automática.

Las métricas de tareas pendientes pueden incluir mensajes que no coinciden con el filtro.

Para supervisar la tasa de mensajes confirmados automáticamente que no coinciden con el filtro, usa la métrica subscription/ack_message_count con la etiqueta delivery_type establecida en filter.

Para supervisar la capacidad de procesamiento y el costo de los mensajes confirmados automáticamente que no coinciden con el filtro, usa la métrica subscription/byte_cost con la etiqueta operation_type establecida en filter_drop. Para obtener más información sobre las tarifas de estos mensajes, consulta la página de precios de Pub/Sub.

Supervisa los mensajes reenviados que no se pueden entregar

Para supervisar los mensajes no entregables que Pub/Sub reenvía a un tema de mensajes no entregados, usa la métrica subscription/dead_letter_message_count. En esta métrica, se muestra la cantidad de mensajes que no se pueden entregar y que Pub/Sub reenvía desde una suscripción.

Para verificar que Pub/Sub esté reenviando mensajes que no se pueden entregar, puedes comparar la métrica subscription/dead_letter_message_count con la métrica topic/send_request_count. Realiza la comparación del tema de mensajes no entregados al que Pub/Sub reenvía estos mensajes.

También puedes adjuntar una suscripción al tema de mensajes no entregados y, luego, supervisar los mensajes que no se pueden entregar en esta suscripción mediante las siguientes métricas:

Mantén un publicador en buen estado

El objetivo principal de un publicador es conservar los datos de los mensajes con rapidez. Supervisa este rendimiento con topic/send_request_count, agrupado por response_code. Esta métrica te indica si Pub/Sub está en buen estado y si acepta solicitudes.

Una tasa en segundo plano de errores que se pueden intentar nuevamente (inferior al 1%) no es motivo de preocupación, ya que la mayoría de las bibliotecas cliente de Cloud reintentan las fallas de los mensajes. Investiga tasas de error superiores al 1%. Como tu aplicación administra los códigos que no se pueden reintentar (en lugar de la biblioteca cliente), debes examinar los códigos de respuesta. Si tu aplicación de publicador no cuenta con una forma adecuada de indicar si un publicador está en mal estado, considera establecer una alerta en la métrica topic/send_request_count.

Es igualmente importante realizar un seguimiento de las solicitudes de publicación con errores en tu cliente de publicación. Si bien, por lo general, las bibliotecas cliente vuelven a intentar realizar las solicitudes con errores, no garantizan su publicación. Consulta Publica mensajes para conocer las formas de detectar fallas de publicación permanentes cuando usas las bibliotecas cliente de Cloud. Como mínimo, tu aplicación de publicador debe registrar errores de publicación permanentes. Si registras esos errores en Cloud Logging, puedes configurar una métrica basada en registros con una política de alertas.

Supervisa la capacidad de procesamiento de los mensajes

Los publicadores pueden enviar mensajes en lotes. Puedes supervisar la capacidad de procesamiento de mensajes que envían tus publicadores con estas métricas:

  • topic/send_request_count: El volumen de mensajes por lotes que envían los publicadores.

  • Un recuento de topic/message_sizes: El volumen de mensajes individuales (sin lotes) que envían los publicadores.

    Puedes calcular un recuento de los mensajes que se envían si aplicas un agregador de recuento a esta métrica o si usas el lenguaje de consulta de Monitoring. La siguiente consulta de MQL crea un gráfico con la tasa de mensajes individuales enviados sobre un tema:

    fetch pubsub_topic
    | metric 'pubsub.googleapis.com/topic/message_sizes'
    | filter
        (resource.topic_id == '$TOPIC')
    | align delta(1m)
    | every 1m
    | group_by [], [row_count: row_count()]
    

¿Qué sigue?

  • Si quieres crear una alerta para una métrica específica, consulta Administra políticas de alertas basadas en métricas.

  • Si deseas obtener más información sobre el uso de MQL para crear gráficos de supervisión, visita Usa el Editor de consultas.

  • Si deseas obtener más información sobre los recursos de la API para la API de Monitoring, como las métricas, los recursos supervisados, los grupos de recursos supervisados y las políticas de alertas, consulta Recursos de la API.