En este documento, se proporciona una descripción general de los servicios que ofrece Cloud Monitoring. Estos servicios pueden ayudarte a comprender el comportamiento, el estado y el rendimiento de tus aplicaciones y de otros servicios de Google Cloud. Cloud Monitoring recopila y almacena automáticamente la información de rendimiento para la mayoría de los servicios de Google Cloud. Puedes recopilar métricas de Prometheus con Google Cloud Managed Service para Prometheus. Si instalas el Agente de operaciones en tus máquinas virtuales (VM) de Compute Engine, puedes recopilar métricas y registros de tus aplicaciones y de aplicaciones de terceros.
Los servicios de alertas, pruebas y visualización que proporciona Cloud Monitoring te ayudan a responder preguntas importantes, como las siguientes:
- ¿Cuál es la carga de mi servicio?
- ¿Mi sitio web responde correctamente?
- ¿Mi servicio funciona bien?
Cloud Monitoring proporciona compatibilidad con la consola de Google Cloud y la API para la mayoría de
sus servicios. Algunos servicios también admiten Google Cloud CLI o
Terraform. Las páginas de referencia de la API de Cloud Monitoring, como la página
alertPolicies.list
,
te permiten experimentar con llamadas a la API directamente desde la página de referencia.
Servicios de Cloud Monitoring
Cloud Monitoring proporciona diferentes servicios que puedes usar para comprender el estado y el rendimiento de tus aplicaciones y de los otros servicios de Google Cloud que usas.
Alertas y notificaciones
Para recibir notificaciones cuando el valor de una métrica de rendimiento cumpla con los criterios que defines, crea una política de alertas. La política de alertas incluye la lista de personas o grupos que recibirán notificaciones. Monitoring admite canales de notificación comunes como el correo electrónico, Cloud Mobile App y servicios como PagerDuty o Slack. Por ejemplo, puedes crear una política de alertas cuando el uso de CPU de una VM supera el 80%.
Cada notificación incluye información relevante sobre una falla, y incluye un vínculo a un incidente. Un incidente es un registro persistente que almacena información útil para solucionar el problema. Por lo general, un registro enumera el estado del incidente, vínculos a registros y un gráfico de la métrica registrada los datos, las etiquetas y la duración.
El servicio de alertas está integrado en muchos servicios de Google Cloud. Cuando existen estas integraciones, es posible que veas un panel que enumere las alertas recomendadas o que veas un botón en un gráfico que te permita crear una política de alertas. En ambos casos, las políticas de alertas están preconfiguradas solo debes especificar la lista de personas o grupos a los que deseas notificar.
Puedes crear y administrar políticas de alertas con la consola de Google Cloud, la API de Cloud Monitoring, Google Cloud CLI o Terraform.
Supervisión y validación proactivas
Para probar la disponibilidad, la coherencia y el rendimiento de tus servicios, aplicaciones, páginas web y APIs, crea monitores sintéticos. Por ejemplo: puedes sondear extremos HTTP, HTTPS y TCP para determinar si son de respuesta con verificaciones de tiempo de actividad y recibirás una notificación o extremo no responde. También puedes crear un verificador de vínculos rotos para rastrear una página web y, luego, notificarte cuando se detecten vínculos rotos.
Puedes crear y administrar monitores sintéticos con la consola de Google Cloud, la API de Cloud Monitoring, Google Cloud CLI o Terraform.
Visualización de datos
Para visualizar tus datos, ver tendencias, identificar valores atípicos y ver otras más detalles sobre tus datos, puedes usar el servicios de panel y gráficos:
El servicio de panel crea automáticamente Panel administrado por Google Cloud cuando agregues un recurso a tu proyecto de Google Cloud. Por ejemplo, se crea un panel cuando creas una instancia de Compute Engine, una política de alertas o un monitor sintético. Puedes usar estas paneles para ver información de rendimiento y configuración, como el uso del disco o la dirección IP, y a ver eventos.
Para controlar qué datos ves y el formato de visualización de esos datos, crea un panel personalizado. Por ejemplo, puedes importar un panel de Grafana o instalar un panel desde una plantilla. Tus paneles personalizados pueden mostrar gráficos, tablas, registros y grupos de errores, incidentes y políticas de alertas, y texto. También puedes compartir paneles personalizados con otras personas grupos en tu organización y configurar estos paneles para mostrar eventos.
Puedes crear y administrar paneles con la consola de Google Cloud o la API.
El servicio de gráficos, Explorador de métricas, te permite visualizar y explorar rápidamente los datos de series temporales. La configuración del gráfico te permiten comparar los datos actuales con los anteriores, mostrar valores atípicos y y muestran varias métricas. También puedes guardar gráficos en un panel personalizado.
Recopilación y almacenamiento de datos
Cloud Monitoring recopila y almacena los siguientes tipos de datos de métricas:
- Métricas del sistema que generan los servicios de Google Cloud Estas métricas proporcionan información sobre cómo opera un servicio.
- Métricas del sistema y de la aplicación que el Agente de operaciones recopila sobre los recursos del sistema y las aplicaciones que se ejecutan en instancias de Compute Engine. Puedes configurar el Agente de operaciones para recopilar métricas de complementos de terceros, como como servidores web Apache o Nginx, o bases de datos de MongoDB o PostgreSQL.
Las métricas definidas por el usuario creadas por con la API de Cloud Monitoring o un como OpenTelemetry.
Métricas externas definidas por algunos recursos de código abierto. bibliotecas o proveedores de terceros.
Métricas de Prometheus que recopila Google Cloud Managed Service para Prometheus o con el agente de operaciones y el receptor de Prometheus o el receptor de OTLP
- Métricas basadas en registros que registran información numérica sobre los registros escritos en Cloud Logging. Las métricas basadas en registros definidas por Google incluyen recuentos de los errores que detecta tu servicio y la cantidad total de entradas de registro que recibe tu proyecto de Google Cloud. También puedes definir métricas basadas en registros.
Lenguajes de consulta
Cuando creas una política de alertas o un gráfico, debes proporcionar una consulta que describa los datos que deseas supervisar o graficar:
Consola de Google Cloud: Puedes crear tu consulta seleccionando opciones de los menús o escribir una consulta. Hay editores de consultas disponibles para Prometheus Query Language (PromQL) y el Lenguaje de consulta de Monitoring (MQL). Los editores de consultas proporcionar verificaciones de sintaxis y sugerencias. También puedes escribir una expresión de Monitoring filter
API de Cloud Monitoring: La API admite y Prometheus Query Language (PromQL), MQL y Monitoring.
Supervisa sistemas grandes
En esta sección, se describe cómo puedes administrar recursos como un de datos y cómo puedes supervisar las métricas almacenadas en varios proyectos de Google Cloud.
Administra recursos como una colección
Administrar tus recursos como una colección en lugar de individualmente, crea un grupo de recursos. Un grupo de recursos es una colección dinámica de recursos que cumplen con algunos criterios que proporcionas. A medida que agregas y quitas recursos, por ejemplo, agregando instancias de VM de Compute Engine a tu proyecto de Google Cloud, la membresía del grupo cambia automáticamente. Los siguientes son ejemplos de grupos de recursos:
- Instancias de Compute Engine cuyos nombres comienzan con la cadena
prod-
- Recursos con la etiqueta
test-cluster
- Instancias de Amazon EC2 en la región A o la región B.
Después de que defines un grupo de recursos, Puedes supervisar el grupo como si fuera un solo recurso. Por ejemplo, Puedes configurar una verificación de tiempo de actividad para supervisar un grupo de recursos. Para los gráficos y las políticas de alertas, también puedes filtrar según el nombre del grupo.
Para obtener más información, consulta Configura grupos de recursos.
Supervisa las métricas de varios proyectos de Google Cloud
Para ver y supervisar los datos de series temporales de varios proyectos de Google Cloud y cuentas de AWS a través de una única interfaz, configurar un permiso de métricas de varios proyectos
De forma predeterminada, las páginas de Cloud Monitoring en la consola de Google Cloud solo proporcionan acceso a las series temporales almacenadas en el proyecto de alcance. El proyecto de alcance es el que seleccionaste con el selector de proyectos de la consola de Google Cloud. El proyecto de alcance almacena las alertas, los monitores sintéticos, los paneles y los grupos de supervisión que configures.
El proyecto de permisos también aloja un permiso de métricas. El permiso de métricas define los proyectos y las cuentas cuyas métricas se visibles para el proyecto de permisos. Puedes configurar los permisos de métricas incluir datos de series temporales de otros proyectos de Google Cloud y de Cuentas de AWS Si deseas obtener información para modificar un permiso de métricas, consulta Configura un permiso de métricas para varios proyectos.
Modelo de datos de Cloud Monitoring
En esta sección, se presenta el modelo de datos de Cloud Monitoring:
Un tipo de métrica describe algo que es medir. Algunos ejemplos de tipos de métricas incluyen el uso de CPU de una VM y el porcentaje de un disco que se usa.
Una serie temporal es una estructura de datos que contiene mediciones de una métrica con marca de tiempo, así como información sobre la fuente y el significado de esas mediciones.
Estos son algunos detalles sobre lo que contiene una serie temporal:
El array
points
contiene las medidas con marca de tiempo.El siguiente es un ejemplo de un array
points
con dos valores:"points": [ { "interval": { "startTime": "2020-07-27T20:20:21.597143Z", "endTime": "2020-07-27T20:20:21.597143Z" }, "value": { "doubleValue": 0.473005 } }, { "interval": { "startTime": "2020-07-27T20:19:21.597239Z", "endTime": "2020-07-27T20:19:21.597239Z" }, "value": { "doubleValue": 0.473025 } }, ],
Para comprender el significado de un valor, debes consultar los otros datos incluidos en las series temporales y las definiciones de esos datos.
El campo
resource
describe el componente de hardware o software que se supervisa. En Cloud Monitoring, el hardware o software se conoce como el recurso supervisado. Algunos ejemplos de recursos supervisados son las instancias de Compute Engine y las aplicaciones de App Engine. Para obtener una lista de los recursos supervisados, consulta la Lista de recursos supervisados.El siguiente es un ejemplo de un campo
resource
:"resource": { "type": "gce_instance", "labels": { "instance_id": "2708613220420473591", "zone": "us-east1-b", "project_id": "sampleproject" } }
El campo
type
enumera el recurso supervisado comogce_instance
, lo que indica que estas mediciones se realizan en una instancia de VM de Compute Engine.El campo
labels
contiene pares clave-valor que proporcionan información sobre el recurso supervisado. Para un tipogce_instance
, las etiquetas identifican la instancia de VM que se supervisa.
El campo
metric
describe lo que se mide.El siguiente es un ejemplo de un campo
metric
:"metric": { "labels": { "instance_name": "test" }, "type": "compute.googleapis.com/instance/cpu/utilization" },
- En el caso de los servicios de Google Cloud, el campo
type
especifica el servicio y lo que se supervisa. En este ejemplo, el servicio de Compute Engine para medir el uso de CPU. Cuando el campotype
comienza concustom
oexternal
, la métrica es personalizada o definida por un tercero.
- El campo
labels
contiene pares clave-valor que proporcionan información adicional sobre las mediciones. Estas etiquetas se definen como parte de elMetricDescriptor
, que es una estructura de datos que define los atributos de los datos medidos. ElMetricDescriptor
de la métricacompute.googleapis.com/instance/cpu/utilization
incluye la etiquetainstance_name
.
- En el caso de los servicios de Google Cloud, el campo
El campo
metricKind
describe la relación entre medidas adyacentes dentro de una serie temporal:Las métricas
GAUGE
almacenan el valor de lo que se mide en un momento determinado, por ejemplo, un registro de temperatura por hora.Las métricas
CUMULATIVE
almacenan el valor acumulado de lo que se mide en un momento determinado, por ejemplo, un odómetro en un vehículo.Las métricas de
DELTA
almacenan el cambio en el valor del elemento que se medido durante un período específico, por ejemplo, una acción que muestra las ganancias o pérdidas de la acción.
El campo
valueType
describe el tipo de datos para la medición:INT64
,DOUBLE
,BOOL
,STRING
, oDISTRIBUTION
.
- Puedes mostrar el uso de CPU de cada instancia de VM.
- Para mostrar el uso de la CPU de una instancia de VM específica, puedes
filtrar las series temporales por un solo valor de la etiqueta
instance_id
. Puedes agrupar las instancias de VM por la etiqueta
machine_type
y, luego, mostrar el uso de CPU promedio. La siguiente captura de pantalla se ilustra un gráfico con esta configuración:
Precios
En general, las métricas del sistema de Cloud Monitoring son gratuitas, mientras que las métricas de sistemas, agentes o aplicaciones externos no lo son. Las métricas facturables son se factura según la cantidad de bytes o de muestras transferidas.
Para obtener más información sobre los precios de Cloud Monitoring, consulta los siguientes documentos:
¿Qué sigue?
- Para explorar Cloud Monitoring, prueba el Guía de inicio rápido para supervisar una instancia de Compute Engine.
- Para obtener información sobre cómo configurar nuestro proyecto de Google Cloud para ver las métricas de varios proyectos de Google Cloud y cuentas de AWS, consulta Descripción general de los permisos de métricas.
Para obtener más información sobre el modelo de datos de Cloud Monitoring, consulta Métricas, series temporales y recursos.
Para obtener información sobre la API de Cloud Monitoring, consulta APIs y referencias.
Para las listas de métricas y recursos supervisados, consulta la lista de métricas y la Lista de recursos supervisados.