此页面由 Cloud Translation API 翻译。

Dataproc 指标

Cloud Monitoring 可帮助您了解云应用的性能、正常运行时间和整体运行状况。Google Cloud Observability 会收集并提取指标、事件、以及来自 Dataproc 集群的元数据（包括每个集群） HDFS、YARN、作业和运营指标，用于通过信息中心生成数据分析和图表（请参阅 Cloud Monitoring Dataproc 指标）。

如需了解费用，请参阅 Cloud Monitoring 价格。
如需了解指标数据保留，请参阅 Monitoring 配额和上限。

Dataproc 资源指标收集

Cloud Monitoring 会收集与以下 Dataproc 相关的指标资源：

Cloud Dataproc 集群
Cloud Dataproc 作业
Cloud Dataproc 批量
Cloud Dataproc 会话

系统会按以下格式收集 Dataproc 资源指标： dataproc.googleapis.com/RESOURCE/METRIC, 并包含多个开源软件指标的集合。

查看 Dataproc 资源指标

您可以在 Metrics Explorer 中选择和查看 Dataproc 资源指标，具体方法是：在 Filter by resource or metric name 框中输入“dataproc”，然后选择“Cloud Dataproc”资源。

自定义指标集合

创建 Dataproc 集群时，您可以启用指标收集功能来自一个或多个自定义指标来源的数据系统会收集一组标准指标来自每个已启用的指标来源的数据，除非您指定要收集的指标来自指标来源的数据（用户指定的指标称为指标“替换值”）。

系统会采用以下格式收集自定义 OSS 指标：custom.googleapis.com/OSS_COMPONENT/METRIC

自定义 OSS 指标示例：

custom.googleapis.com/spark/driver/DAGScheduler/job/allJobs
custom.googleapis.com/hiveserver2/memory/MaxNonHeapMemory

启用自定义指标收集

您可以使用 gcloud CLI 或 Dataproc API 来启用来自一个或多个指标来源的自定义指标。

gcloud CLI

自定义指标收集

使用 gcloud dataproc clusters create --metric-sources 标志用于启用自定义指标来自一个或多个指标来源的数据

gcloud dataproc clusters create cluster-name \
    --metric-sources=METRIC_SOURCE(s) \
    ... other flags

注意：

--metric-sources：如需启用自定义指标收集功能，则为必需。指定以下一个或多个指标来源： spark, flink, hdfs, yarn, spark-history-server, hiveserver2, hivemetastore和 monitoring-agent-defaults。指标来源名称不区分大小写，例如，“yarn”或 “YARN”可接受的值。
除非安装了 Ops Agent，否则 2.2 映像版本集群中不提供 monitoring-agent-defaults。

替换指标收集

（可选）添加 --metric-overrides 或 --metric-overrides-file 标记以允许收集一个或多个自定义指标来自一个或多个指标来源的数据

任何自定义指标以及所有 Spark 指标、可作为指标替换值列出以进行收集。替换指标值区分大小写，并且必须采用驼峰式格式（如果适用）。
示例：
- sparkHistoryServer:JVM:Memory:NonHeapMemoryUsage.committed
- hiveserver2:JVM:Memory:NonHeapMemoryUsage.used
- yarn:ResourceManager:JvmMetrics:MemHeapMaxM
系统只会从指定的指标来源。例如，如果有一个或多个 spark:executive 指标，列为指标替换值，其他SPARK指标将不会。从其他指标来源收集自定义指标不受影响。例如，如果同时启用了 SPARK 和 YARN 指标源，并且仅为 Spark 指标提供了替换项，则系统会收集一组已启用的标准 YARN 指标。
必须启用指定指标替换值的来源。例如，如果将一个或多个 spark:driver 指标作为指标替换项提供，则必须启用 spark 指标源 (--metric-sources=spark)。

替换指标列表

gcloud dataproc clusters create cluster-name \
    --metric-sources=METRIC_SOURCE(s) \
    --metric-overrides=LIST_OF_METRIC_OVERRIDES \
    ... other flags

注意：

--metric-sources：如需启用自定义指标收集功能，则为必需。指定以下一个或多个指标来源： spark, flink, hdfs, yarn, spark-history-server, hiveserver2, hivemetastore和 monitoring-agent-defaults。指标来源名称不区分大小写，例如，“yarn”或 “YARN”可接受的值。
--metric-overrides：按以下格式提供指标列表：
METRIC_SOURCE:INSTANCE:GROUP:METRIC

示例：--metric-overrides=sparkHistoryServer:JVM:Memory:NonHeapMemoryUsage.committed

此标志是 --metric-overrides-file 标志的替代标志，不能与 --metric-overrides-file 标志搭配使用。

替换指标文件

gcloud dataproc clusters create cluster-name \
    --metric-sources=METRIC-SOURCE(s) \
    --metric-overrides-file=METRIC_OVERRIDES_FILENAME \
    ... other flags

注意：

--metric-sources：如需启用自定义指标收集功能，则为必需。指定以下一个或多个指标来源： spark, flink, hdfs, yarn, spark-history-server, hiveserver2, hivemetastore和 monitoring-agent-defaults。指标来源名称不区分大小写，例如，“yarn”或“YARN”均可接受。
--metric-overrides-file：指定本地存储或 Cloud Storage 文件 (gs://bucket/filename)，其中包含一个或多个指标，格式如下：
METRIC_SOURCE:INSTANCE:GROUP:METRIC
请视情况使用驼峰式大小写格式。

示例：
- --metric-overrides-file=gs://my-bucket/my-filename.txt
- --metric-overrides-file=./local-directory/local-filename.txt
  此标志是的替代选项，不能用于 --metric-overrides 标志。

REST API

使用 DataprocMetricConfig 作为 clusters.create 请求以启用自定义指标收集。注意： monitoring-agent-defaults 除非 Ops Agent 。

查看自定义指标

您可以在 Metrics Explorer 中选择和查看 Dataproc 资源指标，具体方法是选择 VM Instance 资源，然后选择 Custom metrics。

自定义指标

您可以启用 Dataproc 来收集下表中列出的自定义指标。

如果在您启用关联的指标来源后，Dataproc 收集了指标，已启用的指标列会被标记为“y”。
针对某个指标来源列出的任意指标，以及所有 Spark 指标），可以启用收集（请参阅启用自定义指标收集）。
Dataproc 使用监控代理来收集指标。启用任何指标源都会启用代理指标的收集。这些指标不会向用户收费；Dataproc 使用它们来诊断指标收集问题。

Hadoop 指标

HDFS 指标

指标	Metrics Explorer 名称	已启用的指标
hdfs:NameNode:FSNamesystem:CapacityTotalGB	dfs/FSNamesystem/CapacityTotalGB	y
hdfs:NameNode:FSNamesystem:CapacityUsedGB	dfs/FSNamesystem/CapacityUsedGB	y
hdfs:NameNode:FSNamesystem:CapacityRemainingGB	dfs/FSNamesystem/CapacityRemainingGB	y
hdfs:NameNode:FSNamesystem:FilesTotal	dfs/FSNamesystem/FilesTotal	y
hdfs:NameNode:FSNamesystem:MissingBlocks	dfs/FSNamesystem/MissingBlocks	n
hdfs:NameNode:FSNamesystem:ExpiredHeartbeats	dfs/FSNamesystem/ExpiredHeartbeats	n
hdfs:NameNode:FSNamesystem:TransactionsSinceLastCheckpoint	dfs/FSNamesystem/TransactionsSinceLastCheckpoint	n
hdfs:NameNode:FSNamesystem:TransactionsSinceLastLogRoll	dfs/FSNamesystem/TransactionsSinceLastLogRoll	n
hdfs:NameNode:FSNamesystem:LastWrittenTransactionId	dfs/FSNamesystem/LastWrittenTransactionId	n
hdfs:NameNode:FSNamesystem:CapacityTotal	dfs/FSNamesystem/CapacityTotal	n
hdfs:NameNode:FSNamesystem:CapacityUsed	dfs/FSNamesystem/CapacityUsed	n
hdfs:NameNode:FSNamesystem:CapacityRemaining	dfs/FSNamesystem/CapacityRemaining	n
hdfs:NameNode:FSNamesystem:CapacityUsedNonDFS	dfs/FSNamesystem/CapacityUsedNonDFS	n
hdfs:NameNode:FSNamesystem:TotalLoad	dfs/FSNamesystem/TotalLoad	n
hdfs:NameNode:FSNamesystem:SnapshottableDirectories	dfs/FSNamesystem/SnapshottableDirectories	n
hdfs:NameNode:FSNamesystem:Snapshots	dfs/FSNamesystem/Snapshots	n
hdfs:NameNode:FSNamesystem:BlocksTotal	dfs/FSNamesystem/BlocksTotal	n
hdfs:NameNode:FSNamesystem:PendingReplicationBlocks	dfs/FSNamesystem/PendingReplicationBlocks	n
hdfs:NameNode:FSNamesystem:UnderReplicatedBlocks	dfs/FSNamesystem/UnderReplicatedBlocks	n
hdfs:NameNode:FSNamesystem:CorruptBlocks	dfs/FSNamesystem/CorruptBlocks	n
hdfs:NameNode:FSNamesystem:ScheduledReplicationBlocks	dfs/FSNamesystem/ScheduledReplicationBlocks	n
hdfs:NameNode:FSNamesystem:PendingDeletionBlocks	dfs/FSNamesystem/PendingDeletionBlocks	n
hdfs:NameNode:FSNamesystem:ExcessBlocks	dfs/FSNamesystem/ExcessBlocks	n
hdfs:NameNode:FSNamesystem:PostponedMisreplicatedBlocks	dfs/FSNamesystem/PostponedMisreplicatedBlocks	n
hdfs:NameNode:FSNamesystem:PendingDataNodeMessageCourt	dfs/FSNamesystem/PendingDataNodeMessageCourt	n
hdfs:NameNode:FSNamesystem:MillisSinceLastLoadedEdits	dfs/FSNamesystem/MillisSinceLastLoadedEdits	n
hdfs:NameNode:FSNamesystem:BlockCapacity	dfs/FSNamesystem/BlockCapacity	n
hdfs:NameNode:FSNamesystem:StaleDataNodes	dfs/FSNamesystem/StaleDataNodes	n
hdfs:NameNode:FSNamesystem:TotalFiles	dfs/FSNamesystem/TotalFiles	n
hdfs:NameNode:JvmMetrics:MemHeapUsedM	dfs/jvm/MemHeapUsedM	n
hdfs:NameNode:JvmMetrics:MemHeapCommittedM	dfs/jvm/MemHeapCommittedM	n
hdfs:NameNode:JvmMetrics:MemHeapMaxM	dfs/jvm/MemHeapMaxM	n
hdfs:NameNode:JvmMetrics:MemMaxM	dfs/jvm/MemMaxM	n

YARN 指标

指标	Metrics Explorer 名称	已启用的指标
yarn:ResourceManager:ClusterMetrics:NumActiveNMs	yarn/ClusterMetrics/NumActiveNMs	y
yarn:ResourceManager:ClusterMetrics:NumDecommissionedNMs	yarn/ClusterMetrics/NumDecommissionedNMs	n
yarn:ResourceManager:ClusterMetrics:NumLostNMs	yarn/ClusterMetrics/NumLostNMs	n
yarn:ResourceManager:ClusterMetrics:NumUnhealthyNMs	yarn/ClusterMetrics/NumUnhealthyNMs	n
yarn:ResourceManager:ClusterMetrics:NumRebootedNMs	yarn/ClusterMetrics/NumRebootedNMs	n
yarn:ResourceManager:QueueMetrics:running_0	yarn/QueueMetrics/running_0	y
yarn:ResourceManager:QueueMetrics:running_60	yarn/QueueMetrics/running_60	y
yarn:ResourceManager:QueueMetrics:running_300	yarn/QueueMetrics/running_300	y
yarn:ResourceManager:QueueMetrics:running_1440	yarn/QueueMetrics/running_1440	y
yarn:ResourceManager:QueueMetrics:AppsSubmitted	yarn/QueueMetrics/AppsSubmitted	y
yarn:ResourceManager:QueueMetrics:AvailableMB	yarn/QueueMetrics/AvailableMB	y
yarn:ResourceManager:QueueMetrics:PendingContainers	yarn/QueueMetrics/PendingContainers	y
yarn:ResourceManager:QueueMetrics:AppsRunning	yarn/QueueMetrics/AppsRunning	n
yarn:ResourceManager:QueueMetrics:AppsPending	yarn/QueueMetrics/AppsPending	n
yarn:ResourceManager:QueueMetrics:AppsCompleted	yarn/QueueMetrics/AppsCompleted	n
yarn:ResourceManager:QueueMetrics:AppsKilled	yarn/QueueMetrics/AppsKilled	n
yarn:ResourceManager:QueueMetrics:AppsFailed	yarn/QueueMetrics/AppsFailed	n
yarn:ResourceManager:QueueMetrics:AllocatedMB	yarn/QueueMetrics/AllocatedMB	n
yarn:ResourceManager:QueueMetrics:AllocatedVCores	yarn/QueueMetrics/AllocatedVCores	n
yarn:ResourceManager:QueueMetrics:AllocatedContainers	yarn/QueueMetrics/AllocatedContainers	n
yarn:ResourceManager:QueueMetrics:AggregateContainersAllocated	yarn/QueueMetrics/AggregateContainersAllocated	n
yarn:ResourceManager:QueueMetrics:AggregateContainersReleased	yarn/QueueMetrics/AggregateContainersReleased	n
yarn:ResourceManager:QueueMetrics:AvailableVCores	yarn/QueueMetrics/AvailableVCores	n
yarn:ResourceManager:QueueMetrics:PendingMB	yarn/QueueMetrics/PendingMB	n
yarn:ResourceManager:QueueMetrics:PendingVCores	yarn/QueueMetrics/PendingVCores	n
yarn:ResourceManager:QueueMetrics:ReservedMB	yarn/QueueMetrics/ReservedMB	n
yarn:ResourceManager:QueueMetrics:ReservedVCores	yarn/QueueMetrics/ReservedVCores	n
yarn:ResourceManager:QueueMetrics:ReservedContainers	yarn/QueueMetrics/ReservedContainers	n
yarn:ResourceManager:QueueMetrics:ActiveUsers	yarn/QueueMetrics/ActiveUsers	n
yarn:ResourceManager:QueueMetrics:ActiveApplications	yarn/QueueMetrics/ActiveApplications	n
yarn:ResourceManager:QueueMetrics:FairShareMB	yarn/QueueMetrics/FairShareMB	n
yarn:ResourceManager:QueueMetrics:FairShareVCores	yarn/QueueMetrics/FairShareVCores	n
yarn:ResourceManager:QueueMetrics:MinShareMB	yarn/QueueMetrics/MinShareMB	n
yarn:ResourceManager:QueueMetrics:MinShareVCores	yarn/QueueMetrics/MinShareVCores	n
yarn:ResourceManager:QueueMetrics:MaxShareMB	yarn/QueueMetrics/MaxShareMB	n
yarn:ResourceManager:QueueMetrics:MaxShareVCores	yarn/QueueMetrics/MaxShareVCores	n
yarn:ResourceManager:JvmMetrics:MemHeapUsedM	yarn/jvm/MemHeapUsedM	n
yarn:ResourceManager:JvmMetrics:MemHeapCommittedM	yarn/jvm/MemHeapCommittedM	n
yarn:ResourceManager:JvmMetrics:MemHeapMaxM	yarn/jvm/MemHeapMaxM	n
yarn:ResourceManager:JvmMetrics:MemMaxM	yarn/jvm/MemMaxM	n

Spark 指标

Spark 驱动程序指标

指标	Metrics Explorer 名称	已启用的指标
spark:driver:BlockManager:disk.diskSpaceUsed_MB	spark/driver/BlockManager/disk/diskSpaceUsed_MB	y
spark:driver:BlockManager:memory.maxMem_MB	spark/driver/BlockManager/memory/maxMem_MB	y
spark:driver:BlockManager:memory.memUsed_MB	spark/driver/BlockManager/memory/memUsed_MB	y
spark:driver:DAGScheduler:job.allJobs	spark/driver/DAGScheduler/job/allJobs	y
spark:driver:DAGScheduler:stage.failedStages	spark/driver/DAGScheduler/stage/failedStages	y
spark:driver:DAGScheduler:stage.waitingStages	spark/driver/DAGScheduler/stage/waitingStages	y

Spark Executor 指标

指标	Metrics Explorer 名称	已启用的指标
spark:executor:executor:bytesRead	spark/executor/bytesRead	y
spark:executor:executor:bytesWritten	spark/executor/bytesWritten	y
spark:executor:executor:cpuTime	spark/executor/cpuTime	y
spark:executor:executor:diskBytesSpilled	spark/executor/diskBytesSpilled	y
spark:executor:executor:recordsRead	spark/executor/recordsRead	y
spark:executor:executor:recordsWritten	spark/executor/recordsWritten	y
spark:executor:executor:runTime	spark/executor/runTime	y
spark:executor:executor:shuffleRecordsRead	spark/executor/shuffleRecordsRead	y
spark:executor:executor:shuffleRecordsWritten	spark/executor/shuffleRecordsWritten	y

Flink 指标

指标	Metrics Explorer 名称	已启用的指标
flink:jobmanager:numRegisteredTaskManagers	flink/jobmanager/numRegisteredTaskManagers	n
flink:jobmanager:numRunningJobs	flink/jobmanager/numRunningJobs	n
flink:jobmanager:Status.JVM.ClassLoader.ClassesLoaded	flink/jobmanager/Status.JVM.ClassLoader.ClassesLoaded	n
flink:jobmanager:Status.JVM.ClassLoader.ClassesUnloaded	flink/jobmanager/Status.JVM.ClassLoader.ClassesUnloaded	n
flink:jobmanager:Status.JVM.CPU.Load	flink/jobmanager/Status.JVM.CPU.Load	n
flink:jobmanager:Status.JVM.CPU.Time	flink/jobmanager/Status.JVM.CPU.Time	y
flink:jobmanager:Status.JVM.GarbageCollector.PSMarkSweep.Count	flink/jobmanager/Status.JVM.GarbageCollector.PSMarkSweep.Count	n
flink:jobmanager:Status.JVM.GarbageCollector.PSMarkSweep.Time	flink/jobmanager/Status.JVM.GarbageCollector.PSMarkSweep.Time	n
flink:jobmanager:Status.JVM.GarbageCollector.PSScavenge.Count	flink/jobmanager/Status.JVM.GarbageCollector.PSScavenge.Count	n
flink:jobmanager:Status.JVM.GarbageCollector.PSScavenge.Time	flink/jobmanager/Status.JVM.GarbageCollector.PSScavenge.Time	n
flink:jobmanager:Status.JVM.Memory.Direct.Count	flink/jobmanager/Status.JVM.Memory.Direct.Count	y
flink:jobmanager:Status.JVM.Memory.Direct.MemoryUsed	flink/jobmanager/Status.JVM.Memory.Direct.MemoryUsed	y
flink:jobmanager:Status.JVM.Memory.Direct.TotalCapacity	flink/jobmanager/Status.JVM.Memory.Direct.TotalCapacity	y
flink:jobmanager:Status.JVM.Memory.Heap.Committed	flink/jobmanager/Status.JVM.Memory.Heap.Committed	y
flink:jobmanager:Status.JVM.Memory.Heap.Max	flink/jobmanager/Status.JVM.Memory.Heap.Max	y
flink:jobmanager:Status.JVM.Memory.Heap.Used	flink/jobmanager/Status.JVM.Memory.Heap.Used	y
flink:jobmanager:Status.JVM.Memory.Mapped.Count	flink/jobmanager/Status.JVM.Memory.Mapped.Count	y
flink:jobmanager:Status.JVM.Memory.Mapped.MemoryUsed	flink/jobmanager/Status.JVM.Memory.Mapped.MemoryUsed	y
flink:jobmanager:Status.JVM.Memory.Mapped.TotalCapacity	flink/jobmanager/Status.JVM.Memory.Mapped.TotalCapacity	y
flink:jobmanager:Status.JVM.Memory.Metaspace.Committed	flink/jobmanager/Status.JVM.Memory.Metaspace.Committed	n
flink:jobmanager:Status.JVM.Memory.Metaspace.Max	flink/jobmanager/Status.JVM.Memory.Metaspace.Max	n
flink:jobmanager:Status.JVM.Memory.Metaspace.Used	flink/jobmanager/Status.JVM.Memory.Metaspace.Used	n
flink:jobmanager:Status.JVM.Memory.NonHeap.Committed	flink/jobmanager/Status.JVM.Memory.NonHeap.Committed	n
flink:jobmanager:Status.JVM.Memory.NonHeap.Max	flink/jobmanager/Status.JVM.Memory.NonHeap.Max	n
flink:jobmanager:Status.JVM.Memory.NonHeap.Used	flink/jobmanager/Status.JVM.Memory.NonHeap.Used	n
flink:jobmanager:Status.JVM.Threads.Count	flink/jobmanager/Status.JVM.Threads.Count	n
flink:jobmanager:taskSlotsAvailable	flink/jobmanager/taskSlotsAvailable	y
flink:jobmanager:taskSlotsTotal	flink/jobmanager/taskSlotsTotal	y
flink:operator:numRecordsIn	flink/operator/numRecordsIn	n
flink:operator:numRecordsInPerSecond.count	flink/operator/numRecordsInPerSecond.count	n
flink:operator:numRecordsInPerSecond.rate	flink/operator/numRecordsInPerSecond.rate	n
flink:operator:numRecordsOut	flink/operator/numRecordsOut	n
flink:operator:numRecordsOutPerSecond.count	flink/operator/numRecordsOutPerSecond.count	n
flink:operator:numRecordsOutPerSecond.rate	flink/operator/numRecordsOutPerSecond.rate	n
flink:operator:numSplitsProcessed	flink/operator/numSplitsProcessed	n
flink:task:buffers.inPoolUsage	flink/task/buffers.inPoolUsage	n
flink:task:buffers.inputExclusiveBuffersUsage	flink/task/buffers.inputExclusiveBuffersUsage	n
flink:task:buffers.inputFloatingBuffersUsage	flink/task/buffers.inputFloatingBuffersUsage	n
flink:task:buffers.inputQueueLength	flink/task/buffers.inputQueueLength	n
flink:task:buffers.outPoolUsage	flink/task/buffers.outPoolUsage	n
flink:task:buffers.outputQueueLength	flink/task/buffers.outputQueueLength	n
flink:task:idleTimeMsPerSecond.count	flink/task/idleTimeMsPerSecond.count	n
flink:task:idleTimeMsPerSecond.rate	flink/task/idleTimeMsPerSecond.rate	n
flink:task:numBuffersInLocal	flink/task/numBuffersInLocal	n
flink:task:numBuffersInLocalPerSecond.count	flink/task/numBuffersInLocalPerSecond.count	n
flink:task:numBuffersInLocalPerSecond.rate	flink/task/numBuffersInLocalPerSecond.rate	n
flink:task:numBuffersInRemote	flink/task/numBuffersInRemote	n
flink:task:numBuffersInRemotePerSecond.count	flink/task/numBuffersInRemotePerSecond.count	n
flink:task:numBuffersInRemotePerSecond.rate	flink/task/numBuffersInRemotePerSecond.rate	n
flink:task:numBuffersOut	flink/task/numBuffersOut	n
flink:task:numBuffersOutPerSecond.count	flink/task/numBuffersOutPerSecond.count	n
flink:task:numBuffersOutPerSecond.rate	flink/task/numBuffersOutPerSecond.rate	n
flink:task:numBytesIn	flink/task/numBytesIn	n
flink:task:numBytesInLocal	flink/task/numBytesInLocal	n
flink:task:numBytesInLocalPerSecond.count	flink/task/numBytesInLocalPerSecond.count	n
flink:task:numBytesInLocalPerSecond.rate	flink/task/numBytesInLocalPerSecond.rate	n
flink:task:numBytesInPerSecond.count	flink/task/numBytesInPerSecond.count	n
flink:task:numBytesInPerSecond.rate	flink/task/numBytesInPerSecond.rate	n
flink:task:numBytesInRemote	flink/task/numBytesInRemote	n
flink:task:numBytesInRemotePerSecond.count	flink/task/numBytesInRemotePerSecond.count	n
flink:task:numBytesInRemotePerSecond.rate	flink/task/numBytesInRemotePerSecond.rate	n
flink:task:numBytesOut	flink/task/numBytesOut	n
flink:task:numBytesOutPerSecond.count	flink/task/numBytesOutPerSecond.count	n
flink:task:numBytesOutPerSecond.rate	flink/task/numBytesOutPerSecond.rate	n
flink:task:numRecordsIn	flink/task/numRecordsIn	n
flink:task:numRecordsInPerSecond.count	flink/task/numRecordsInPerSecond.count	n
flink:task:numRecordsInPerSecond.rate	flink/task/numRecordsInPerSecond.rate	n
flink:task:numRecordsOut	flink/task/numRecordsOut	n
flink:task:numRecordsOutPerSecond.count	flink/task/numRecordsOutPerSecond.count	n
flink:task:numRecordsOutPerSecond.rate	flink/task/numRecordsOutPerSecond.rate	n
flink:task:Shuffle.Netty.Input.Buffers.inPoolUsage	flink/task/Shuffle.Netty.Input.Buffers.inPoolUsage	n
flink:task:Shuffle.Netty.Input.Buffers.inputExclusiveBuffersUsage	flink/task/Shuffle.Netty.Input.Buffers.inputExclusiveBuffersUsage	n
flink:task:Shuffle.Netty.Input.Buffers.inputFloatingBuffersUsage	flink/task/Shuffle.Netty.Input.Buffers.inputFloatingBuffersUsage	n
flink:task:Shuffle.Netty.Input.Buffers.inputQueueLength	flink/task/Shuffle.Netty.Input.Buffers.inputQueueLength	n
flink:task:Shuffle.Netty.Input.numBuffersInLocal	flink/task/Shuffle.Netty.Input.numBuffersInLocal	n
flink:task:Shuffle.Netty.Input.numBuffersInLocalPerSecond.count	flink/task/Shuffle.Netty.Input.numBuffersInLocalPerSecond.count	n
flink:task:Shuffle.Netty.Input.numBuffersInLocalPerSecond.rate	flink/task/Shuffle.Netty.Input.numBuffersInLocalPerSecond.rate	n
flink:task:Shuffle.Netty.Input.numBuffersInRemote	flink/task/Shuffle.Netty.Input.numBuffersInRemote	n
flink:task:Shuffle.Netty.Input.numBuffersInRemotePerSecond.count	flink/task/Shuffle.Netty.Input.numBuffersInRemotePerSecond.count	n
flink:task:Shuffle.Netty.Input.numBuffersInRemotePerSecond.rate	flink/task/Shuffle.Netty.Input.numBuffersInRemotePerSecond.rate	n
flink:task:Shuffle.Netty.Input.numBytesInLocal	flink/task/Shuffle.Netty.Input.numBytesInLocal	n
flink:task:Shuffle.Netty.Input.numBytesInLocalPerSecond.count	flink/task/Shuffle.Netty.Input.numBytesInLocalPerSecond.count	n
flink:task:Shuffle.Netty.Input.numBytesInLocalPerSecond.rate	flink/task/Shuffle.Netty.Input.numBytesInLocalPerSecond.rate	n
flink:task:Shuffle.Netty.Input.numBytesInRemote	flink/task/Shuffle.Netty.Input.numBytesInRemote	n
flink:task:Shuffle.Netty.Input.numBytesInRemotePerSecond.count	flink/task/Shuffle.Netty.Input.numBytesInRemotePerSecond.count	n
flink:task:Shuffle.Netty.Input.numBytesInRemotePerSecond.rate	flink/task/Shuffle.Netty.Input.numBytesInRemotePerSecond.rate	n
flink:task:Shuffle.Netty.Output.Buffers.outPoolUsage	flink/task/Shuffle.Netty.Output.Buffers.outPoolUsage	n
flink:task:Shuffle.Netty.Output.Buffers.outputQueueLength	flink/task/Shuffle.Netty.Output.Buffers.outputQueueLength	n
flink:taskmanager:Status.flink.Memory.Managed.Total	flink/taskmanager/Status.flink.Memory.Managed.Total	n
flink:taskmanager:Status.flink.Memory.Managed.Used	flink/taskmanager/Status.flink.Memory.Managed.Used	n
flink:taskmanager:Status.JVM.ClassLoader.ClassesLoaded	flink/taskmanager/Status.JVM.ClassLoader.ClassesLoaded	n
flink:taskmanager:Status.JVM.ClassLoader.ClassesUnloaded	flink/taskmanager/Status.JVM.ClassLoader.ClassesUnloaded	n
flink:taskmanager:Status.JVM.CPU.Load	flink/taskmanager/Status.JVM.CPU.Load	n
flink:taskmanager:Status.JVM.CPU.Time	flink/taskmanager/Status.JVM.CPU.Time	y
flink:taskmanager:Status.JVM.GarbageCollector.PSMarkSweep.Count	flink/taskmanager/Status.JVM.GarbageCollector.PSMarkSweep.Count	n
flink:taskmanager:Status.JVM.GarbageCollector.PSMarkSweep.Time	flink/taskmanager/Status.JVM.GarbageCollector.PSMarkSweep.Time	n
flink:taskmanager:Status.JVM.GarbageCollector.PSScavenge.Count	flink/taskmanager/Status.JVM.GarbageCollector.PSScavenge.Count	n
flink:taskmanager:Status.JVM.GarbageCollector.PSScavenge.Time	flink/taskmanager/Status.JVM.GarbageCollector.PSScavenge.Time	n
flink:taskmanager:Status.JVM.Memory.Direct.Count	flink/taskmanager/Status.JVM.Memory.Direct.Count	y
flink:taskmanager:Status.JVM.Memory.Direct.MemoryUsed	flink/taskmanager/Status.JVM.Memory.Direct.MemoryUsed	y
flink:taskmanager:Status.JVM.Memory.Direct.TotalCapacity	flink/taskmanager/Status.JVM.Memory.Direct.TotalCapacity	y
flink:taskmanager:Status.JVM.Memory.Heap.Committed	flink/taskmanager/Status.JVM.Memory.Heap.Committed	y
flink:taskmanager:Status.JVM.Memory.Heap.Max	flink/taskmanager/Status.JVM.Memory.Heap.Max	y
flink:taskmanager:Status.JVM.Memory.Heap.Used	flink/taskmanager/Status.JVM.Memory.Heap.Used	y
flink:taskmanager:Status.JVM.Memory.Mapped.Count	flink/taskmanager/Status.JVM.Memory.Mapped.Count	y
flink:taskmanager:Status.JVM.Memory.Mapped.MemoryUsed	flink/taskmanager/Status.JVM.Memory.Mapped.MemoryUsed	y
flink:taskmanager:Status.JVM.Memory.Mapped.TotalCapacity	flink/taskmanager/Status.JVM.Memory.Mapped.TotalCapacity	y
flink:taskmanager:Status.JVM.Memory.Metaspace.Committed	flink/taskmanager/Status.JVM.Memory.Metaspace.Committed	n
flink:taskmanager:Status.JVM.Memory.Metaspace.Max	flink/taskmanager/Status.JVM.Memory.Metaspace.Max	n
flink:taskmanager:Status.JVM.Memory.Metaspace.Used	flink/taskmanager/Status.JVM.Memory.Metaspace.Used	n
flink:taskmanager:Status.JVM.Memory.NonHeap.Committed	flink/taskmanager/Status.JVM.Memory.NonHeap.Committed	n
flink:taskmanager:Status.JVM.Memory.NonHeap.Max	flink/taskmanager/Status.JVM.Memory.NonHeap.Max	n
flink:taskmanager:Status.JVM.Memory.NonHeap.Used	flink/taskmanager/Status.JVM.Memory.NonHeap.Used	n
flink:taskmanager:Status.JVM.Threads.Count	flink/taskmanager/Status.JVM.Threads.Count	n
flink:taskmanager:Status.Network.AvailableMemorySegments	flink/taskmanager/Status.Network.AvailableMemorySegments	n
flink:taskmanager:Status.Network.TotalMemorySegments	flink/taskmanager/Status.Network.TotalMemorySegments	n
flink:taskmanager:Status.Shuffle.Netty.AvailableMemory	flink/taskmanager/Status.Shuffle.Netty.AvailableMemory	n
flink:taskmanager:Status.Shuffle.Netty.AvailableMemorySegments	flink/taskmanager/Status.Shuffle.Netty.AvailableMemorySegments	n
flink:taskmanager:Status.Shuffle.Netty.TotalMemory	flink/taskmanager/Status.Shuffle.Netty.TotalMemory	n
flink:taskmanager:Status.Shuffle.Netty.TotalMemorySegments	flink/taskmanager/Status.Shuffle.Netty.TotalMemorySegments	n
flink:taskmanager:Status.Shuffle.Netty.UsedMemory	flink/taskmanager/Status.Shuffle.Netty.UsedMemory	n
flink:taskmanager:Status.Shuffle.Netty.UsedMemorySegments	flink/taskmanager/Status.Shuffle.Netty.UsedMemorySegments	n

Spark History Server 指标

Dataproc 会收集以下 Spark 历史记录服务 JVM 内存指标：

指标	Metrics Explorer 名称	已启用的指标
sparkHistoryServer:JVM:Memory:HeapMemoryUsage.committed	sparkHistoryServer/memory/CommittedHeapMemory	y
sparkHistoryServer:JVM:Memory:HeapMemoryUsage.used	sparkHistoryServer/memory/UsedHeapMemory	y
sparkHistoryServer:JVM:Memory:HeapMemoryUsage.max	sparkHistoryServer/memory/MaxHeapMemory	y
sparkHistoryServer:JVM:Memory:NonHeapMemoryUsage.committed	sparkHistoryServer/memory/CommittedNonHeapMemory	y
sparkHistoryServer:JVM:Memory:NonHeapMemoryUsage.used	sparkHistoryServer/memory/UsedNonHeapMemory	y
sparkHistoryServer:JVM:Memory:NonHeapMemoryUsage.max	sparkHistoryServer/memory/MaxNonHeapMemory	y

HiveServer 2 指标

指标	Metrics Explorer 名称	已启用的指标
hiveserver2:JVM:Memory:HeapMemoryUsage.committed	hiveserver2/memory/CommittedHeapMemory	y
hiveserver2:JVM:Memory:HeapMemoryUsage.used	hiveserver2/memory/UsedHeapMemory	y
hiveserver2:JVM:Memory:HeapMemoryUsage.max	hiveserver2/memory/MaxHeapMemory	y
hiveserver2:JVM:Memory:NonHeapMemoryUsage.committed	hiveserver2/memory/CommittedNonHeapMemory	y
hiveserver2:JVM:Memory:NonHeapMemoryUsage.used	hiveserver2/memory/UsedNonHeapMemory	y
hiveserver2:JVM:Memory:NonHeapMemoryUsage.max	hiveserver2/memory/MaxNonHeapMemory	y

Hive Metastore 指标

指标	Metrics Explorer 名称	已启用的指标
hivemetastore:API:GetDatabase:Mean	hivemetastore/get_database/mean	y
hivemetastore:API:CreateDatabase:Mean	hivemetastore/create_database/mean	y
hivemetastore:API:DropDatabase:Mean	hivemetastore/drop_database/mean	y
hivemetastore:API:AlterDatabase:Mean	hivemetastore/alter_database/mean	y
hivemetastore:API:GetAllDatabases:Mean	hivemetastore/get_all_databases/mean	y
hivemetastore:API:CreateTable:Mean	hivemetastore/create_table/mean	y
hivemetastore:API:DropTable:Mean	hivemetastore/drop_table/mean	y
hivemetastore:API:AlterTable:Mean	hivemetastore/alter_table/mean	y
hivemetastore:API:GetTable:Mean	hivemetastore/get_table/mean	y
hivemetastore:API:GetAllTables:Mean	hivemetastore/get_all_tables/mean	y
hivemetastore:API:AddPartitionsReq:Mean	hivemetastore/add_partitions_req/mean	y
hivemetastore:API:DropPartition:Mean	hivemetastore/drop_partition/mean	y
hivemetastore:API:AlterPartition:Mean	hivemetastore/alter_partition/mean	y
hivemetastore:API:GetPartition:Mean	hivemetastore/get_partition/mean	y
hivemetastore:API:GetPartitionNames:Mean	hivemetastore/get_partition_names/mean	y
hivemetastore:API:GetPartitionsPs:Mean	hivemetastore/get_partitions_ps/mean	y
hivemetastore:API:GetPartitionsPsWithAuth:Mean	hivemetastore/get_partitions_ps_with_auth/mean	y

Hive Metastore 指标测量

统计测量	示例指标	示例指标名称
最大值	hivemetastore:API:GetDatabase:Max	hivemetastore/get_database/max
最小值	hivemetastore:API:GetDatabase:Min	hivemetastore/get_database/min
平均值	hivemetastore:API:GetDatabase:Mean	hivemetastore/get_database/mean
计数	hivemetastore:API:GetDatabase:Count	hivemetastore/get_database/count
第 50 百分位	hivemetastore:API:GetDatabase:50thPercentile	hivemetastore/get_database/median
第 75 百分位	hivemetastore:API:GetDatabase:75thPercentile	hivemetastore/get_database/75th_percentile
第 95 百分位	hivemetastore:API:GetDatabase:95thPercentile	hivemetastore/get_database/95th_percentile
第 98 百分位	hivemetastore:API:GetDatabase:98thPercentile	hivemetastore/get_database/98th_percentile
第 99 百分位	hivemetastore:API:GetDatabase:99thPercentile	hivemetastore/get_database/99th_percentile
第 999 百分位	hivemetastore:API:GetDatabase:999thPercentile	hivemetastore/get_database/999th_percentile
StdDev	hivemetastore:API:GetDatabase:StdDev	hivemetastore/get_database/stddev
FifteenMinuteRate	hivemetastore:API:GetDatabase:FifteenMinuteRate	hivemetastore/get_database/15min_rate
FiveMinuteRate	hivemetastore:API:GetDatabase:FiveMinuteRate	hivemetastore/get_database/5min_rate
OneMinuteRate	hivemetastore:API:GetDatabase:OneMinuteRate	hivemetastore/get_database/1min_rate
MeanRate	hivemetastore:API:GetDatabase:MeanRate	hivemetastore/get_database/mean_rate

Dataproc 监控代理指标

Dataproc 会收集以下信息 Dataproc 监控代理指标当您设置 --metric-sources=monitoring-agent-defaults 时。这些指标在发布时会带有 agent.googleapis.com 前缀。

CPU
agent.googleapis.com/cpu/load_15m
agent.googleapis.com/cpu/load_1m
agent.googleapis.com/cpu/load_5m
agent.googleapis.com/cpu/usage_time*
agent.googleapis.com/cpu/utilization*

磁盘
agent.googleapis.com/disk/bytes_used
agent.googleapis.com/disk/io_time
agent.googleapis.com/disk/merged_operations
agent.googleapis.com/disk/operation_count
agent.googleapis.com/disk/operation_time
agent.googleapis.com/disk/pending_operations
agent.googleapis.com/disk/percent_used
agent.googleapis.com/disk/read_bytes_count

切换
agent.googleapis.com/swap/bytes_used
agent.googleapis.com/swap/io
agent.googleapis.com/swap/percent_used

内存
agent.googleapis.com/memory/bytes_used
agent.googleapis.com/memory/percent_used

进程 -（对于少数属性，遵循略有不同的配额政策）
agent.googleapis.com/processes/count_by_state
agent.googleapis.com/processes/cpu_time
agent.googleapis.com/processes/disk/read_bytes_count
agent.googleapis.com/processes/disk/write_bytes_count
agent.googleapis.com/processes/fork_count
agent.googleapis.com/processes/rss_usage
agent.googleapis.com/processes/vm_usage

接口
agent.googleapis.com/interface/errors
agent.googleapis.com/interface/packets
agent.googleapis.com/interface/traffic

网络
agent.googleapis.com/network/tcp_connections

构建 Monitoring 信息中心

您可以构建一个 Monitoring 信息中心所选 Dataproc 指标的图表。

从 Monitoring Dashboards Overview 页面中选择 + CREATE DASHBOARD。为信息中心提供一个名称，然后点击右上方菜单中的 Add Chart 以打开 Add Chart 窗口。选择“Cloud Dataproc Cluster”作为资源类型。选择一个或多个指标以及指标和图表属性。然后保存该图表。
您可以将其他图表添加到信息中心。保存信息中心后，其标题会显示在 Monitoring Dashboards Overview 页面中。您可以在信息中心显示页面中查看、更新和删除信息中心图表。

后续步骤

请参阅 Cloud Monitoring 文档
了解如何创建 Dataproc 指标提醒