Mit Cloud Monitoring erhalten Sie Einblick in die Leistung, die Betriebszeit und die reibungslose Funktion cloudbasierter Anwendungen. Die Operations-Suite von Google Cloud erfasst und speichert Messwerte, Ereignisse und Metadaten aus Dataproc-Clustern, einschließlich HDFS-, YARN-, Job- und Vorgangsmesswerten pro Cluster, um Informationen durch Dashboards und Diagramme zu generieren (siehe Cloud Monitoring-Dataproc-Messwerte).
Verwenden Sie Cloud Monitoring-Clustermesswerte, um die Leistung und den Zustand von Dataproc-Clustern zu beobachten.
Unter Cloud Monitoring-Preise finden Sie Informationen zu Ihren Kosten.
Informationen zur Aufbewahrung der Messwertdaten finden Sie unter Monitoring-Kontingente und -Limits.
Messwerte für Dataproc-Cluster
Messwerte zu Dataproc-Clusterressourcen sind für Dataproc-Cluster automatisch aktiviert. Verwenden Sie Monitoring, um sich diese Messwerte anzusehen.
Clustermesswerte ansehen
Sie können das Monitoring in der Google Cloud Console oder mit der Monitoring API prüfen.
Console
-
Rufen Sie nach dem Erstellen eines Clusters in der Google Cloud Console Monitoring auf, um die Monitoring-Daten des Clusters anzusehen.
Nachdem die Monitoring-Konsole angezeigt wurde, können Sie den Monitoring-Agent auf VMs in Ihrem Projekt als zusätzlichen Einrichtungsschritt installieren. Sie müssen den Agent nicht auf VMs in Dataproc-Clustern installieren, da dieser Schritt für Sie ausgeführt wird, wenn Sie einen Dataproc-Cluster erstellen.
- Wählen Sie Metrics Explorer aus der Drop-down-Liste „Ressourcentyp und Messwert suchen“ und wählen Sie die Ressource „Cloud Dataproc-Cluster“ (oder den Typ „Cloud-Dataproc_Cluster“) in dem Feld aus.
- Klicken Sie noch einmal in das Eingabefeld und wählen Sie dann einen Messwert aus der Drop-down-Liste aus.
Im nächsten Screenshot ist "YARN-Speichergröße" ausgewählt. Wenn Sie den Mauszeiger auf den Namen des Messwerts bewegen, werden Informationen zu diesem Messwert angezeigt.
Sie können Filter auswählen, nach Messwertlabels gruppieren, Aggregationen durchführen und Optionen für die Diagrammanzeige auswählen (siehe Dokumentation zu Monitoring).
API
Mit der Monitoring API timeSeries.list können Sie Messwerte erfassen und auflisten, die durch einen Filterausdruck mit filter
definiert werden.
Verwenden Sie die Vorlage API testen auf der API-Seite, um eine API-Anfrage zu senden und die Antwort aufzurufen.
Beispiel: Hier ist ein Snapshot einer Vorlagenanfrage und der zurückgegebenen JSON-Antwort für die folgenden timeSeries.list
-Parameter von Monitoring:
- name: projects/example-project-id
- filter: metric.type="dataproc.googleapis.com/cluster/hdfs/storage_capacity"
- interval.endTime: 2018-02-27T11:54:00.000-08:00
- interval.startTime: 2018-02-20T00:00:00.000-08:00
OSS-Messwerte
Dataproc erfasst dann die Messwerte der OSS-Komponenten des Dataproc-Clusters in Monitoring. Dataproc OSS-Messwerte werden im folgenden Format erfasst:
custom.googleapis.com/OSS_COMPONENT/METRIC
Beispiele für OSS-Messwerte:
custom.googleapis.com/spark/driver/DAGScheduler/job/allJobs custom.googleapis.com/hiveserver2/memory/MaxNonHeapMemory
Verfügbare OSS-Messwerte
Sie können Dataproc aktivieren, um die in den folgenden Tabellen aufgeführten OSS-Messwerte zu erfassen. Die Spalte Standardmäßig erfasst ist mit „y“ gekennzeichnet, wenn Dataproc den Messwert standardmäßig erfasst, wenn Sie die zugeordnete Messwertquelle aktivieren. Jeder der Messwerte, die für eine Messwertquelle aufgeführt sind, und alle Spark-Messwerte können aktiviert werden, wenn Sie die Erfassung von Standardmesswerten für die Messwertquelle aktivieren (siehe OSS-Messwerterfassung aktivieren).
IAB-Messwerte
HDFS-Messwerte
Messwert | Name des Metrics Explorer | Standardmäßig erfasst |
---|---|---|
hdfs:NameNode:FSNamesystem:Kapazität insgesamtGB | dfs/FSNamesystem/CapacityTotalGB | y |
hdfs:NameNode:FSNamesystem:KapazitätVerwendendGB | dfs/FSNamesystem/CapacityUsedGB | y |
hdfs:NameNode:FSNamesystem:KapazitätVerbleibendeGB | dfs/FSNamesystem/CapacityVerbleibendeGB | y |
hdfs:NameNode:FSNamesystem:DateienGesamt | dfs/FSNamesystem/FilesTotal | y |
hdfs:NameNode:FSNamesystem:FehlendeBlocks | dfs/FSNamesystem/FehlendeBlocks | n |
hdfs:NameNode:FSNamesystem:AbgelaufeneBeats | dfs/FSNamesystem/AbgelaufeneHerzschläge | n |
hdfs:NameNode:FSNamesystem:Transaktionen seitLastCheckpoint | dfs/FSNamesystem/TransactionsSeitLastCheckpoint | n |
hdfs:NameNode:FSNamesystem:Transaktion seitLastLogRoll | dfs/FSNamesystem/TransactionsSeitLastLogRoll | n |
hdfs:NameNode:FSNamesystem:LastWriterTransactionId | dfs/FSNamesystem/LastWriterTransactionId | n |
hdfs:NameNode:FSNamesystem:Kapazität insgesamt | dfs/FSNamesystem/CapacityTotal | n |
hdfs:NameNode:FSNamesystem:KapazitätVerwendend | dfs/FSNamesystem/CapacityUsed | n |
hdfs:NameNode:FSNamesystem:Kapazität verbleibendes | dfs/FSNamesystem/CapacityVerbleibende | n |
hdfs:NameNode:FSNamesystem:KapazitätVerwendetNicht-DFS | dfs/FSNamesystem/CapacityUsedNonDFS | n |
hdfs:NameNode:FSNamesystem:Gesamtlast | dfs/FSNamesystem/TotalLoad | n |
hdfs:NameNode:FSNamesystem:SnapshottableDirectories | dfs/FSNamesystem/SnapshottableDirectories | n |
hdfs:NameNode:FSNamesystem:Snapshots | dfs/FSNamesystem/Snapshots | n |
hdfs:NameNode:FSNamesystem:BlockSTotal | dfs/FSNamesystem/BlocksTotal | n |
hdfs:NameNode:FSNamesystem:AusstehendeReplikationen | dfs/FSNamesystem/PendingRecopyBlocks | n |
hdfs:NameNode:FSNamesystem:Unterreplizierte Blöcke | dfs/FSNamesystem/UnderReplicatedBlocks | n |
hdfs:NameNode:FSNamesystem:KorruptBlocks | dfs/FSNamesystem/CorruptBlocks | n |
hdfs:NameNode:FSNamesystem:GeplanteReplikationen | dfs/FSNamesystem/ScheduledRecopyBlocks | n |
hdfs:NameNode:FSNamesystem:AusstehendeLöschungen | dfs/FSNamesystem/PendingDeleteBlocks | n |
hdfs:NameNode:FSNamesystem:ExesseBlocks | dfs/FSNamesystem/ExverseBlocks | n |
hdfs:NameNode:FSNamesystem:PostponedMisreplicatedBlocks | dfs/FSNamesystem/PostponedMisreplicatedBlocks | n |
hdfs:NameNode:FSNamesystem:AusstehendeDataNodeMessageCourt | dfs/FSNamesystem/PendingDataNodeMessageCourt | n |
hdfs:NameNode:FSNamesystem:MillisSeitLastLoadedEdits | dfs/FSNamesystem/MillisSeitLastLoadedEdits | n |
hdfs:NameNode:FSName:BlockKapazität | dfs/FSNamesystem/BlockCapacity | n |
hdfs:NameNode:FSNamesystem:StaleDataNodes | dfs/FSNamesystem/StaleDataNodes | n |
hdfs:NameNode:FSNamesystem:Gesamtdateien | dfs/FSNamesystem/TotalFiles | n |
hdfs:NameNode:JvmMetrics:MemHeapUsedM | dfs/jvm/MemHeapUsedM | n |
hdfs:NameNode:JvmMetrics:MemHeapCommitM | dfs/jvm/MemHeapCommitM | n |
hdfs:NameNode:JvmMetrics:MemHeapMaxM | dfs/jvm/MemHeapmaxM | n |
hdfs:NameNode:JvmMetrics:MemMaxM | dfs/jvm/MemMaxM | n |
YARN-Messwerte
Messwert | Name des Metrics Explorer | Standardmäßig erfasst |
---|---|---|
yarn:ResourceManager:ClusterMetrics:NumActiveNMs | Yan/ClusterMetrics/NumActiveNMs | y |
yarn:ResourceManager:ClusterMetrics:NumDecommissionedNMs | Yan/ClusterMetrics/NumDecommissionedNMs | n |
yarn:ResourceManager:ClusterMetrics:NumLostNMs | Yan/ClusterMetrics/NumLostNMs | n |
yarn:ResourceManager:ClusterMetrics:NumUnhealthNMs – | Yan/ClusterMetrics/NumUnhealthNMs | n |
yarn:ResourceManager:ClusterMetrics:NumRestartedNMs | yarn/ClusterMetrics/NumRestartedNMs | n |
yarn:ResourceManager:QueueMetrics:Running_0 | Yan/QueueMetrics/Running_0 | y |
yarn:ResourceManager:QueueMetrics:execute_60 | Yan/QueueMetrics/Running_60 | y |
yarn:ResourceManager:QueueMetrics:Running_300s | Yan/QueueMetrics/Running_300 | y |
yarn:ResourceManager:QueueMetrics:Running_1440 | Yan/QueueMetrics/Running_1440 | y |
yarn:ResourceManager:QueueMetrics:AppsGesendet | yarn/QueueMetrics/AppsSubmit | y |
yarn:ResourceManager:QueueMetrics:VerfügbarMB | Yan/QueueMetrics/AvailableMB | y |
yarn:ResourceManager:QueueMetrics:PendingContainers | yarn/QueueMetrics/PendingContainers | y |
yarn:ResourceManager:QueueMetrics:AppsRunning | Yan/QueueMetrics/AppsRunning | n |
yarn:ResourceManager:QueueMetrics:AppsAusstehend | Yan/QueueMetrics/AppsPending | n |
yarn:ResourceManager:QueueMetrics:AppsAbgeschlossen | Yan/QueueMetrics/AppsAbgeschlossen | n |
yarn:ResourceManager:QueueMetrics:AppsKilled | Yan/QueueMetrics/AppsKilled | n |
yarn:ResourceManager:QueueMetrics:AppsFailed | yarn/QueueMetrics/AppsFailed | n |
yarn:ResourceManager:QueueMetrics:AllocalizedMB | Yan/QueueMetrics/ZugewiesenerMB | n |
yarn:ResourceManager:QueueMetrics:AllocalizedVCores | Yan/QueueMetrics/AllocationsVCores | n |
yarn:ResourceManager:QueueMetrics:AllocalizedContainers | yarn/QueueMetrics/AllocalizedContainers | n |
yarn:ResourceManager:QueueMetrics:AggregateContainersAllocalized | yarn/QueueMetrics/AggregateContainersAllocalized | n |
yarn:ResourceManager:QueueMetrics:AggregateContainersReleased | yarn/QueueMetrics/AggregateContainersReleased | n |
yarn:ResourceManager:QueueMetrics:AvailableVCores | Yan/QueueMetrics/AvailableVCores | n |
yarn:ResourceManager:QueueMetrics:PendingMB | Yan/QueueMetrics/PendingMB | n |
yarn:ResourceManager:QueueMetrics:PendingVCores | Yan/QueueMetrics/PendingVCores | n |
yarn:ResourceManager:QueueMetrics:ReserviertMB | Yan/QueueMetrics/ReserviertMB | n |
yarn:ResourceManager:QueueMetrics:ReserviertVCores | Yan/QueueMetrics/ReserviertVVCores | n |
yarn:ResourceManager:QueueMetrics:ReserviertContainer | yarn/QueueMetrics/ReserviertContainer | n |
yarn:ResourceManager:QueueMetrics:ActiveUsers | Yan/QueueMetrics/ActiveUsers | n |
yarn:ResourceManager:QueueMetrics:ActiveApplications | Yan/QueueMetrics/ActiveApplications | n |
yarn:ResourceManager:QueueMetrics:FairShareMB | Yan/QueueMetrics/FairShareMB | n |
yarn:ResourceManager:QueueMetrics:FairShareVCores | Yan/QueueMetrics/FairShareVCores | n |
yarn:ResourceManager:QueueMetrics:MinShareMB | Yan/QueueMetrics/MinShareMB | n |
yarn:ResourceManager:QueueMetrics:MinShareVCores | Yan/QueueMetrics/MinShareVCores | n |
yarn:ResourceManager:QueueMetrics:MaxShareMB | Yan/QueueMetrics/MaxShareMB | n |
yarn:ResourceManager:QueueMetrics:MaxShareVCores | Yan/QueueMetrics/MaxShareVCores | n |
yarn:ResourceManager:JvmMetrics:MemHeapUsedM | yar/jvm/MemHeapUsedM | n |
yarn:ResourceManager:JvmMetrics:MemHeapCommitM | yarn/jvm/MemHeapCommitM | n |
yarn:ResourceManager:JvmMetrics:MemHeapMaxM | yar/jvm/MemHeapmaxM | n |
yarn:Ressourcenmanager:JvmMetrics:MemMaxM | yar/jvm/MemMaxM | n |
Spark-Messwerte
Messwerte für Spark-Treiber
Messwert | Name des Metrics Explorer | Standardmäßig erfasst |
---|---|---|
spark:driver:BlockManager:disk.diskSpaceUsed_MB | spark/driver/BlockManager/disk/diskSpaceUsed_MB | y |
spark:driver:BlockManager:memory.maxMem_MB abrufen | spark/drive/BlockManager/memory/maxMem_MB | y |
spark:driver:BlockManager:memory.memUsed_MB | spark/drive/BlockManager/memory/memUsed_MB | y |
spark:driver:DAGScheduler:job.allJobs | spark/driver/DAGScheduler/job/allJobs | y |
spark:driver:DAGScheduler:stage.failedStages | spark/driver/DAGScheduler/stage/failedStages | y |
spark:driver:DAGScheduler:stage.waitingStages | spark/driver/DAGScheduler/stage/waitingStages | y |
Spark-Executor-Messwerte
Messwert | Name des Metrics Explorer | Standardmäßig erfasst |
---|---|---|
spark:executor:executor:bytesRead | Spark/Exeutor/ByteRead | y |
spark:executor:executor:bytesSchreiben | Spark/Exeutor/ByteWriter | y |
spark:executor:executor:cpuZeit | Spark/Exeutor/cpuTime | y |
spark:executor:executor:diskBytesSpilled | Spark/executor/diskBytesSpilled | y |
spark:executor:executor:recordsRead | Spark/Exeutor/RecordsRead | y |
spark:executor:executor:recordsAutor | spark/executor/recordsWriter | y |
spark:executor:executor:runZeit | Spark/Exeutor/RunTime | y |
spark:executor:executor:shuffleRecordsRead | Spark/Exeutor/ShuffleRecordsRead | y |
spark:executor:executor:shuffleRecordsAutor | Spark/Exeutor/ShuffleRecordsWriter | y |
Spark History Server-Messwerte
Dataproc erfasst die folgenden JVM-Speichermesswerte des Spark-Verlaufsdienstes:
Messwert | Name des Metrics Explorer | Standardmäßig erfasst |
---|---|---|
sparkHistoryServer:JVM:Speicher:HeapMemoryUsage.com | sparkHistoryServer/Memory/CommitHeapMemory | y |
sparkHistoryServer:JVM:Arbeitsspeicher:HeapMemoryUsage.used | sparkHistoryServer/memory/UsedHeapMemory | y |
sparkHistoryServer:JVM:Arbeitsspeicher:HeapMemoryUsage.max | sparkHistoryServer/memory/MaxHeapMemory | y |
sparkHistoryServer:JVM:Arbeitsspeicher:NonHeapMemoryUsage.com | sparkHistoryServer/memory/ComComedNonHeapMemory | y |
sparkHistoryServer:JVM:Arbeitsspeicher:NonHeapMemoryUsage.used | sparkHistoryServer/memory/UsedNonHeapMemory | y |
sparkHistoryServer:JVM:Arbeitsspeicher:NonHeapMemoryUsage.max | sparkHistoryServer/memory/MaxNonHeapMemory | y |
HiveServer 2-Messwerte
Messwert | Name des Metrics Explorer | Standardmäßig erfasst |
---|---|---|
hiveserver2:JVM:Memory:HeapMemoryUsage.com | hiveserver2/memory/CommitHeapMemory | y |
hiveserver2:JVM:Arbeitsspeicher:HeapMemoryUsage.used | hiveserver2/memory/UsedHeapMemory | y |
hiveserver2:JVM:Arbeitsspeicher:HeapMemoryUsage.max | hiveserver2/memory/MaxHeapMemory | y |
hiveserver2:JVM:Arbeitsspeicher:NonHeapMemoryUsage.commit | hiveserver2/memory/ComendedNonHeapMemory | y |
hiveserver2:JVM:Arbeitsspeicher:NonHeapMemoryUsage.used | hiveserver2/memory/UsedNonHeapMemory | y |
hiveserver2:JVM:Arbeitsspeicher:NonHeapMemoryUsage.max | hiveserver2/memory/MaxNonHeapMemory | y |
Messwerte des Dataproc-Agent
Standardmäßig erfasst Dataproc die folgenden Standardmesswerte des Dataproc-Monitoring-Agents, die mit dem Präfix agent.googleapis.com
veröffentlicht werden:
CPU
agent.googleapis.com/cpu/load_15m
agent.googleapis.com/cpu/load_1m
agent.googleapis.com/cpu/load_5m
agent.googleapis.com/cpu/usage_time
agent.googleapis.com/cpu/utilization
Laufwerk
agent.googleapis.com/disk/bytes_used
agent.googleapis.com/disk/io_time
agent.googleapis.com/disk/merged_ Operations
agent.googleapis.com/disk/Operation_count
agent.googleapis.com/disk/Operation_time
agent.googleapis.com/disk/ pending_ Operations
agent.googleapis.com/disk/percent_used
Swap
agent.googleapis.com/exchange/bytes_used
agent.googleapis.com/exchange/io
agent.googleapis.com/exchange/percent_used
Arbeitsspeicher
agent.googleapis.com/memory/bytes_used
agent.googleapis.com/memory/percent_used
Prozesse – (für einige Attribute gelten leicht andere Kontingentrichtlinien)
agent.googleapis.com/processes/count_by_state
agent.googleapis.com/processes/cpu_time
agent.googleapis.com/processes/disk/read_bytes_count
agent.googleapis.com/processes/disk/write_bytes_count
agent.googleapis.com/processes/for_processes/forkprocess./
Schnittstelle
agent.googleapis.com/interface/errors
agent.googleapis.com/interface/packets
agent.googleapis.com/interface/traffic
Netzwerk
agent.googleapis.com/network/tcp_connections
OSS-Messwerterfassung aktivieren
Wenn Sie einen Dataproc-Cluster erstellen, können Sie die gcloud-Befehlszeile oder die Dataproc API verwenden, um die Erfassung von OSS-Messwerten auf zwei Arten zu aktivieren. Sie können eine oder beide Erfassungsmethoden verwenden:
- Aktivieren Sie nur die Erfassung der Standardmesswerte aus einer oder mehreren OSS-Messwertquellen
- Datenerfassung nur bei bestimmten (&t)-Messwerten aus einer oder mehreren OSS-Messwertquellen aktivieren
gcloud-Befehl
Standard-Messwerterfassung
Mit dem Flag gcloud dataproc clusters create --metric-sources
können Sie Standard-OSS-Messwerte aus einer oder mehreren Messwertquellen erfassen.
gcloud dataproc clusters create cluster-name \ --metric-sources=METRIC_SOURCE(s) \ ... other flags
Hinweise:
--metric-sources
: Erforderlich, um die Standarderfassung von Messwerten zu aktivieren. Geben Sie eine oder mehrere der folgenden Messwertquellen an:spark
,hdfs
,yarn
,spark-history-server
,hiveserver2
undmonitoring-agent-defaults
. Bei dem Namen der Messwertquelle muss die Groß- und Kleinschreibung nicht berücksichtigt werden. So ist beispielsweise entweder „yarn“ oder „YARN“ zulässig.
Messwerterfassung überschreiben
Optional können Sie das Flag --metric-overrides
oder --metric-overrides-file
hinzufügen, um die Erfassung eines oder mehrerer verfügbarer OSS-Messwerte aus einer oder mehreren Messwertquellen zu ermöglichen.
-
Jeder der verfügbaren OSS-Messwerte und alle Spark-Messwerte können zur Erfassung als Messwertüberschreibung aufgelistet werden. Bei Werten für das Überschreiben wird die Groß-/Kleinschreibung berücksichtigt und gegebenenfalls im CamelCase-Format angegeben.
Beispiele
sparkHistoryServer:JVM:Memory:NonHeapMemoryUsage.committed
hiveserver2:JVM:Memory:NonHeapMemoryUsage.used
yarn:ResourceManager:JvmMetrics:MemHeapMaxM
-
Nur die angegebenen überschriebenen Messwerte werden von einer bestimmten Messwertquelle erfasst. Wenn beispielsweise ein oder mehrere
spark:executive
-Messwerte als Messwertüberschreibungen aufgeführt sind, werden keine anderenSPARK
-Messwerte erfasst. Die Erhebung von Standard-OSS-Messwerten aus anderen Messwertquellen ist nicht betroffen. Wenn zum Beispiel sowohl die MesswertquelleSPARK
als auch die QuelleYARN
aktiviert ist und Überschreibungen nur für Spark-Messwerte angegeben werden, werden alle standardmäßigen YARN-Messwerte erfasst. -
Die Quelle der angegebenen Messwertüberschreibung muss aktiviert sein. Wenn beispielsweise ein oder mehrere
spark:driver
-Messwerte als Messwertüberschreibungen angegeben werden, muss diespark
-Messwertquelle aktiviert sein (--metric-sources=spark
).
Messwertliste überschreiben
gcloud dataproc clusters create cluster-name \ --metric-sources=METRIC_SOURCE(s) \ --metric-overrides=LIST_OF_METRIC_OVERRIDES \ ... other flags
Hinweise:
--metric-sources
: Erforderlich, um die Standarderfassung von Messwerten zu aktivieren. Geben Sie eine oder mehrere der folgenden Messwertquellen an:spark
,hdfs
,yarn
,spark-history-server
,hiveserver2
undmonitoring-agent-defaults
. Beim Namen der Messwertquelle muss die Groß-/Kleinschreibung nicht berücksichtigt werden. Zulässig sind z. B. „YARN“ oder „YARN“.--metric-overrides
: Geben Sie eine Liste mit Messwerten im folgenden Format an:METRIC_SOURCE:INSTANCE:GROUP :METRIC
Verwenden Sie bei Bedarf das Camelcase-Format.Beispiel:
--metric-overrides=sparkHistoryServer:JVM:Memory:NonHeapMemoryUsage.committed
- Dieses Flag ist eine Alternative zum
--metric-overrides-file
-Flag und kann nicht verwendet werden.
Messwertdatei überschreiben
gcloud dataproc clusters create cluster-name \ --metric-sources=METRIC-SOURCE(s) \ --metric-overrides-file=METRIC_OVERRIDES_FILENAME \ ... other flags
Hinweise:
-
--metric-sources
: Erforderlich, um die Standarderfassung von Messwerten zu aktivieren. Geben Sie eine oder mehrere der folgenden Messwertquellen an:spark
,hdfs
,yarn
,spark-history-server
,hiveserver2
undmonitoring-agent-defaults
. Beim Namen der Messwertquelle muss die Groß-/Kleinschreibung nicht berücksichtigt werden. So ist zum Beispiel entweder „yarn“ oder „YARN“ zulässig. -
--metric-overrides-file
: Gib eine lokale oder Cloud Storage-Datei (gs://bucket/filename
) an, die einen oder mehrere Messwerte im folgenden Format enthält:METRIC_SOURCE:INSTANCE:GROUP:METRIC
Verwenden Sie bei Bedarf das Camelcase-Format.Beispiel:
--metric-overrides=sparkHistoryServer:JVM:Memory:NonHeapMemoryUsage.committed
- Dieses Flag ist eine Alternative zum
--metric-overrides-file
-Flag und kann nicht verwendet werden.
REST API
Verwenden Sie DataprocMetricConfig als Teil einer clusters.create-Anfrage, um die Erfassung von OSS-Messwerten zu aktivieren.
Monitoring-Dashboard erstellen
Sie können ein benutzerdefiniertes Monitoring-Dashboard erstellen, das Diagramme der ausgewählten Cloud Dataproc-Clustermesswerte anzeigt.
Wählen Sie + DASHBOARD ERSTELLEN auf der Monitoring-Seite Dashboard-Übersicht aus. Geben Sie einen Namen für das Dashboard ein und klicken Sie dann im Menü oben rechts auf Diagramm hinzufügen, um das Fenster "Diagramm hinzufügen" zu öffnen. Wählen Sie "Cloud Dataproc-Cluster" als Ressourcentyp aus. Wählen Sie mindestens einen Messwert und Messwert- und Diagrammattribute aus. Speichern Sie dann das Diagramm.
Sie können Ihrem Dashboard zusätzliche Diagramme hinzufügen. Nach dem Speichern des Dashboards, wird dessen Name auf der Monitoring-Seite Dashboard-Übersicht angezeigt. Dashboard-Diagramme können auf der Anzeigeseite des Dashboards angesehen, aktualisiert und gelöscht werden.
Benachrichtigungen erstellen
Sie können eine Monitoring-Benachrichtigung erstellen, die Sie informiert, wenn ein Dataproc-Cluster oder Jobmesswert einen bestimmten Grenzwert überschreitet, beispielsweise wenn die freie HDFS-Kapazität niedrig ist.
Öffnen Sie Monitoring-Benachrichtigungen in der Google Cloud Console. Klicken Sie auf + RICHTLINIE ERSTELLEN, um das Formular Neue Benachrichtigungsrichtlinie erstellen zu öffnen. Definieren Sie eine Benachrichtigung, indem Sie Benachrichtigungsbedingungen, Trigger für Richtlinien, Benachrichtigungskanäle und Dokumentation hinzufügen.
Wählen Sie BEDINGUNG HINZUFÜGE) aus, um das Formular für die Benachrichtigungsbedingung mit dem ausgewählten Tab "Messwert" zu öffnen. Füllen Sie die Felder aus, um eine Benachrichtigungsbedingung zu definieren, und klicken Sie dann auf HINZUFÜGEN. Die unten aufgeführte Beispielbenachrichtigungsbedingung wird ausgelöst, wenn die HDFS-Kapazität des Dataproc-Clusters für eine Minute unter den angegebenen Grenzwert von 998.579.896.320 Byte für 930 GiB (Binär-GB) fällt.
Nachdem Sie die Benachrichtigungsbedingung hinzugefügt haben, vervollständigen Sie die Benachrichtigungsrichtlinien, indem Sie Benachrichtigungskanäle, Trigger für Richtlinien, Dokumentation und den Namen der Benachrichtigungsrichtlinie festlegen.
Benachrichtigungen ansehen
Wenn eine Benachrichtigung durch eine Messwertschwellenbedingung ausgelöst wird, erstellt Monitoring einen Vorfall sowie ein entsprechendes Ereignis. Sie können Vorfälle auf der Seite Monitoring-Benachrichtigungen in der Google Cloud Console ansehen. Wenn in der Benachrichtigungsrichtlinie eine Benachrichtigungsmethode wie E-Mail oder SMS definiert wurde, wird von Monitoring außerdem eine Benachrichtigung zu dem Vorfall gesendet.