Risoluzione dei problemi di un argomento standard

Questo documento fornisce alcuni suggerimenti comuni per la risoluzione dei problemi durante la pubblicazione di messaggi in un argomento Pub/Sub standard.

Scopri di più su come pubblicare messaggi negli argomenti e sulle varie funzionalità.

Latenza di pubblicazione elevata

La latenza di pubblicazione è il tempo necessario per completare una richiesta di pubblicazione emessa da un client del publisher. La latenza di pubblicazione è diversa dalla latenza di recapito end-to-end, ovvero il tempo necessario per consegnare un messaggio pubblicato in Pub/Sub a un client sottoscrittore. Potresti osservare un'elevata latenza di pubblicazione o una latenza end-to-end, anche quando il valore dell'altro tipo di latenza è basso. È possibile che si verifichi un'elevata latenza di pubblicazione nel client del publisher Pub/Sub, in transito tra il client e il backend Pub/Sub o nel backend Pub/Sub. Puoi esaminare la latenza di pubblicazione nel backend Pub/Sub utilizzando la metrica topic/send_request_latencies. Un'elevata latenza di pubblicazione nel backend potrebbe essere correlata ai seguenti fattori:

  • Pub/Sub è progettato per la distribuzione a bassa latenza e velocità effettiva elevata. Se l'argomento ha una velocità effettiva bassa, l'inizializzazione delle risorse associate all'argomento potrebbe richiedere più tempo.

  • L'utilizzo di un criterio di archiviazione dei messaggi potrebbe influire sulla latenza complessiva delle richieste all'argomento e alla sottoscrizione. Controlla le implicazioni in termini di prestazioni e disponibilità dell'utilizzo di questa configurazione.

Se il tuo client publisher nota una latenza di pubblicazione notevolmente superiore a quella indicata nella metrica, potrebbe essere un segnale di uno di questi fattori lato client:

  • Assicurati di non creare un nuovo editore per ogni pubblicazione. È consigliabile utilizzare un solo client publisher per argomento e per applicazione al fine di pubblicare tutti i messaggi. L'avvio di nuovi oggetti publisher e l'aggiunta di nuovi thread hanno un costo di latenza. Se utilizzi Cloud Functions per pubblicare messaggi, tieni presente che anche le chiamate possono influire sulla latenza di pubblicazione.

  • Se ritieni che le impostazioni predefinite per i nuovi tentativi non siano sufficienti per il tuo caso d'uso, apporta le modifiche corrispondenti. Tuttavia, verifica che i nuovi valori non siano troppo alti. Scopri come configurare le richieste di nuovo.

Tieni presente che un'elevata latenza di pubblicazione può causare DEADLINE_EXCEEDED errori, di cui parleremo nella prossima sezione.

Le operazioni di pubblicazione non riescono e restituisce DEADLINE_EXCEEDED

Un errore DEADLINE_EXCEEDED durante una richiesta di pubblicazione indica che la richiesta non è stata completata entro il tempo assegnato. Ciò potrebbe essere dovuto a vari fattori, ad esempio le richieste che non raggiungono il servizio Pub/Sub o problemi di prestazioni che interessano le richieste.

Per verificare che le richieste di pubblicazione raggiungano il servizio Pub/Sub, monitora l'argomento utilizzando la metrica topic/send_request_count, raggruppata per response_code. Questa metrica consente di determinare se le richieste non vanno a buon fine prima di raggiungere l'argomento Pub/Sub. Se la metrica è vuota, esiste un fattore esterno che impedisce ai messaggi di raggiungere il servizio Pub/Sub. Inoltre, per escludere la possibilità di un problema intermittente, controlla il tasso di errore. Se il tasso di errore è molto basso, potrebbe trattarsi di un problema intermittente.

Se le richieste raggiungono Pub/Sub, di seguito sono riportate alcune possibili cause di un errore delle operazioni di pubblicazione e un errore DEADLINE_EXCEEDED:

Collo di bottiglia lato client

Gli errori di pubblicazione sono probabilmente causati da un collo di bottiglia sul lato client, ad esempio memoria insufficiente, pressione della CPU, integrità non corretta del thread o congestione della rete nella VM che ospita il client del publisher. Se una chiamata Publish restituisce DEADLINE_EXCEEDED, è possibile che le chiamate asincrone Publish vengano accodate più velocemente di quanto vengano inviate al servizio, aumentando progressivamente la latenza della richiesta. Controlla inoltre se le seguenti opzioni contribuiscono a determinare un possibile collo di bottiglia nel tuo sistema:

  • Controlla se i messaggi vengono pubblicati più velocemente di quanto il client possa inviarli. Di solito, ogni chiamata asincrona di Publish restituisce un oggetto Future. Per monitorare il numero di messaggi in attesa di essere inviati, memorizza il numero di messaggi da inviare con ogni chiamata a Publish ed eliminalo solo nel callback dell'oggetto Future.

  • Assicurati di avere una larghezza di banda sufficiente per il caricamento tra la macchina su cui viene eseguito l'editore e Google Cloud. Sviluppo Le reti Wi-Fi in genere hanno una larghezza di banda di 1-10 MB/s o 1000-10.000 messaggi tipici al secondo. La pubblicazione di messaggi in loop senza alcuna limitazione di frequenza potrebbe creare un breve burst di larghezza di banda elevata in un breve periodo di tempo. Per evitare che ciò accada, puoi eseguire il publisher su un computer all'interno di Google Cloud o ridurre la frequenza di pubblicazione dei messaggi in base alla larghezza di banda disponibile.

  • Controlla se noti una latenza molto elevata tra il tuo host e Google Cloud per qualsiasi motivo, ad esempio congestione della rete all'avvio o firewall. Il calcolo della velocità effettiva di rete offre suggerimenti per scoprire la larghezza di banda e la latenza per scenari diversi.

  • Infine, esistono dei limiti alla quantità di dati che una singola macchina può pubblicare. Potresti dover provare la scalabilità orizzontale o eseguire più istanze del client del publisher su più computer. Test dei client Cloud Pub/Sub per massimizzare le prestazioni dei flussi di dati dimostra in che modo Pub/Sub scala su una singola VM Google Cloud con un numero crescente di CPU. Ad esempio, puoi raggiungere da 500 MB/s a 700 MB/s per messaggi da 1 kB su un'istanza Compute Engine a 16 core.

Durata del timeout di pubblicazione inadeguata

Per ridurre la percentuale di timeout per le chiamate di pubblicazione, assicurati di avere definito un timeout sufficientemente lungo nelle impostazioni per i nuovi tentativi del client del publisher. Per le impostazioni relative ai nuovi tentativi, imposta la scadenza iniziale su 10 secondi e il timeout totale su 600 secondi. Anche se non stai accumulando un grande backlog di messaggi non inviati, picchi occasionali nella latenza delle richieste possono causare il timeout delle chiamate di pubblicazione. Tuttavia, se i problemi sono causati da un collo di bottiglia persistente, anziché da timeout occasionali, riprovare più volte potrebbe causare più errori.

Problemi relativi alla libreria client

È possibile che tu stia eseguendo una versione della libreria client con un problema noto. Il seguente elenco include gli strumenti di monitoraggio dei problemi per tutte le librerie client. Se rilevi un problema noto che interessa la versione della libreria client in uso, esegui l'upgrade alla versione più recente della libreria client. In questo modo avrai la certezza di aver ricevuto tutti gli aggiornamenti pertinenti, inclusi correzioni e miglioramenti delle prestazioni.

Problemi relativi allo schema

Se le tue pubblicazioni iniziano a restituire INVALID_ARGUMENT, è possibile che qualcuno abbia aggiornato l'argomento per modificare lo schema associato, eliminato lo schema o eliminato le revisioni dello schema associate all'argomento. In questo caso, aggiorna le impostazioni dello schema dell'argomento con uno schema e una serie di revisioni corrispondenti ai messaggi da pubblicare oppure modifica il formato dei messaggi in modo che corrisponda allo schema attuale.

Problemi di crittografia dei messaggi

Se hai configurato l'argomento Pub/Sub in modo da criptare i messaggi pubblicati utilizzando una chiave di crittografia gestita dal cliente, la pubblicazione potrebbe non riuscire e restituire un errore FAILED_PRECONDITION. Questo errore può verificarsi se la chiave Cloud KMS è disabilitata o se le chiavi gestite esternamente tramite Cloud EKM non sono più accessibili. Per riprendere la pubblicazione, ripristina l'accesso alla chiave.