Streaming di messaggi Pub/Sub tramite WebSocket


Questo tutorial illustra un modo per consentire a un'app frontend, in questo caso una pagina web, di gestire elevati volumi di dati in entrata quando utilizzi Google Cloud. Il tutorial descrive alcune delle difficoltà degli stream ad alto volume. Questo tutorial fornisce un'app di esempio che illustra come utilizzare WebSockets per visualizzare uno stream denso di messaggi pubblicati in un argomento Pub/Sub, elaborandoli in modo tempestivo in modo da mantenere un frontend efficiente.

Questo tutorial è rivolto agli sviluppatori che hanno dimestichezza con la comunicazione browser-to-server su HTTP e con la scrittura di app frontend utilizzando HTML, CSS e JavaScript. Il tutorial presuppone che tu abbia una certa esperienza con Google Cloud e che tu abbia dimestichezza con gli strumenti a riga di comando di Linux.

Obiettivi

  • Crea e configura un'istanza di una macchina virtuale (VM) con i componenti necessari per trasmettere in streaming i payload di una sottoscrizione Pub/Sub ai client del browser.
  • Configura un processo sulla VM per iscriverti a un argomento Pub/Sub e inviare i singoli messaggi a un log.
  • Installa un server web per pubblicare contenuti statici e per trasmettere in streaming l'output dei comandi shell ai client WebSocket.
  • Visualizza le aggregazioni dello stream WebSocket e i singoli campioni di messaggio in un browser utilizzando HTML, CSS e JavaScript.

Costi

In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il Calcolatore prezzi. I nuovi utenti di Google Cloud potrebbero essere idonei per una prova gratuita.

Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Apri Cloud Shell per eseguire i comandi elencati in questo tutorial.

    VAI A Cloud Shell

    Esegui tutti i comandi del terminale in questo tutorial da Cloud Shell.

  7. Abilita l'API Compute Engine e l'API Pub/Sub:
    gcloud services enable compute pubsub

Al termine di questo tutorial, puoi evitare la fatturazione continua eliminando le risorse che hai creato. Per ulteriori dettagli, consulta la sezione Pulizia.

Introduzione

Poiché sempre più app adottano modelli basati su eventi, è importante che le app frontend siano in grado di stabilire connessioni semplici e senza attriti con i servizi di messaggistica che costituiscono la pietra angolare di queste architetture.

Esistono diverse opzioni per lo streaming dei dati ai client dei browser web. La più comune è WebSockets. Questo tutorial illustra la procedura di installazione di un processo che si iscrive a uno stream di messaggi pubblicati in un argomento Pub/Sub e inoltra questi messaggi tramite il server web ai client connessi tramite WebSocket.

Per questo tutorial, utilizzerai l'argomento Pub/Sub disponibile pubblicamente utilizzato nel codelab di Google Dataflow NYC Taxi Tycoon. Questo argomento fornisce uno stream in tempo reale di telemetria simulata dei taxi basato su dati storici delle corse acquisiti a New York dai set di dati dei registri delle corse della Taxi & Limousine Commission.

Architettura

Il seguente diagramma mostra l'architettura del tutorial che crei in questo tutorial.

Architettura del tutorial

Il diagramma mostra un publisher di messaggi esterno al progetto che contiene la risorsa Compute Engine. Il publisher invia messaggi a un argomento Pub/Sub. L'istanza Compute Engine rende disponibili i messaggi tramite WebSocket a un browser che esegue una dashboard basata su HTML5 e JavaScript.

Questo tutorial utilizza una combinazione di strumenti per collegare Pub/Sub e le web socket:

  • pulltop è un programma Node.js che installi nell'ambito di questo tutorial. Lo strumento si iscrive a un argomento Pub/Sub e invia in streaming i messaggi ricevuti all'output standard.
  • websocketd è un piccolo strumento a riga di comando che avvolge un programma di interfaccia a riga di comando esistente e consente di accedervi utilizzando un WebSocket.

Combinando pulltop e websocketd, puoi avere i messaggi ricevuti dall'argomento Pub/Sub in streaming in un browser utilizzando WebSocket.

Modificare il throughput degli argomenti Pub/Sub

L'argomento Pub/Sub pubblico di NYC Taxi Tycoon genera da 2000 a 2500 aggiornamenti al secondo delle corse in taxi simulate, fino a 8 MB o più al secondo. Il controllo del flusso integrato in Pub/Sub rallenta automaticamente la frequenza di invio dei messaggi di un sottoscrittore se Pub/Sub rileva una coda in crescita di messaggi non confermati. Di conseguenza, potresti notare una elevata variabilità della frequenza di messaggi tra diverse stazioni di lavoro, connessioni di rete e codice di elaborazione front-end.

Elaborazione efficace dei messaggi del browser

Dato l'elevato volume di messaggi in arrivo tramite lo stream WebSocket, devi prestare attenzione a scrivere il codice frontend che elabora questo stream. Ad esempio, puoi creare dinamicamente elementi HTML per ogni messaggio. Tuttavia, con la frequenza di messaggi prevista, l'aggiornamento della pagina per ogni messaggio potrebbe bloccare la finestra del browser. Le allocazioni di memoria frequenti che derivano dalla creazione dinamica degli elementi HTML estendono anche le durate garbage collection, peggiorando l'esperienza utente. In breve, non vuoi chiamare document.createElement() per ciascuno dei circa 2000 messaggi che arrivano ogni secondo.

L'approccio adottato in questo tutorial per gestire questo flusso denso di messaggi è il seguente:

  • Calcola e aggiorna continuamente un insieme di metriche dello stream in tempo reale, visualizzando la maggior parte delle informazioni sui messaggi osservati come valori aggregati.
  • Utilizza una dashboard basata su browser per visualizzare un piccolo campione di singoli messaggi su una pianificazione predefinita, mostrando solo gli eventi di consegna e ritiro in tempo reale.

La figura seguente mostra la dashboard creata nell'ambito di questo tutorial.

Dashboard creata nella pagina web dal codice di questo tutorial

La figura mostra una latenza dell'ultimo messaggio di 24 millisecondi a una frequenza di quasi 2100 messaggi al secondo. Se i percorsi di codice critici per l'elaborazione di ogni singolo messaggio non vengono completati in tempo, il numero di messaggi osservati al secondo diminuisce con l'aumento della latenza dell'ultimo messaggio. Il campionamento dei viaggi viene eseguito utilizzando l'API JavaScript setInterval impostata su un ciclo ogni tre secondi, il che impedisce al frontend di creare un numero enorme di elementi DOM nel corso della sua vita. La maggior parte di questi attacchi è comunque praticamente non osservabile a velocità superiori a 10 al secondo.

La dashboard inizia a elaborare gli eventi nel mezzo dello stream, quindi le corse già in corso vengono riconosciute come nuove dalla dashboard, a meno che non siano state già visualizzate. Il codice utilizza un array associativo per memorizzare ogni corsa osservata, indicizzata dal valore ride_id, e rimuove il riferimento a una determinata corsa quando il passeggero è stato scaricato. Le corse in stato "in viaggio" o "ritiro" aggiungono un riferimento a quell'array, a meno che (per il caso di "in viaggio") la corsa non sia stata osservata in precedenza.

Installa e configura il server WebSocket

Per iniziare, crea un'istanza Compute Engine da utilizzare come server WebSocket. Dopo aver creato l'istanza, installa gli strumenti di cui avrai bisogno in un secondo momento.

  1. In Cloud Shell, imposta la zona Compute Engine predefinita. L'esempio seguente mostra us-central1-a, ma puoi utilizzare qualsiasi zona.

    gcloud config set compute/zone us-central1-a
    
  2. Crea un'istanza Compute Engine denominata websocket-server nella zona predefinita:

    gcloud compute instances create websocket-server --tags wss
    
  3. Aggiungi una regola firewall che consenta il traffico TCP sulla porta 8000 a qualsiasi istanza contrassegnata come wss:

    gcloud compute firewall-rules create websocket \
        --direction=IN \
        --allow=tcp:8000 \
        --target-tags=wss
    
  4. Se utilizzi un progetto esistente, assicurati che la porta TCP 22 sia aperta per consentire la connettività SSH all'istanza.

    Per impostazione predefinita, la regola firewall default-allow-ssh è attivata nella rete predefinita. Tuttavia, se tu o l'amministratore avete rimosso la regola predefinita in un progetto esistente, la porta TCP 22 potrebbe non essere aperta. Se hai creato un nuovo progetto per questo tutorial, la regola è attiva per impostazione predefinita e non devi fare nulla.

    Aggiungi una regola firewall che consenta il traffico TCP sulla porta 22 a qualsiasi istanza contrassegnata come wss:

    gcloud compute firewall-rules create wss-ssh \
        --direction=IN \
        --allow=tcp:22 \
        --target-tags=wss
    
  5. Connettiti all'istanza tramite SSH:

    gcloud compute ssh websocket-server
    
  6. Al comando del terminale dell'istanza, passa all'account root per poter installare il software:

    sudo -s
    
  7. Installa gli strumenti git e unzip:

    apt-get install -y unzip git
    
  8. Installa il programma binario websocketd sull'istanza:

    cd /var/tmp/
    wget \
    https://github.com/joewalnes/websocketd/releases/download/v0.3.0/websocketd-0.3.0-linux_386.zip
    unzip websocketd-0.3.0-linux_386.zip
    mv websocketd /usr/bin
    

Installa Node.js e il codice del tutorial

  1. In un terminale dell'istanza, installa Node.js:

    curl -sL https://deb.nodesource.com/setup_10.x | bash -
    apt-get install -y nodejs
    
  2. Scarica il repository di codice sorgente del tutorial:

    exit
    cd ~
    git clone https://github.com/GoogleCloudPlatform/solutions-pubsub-websockets.git
    
  3. Modifica le autorizzazioni su pulltop per consentire l'esecuzione:

    cd solutions-pubsub-websockets
    chmod 755 pulltop/pulltop.js
    
  4. Installa le dipendenze di pulltop:

    cd pulltop
    npm install
    sudo npm link
    

Verifica che il pulltop possa leggere i messaggi

  1. Nell'istanza, esegui pulltop sull'argomento pubblico:

    pulltop projects/pubsub-public-data/topics/taxirides-realtime
    

    Se pulltop funziona, viene visualizzato uno stream di risultati come il seguente:

    {"ride_id":"9729a68d-fcde-484b-bc32-bf29f5188628","point_idx":328,"latitude"
    :40.757360000000006,"longitude":-73.98228,"timestamp":"2019-03-22T20:03:51.6
    593-04:00","meter_reading":11.069151,"meter_increment":0.033747412,"ride_stat
    us":"enroute","passenger_count":1}
  2. Premi Ctrl+C per interrompere lo stream.

Stabilire il flusso di messaggi verso websocketd

Ora che hai stabilito che pulltop può leggere l'argomento Pub/Sub, puoi avviare il processo websocketd per iniziare a inviare messaggi al browser.

Acquisisci i messaggi degli argomenti in un file locale

Per questo tutorial, acquisisci lo stream di messaggi che ricevi da pulltop e lo scrivi in un file locale. La cattura del traffico dei messaggi in un file locale aggiunge un requisito di archiviazione, ma disaccoppia anche il funzionamento del processo websocketd dai messaggi degli argomenti Pub/Sub in streaming. La cattura delle informazioni localmente consente scenari in cui potresti voler interrompere temporaneamente lo streaming di Pub/Sub (ad esempio per regolare i parametri di controllo del flusso), ma non forzare un ripristino dei client WebSocket attualmente connessi. Quando lo stream di messaggi viene ristabilito, websocketd riprende automaticamente lo streaming dei messaggi ai client.

  1. Nell'istanza, esegui pulltop sull'argomento pubblico e reindirizza l'output del messaggio al file taxi.json locale. Il comando nohup indica al sistema operativo di mantenere in esecuzione il processo pulltop se esci o chiudi il terminale.

    nohup pulltop \
      projects/pubsub-public-data/topics/taxirides-realtime > \
      /var/tmp/taxi.json &
    
  2. Verifica che i messaggi JSON vengano scritti nel file:

    tail /var/tmp/taxi.json
    

    Se i messaggi vengono scritti nel file taxi.json, l'output è simile al seguente:

    {"ride_id":"9729a68d-fcde-484b-bc32-bf29f5188628","point_idx":328,"latitude"
    :40.757360000000006,"longitude":-73.98228,"timestamp":"2019-03-22T20:03:51.6
    593-04:00","meter_reading":11.069151,"meter_increment":0.033747412,"ride_sta
    tus":"enroute","passenger_count":1}
  3. Passa alla cartella web della tua app:

    cd ../web
    
  4. Avvia websocketd per iniziare a trasmettere in streaming i contenuti del file locale utilizzando WebSockets:

    nohup websocketd --port=8000 --staticdir=. tail -f /var/tmp/taxi.json &
    

    Viene eseguito il comando websocketd in background. Lo strumento websocketd utilizza l'output del comando tail e riproduce in streaming ogni elemento come messaggio WebSocket.

  5. Controlla i contenuti di nohup.out per verificare che il server sia stato avviato correttamente:

    tail nohup.out
    

    Se tutto funziona correttamente, l'output è simile al seguente:

    Mon, 25 Mar 2019 14:03:53 -0400 | INFO   | server     |  | Serving using application   : /usr/bin/tail -f /var/tmp/taxi.json
    Mon, 25 Mar 2019 14:03:53 -0400 | INFO   | server     |  | Serving static content from : .
    

Visualizzazione dei messaggi

I singoli messaggi relativi alle corse pubblicati nell'argomento Pub/Sub hanno una struttura simile a questa:

{
  "ride_id": "562127d7-acc4-4af9-8fdd-4eedd92b6e69",
  "point_idx": 248,
  "latitude": 40.74644000000001,
  "longitude": -73.97144,
  "timestamp": "2019-03-24T00:46:08.49094-04:00",
  "meter_reading": 8.40615,
  "meter_increment": 0.033895764,
  "ride_status": "enroute",
  "passenger_count": 1
}

In base a questi valori, calcola diverse metriche per l'intestazione della dashboard. I calcoli vengono eseguiti una volta per evento di corsa in entrata. I valori includono quanto segue:

  • Latenza dell'ultimo messaggio. Il numero di secondi tra il timestamp dell'evento dell'ultima corsa osservata e l'ora corrente (derivata dall'orologio del sistema che ospita il browser web).
  • Gite attive. Il numero di corse attualmente in corso. Questo numero può crescere rapidamente e diminuisce quando viene osservato un valore ride_status di dropoff.
  • Frequenza dei messaggi. Il numero medio di eventi relativi alle corse elaborati al secondo.
  • Importo totale misurato. La somma dei metri di tutte le corse attive. Questo numero diminuisce man mano che le corse vengono abbandonate.
  • Numero totale di passeggeri. Il numero di passeggeri su tutte le corse. Questo numero diminuisce man mano che le corse vengono completate.
  • Numero medio di passeggeri per corsa. Il numero totale di corse, diviso per il numero totale di passeggeri.
  • Importo medio misurato per passeggero. L'importo totale misurato diviso per il numero totale di passeggeri.

Oltre alle metriche e ai singoli campioni di corsa, quando un passeggero viene raccolto o scaricato, la dashboard mostra una notifica di avviso sopra la griglia dei campioni di corsa.

  1. Ottieni l'indirizzo IP esterno dell'istanza corrente:

    curl -H "Metadata-Flavor: Google" http://metadata/computeMetadata/v1/instance/network-interfaces/0/access-configs/0/external-ip; echo
    
    
  2. Copia l'indirizzo IP.

  3. Sul computer locale, apri un nuovo browser web e inserisci l'URL:

    http://$ip-address:8000.

    Viene visualizzata una pagina che mostra la dashboard di questo tutorial:

    Dashboard creata tramite codice in questo tutorial, con messaggio di benvenuto e prima della visualizzazione di qualsiasi dato.

  4. Fai clic sull'icona del taxi in alto per aprire una connessione allo stream e iniziare a elaborare i messaggi.

    Le singole corse vengono visualizzate con un campione di nove corse attive che viene visualizzato ogni tre secondi:

    Dashboard che mostra le corse attive.

    Puoi fare clic sull'icona del taxi in qualsiasi momento per avviare o interrompere lo stream WebSocket. Se la connessione WebSocket viene interrotta, l'icona diventa rossa e gli aggiornamenti delle metriche e delle singole corse vengono interrotti. Per ricollegarti, fai di nuovo clic sull'icona del taxi.

Prestazioni

Lo screenshot seguente mostra il monitoraggio delle prestazioni degli Strumenti per sviluppatori di Chrome mentre la scheda del browser elabora circa 2100 messaggi al secondo.

Riquadro del monitoraggio delle prestazioni del browser che mostra l'utilizzo della CPU, le dimensioni dell'heap, i nodi DOM e i ricollegamenti degli stili al secondo. I valori sono relativamente uniformi.

Poiché l'invio dei messaggi avviene con una latenza di circa 30 ms, l'utilizzo della CPU media è di circa l'80%. L'utilizzo della memoria è indicato come minimo per 29 MB, con 57 MB allocati in totale, che possono aumentare e diminuire liberamente.

Esegui la pulizia

Rimuovi le regole firewall

Se hai utilizzato un progetto esistente per questo tutorial, puoi rimuovere le regole del firewall che hai creato. È buona norma ridurre al minimo le porte aperte.

  1. Elimina la regola firewall che hai creato per consentire il traffico TCP sulla porta 8000:

    gcloud compute firewall-rules delete websocket
    
  2. Se hai creato anche una regola firewall per consentire la connettività SSH, elimina la regola firewall per consentire il TCP sulla porta 22:

    gcloud compute firewall-rules delete wss-ssh
    

Elimina il progetto

Se non vuoi utilizzarlo di nuovo, puoi eliminarlo.

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Passaggi successivi