Trasmettere flussi di messaggi Pub/Sub Lite utilizzando Dataflow
In alternativa alla scrittura ed esecuzione dei tuoi programmi di elaborazione dati, puoi utilizzare Dataflow con il connettore I/O Pub/Sub Lite per Apache Beam. Dataflow è un servizio completamente gestito per la trasformazione e l'arricchimento dei dati in modalità flusso (in tempo reale) e batch con uguale affidabilità ed espressività. Esegue in modo affidabile i programmi sviluppati utilizzando l'SDK Apache Beam, che dispone di un insieme estendibile di potenti astrazioni di elaborazione con stato e connettori I/O per altri sistemi di streaming e batch.
Questa guida rapida illustra come scrivere una pipeline Apache Beam che:
- Leggere i messaggi da Pub/Sub Lite
- Raggruppa i messaggi in base al timestamp di pubblicazione
- Scrivere i messaggi in Cloud Storage
Inoltre, illustra come:
- Invia la pipeline da eseguire su Dataflow
- Creare un modello flessibile Dataflow dalla pipeline
Questo tutorial richiede Maven, ma è anche possibile convertire il progetto di esempio da Maven a Gradle. Per scoprire di più, consulta la sezione Facoltativo: converti da Maven a Gradle.
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
Create or select a Google Cloud project.
-
Create a Google Cloud project:
gcloud projects create PROJECT_ID
Replace
PROJECT_ID
with a name for the Google Cloud project you are creating. -
Select the Google Cloud project that you created:
gcloud config set project PROJECT_ID
Replace
PROJECT_ID
with your Google Cloud project name.
-
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Pub/Sub Lite, Dataflow, Google Cloud Storage JSON API, and Cloud Logging APIs:
gcloud services enable pubsublite.googleapis.com
dataflow.googleapis.com storage-api.googleapis.com logging.googleapis.com -
Set up authentication:
-
Create the service account:
gcloud iam service-accounts create SERVICE_ACCOUNT_NAME
Replace
SERVICE_ACCOUNT_NAME
with a name for the service account. -
Grant roles to the service account. Run the following command once for each of the following IAM roles:
roles/dataflow.worker, roles/storage.objectAdmin, roles/pubsublite.admin
:gcloud projects add-iam-policy-binding PROJECT_ID --member="serviceAccount:SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com" --role=ROLE
Replace the following:
SERVICE_ACCOUNT_NAME
: the name of the service accountPROJECT_ID
: the project ID where you created the service accountROLE
: the role to grant
-
Grant the required role to the principal that will attach the service account to other resources.
gcloud iam service-accounts add-iam-policy-binding SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com --member="user:USER_EMAIL" --role=roles/iam.serviceAccountUser
Replace the following:
SERVICE_ACCOUNT_NAME
: the name of the service accountPROJECT_ID
: the project ID where you created the service accountUSER_EMAIL
: the email address for a Google Account
-
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
Create or select a Google Cloud project.
-
Create a Google Cloud project:
gcloud projects create PROJECT_ID
Replace
PROJECT_ID
with a name for the Google Cloud project you are creating. -
Select the Google Cloud project that you created:
gcloud config set project PROJECT_ID
Replace
PROJECT_ID
with your Google Cloud project name.
-
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Pub/Sub Lite, Dataflow, Google Cloud Storage JSON API, and Cloud Logging APIs:
gcloud services enable pubsublite.googleapis.com
dataflow.googleapis.com storage-api.googleapis.com logging.googleapis.com -
Set up authentication:
-
Create the service account:
gcloud iam service-accounts create SERVICE_ACCOUNT_NAME
Replace
SERVICE_ACCOUNT_NAME
with a name for the service account. -
Grant roles to the service account. Run the following command once for each of the following IAM roles:
roles/dataflow.worker, roles/storage.objectAdmin, roles/pubsublite.admin
:gcloud projects add-iam-policy-binding PROJECT_ID --member="serviceAccount:SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com" --role=ROLE
Replace the following:
SERVICE_ACCOUNT_NAME
: the name of the service accountPROJECT_ID
: the project ID where you created the service accountROLE
: the role to grant
-
Grant the required role to the principal that will attach the service account to other resources.
gcloud iam service-accounts add-iam-policy-binding SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com --member="user:USER_EMAIL" --role=roles/iam.serviceAccountUser
Replace the following:
SERVICE_ACCOUNT_NAME
: the name of the service accountPROJECT_ID
: the project ID where you created the service accountUSER_EMAIL
: the email address for a Google Account
-
-
Create local authentication credentials for your user account:
gcloud auth application-default login
Configura il progetto Pub/Sub Lite
Crea variabili per il bucket Cloud Storage, il progetto e la regione Dataflow. I nomi dei bucket Cloud Storage devono essere univoci a livello globale. La regione Dataflow deve essere una regione valida in cui puoi eseguire il job. Per saperne di più su regioni e località, consulta Località di Dataflow.
export PROJECT_ID=$(gcloud config get-value project)
export SERVICE_ACCOUNT=SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com
export BUCKET=BUCKET_NAME
export DATAFLOW_REGION=DATAFLOW_REGION
Crea un bucket Cloud Storage di proprietà di questo progetto:
gcloud storage buckets create gs://$BUCKET
Creare un argomento e una sottoscrizione Pub/Sub Lite a livello di zona
Crea un argomento Pub/Sub Lite zonale e una sottoscrizione Lite.
Per la località Lite, scegli una località Pub/Sub Lite supportata. Devi anche
specificare una zona per la regione. Ad esempio, us-central1-a
.
export TOPIC=LITE_TOPIC_ID
export SUBSCRIPTION=LITE_SUBSCRIPTION_ID
export LITE_LOCATION=LITE_LOCATION
gcloud pubsub lite-topics create $TOPIC \ --location=$LITE_LOCATION \ --partitions=1 \ --per-partition-bytes=30GiB
gcloud pubsub lite-subscriptions create $SUBSCRIPTION \ --location=$LITE_LOCATION \ --topic=$TOPIC \ --starting-offset=beginning
Invia messaggi in streaming a Dataflow
Scarica il codice campione della guida di avvio rapido
Clona il repository della guida rapida e vai alla directory del codice campione.
git clone https://github.com/GoogleCloudPlatform/java-docs-samples.git
cd java-docs-samples/pubsublite/streaming-analytics
Codice di esempio
Questo codice campione utilizza Dataflow per:
- Leggi i messaggi da una sottoscrizione Pub/Sub Lite come origine illimitata.
- Raggruppa i messaggi in base ai relativi timestamp di pubblicazione utilizzando intervalli di tempo fissi e l'attivatore predefinito.
Scrive i messaggi raggruppati in file su Cloud Storage.
Java
Prima di eseguire questo esempio, segui le istruzioni di configurazione di Java riportate in Librerie client Pub/Sub Lite.
Avvia la pipeline Dataflow
Per avviare la pipeline in Dataflow, esegui il seguente comando:
mvn compile exec:java \
-Dexec.mainClass=examples.PubsubliteToGcs \
-Dexec.args=" \
--subscription=projects/$PROJECT_ID/locations/$LITE_LOCATION/subscriptions/$SUBSCRIPTION \
--output=gs://$BUCKET/samples/output \
--windowSize=1 \
--project=$PROJECT_ID \
--region=$DATAFLOW_REGION \
--tempLocation=gs://$BUCKET/temp \
--runner=DataflowRunner \
--serviceAccount=$SERVICE_ACCOUNT"
Il comando precedente avvia un job Dataflow. Segui il link nell'output della console per accedere al job nella console di monitoraggio Dataflow.
Osserva l'avanzamento del job
Osserva l'avanzamento del job nella console Dataflow.
Apri la visualizzazione dei dettagli del job per vedere:
- Grafico del job
- Dettagli esecuzione
- Metriche del job
Pubblica alcuni messaggi nell'argomento Lite.
gcloud pubsub lite-topics publish $TOPIC \
--location=$LITE_LOCATION \
--message="Hello World!"
Potresti dover attendere qualche minuto prima di vedere i messaggi nei log del tuo worker.
Utilizza il comando seguente per controllare quali file sono stati scritti in Cloud Storage.
gcloud storage ls "gs://$BUCKET/samples/"
L'output dovrebbe essere simile al seguente:
gs://$BUCKET/samples/output-19:41-19:42-0-of-1
gs://$BUCKET/samples/output-19:47-19:48-0-of-1
gs://$BUCKET/samples/output-19:48-19:49-0-of-1
Utilizza il comando seguente per esaminare i contenuti di un file:
gcloud storage cat "gs://$BUCKET/samples/your-filename"
(Facoltativo) Crea un modello Dataflow
Se vuoi, puoi creare un modello flessibile Dataflow personalizzato in base alla tua pipeline. I modelli Dataflow ti consentono di eseguire job con diversi parametri di input dalla console Google Cloud o dalla riga di comando senza dover configurare un ambiente di sviluppo Java completo.
Crea un JAR completo che includa tutte le dipendenze della pipeline. Dovresti vedere
target/pubsublite-streaming-bundled-1.0.jar
dopo l'esecuzione del comando.mvn clean package -DskipTests=true
Fornisci nomi e posizioni per il file del modello e l'immagine del contenitore del modello.
export TEMPLATE_PATH="gs://$BUCKET/samples/your-template-file.json"
export TEMPLATE_IMAGE="gcr.io/$PROJECT_ID/your-template-image:latest"
Crea un modello flessibile personalizzato. Nell'esempio è stato fornito un file
metadata.json
obbligatorio, che contiene le specifiche necessarie per eseguire il job.gcloud dataflow flex-template build $TEMPLATE_PATH \ --image-gcr-path $TEMPLATE_IMAGE \ --sdk-language "JAVA" \ --flex-template-base-image "JAVA11" \ --metadata-file "metadata.json" \ --jar "target/pubsublite-streaming-bundled-1.0.jar" \ --env FLEX_TEMPLATE_JAVA_MAIN_CLASS="examples.PubsubliteToGcs"
Esegui un job utilizzando il modello flessibile personalizzato.
Console
Inserisci un nome job.
Inserisci la regione Dataflow.
Scegli il modello personalizzato.
Inserisci il percorso del modello.
Inserisci i parametri richiesti.
Fai clic su Esegui job.
gcloud
gcloud dataflow flex-template run "pubsublite-to-gcs-`date +%Y%m%d`" \
--template-file-gcs-location $TEMPLATE_PATH \
--parameters subscription="projects/$PROJECT_ID/locations/$LITE_LOCATION/subscriptions/$SUBSCRIPTION" \
--parameters output="gs://$BUCKET/samples/template-output" \
--parameters windowSize=1 \
--region $DATAFLOW_REGION \
--serviceAccount=$SERVICE_ACCOUNT
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate su questa pagina, elimina il progetto Google Cloud con le risorse.
Nella console Dataflow, arresta il job. Annullare la pipeline instead of draining it.
Elimina l'argomento e la sottoscrizione.
gcloud pubsub lite-topics delete $TOPIC
gcloud pubsub lite-subscriptions delete $SUBSCRIPTION
Elimina i file creati dalla pipeline.
gcloud storage rm "gs://$BUCKET/samples/*" --recursive --continue-on-error
gcloud storage rm "gs://$BUCKET/temp/*" --recursive --continue-on-error
Elimina l'immagine del modello e il file del modello, se esistenti.
gcloud container images delete $TEMPLATE_IMAGE
gcloud storage rm $TEMPLATE_PATH
Rimuovi il bucket Cloud Storage.
gcloud storage rm gs://$BUCKET --recursive
-
Elimina l'account di servizio:
gcloud iam service-accounts delete SERVICE_ACCOUNT_EMAIL
-
Optional: Revoke the authentication credentials that you created, and delete the local credential file.
gcloud auth application-default revoke
-
Optional: Revoke credentials from the gcloud CLI.
gcloud auth revoke
Passaggi successivi
Scopri di più sulla configurazione dei modelli flessibili Dataflow.
Scopri le pipeline in modalità flusso di Dataflow.