La pagina spiega come utilizzare Dataflow SQL e creare Dataflow SQL di lavoro.
Per creare un job Dataflow SQL, devi scrivere e eseguire una query Dataflow SQL.
Utilizzare l'editor Dataflow SQL
L'editor SQL di Dataflow è una pagina della console Google Cloud in cui puoi scrivere ed eseguire query per creare job Dataflow SQL.
Per accedere all'editor Dataflow SQL:
Nella console Google Cloud, vai alla pagina Editor SQL di Dataflow.
Puoi anche accedere all'editor SQL di Dataflow dal Dataflow dell'interfaccia di monitoraggio seguendo questi passaggi:
Nella console Google Cloud, vai ai Job di Dataflow. .
Nel menu Dataflow, fai clic su Spazio di lavoro SQL.
Scrivi query SQL di Dataflow
Le query SQL di Dataflow utilizzano la sintassi delle query SQL di Dataflow. La sintassi delle query SQL di Dataflow è simile a quella SQL standard di BigQuery.
Puoi utilizzare le estensioni di gestione dei flussi di Dataflow SQL per aggregare i dati provenienti da origini Dataflow in aggiornamento continuo come Pub/Sub.
Ad esempio, la seguente query conteggia i passeggeri in un flusso Pub/Sub di corse in taxi ogni minuto:
SELECT DATETIME(tr.window_start) AS starttime, SUM(tr.passenger_count) AS pickup_count FROM TUMBLE ((SELECT * FROM pubsub.topic.`pubsub-public-data`.`taxirides-realtime`), DESCRIPTOR(event_timestamp), 'INTERVAL 1 MINUTE') AS tr WHERE tr.ride_status = "pickup" GROUP BY DATETIME(tr.window_start)
esegui le query SQL di Dataflow
Quando esegui una query SQL di Dataflow, Dataflow trasforma una query in una pipeline Apache Beam ed esegue la pipeline.
Puoi eseguire una query Dataflow SQL utilizzando la console Google Cloud o Google Cloud CLI.
Console
Per eseguire una query SQL di Dataflow, utilizza l'editor SQL di Dataflow:
Vai alla pagina Editor SQL Dataflow.
Inserisci la query SQL di Dataflow nell'editor delle query.
Fai clic su Crea job per aprire un riquadro di opzioni relative al job.
(Facoltativo) In Nome job, inserisci un nome univoco per il job.
Per Endpoint a livello di regione, seleziona un valore dal menu.
(Facoltativo) Fai clic su Mostra parametri facoltativi e inserisci i valori per i delle opzioni della pipeline Dataflow.
Per Destinazione, seleziona un Tipo di output, quindi inserisci per i campi forniti.
(Facoltativo) Nella sezione Parametri di query SQL, aggiungi i parametri, quindi inserisci i valori nei campi forniti.
Fai clic su Crea.
gcloud
Per eseguire una query SQL di Dataflow, utilizza gcloud dataflow sql query
. Di seguito è riportato un esempio di query SQL che crea
gcloud dataflow sql query \ --job-name=JOB_NAME \ --region=REGION \ --bigquery-table=BIGQUERY_TABLE \ --bigquery-dataset=BIGQUERY_DATASET \ --bigquery-project=BIGQUERY_PROJECT \ 'SQL_QUERY'
Sostituisci quanto segue:
JOB_NAME
: un nome per il job Dataflow SQLREGION
: la posizione di Dataflow per il deployment del job DataflowBIGQUERY_TABLE
: il nome del Tabella BigQuery in cui scrivere l'outputBIGQUERY_DATASET
: l'ID set di dati BigQuery che contiene la tabella di outputBIGQUERY_PROJECT
: l'ID del progetto Google Cloud che contiene la tabella BigQuery di outputSQL_QUERY
: la tua query SQL di Dataflow
Impostare le opzioni della pipeline
Puoi impostare le opzioni della pipeline Dataflow per i job Dataflow SQL. Le opzioni della pipeline Dataflow sono parametri di esecuzione che configurano come e dove eseguire le query SQL di Dataflow.
Per impostare le opzioni della pipeline Dataflow per i job SQL di Dataflow, Specifica i seguenti parametri quando esegui una query SQL di Dataflow.
Console
Parametro | Tipo | Descrizione | Valore predefinito |
---|---|---|---|
Endpoint regionale | String |
La regione in cui eseguire la query. Le query Dataflow SQL possono essere eseguite nelle regioni che dispongono di una località Dataflow. | Se non impostato, il valore predefinito è us-central1. |
N. massimo di worker | int |
Il numero massimo di istanze Compute Engine disponibili della pipeline durante l'esecuzione. | Se non specificato, il servizio Dataflow determina automaticamente un numero appropriato di worker. |
Regione del worker | String |
La regione Compute Engine per l'avvio delle istanze di worker per eseguire la pipeline. La La regione dei worker di Compute Engine può trovarsi in una regione diversa da quella regione del job Dataflow. | Se non è impostato, viene utilizzata per impostazione predefinita la regione Dataflow specificata. |
Zona worker | String |
La zona di Compute Engine per avviare le istanze worker al fine di eseguire la pipeline. La zona Compute Engine può trovarsi in una regione diversa da quella del job Dataflow. |
Se non viene configurato, il valore predefinito corrisponde a una zona nella regione del worker. Se la regione dei worker non è impostata, viene utilizzata per impostazione predefinita una zona nella regione Dataflow specificata. |
Email dell'account di servizio | String |
L'indirizzo email dell'account di servizio di lavoro con cui eseguire la pipeline. L'indirizzo email deve essere nel formato
my-service-account-name@<project-id>.iam.gserviceaccount.com .
|
Se non è impostato, i worker Dataflow utilizzano l'account di servizio Compute Engine del progetto corrente come account di servizio del worker. |
Tipo di macchina | String |
Il tipo di macchina di Compute Engine Utilizza Dataflow all'avvio dei worker. Puoi utilizzare qualsiasi famiglia di tipi di macchine Compute Engine disponibile, nonché tipi di macchine personalizzate. Per ottenere risultati ottimali, utilizza Tieni presente che Dataflow fattura in base al numero di vCPU e GB di memoria nei worker. La fatturazione è indipendente dalla famiglia di tipi di macchine. |
Se non è impostato, Dataflow sceglie automaticamente il tipo di macchina. |
Altri esperimenti | String |
Gli esperimenti da attivare. Un esperimento può essere un valore, come
enable_streaming_engine , o una coppia chiave-valore, come
shuffle_mode=service . Gli esperimenti devono essere in un
elenco separato da virgole. |
Se non specificato, non vengono attivati esperimenti. |
Configurazione dell'indirizzo IP del worker | String |
Specifica se i worker di Dataflow utilizzano indirizzi IP pubblici. Se il valore è impostato su Se il valore è impostato su |
Se non viene configurato, il valore predefinito è Public . |
Rete | String |
La rete di Compute Engine che quali worker sono assegnati. | Se il criterio non viene configurato, viene utilizzata per impostazione predefinita la rete default . |
Subnet | String |
La subnet di Compute Engine
a cui sono assegnati i worker. La sottorete deve avere il formato
regions/region/subnetworks/subnetwork . |
Se non viene impostato, Dataflow determina automaticamente la subnet. |
gcloud
Bandiera | Tipo | Descrizione | Valore predefinito |
---|---|---|---|
‑‑region |
String |
La regione in cui eseguire la query. Le query SQL di Dataflow possono essere eseguite in regioni con un Località Dataflow. | Se non è impostato, viene generato un errore. |
‑‑max‑workers |
int |
Il numero massimo di istanze Compute Engine disponibili della pipeline durante l'esecuzione. | Se non specificato, Dataflow determina automaticamente un numero appropriato di worker. |
‑‑num‑workers |
int |
Il numero iniziale di istanze Compute Engine da utilizzare durante l'esecuzione della pipeline. Questo parametro determina il numero di worker Dataflow avviati all'inizio del job. | Se non specificato, Dataflow determina automaticamente un numero appropriato di worker. |
‑‑worker‑region |
String |
La regione di Compute Engine per avviare le istanze worker al fine di eseguire la pipeline. La La regione dei worker di Compute Engine può trovarsi in una regione diversa da quella regione del job Dataflow.
Puoi specificare uno tra
|
Se non viene configurato, il valore predefinito è il Dataflow specificato regione. |
‑‑worker‑zone |
String |
La zona di Compute Engine per avviare le istanze worker al fine di eseguire la pipeline. La zona Compute Engine può trovarsi in una regione diversa da quella del job Dataflow.
Puoi specificare uno tra
|
Se non è impostato, viene utilizzato per impostazione predefinita una zona nella regione Dataflow specificata. |
‑‑worker‑machine‑type |
String |
Il tipo di macchina di Compute Engine Utilizza Dataflow all'avvio dei worker. Puoi utilizzare qualsiasi famiglia di tipi di macchine Compute Engine disponibile, nonché tipi di macchine personalizzate. Per ottenere risultati ottimali, utilizza Tieni presente che Dataflow fattura in base al numero di vCPU e GB di memoria nei worker. La fatturazione è indipendente dalla famiglia di tipi di macchine. |
Se non impostato, Dataflow sceglie automaticamente la macchina di testo. |
‑‑service‑account‑email |
String |
L'indirizzo email dell'account di servizio worker
con cui eseguire la pipeline. L'indirizzo email deve essere nel formato
my-service-account-name@<project-id>.iam.gserviceaccount.com .
|
Se non è impostato, i worker Dataflow utilizzano il Compute Engine dell'account di servizio del progetto attuale come account di servizio worker. |
‑‑disable‑public‑ips |
boolean |
Specifica se i worker di Dataflow utilizzano indirizzi IP pubblici. Se impostato, i worker Dataflow utilizzano indirizzi IP privati per tutte le comunicazioni. |
Se non viene configurato, i worker Dataflow utilizzano indirizzi IP pubblici. |
‑‑network |
String |
La rete di Compute Engine che quali worker sono assegnati. | Se il criterio non viene configurato, viene utilizzata per impostazione predefinita la rete default . |
‑‑subnetwork |
String |
La subnet Compute Engine
a cui sono assegnati i worker. La sottorete deve avere il formato
regions/region/subnetworks/subnetwork . |
Se non viene impostato, Dataflow determina automaticamente la subnet. |
‑‑dataflow‑kms‑key |
String |
La chiave di crittografia gestita dal cliente (CMEK) impiegata per criptare i dati at-rest. Puoi controllare la chiave di crittografia tramite Cloud KMS. La chiave deve trovarsi nella stessa posizione del job. | Se non specificato, Dataflow utilizza la crittografia Google Cloud predefinita anziché una CMEK. |
Per ulteriori informazioni, consulta la documentazione di riferimento del comando
gcloud dataflow sql query
.
Arresta i job SQL di Dataflow
Per arrestare un job SQL Dataflow, devi annullarlo.
L'arresto di un job SQL Dataflow con l'opzione drain
non è supportato.
Prezzi
Dataflow SQL utilizza i prezzi standard di Dataflow; questo elemento non ha prezzi distinti. Ti vengono addebitate le risorse utilizzate Job Dataflow che crei in base alle tue istruzioni SQL. La i costi per queste risorse corrispondono agli addebiti standard di Dataflow per vCPU, memoria, Persistent Disk, Streaming Engine e Dataflow Shuffle.
Un job SQL di Dataflow potrebbe consumare risorse aggiuntive come Pub/Sub e BigQuery, ciascuna fatturata in base ai relativi prezzi.
Per ulteriori informazioni sui prezzi di Dataflow, consulta Prezzi di Dataflow.
Passaggi successivi
- Scopri il tutorial Unione di flussi di dati con Dataflow SQL.
- Esplora Google Cloud CLI per Dataflow SQL.