Datastream supporta il trasferimento di flussi di dati dai database Oracle, MySQL e PostgreSQL direttamente nei set di dati BigQuery. Tuttavia, se hai bisogno di un maggiore controllo sulla logica di elaborazione dello stream, ad esempio la trasformazione dei dati o l'impostazione manuale delle chiavi principali logiche, puoi integrare Datastream con i modelli di job Dataflow.
Questo tutorial mostra come Datastream si integra con Dataflow utilizzando i modelli di job Dataflow per eseguire lo streaming di visualizzazioni materializzate aggiornate in BigQuery per le analisi.
Per le organizzazioni con molte origini dati isolate, l'accesso ai dati aziendali in tutta l'organizzazione, in particolare in tempo reale, può essere limitato e lento. Ciò limita la capacità di introspezione dell'organizzazione.
Datastream fornisce accesso quasi in tempo reale ai dati sulle modifiche provenienti da varie origini dati on-premise e basate su cloud. Datastream offre un'esperienza di configurazione in cui non devi eseguire molte configurazioni per i dati in streaming; è Datastream a occuparsene. Datastream dispone anche di un'API di consumo unificata che democratizza l'accesso della tua organizzazione ai dati aziendali più recenti disponibili per creare scenari integrati.
Uno di questi scenari è il trasferimento di dati da un database di origine a un servizio di archiviazione o a una coda di messaggistica basata su cloud. Dopo che Datastream ha eseguito lo streaming dei dati, questi vengono trasformati in un formato leggibile da altre applicazioni e altri servizi. In questo tutorial, Dataflow è il servizio web che comunica con il servizio di archiviazione o la coda di messaggistica per acquisire ed elaborare i dati su Google Cloud.
Scopri come utilizzare Datastream per trasmettere in streaming le modifiche (dati inseriti, aggiornati o eliminati) da un database MySQL di origine a una cartella in un bucket Cloud Storage. Poi, configura il bucket Cloud Storage in modo che invii notifiche utilizzate da Dataflow per rilevare eventuali nuovi file contenenti le modifiche ai dati che Datastream acquisisce dal database di origine. Un job Dataflow elabora quindi i file e trasferisce le modifiche in BigQuery.
Obiettivi
In questo tutorial:- Crea un bucket in Cloud Storage. Si tratta del bucket di destinazione in cui Datastream trasmette in streaming schemi, tabelle e dati da un database MySQL di origine.
- Attiva le notifiche Pub/Sub per il bucket Cloud Storage. In questo modo, configuri il bucket in modo che invii notifiche utilizzate da Dataflow per conoscere i nuovi file pronti per l'elaborazione. Questi file contengono le modifiche ai dati che Datastream trasmette dal database di origine al bucket.
- Creare set di dati in BigQuery. BigQuery utilizza i set di dati per contenere i dati che riceve da Dataflow. Questi dati rappresentano le modifiche nel database di origine che Datastream trasmette in streaming nel bucket Cloud Storage.
- Crea e gestisci i profili di connessione per un database di origine e un bucket di destinazione in Cloud Storage. Uno stream in Datastream utilizza le informazioni nei profili di connessione per trasferire i dati dal database di origine al bucket.
- Crea e avvia uno stream. Questo stream trasferisce dati, schemi e tabelle dal database di origine al bucket.
- Verifica che Datastream trasferisca i dati e le tabelle associati a uno schema del database di origine nel bucket.
- Crea un job in Dataflow. Dopo che Datastream ha eseguito lo streaming delle modifiche dei dati dal database di origine al bucket Cloud Storage, vengono inviate a Dataflow notifiche relative ai nuovi file contenenti le modifiche. Il job Dataflow elabora i file e trasferisce le modifiche in BigQuery.
- Verifica che Dataflow elabori i file contenenti le modifiche associate a questi dati e le trasferisca in BigQuery. Di conseguenza, hai un'integrazione end-to-end tra Datastream e BigQuery.
- Elimina le risorse che hai creato su Datastream, Cloud Storage, Pub/Sub, Dataflow e BigQuery in modo che non occupino la quota e non ti vengano fatturate in futuro.
Costi
In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:
- Datastream
- Cloud Storage
- Pub/Sub
- Dataflow
- BigQuery
Per generare una stima dei costi in base all'utilizzo previsto,
utilizza il Calcolatore prezzi.
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
- Abilita l'API Datastream.
- Assicurati di aver concesso il ruolo Amministratore Datastream al tuo account utente.
- Assicurati di disporre di un database MySQL di origine a cui Datastream possa accedere. Inoltre, verifica di disporre di dati, tabelle e schemi nel database.
- Configura il database MySQL in modo da consentire le connessioni in entrata dagli indirizzi IP pubblici di Datastream. Per un elenco di tutte le regioni Datastream e dei relativi indirizzi IP pubblici associati, consulta Liste consentite e regioni IP.
- Configura la tecnologia Change Data Capture (CDC) per il database di origine. Per ulteriori informazioni, consulta Configurare un database MySQL di origine.
Assicurati di soddisfare tutti i prerequisiti per attivare le notifiche Pub/Sub per Cloud Storage.
In questo tutorial, crei un bucket di destinazione in Cloud Storage e attivi le notifiche Pub/Sub per il bucket. In questo modo, Dataflow può ricevere notifiche sui nuovi file che Datastream scrive nel bucket. Questi file contengono le modifiche ai dati che Datastream trasmette dal database di origine al bucket.
Requisiti
Datastream offre una serie di opzioni di origine, opzioni di destinazione e metodi di connettività di rete.
Per questo tutorial, presupponiamo che tu stia utilizzando un database MySQL autonomo e un servizio Cloud Storage di destinazione. Per il database di origine, dovresti essere in grado di configurare la rete per aggiungere una regola firewall in entrata. Il database di origine può essere on-premise o in un provider cloud. Per la destinazione Cloud Storage, non è richiesta alcuna configurazione di connettività.
Poiché non possiamo conoscere le specifiche del tuo ambiente, non possiamo fornire passaggi dettagliati per la configurazione di rete.
Per questo tutorial, seleziona Lista consentita IP come metodo di connettività di rete. La lista consentita di IP è una funzionalità di sicurezza spesso utilizzata per limitare e controllare l'accesso ai dati nel database di origine da parte di utenti attendibili. Puoi utilizzare le liste consentite IP per creare elenchi di indirizzi IP o intervalli IP attendibili da cui i tuoi utenti e altri Google Cloud servizi come Datastream possono accedere a questi dati. Per utilizzare le liste consentite di IP, devi aprire il database o il firewall di origine alle connessioni in entrata da Datastream.
Creare un bucket in Cloud Storage
Crea un bucket di destinazione in Cloud Storage in cui Datastream esegue lo streaming di schemi, tabelle e dati da un database MySQL di origine.
Nella Google Cloud console, vai alla pagina Browser per Cloud Storage.
Fai clic su Crea bucket. Viene visualizzata la pagina Crea un bucket.
Nel campo di testo della regione Assegna un nome al bucket, inserisci un nome univoco per il bucket, quindi fai clic su Continua.
Accetta le impostazioni predefinite per ogni regione rimanente della pagina. Al termine di ogni regione, fai clic su Continua.
Fai clic su Crea.
Attiva le notifiche Pub/Sub per il bucket Cloud Storage
In questa sezione, attivi le notifiche Pub/Sub per il bucket Cloud Storage che hai creato. In questo modo, configuri il bucket in modo che invii una notifica a Dataflow di tutti i nuovi file scritti da Datastream nel bucket. Questi file contengono le modifiche ai dati che Datastream trasmette in streaming da un database MySQL di origine al bucket.
Accedi al bucket Cloud Storage che hai creato. Viene visualizzata la pagina Dettagli bucket.
Fai clic su
Attiva Cloud Shell.Al prompt, inserisci il seguente comando:
gcloud storage buckets notifications create gs://bucket-name --topic=my_integration_notifs --payload-format=json --object-prefix=integration/tutorial/
(Facoltativo) Se viene visualizzata una finestra Autorizza Cloud Shell, fai clic su Autorizza.
Verifica di visualizzare le seguenti righe di codice:
Created Cloud Pub/Sub topic projects/project-name/topics/my_integration_notifs Created notification config projects/_/buckets/bucket-name/notificationConfigs/1
Nella Google Cloud console, vai alla pagina Argomenti per Pub/Sub.
Fai clic sull'argomento my_integration_notifs che hai creato.
Nella pagina my_integration_notifs, scorri fino in fondo alla pagina. Verifica che la scheda Abbonamenti sia attiva e che venga visualizzato il messaggio Nessun abbonamento da visualizzare.
Fai clic su Crea sottoscrizione.
Nel menu visualizzato, seleziona Crea sottoscrizione.
Nella pagina Aggiungi sottoscrizione all'argomento:
- Nel campo ID abbonamento, inserisci
my_integration_notifs_sub
. - Imposta il valore Scadenza conferma su
120
secondi. In questo modo, Dataflow ha tempo sufficiente per confermare i file elaborati e contribuisce a migliorare le prestazioni complessive del job Dataflow. Per ulteriori informazioni sulle proprietà delle sottoscrizioni Pub/Sub, consulta Proprietà delle sottoscrizioni. - Lascia invariati tutti gli altri valori predefiniti nella pagina.
- Fai clic su Crea.
- Nel campo ID abbonamento, inserisci
Più avanti in questo tutorial, creerai un job Dataflow. Durante la creazione di questo job, assegni a Dataflow l'abbonamento all'abbonamento my_integration_notifs_sub. In questo modo, Dataflow può ricevere notifiche sui nuovi file scritti da Datastream in Cloud Storage, elaborarli e trasferire le modifiche ai dati in BigQuery.
Creare set di dati in BigQuery
In questa sezione crei set di dati in BigQuery. BigQuery utilizza i set di dati per contenere i dati che riceve da Dataflow. Questi dati rappresentano le modifiche nel database MySQL di origine che Datastream trasmette in streaming nel tuo bucket Cloud Storage.
Vai alla pagina Area di lavoro SQL per BigQuery nella Google Cloud console.
Nel riquadro Explorer, accanto al nome del Google Cloud progetto, fai clic su
Visualizza azioni.Nel menu visualizzato, seleziona Crea set di dati.
Nella finestra Crea set di dati:
- Nel campo ID set di dati, inserisci un ID per il set di dati. Per questo tutorial, inserisci
My_integration_dataset_log
nel campo. - Lascia invariati tutti gli altri valori predefiniti nella finestra.
- Fai clic su Crea set di dati.
- Nel campo ID set di dati, inserisci un ID per il set di dati. Per questo tutorial, inserisci
Nel riquadro Explorer, accanto al nome del progetto Google Cloud , fai clic su
Espandi nodo e verifica di vedere il set di dati che hai creato.Segui i passaggi di questa procedura per creare un secondo set di dati: My_integration_dataset_final.
Accanto a ogni set di dati, espandi
Espandi nodo.Verifica che ogni set di dati sia vuoto.
Dopo che Datastream ha eseguito lo streaming delle modifiche dei dati dal database di origine al bucket Cloud Storage, un job Dataflow elabora i file contenenti le modifiche e le trasferisce nei set di dati BigQuery.
Creare profili di connessione in Datastream
In questa sezione, crei profili di connessione in Datastream per un database di origine e una destinazione. Durante la creazione dei profili di connessione, seleziona MySQL come tipo di profilo per il profilo di connessione di origine e Cloud Storage come tipo di profilo per il profilo di connessione di destinazione.
Datastream utilizza le informazioni definite nei profili di connessione per connettersi sia all'origine che alla destinazione in modo da poter trasmettere in streaming i dati dal database di origine al bucket di destinazione in Cloud Storage.
Crea un profilo di connessione di origine per il database MySQL
Nella Google Cloud console, vai alla pagina Profili di connessione per Datastream.
Fai clic su Crea profilo.
Per creare un profilo di connessione di origine per il database MySQL, nella pagina Crea un profilo di connessione, fai clic sul tipo di profilo MySQL.
Nella sezione Definire le impostazioni di connessione della pagina Crea profilo MySQL, fornisci le seguenti informazioni:
- Nel campo Nome profilo di connessione, inserisci
My Source Connection Profile
. - Mantieni l'ID profilo di connessione generato automaticamente.
Seleziona la regione in cui vuoi archiviare il profilo di connessione.
Inserisci i dettagli della connessione:
- Nel campo Nome host o IP, inserisci un nome host o un indirizzo IP pubblico che Datastream possa utilizzare per la connessione al database di origine. Fornisci un indirizzo IP pubblico perché utilizzi la lista consentita IP come metodo di connettività di rete per questo tutorial.
- Nel campo Porta, inserisci il numero di porta riservato al database di origine. Per un database MySQL, la porta predefinita è in genere
3306
. - Inserisci un nome utente e una password per autenticarti nel database di origine.
- Nel campo Nome profilo di connessione, inserisci
Nella sezione Definire le impostazioni di connessione, fai clic su Continua. La sezione Proteggi la connessione alla tua origine della pagina Crea profilo MySQL è attiva.
Nel menu Tipo di crittografia, seleziona Nessuna. Per ulteriori informazioni su questo menu, consulta Creare un profilo di connessione per il database MySQL.
Nella sezione Proteggi la connessione alla sorgente, fai clic su Continua. La sezione Definisci metodo di connettività della pagina Crea profilo MySQL è attiva.
Nel menu a discesa Metodo di connettività, scegli il metodo di rete che vuoi utilizzare per stabilire la connettività tra Datastream e il database di origine. Per questo tutorial, seleziona Lista consentita IP come metodo di connettività.
Configura il database di origine in modo da consentire le connessioni in entrata dagli indirizzi IP pubblici di Datastream visualizzati.
Nella sezione Definisci metodo di connettività, fai clic su Continua. La sezione Testa il profilo di connessione della pagina Crea profilo MySQL è attiva.
Fai clic su Esegui test per verificare che il database di origine e Datastream possano comunicare tra loro.
Verifica che venga visualizzato lo stato Test superato.
Fai clic su Crea.
Creare un profilo di connessione di destinazione per Cloud Storage
Nella Google Cloud console, vai alla pagina Profili di connessione per Datastream.
Fai clic su Crea profilo.
Per creare un profilo di connessione di destinazione per Cloud Storage, nella pagina Crea un profilo di connessione, fai clic sul tipo di profilo Cloud Storage.
Nella pagina Crea profilo Cloud Storage, fornisci le seguenti informazioni:
- Nel campo Nome profilo di connessione, inserisci
My Destination Connection Profile
. - Mantieni l'ID profilo di connessione generato automaticamente.
- Seleziona la regione in cui vuoi archiviare il profilo di connessione.
Nel riquadro Dettagli connessione, fai clic su Sfoglia per selezionare il bucket Cloud Storage che hai creato in precedenza in questo tutorial. Questo è il bucket in cui Datastream trasferisce i dati dal database di origine. Dopo aver effettuato la selezione, fai clic su Seleziona.
Il bucket viene visualizzato nel campo Nome bucket del riquadro Dettagli connessione.
Nel campo Prefisso di percorso del profilo di connessione, fornisci un prefisso per il percorso da aggiungere al nome del bucket quando Datastream esegue lo streaming dei dati alla destinazione. Assicurati che Datastream scriva i dati in un percorso all'interno del bucket, non nella cartella principale del bucket. Per questo tutorial, utilizza il percorso definito quando hai configurato la notifica Pub/Sub. Inserisci
/integration/tutorial
nel campo.
- Nel campo Nome profilo di connessione, inserisci
Fai clic su Crea.
Dopo aver creato un profilo di connessione di origine per il database MySQL e un profilo di connessione di destinazione per Cloud Storage, puoi utilizzarli per creare uno stream.
Creare uno stream in Datastream
In questa sezione, creerai uno stream. Questo stream utilizza le informazioni nei profili di connessione per trasferire i dati da un database MySQL di origine a un bucket di destinazione in Cloud Storage.
Definisci le impostazioni per lo stream
Nella Google Cloud console, vai alla pagina Stream di Datastream.
Fai clic su Crea stream.
Fornisci le seguenti informazioni nel riquadro Definisci i dettagli dello stream della pagina Crea stream:
- Nel campo Nome stream, inserisci
My Stream
. - Mantieni l'ID stream generato automaticamente.
- Nel menu Regione, seleziona la regione in cui hai creato i profili di connessione di origine e di destinazione.
- Nel menu Tipo di origine, seleziona il tipo di profilo MySQL.
- Nel menu Tipo di destinazione, seleziona il tipo di profilo Cloud Storage.
- Nel campo Nome stream, inserisci
Esamina i prerequisiti richiesti che vengono generati automaticamente per riflettere la modalità di preparazione dell'ambiente per uno stream. Questi prerequisiti possono includere la configurazione del database di origine e la connessione di Datastream al bucket di destinazione in Cloud Storage.
Fai clic su Continua. Viene visualizzato il riquadro Definisci profilo di connessione MySQL della pagina Crea stream.
Specifica le informazioni sul profilo di connessione di origine
In questa sezione, seleziona il profilo di connessione che hai creato per il database di origine (profilo di connessione di origine). Per questo tutorial, si tratta di Il mio profilo di connessione di origine.
Nel menu Profilo di connessione di origine, seleziona il profilo di connessione di origine per il database MySQL.
Fai clic su Esegui test per verificare che il database di origine e Datastream possano comunicare tra loro.
Se il test non va a buon fine, viene visualizzato il problema associato al profilo di connessione. Per la procedura di risoluzione dei problemi, consulta la pagina Diagnostica i problemi. Apporta le modifiche necessarie per correggere il problema, quindi riprova.
Fai clic su Continua. Viene visualizzato il riquadro Configura origine stream della pagina Crea stream.
Configura le informazioni sul database di origine per lo stream
In questa sezione, configuri le informazioni sul database di origine per lo stream specificando le tabelle e gli schemi nel database di origine che Datastream:
- Può essere trasferito nella destinazione.
- Non può essere trasferito nella destinazione.
Puoi anche stabilire se Datastream esegue il backfill dei dati storici, nonché lo streaming delle modifiche in corso nella destinazione o solo delle modifiche ai dati.
Utilizza il menu Oggetti da includere per specificare le tabelle e gli schemi nel database di origine che Datastream può trasferire in una cartella del bucket di destinazione in Cloud Storage. Il menu viene caricato solo se il database contiene fino a 5000 oggetti.
Per questo tutorial, vuoi che Datastream trasferisca tutte le tabelle e tutti gli schemi. Pertanto, seleziona Tutte le tabelle di tutti gli schemi dal menu.
Verifica che il riquadro Seleziona gli oggetti da escludere sia impostato su Nessuno. Non vuoi limitare il trasferimento di tabelle e schemi nel database di origine in Cloud Storage da parte di Datastream.
Verifica che il riquadro Scegli la modalità di backfill per i dati storici sia impostato su Automatico. Datastream trasmette in streaming tutti i dati esistenti, oltre alle modifiche ai dati, dall'origine alla destinazione.
Fai clic su Continua. Viene visualizzato il riquadro Definisci profilo di connessione Cloud Storage della pagina Crea stream.
Seleziona un profilo di connessione di destinazione
In questa sezione, seleziona il profilo di connessione che hai creato per Cloud Storage (il profilo di connessione di destinazione). Per questo tutorial, si tratta di Il mio profilo di connessione di destinazione.
Nel menu Profilo di connessione di destinazione, seleziona il profilo di connessione di destinazione per Cloud Storage.
Fai clic su Continua. Viene visualizzato il riquadro Configura destinazione stream della pagina Crea stream.
Configura le informazioni sulla destinazione dello stream
In questa sezione configuri le informazioni sul bucket di destinazione per lo stream. Queste informazioni includono:
- Il formato di output dei file scritti in Cloud Storage.
- La cartella del bucket di destinazione in cui Datastream trasferisce schemi, tabelle e dati dal database di origine.
Nel campo Formato di output, seleziona il formato dei file scritti in Cloud Storage. Datastream supporta due formati di output: Avro e JSON. Per questo tutorial, il formato file è Avro.
Fai clic su Continua. Viene visualizzato il riquadro Rivedi dettagli flusso e crea della pagina Crea stream.
Crea lo stream
Verifica i dettagli dello stream, nonché i profili di connessione di origine e di destinazione utilizzati dallo stream per trasferire i dati da un database MySQL di origine a un bucket di destinazione in Cloud Storage.
Per convalidare lo stream, fai clic su Esegui convalida. Convalidando uno stream, Datastream controlla che l'origine sia configurata correttamente, convalida che lo stream possa connettersi sia all'origine che alla destinazione e verifica la configurazione end-to-end dello stream.
Dopo aver superato tutti i controlli di convalida, fai clic su Crea.
Nella finestra di dialogo Creare stream?, fai clic su Crea.
Avvia lo stream
Per questo tutorial, crea e avvia uno stream separatamente nel caso in cui il processo di creazione dello stream aumenti il carico sul database di origine. Per posticipare il carico, crea lo stream senza avviarlo e poi avvialo quando il database può gestire il carico.
Se avvii lo stream, Datastream può trasferire dati, schemi e tabelle dal database di origine a quello di destinazione.
Nella Google Cloud console, vai alla pagina Stream di Datastream.
Seleziona la casella di controllo accanto allo stream che vuoi avviare. Per questo tutorial, si tratta di Il mio stream.
Fai clic su Avvia.
Nella finestra di dialogo, fai clic su Avvia. Lo stato dello stream passa da
Not started
aStarting
e poi aRunning
.
Dopo aver avviato uno stream, puoi verificare che Datastream abbia trasferito i dati dal database di origine alla destinazione.
Verifica lo stream
In questa sezione, confermi che Datastream trasferisce i dati da tutte le tabelle di un database MySQL di origine alla cartella /integration/tutorial del bucket di destinazione Cloud Storage.
Nella Google Cloud console, vai alla pagina Stream di Datastream.
Fai clic sullo stream che hai creato. Per questo tutorial, si tratta di Il mio stream.
Nella pagina Dettagli stream, fai clic sul link bucket-name/integration/tutorial, dove bucket-name è il nome che hai assegnato al bucket Cloud Storage. Questo link viene visualizzato dopo il campo Percorso scrittura destinazione. La pagina Dettagli bucket di Cloud Storage si apre in una scheda separata.
Verifica che siano visualizzate cartelle che rappresentano le tabelle del database di origine.
Fai clic su una delle cartelle della tabella e poi su ogni sottocartella finché non visualizzi i dati associati alla tabella.
Creare un job Dataflow
In questa sezione, crei un job in Dataflow. Dopo che Datastream ha inviato le modifiche dei dati da un database MySQL di origine al bucket Cloud Storage, Pub/Sub invia notifiche a Dataflow relative ai nuovi file contenenti le modifiche. Il job Dataflow elabora i file e trasferisce le modifiche in BigQuery.
Nella Google Cloud console, vai alla pagina Job per Dataflow.
Fai clic su Crea job da modello.
Nel campo Nome job della pagina Crea job da modello, inserisci un nome per il job Dataflow che stai creando. Per questo tutorial, inserisci
my-dataflow-integration-job
nel campo.Nel menu Endpoint a livello di regione, seleziona la regione in cui vuoi archiviare il job. Si tratta della stessa regione selezionata per il profilo di connessione di origine, il profilo di connessione di destinazione e lo stream che hai creato.
Nel menu Modello Dataflow, seleziona il modello che utilizzi per creare il job. Per questo tutorial, seleziona Datastream to BigQuery.
Dopo aver effettuato questa selezione, vengono visualizzati altri campi relativi a questo modello.
Nel campo Posizione del file per l'output del file Datastream in Cloud Storage, inserisci il nome del bucket Cloud Storage utilizzando il seguente formato:
gs://bucket-name
.Nel campo Abbonamento Pub/Sub utilizzato in un criterio di notifica Cloud Storage, inserisci il percorso contenente il nome dell'abbonamento Pub/Sub. Per questo tutorial, inserisci
projects/project-name/subscriptions/my_integration_notifs_sub
.Nel campo Formato file di output di Datastream (avro/json), inserisci
avro
perché, per questo tutorial, Avro è il formato dei file che Datastream scrive in Cloud Storage.Nel campo Nome o modello per il set di dati contenente le tabelle di staging, inserisci
My_integration_dataset_log
perché Dataflow utilizza questo set di dati per eseguire lo staging delle modifiche ai dati che riceve da Datastream.Nel campo Modello per il set di dati contenente le tabelle di replica, inserisci
My_integration_dataset_final
perché questo è il set di dati in cui le modifiche messe in scena nel set di dati My_integration_dataset_log vengono unite per creare una replica uno a uno delle tabelle nel database di origine.Nel campo Directory coda messaggi non recapitati, inserisci il percorso contenente il nome del bucket Cloud Storage e una cartella per una coda messaggi non recapitati. Assicurati di non utilizzare un percorso nella cartella principale e che sia diverso da quello in cui Datastream scrive i dati. Eventuali modifiche ai dati che Dataflow non riesce a trasferire in BigQuery vengono memorizzate nella coda. Puoi correggere i contenuti nella coda in modo che Dataflow possa elaborarli di nuovo.
Per questo tutorial, inserisci
gs://bucket-name/dlq
nel campo Directory della coda delle email non recapitate (dove bucket-name è il nome del bucket e dlq è la cartella per la coda delle email non recapitate).Fai clic su Esegui job.
Verificare l'integrazione
Nella sezione Verificare lo stream di questo tutorial, hai verificato che Datastream ha trasferito i dati da tutte le tabelle di un database MySQL di origine alla cartella /integration/tutorial del bucket di destinazione Cloud Storage.
In questa sezione, verifichi che Dataflow elabori i file contenenti le modifiche associate a questi dati e le trasferisca in BigQuery. Di conseguenza, hai un'integrazione end-to-end tra Datastream e BigQuery.
Nella Google Cloud console, vai alla pagina Area di lavoro SQL per BigQuery.
Nel riquadro Explorer, espandi il nodo accanto al nome del Google Cloud progetto.
Espandi i nodi accanto ai set di dati My_integration_dataset_log e My_integration_dataset_final.
Verifica che ogni set di dati ora contenga dati. Ciò conferma che Dataflow ha elaborato i file contenenti le modifiche associate ai dati che Datastream ha trasmesso in streaming in Cloud Storage e le ha trasferite in BigQuery.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, utilizza la console Google Cloud per eseguire le seguenti operazioni:
- Elimina il progetto, lo stream Datastream e i profili di connessione Datastream.
- Interrompi il job Dataflow.
- Elimina i set di dati BigQuery, l'argomento e l'abbonamento Pub/Sub e il bucket Cloud Storage.
Se elimini le risorse che hai creato su Datastream, Dataflow, BigQuery, Pub/Sub e Cloud Storage, impedisci che occupino la quota e non ti verranno fatturate in futuro.
Elimina il progetto
Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per questo tutorial.
Nella Google Cloud console, vai alla pagina Gestisci risorse.
Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
Per eliminare il progetto, nella finestra di dialogo digita l'ID progetto e fai clic su Chiudi.
Elimina lo stream
Nella Google Cloud console, vai alla pagina Stream di Datastream.
Fai clic sullo stream che vuoi eliminare. Per questo tutorial, si tratta di Il mio stream.
Fai clic su Metti in pausa.
Nella finestra di dialogo, fai clic su Metti in pausa.
Nel riquadro Stato stream della pagina Dettagli stream, verifica che lo stato dello stream sia
Paused
.Fai clic su Elimina.
Nella finestra di dialogo, inserisci
Delete
nel campo di testo e fai clic su Elimina.
Eliminare i profili di connessione
Nella Google Cloud console, vai alla pagina Profili di connessione per Datastream.
Seleziona la casella di controllo relativa a ciascun profilo di connessione da eliminare: Il mio profilo di connessione di origine e Il mio profilo di connessione di destinazione.
Fai clic su Elimina.
Nella finestra di dialogo, fai clic su Elimina.
Arresta il job Dataflow
Nella Google Cloud console, vai alla pagina Job per Dataflow.
Fai clic sul job che vuoi interrompere. Per questo tutorial, è my-dataflow-integration-job.
Fai clic su Arresta.
Nella finestra di dialogo Interrompi job, seleziona l'opzione Svuotamento e poi fai clic su Interrompi job.
Elimina i set di dati BigQuery
Nella Google Cloud console, vai alla pagina Area di lavoro SQL per BigQuery.
Nel riquadro Explorer, espandi il nodo accanto al Google Cloud nome del progetto.
Fai clic sul pulsante Visualizza azioni a destra di uno dei set di dati che hai creato in Creare set di dati in BigQuery. Questo pulsante ha la forma di tre puntini verticali.
Per questo tutorial, fai clic sul pulsante Visualizza azioni a destra di My_integration_dataset_log.
Seleziona Elimina dal menu a discesa visualizzato.
Nella finestra di dialogo Vuoi eliminare il set di dati?, inserisci
delete
nel campo di testo e fai clic su Elimina.Ripeti i passaggi di questa procedura per eliminare il secondo set di dati che hai creato: My_integration_dataset_final.
Elimina l'argomento e la sottoscrizione Pub/Sub
Nella Google Cloud console, vai alla pagina Abbonamenti per Pub/Sub.
Fai clic sulla casella di controllo accanto all'abbonamento che vuoi eliminare. Per questo tutorial, fai clic sulla casella di controllo accanto alla sottoscrizione my_integration_notifs_sub.
Fai clic su Elimina.
Nella finestra di dialogo Elimina abbonamento, fai clic su Elimina.
Nella Google Cloud console, vai alla pagina Argomenti per Pub/Sub.
Fai clic sulla casella di controllo accanto all'argomento my_integration_notifs.
Fai clic su Elimina.
Nella finestra di dialogo Elimina argomento, inserisci
delete
nel campo di testo e fai clic su Elimina.
Elimina il bucket Cloud Storage
Nella Google Cloud console, vai alla pagina Browser per Cloud Storage.
Seleziona la casella di controllo accanto al tuo bucket.
Fai clic su Elimina.
Nella finestra di dialogo, inserisci
Delete
nel campo di testo e fai clic su Elimina.
Passaggi successivi
- Scopri di più su Datastream.
- Utilizza l'API Streaming precedente per eseguire funzionalità avanzate con i flussi di dati in BigQuery.
- Prova le altre Google Cloud funzionalità. Dai un'occhiata ai nostri tutorial.