Implementa Datastream e Dataflow per l'analisi

Datastream

Datastream supporta il flusso di dati dei database Oracle, MySQL e PostgreSQL direttamente nei set di dati BigQuery. Tuttavia, se hai bisogno di un maggiore controllo sulla logica di elaborazione dei flussi, come la trasformazione dei dati o l'impostazione manuale delle chiavi primarie logiche, puoi integrare Datastream con i modelli di job Dataflow.

Questo tutorial mostra come Datastream si integra con Dataflow utilizzando i modelli di job Dataflow per trasmettere viste materializzate aggiornate in BigQuery per l'analisi.

Per le organizzazioni con molte origini dati isolate, l'accesso ai dati aziendali all'interno dell'organizzazione, soprattutto in tempo reale, può essere limitato e lento. Questo limita la capacità dell'organizzazione di introspersi.

Datastream fornisce l'accesso quasi in tempo reale per modificare i dati da varie origini dati on-premise e basate su cloud. Datastream fornisce un'esperienza di configurazione in cui non devi eseguire molte configurazioni per i flussi di dati; Datastream lo fa per te. Datastream dispone inoltre di un'API di consumo unificata che democratizza l'accesso della tua organizzazione ai dati aziendali più recenti disponibili per creare scenari integrati.

Uno di questi scenari è il trasferimento dei dati da un database di origine a un servizio di archiviazione basato su cloud o a una coda di messaggistica. Dopo che Datastream trasmette i dati in streaming, questi vengono trasformati in un formato che può essere letto da altre applicazioni e servizi. In questo tutorial, Dataflow è il servizio web che comunica con il servizio di archiviazione o la coda di messaggistica per acquisire ed elaborare i dati su Google Cloud.

Imparerai a utilizzare Datastream per trasmettere le modifiche (dati inseriti, aggiornati o eliminati) da un database MySQL di origine a una cartella in un bucket Cloud Storage. Quindi, configurerai il bucket Cloud Storage per l'invio di notifiche che Dataflow utilizza per ricevere informazioni su eventuali nuovi file contenenti le modifiche ai dati che Datastream trasmette in streaming dal database di origine. Quindi, un job Dataflow elabora i file e trasferisce le modifiche in BigQuery.

diagramma di flusso utente dell'integrazione

Obiettivi

In questo tutorial imparerai a:

  • Creare un bucket in Cloud Storage. Questo è il bucket di destinazione in cui Datastream trasmette in flussi di schemi, tabelle e dati da un database MySQL di origine.
  • Abilita le notifiche Pub/Sub per il bucket Cloud Storage. In questo modo, configurerai il bucket per l'invio di notifiche che Dataflow utilizza per ricevere informazioni sui nuovi file pronti per l'elaborazione. Questi file contengono modifiche ai dati che Datastream trasmette in flussi dal database di origine al bucket.
  • Crea set di dati in BigQuery. BigQuery utilizza i set di dati per contenere i dati che riceve da Dataflow. Questi dati rappresentano le modifiche al database di origine che Datastream trasmette in flussi al bucket Cloud Storage.
  • Crea e gestisci profili di connessione per un database di origine e un bucket di destinazione in Cloud Storage. Un flusso in Datastream utilizza le informazioni nei profili di connessione per trasferire i dati dal database di origine al bucket.
  • Crea e avvia uno stream. Questo flusso trasferisce dati, schemi e tabelle dal database di origine al bucket.
  • Verifica che Datastream trasferisca nel bucket i dati e le tabelle associati a uno schema del database di origine.
  • Crea un job in Dataflow. Dopo che Datastream trasmette in streaming le modifiche ai dati dal database di origine al bucket Cloud Storage, vengono inviate notifiche a Dataflow in merito ai nuovi file contenenti le modifiche. Il job Dataflow elabora i file e trasferisce le modifiche in BigQuery.
  • Verifica che Dataflow elabori i file contenenti le modifiche associate a questi dati e trasferisca le modifiche in BigQuery. Di conseguenza, ottieni un'integrazione end-to-end tra Datastream e BigQuery.
  • Esegui la pulizia delle risorse che hai creato su Datastream, Cloud Storage, Pub/Sub, Dataflow e BigQuery in modo che non occupino quota e non ti vengano addebitati costi in futuro.

Costi

In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:

  • Datastream
  • Cloud Storage
  • Pub/Sub
  • Dataflow
  • BigQuery

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il Calcolatore prezzi. I nuovi utenti di Google Cloud possono essere idonei a una prova senza costi aggiuntivi.

Prima di iniziare

  1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  3. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  4. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  5. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  6. Abilitare l'API Datastream.

    Abilita l'API

  7. Assicurati che al tuo account utente sia stato concesso il ruolo Amministratore Datastream.

    Vai alla pagina IAM

  8. Assicurati di disporre di un database MySQL di origine a cui Datastream può accedere. Inoltre, verifica che il database contenga dati, tabelle e schemi.
  9. Configura il tuo database MySQL in modo da consentire le connessioni in entrata da indirizzi IP pubblici Datastream. Per un elenco di tutte le regioni Datastream e i relativi indirizzi IP pubblici associati, vedi Liste consentite e regioni IP.
  10. Configura la tecnologia Change Data Capture (CDC) per il database di origine. Per ulteriori informazioni, consulta Configurare un database MySQL di origine.
  11. Assicurati di soddisfare tutti i prerequisiti per abilitare le notifiche Pub/Sub per Cloud Storage.

    In questo tutorial creerai un bucket di destinazione in Cloud Storage e abilitarai le notifiche Pub/Sub per il bucket. In questo modo, Dataflow può ricevere notifiche sui nuovi file che Datastream scrive nel bucket. Questi file contengono modifiche ai dati che Datastream trasmette in flussi dal database di origine al bucket.

Requisiti

Datastream offre una varietà di opzioni di origine, opzioni di destinazione e metodi di connettività di rete.

Per questo tutorial, supponiamo che tu stia utilizzando un database MySQL autonomo e un servizio Cloud Storage di destinazione. Per il database di origine, dovresti essere in grado di configurare la rete in modo da aggiungere una regola firewall in entrata. Il database di origine può essere on-premise o in un cloud provider. Per la destinazione Cloud Storage, non è richiesta alcuna configurazione di connettività.

Poiché non possiamo conoscere le specifiche del tuo ambiente, non possiamo fornirti passaggi dettagliati sulla configurazione del tuo networking.

Per questo tutorial, selezionerai Lista consentita IP come metodo di connettività di rete. L'inserimento degli IP nella lista consentita è una funzionalità di sicurezza spesso utilizzata per limitare e controllare l'accesso ai dati del database di origine da utenti attendibili. Puoi utilizzare le liste consentite IP per creare elenchi di indirizzi IP o intervalli IP attendibili da cui gli utenti e altri servizi Google Cloud, come Datastream, possono accedere a questi dati. Per utilizzare le liste consentite IP, devi aprire il database o il firewall di origine alle connessioni in entrata da Datastream.

Crea un bucket in Cloud Storage

Crea un bucket di destinazione in Cloud Storage in cui Datastream trasmette in flussi di schemi, tabelle e dati da un database MySQL di origine.

  1. Nella console Google Cloud, vai alla pagina Browser per Cloud Storage.

    Vai alla pagina Browser

  2. Fai clic su Crea bucket. Viene visualizzata la pagina Crea un bucket.

  3. Nel campo di testo della regione Assegna un nome al bucket, inserisci my-integration-bucket e fai clic su Continua.

  4. Accetta le impostazioni predefinite per ogni regione rimanente della pagina. Alla fine di ogni regione, fai clic su Continua.

  5. Fai clic su Crea.

Abilita le notifiche Pub/Sub per il bucket Cloud Storage

In questa sezione, hai abilitato le notifiche Pub/Sub per il bucket Cloud Storage che hai creato. In questo modo, configurerai il bucket in modo da notificare a Dataflow tutti i nuovi file che Datastream scrive nel bucket. Questi file contengono le modifiche ai dati che Datastream trasmette in streaming da un database MySQL di origine al bucket.

  1. Accedi al bucket Cloud Storage che hai creato. Viene visualizzata la pagina Dettagli bucket.

  2. Fai clic su Attiva Cloud Shell.

  3. Al prompt, inserisci il seguente comando:

    gsutil notification create -t my_integration_notifs -f json -p integration/tutorial/ gs://my-integration-bucket

  4. (Facoltativo) Se viene visualizzata la finestra Autorizza Cloud Shell, fai clic su Autorizza.

  5. Verifica che vengano visualizzate le seguenti righe di codice:

    Created Cloud Pub/Sub topic projects/project-name/topics/my_integration_notifs
    Created notification config projects/_/buckets/my-integration-bucket/notificationConfigs/1
    
  6. Nella console Google Cloud, vai alla pagina Argomenti per Pub/Sub.

    Vai alla pagina Argomenti

  7. Fai clic sull'argomento my_integration_notifs che hai creato.

  8. Nella pagina my_integration_notifs, scorri fino in fondo. Verifica che la scheda Abbonamenti sia attiva e che venga visualizzato il messaggio Nessun abbonamento da visualizzare.

  9. Fai clic su Crea sottoscrizione.

  10. Nel menu visualizzato, seleziona Crea abbonamento.

  11. Nella pagina Aggiungi sottoscrizione all'argomento:

    1. Nel campo ID abbonamento, inserisci my_integration_notifs_sub.
    2. Imposta il valore Scadenza conferma su 120 secondi. In questo modo, Dataflow può disporre di tempo sufficiente per confermare i file elaborati e migliorare le prestazioni complessive del job Dataflow. Per ulteriori informazioni sulle proprietà della sottoscrizione Pub/Sub, consulta Proprietà della sottoscrizione.
    3. Lascia tutti gli altri valori predefiniti sulla pagina.
    4. Fai clic su Crea.

Più avanti in questo tutorial, crei un job Dataflow. Durante la creazione di questo job, assegni Dataflow come sottoscrittore alla sottoscrizione my_integration_notifs_sub. In questo modo, Dataflow può ricevere notifiche relative ai nuovi file che Datastream scrive in Cloud Storage, elaborare i file e trasferire le modifiche ai dati in BigQuery.

Crea set di dati in BigQuery

In questa sezione, creerai set di dati in BigQuery. BigQuery utilizza i set di dati per contenere i dati che riceve da Dataflow. Questi dati rappresentano le modifiche nel database MySQL di origine che Datastream trasmette in flussi al tuo bucket Cloud Storage.

  1. Vai alla pagina Area di lavoro SQL per BigQuery nella console Google Cloud.

    Vai alla pagina dell'area di lavoro SQL

  2. Nel riquadro Explorer, accanto al nome del tuo progetto Google Cloud, fai clic su Visualizza azioni.

  3. Nel menu che appare, seleziona Crea set di dati.

  4. Nella finestra Crea set di dati:

    1. Nel campo ID set di dati, inserisci un ID per il set di dati. Per questo tutorial, inserisci My_integration_dataset_log nel campo.
    2. Lascia nella finestra tutti gli altri valori predefiniti.
    3. Fai clic su Crea set di dati.
  5. Nel riquadro Explorer, accanto al nome del tuo progetto Google Cloud, fai clic su Espandi nodo, quindi verifica che sia visualizzato il set di dati che hai creato.

  6. Utilizza i passaggi di questa procedura per creare un secondo set di dati: My_integration_dataset_final.

  7. Accanto a ogni set di dati, espandi Espandi nodo.

  8. Verifica che ogni set di dati sia vuoto.

Dopo che Datastream trasmette in streaming le modifiche ai dati dal database di origine al bucket Cloud Storage, un job Dataflow elabora i file contenenti le modifiche e le trasferisce nei set di dati BigQuery.

Crea profili di connessione in Datastream

In questa sezione creerai profili di connessione in Datastream per un database di origine e una destinazione. Durante la creazione dei profili di connessione, selezioni MySQL come tipo di profilo per il profilo di connessione di origine e Cloud Storage come tipo di profilo per il profilo di connessione di destinazione.

Datastream utilizza le informazioni definite nei profili di connessione per connettersi sia all'origine che alla destinazione, in modo da poter trasmettere i dati dal database di origine al bucket di destinazione in Cloud Storage.

Crea un profilo di connessione di origine per il database MySQL

  1. Nella console Google Cloud, vai alla pagina Profili di connessione per Datastream.

    Vai alla pagina Profili di connessione

  2. Fai clic su Crea profilo.

  3. Per creare un profilo di connessione di origine per il database MySQL, fai clic sul tipo di profilo MySQL nella pagina Crea un profilo di connessione.

  4. Nella sezione Definisci le impostazioni di connessione della pagina Crea profilo MySQL, fornisci le seguenti informazioni:

    • Nel campo Nome profilo di connessione, inserisci My Source Connection Profile.
    • Mantieni l'ID profilo di connessione generato automaticamente.
    • Seleziona la regione in cui vuoi archiviare il profilo di connessione.

    • Inserisci Dettagli connessione:

      • Nel campo Nome host o IP, inserisci un nome host o un indirizzo IP pubblico che Datastream possa utilizzare per connettersi al database di origine. Stai fornendo un indirizzo IP pubblico perché utilizzi la lista consentita degli IP come metodo di connettività di rete per questo tutorial.
      • Nel campo Porta, inserisci il numero di porta riservato per il database di origine. Per un database MySQL, la porta predefinita è in genere 3306.
      • Inserisci un nome utente e una password per eseguire l'autenticazione nel database di origine.
  5. Nella sezione Definisci le impostazioni di connessione, fai clic su Continua. La sezione Proteggi la connessione alla tua origine della pagina Crea profilo MySQL è attiva.

  6. Dal menu Tipo di crittografia, seleziona Nessuno. Per ulteriori informazioni su questo menu, consulta Creare un profilo di connessione per il database MySQL.

  7. Nella sezione Proteggi la connessione alla tua origine, fai clic su Continua. La sezione Definisci il metodo di connettività della pagina Crea profilo MySQL è attiva.

  8. Nell'elenco a discesa Metodo di connettività, scegli il metodo di rete che vuoi utilizzare per stabilire la connettività tra Datastream e il database di origine. Per questo tutorial, seleziona Lista consentita IP come metodo di connettività.

  9. Configura il database di origine in modo da consentire le connessioni in entrata dagli indirizzi IP pubblici Datastream visualizzati.

  10. Nella sezione Definisci metodo di connettività, fai clic su Continua. La sezione Testa il profilo di connessione della pagina Crea profilo MySQL è attiva.

  11. Fai clic su Esegui test per verificare che il database di origine e Datastream possano comunicare tra loro.

  12. Verifica che lo stato visualizzato sia Test superato.

  13. Fai clic su Crea.

Crea un profilo di connessione di destinazione per Cloud Storage

  1. Nella console Google Cloud, vai alla pagina Profili di connessione per Datastream.

    Vai alla pagina Profili di connessione

  2. Fai clic su Crea profilo.

  3. Per creare un profilo di connessione di destinazione per Cloud Storage, nella pagina Crea un profilo di connessione, fai clic sul tipo di profilo Cloud Storage.

  4. Nella pagina Crea profilo Cloud Storage, fornisci le seguenti informazioni:

    • Nel campo Nome profilo di connessione, inserisci My Destination Connection Profile.
    • Mantieni l'ID profilo di connessione generato automaticamente.
    • Seleziona la regione in cui vuoi archiviare il profilo di connessione.
    • Nel riquadro Dettagli connessione, fai clic su Sfoglia per selezionare il my-integration-bucket che hai creato in precedenza in questo tutorial. Questo è il bucket in cui Datastream trasferisce i dati dal database di origine. Dopo aver effettuato la selezione, fai clic su Seleziona.

      Il bucket viene visualizzato nel campo Nome bucket del riquadro Dettagli connessione.

    • Nel campo Prefisso percorso del profilo di connessione, fornisci un prefisso per il percorso da aggiungere al nome del bucket quando Datastream trasmette i dati alla destinazione. Assicurati che Datastream scriva i dati in un percorso all'interno del bucket, non nella cartella principale del bucket. Per questo tutorial, utilizza il percorso che hai definito durante la configurazione della notifica Pub/Sub. Inserisci /integration/tutorial nel campo.

  5. Fai clic su Crea.

Dopo aver creato un profilo di connessione di origine per il database MySQL e un profilo di connessione di destinazione per Cloud Storage, puoi utilizzarli per creare un flusso.

Crea un flusso in Datastream

In questa sezione, creerai uno stream. Questo flusso utilizza le informazioni nei profili di connessione per trasferire i dati da un database MySQL di origine a un bucket di destinazione in Cloud Storage.

Definisci le impostazioni per lo stream

  1. Nella console Google Cloud, vai alla pagina Stream per Datastream.

    Vai alla pagina Stream

  2. Fai clic su Crea stream.

  3. Fornisci le seguenti informazioni nel riquadro Definisci i dettagli dello stream della pagina Crea stream:

    • Nel campo Nome stream, inserisci My Stream.
    • Conserva l'ID stream generato automaticamente.
    • Nel menu Regione, seleziona la regione in cui hai creato i profili di connessione di origine e di destinazione.
    • Dal menu Tipo di origine, seleziona il tipo di profilo MySQL.
    • Nel menu Tipo di destinazione, seleziona il tipo di profilo Cloud Storage.
  4. Esamina i prerequisiti richiesti generati automaticamente per riflettere il modo in cui il tuo ambiente deve essere preparato per uno stream. Questi prerequisiti possono includere come configurare il database di origine e come connettere Datastream al bucket di destinazione in Cloud Storage.

  5. Fai clic su Continua. Viene visualizzato il riquadro Definisci il profilo di connessione MySQL della pagina Crea stream.

Specifica le informazioni sul profilo di connessione di origine

In questa sezione, selezionerai il profilo di connessione creato per il database di origine (profilo di connessione di origine). Per questo tutorial, questo è Il mio profilo di connessione di origine.

  1. Nel menu Profilo di connessione di origine, seleziona il tuo profilo di connessione di origine per il database MySQL.

  2. Fai clic su Esegui test per verificare che il database di origine e Datastream possano comunicare tra loro.

    Se il test non va a buon fine, viene visualizzato il problema associato al profilo di connessione. Per le procedure di risoluzione dei problemi, consulta la pagina Diagnostica i problemi. Apporta le modifiche necessarie per risolvere il problema, quindi ripeti il test.

  3. Fai clic su Continua. Viene visualizzato il riquadro Configura l'origine dello stream della pagina Crea stream.

Configura le informazioni sul database di origine per lo stream

In questa sezione configurerai le informazioni sul database di origine per il flusso specificando le tabelle e gli schemi nel database di origine che Datastream:

  • Può trasferire alla destinazione.
  • Il trasferimento alla destinazione è limitato.

Puoi inoltre determinare se Datastream esegue il backfill dei dati storici, trasmettere le modifiche in corso nella destinazione o trasmettere solo le modifiche ai dati.

  1. Utilizza il menu Oggetti da includere per specificare le tabelle e gli schemi nel database di origine che Datastream può trasferire in una cartella del bucket di destinazione in Cloud Storage. Il menu viene caricato solo se il database contiene fino a 5000 oggetti.

    Per questo tutorial, vuoi che Datastream trasferisca tutte le tabelle e gli schemi. Pertanto, seleziona Tutte le tabelle di tutti gli schemi dal menu.

  2. Verifica che il riquadro Seleziona gli oggetti da escludere sia impostato su Nessuno. Non vuoi impedire a Datastream di trasferire tabelle e schemi nel tuo database di origine in Cloud Storage.

  3. Verifica che il riquadro Scegli la modalità di backfill per i dati storici sia impostato su Automatico. Datastream trasmette in streaming tutti i dati esistenti, oltre alle modifiche ai dati, dall'origine alla destinazione.

  4. Fai clic su Continua. Viene visualizzato il riquadro Definisci il profilo di connessione Cloud Storage della pagina Crea stream.

Seleziona un profilo di connessione di destinazione

In questa sezione, selezionerai il profilo di connessione creato per Cloud Storage (il profilo di connessione di destinazione). Per questo tutorial, questo è Il mio profilo di connessione di destinazione.

  1. Dal menu Profilo di connessione di destinazione, seleziona il tuo profilo di connessione di destinazione per Cloud Storage.

  2. Fai clic su Continua. Viene visualizzato il riquadro Configura destinazione stream della pagina Crea stream.

Configura le informazioni sulla destinazione dello stream

In questa sezione configurerai le informazioni sul bucket di destinazione per il flusso. Queste informazioni comprendono:

  • Il formato di output dei file scritti in Cloud Storage.
  • La cartella del bucket di destinazione in cui Datastream trasferisce schemi, tabelle e dati dal database di origine.
  1. Nel campo Formato output, seleziona il formato dei file scritti in Cloud Storage. Datastream supporta due formati di output: Avro e JSON. Per questo tutorial, il formato file è Avro.

  2. Fai clic su Continua. Viene visualizzato il riquadro Esamina i dettagli dello stream e crea della pagina Crea stream.

Crea lo stream

  1. Verifica i dettagli del flusso e i profili di connessione di origine e di destinazione che il flusso utilizza per trasferire i dati da un database MySQL di origine a un bucket di destinazione in Cloud Storage.

  2. Per convalidare il flusso, fai clic su Esegui convalida. Con la convalida di un flusso, Datastream controlla che l'origine sia configurata correttamente, verifica che il flusso possa connettersi sia all'origine che alla destinazione e verifica la configurazione end-to-end del flusso.

  3. Una volta superati tutti i controlli di convalida, fai clic su Crea.

  4. Nella finestra di dialogo Creare stream?, fai clic su Crea.

Avvia lo stream

Per questo tutorial, creerai e avvii un flusso separatamente nel caso in cui il processo di creazione dei flussi comporta un carico maggiore sul database di origine. Per rimandare questo carico, devi creare il flusso senza avviarlo, quindi avviarlo quando il database è in grado di gestirlo.

Avviando il flusso, Datastream può trasferire dati, schemi e tabelle dal database di origine alla destinazione.

  1. Nella console Google Cloud, vai alla pagina Stream per Datastream.

    Vai alla pagina Stream

  2. Seleziona la casella di controllo accanto allo stream che vuoi avviare. Per questo tutorial, è Il mio stream.

  3. Fai clic su Avvia.

  4. Nella finestra di dialogo, fai clic su Avvia. Lo stato dello stream cambia da Not started a Starting a Running.

Dopo aver avviato un flusso, puoi verificare che Datastream abbia trasferito i dati dal database di origine alla destinazione.

Verifica lo stream

In questa sezione confermi che Datastream trasferisca i dati da tutte le tabelle di un database MySQL di origine nella cartella /integration/tutorial del tuo bucket di destinazione Cloud Storage. Per questo tutorial, il nome del bucket è my-integration-bucket.

  1. Nella console Google Cloud, vai alla pagina Stream per Datastream.

    Vai alla pagina Stream

  2. Fai clic sullo stream che hai creato. Per questo tutorial, è Il mio stream.

  3. Nella pagina Dettagli stream, fai clic sul link my-integration-bucket/integration/tutorial. Questo link viene visualizzato dopo il campo Percorso scrittura destinazione. La pagina Dettagli bucket di Cloud Storage si apre in una scheda separata.

  4. Verifica che vengano visualizzate le cartelle che rappresentano le tabelle del database di origine.

  5. Fai clic su una delle cartelle della tabella, quindi su ogni sottocartella fino a visualizzare i dati associati alla tabella.

Crea un job Dataflow

In questa sezione creerai un job in Dataflow. Dopo che Datastream trasmette in streaming le modifiche ai dati da un database MySQL di origine al tuo bucket Cloud Storage, Pub/Sub invia notifiche a Dataflow sui nuovi file contenenti le modifiche. Il job Dataflow elabora i file e trasferisce le modifiche in BigQuery.

  1. Nella console Google Cloud, vai alla pagina Job per Dataflow.

    Vai alla pagina Job

  2. Fai clic su Crea job da modello.

  3. Nel campo Nome job della pagina Crea job da modello, inserisci un nome per il job Dataflow che stai creando. Per questo tutorial, inserisci my-dataflow-integration-job nel campo.

  4. Dal menu Endpoint a livello di regione, seleziona la regione in cui vuoi archiviare il job. Si tratta della stessa regione che hai selezionato per il profilo di connessione di origine, il profilo di connessione di destinazione e lo stream che hai creato.

  5. Dal menu Modello Dataflow, seleziona il modello che stai utilizzando per creare il job. Per questo tutorial, seleziona Datastream in BigQuery.

    Dopo aver effettuato questa selezione, vengono visualizzati altri campi relativi al modello.

  6. Nel campo Posizione file per output del file Datastream in Cloud Storage., inserisci il percorso che contiene il nome del tuo bucket Cloud Storage. Per questo tutorial, inserisci gs://my-integration-bucket.

  7. Nel campo Sottoscrizione Pub/Sub in uso in un criterio di notifica Cloud Storage., inserisci il percorso che contiene il nome della sottoscrizione Pub/Sub. Per questo tutorial, inserisci projects/project-name/subscriptions/my_integration_notifs_sub.

  8. Nel campo Formato file di output di Datastream (avro/json), inserisci avro perché, per questo tutorial, Avro è il formato file dei file che Datastream scrive in Cloud Storage.

  9. Nel campo Nome o modello che il set di dati contenga le tabelle temporanee, inserisci My_integration_dataset_log perché Dataflow utilizza questo set di dati per posizionare temporaneamente le modifiche ai dati che riceve da Datastream.

  10. Nel campo Il modello di set di dati deve contenere tabelle di replica, inserisci My_integration_dataset_final perché è il set di dati in cui vengono uniti le modifiche temporanee nel set di dati My_integration_dataset_log per creare una replica one-to-one delle tabelle nel database di origine.

  11. Nel campo Directory dei messaggi non recapitabili, inserisci il percorso che contiene il nome del bucket Cloud Storage e una cartella per la coda dei messaggi non recapitabili. Assicurati di non utilizzare un percorso nella cartella principale e che sia diverso da quello in cui Datastream scrive i dati. Qualsiasi modifica ai dati che Dataflow non riesce a trasferire in BigQuery viene archiviata nella coda. Puoi correggere i contenuti nella coda in modo che Dataflow possa rielaborarli.

    Per questo tutorial, inserisci gs://my-integration-bucket/dlq nel campo Directory dei messaggi non recapitabili. (dove dlq è la cartella per la coda dei messaggi non recapitabili).

  12. Fai clic su Esegui job.

Verifica l'integrazione

Nella sezione Verifica il flusso di questo tutorial, hai confermato che Datastream ha trasferito i dati da tutte le tabelle di un database MySQL di origine nella cartella /integration/tutorial del tuo bucket di destinazione Cloud Storage.

In questa sezione verificherai che Dataflow elabori i file contenenti le modifiche associate a questi dati e trasferisca le modifiche in BigQuery. Di conseguenza, ottieni un'integrazione end-to-end tra Datastream e BigQuery.

  1. Nella console Google Cloud, vai alla pagina dell'area di lavoro SQL per BigQuery.

    Vai alla pagina dell'area di lavoro SQL

  2. Nel riquadro Explorer, espandi il nodo accanto al nome del tuo progetto Google Cloud.

  3. Espandi i nodi accanto ai set di dati My_integration_dataset_log e My_integration_dataset_final.

  4. Verifica che ogni set di dati contenga ora i dati. Questo conferma che Dataflow ha elaborato i file contenenti le modifiche associate ai dati trasmessi da Datastream in streaming a Cloud Storage e trasferito queste modifiche in BigQuery.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, usa la console Google Cloud per:

  • Elimina il tuo progetto, il flusso Datastream e i profili di connessione Datastream.
  • Arresta il job Dataflow.
  • Elimina i set di dati BigQuery, l'argomento e la sottoscrizione Pub/Sub e il bucket Cloud Storage.

Eseguendo la pulizia delle risorse che hai creato su Datastream, Dataflow, BigQuery, Pub/Sub e Cloud Storage, puoi evitare che le risorse esauriscano la quota e non ti vengano addebitati costi in futuro.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per questo tutorial.

  1. Nella console Google Cloud, vai alla pagina Gestisci risorse.

    Vai alla pagina Gestisci risorse

  2. Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.

  3. Per eliminare il progetto, nella finestra di dialogo digita l'ID progetto e fai clic su Arresta.

Elimina lo stream

  1. Nella console Google Cloud, vai alla pagina Stream per Datastream.

    Vai alla pagina Stream

  2. Fai clic sullo stream che vuoi eliminare. Per questo tutorial, è Il mio stream.

  3. Fai clic su Metti in pausa.

  4. Nella finestra di dialogo, fai clic su Metti in pausa.

  5. Nel riquadro Stato stream della pagina Dettagli stream, verifica che lo stato dello stream sia Paused.

  6. Fai clic su Elimina.

  7. Nel campo di testo della finestra di dialogo, inserisci Delete e fai clic su Elimina.

Elimina i profili di connessione

  1. Nella console Google Cloud, vai alla pagina Profili di connessione per Datastream.

    Vai alla pagina Profili di connessione

  2. Seleziona la casella di controllo in corrispondenza di ogni profilo di connessione da eliminare: Il mio profilo di connessione di origine e Il mio profilo di connessione di destinazione.

  3. Fai clic su Elimina.

  4. Nella finestra di dialogo, fai clic su Elimina.

Arresta il job Dataflow

  1. Nella console Google Cloud, vai alla pagina Job per Dataflow.

    Vai alla pagina Job

  2. Fai clic sul job che vuoi arrestare. Per questo tutorial, è my-dataflow-integration-job.

  3. Fai clic su Arresta.

  4. Nella finestra di dialogo Interrompi job, seleziona l'opzione Svuota job, quindi fai clic su Arresta job.

Elimina i set di dati BigQuery

  1. Nella console Google Cloud, vai alla pagina dell'area di lavoro SQL per BigQuery.

    Vai alla pagina dell'area di lavoro SQL

  2. Nel riquadro Explorer, espandi il nodo accanto al nome del tuo progetto Google Cloud.

  3. Fai clic sul pulsante Visualizza azioni a destra di uno dei set di dati che hai creato in Crea set di dati in BigQuery. Questo pulsante ha l'aspetto di un'ellissi verticale.

    Per questo tutorial, fai clic sul pulsante Visualizza azioni a destra di My_integration_dataset_log.

  4. Seleziona Elimina dal menu a discesa visualizzato.

  5. Nella finestra di dialogo Vuoi eliminare il set di dati?, inserisci delete nel campo di testo, quindi fai clic su Elimina.

  6. Ripeti i passaggi di questa procedura per eliminare il secondo set di dati che hai creato: My_integration_dataset_final.

Elimina la sottoscrizione Pub/Sub e l'argomento

  1. Nella console Google Cloud, vai alla pagina Abbonamenti per Pub/Sub.

    Vai alla pagina Abbonamenti

  2. Fai clic sulla casella di controllo accanto alla sottoscrizione da eliminare. Per questo tutorial, fai clic sulla casella di controllo accanto alla sottoscrizione my_integration_notifs_sub.

  3. Fai clic su Elimina.

  4. Nella finestra di dialogo Elimina abbonamento, fai clic su Elimina.

  5. Nella console Google Cloud, vai alla pagina Argomenti per Pub/Sub.

    Vai alla pagina Argomenti

  6. Fai clic sulla casella di controllo accanto all'argomento my_integration_notifs.

  7. Fai clic su Elimina.

  8. Nella finestra di dialogo Elimina argomento, inserisci delete nel campo di testo, quindi fai clic su Elimina.

Elimina il bucket Cloud Storage

  1. Nella console Google Cloud, vai alla pagina Browser per Cloud Storage.

    Vai alla pagina Browser

  2. Seleziona la casella di controllo accanto al bucket. Per questo tutorial, è my-integration-bucket.

  3. Fai clic su Elimina.

  4. Nella finestra di dialogo, inserisci Delete nel campo di testo, quindi fai clic su Elimina.

Passaggi successivi