Implementazione di Datastream e Dataflow per l'analisi

Datastream

Datastream supporta il trasferimento di flussi di dati dai database Oracle, MySQL e PostgreSQL direttamente nei set di dati BigQuery. Tuttavia, se hai bisogno di un maggiore controllo sulla logica di elaborazione dei flussi, come la trasformazione dei dati o l'impostazione manuale delle chiavi primarie logiche, puoi integrare Datastream con i modelli di job di Dataflow.

Questo tutorial mostra come Datastream si integra con Dataflow utilizzando i modelli di job Dataflow per trasmettere viste materializzate e aggiornate in BigQuery per l'analisi.

Per le organizzazioni con molte origini dati isolate, l'accesso ai dati aziendali in tutta l'organizzazione, soprattutto in tempo reale, può essere limitato e lento. Questo limita la capacità dell'organizzazione di introspezione.

Datastream fornisce l'accesso quasi in tempo reale per modificare i dati da varie origini dati on-premise e basate su cloud. Datastream offre un'esperienza di configurazione in cui non è necessaria molta configurazione per i flussi di dati. Datastream lo fa per te. Datastream dispone inoltre di un'API di consumo unificata che democratizza l'accesso della tua organizzazione ai dati aziendali più recenti disponibili per creare scenari integrati.

Uno di questi scenari è il trasferimento dei dati da un database di origine a un servizio di archiviazione basato su cloud o a una coda di messaggistica. Dopo che Datastream trasmette i dati in modalità flusso, questi vengono trasformati in un formato che può essere letto da altre applicazioni e servizi. In questo tutorial, Dataflow è il servizio web che comunica con il servizio di archiviazione o la coda di messaggistica per acquisire ed elaborare i dati su Google Cloud.

Scopri come utilizzare Datastream per trasmettere le modifiche (dati inseriti, aggiornati o eliminati) da un database MySQL di origine a una cartella in un bucket Cloud Storage. Quindi, configurerai il bucket Cloud Storage in modo che invii notifiche che Dataflow utilizza per scoprire eventuali nuovi file contenenti le modifiche ai dati che Datastream trasmette in flusso dal database di origine. Un job Dataflow elabora quindi i file e trasferisce le modifiche in BigQuery.

diagramma di flusso utente di integrazione

Obiettivi

In questo tutorial imparerai a:

  • Creare un bucket in Cloud Storage. Questo è il bucket di destinazione in cui Datastream trasmette schemi, tabelle e dati da un database MySQL di origine.
  • Abilita le notifiche Pub/Sub per il bucket Cloud Storage. In questo modo, configuri il bucket in modo che invii notifiche che Dataflow utilizza per apprendere eventuali nuovi file pronti per l'elaborazione. Questi file contengono modifiche ai dati che Datastream trasmette in flusso dal database di origine al bucket.
  • Creare set di dati in BigQuery. BigQuery utilizza i set di dati per contenere i dati che riceve da Dataflow. Questi dati rappresentano le modifiche nel database di origine che Datastream invia in modalità flusso nel bucket Cloud Storage.
  • Creare e gestire profili di connessione per un database di origine e un bucket di destinazione in Cloud Storage. Un flusso in Datastream utilizza le informazioni nei profili di connessione per trasferire i dati dal database di origine al bucket.
  • Crea e avvia uno stream. Questo flusso trasferisce dati, schemi e tabelle dal database di origine al bucket.
  • Verifica che Datastream trasferisca nel bucket i dati e le tabelle associati a uno schema del database di origine.
  • Creare un job in Dataflow. Dopo che Datastream trasmette in flusso le modifiche dei dati dal database di origine al bucket Cloud Storage, vengono inviate notifiche a Dataflow per i nuovi file contenenti le modifiche. Il job Dataflow elabora i file e trasferisce le modifiche in BigQuery.
  • Verifica che Dataflow elabori i file contenenti le modifiche associate a questi dati e le trasferisca in BigQuery. Il risultato è un'integrazione end-to-end tra Datastream e BigQuery.
  • Esegui la pulizia delle risorse che hai creato su Datastream, Cloud Storage, Pub/Sub, Dataflow e BigQuery in modo che non occupino quota e non ti venga addebitato alcun costo in futuro.

Costi

In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:

  • Datastream
  • Cloud Storage
  • Pub/Sub
  • Dataflow
  • BigQuery

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il Calcolatore prezzi. I nuovi utenti di Google Cloud potrebbero essere idonei per una prova gratuita.

Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Abilita l'API Datastream.

    Abilita l'API

  7. Assicurati di aver concesso il ruolo Amministratore Datastream al tuo account utente.

    Vai alla pagina IAM

  8. Assicurati di disporre di un database MySQL di origine a cui Datastream possa accedere. Inoltre, verifica di disporre di dati, tabelle e schemi nel database.
  9. Configura il tuo database MySQL per consentire le connessioni in entrata dagli indirizzi IP pubblici Datastream. Per un elenco di tutte le regioni di Datastream con i relativi indirizzi IP pubblici associati, vedi Liste consentite e regioni IP.
  10. Configura la tecnologia Change Data Capture (CDC) per il database di origine. Per ulteriori informazioni, consulta Configurare un database MySQL di origine.
  11. Assicurati di soddisfare tutti i prerequisiti per abilitare le notifiche Pub/Sub per Cloud Storage.

    In questo tutorial, crei un bucket di destinazione in Cloud Storage e attivi le notifiche Pub/Sub per il bucket. In questo modo, Dataflow può ricevere notifiche sui nuovi file che Datastream scrive nel bucket. Questi file contengono modifiche ai dati che Datastream trasmette in flusso dal database di origine al bucket.

Requisiti

Datastream offre una varietà di opzioni di origine, opzioni di destinazione e metodi di connettività di rete.

Per questo tutorial, supponiamo che tu stia utilizzando un database MySQL autonomo e un servizio Cloud Storage di destinazione. Per il database di origine, dovresti essere in grado di configurare la rete in modo da aggiungere una regola firewall in entrata. Il database di origine può essere on-premise o in un cloud provider. Per la destinazione Cloud Storage, non è richiesta alcuna configurazione di connettività.

Poiché non possiamo conoscere le specifiche del tuo ambiente, non possiamo fornire passaggi dettagliati per la configurazione di rete.

Per questo tutorial, selezioni Lista consentita IP come metodo di connettività di rete. La lista consentita degli IP è una funzionalità di sicurezza spesso utilizzata per limitare e controllare l'accesso ai dati nel tuo database di origine da parte di utenti attendibili. Puoi utilizzare le liste consentite di IP per creare elenchi di indirizzi IP o intervalli IP attendibili da cui gli utenti e altri servizi Google Cloud come Datastream possono accedere a questi dati. Per utilizzare le liste consentite di IP, devi aprire il database o il firewall di origine alle connessioni in entrata da Datastream.

Crea un bucket in Cloud Storage

Crea un bucket di destinazione in Cloud Storage in cui Datastream trasmette i flussi di schemi, tabelle e dati da un database MySQL di origine.

  1. Nella console Google Cloud, vai alla pagina Browser per Cloud Storage.

    Vai alla pagina Browser

  2. Fai clic su Crea bucket. Viene visualizzata la pagina Crea un bucket.

  3. Nel campo di testo della regione Assegna un nome al bucket, inserisci un nome univoco per il bucket e fai clic su Continua.

  4. Accetta le impostazioni predefinite per ogni regione rimanente della pagina. Al termine di ogni regione, fai clic su Continua.

  5. Fai clic su Crea.

Abilita le notifiche Pub/Sub per il bucket Cloud Storage

In questa sezione, abiliterai le notifiche Pub/Sub per il bucket Cloud Storage che hai creato. In questo modo, configuri il bucket in modo da notificare a Dataflow eventuali nuovi file che Datastream scrive nel bucket. Questi file contengono le modifiche ai dati che Datastream trasferisce in streaming da un database MySQL di origine al bucket.

  1. Accedere al bucket Cloud Storage che hai creato. Viene visualizzata la pagina Dettagli bucket.

  2. Fai clic su Attiva Cloud Shell.

  3. Al prompt, inserisci il seguente comando:

    gcloud storage buckets notifications create gs://bucket-name --topic=my_integration_notifs --payload-format=json --object-prefix=integration/tutorial/

  4. (Facoltativo) Se viene visualizzata la finestra Autorizza Cloud Shell, fai clic su Autorizza.

  5. Verifica che siano visualizzate le seguenti righe di codice:

    Created Cloud Pub/Sub topic projects/project-name/topics/my_integration_notifs
    Created notification config projects/_/buckets/bucket-name/notificationConfigs/1
    
  6. Nella console Google Cloud, vai alla pagina Argomenti per Pub/Sub.

    Vai alla pagina Argomenti

  7. Fai clic sull'argomento my_integration_notifs che hai creato.

  8. Nella pagina my_integration_notifs, scorri fino in fondo. Verifica che la scheda Abbonamenti sia attiva e che venga visualizzato il messaggio Nessuna sottoscrizione da visualizzare.

  9. Fai clic su Crea sottoscrizione.

  10. Seleziona Crea abbonamento nel menu visualizzato.

  11. Nella pagina Aggiungi sottoscrizione all'argomento:

    1. Nel campo Subscription ID (ID abbonamento), inserisci my_integration_notifs_sub.
    2. Imposta il valore Scadenza conferma su 120 secondi. In questo modo Dataflow concede tempo sufficiente per confermare i file che ha elaborato e contribuisce a migliorare le prestazioni complessive del job Dataflow. Per ulteriori informazioni sulle proprietà delle sottoscrizioni Pub/Sub, consulta Proprietà delle sottoscrizioni.
    3. Lascia tutti gli altri valori predefiniti nella pagina.
    4. Fai clic su Crea.

Più avanti in questo tutorial, creerai un job Dataflow. Nell'ambito della creazione di questo job, assegni a Dataflow come sottoscrittore alla sottoscrizione my_integration_notifs_sub. In questo modo, Dataflow può ricevere notifiche sui nuovi file che Datastream scrive in Cloud Storage, elaborare i file e trasferire le modifiche ai dati in BigQuery.

Creare set di dati in BigQuery

In questa sezione crei set di dati in BigQuery. BigQuery utilizza i set di dati per contenere i dati che riceve da Dataflow. Questi dati rappresentano le modifiche nel database MySQL di origine che Datastream trasmette in flussi al tuo bucket Cloud Storage.

  1. Vai alla pagina Area di lavoro SQL per BigQuery nella console Google Cloud.

    Vai alla pagina dell'area di lavoro SQL

  2. Nel riquadro Explorer, accanto al nome del progetto Google Cloud, fai clic su Visualizza azioni.

  3. Nel menu visualizzato, seleziona Crea set di dati.

  4. Nella finestra Crea set di dati:

    1. Nel campo ID set di dati, inserisci un ID per il set di dati. Per questo tutorial, inserisci My_integration_dataset_log nel campo.
    2. Lascia tutti gli altri valori predefiniti nella finestra.
    3. Fai clic su Crea set di dati.
  5. Nel riquadro Explorer, accanto al nome del progetto Google Cloud, fai clic su Espandi nodo e verifica di vedere il set di dati che hai creato.

  6. Segui i passaggi di questa procedura per creare un secondo set di dati: My_integration_dataset_final.

  7. Accanto a ogni set di dati, espandi Espandi nodo.

  8. Verifica che ogni set di dati sia vuoto.

Dopo che Datastream trasmette i flussi di modifiche ai dati dal database di origine al bucket Cloud Storage, un job Dataflow elabora i file contenenti le modifiche e le trasferisce nei set di dati di BigQuery.

Crea profili di connessione in Datastream

In questa sezione creerai profili di connessione in Datastream per un database di origine e una destinazione. Durante la creazione dei profili di connessione, selezioni MySQL come tipo di profilo per il profilo di connessione di origine e Cloud Storage come tipo di profilo per il profilo di connessione di destinazione.

Datastream utilizza le informazioni definite nei profili di connessione per connettersi sia all'origine che alla destinazione in modo da poter trasmettere in streaming i dati dal database di origine al bucket di destinazione in Cloud Storage.

Crea un profilo di connessione di origine per il tuo database MySQL

  1. Nella console Google Cloud, vai alla pagina Profili di connessione per Datastream.

    Vai alla pagina Profili di connessione

  2. Fai clic su Crea profilo.

  3. Per creare un profilo di connessione di origine per il tuo database MySQL, nella pagina Crea un profilo di connessione, fai clic sul tipo di profilo MySQL.

  4. Nella sezione Definisci le impostazioni di connessione della pagina Crea profilo MySQL, indica le seguenti informazioni:

    • Nel campo Nome profilo di connessione, inserisci My Source Connection Profile.
    • Conserva l'ID profilo di connessione generato automaticamente.
    • Seleziona la Regione in cui vuoi archiviare il profilo di connessione.

    • Inserisci Dettagli connessione:

      • Nel campo Nome host o IP, inserisci un nome host o un indirizzo IP pubblico che Datastream può utilizzare per connettersi al database di origine. Stai fornendo un indirizzo IP pubblico perché utilizzi la lista consentita di IP come metodo di connettività di rete per questo tutorial.
      • Nel campo Porta, inserisci il numero di porta riservato per il database di origine. Per un database MySQL, la porta predefinita è in genere 3306.
      • Inserisci un Nome utente e una Password per eseguire l'autenticazione nel database di origine.
  5. Nella sezione Definisci le impostazioni di connessione, fai clic su Continua. La sezione Proteggi la connessione all'origine della pagina Crea profilo MySQL sia attiva.

  6. Dal menu Tipo di crittografia, seleziona Nessuno. Per maggiori informazioni su questo menu, vedi Creare un profilo di connessione per il database MySQL.

  7. Nella sezione Proteggi la connessione all'origine, fai clic su Continua. La sezione Definisci il metodo di connettività della pagina Crea profilo MySQL sia attiva.

  8. Nel menu a discesa Metodo di connettività, scegli il metodo di networking da utilizzare per stabilire la connettività tra Datastream e il database di origine. Per questo tutorial, seleziona Lista consentita IP come metodo di connettività.

  9. Configura il database di origine per consentire le connessioni in entrata dagli indirizzi IP pubblici Datastream visualizzati.

  10. Nella sezione Definisci il metodo di connettività, fai clic su Continua. La sezione Testa il profilo di connessione della pagina Crea profilo MySQL è attiva.

  11. Fai clic su Esegui test per verificare che il database di origine e Datastream possano comunicare tra loro.

  12. Verifica che sia visualizzato lo stato Test superato.

  13. Fai clic su Crea.

Crea un profilo di connessione di destinazione per Cloud Storage

  1. Nella console Google Cloud, vai alla pagina Profili di connessione per Datastream.

    Vai alla pagina Profili di connessione

  2. Fai clic su Crea profilo.

  3. Per creare un profilo di connessione di destinazione per Cloud Storage, nella pagina Crea un profilo di connessione, fai clic sul tipo di profilo Cloud Storage.

  4. Nella pagina Crea profilo Cloud Storage, fornisci le seguenti informazioni:

    • Nel campo Nome profilo di connessione, inserisci My Destination Connection Profile.
    • Conserva l'ID profilo di connessione generato automaticamente.
    • Seleziona la Regione in cui vuoi archiviare il profilo di connessione.
    • Nel riquadro Dettagli connessione, fai clic su Sfoglia per selezionare il bucket Cloud Storage creato in precedenza in questo tutorial. Questo è il bucket in cui Datastream trasferisce i dati dal database di origine. Dopo aver effettuato la selezione, fai clic su Seleziona.

      Il bucket viene visualizzato nel campo Nome bucket del riquadro Dettagli connessione.

    • Nel campo Prefisso percorso profilo di connessione, fornisci un prefisso per il percorso da aggiungere al nome del bucket quando Datastream trasmette i dati in modalità flusso alla destinazione. Assicurati che Datastream scriva i dati in un percorso all'interno del bucket, non nella cartella principale del bucket. Per questo tutorial, utilizza il percorso che hai definito quando hai configurato la notifica Pub/Sub. Inserisci /integration/tutorial nel campo.

  5. Fai clic su Crea.

Dopo aver creato un profilo di connessione di origine per il database MySQL e un profilo di connessione di destinazione per Cloud Storage, puoi utilizzarli per creare un flusso.

Crea un flusso in Datastream

In questa sezione devi creare uno stream. Questo flusso utilizza le informazioni nei profili di connessione per trasferire i dati da un database MySQL di origine a un bucket di destinazione in Cloud Storage.

Definisci le impostazioni per lo stream

  1. Nella console Google Cloud, vai alla pagina Stream per Datastream.

    Vai alla pagina Stream

  2. Fai clic su Crea stream.

  3. Fornisci le seguenti informazioni nel riquadro Definisci i dettagli dello stream della pagina Crea stream:

    • Nel campo Nome stream, inserisci My Stream.
    • Conserva l'ID stream generato automaticamente.
    • Nel menu Regione, seleziona la regione in cui hai creato i profili di connessione di origine e di destinazione.
    • Nel menu Tipo di origine, seleziona il tipo di profilo MySQL.
    • Dal menu Tipo di destinazione, seleziona il tipo di profilo Cloud Storage.
  4. Esamina i prerequisiti richiesti che vengono generati automaticamente per riflettere il modo in cui il tuo ambiente deve essere preparato per un flusso. Questi prerequisiti possono includere la configurazione del database di origine e la modalità di connessione di Datastream al bucket di destinazione in Cloud Storage.

  5. Fai clic su Continua. Viene visualizzato il riquadro Definisci il profilo di connessione MySQL della pagina Crea stream.

Specifica le informazioni sul profilo di connessione di origine

In questa sezione, selezioni il profilo di connessione che hai creato per il database di origine (il profilo di connessione di origine). Per questo tutorial, si tratta di My Source Connection Profile (Il mio profilo di connessione di origine).

  1. Dal menu Profilo di connessione di origine, seleziona il tuo profilo di connessione di origine per il database MySQL.

  2. Fai clic su Esegui test per verificare che il database di origine e Datastream possano comunicare tra loro.

    Se il test non va a buon fine, viene visualizzato il problema associato al profilo di connessione. Per la procedura di risoluzione dei problemi, consulta la pagina Diagnostica i problemi. Apporta le modifiche necessarie per risolvere il problema e riprova.

  3. Fai clic su Continua. Viene visualizzato il riquadro Configura origine stream nella pagina Crea stream.

Configura le informazioni sul database di origine per lo stream

In questa sezione configurerai le informazioni sul database di origine per il flusso specificando le tabelle e gli schemi nel database di origine che Datastream:

  • Può effettuare trasferimenti nella destinazione.
  • Non può raggiungere la destinazione.

Inoltre, puoi determinare se Datastream esegue il backfill dei dati storici, oltre a trasmettere le modifiche continue alla destinazione o solo trasmettere le modifiche ai dati.

  1. Utilizza il menu Oggetti da includere per specificare le tabelle e gli schemi nel database di origine che Datastream può trasferire in una cartella del bucket di destinazione in Cloud Storage. Il menu viene caricato solo se il database contiene fino a 5000 oggetti.

    Per questo tutorial, vuoi che Datastream trasferisca tutte le tabelle e tutti gli schemi. Pertanto, seleziona Tutte le tabelle di tutti gli schemi dal menu.

  2. Verifica che il riquadro Seleziona gli oggetti da escludere sia impostato su Nessuno. Non vuoi impedire a Datastream di trasferire in Cloud Storage tabelle e schemi presenti nel tuo database di origine.

  3. Verifica che il riquadro Scegli la modalità di backfill per i dati storici sia impostato su Automatico. Datastream trasmette tutti i dati esistenti, oltre alle modifiche ai dati, dall'origine alla destinazione.

  4. Fai clic su Continua. Viene visualizzato il riquadro Definisci profilo di connessione Cloud Storage della pagina Crea stream.

Seleziona un profilo di connessione di destinazione

In questa sezione, devi selezionare il profilo di connessione che hai creato per Cloud Storage (il profilo di connessione di destinazione). Per questo tutorial, il nome è Il mio profilo di connessione di destinazione.

  1. Dal menu Profilo di connessione di destinazione, seleziona il profilo di connessione di destinazione per Cloud Storage.

  2. Fai clic su Continua. Viene visualizzato il riquadro Configura destinazione stream nella pagina Crea stream.

Configura le informazioni sulla destinazione dello stream

In questa sezione configuri le informazioni sul bucket di destinazione per lo stream. Queste informazioni comprendono:

  • Il formato di output dei file scritti in Cloud Storage.
  • La cartella del bucket di destinazione in cui Datastream trasferisce schemi, tabelle e dati dal database di origine.
  1. Nel campo Formato di output, seleziona il formato dei file scritti in Cloud Storage. Datastream supporta due formati di output: Avro e JSON. Per questo tutorial, il formato file è Avro.

  2. Fai clic su Continua. Viene visualizzato il riquadro Rivedi dettagli flusso e crea della pagina Crea stream.

Crea lo stream

  1. Verifica i dettagli sul flusso e sui profili di connessione di origine e di destinazione utilizzati dal flusso per trasferire i dati da un database MySQL di origine a un bucket di destinazione in Cloud Storage.

  2. Per convalidare il flusso, fai clic su Esegui convalida. Convalidando un flusso, Datastream controlla che l'origine sia configurata correttamente, verifica che il flusso possa connettersi sia all'origine che alla destinazione e verifica la configurazione end-to-end del flusso.

  3. Dopo aver superato tutti i controlli di convalida, fai clic su Crea.

  4. Nella finestra di dialogo Vuoi creare lo stream?, fai clic su Crea.

Avvia lo stream

Per questo tutorial, creerai e avvii un flusso separatamente nel caso in cui il processo di creazione del flusso generi un carico maggiore sul database di origine. Per posticipare il carico, devi creare il flusso senza avviarlo, quindi avviarlo quando il database è in grado di gestire il carico.

Avviando il flusso, Datastream può trasferire dati, schemi e tabelle dal database di origine alla destinazione.

  1. Nella console Google Cloud, vai alla pagina Stream per Datastream.

    Vai alla pagina Stream

  2. Seleziona la casella di controllo accanto allo stream da avviare. Per questo tutorial, si tratta di Il mio stream.

  3. Fai clic su Avvia.

  4. Nella finestra di dialogo, fai clic su Avvia. Lo stato dello stream cambia da Not started a Starting a Running.

Dopo aver avviato un flusso, puoi verificare che Datastream abbia trasferito i dati dal database di origine alla destinazione.

Verifica lo stream

In questa sezione confermi che Datastream trasferisce i dati da tutte le tabelle di un database MySQL di origine nella cartella /integration/tutorial del tuo bucket di destinazione Cloud Storage.

  1. Nella console Google Cloud, vai alla pagina Stream per Datastream.

    Vai alla pagina Stream

  2. Fai clic sullo stream che hai creato. Per questo tutorial, si tratta di Il mio stream.

  3. Nella pagina Dettagli stream, fai clic sul link bucket-name/integration/tutorial, dove bucket-name è il nome che hai assegnato al bucket Cloud Storage. Questo link viene visualizzato dopo il campo Percorso scrittura destinazione. La pagina Dettagli bucket di Cloud Storage si apre in una scheda separata.

  4. Verifica di visualizzare le cartelle che rappresentano le tabelle del database di origine.

  5. Fai clic su una delle cartelle della tabella e poi su ogni sottocartella fino a visualizzare i dati associati alla tabella.

crea un job Dataflow

In questa sezione creerai un job in Dataflow. Dopo che Datastream ha trasferito le modifiche ai dati da un database MySQL di origine al tuo bucket Cloud Storage, Pub/Sub invia notifiche a Dataflow relative ai nuovi file contenenti le modifiche. Il job Dataflow elabora i file e trasferisce le modifiche in BigQuery.

  1. Nella console Google Cloud, vai alla pagina Job per Dataflow.

    Vai alla pagina Job

  2. Fai clic su Crea job da modello.

  3. Nel campo Nome job della pagina Crea job da modello, inserisci un nome per il job Dataflow che stai creando. Per questo tutorial, inserisci my-dataflow-integration-job nel campo.

  4. Nel menu Endpoint a livello di regione, seleziona la regione in cui vuoi archiviare il job. Si tratta della stessa regione che hai selezionato per il profilo di connessione di origine, il profilo di connessione di destinazione e lo stream che hai creato.

  5. Dal menu Modello Dataflow, seleziona il modello che stai utilizzando per creare il job. Per questo tutorial, seleziona Da Datastream a BigQuery.

    Dopo aver effettuato la selezione, vengono visualizzati altri campi relativi a questo modello.

  6. Nel campo Posizione file per l'output del file Datastream in Cloud Storage., inserisci il nome del bucket Cloud Storage utilizzando il seguente formato: gs://bucket-name.

  7. Nel campo Abbonamento Pub/Sub utilizzato in un criterio di notifica Cloud Storage, inserisci il percorso contenente il nome dell'abbonamento Pub/Sub. Per questo tutorial, inserisci projects/project-name/subscriptions/my_integration_notifs_sub.

  8. Nel campo Formato del file di output di Datastream (avro/json)., inserisci avro perché, per questo tutorial, Avro è il formato file dei file che Datastream scrive in Cloud Storage.

  9. Nel campo Nome o modello del set di dati per contenere le tabelle temporanee, inserisci My_integration_dataset_log perché Dataflow utilizza questo set di dati per organizzare le modifiche dei dati che riceve da Datastream.

  10. Nel campo Modello per cui il set di dati deve contenere le tabelle di replica, inserisci My_integration_dataset_final perché questo è il set di dati in cui le modifiche vengono temporanee nell'unione del set di dati My_integration_dataset_log per creare una replica one-to-one delle tabelle nel database di origine.

  11. Nel campo Directory della coda delle email non recapitate, inserisci il percorso contenente il nome del bucket Cloud Storage e una cartella per una coda delle email non recapitate. Assicurati di non utilizzare un percorso nella cartella principale e che il percorso sia diverso da quello in cui Datastream scrive i dati. Eventuali modifiche ai dati che Dataflow non riesce a trasferire in BigQuery vengono memorizzate nella coda. Puoi correggere i contenuti in coda in modo che Dataflow possa rielaborarli.

    Per questo tutorial, inserisci gs://bucket-name/dlq nel campo Directory dei messaggi non recapitabili (dove bucket-name è il nome del bucket e dlq è la cartella per la coda dei messaggi non recapitabili).

  12. Fai clic su Esegui job.

Verificare l'integrazione

Nella sezione Verifica il flusso di questo tutorial hai confermato che Datastream ha trasferito i dati da tutte le tabelle di un database MySQL di origine alla cartella /integration/tutorial del tuo bucket di destinazione Cloud Storage.

In questa sezione verificherai che Dataflow elabora i file contenenti le modifiche associate a questi dati e li trasferisce in BigQuery. Il risultato è un'integrazione end-to-end tra Datastream e BigQuery.

  1. Nella console Google Cloud, vai alla pagina dell'area di lavoro SQL per BigQuery.

    Vai alla pagina Spazio di lavoro SQL

  2. Nel riquadro Explorer, espandi il nodo accanto al nome del tuo progetto Google Cloud.

  3. Espandi i nodi accanto ai set di dati My_integration_dataset_log e My_integration_dataset_final.

  4. Verifica che ogni set di dati contenga ora dei dati. Ciò conferma che Dataflow ha elaborato i file contenenti le modifiche associate ai dati trasmessi in flusso da Datastream in Cloud Storage e ha trasferito queste modifiche in BigQuery.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, usa la console Google Cloud per:

  • Elimina il progetto, il flusso Datastream e i profili di connessione Datastream.
  • Interrompi il job Dataflow.
  • Elimina i set di dati BigQuery, l'argomento e la sottoscrizione Pub/Sub e il bucket Cloud Storage.

Eseguendo la pulizia delle risorse che hai creato in Datastream, Dataflow, BigQuery, Pub/Sub e Cloud Storage, impedisci alle risorse di occupare quota e non ti verrà addebitato alcun costo in futuro.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è quello di eliminare il progetto che hai creato per questo tutorial.

  1. Nella console Google Cloud, vai alla pagina Gestisci risorse.

    Vai alla pagina Gestisci risorse

  2. Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.

  3. Per eliminare il progetto, digita l'ID progetto nella finestra di dialogo, quindi fai clic su Chiudi.

Elimina lo stream

  1. Nella console Google Cloud, vai alla pagina Stream per Datastream.

    Vai alla pagina Stream

  2. Fai clic sullo stream che vuoi eliminare. Per questo tutorial, si tratta di Il mio stream.

  3. Fai clic su Metti in pausa.

  4. Nella finestra di dialogo, fai clic su Metti in pausa.

  5. Nel riquadro Stato stream della pagina Dettagli stream, verifica che lo stato dello stream sia Paused.

  6. Fai clic su Elimina.

  7. Nel campo di testo della finestra di dialogo, inserisci Delete e fai clic su Elimina.

Elimina i profili di connessione

  1. Nella console Google Cloud, vai alla pagina Profili di connessione per Datastream.

    Vai alla pagina Profili di connessione

  2. Seleziona la casella di controllo per ogni profilo di connessione che vuoi eliminare: My Source Connection Profile (Il mio profilo di connessione di origine) e My destination Connection Profile (Il mio profilo di connessione di destinazione).

  3. Fai clic su Elimina.

  4. Nella finestra di dialogo, fai clic su Elimina.

arresta il job Dataflow

  1. Nella console Google Cloud, vai alla pagina Job per Dataflow.

    Vai alla pagina Job

  2. Fai clic sul job che vuoi arrestare. Per questo tutorial, il titolo è my-dataflow-integration-job.

  3. Fai clic su Arresta.

  4. Nella finestra di dialogo Arresta job, seleziona l'opzione Svuota job, quindi fai clic su Arresta job.

Elimina i set di dati BigQuery

  1. Nella console Google Cloud, vai alla pagina dell'area di lavoro SQL per BigQuery.

    Vai alla pagina dell'area di lavoro SQL

  2. Nel riquadro Explorer, espandi il nodo accanto al nome del progetto Google Cloud.

  3. Fai clic sul pulsante Visualizza azioni a destra di uno dei set di dati che hai creato in Crea set di dati in BigQuery. Questo pulsante ha l'aspetto di un'ellissi verticale.

    Per questo tutorial, fai clic sul pulsante Visualizza azioni a destra di My_integration_dataset_log.

  4. Seleziona Elimina dal menu a discesa visualizzato.

  5. Nella finestra di dialogo Vuoi eliminare il set di dati?, inserisci delete nel campo di testo e fai clic su Elimina.

  6. Ripeti i passaggi di questa procedura per eliminare il secondo set di dati che hai creato: My_integration_dataset_final.

Elimina la sottoscrizione Pub/Sub e l'argomento

  1. Nella console Google Cloud, vai alla pagina Abbonamenti per Pub/Sub.

    Vai alla pagina Abbonamenti

  2. Fai clic sulla casella di controllo accanto all'abbonamento che vuoi eliminare. Per questo tutorial, fai clic sulla casella di controllo accanto alla sottoscrizione my_integration_notifs_sub.

  3. Fai clic su Elimina.

  4. Nella finestra di dialogo Elimina abbonamento, fai clic su Elimina.

  5. Nella console Google Cloud, vai alla pagina Argomenti per Pub/Sub.

    Vai alla pagina Argomenti

  6. Fai clic sulla casella di controllo accanto all'argomento my_integration_notifs.

  7. Fai clic su Elimina.

  8. Nella finestra di dialogo Elimina argomento, inserisci delete nel campo di testo, quindi fai clic su Elimina.

Elimina il bucket Cloud Storage

  1. Nella console Google Cloud, vai alla pagina Browser per Cloud Storage.

    Vai alla pagina Browser

  2. Seleziona la casella di controllo accanto al bucket.

  3. Fai clic su Elimina.

  4. Nella finestra di dialogo, inserisci Delete nel campo di testo e fai clic su Elimina.

Passaggi successivi