Replica i dati in BigQuery quasi in tempo reale con Datastream

Scopri come replicare i dati da un database di origine ai set di dati BigQuery utilizzando Datastream.


Per seguire le indicazioni dettagliate per questa attività direttamente nella console Google Cloud, fai clic su Procedura guidata:

Procedura guidata


Prima di iniziare

  1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  6. Attiva Datastream API.

    Abilita l'API

  7. Assicurati che al tuo account utente sia assegnato il ruolo Amministratore Datastream.

    Vai alla pagina IAM

Se vuoi creare una configurazione di connettività privata per una rete VPC standard o condivisa, devi completare dei prerequisiti aggiuntivi. Per maggiori informazioni, consulta Creare una configurazione di connettività privata.

Requisiti

Datastream offre una varietà di opzioni di origine, di destinazione e di connettività di rete.

In questa guida rapida, supponiamo che tu stia replicando i dati da un database Cloud SQL per PostgreSQL a BigQuery. Per il database di origine, dovresti poter configurare l'istanza del database in modo che accetti connessioni dagli indirizzi IP pubblici di Datastream.

Poiché non possiamo conoscere le specifiche del tuo ambiente, non possiamo fornire passaggi dettagliati per la configurazione di rete.

Per questa guida rapida, seleziona Lista consentita IP come metodo di connettività di rete. La lista consentita degli IP è una funzionalità di sicurezza spesso utilizzata per limitare e controllare l'accesso ai dati nel tuo database di origine da parte di utenti attendibili. Puoi utilizzare le liste consentite di IP per creare elenchi di indirizzi IP o intervalli IP attendibili da cui gli utenti e altri servizi Cloud come Datastream possono accedere a questi dati. Per utilizzare le liste consentite IP, devi aprire il database Cloud SQL di origine per le connessioni in entrata da Datastream.

Creazione di profili di connessione

La creazione di profili di connessione comporta l'archiviazione di alcune informazioni di base sull'origine e sulla destinazione in Datastream. Puoi quindi riutilizzare queste informazioni in più flussi.

In questa guida rapida, selezionerai PostgreSQL come tipo di profilo per il profilo di connessione di origine e BigQuery come tipo di profilo per il profilo di connessione di destinazione. Datastream utilizza le informazioni nei profili di connessione per connettersi al database di origine e a BigQuery.

Crea un profilo di connessione di origine per il database PostgreSQL

  1. Vai alla pagina Profili di connessione per Datastream nella Google Cloud Console.

    Vai alla pagina Profili di connessione

  2. Fai clic su CREA PROFILO.

  3. Nella pagina Crea un profilo di connessione, fai clic sul tipo di profilo PostgreSQL (perché vuoi creare un profilo di connessione di origine per il database PostgreSQL).

  4. Fornisci le seguenti informazioni nella sezione Definisci le impostazioni di connessione della pagina Crea profilo PostgreSQL:

    • Inserisci My Source Connection Profile come Nome profilo di connessione per il database di origine.
    • Conserva l'ID profilo di connessione generato automaticamente.
    • Seleziona la regione in cui verrà archiviato il profilo di connessione.

    • Inserisci Dettagli connessione:

      • Nel campo Nome host o IP, inserisci un nome host o un indirizzo IP pubblico che Datastream può utilizzare per connettersi al database PostgreSQL di origine. Stai fornendo un indirizzo IP pubblico perché per questa guida rapida verrà utilizzata la lista consentita degli IP come metodo di connettività di rete.
      • Nel campo Porta, inserisci il numero di porta riservato per il database di origine. Per un database PostgreSQL, la porta predefinita è in genere 5432.
      • Inserisci un Nome utente e una Password per eseguire l'autenticazione nel database di origine.
      • Nel campo Database, inserisci il nome che identifica l'istanza di database. Per i database PostgreSQL, il valore in genere è postgres.
  5. Nella sezione Definisci le impostazioni di connessione, fai clic su CONTINUA. La sezione Definisci il metodo di connettività della pagina Crea profilo PostgreSQL è attiva.

  6. Scegli il metodo di networking da utilizzare per stabilire la connettività tra il database di origine e Datastream. Per questa guida rapida, utilizza il menu a discesa Metodo di connettività per selezionare Inserimento IP nella lista consentita come metodo di networking.

  7. Configura il database di origine per consentire le connessioni in entrata dagli indirizzi IP pubblici Datastream visualizzati.

  8. Nella sezione Definisci il metodo di connettività, fai clic su CONTINUA. La sezione Testare il profilo di connessione della pagina Crea profilo PostgreSQL è attiva.

  9. Fai clic su ESEGUI TEST per verificare che il database PostgreSQL di origine e Datastream possano comunicare tra loro.

  10. Verifica che venga visualizzato lo stato "Test superato".

  11. Se il test non va a buon fine, puoi risolvere il problema nella parte appropriata del flusso e poi ripetere il test. Per la procedura di risoluzione dei problemi, consulta la pagina Diagnostica i problemi.

  12. Fai clic su CREA.

Crea un profilo di connessione di destinazione per BigQuery

  1. Vai alla pagina Profili di connessione per Datastream nella Google Cloud Console.

    Vai alla pagina Profili di connessione

  2. Fai clic su CREA PROFILO.

  3. Nella pagina Crea un profilo di connessione, fai clic sul tipo di profilo BigQuery perché vuoi creare un profilo di connessione di destinazione per BigQuery.

  4. Fornisci le seguenti informazioni nella pagina Crea profilo BigQuery:

    • Inserisci My Destination Connection Profile come Nome profilo di connessione per il servizio BigQuery di destinazione.
    • Conserva l'ID profilo di connessione generato automaticamente.
    • Seleziona la regione in cui verrà archiviato il profilo di connessione.
  5. Fai clic su CREA.

Dopo aver creato un profilo di connessione di origine per il database PostgreSQL e un profilo di connessione di destinazione per BigQuery, puoi utilizzarli per creare un flusso.

Crea uno stream

In questa sezione creerai un flusso per replicare i dati da un database PostgreSQL di origine a BigQuery.

La creazione di uno stream include:

  • Definizione delle impostazioni per lo stream.
  • Seleziona il profilo di connessione di origine creato per il database di origine (il profilo di connessione di origine). Per questa guida rapida, questo è My Source Connection Profile (Il mio profilo di connessione di origine).
  • Configurare le informazioni sul database di origine per il flusso specificando le proprietà di replica, le tabelle e gli schemi nel database di origine che Datastream:
    • Può effettuare trasferimenti nella destinazione.
    • Non può raggiungere la destinazione.
  • Determinare se Datastream eseguirà il backfill dei dati storici e se trasmetterà in modalità flusso le modifiche in corso nella destinazione o solo la trasmissione di modifiche ai dati.
  • Seleziona il profilo di connessione di destinazione che hai creato per BigQuery. Per questa guida rapida, questo è My Target Connection Profile (Il mio profilo di connessione di destinazione).
  • Configurazione delle informazioni sulla destinazione per il flusso, ad esempio la configurazione dei set di dati BigQuery.
  • Convalida del flusso in corso.

Definisci le impostazioni per lo stream

  1. Nella Google Cloud Console, vai alla pagina Stream per Datastream.

    Vai alla pagina Stream

  2. Fai clic su CREA STREAM.

  3. Fornisci le seguenti informazioni nel riquadro Definisci i dettagli dello stream della pagina Crea stream:

    • Inserisci My Stream come Nome stream.
    • Conserva l'ID stream generato automaticamente.
    • Nel menu Regione, seleziona la regione in cui hai creato il profilo di connessione di origine.
    • Nel menu Tipo di origine, seleziona il tipo di profilo PostgreSQL.
    • Dal menu Tipo di destinazione, seleziona il tipo di profilo BigQuery.
  4. Esamina i prerequisiti richiesti che vengono generati automaticamente per riflettere il modo in cui il tuo ambiente deve essere preparato per un flusso. Questi prerequisiti includono come configurare il database di origine e come configurare BigQuery.

  5. Fai clic su CONTINUA. Viene visualizzato il riquadro Definisci profilo di connessione PostgreSQL della pagina Crea stream.

Specifica le informazioni sul profilo di connessione di origine

  1. Dal menu Profilo di connessione di origine, seleziona il tuo profilo di connessione di origine per il database PostgreSQL.

  2. Fai clic su ESEGUI TEST per verificare che il database di origine e Datastream possano comunicare tra loro.

    Se il test non va a buon fine, viene visualizzato il problema associato al profilo di connessione. Per la procedura di risoluzione dei problemi, consulta la pagina Diagnostica i problemi. Apporta le modifiche necessarie per risolvere il problema e riprova.

  3. Fai clic su CONTINUA. Viene visualizzato il riquadro Configura origine stream nella pagina Crea stream.

Configura le informazioni sul database di origine per lo stream

  1. Specifica i nomi dello slot di replica e della pubblicazione per il database di origine. Lo slot di replica e la pubblicazione sono stati creati durante la configurazione del database PostgreSQL.

  2. Utilizza il menu Oggetti da includere per specificare le tabelle e gli schemi nel database di origine che Datastream replica in BigQuery. Il menu viene caricato solo se il database contiene fino a 5000 oggetti.

    Per questa guida rapida, vuoi che Datastream trasferisca tutte le tabelle e tutti gli schemi. Pertanto, seleziona Tutte le tabelle di tutti gli schemi dal menu.

  3. Fai clic su CONTINUA. Viene visualizzato il riquadro Definisci profilo di connessione BigQuery della pagina Crea stream.

Seleziona un profilo di connessione di destinazione

  1. Dal menu Profilo di connessione di destinazione, seleziona il profilo di connessione di destinazione per BigQuery.

  2. Fai clic su CONTINUA. Viene visualizzato il riquadro Configura destinazione stream nella pagina Crea stream.

Configura le informazioni sulla destinazione dello stream

  1. Scegli l'opzione Set di dati per ogni schema, in modo che Datastream crei automaticamente un set di dati in BigQuery per ogni schema nel database di origine.

  2. Seleziona la località in cui verranno creati i set di dati in BigQuery. Questa località non deve essere necessariamente la stessa della regione in cui viene creato il flusso Datastream.

  3. Imposta il Prefisso su quickstart-. Datastream aggiungerà questa stringa all'inizio di ogni set di dati creato in BigQuery.

  4. Lascia il valore in Modalità di scrittura del flusso impostato su Unisci. In questo modo, le tabelle in BigQuery rimangono sincronizzate con l'origine.

  5. Lascia il valore nell'elenco a discesa Specifica il limite di inattività dei dati impostato su 15 minuti. BigQuery utilizza questo valore per decidere quanto potrebbero essere inattivi i dati quando viene eseguita una query.

  6. Fai clic su CONTINUA. Viene visualizzato il riquadro Esamina i dettagli e crea della pagina Crea stream.

Crea lo stream

  1. Verifica i dettagli del flusso e dei profili di connessione di origine e di destinazione che il flusso utilizzerà per trasferire i dati da un database PostgreSQL di origine a BigQuery.

  2. Fai clic su ESEGUI CONVALIDA per convalidare il flusso. Convalidando un flusso, Datastream controlla che l'origine sia configurata correttamente, verifica che il flusso possa connettersi sia all'origine che alla destinazione e verifica la configurazione end-to-end del flusso.

  3. Una volta superati tutti i controlli di convalida, fai clic su CREA.

  4. Nella finestra di dialogo Vuoi creare lo stream?, fai clic su CREA.

Avvia lo stream

Nella sezione precedente della guida rapida hai creato uno stream, ma non l'hai avviato. Ora puoi farlo.

Per questa guida rapida, creerai e avvii un flusso separatamente nel caso in cui il processo di creazione del flusso generi un carico maggiore sul database di origine. Per posticipare il carico, devi creare lo stream senza avviarlo e quindi avviarlo quando è possibile sopportare il carico.

Avviando il flusso, Datastream può trasferire dati, schemi e tabelle dal database di origine alla destinazione.

  1. Nella Google Cloud Console, vai alla pagina Stream per Datastream.

    Vai alla pagina Stream

  2. Seleziona la casella di controllo a sinistra dello stream da avviare. Per questa guida rapida, si tratta di Il mio stream.

  3. Fai clic su INIZIA.

  4. Nella finestra di dialogo, fai clic su AVVIA. Lo stato dello stream cambia da Not started a Starting a Running.

    Dopo aver avviato un flusso, puoi verificare che Datastream abbia trasferito i dati dal database di origine alla destinazione.

Verifica lo stream

In questa sezione verificherai che Datastream trasferisca i dati da tutte le tabelle del database PostgreSQL di origine a BigQuery.

  1. Nella Google Cloud Console, vai alla pagina Stream per Datastream.

    Vai alla pagina Stream

  2. Fai clic sullo stream che hai creato. Per questa guida rapida, si tratta di Il mio stream.

  3. Nella pagina Dettagli stream, fai clic sul link riportato sotto il campo Percorso scrittura destinazione. BigQuery Studio si apre in una scheda separata.

  4. Verifica di vedere i set di dati e le tabelle che rappresentano gli schemi e le tabelle del database PostgreSQL di origine.

  5. Fai clic su una delle tabelle per visualizzare un'anteprima dei dati.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.

  1. Utilizza la console Google Cloud per eliminare il progetto, i profili di flusso e connessione Datastream e i set di dati BigQuery.

Se esegui la pulizia delle risorse che hai creato su Datastream, queste non utilizzeranno la quota e non ti verranno addebitati costi in futuro. Le seguenti sezioni descrivono come eliminare o disattivare queste risorse.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è quello di eliminare il progetto che hai creato per questa guida rapida.

  1. Nella console Cloud, vai alla pagina Gestisci risorse.

    Vai alla pagina Gestisci risorse

  2. Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.

  3. Nella finestra di dialogo, digita l'ID progetto, quindi fai clic su Chiudi per eliminare il progetto.

Elimina lo stream

  1. Nella Google Cloud Console, vai alla pagina Stream per Datastream.

    Vai alla pagina Stream

  2. Fai clic sullo stream che vuoi eliminare. Per questa guida rapida, si tratta di Il mio stream.

  3. Fai clic su METTI IN PAUSA.

  4. Nella finestra di dialogo, fai clic su PAUSA.

  5. Nel riquadro Stato stream della pagina Dettagli stream, verifica che lo stato dello stream sia Paused.

  6. Fai clic su ELIMINA.

  7. Nella finestra di dialogo, inserisci Delete nel campo di testo, quindi fai clic su ELIMINA.

Elimina i profili di connessione

  1. Vai alla pagina Profili di connessione per Datastream nella Google Cloud Console.

    Vai alla pagina Profili di connessione

  2. Seleziona la casella di controllo per ogni profilo di connessione che vuoi eliminare. Per questa guida rapida, seleziona le caselle di controllo per My Source Connection Profile (Il mio profilo di connessione di origine) e My destination Connection Profile (Il mio profilo di connessione di destinazione).

  3. Fai clic su ELIMINA.

  4. Nella finestra di dialogo, fai clic su ELIMINA.

Elimina i tuoi set di dati BigQuery

  1. Vai alla pagina BigQuery Studio nella Google Cloud Console.

    Vai a BigQuery Studio

  2. Espandi il nodo del progetto in cui hai creato questa guida rapida.

  3. Per ogni set di dati da eliminare, fai clic sul menu Visualizza azioni e poi su Elimina.

  4. Nella finestra di dialogo, inserisci delete nel campo di testo, quindi fai clic su ELIMINA.

Passaggi successivi