Replica i dati in BigQuery quasi in tempo reale con Datastream

Scopri come replicare i dati da un database di origine a BigQuery utilizzando Datastream.


Per seguire le indicazioni dettagliate per questa attività direttamente nella console Google Cloud, fai clic su Procedura guidata:

Procedura guidata


Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Enable the Datastream API.

    Enable the API

  7. Assicurati di avere il ruolo Amministratore Datastream assegnato al tuo account utente.

    Vai alla pagina IAM

Se vuoi creare una configurazione di connettività privata per un VPC standard o condiviso devi completare dei prerequisiti aggiuntivi. Per ulteriori informazioni, consulta Creare una configurazione di connettività privata.

Requisiti

Datastream offre una varietà di opzioni di origine, di destinazione e di connettività di rete.

In questa guida introduttiva, presupponiamo che tu stia replicando i dati da un database Cloud SQL per PostgreSQL a BigQuery. Per il database di origine, dovresti poter configurare l'istanza del database in modo che accetti connessioni dagli indirizzi IP pubblici di Datastream.

Poiché non possiamo conoscere le specifiche del tuo ambiente, non possiamo fornire passaggi dettagliati per la configurazione di rete.

Per questa guida rapida, seleziona Lista consentita IP come metodo di connettività di rete. La lista consentita di IP è una funzionalità di sicurezza spesso utilizzata per limitare e controllare l'accesso ai dati nel database di origine da parte di utenti attendibili. Puoi utilizzare le liste consentite IP per creare elenchi di indirizzi IP o intervalli IP attendibili da cui i tuoi utenti e altri servizi cloud come Datastream possono accedere a questi dati. Per utilizzare le liste consentite IP, devi aprire il database Cloud SQL di origine per le connessioni in entrata da Datastream.

Creazione di profili di connessione

La creazione di profili di connessione comporta l'archiviazione di alcune informazioni di base sull'origine e sulla destinazione in Datastream. Puoi quindi riutilizzare queste informazioni in più flussi.

In questa guida introduttiva, seleziona PostgreSQL come tipo di profilo per il profilo di connessione di origine e BigQuery come tipo di profilo per il profilo di connessione di destinazione. Datastream utilizza le informazioni nei profili di connessione per connettersi al database di origine e a BigQuery.

Crea un profilo di connessione di origine per il database PostgreSQL

  1. Vai alla pagina Profili di connessione per Datastream nella console Google Cloud.

    Vai alla pagina Profili di connessione

  2. Fai clic su CREA PROFILO.

  3. Nella pagina Crea un profilo di connessione, fai clic sul tipo di profilo PostgreSQL (perché vuoi creare un profilo di connessione di origine per il database PostgreSQL).

  4. Fornisci le seguenti informazioni nella sezione Definisci le impostazioni di connessione della pagina Crea profilo PostgreSQL:

    • Inserisci My Source Connection Profile come Nome profilo di connessione per il database di origine.
    • Conserva l'ID profilo di connessione generato automaticamente.
    • Seleziona la regione in cui verrà archiviato il profilo di connessione.

    • Inserisci Dettagli connessione:

      • Nel campo Nome host o IP, inserisci un nome host o un indirizzo IP pubblico che Datastream possa utilizzare per connettersi al database PostgreSQL di origine. Stai fornendo un indirizzo IP pubblico perché per questa guida rapida verrà utilizzata la lista consentita degli IP come metodo di connettività di rete.
      • Nel campo Porta, inserisci il numero di porta riservato per il database di origine. Per un database PostgreSQL, la porta predefinita è in genere 5432.
      • Inserisci un Nome utente e una Password per eseguire l'autenticazione nel database di origine.
      • Nel campo Database, inserisci il nome che identifica l'istanza di database. Per i database PostgreSQL, in genere è postgres.
  5. Nella sezione Definire le impostazioni di connessione, fai clic su CONTINUA. La sezione Definisci metodo di connettività della pagina Crea profilo PostgreSQL è attiva.

  6. Scegli il metodo di rete che vuoi utilizzare per stabilire la connettività tra il database di origine e Datastream. Per questa guida introduttiva, utilizza il menu a discesa Metodo di connettività per selezionare Lista consentita IP come metodo di rete.

  7. Configura il database di origine per consentire le connessioni in entrata dagli indirizzi IP pubblici Datastream visualizzati.

  8. Nella sezione Definisci il metodo di connettività, fai clic su CONTINUA. La sezione Testa il profilo di connessione della pagina Crea profilo PostgreSQL è attiva.

  9. Fai clic su ESEGUI TEST per verificare che il database PostgreSQL di origine e Datastream possano comunicare tra loro.

  10. Verifica che il valore "Test superato" .

  11. Se il test non va a buon fine, puoi risolvere il problema nella parte appropriata del flusso e poi tornare a eseguire il test. Per la procedura di risoluzione dei problemi, consulta la pagina Diagnostica i problemi.

  12. Fai clic su CREA.

Crea un profilo di connessione di destinazione per BigQuery

  1. Vai alla pagina Profili di connessione per Datastream nella Google Cloud Console.

    Vai alla pagina Profili di connessione

  2. Fai clic su CREA PROFILO.

  3. Nella pagina Crea un profilo di connessione, fai clic sul tipo di profilo BigQuery (perché vuoi creare un profilo di connessione di destinazione per BigQuery).

  4. Nella pagina Crea profilo BigQuery, fornisci le seguenti informazioni:

    • Inserisci My Destination Connection Profile come Nome profilo di connessione per il servizio BigQuery di destinazione.
    • Mantieni l'ID profilo di connessione generato automaticamente.
    • Seleziona la regione in cui verrà archiviato il profilo di connessione.
  5. Fai clic su CREA.

Dopo aver creato un profilo di connessione di origine per il database PostgreSQL e un profilo di connessione di destinazione per BigQuery, puoi utilizzarli per creare un flusso.

Creazione di un flusso

In questa sezione creerai un flusso per replicare i dati da un database PostgreSQL di origine a BigQuery.

La creazione di uno stream include:

  • Definizione delle impostazioni dello stream.
  • Seleziona il profilo di connessione che hai creato per il database di origine (profilo di connessione di origine). Per questa guida rapida, questo è My Source Connection Profile (Il mio profilo di connessione di origine).
  • Configura le informazioni sul database di origine per lo stream specificando le proprietà di replica, le tabelle e gli schemi nel database di origine che Datastream:
    • Può effettuare il trasferimento nella destinazione.
    • Non può raggiungere la destinazione.
  • Determina se Datastream eseguirà il backfill dei dati storici, oltre a trasmettere le modifiche in corso nella destinazione o solo le modifiche ai dati.
  • Seleziona il profilo di connessione di destinazione che hai creato per BigQuery. Per questa guida rapida, si tratta di Il mio profilo di connessione di destinazione.
  • Configurazione delle informazioni sulla destinazione per il flusso, ad esempio la configurazione dei set di dati BigQuery.
  • Convalida dello stream.

Definisci le impostazioni per lo stream

  1. Vai alla pagina Stream per Datastream nella console Google Cloud.

    Vai alla pagina Stream

  2. Fai clic su CREA STREAM.

  3. Fornisci le seguenti informazioni nel riquadro Definisci i dettagli dello stream della pagina Crea stream:

    • Inserisci My Stream come Nome stream.
    • Mantieni l'ID stream generato automaticamente.
    • Nel menu Regione, seleziona la regione in cui hai creato il profilo di connessione di origine.
    • Nel menu Tipo di origine, seleziona il tipo di profilo PostgreSQL.
    • Dal menu Tipo di destinazione, seleziona il tipo di profilo BigQuery.
  4. Esamina i prerequisiti obbligatori generati automaticamente per riflettere la modalità di preparazione dell'ambiente per uno stream. Questi prerequisiti includono come configurare il database di origine e come configurare BigQuery.

  5. Fai clic su CONTINUA. Viene visualizzato il riquadro Definisci profilo di connessione PostgreSQL della pagina Crea stream.

Specifica le informazioni sul profilo di connessione di origine

  1. Nel menu Profilo di connessione di origine, seleziona il profilo di connessione di origine per il database PostgreSQL.

  2. Fai clic su ESEGUI TEST per verificare che il database di origine e Datastream possano comunicare tra loro.

    Se il test non va a buon fine, viene visualizzato il problema associato al profilo di connessione. Per la procedura di risoluzione dei problemi, consulta la pagina Diagnostica i problemi. Apporta le modifiche necessarie per correggere il problema, quindi riprova.

  3. Fai clic su CONTINUA. Viene visualizzato il riquadro Configura origine stream nella pagina Crea stream.

Configura le informazioni sul database di origine per lo stream

  1. Fornisci i nomi Slot di replica e Pubblicazione per il database di origine. Lo slot e la pubblicazione di replica sono stati creati durante la configurazione del database PostgreSQL.

  2. Utilizza il menu Oggetti da includere per specificare le tabelle e gli schemi nel database di origine che Datastream replica in BigQuery. Il menu viene caricato solo se il database contiene fino a 5000 oggetti.

    Per questa guida rapida, vuoi che Datastream trasferisca tutte le tabelle e tutti gli schemi. Pertanto, seleziona Tutte le tabelle di tutti gli schemi dal menu.

  3. Fai clic su CONTINUA. Viene visualizzato il riquadro Definisci profilo di connessione BigQuery della pagina Crea stream.

Seleziona un profilo di connessione di destinazione

  1. Dal menu Profilo di connessione di destinazione, seleziona il profilo di connessione di destinazione per BigQuery.

  2. Fai clic su CONTINUA. Viene visualizzato il riquadro Configura destinazione stream nella pagina Crea stream.

Configura le informazioni sulla destinazione dello stream

  1. Scegli l'opzione Set di dati per ogni schema, in modo che Datastream crei automaticamente un set di dati in BigQuery per ogni schema nel database di origine.

  2. Seleziona la località in cui verranno creati i set di dati in BigQuery. Questa località non deve essere necessariamente la stessa della regione in cui viene creato il flusso Datastream.

  3. Imposta il Prefisso su quickstart-. Datastream aggiungerà questa stringa all'inizio di ogni set di dati creato in BigQuery.

  4. Lascia il valore in Modalità di scrittura del flusso impostato su Unisci. In questo modo, le tabelle in BigQuery rimangono sincronizzate con l'origine.

  5. Lascia il valore nell'elenco a discesa Specifica il limite di inattività dei dati impostato su 15 minuti. BigQuery utilizza questo valore per decidere quanto potrebbero essere inattivi i dati quando viene eseguita una query.

  6. Fai clic su CONTINUA. Viene visualizzato il riquadro Rivedi dettagli flusso e crea della pagina Crea stream.

Crea lo stream

  1. Verifica i dettagli dello stream, nonché i profili di connessione di origine e destinazione che verranno utilizzati per trasferire i dati da un database PostgreSQL di origine a BigQuery.

  2. Fai clic su ESEGUI CONVALIDA per convalidare lo stream. Convalidando un flusso, Datastream controlla che l'origine sia configurata correttamente, verifica che il flusso possa connettersi sia all'origine che alla destinazione e verifica la configurazione end-to-end del flusso.

  3. Una volta superati tutti i controlli di convalida, fai clic su CREA.

  4. Nella finestra di dialogo Creare il flusso?, fai clic su CREA.

Avvia lo stream

Nella sezione precedente della guida rapida hai creato uno stream, ma non l'hai avviato. Ora puoi farlo.

Per questa guida rapida, crea e avvia uno stream separatamente nel caso in cui il processo di creazione dello stream comporti un aumento del carico sul database di origine. Per posticipare il carico, devi creare lo stream senza avviarlo e quindi avviarlo quando è possibile sopportare il carico.

Avviando il flusso, Datastream può trasferire dati, schemi e tabelle dal database di origine alla destinazione.

  1. Nella Google Cloud Console, vai alla pagina Stream per Datastream.

    Vai alla pagina Stream

  2. Seleziona la casella di controllo a sinistra dello stream che vuoi avviare. Per questa guida rapida, si tratta di Il mio stream.

  3. Fai clic su INIZIA.

  4. Nella finestra di dialogo, fai clic su AVVIA. Lo stato dello stream cambia da Not started a Starting a Running.

    Dopo aver avviato uno stream, puoi verificare che Datastream abbia trasferito i dati dal database di origine alla destinazione.

Verifica lo stream

In questa sezione, confermi che Datastream trasferisce i dati da tutte le tabelle del database PostgreSQL di origine a BigQuery.

  1. Vai alla pagina Stream per Datastream nella console Google Cloud.

    Vai alla pagina Stream

  2. Fai clic sullo stream che hai creato. Per questa guida rapida, si tratta di Il mio stream.

  3. Nella pagina Dettagli stream, fai clic sul link visualizzato sotto il campo Percorso di scrittura della destinazione. BigQuery Studio si apre in una scheda separata.

  4. Verifica che siano visualizzati set di dati e tabelle che rappresentano schemi e tabelle del database PostgreSQL di origine.

  5. Fai clic su una delle tabelle per visualizzare un'anteprima dei dati.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.

  1. Utilizzare la console Google Cloud per eliminare il progetto, i profili di flusso Datastream e di connessione e i set di dati BigQuery.

Se esegui la pulizia delle risorse che hai creato su Datastream, queste non utilizzeranno la quota e non ti verranno addebitati costi in futuro. Le seguenti sezioni descrivono come eliminare o disattivare queste risorse.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per questa guida rapida.

  1. Nella console Cloud, vai alla pagina Gestisci risorse.

    Vai alla pagina Gestisci risorse

  2. Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.

  3. Nella finestra di dialogo, digita l'ID progetto, quindi fai clic su Chiudi per eliminare il progetto.

Elimina lo stream

  1. Nella Google Cloud Console, vai alla pagina Stream per Datastream.

    Vai alla pagina Stream

  2. Fai clic sullo stream che vuoi eliminare. Per questa guida rapida, si tratta di Il mio stream.

  3. Fai clic su IN PAUSA.

  4. Nella finestra di dialogo, fai clic su PAUSA.

  5. Nel riquadro Stato stream della pagina Dettagli stream, verifica che lo stato dello stream sia Paused.

  6. Fai clic su ELIMINA.

  7. Nella finestra di dialogo, inserisci Delete nel campo di testo e fai clic su ELIMINA.

Eliminare i profili di connessione

  1. Vai alla pagina Profili di connessione per Datastream nella Google Cloud Console.

    Vai alla pagina Profili di connessione

  2. Seleziona la casella di controllo per ogni profilo di connessione che vuoi eliminare. Per questa guida rapida, seleziona le caselle di controllo per My Source Connection Profile (Il mio profilo di connessione di origine) e My destination Connection Profile (Il mio profilo di connessione di destinazione).

  3. Fai clic su ELIMINA.

  4. Nella finestra di dialogo, fai clic su ELIMINA.

Eliminare i set di dati BigQuery

  1. Vai alla pagina BigQuery Studio nella Google Cloud Console.

    Vai a BigQuery Studio

  2. Espandi il nodo del progetto in cui hai creato questa guida rapida.

  3. Per ogni set di dati da eliminare, fai clic sul menu Visualizza azioni e poi su Elimina.

  4. Nella finestra di dialogo, inserisci delete nel campo di testo e fai clic su ELIMINA.

Passaggi successivi