Replica i dati in BigQuery quasi in tempo reale con Datastream

Scopri come replicare i dati da un database di origine ai set di dati BigQuery utilizzando Datastream.


Per seguire le indicazioni dettagliate per questa attività direttamente nella console Google Cloud, fai clic su Aiuto:

Guidami


Prima di iniziare

  1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  3. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  4. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  5. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  6. Attiva Datastream API.

    Abilita l'API

  7. Assicurati che al tuo account utente sia stato assegnato il ruolo Amministratore Datastream.

    Vai alla pagina IAM

Se vuoi creare una configurazione di connettività privata per una rete VPC standard o condivisa, devi completare i prerequisiti aggiuntivi. Per ulteriori informazioni, consulta Creare una configurazione di connettività privata.

Requisiti

Datastream offre una varietà di opzioni di origine, opzioni di destinazione e metodi di connettività di rete.

In questa guida rapida, supponiamo che tu stia replicando i dati da un database Cloud SQL per PostgreSQL a BigQuery. Per il database di origine, dovresti essere in grado di configurare l'istanza di database in modo che accetti connessioni da indirizzi IP pubblici Datastream.

Poiché non possiamo conoscere le specifiche del tuo ambiente, non possiamo fornirti passaggi dettagliati sulla configurazione del tuo networking.

Per questa guida rapida, dovrai selezionare Lista consentita IP come metodo di connettività di rete. L'inserimento degli IP nella lista consentita è una funzionalità di sicurezza spesso utilizzata per limitare e controllare l'accesso ai dati del database di origine da utenti attendibili. Puoi utilizzare le liste consentite IP per creare elenchi di indirizzi IP o intervalli IP attendibili da cui gli utenti e altri servizi Cloud come Datastream possono accedere a questi dati. Per utilizzare le liste consentite IP, devi aprire il database Cloud SQL di origine alle connessioni in entrata da Datastream.

Creazione di profili di connessione

Quando crei profili di connessione, archivi alcune informazioni di base sull'origine e sulla destinazione in Datastream. Puoi quindi riutilizzare queste informazioni in più stream.

In questa guida rapida, seleziona PostgreSQL come tipo di profilo per il profilo di connessione di origine e BigQuery come tipo di profilo per il profilo di connessione di destinazione. Datastream utilizza le informazioni nei profili di connessione per connettersi al database di origine e a BigQuery.

Crea un profilo di connessione di origine per il database PostgreSQL

  1. Vai alla pagina Profili di connessione per Datastream nella Google Cloud Console.

    Vai alla pagina Profili di connessione

  2. Fai clic su CREA PROFILO.

  3. Nella pagina Crea un profilo di connessione, fai clic sul tipo di profilo PostgreSQL (perché vuoi creare un profilo di connessione di origine per il database PostgreSQL).

  4. Fornisci le seguenti informazioni nella sezione Definisci le impostazioni di connessione della pagina Crea un profilo PostgreSQL:

    • Inserisci My Source Connection Profile come Nome del profilo di connessione per il database di origine.
    • Conserva l'ID profilo di connessione generato automaticamente.
    • Seleziona la Regione in cui verrà archiviato il profilo di connessione.

    • Inserisci Dettagli connessione:

      • Nel campo Nome host o IP, inserisci un nome host o un indirizzo IP pubblico che Datastream possa utilizzare per connettersi al database PostgreSQL di origine. Stai fornendo un indirizzo IP pubblico perché per questa guida rapida verrà utilizzata la lista consentita IP come metodo di connettività di rete.
      • Nel campo Porta, inserisci il numero di porta riservato per il database di origine. Per un database PostgreSQL, la porta predefinita è in genere 5432.
      • Inserisci un nome utente e una password per eseguire l'autenticazione nel database di origine.
      • Nel campo Database, inserisci il nome che identifica l'istanza del database. Per i database PostgreSQL, questo valore è generalmente postgres.
  5. Nella sezione Definisci le impostazioni di connessione, fai clic su CONTINUA. La sezione Definisci il metodo di connettività della pagina Crea profilo PostgreSQL è attiva.

  6. Scegli il metodo di networking che vuoi utilizzare per stabilire la connettività tra il database di origine e Datastream. Per questa guida rapida, utilizza il menu a discesa Metodo di connettività per selezionare Lista consentita IP come metodo di rete.

  7. Configura il database di origine in modo da consentire le connessioni in entrata dagli indirizzi IP pubblici Datastream visualizzati.

  8. Nella sezione Definisci metodo di connettività, fai clic su CONTINUA. La sezione Testa il profilo di connessione della pagina Crea profilo PostgreSQL è attiva.

  9. Fai clic su ESEGUI TEST per verificare che il database PostgreSQL di origine e Datastream possano comunicare tra loro.

  10. Verifica che venga visualizzato lo stato "Test superato".

  11. Se il test non va a buon fine, puoi risolvere il problema nella parte appropriata del flusso e poi ripetere il test. Per le procedure di risoluzione dei problemi, consulta la pagina Diagnostica i problemi.

  12. Fai clic su CREA.

Crea un profilo di connessione di destinazione per BigQuery

  1. Vai alla pagina Profili di connessione per Datastream nella Google Cloud Console.

    Vai alla pagina Profili di connessione

  2. Fai clic su CREA PROFILO.

  3. Nella pagina Crea un profilo di connessione, fai clic sul tipo di profilo BigQuery (perché vuoi creare un profilo di connessione di destinazione per BigQuery).

  4. Fornisci le seguenti informazioni nella pagina Crea profilo BigQuery:

    • Inserisci My Destination Connection Profile come Nome del profilo di connessione per il servizio BigQuery di destinazione.
    • Conserva l'ID profilo di connessione generato automaticamente.
    • Seleziona la Regione in cui verrà archiviato il profilo di connessione.
  5. Fai clic su CREA.

Dopo aver creato un profilo di connessione di origine per il database PostgreSQL e un profilo di connessione di destinazione per BigQuery, puoi utilizzarli per creare un flusso.

Crea uno stream

In questa sezione creerai un flusso per replicare i dati da un database PostgreSQL di origine a BigQuery.

La creazione di uno stream include:

  • Definizione delle impostazioni per lo stream.
  • Seleziona il profilo di connessione di origine creato per il database di origine (profilo di connessione di origine). Per questa guida rapida, è Il mio profilo di connessione di origine.
  • Configurazione delle informazioni sul database di origine per il flusso specificando le proprietà di replica, nonché le tabelle e gli schemi nel database di origine che Datastream:
    • Può trasferire alla destinazione.
    • Il trasferimento alla destinazione è limitato.
  • Stabilire se Datastream eseguirà il backfill dei dati storici, trasmetterà il flusso delle modifiche in corso nella destinazione o trasmetterà in streaming solo le modifiche ai dati.
  • Seleziona il profilo di connessione creato per BigQuery (profilo di connessione di destinazione). Per questa guida rapida, questo è Il mio profilo di connessione di destinazione.
  • Configurazione delle informazioni sulla destinazione per il flusso, ad esempio la configurazione dei set di dati BigQuery.
  • Convalida del flusso in corso.

Definisci le impostazioni per lo stream

  1. Vai alla pagina Stream per Datastream nella Google Cloud Console.

    Vai alla pagina Stream

  2. Fai clic su CREA STREAM.

  3. Fornisci le seguenti informazioni nel riquadro Definisci i dettagli dello stream della pagina Crea stream:

    • Inserisci My Stream come Nome stream.
    • Conserva l'ID stream generato automaticamente.
    • Dal menu Regione, seleziona la regione in cui hai creato il profilo di connessione di origine.
    • Dal menu Tipo di origine, seleziona il tipo di profilo PostgreSQL.
    • Nel menu Tipo di destinazione, seleziona il tipo di profilo BigQuery.
  4. Esamina i prerequisiti richiesti generati automaticamente per riflettere il modo in cui il tuo ambiente deve essere preparato per uno stream. Questi prerequisiti includono la configurazione del database di origine e di BigQuery.

  5. Fai clic su CONTINUA. Viene visualizzato il riquadro Definisci il profilo di connessione PostgreSQL della pagina Crea stream.

Specifica le informazioni sul profilo di connessione di origine

  1. Dal menu Profilo di connessione di origine, seleziona il tuo profilo di connessione di origine per il database PostgreSQL.

  2. Fai clic su ESEGUI TEST per verificare che il database di origine e Datastream possano comunicare tra loro.

    Se il test non va a buon fine, viene visualizzato il problema associato al profilo di connessione. Per le procedure di risoluzione dei problemi, consulta la pagina Diagnostica i problemi. Apporta le modifiche necessarie per risolvere il problema, quindi ripeti il test.

  3. Fai clic su CONTINUA. Viene visualizzato il riquadro Configura l'origine dello stream della pagina Crea stream.

Configura le informazioni sul database di origine per lo stream

  1. Fornisci i nomi dello slot di replica e della pubblicazione per il database di origine. Lo slot di replica e la pubblicazione sono stati creati durante la configurazione del database PostgreSQL.

  2. Utilizza il menu Oggetti da includere per specificare le tabelle e gli schemi nel database di origine che Datastream replica in BigQuery. Il menu viene caricato solo se il database contiene fino a 5000 oggetti.

    Per questa guida rapida, vuoi che Datastream trasferisca tutte le tabelle e gli schemi. Pertanto, seleziona Tutte le tabelle di tutti gli schemi dal menu.

  3. Fai clic su CONTINUA. Viene visualizzato il riquadro Definisci il profilo di connessione BigQuery della pagina Crea stream.

Seleziona un profilo di connessione di destinazione

  1. Nel menu Profilo di connessione di destinazione, seleziona il tuo profilo di connessione di destinazione per BigQuery.

  2. Fai clic su CONTINUA. Viene visualizzato il riquadro Configura destinazione stream della pagina Crea stream.

Configura le informazioni sulla destinazione dello stream

  1. Scegli l'opzione Set di dati per ogni schema, in modo che Datastream crei automaticamente un set di dati in BigQuery per ogni schema nel database di origine.

  2. Seleziona la località in cui verranno creati i set di dati in BigQuery. Questa località non deve essere necessariamente la stessa in cui viene creato il flusso Datastream.

  3. Imposta il Prefisso su quickstart-. Datastream aggiungerà questa stringa all'inizio di ogni set di dati che crea in BigQuery.

  4. Lascia il valore nell'elenco a discesa Specifica il limite di inattività dei dati impostato su 15 minuti. BigQuery utilizza questo valore per decidere quanto potrebbero essere inattivi i dati quando viene eseguita la query.

  5. Fai clic su CONTINUA. Viene visualizzato il riquadro Esamina i dettagli dello stream e crea della pagina Crea stream.

Crea lo stream

  1. Verifica i dettagli del flusso e i profili di connessione di origine e di destinazione che il flusso utilizzerà per trasferire i dati da un database PostgreSQL di origine a BigQuery.

  2. Fai clic su ESEGUI VALIDAZIONE per convalidare lo stream. Con la convalida di un flusso, Datastream controlla che l'origine sia configurata correttamente, verifica che il flusso possa connettersi sia all'origine che alla destinazione e verifica la configurazione end-to-end del flusso.

  3. Una volta superati tutti i controlli di convalida, fai clic su CREA.

  4. Nella finestra di dialogo Creare stream?, fai clic su CREA.

Avvia lo stream

Nella sezione precedente della guida rapida, hai creato un flusso, ma non l'hai avviato. Ora puoi farlo.

Per questa guida rapida, dovrai creare e avviare un flusso separatamente nel caso in cui il processo di creazione del flusso richieda un carico maggiore sul database di origine. Per interrompere questo carico, crea il flusso senza avviarlo per poi avviarlo quando può sostenere il carico.

Avviando il flusso, Datastream può trasferire dati, schemi e tabelle dal database di origine alla destinazione.

  1. Vai alla pagina Stream per Datastream nella Google Cloud Console.

    Vai alla pagina Stream

  2. Seleziona la casella di controllo a sinistra dello stream che vuoi avviare. Per questa guida rapida, è Il mio stream.

  3. Fai clic su INIZIA.

  4. Nella finestra di dialogo, fai clic su INIZIA. Lo stato dello stream cambia da Not started a Starting a Running.

    Dopo aver avviato un flusso, puoi verificare che Datastream abbia trasferito i dati dal database di origine alla destinazione.

Verifica lo stream

In questa sezione verificherai che Datastream trasferisca in BigQuery i dati di tutte le tabelle del database PostgreSQL di origine.

  1. Vai alla pagina Stream per Datastream nella Google Cloud Console.

    Vai alla pagina Stream

  2. Fai clic sullo stream che hai creato. Per questa guida rapida, è Il mio stream.

  3. Nella pagina Dettagli stream, fai clic sul link visualizzato sotto il campo Percorso scrittura destinazione. BigQuery Studio si apre in una scheda separata.

  4. Verifica di visualizzare i set di dati e le tabelle che rappresentano schemi e tabelle del database PostgreSQL di origine.

  5. Fai clic su una delle tabelle per visualizzare un'anteprima dei dati.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi:

  1. Usa la console Google Cloud per eliminare il progetto, i profili di flusso e connessione Datastream e i set di dati BigQuery.

Eseguendo la pulizia delle risorse che hai creato su Datastream, queste non supereranno la quota e non ti verranno addebitati costi in futuro. Le sezioni seguenti descrivono come eliminare o disattivare queste risorse.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per questa guida rapida.

  1. Nella console Cloud, vai alla pagina Gestisci risorse.

    Vai alla pagina Gestisci risorse

  2. Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.

  3. Nella finestra di dialogo, digita l'ID progetto e fai clic su Arresta per eliminare il progetto.

Elimina lo stream

  1. Vai alla pagina Stream per Datastream nella Google Cloud Console.

    Vai alla pagina Stream

  2. Fai clic sullo stream che vuoi eliminare. Per questa guida rapida, è Il mio stream.

  3. Fai clic su PAUSA.

  4. Nella finestra di dialogo, fai clic su PAUSA.

  5. Nel riquadro Stato stream della pagina Dettagli stream, verifica che lo stato dello stream sia Paused.

  6. Fai clic su ELIMINA.

  7. Nella finestra di dialogo, inserisci Delete nel campo di testo, quindi fai clic su ELIMINA.

Elimina i profili di connessione

  1. Vai alla pagina Profili di connessione per Datastream nella Google Cloud Console.

    Vai alla pagina Profili di connessione

  2. Seleziona la casella di controllo per ogni profilo di connessione che vuoi eliminare. Per questa guida rapida, seleziona le caselle di controllo per Il mio profilo di connessione di origine e Il mio profilo di connessione di destinazione.

  3. Fai clic su ELIMINA.

  4. Nella finestra di dialogo, fai clic su ELIMINA.

Elimina i tuoi set di dati BigQuery

  1. Vai alla pagina BigQuery Studio nella Google Cloud Console.

    Vai a BigQuery Studio

  2. Espandi il nodo del progetto in cui hai creato questa guida rapida.

  3. Per ogni set di dati da eliminare, fai clic sul menu Visualizza azioni e poi su Elimina.

  4. Nella finestra di dialogo, inserisci delete nel campo di testo, quindi fai clic su ELIMINA.

Passaggi successivi