In questa sezione scoprirai come creare uno stream. Datastream utilizza questo stream per trasferire i dati da un database Oracle, MySQL, SQL Server o PostgreSQL di origine in BigQuery o Cloud Storage.
La creazione di uno stream include:
- Definizione delle impostazioni per lo stream.
- Seleziona il profilo di connessione che hai creato per il database Oracle, MySQL, SQL Server o PostgreSQL di origine (il profilo di connessione di origine) oppure crea un profilo di connessione di origine se non ne hai ancora creato uno.
- Configura le informazioni sul database di origine per lo stream specificando le tabelle e gli schemi nel database di origine che Datastream:
- Possono essere trasferiti nella destinazione.
- Non può essere trasferito nella destinazione.
Determina se Datastream eseguirà il backfill dei dati storici, oltre a trasmettere le modifiche in corso nella destinazione o solo le modifiche ai dati. Quando attivi il backfill storico, puoi specificare facoltativamente gli schemi e le tabelle nel database di origine di cui Datastream non deve eseguire il backfill nella destinazione.
Seleziona il profilo di connessione che hai creato per BigQuery o Cloud Storage (il profilo di connessione di destinazione) oppure crea un profilo di connessione di destinazione se non ne hai ancora creato uno.
Configurazione delle informazioni sulla destinazione dello stream. Queste informazioni comprendono:
- Per BigQuery:
- I set di dati in cui Datastream replicherà gli schemi, le tabelle e i dati di un database di origine.
- Per Cloud Storage:
- La cartella del bucket di destinazione in cui Datastream trasferirà schemi, tabelle e dati da un database di origine.
- Per BigQuery:
Convalida dello stream per assicurarsi che venga eseguito correttamente. La convalida di uno stream controlla:
- Indica se l'origine è configurata correttamente per consentire a Datastream di trasmettere i dati.
Indica se lo stream può connettersi sia all'origine che alla destinazione.
La configurazione end-to-end dello stream.
Definisci le impostazioni per lo stream
Vai alla pagina Stream nella Google Cloud Console.
Fai clic su CREA STREAM.
Utilizza la tabella seguente per compilare i campi della sezione Definisci i dettagli dello stream della pagina Crea stream:
Campo Descrizione Nome flusso Inserisci il nome visualizzato dello stream. ID stream Datastream compila questo campo automaticamente in base al nome dello stream inserito. Puoi mantenere l'ID generato automaticamente o modificarlo. Regione Seleziona la regione in cui è archiviato lo stream. Gli stream, come tutte le risorse, vengono salvati in una regione. La selezione dell'area geografica non influisce sulla possibilità che lo stream si connetta al database di origine o a quello di destinazione, ma può influire sulla disponibilità se la regione presenta tempi di inattività. Tipo di origine Seleziona il tipo di profilo specificato quando hai creato un profilo di connessione per un database Oracle, MySQL, SQL Server o PostgreSQL di origine. In alternativa, se non hai creato un profilo di connessione per il database di origine, puoi crearne uno ora.
Tipo di destinazione Seleziona il tipo di profilo specificato quando hai creato un profilo di connessione per una destinazione BigQuery o Cloud Storage. In alternativa, se non hai creato un profilo di connessione per la destinazione, puoi crearne uno ora. Crittografia Per impostazione predefinita, i dati sono criptati con una chiave gestita da Google Cloud. Se vuoi gestire la crittografia, puoi utilizzare una chiave di crittografia gestita dal cliente (CMEK):
- Seleziona la casella di controllo Chiave Cloud KMS.
- Nel menu a discesa Tipo di chiave, seleziona Cloud KMS e poi la chiave CMEK.
Se non vedi la chiave, fai clic su INSERISCI NOME RISORSA CHIAVE per fornire il nome della risorsa della chiave che vuoi utilizzare. Ad esempio, puoi inserire
projects/my-project-name/locations/my-location/keyRings/my-keyring/cryptoKeys/my-key
nel campo Nome risorsa della chiave e fare clic su SALVA.Facoltativamente, utilizza le etichette per organizzare le risorse Datastream.
- Per creare un'etichetta, fai clic su AGGIUNGI ETIQUETTA e inserisci la coppia chiave-valore per l'etichetta.
- Per rimuovere l'etichetta, fai clic sull'icona della pattumiera a destra della riga che la contiene.
Se vuoi, aggiungi criteri di avviso per lo stream. I criteri di avviso definiscono quando e come vuoi ricevere notifiche sugli errori dello stream.
- Per creare un criterio di avviso, fai clic su Aggiungi criterio di avviso.
- In Cloud Monitoring viene visualizzata la pagina Crea criterio di avviso. In questa pagina definisci il criterio di avviso in caso di errore dello stream.
Per ulteriori informazioni sui criteri di avviso, consulta Gestire i criteri di avviso basati su metriche.
Esamina i prerequisiti richiesti che vengono generati automaticamente per riflettere la modalità di preparazione dell'ambiente per uno stream. Questi prerequisiti possono includere la configurazione del database di origine e il collegamento alla destinazione. È preferibile completare questi prerequisiti in questo passaggio, ma puoi farlo in qualsiasi momento prima di testare lo stream o di avviarlo. Per ulteriori informazioni su questi prerequisiti, consulta la sezione Origini.
Fai clic su CONTINUA. Viene visualizzato il riquadro Definisci profilo di connessione della pagina Crea stream per il tipo di database di origine.
Specifica le informazioni sul profilo di connessione di origine
Se hai creato un profilo di connessione di origine per Oracle, MySQL, SQL Server o PostgreSQL, selezionalo dall'elenco dei profili di connessione.
Se non hai creato un profilo di connessione di origine, creane uno facendo clic su CREA PROFILO DI CONNESSIONE nella parte inferiore dell'elenco a discesa, quindi esegui gli stessi passaggi descritti in Creare profili di connessione.
Fai clic su ESEGUI TEST per verificare che il database di origine e Datastream possano comunicare tra loro.
Se il test non va a buon fine, viene visualizzato il problema associato al profilo di connessione. Per la procedura di risoluzione dei problemi, consulta la pagina Diagnostica i problemi. Apporta le modifiche necessarie per correggere il problema, quindi riprova.
Fai clic su CONTINUA. Viene visualizzato il riquadro Configura origine stream della pagina Crea stream.
Configura le informazioni sul database di origine per lo stream
Configura il database di origine PostgreSQL
Se hai selezionato PostgreSQL come database di origine, devi definire le relative proprietà di replica.
- Nella sezione Proprietà di replica, specifica le seguenti proprietà:
- Nel campo Nome dello slot di replica, inserisci il nome dello slot creato appositamente per questo stream. Il server di database utilizza questo slot per inviare eventi a Datastream.
- Nel campo Nome pubblicazione, inserisci il nome della pubblicazione creata nel database. Una pubblicazione è un gruppo di tutte le tabelle di cui vuoi replicare le modifiche utilizzando questo stream.
- Segui i passaggi descritti nella sezione Configurare i database di origine.
Configura il database di origine SQL Server
Se hai selezionato SQL Server come database di origine, devi definire il metodo CDC.
Nel menu a discesa Metodo CDC, seleziona il metodo CDC corrispondente alla configurazione del database di origine:
- Log delle transazioni: seleziona questo metodo per elaborare le modifiche direttamente dai log del database. Questo metodo fornisce le migliori prestazioni ed è più efficiente, ma richiede passaggi di configurazione aggiuntivi.
- Tabelle di variazione: seleziona questo metodo per elaborare le modifiche da tabelle di variazione dedicate. Questo metodo è più semplice da configurare e ha meno limitazioni, ma supporta una maggiore portata e produce un carico maggiore sul database rispetto al metodo dei log delle transazioni.
Per ulteriori informazioni sulla configurazione del database SQL Server di origine, consulta Configurare un database SQL Server di origine.
Segui i passaggi descritti nella sezione Configurare i database di origine.
Configura i database di origine
Nella sezione Seleziona gli oggetti da includere, utilizza il menu a discesa Oggetti da includere per specificare le tabelle e gli schemi nel database di origine che Datastream può trasferire nella destinazione.
- Se vuoi che Datastream trasferisca tutte le tabelle e tutti gli schemi, seleziona Tutte le tabelle di tutti gli schemi.
Se vuoi che Datastream trasferisca solo tabelle e schemi specifici, seleziona Schemi e tabelle specifici e poi le caselle di controllo per gli schemi e le tabelle che vuoi che Datastream estragga.
Se vuoi fornire una definizione testuale delle tabelle e degli schemi che vuoi che Datastream trasferisca, seleziona Personalizzato e, nel campo Criteri di corrispondenza degli oggetti, inserisci gli schemi e le tabelle che vuoi che Datastream estragga.
Se il tuo database contiene un numero elevato di tabelle e schemi, ti consigliamo di utilizzare l'opzione Personalizzata perché alcune tabelle e alcuni schemi potrebbero non essere inclusi nell'elenco degli oggetti da estrarre.
Se vuoi, espandi il nodo Seleziona gli oggetti da escludere. Nel campo Oggetti da escludere, inserisci le tabelle e gli schemi nel database di origine da cui vuoi impedire a Datastream di estrarre dati. L'elenco Oggetti da escludere ha la precedenza sull'elenco Oggetti da includere. Se un oggetto soddisfa i criteri sia nell'elenco di inclusione sia in quello di esclusione, viene escluso dallo stream.
A seconda dell'origine selezionata, specifica il metodo CDC per lo stream:
- Per le origini SQL Server:
- Log delle transazioni: seleziona questo metodo per elaborare le modifiche direttamente dai log del database. Questo metodo fornisce le migliori prestazioni ed è più efficiente, ma richiede passaggi di configurazione aggiuntivi.
- Tabelle di variazione: seleziona questo metodo per elaborare le modifiche da tabelle di variazione dedicate. Questo metodo è più semplice da configurare e ha meno limitazioni, ma supporta una maggiore portata e produce un carico maggiore sul database rispetto al metodo dei log delle transazioni. Per ulteriori informazioni sulla configurazione del database SQL Server di origine, consulta Configurare un database SQL Server di origine.
- Per le origini MySQL:
- Replica basata su GTID (Global Transaction ID) (anteprima): seleziona questo metodo se vuoi che Datastream supporti i failover e fornisca una replica perfetta indipendentemente dalle modifiche nel cluster di database.
- Replica basata su binlog: seleziona questo metodo per leggere e replicare le modifiche direttamente dai file di log binari di un'istanza del database selezionata. Non puoi spostare uno stream in esecuzione in un'istanza di origine o una replica diversa utilizzando questo metodo CDC.
- Se vuoi, espandi il nodo Scegli la modalità di backfill per i dati storici e poi effettua una delle seguenti selezioni:
Seleziona l'opzione Automatico per trasmettere in streaming tutti i dati esistenti, oltre alle modifiche ai dati, dall'origine alla destinazione.
Nel campo Oggetti esclusi dal backfill automatico, inserisci le tabelle e gli schemi nel database di origine per i quali vuoi limitare il backfill di Datastream nella destinazione.
- Seleziona l'opzione Manuale per eseguire lo streaming solo delle modifiche ai dati nella destinazione.
- Per le origini SQL Server:
Fai clic su CONTINUA. Viene visualizzato il riquadro Definisci profilo di connessione della pagina Crea stream per il tipo di destinazione.
Seleziona un profilo di connessione di destinazione
Se hai creato un profilo di connessione di destinazione, selezionalo dall'elenco dei profili di connessione.
Se non hai creato un profilo di connessione di destinazione, creane uno facendo clic su CREA PROFILO DI CONNESSIONE nella parte inferiore dell'elenco a discesa, quindi esegui gli stessi passaggi descritti in Creare profili di connessione.
Fai clic su CONTINUA. Viene visualizzato il riquadro Configura destinazione stream della pagina Crea stream.
Configura le informazioni sulla destinazione dello stream
Destinazione BigQuery
In Configura la connessione da Datastream a BigQuery, specifica come Datastream deve inserire flussi in un set di dati BigQuery. Seleziona una delle seguenti opzioni:
Set di dati per ogni schema: Datastream crea un set di dati BigQuery per ogni schema di origine in base al nome dello schema.
Se selezioni questa opzione, per ogni schema nel database di origine, Datastream crea un set di dati nel progetto che contiene lo stream.
Inoltre, quando selezioni l'opzione Set di dati per ogni schema:
- Nel campo Località, inserisci la regione in cui vuoi che venga creato il nuovo set di dati.
- (Facoltativo) Nel campo Prefisso, definisci un prefisso per il set di dati creato dallo stream. La stringa specificata viene aggiunta al nome dello schema di origine. Ad esempio, se lo schema si chiama
<mySchema>
e definisci il prefisso del set di dati come<myPrefix>
, Datastream crea un set di dati denominato<myPrefix><mySchema>
. - Specifica la modalità di crittografia dei dati in BigQuery selezionando una chiave di crittografia gestita da Google o dal cliente.
Singolo set di dati per tutti gli schemi: Datastream crea tutte le tabelle all'interno del set di dati BigQuery esistente specificato. Ogni tabella creata da Datastream viene denominata utilizzando una combinazione del nome dello schema di origine e del nome della tabella, separati da un trattino basso (ad es.
).<mySchemaName>_<myTableName>
Specifica la modalità di scrittura dei flussi. Seleziona la modalità di scrittura per definire la modalità di scrittura ed elaborazione dei dati in BigQuery:
- Unisci: seleziona questa opzione se vuoi che i dati vengano sincronizzati con l'origine.
- Solo accodamento: seleziona questa opzione se vuoi conservare tutti i dati storici per gli eventi di modifica.
Specifica il limite di inattività dei dati. Disponibile solo quando nel passaggio precedente è selezionata la modalità Unisci. Seleziona un limite per bilanciare le prestazioni delle query BigQuery e il relativo costo rispetto all'aggiornamento dei dati. BigQuery applica le modifiche in background su base continuativa o al momento dell'esecuzione delle query, secondo il limite di obsolescenza. Una minore inattività (dati più aggiornati) potrebbe aumentare i costi di elaborazione di BigQuery.
Fai clic su CONTINUA. Viene visualizzato il riquadro Rivedi dettagli flusso e crea della pagina Crea stream.
Destinazione di Cloud Storage
Facoltativamente, nel campo Prefisso percorso stream, inserisci la cartella del bucket di destinazione in cui Datastream trasferirà schemi, tabelle e dati da un database di origine.
Ad esempio, se vuoi che Datastream trasferisca i dati dal database di origine alla cartella
/root/example
nel bucket di destinazione, inserisci/root/example
nel campo Prefisso del percorso dello stream.Nel campo Formato di output, scegli il formato dei file scritti in Cloud Storage.
Facoltativo. Se selezioni il formato JSON, vengono visualizzate due caselle di controllo:
- Includi un file dello schema Unified Types nel percorso del file: se selezioni questa casella di controllo, Datastream scrive due file in Cloud Storage: un file di dati JSON e un file dello schema Avro. Il file dello schema ha lo stesso nome del file di dati, con estensione
.schema
. Se non selezioni questa casella di controllo, Datastream scrive solo il file di dati JSON in Cloud Storage. Per impostazione predefinita, questa casella di controllo non è selezionata. - Attiva la compressione gzip: se selezioni questa casella di controllo, Datastream utilizza l'utilità
gzip
per comprimere i file che scrive in Cloud Storage. Se non selezioni questa casella di controllo, Datastream scrive i file in Cloud Storage senza comprimerli. Per impostazione predefinita, questa casella di controllo è selezionata.
- Includi un file dello schema Unified Types nel percorso del file: se selezioni questa casella di controllo, Datastream scrive due file in Cloud Storage: un file di dati JSON e un file dello schema Avro. Il file dello schema ha lo stesso nome del file di dati, con estensione
Fai clic su CONTINUA. Viene visualizzato il riquadro Rivedi dettagli flusso e crea della pagina Crea stream.
Crea lo stream
- Verifica i dettagli dello stream, nonché i profili di connessione di origine e destinazione che lo stream utilizzerà per trasferire i dati da un database di origine a una destinazione.
Fai clic su ESEGUI CONVALIDA per convalidare lo stream. Convalidando uno stream, Datastream controlla che l'origine sia configurata correttamente, convalida che lo stream possa connettersi sia all'origine che alla destinazione e verifica la configurazione end-to-end dello stream.
Se il database di origine è Oracle, Datastream esegue i seguenti controlli:
Controllo Descrizione Validità dell'elenco degli oggetti Datastream verifica che l'elenco escluso non includa l'elenco incluso. Connettività del tunnel SSH di forwarding Datastream verifica di potersi connettere a un bastion host tramite un tunnel SSH di forwarding. Connettività al database Oracle Datastream verifica di potersi connettere al database Oracle di origine. Autorizzazioni utente Oracle Datastream verifica che l'utente utilizzato per connettersi al database di origine disponga di tutte le autorizzazioni necessarie per recuperare schemi, tabelle e dati dal database in modo che possa trasmettere queste informazioni in streaming alla destinazione. Configurazione della modalità di logging Datastream verifica che la modalità di logging per il database Oracle sia impostata su ARCHIVELOG. Configurazione del logging supplementare Datastream verifica che il logging supplementare sia attivo per le tabelle di database in streaming dall'origine alla destinazione. Configurazione dei file di log dell'archivio Datastream verifica che il logging dell'archivio sia configurato nell'origine e che siano presenti i file di log dell'archivio. Autorizzazioni Cloud Storage (per le destinazioni Cloud Storage) Datastream verifica di disporre delle autorizzazioni necessarie per scrivere nel bucket di destinazione in Cloud Storage. Se il database di origine è MySQL, Datastream esegue i seguenti controlli:
Controllo Descrizione Validità dell'elenco degli oggetti Datastream verifica che l'elenco escluso non includa l'elenco incluso. Connettività del tunnel SSH di forwarding Datastream verifica di potersi connettere a un bastion host tramite un tunnel SSH di forwarding. Connettività con il database MySQL Datastream verifica di potersi connettere al database MySQL di origine. Il logging binario è attivato Datastream verifica che i file di log binari siano configurati correttamente e che siano presenti file di log. Configurazione del formato del log binario Datastream verifica che il formato del log binario del database MySQL sia impostato su ROW
.Autorizzazioni di replica Datastream verifica di disporre delle autorizzazioni per replicare un database MySQL. Autorizzazioni Cloud Storage (per le destinazioni Cloud Storage) Datastream verifica di disporre delle autorizzazioni necessarie per scrivere nel bucket di destinazione in Cloud Storage. Se il database di origine è PostgreSQL, Datastream esegue i seguenti controlli:
Controllo Descrizione Connettività al database PostgreSQL Datastream verifica di potersi connettere al database PostgreSQL di origine. La decodifica logica è attivata Datastream verifica che il parametro wal_level
del database PostgreSQL sia impostato sulogical
.Configurazione dello slot di replica Datastream verifica se lo slot di replica PostgreSQL esiste ed è attivo, se Datastream dispone delle autorizzazioni necessarie per accedervi e se è configurato correttamente. Configurazione della pubblicazione Datastream verifica che la pubblicazione esista e che le tabelle da replicare per lo stream siano incluse nella pubblicazione. Autorizzazioni di backfill Datastream verifica che le tabelle necessarie per il backfill dei dati storici esistano e che disponga delle autorizzazioni necessarie per leggerle. Se il database di origine è SQL Server, Datastream esegue i seguenti controlli:
Controllo Descrizione Versione SQL Server Datastream verifica che la versione del database SQL Server di origine sia supportata. Per informazioni sulle versioni supportate, vedi Versioni. Autorizzazioni utente SQL Server Datastream verifica che l'utente disponga delle autorizzazioni necessarie per accedere al database SQL Server di origine. La CDC di SQL Server è abilitata Datastream verifica se la CDC è abilitata per il database e per tutte le tabelle incluse nello stream. Convalide dei database SQL Server Datastream controlla se il database di origine è configurato correttamente, se tutti i requisiti di replica sono soddisfatti e se nelle colonne non sono presenti tipi di dati non supportati. Autorizzazioni Cloud Storage o BigQuery Datastream verifica che l'utente disponga delle autorizzazioni necessarie per scrivere nella destinazione.
Dopo aver superato tutti i controlli di convalida, fai clic su CREA E AVVIA per creare lo stream e avviarlo immediatamente oppure su CREA per creare lo stream senza avviarlo immediatamente.
Se non avvii lo stream ora, puoi farlo dalla pagina Stream facendo clic su INIZIA.
Dopo aver creato uno stream, puoi visualizzare informazioni generali e dettagliate al riguardo.
Passaggi successivi
- Per scoprire di più sugli stream, consulta la sezione Ciclo di vita degli stream.
- Per scoprire come eseguire uno stream, consulta l'articolo Eseguire uno stream.
- Per scoprire come modificare gli stream, consulta Modificare uno stream.
- Per scoprire come recuperare uno stream, consulta l'articolo Recuperare uno stream.