Crea un flusso

Panoramica

In questa sezione imparerai a creare uno stream. Datastream utilizza questo flusso per trasferire i dati da un database Oracle, MySQL, SQL Server (anteprima) o PostgreSQL di origine a BigQuery o Cloud Storage.

La creazione di uno stream include:

  • Definizione delle impostazioni per lo stream.
  • Seleziona il profilo di connessione che hai creato per il database Oracle, MySQL, SQL Server (anteprima) o PostgreSQL di origine (il profilo di connessione di origine) o creando un profilo di connessione di origine, se non ne hai creato uno.
  • Configurare le informazioni sul database di origine per il flusso specificando le tabelle e gli schemi nel database di origine che Datastream:
    • Può effettuare trasferimenti nella destinazione.
    • Non può raggiungere la destinazione.
  • Determinare se Datastream eseguirà il backfill dei dati storici e se trasmetterà in modalità flusso le modifiche in corso nella destinazione o solo la trasmissione di modifiche ai dati. Quando abiliti il backfill storico, puoi facoltativamente specificare nel database di origine schemi e tabelle che Datastream non deve eseguire il backfill nella destinazione.

  • Selezionare il profilo di connessione che hai creato per BigQuery o Cloud Storage (il profilo di connessione di destinazione) oppure creare un profilo di connessione di destinazione, se non ne hai creato uno.

  • Configurazione delle informazioni sulla destinazione per il flusso. Queste informazioni comprendono:

    • Per BigQuery:
      • I set di dati in cui Datastream replica gli schemi, le tabelle e i dati di un database di origine.
    • Per Cloud Storage:
      • La cartella del bucket di destinazione in cui Datastream trasferirà schemi, tabelle e dati da un database di origine.
  • Convalida del flusso per garantire che venga eseguito correttamente. Convalida dei controlli di uno stream:

    • Se l'origine è configurata correttamente per consentire a Datastream di trasmettere dati dal flusso.
    • Indica se il flusso può connettersi sia all'origine che alla destinazione.

    • La configurazione end-to-end del flusso.

Definisci le impostazioni per lo stream

  1. Vai alla pagina Stream nella Google Cloud Console.

    Vai alla pagina Stream

  2. Fai clic su CREA STREAM.

  3. Usa la seguente tabella per compilare i campi della sezione Definisci i dettagli dello stream della pagina Crea stream:

    CampoDescrizione
    Nome flussoInserisci il nome visualizzato dello stream.
    ID streamDatastream compila questo campo automaticamente in base al nome dello stream che inserisci. Puoi mantenere l'ID generato automaticamente o modificarlo.
    RegioneSeleziona la regione in cui è archiviato lo stream. I flussi, come tutte le risorse, vengono salvati in una regione. La selezione della regione non influisce sulla connessione del flusso al database di origine o alla destinazione, ma può influire sulla disponibilità se la regione presenta tempi di inattività.
    Tipo di origine

    Seleziona il tipo di profilo specificato durante la creazione di un profilo di connessione per un database Oracle, MySQL, SQL Server (anteprima) o PostgreSQL di origine. Oppure, se non hai creato un profilo di connessione per il database di origine, puoi crearne uno ora.

    Tipo di destinazioneSeleziona il tipo di profilo che hai specificato al momento della creazione di un profilo di connessione per una destinazione BigQuery o Cloud Storage. Se invece non hai creato un profilo di connessione per la destinazione, puoi crearne uno ora.
    Crittografia

    Per impostazione predefinita, i dati sono criptati con una chiave gestita da Google Cloud. Se vuoi gestire la tua crittografia, puoi utilizzare una chiave di crittografia gestita dal cliente (CMEK):

    1. Seleziona la casella di controllo Utilizza una CMEK.
    2. Dal menu a discesa Seleziona una CMEK, seleziona la tua CMEK.

    Se non vedi la chiave, fai clic su INSERISCI NOME RISORSA CHIAVE per fornire il nome risorsa della chiave che vuoi utilizzare. Ad esempio, puoi inserire projects/my-project-name/locations/my-location/keyRings/my-keyring/cryptoKeys/my-key nel campo Nome risorsa chiave e quindi fare clic su SALVA.

  4. Facoltativamente, utilizza le etichette per organizzare le risorse Datastream.

    1. Per creare un'etichetta, fai clic su AGGIUNGI ETICHETTA e inserisci la coppia chiave-valore per l'etichetta.
    2. Per rimuovere l'etichetta, fai clic sull'icona del cestino a destra della riga contenente l'etichetta.
  5. Se vuoi, aggiungi criteri di avviso per il tuo stream. I criteri di avviso definiscono quando e come ricevere notifiche sugli errori del flusso.

    1. Per creare un criterio di avviso, fai clic su Aggiungi criterio di avviso.
    2. In Cloud Monitoring viene visualizzata la pagina Crea criterio di avviso. In questa pagina puoi definire il criterio di avviso in caso di errore del flusso.

    Per saperne di più sui criteri di avviso, consulta Gestione dei criteri di avviso basati su metriche.

  6. Rivedi i prerequisiti richiesti che vengono generati automaticamente per riflettere il modo in cui l'ambiente deve essere preparato per un flusso. Questi prerequisiti possono includere la configurazione del database di origine e il modo in cui connetterlo alla destinazione. È preferibile completare i prerequisiti in questo passaggio, ma puoi completarli in qualsiasi momento prima di testare lo stream o avviarlo. Per ulteriori informazioni su questi prerequisiti, consulta Origini.

  7. Fai clic su CONTINUA. Viene visualizzato il riquadro Definisci profilo di connessione della pagina Crea stream per il tipo di database di origine.

Specifica le informazioni sul profilo di connessione di origine

  1. Se hai creato un profilo di connessione di origine per Oracle, MySQL, SQL Server (anteprima) o PostgreSQL, selezionalo dall'elenco dei profili di connessione.

    Se non hai creato un profilo di connessione di origine, creane uno facendo clic su CREA PROFILO DI CONNESSIONE nella parte inferiore dell'elenco a discesa, quindi segui gli stessi passaggi descritti in Crea profili di connessione.

  2. Fai clic su ESEGUI TEST per verificare che il database di origine e Datastream possano comunicare tra loro.

    Se il test non va a buon fine, viene visualizzato il problema associato al profilo di connessione. Per la procedura di risoluzione dei problemi, consulta la pagina Diagnostica i problemi. Apporta le modifiche necessarie per risolvere il problema e riprova.

  3. Fai clic su CONTINUA. Viene visualizzato il riquadro Configura origine stream nella pagina Crea stream.

Configura le informazioni sul database di origine per lo stream

Configura il database di origine PostgreSQL

Se hai selezionato PostgreSQL come database di origine, devi definirne le proprietà di replica.

  1. Nella sezione Proprietà di replica, specifica le seguenti proprietà:
    1. Nel campo Nome slot di replica, inserisci il nome dello slot creato appositamente per questo stream. Il server di database utilizza questo slot per inviare eventi a Datastream.
    2. Nel campo Nome pubblicazione, inserisci il nome della pubblicazione che hai creato nel database. Una pubblicazione è un gruppo di tutte le tabelle di cui vuoi replicare le modifiche utilizzando questo flusso.
  2. Segui i passaggi descritti nella sezione Configurare i database di origine.

Configura il database di origine SQL Server

Se hai selezionato SQL Server come database di origine, devi definire il metodo CDC.

  1. Nel menu a discesa Metodo CDC, seleziona il metodo CDC corrispondente alla configurazione del tuo database di origine:

    • Log delle transazioni: seleziona questo metodo per elaborare le modifiche direttamente dai log del database. Questo metodo offre le prestazioni migliori ed è più efficiente, ma richiede ulteriori passaggi di configurazione.
    • Modifica tabelle: seleziona questo metodo per elaborare le modifiche delle tabelle delle modifiche dedicate. Questo metodo è più facile da configurare e ha meno limitazioni, ma supporta una velocità effettiva inferiore e genera un carico maggiore sul database rispetto al metodo dei log delle transazioni.

    Per saperne di più sulla configurazione del database SQL Server di origine, consulta Configurare un database SQL Server di origine.

  2. Segui i passaggi descritti nella sezione Configurare i database di origine.

Configura database di origine

  1. Nella sezione Seleziona gli oggetti da includere, utilizza il menu a discesa Oggetti da includere per specificare le tabelle e gli schemi nel database di origine che Datastream può trasferire nella destinazione.

    1. Se vuoi che Datastream trasferisca tutte le tabelle e tutti gli schemi, seleziona Tutte le tabelle di tutti gli schemi.
    2. Se vuoi che Datastream trasferisca solo tabelle e schemi specifici, seleziona Schemi e tabelle specifici, quindi seleziona le caselle di controllo relative agli schemi e alle tabelle da estrarre da Datastream.

    3. Se vuoi fornire una definizione testuale delle tabelle e degli schemi che vuoi trasferire da Datastream, seleziona Personalizzato e poi, nel campo Criteri di corrispondenza degli oggetti, inserisci gli schemi e le tabelle che vuoi che Datastream estragga.

      Se il database ha un numero elevato di tabelle e schemi, ti consigliamo di utilizzare l'opzione Personalizzato perché alcuni schemi e tabelle potrebbero non essere inclusi nell'elenco degli oggetti di cui eseguire il pull.

  2. Se vuoi, espandi il nodo Seleziona gli oggetti da escludere. Nel campo Oggetti da escludere, inserisci le tabelle e gli schemi del database di origine di cui vuoi limitare il pull di Datastream. L'elenco Oggetti da escludere ha la precedenza sull'elenco Oggetti da includere. Se un oggetto soddisfa i criteri negli elenchi di inclusione ed esclusione, viene escluso dal flusso.

  3. Se vuoi, espandi il nodo Scegli la modalità di backfill per i dati storici, quindi effettua una delle seguenti selezioni:
    1. Seleziona l'opzione Automatico per trasmettere tutti i dati esistenti, oltre alle modifiche ai dati, dall'origine alla destinazione.

      Nel campo Oggetti esclusi dal backfill automatico, inserisci le tabelle e gli schemi nel database di origine per i quali vuoi impedire a Datastream di eseguire il backfill nella destinazione.

    2. Seleziona l'opzione Manuale per trasmettere nella destinazione solo le modifiche apportate ai dati.
  4. Fai clic su CONTINUA. Viene visualizzato il riquadro Definisci profilo di connessione della pagina Crea stream per il tipo di destinazione.

Seleziona un profilo di connessione di destinazione

  1. Se hai creato un profilo di connessione di destinazione, selezionalo dall'elenco dei profili di connessione.

    Se non hai creato un profilo di connessione di destinazione, creane uno facendo clic su CREA PROFILO DI CONNESSIONE nella parte inferiore dell'elenco a discesa, quindi svolgi gli stessi passaggi descritti in Crea profili di connessione.

  2. Fai clic su CONTINUA. Viene visualizzato il riquadro Configura destinazione stream nella pagina Crea stream.

Configura le informazioni sulla destinazione dello stream

Destinazione BigQuery

  1. In Configura la connessione da Datastream a BigQuery, specifica come Datastream deve trasmettere flussi di dati in un set di dati BigQuery. Seleziona una delle seguenti opzioni:

    • Set di dati per ogni schema: Datastream crea un set di dati BigQuery per ogni schema di origine, in base al nome dello schema.

      Se selezioni questa opzione, Datastream crea nel progetto un set di dati contenente il flusso per ogni schema nel database di origine.

      Inoltre, quando selezioni l'opzione Set di dati per ogni schema:

      1. Nel campo Località, inserisci la regione in cui vuoi creare il nuovo set di dati.
      2. (Facoltativo) Nel campo Prefisso, definisci un prefisso per il set di dati creato dallo stream. La stringa specificata viene aggiunta al nome dello schema di origine. Ad esempio, se lo schema si chiama <mySchema> e definisci il prefisso del set di dati come <myPrefix>, Datastream crea un set di dati denominato <myPrefix><mySchema>.
      3. Specifica in che modo vuoi che i dati vengano criptati in BigQuery selezionando una chiave di crittografia gestita da Google o dal cliente.
    • Un unico set di dati per tutti gli schemi: Datastream crea tutte le tabelle all'interno del set di dati BigQuery esistente specificato. Ogni tabella creata da Datastream ha un nome utilizzando una combinazione del nome dello schema di origine e del nome della tabella, separati da un trattino basso (ad esempio, <mySchemaName>_<myTableName>).

  2. Specifica la Modalità di scrittura dello stream. Seleziona la modalità di scrittura per definire il modo in cui i dati vengono scritti ed elaborati in BigQuery:

    • Unisci: seleziona questa opzione se vuoi che i tuoi dati vengano sincronizzati con la fonte.
    • Solo aggiunta: seleziona questa opzione se vuoi conservare tutti i dati storici per gli eventi di modifica.
  3. Specifica il limite di inattività dei dati. Disponibile solo quando nel passaggio precedente è selezionata la modalità Unisci. Seleziona un limite per bilanciare le prestazioni delle query BigQuery e il relativo costo rispetto all'aggiornamento dei dati. BigQuery applica le modifiche in background su base continuativa o al momento dell'esecuzione delle query, a seconda del limite di inattività. Un'obsolescenza inferiore (dati più aggiornati) potrebbe aumentare i costi di elaborazione di BigQuery.

  4. Fai clic su CONTINUA. Viene visualizzato il riquadro Esamina i dettagli e crea della pagina Crea stream.

Destinazione di Cloud Storage

  1. Facoltativamente, nel campo Prefisso percorso flusso, inserisci la cartella del bucket di destinazione in cui Datastream trasferirà schemi, tabelle e dati da un database di origine.

    Ad esempio, se vuoi che Datastream trasferisca i dati dal database di origine alla cartella /root/example del bucket di destinazione, inserisci /root/example nel campo Prefisso percorso flusso.

  2. Nel campo Formato di output, scegli il formato dei file scritti in Cloud Storage.

  3. Facoltativo. Se selezioni il formato JSON, vengono visualizzate due caselle di controllo:

    1. Includi un file di schema Tipi unificati nel percorso file. Se selezioni questa casella di controllo, Datastream scrive in Cloud Storage due file: un file di dati JSON e un file di schema Avro. Il file di schema ha lo stesso nome del file di dati, con estensione .schema. Se non selezioni questa casella di controllo, Datastream scrive solo il file di dati JSON in Cloud Storage. Per impostazione predefinita, questa casella di controllo non è selezionata.
    2. Abilita la compressione gzip: se selezioni questa casella di controllo, Datastream utilizza l'utilità gzip per comprimere i file che Datastream scrive in Cloud Storage. Se non selezioni questa casella di controllo, Datastream scrive i file in Cloud Storage senza comprimerli. Per impostazione predefinita, questa casella di controllo è selezionata.
  4. Fai clic su CONTINUA. Viene visualizzato il riquadro Esamina i dettagli e crea della pagina Crea stream.

Crea lo stream

  1. Verifica i dettagli del flusso e dei profili di connessione di origine e di destinazione che verranno utilizzati dal flusso per trasferire i dati da un database di origine a una destinazione.
  2. Fai clic su ESEGUI CONVALIDA per convalidare il flusso. Convalidando un flusso, Datastream controlla che l'origine sia configurata correttamente, verifica che il flusso possa connettersi sia all'origine che alla destinazione e verifica la configurazione end-to-end del flusso.

    1. Se il database di origine è Oracle, Datastream esegue i seguenti controlli:

      ControlloDescrizione
      Validità dell'elenco degli oggettiDatastream verifica che l'elenco di esclusione non includa l'elenco di inclusione.
      Connettività del tunnel SSH di forwardingDatastream verifica di essere in grado di connettersi a un bastion host attraverso un tunnel SSH di forwarding.
      Connettività al database OracleDatastream verifica che sia in grado di connettersi al database Oracle di origine.
      Autorizzazioni utente OracleDatastream verifica che l'utente che utilizza per connettersi al database di origine disponga di tutte le autorizzazioni necessarie per recuperare schemi, tabelle e dati dal database, in modo che Datastream possa trasmettere queste informazioni nella destinazione.
      Configurazione della modalità di loggingDatastream verifica che la modalità di logging per il database Oracle sia impostata su ARCHIVELOG.
      Configurazione del logging supplementareDatastream verifica che il logging supplementare sia attivato per le tabelle di database trasmesse in flusso dall'origine alla destinazione.
      Configurazione dei file di log dell'archivioDatastream verifica che il logging dell'archivio sia configurato nell'origine e che siano presenti i file di log di archivio.
      Autorizzazioni Cloud Storage (per le destinazioni Cloud Storage) Datastream verifica di disporre delle autorizzazioni necessarie per scrivere nel bucket di destinazione in Cloud Storage.
    2. Se il tuo database di origine è MySQL, Datastream esegue i seguenti controlli:

      ControlloDescrizione
      Validità dell'elenco degli oggettiDatastream verifica che l'elenco di esclusione non includa l'elenco di inclusione.
      Connettività del tunnel SSH di forwardingDatastream verifica di essere in grado di connettersi a un bastion host attraverso un tunnel SSH di forwarding.
      Connettività con il database MySQLDatastream verifica che sia in grado di connettersi al database MySQL di origine.
      Il logging binario è attivatoDatastream verifica che i file di log binari siano configurati correttamente e che siano presenti file di log.
      Configurazione del formato del log binarioDatastream verifica che il formato del log binario del database MySQL sia impostato su ROW.
      Autorizzazioni di replicaDatastream verifica di avere le autorizzazioni per replicare un database MySQL.
      Autorizzazioni Cloud Storage (per le destinazioni Cloud Storage)Datastream verifica di disporre delle autorizzazioni necessarie per scrivere nel bucket di destinazione in Cloud Storage.
    3. Se il tuo database di origine è PostgreSQL, Datastream esegue i seguenti controlli:

      ControlloDescrizione
      Connettività al database PostgreSQLDatastream verifica che sia in grado di connettersi al database PostgreSQL di origine.
      Decodifica logica abilitataDatastream verifica che il parametro wal_level del database PostgreSQL sia impostato su logical.
      Configurazione slot di replicaDatastream verifica se lo slot di replica PostgreSQL esiste e è attivo, se Datastream dispone delle autorizzazioni necessarie per accedervi e se è configurato correttamente.
      Configurazione della pubblicazioneDatastream verifica che la pubblicazione esista e che le tabelle da replicare per il flusso siano incluse nella pubblicazione.
      Autorizzazioni backfillDatastream verifica l'esistenza delle tabelle necessarie per il backfill dei dati storici e di disporre delle autorizzazioni necessarie per leggerle.
    4. Se il database di origine è SQL Server (anteprima), Datastream esegue i seguenti controlli:

      ControlloDescrizione
      Versione SQL ServerDatastream verifica che l'edizione del database SQL Server di origine sia supportata. Per informazioni sulle versioni supportate, vedi Versioni.
      Autorizzazioni utente SQL ServerDatastream verifica che l'utente disponga delle autorizzazioni necessarie per accedere al database SQL Server di origine.
      La CDC di SQL Server è abilitataDatastream verifica se la CDC è abilitata per il database e tutte le tabelle incluse nel flusso.
      Convalide dei database SQL ServerDatastream controlla se il database di origine è configurato correttamente, se tutti i requisiti di replica sono soddisfatti e se nelle colonne non sono presenti tipi di dati non supportati.
      Autorizzazioni per Cloud Storage o BigQueryDatastream verifica che l'utente disponga delle autorizzazioni necessarie per scrivere nella destinazione.
  3. Una volta superati tutti i controlli di convalida, fai clic su CREA E AVVIA per creare lo stream e avviarlo immediatamente oppure su CREA per crearlo senza avviarlo immediatamente.

    Se non avvii lo stream adesso, puoi avviarlo dalla pagina Stream facendo clic su AVVIA.

Dopo aver creato uno stream, puoi visualizzare informazioni dettagliate e generali sullo stream.