Replica dei dati dal database Oracle a BigQuery


Questo tutorial mostra come eseguire il deployment di un job che replica continuamente i dati modificati da un database Oracle a un set di dati BigQuery utilizzando la replica di Cloud Data Fusion. Questa funzionalità si basa su Datastream.

Obiettivi

In questo tutorial:

  1. Configura il tuo database Oracle per abilitare il logging supplementare.
  2. Crea ed esegui un job di replica di Cloud Data Fusion.
  3. Visualizza i risultati in BigQuery.

Costi

In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:

Per generare una stima dei costi basata sull'utilizzo previsto, utilizza il Calcolatore prezzi. I nuovi utenti di Google Cloud potrebbero essere idonei per una prova gratuita.

Quando viene eseguita la replica, ti vengono addebitati i costi per il cluster Dataproc e Cloud Storage, mentre per Datastream e BigQuery ti vengono addebitati i costi di elaborazione. Per ottimizzare questi costi, consigliamo vivamente di utilizzare il sistema con tariffe a costo fisso di BigQuery.

Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.

    Enable the APIs

  8. Crea un'istanza pubblica di Cloud Data Fusion nella versione 6.3.0 o successive. Se crei un'istanza privata, configura il peering di rete VPC.
    • Quando crei l'istanza, abilita la replica facendo clic su Aggiungi acceleratori e selezionando la casella di controllo Replica.
    • Per abilitarla in un'istanza esistente, consulta Abilitare la replica.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per la connessione a un database Oracle, chiedi all'amministratore di concederti i ruoli IAM seguenti:

  • Worker Dataproc (roles/dataproc.worker) sull'account di servizio Dataproc nel progetto che contiene il cluster
  • Esecutore Cloud Data Fusion sull'account di servizio Dataproc nel progetto che contiene il cluster
  • Amministratore DataStream (roles/datastream.admin) per l'account di servizio Cloud Data Fusion e l'account di servizio Dataproc

Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso.

Potresti anche essere in grado di ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

(Facoltativo) Installa Oracle in Compute Engine

Questa sezione mostra come configurare un database di esempio. Se hai già installato un database Oracle, puoi saltare questa sezione.

  1. Scarica un'immagine Docker di Oracle Server.

    Per le limitazioni di questa immagine Oracle Express Edition 11g, vedi Oracle Database Editions.

  2. Esegui il deployment della tua immagine Docker su una nuova istanza VM.

  3. Nella pagina Dischi di Compute Engine, modifica le dimensioni del disco in 500 GB e riavvia la VM.

    Vai a Dischi

  4. Installa lo schema di esempio HR.

Crea il peering di rete VPC o una regola firewall per il tuo server Oracle

Se il tuo database Oracle non consente il traffico in entrata da indirizzi IP pubblici, configura il peering di rete VPC tra il VPC Datastream e il VPC da cui è possibile accedere al database Oracle. Per maggiori informazioni, consulta Creare una configurazione di connettività privata.

Se il tuo database Oracle consente il traffico in entrata da indirizzi IP pubblici, crea una regola firewall per l'istanza VM in modo da consentire il traffico in entrata da IP pubblici Datastream.

Configura Oracle Server per abilitare il logging supplementare

Segui i passaggi per configurare il database Oracle di origine.

Crea ed esegui un job di replica di Cloud Data Fusion

Crea il lavoro

  1. Nell'interfaccia web di Cloud Data Fusion, fai clic su Replica.

  2. Fai clic su Crea un job di replica.

  3. Nella pagina Crea nuovo job di replica, specifica un nome per il job di replica e fai clic su Avanti.

  4. Configura l'origine:

    1. Seleziona Oracle (di Datastream) come origine.

    2. In Metodo di connettività, se il server Oracle consente il traffico in entrata da IP pubblici di Datastream, scegli Lista consentita IP. Altrimenti, per Nome connessione privata, scegli Connettività privata (peering VPC) e inserisci il nome del peering VPC creato nella sezione Crea peering di rete VPC o regola firewall per il server Oracle.

    3. In Host, inserisci il nome host del server Oracle da leggere.

    4. In Porta, inserisci la porta da utilizzare per la connessione a Oracle Server: 1521.

    5. In Identità di sistema, inserisci xe (il nome del database di esempio del server Oracle).

    6. Nella sezione delle credenziali, inserisci il nome utente e la password per accedere a Oracle Server.

    7. Lascia invariate tutte le altre proprietà.

  5. Tocca Avanti.

  6. Configura la destinazione:

    1. Seleziona il target BigQuery.

    2. L'ID progetto e la chiave dell'account di servizio vengono rilevati automaticamente. Mantieni invariati i valori predefiniti.

    3. (Facoltativo) Nella sezione Avanzate, puoi configurare quanto segue:

      • Nome e località del bucket gestione temporanea
      • Intervallo di caricamento
      • Prefisso della tabella temporanea
      • Comportamento in caso di eliminazione di tabelle o database
  7. Tocca Avanti.

  8. Se la connessione viene stabilita, viene visualizzato un elenco di tabelle. Per questo tutorial, seleziona alcune tabelle.

  9. Tocca Avanti.

  10. Nella pagina Rivedi valutazione, fai clic su Visualizza mappature in corrispondenza di una qualsiasi delle tabelle per ottenere una valutazione di problemi di schema, funzionalità mancanti o problemi di connettività che potrebbero verificarsi durante la replica.

    Se si verificano problemi, devi risolverli prima di procedere. Per questo tutorial, se una delle tabelle presenta problemi:

    1. Torna al passaggio in cui hai selezionato le tabelle.
    2. Seleziona una tabella o un evento (Inserti, Aggiornamenti o Eliminazioni) che non presenti problemi.

    Per ulteriori informazioni sulle conversioni dei tipi di dati dal database di origine alla destinazione BigQuery, consulta Tipi di dati di replica.

  11. Fai clic su Back (Indietro).

  12. Tocca Avanti.

  13. Esamina i dettagli del job di replica di riepilogo, quindi fai clic su Esegui il deployment del job di replica.

Avvia il job

  1. Nell'interfaccia web di Cloud Data Fusion, vai alla pagina dei dettagli del job di replica.

  2. Fai clic su Avvia.

Il job di replica passa dallo stato Provisioning a In fase di avvio e quello di In esecuzione. In stato in esecuzione, il job di replica carica in BigQuery uno snapshot iniziale dei dati della tabella selezionati. In questo stato, lo stato della tabella è indicato come Snapshotting. Una volta caricato lo snapshot iniziale in BigQuery, eventuali modifiche apportate alla tabella vengono replicate in BigQuery e lo stato della tabella viene indicato come Replica in corso.

Monitora il job

Puoi avviare e arrestare il job di replica, esaminarne la configurazione e i log e monitorare il job di replica.

Puoi monitorare le attività del job di replica dalla pagina Dettagli job di replica.

  1. Nella pagina Replica, fai clic sul Nome del job di replica desiderato.

  2. Fai clic su Monitoraggio.

Visualizza i risultati in BigQuery

Il job di replica crea un set di dati e una tabella replicati in BigQuery, con nomi ereditati dai nomi delle tabelle e del database Oracle corrispondenti.

  1. Nella console Google Cloud, vai alla pagina BigQuery.

  2. Nel riquadro a sinistra, fai clic sul nome del progetto per espandere l'elenco dei set di dati.

  3. Seleziona il set di dati xe e poi una tabella da visualizzare.

Per saperne di più, consulta la documentazione di BigQuery.

Esegui la pulizia

Per evitare che al tuo Account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.

Al termine del tutorial, esegui la pulizia delle risorse che hai creato su Google Cloud in modo che non occupino quota e non ti vengano addebitati costi in futuro. Le seguenti sezioni descrivono come eliminare o disattivare queste risorse.

Elimina l'istanza VM

  1. Nella console Google Cloud, vai alla pagina Istanze VM.

    Vai a Istanze VM

  2. Seleziona la casella di controllo per l'istanza da eliminare.

  3. Per eliminare l'istanza, fai clic su Elimina.

Elimina l'istanza di Cloud Data Fusion

Segui le istruzioni per eliminare l'istanza di Cloud Data Fusion.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è eliminare il progetto che hai creato per il tutorial.

Per eliminare il progetto:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Passaggi successivi