Esegui il deployment di un processo di trasformazione dei dati tra MongoDB Atlas e Google Cloud

Last reviewed 2023-12-13 UTC

Questo documento descrive come eseguire il deployment della trasformazione dei dati tra MongoDB Atlas e Google Cloud. In questo documento, esegui il deployment di un processo ETL (Extract, Transform, Load) tra i dati da MongoDB Atlas a BigQuery.

Queste istruzioni sono rivolte agli amministratori di dati che vogliono utilizzare BigQuery per eseguire complesse analisi sui dati operativi in MongoDB Atlas. Dovresti avere familiarità con MongoDB Atlas, BigQuery e Dataflow.

Architettura

Il seguente diagramma mostra l'architettura di riferimento utilizzata per il deployment di questa soluzione.

Architettura per la trasformazione dei dati tra MongoDB Atlas e Google Cloud

Come mostrato nel diagramma, ci sono tre modelli Dataflow che per gestire il processo di integrazione. Il primo modello, da MongoDB a BigQuery, è una pipeline batch che legge i documenti da MongoDB e li scrive in BigQuery. Il secondo modello, da BigQuery a MongoDB, è un modello batch che può essere utilizzato per leggere i dati analizzati BigQuery e scrivile su MongoDB. Il terzo modello, Da MongoDB a BigQuery (CDC), è una pipeline di inserimento flussi che funziona con le modifiche in tempo reale di MongoDB per gestire le modifiche nei dati operativi. Per maggiori dettagli, vedi Trasformazione dei dati tra MongoDB Atlas e Google Cloud.

Obiettivi

I seguenti passaggi di deployment mostrano come utilizzare MongoDB modello BigQuery per eseguire il processo ETL tra i dati da da MongoDB Atlas a BigQuery. Per eseguire il deployment di questo processo ETL, eseguire le seguenti attività:

  • Esegui il provisioning di un cluster MongoDB Atlas in Google Cloud.
  • Carica i dati nel cluster MongoDB.
  • Configura l'accesso al cluster.
  • Configurare una tabella BigQuery su Google Cloud.
  • Crea e monitora il job Dataflow che trasferisce le I dati MongoDB in BigQuery.
  • Convalida le tabelle di output in BigQuery.

Costi

In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:

Per generare una stima dei costi basata sull'utilizzo previsto, utilizza il Calcolatore prezzi. I nuovi utenti di Google Cloud potrebbero essere idonei per una prova gratuita.

Una volta completate le attività descritte in questo documento, puoi evitare la fatturazione continua eliminando le risorse che hai creato. Per ulteriori informazioni, consulta la pagina Pulizia.

Prima di iniziare

Completa i seguenti passaggi per configurare un ambiente per MongoDB dell'architettura di BigQuery.

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  3. Abilita le API BigQuery and Dataflow.

    Abilita le API

Installa MongoDB Atlas

In questa sezione, utilizzi Cloud Marketplace per installare un'istanza MongoDB Atlas. Queste istruzioni presuppongono che un account MongoDB. Per i dettagli completi sulla configurazione di un l'abbonamento e il collegamento dell'account di fatturazione Google all'account MongoDB vedi Marketplace self-service di Google Cloud nella documentazione di MongoDB.

  1. Nella console Google Cloud, espandi il menu di navigazione e seleziona Marketplace.
  2. Nella casella di ricerca di Marketplace, inserisci MongoDB. Versa 3.
  3. Nei risultati di ricerca, seleziona MongoDB Atlas (pagamento a consumo).
  4. Nella pagina MongoDB Atlas (pagamento a consumo), rivedi la panoramica per Termini e condizioni, poi fai clic su Registrati con MongoDB.
  5. Nella pagina dell'abbonamento a MongoDB, seleziona il tuo account di fatturazione, accetta i termini e fai clic su Abbonati.
  6. Fai clic sul pulsante Registrati con MongoDB e crea un account MongoDB.
  7. Nella pagina in cui ti viene chiesto di selezionare un'organizzazione, seleziona l'organizzazione MongoDB per da collegare al tuo account di fatturazione Google Cloud.
  8. Attendi che Google Cloud completi la sincronizzazione della tua organizzazione.

Una volta sincronizzati gli account, viene visualizzata la pagina MongoDB Atlas (pagamento a consumo) nella console Google Cloud verrà aggiornato con il messaggio Gestisci del fornitore.

Crea un cluster MongoDB Atlas

In questa sezione creerai un cluster MongoDB. Durante il processo di creazione, seleziona le seguenti informazioni:

  • Il tipo di cluster. Seleziona il Livello del cluster in base ai requisiti dell'infrastruttura.
  • La regione preferita per il cluster. Ti consigliamo di selezionare il regione più vicina alla tua posizione fisica.

Per maggiori dettagli su come creare ed eseguire il deployment di un cluster MongoDB gratuito, consulta Esegui il deployment di un cluster gratuito nella documentazione di MongoDB.

Per creare e configurare il cluster, segui questi passaggi:

  1. Nella console Google Cloud, su MongoDB Atlas (Pay as You) Go), fai clic su Gestisci sul provider.
  2. Nella pagina di accesso di MongoDB, fai clic su Google e poi sul pulsante Account che hai utilizzato per installare MongoDB Atlas.

    Come nuovo utente, la UI di MongoDB si apre automaticamente sul Database Deployment.

  3. Nella UI di Atlas, nella pagina Deployment di database, fai clic su Crea.

  4. Nella pagina Crea un cluster, fai clic su Condiviso.

    L'opzione Condiviso offre un cluster gratuito che puoi utilizzare per testare questa architettura di riferimento.

  5. Nella pagina Crea un cluster condiviso, dalla sezione Cloud Provider & Regione, segui questi passaggi:

    1. Seleziona Google Cloud.
    2. Seleziona la regione geograficamente più vicina a te e con le caratteristiche che desideri.
  6. Nella sezione Livello del cluster, seleziona l'opzione M0.

    M0 cluster sono gratuiti e adatti per piccoli proof of concept diverse applicazioni.

  7. In Nome cluster, inserisci un nome per il cluster.

  8. Fai clic su Crea cluster per eseguire il deployment del cluster.

configura il cluster MongoDB

In questa sezione, vengono completate le seguenti procedure:

  • Caricamento dei dati di esempio nel cluster.
  • Configurazione dell'accesso al cluster.
  • Connessione al cluster in corso.

Carica dati di esempio nel cluster MongoDB

Dopo aver creato un cluster MongoDB, devi caricare i dati al suo interno. in un cluster Kubernetes. MongoDB carica serie di set di dati di esempio. Puoi utilizzare uno qualsiasi di questi set di dati per testare questo deployment. Tuttavia, vuoi utilizzare un set di dati simile ai dati effettivi che utilizzerai nella deployment di produzione.

Per maggiori dettagli su come caricare i dati di esempio, consulta Carica i dati di esempio nella documentazione di MongoDB.

Per caricare i dati di esempio:

  1. Nella UI di Atlas, nella pagina Deployment di database, individua la di cui hai appena eseguito il deployment.
  2. Fai clic sul pulsante Ellipses (...) e quindi su Load Sample Dataset.

    Il caricamento dei dati di esempio richiede circa 5 minuti.

  3. Esamina i set di dati di esempio e prendi nota della raccolta che da usare per testare questo deployment.

Configura l'accesso al cluster

Per connettere il cluster, devi creare un utente del database e impostare l'IP per il cluster:

  • L'utente del database è separato dall'utente di MongoDB. È necessario per connettersi a MongoDB da Google Cloud.
  • Per questa architettura di riferimento, utilizzerai il blocco CIDR di 0.0.0.0/0 come indirizzo IP. Questo blocco CIDR consente l'accesso da qualsiasi luogo adatto a un deployment proof of concept come questo. Tuttavia, quando esegui il deployment di una versione di produzione di questa architettura, assicurati di inserire di indirizzi IP più appropriati per la tua applicazione.

Per maggiori dettagli su come configurare un utente del database e l'indirizzo IP per il tuo per il cluster, vedi Configura l'accesso ai cluster con la procedura guidata di avvio rapido nella documentazione di MongoDB.

Per configurare l'accesso al cluster, segui questi passaggi:

  1. Nella sezione Sicurezza del riquadro di navigazione a sinistra, fai clic su Guida rapida.
  2. Nella pagina Nome utente e password, procedi nel seguente modo per crea l'utente del database:
    1. In Nome utente, inserisci il nome dell'utente del database.
    2. In Password, inserisci la password per l'utente del database.
    3. Fai clic su Create User (Crea utente).
  3. Nella pagina Nome utente e password, procedi nel seguente modo per aggiungere un per il tuo cluster:

    1. In Indirizzo IP, inserisci 0.0.0.0/0.

      Per il tuo ambiente di produzione, seleziona l'indirizzo IP appropriato per quell'ambiente.

    2. (Facoltativo) In Descrizione, inserisci una descrizione del cluster.

    3. Fai clic su Add Entry (Aggiungi voce).

  4. Fai clic su Termina e chiudi.

Connessione al tuo cluster

Ora che l'accesso al cluster è configurato, devi connetterti in un cluster Kubernetes. Per maggiori dettagli su come connetterti al tuo cluster, vedi Connettiti al tuo cluster nella documentazione di MongoDB.

Segui questi passaggi per connetterti al tuo cluster:

  1. Nella UI di Atlas, nella pagina Deployment di database, individua la di cui hai appena eseguito il deployment.
  2. Seleziona Connetti.
  3. Nella pagina Connetti, fai clic sull'opzione Bussola.
  4. Individua il campo Copy the connection string (Copia la stringa di connessione) e poi copia. e salvo la stringa di connessione MongoDB. Utilizzerai questa stringa di connessione che eseguono i modelli Dataflow.

    La stringa di connessione ha la seguente sintassi:

    mongodb+srv://<UserName>:<Password>@<HostName>
    

    La stringa di connessione include automaticamente il nome utente dell'utente del database creato nel passaggio precedente. Tuttavia, ti verrà chiesto di specificare password dell'utente del database quando utilizzi questa stringa per la connessione.

  5. Fai clic su Chiudi.

crea un set di dati in BigQuery

Quando crei un set di dati in BigQuery, devi solo inserire un del set di dati e seleziona una posizione geografica per il set di dati. Tuttavia, sono campi facoltativi che puoi impostare sul set di dati. Per ulteriori informazioni questi campi facoltativi, vedi Crea i set di dati.

  1. Nella console Google Cloud, vai alla BigQuery .

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona il progetto in cui vuoi creare del set di dati.

  3. Espandi l'opzione e fai clic su Crea set di dati.

  4. Nella pagina Crea set di dati, segui questi passaggi:

    1. Per ID set di dati, inserisci un set di dati univoco nome.
    2. In Tipo di località, scegli un'area geografica località per il set di dati. Dopo aver creato un set di dati, la località non può essere è cambiato.

      Se scegli EU o una regione con sede nell'UE per il la posizione del set di dati, i dati principali dei clienti BigQuery Risiedere nell'UE. Per una definizione delle funzionalità principali di BigQuery Dati dei clienti, vedi Termini specifici dei servizi.

    3. Fai clic su Crea set di dati.

Crea, monitora e convalida un job batch di Dataflow

In Dataflow, utilizza le seguenti istruzioni per creare un'istanza un job batch che carica i dati di esempio da MongoDB in BigQuery. Dopo aver creato il job batch, ne monitori l'avanzamento nella Interfaccia di monitoraggio di Dataflow. Per informazioni dettagliate sull'utilizzo del dell'interfaccia di monitoraggio, consulta Utilizzare l'interfaccia di monitoraggio di Dataflow.

  1. Nella console Google Cloud, vai alla Dataflow .

    Vai a Dataflow

  2. Fai clic su Crea job da modello.

  3. Nella pagina Crea job da modello, segui questi passaggi:

    1. In Nome job, inserisci un nome job univoco, ad esempio mongodb-to-bigquery-batch. Assicurati che nessun altro Il job Dataflow con questo nome è attualmente in esecuzione in questo progetto.
    2. Per Endpoint a livello di regione, seleziona la stessa località di il set di dati BigQuery che hai appena creato.
    3. Per Modello Dataflow, nella sezione Elabora i dati in blocco (batch) list, seleziona Da MongoDB a BigQuery.
    4. Nella sezione Parametri obbligatori, inserisci i seguenti parametri:

      1. In URI connessione MongoDB, inserisci il tuo Atlas Stringa di connessione MongoDB.
      2. Per Database Mongo, inserisci il nome del database che hai creato in precedenza.
      3. Per la raccolta Mongo, inserisci il nome del raccolta di campioni che hai notato in precedenza.
      4. Per la tabella di destinazione BigQuery: Fai clic su Sfoglia e seleziona la tabella BigQuery. creato nel passaggio precedente.
      5. Per Opzione utente, inserisci NONE o FLATTEN.

        NONE caricherà l'intero documento in formato stringa JSON in in BigQuery. FLATTEN unisce il documento a uno livello. Se non fornisci una funzione definita dall'utente, l'opzione FLATTEN funziona solo con documenti che hanno uno schema fisso.

      6. Per avviare il job, fai clic su Esegui job.

  4. Usa i passaggi seguenti per aprire lo strumento di monitoraggio di Dataflow in cui puoi controllare l'avanzamento del job batch e convalidare che il job completa senza errori:

    1. Nella console Google Cloud, nel progetto aprire il menu di navigazione.
    2. In Analytics, fai clic su Dataflow.
  5. Una volta eseguita correttamente la pipeline, segui questi passaggi per convalidare output della tabella:

    1. In BigQuery, apri il riquadro Explorer.
    2. Espandi il progetto, fai clic sul set di dati, quindi fai doppio clic sul tavolo.

      A questo punto dovresti essere in grado di visualizzare i dati di MongoDB nella tabella.

Esegui la pulizia

Per evitare addebiti sui tuoi account MongoDB e Google Cloud, deve mettere in pausa o terminare il cluster MongoDB Atlas ed eliminare progetto Google Cloud che hai creato per questa architettura di riferimento.

Metti in pausa o termina il cluster MongoDB Atlas

La procedura seguente fornisce le nozioni di base per mettere in pausa il cluster. Per per tutti i dettagli, vedi Mettere in pausa, riprendere o terminare un cluster nella documentazione di MongoDB.

  1. Nell'interfaccia utente di Atlas, vai alla pagina Deployment di database per Atlas progetto.
  2. In corrispondenza del cluster che vuoi mettere in pausa, fai clic su .
  3. Fai clic su Metti in pausa il cluster.
  4. Fai clic su Metti in pausa il cluster per confermare la scelta.

Elimina il progetto

  1. Nella console Google Cloud, vai alla pagina Gestisci risorse.

    Vai a Gestisci risorse

  2. Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
  3. Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.

Passaggi successivi

Collaboratori

Autori:

Altri collaboratori: