Migrazione dei dati Amazon Redshift con una rete VPC

Questo documento spiega come eseguire la migrazione dei dati da Amazon Redshift a in BigQuery usando un VPC.

Se hai un'istanza Amazon Redshift privata in AWS, puoi eseguire la migrazione dei dati in BigQuery creando un rete VPC (Virtual Private Cloud) e connetterla con la rete VPC Amazon Redshift. Il processo di migrazione dei dati funziona come segue:

  1. Crea una rete VPC nel progetto da utilizzare per il trasferimento. La rete VPC non può essere una rete VPC condiviso.
  2. Hai configurato rete privata virtuale (VPN) e connettere la rete VPC del progetto Rete VPC Amazon Redshift.
  3. Puoi specificare la rete VPC del progetto e un intervallo IP riservato durante la configurazione il trasferimento.
  4. BigQuery Data Transfer Service crea un progetto tenant e lo collega al progetto che stai utilizzando per il trasferimento.
  5. BigQuery Data Transfer Service crea una rete VPC con una subnet nel progetto tenant, utilizzando l'intervallo IP riservato che hai specificato.
  6. BigQuery Data Transfer Service crea un peering VPC tra la rete VPC del progetto e la rete VPC del progetto tenant.
  7. La migrazione di BigQuery Data Transfer Service viene eseguita nel progetto tenant. Attiva un'operazione di unload da Amazon Redshift verso un'area temporanea in in un bucket Amazon S3. La velocità di unload è determinata dal cluster configurazione.
  8. La migrazione di BigQuery Data Transfer Service trasferisce i dati da dal bucket Amazon S3 a BigQuery.

Se vuoi trasferire i dati dalla tua istanza Amazon Redshift tramite IP pubblici, puoi esegui la migrazione dei dati di Amazon Redshift a BigQuery con queste istruzioni.

Prima di iniziare

  1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  4. Abilita le API BigQuery and BigQuery Data Transfer Service.

    Abilita le API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  7. Abilita le API BigQuery and BigQuery Data Transfer Service.

    Abilita le API

Imposta le autorizzazioni richieste

Prima di creare un trasferimento Amazon Redshift, segui questi passaggi:

  1. Assicurati che la persona che crea il trasferimento abbia quanto segue richiesto Autorizzazioni IAM (Identity and Access Management) in BigQuery:

    • bigquery.transfers.update autorizzazioni per crea il trasferimento
    • bigquery.datasets.update di autorizzazioni in set di dati di destinazione

    Il ruolo IAM predefinito role/bigquery.admin include bigquery.transfers.update e bigquery.datasets.update autorizzazioni aggiuntive. Per ulteriori informazioni sui ruoli IAM in BigQuery Data Transfer Service, vedi Controllo dell'accesso.

  2. Consulta la documentazione di Amazon S3 per assicurarti di avere configurato le autorizzazioni necessarie per abilitare il trasferimento. Come minimo, i dati di origine Amazon S3 devono avere il criterio gestito da AWS AmazonS3ReadOnlyAccess applicato.

  3. Concedi le autorizzazioni Autorizzazioni IAM per creare ed eliminare il peering di rete VPC alla singola trasferimento. Il servizio utilizza le credenziali utente Google Cloud dell'utente per per creare la connessione in peering VPC.

    • Autorizzazioni per creare il peering VPC: compute.networks.addPeering
    • Autorizzazioni per eliminare il peering VPC: compute.networks.removePeering

    roles/project.owner, roles/project.editor e Valore predefinito: roles/compute.networkAdmin I ruoli IAM includono compute.networks.addPeering e compute.networks.removePeering per impostazione predefinita.

Crea un set di dati

Crea un set di dati BigQuery per archiviare i dati. Non è necessario creare tabelle.

Concedi l'accesso al cluster Amazon Redshift

Segui le istruzioni in Configura le regole in entrata per i client SQL per inserire nella lista consentita gli intervalli IP del tuo cluster Amazon Redshift privato. In un passaggio successivo, devi definire l'intervallo IP privato in questa rete VPC quando configuri trasferimento.

Concedi l'accesso al tuo bucket Amazon S3

Devi disporre di un bucket Amazon S3 da utilizzare come area temporanea per trasferire dei dati di Amazon Redshift in BigQuery. Per istruzioni dettagliate, vedi Documentazione di Amazon.

  1. Ti consigliamo di creare un utente Amazon IAM dedicato e di concedere solo utente: accesso in lettura ad Amazon Redshift e accesso in lettura e scrittura ad Amazon S3. Per farlo, puoi applicare le seguenti norme:

    Autorizzazioni Amazon per la migrazione di Amazon Redshift

  2. Crea una coppia di chiavi di accesso utente IAM di Amazon.

Configura il controllo dei carichi di lavoro con una coda di migrazione separata

Facoltativamente, puoi definire una coda Amazon Redshift per la migrazione per limitare e separare le risorse utilizzate per la migrazione. Puoi configurare di migrazione con un numero massimo di query in contemporaneità. Puoi quindi associare un un determinato gruppo di utenti per la migrazione con la coda e utilizzare queste credenziali durante la configurazione della migrazione trasferire i dati in BigQuery. Il servizio di trasferimento ha solo l'accesso alla coda di migrazione.

Raccogliere informazioni sul trasferimento

Raccogli le informazioni necessarie per configurare la migrazione BigQuery Data Transfer Service:

  • Ottieni il VPC e l'intervallo IP riservato in Amazon Redshift.
  • Segui queste istruzioni per ottenere l'URL JDBC.
  • Ottieni il nome utente e la password di un utente con le autorizzazioni appropriate per del tuo database Amazon Redshift.
  • Segui le istruzioni alla pagina Concedi l'accesso al tuo bucket Amazon S3 a ottenere una coppia di chiavi di accesso AWS.
  • Recupera l'URI del bucket Amazon S3 da utilizzare per il trasferimento. Ti consigliamo di configurare Ciclo di vita per questo bucket, al fine di evitare addebiti inutili. Il tipo di la scadenza è di 24 ore per concedere tempo sufficiente per trasferire tutti i dati in BigQuery.

Valuta i tuoi dati

Nell'ambito del trasferimento dei dati, BigQuery Data Transfer Service scrive i dati da da Amazon Redshift in Cloud Storage come file CSV. Se questi file contengono il carattere ASCII 0, non possono essere caricati in BigQuery. Me suggerisci di valutare i dati per stabilire se questo potrebbe costituire un problema per te. Se puoi risolvere il problema esportando i dati in Amazon S3 come Parquet e importarli utilizzando BigQuery Data Transfer Service. Per ulteriori informazioni, vedi Panoramica dei trasferimenti di Amazon S3.

configura la rete VPC e la VPN

  1. Assicurati di disporre delle autorizzazioni per abilitare il peering VPC. Per saperne di più, vedi Impostare le autorizzazioni richieste.

  2. Segui le istruzioni riportate in questa guida. per configurare una rete VPC di Google Cloud, configura una VPN alla rete VPC del progetto Google Cloud e alla rete VPC Amazon Redshift e peering VPC.

  3. Configura Amazon Redshift per consentire la connessione alla VPN. Per ulteriori informazioni, consulta Gruppi di sicurezza dei cluster Amazon Redshift.

  4. Nella console Google Cloud, vai alla pagina Reti VPC per verificare che la tua La rete VPC Google Cloud esiste nel progetto Google Cloud a cui è connessa tramite la VPN.

    Vai alle reti VPC

    Nella pagina della console sono elencate tutte le tue reti VPC.

Configurare un trasferimento Amazon Redshift

Segui queste istruzioni per configurare un trasferimento Amazon Redshift:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Fai clic su Trasferimenti di dati.

  3. Fai clic su Crea trasferimento.

  4. Nella sezione Tipo di origine, seleziona Migrazione: Amazon Redshift. dall'elenco Origine.

  5. Nella sezione Nome configurazione di trasferimento, inserisci un nome per il trasferimento. ad esempio My migration, nel campo Nome visualizzato. Il nome visualizzato può essere qualsiasi valore che consenta di identificare facilmente il trasferimento se dovrai modificarlo in seguito.

  6. Nella sezione Impostazioni destinazione, scegli il set di dati che hai creato dall'elenco Set di dati.

  7. Nella sezione Dettagli origine dati:

    1. Per URL connessione JDBC per Amazon Redshift, fornisci il parametro URL JDBC per accedere al cluster Amazon Redshift.
    2. In Nome utente del tuo database, inserisci il nome utente per Database Amazon Redshift di cui vuoi eseguire la migrazione.
    3. In Password del tuo database, inserisci la password del database.

    4. In ID chiave di accesso e Chiave di accesso segreta, inserisci i dati di accesso una coppia di chiavi ottenuta Concedi l'accesso al bucket S3.

    5. Per URI Amazon S3, inserisci l'URI del bucket S3 da inserire da usare come area temporanea.

    6. Per Schema Amazon Redshift, inserisci lo schema Amazon Redshift che stai migrazione.

    7. Per Pattern nomi tabella, specifica un nome o un pattern per la corrispondenza dei nomi delle tabelle nello schema. Puoi utilizzare le espressioni regolari per specifica il pattern nel formato: <table1Regex>;<table2Regex>. La deve seguire la sintassi delle espressioni regolari Java. Ad esempio:

      • lineitem;ordertb corrisponde alle tabelle denominate lineitem e ordertb.
      • .* corrisponde a tutte le tabelle.

      Lascia vuoto questo campo per eseguire la migrazione di tutte le tabelle dallo schema specificato.

    8. Per VPC e intervallo IP riservato, specifica il nome della tua rete VPC e l'intervallo di indirizzi IP privati da utilizzare nella rete VPC del progetto tenant. Specifica l'intervallo di indirizzi IP come blocco CIDR.

      Campo CIDR migrazione Amazon Redshift

      • Il modulo è VPC_network_name:CIDR, ad esempio: my_vpc:10.251.1.0/24.
      • Utilizza gli intervalli di indirizzi di rete VPC privata standard nella notazione CIDR, che inizia con 10.x.x.x.
      • L'intervallo IP deve avere più di 10 indirizzi IP.
      • L'intervallo IP non deve sovrapporsi ad alcuna subnet nel progetto o rete VPC o la rete VPC Amazon Redshift.
      • Se hai configurato più trasferimenti per lo stesso Amazon Redshift assicurati di utilizzare lo stesso valore VPC_network_name:CIDR in ognuna, in modo che più trasferimenti possano riutilizzare la stessa migrazione dell'infrastruttura.
  8. (Facoltativo) Nella sezione Opzioni di notifica, procedi nel seguente modo:

    1. Fai clic sul pulsante di attivazione/disattivazione per abilitare le notifiche via email. Se attivi questa opzione, l'amministratore dei trasferimenti riceve una notifica via email quando un trasferimento non va a buon fine.
    2. Per Seleziona un argomento Pub/Sub, scegli l'argomento o fai clic su Crea un argomento. Questa opzione configura l'esecuzione delle notifiche in Pub/Sub per il trasferimento.
  9. Fai clic su Salva.

  10. La console Google Cloud mostra tutti i dettagli di configurazione del trasferimento, incluso un nome risorsa per questo trasferimento.

Quote e limiti

La migrazione di un'istanza privata Amazon Redshift con una rete VPC esegue la migrazione su un'infrastruttura a singolo tenant. A causa dei limiti delle risorse di calcolo, sono consentite al massimo 5 esecuzioni simultanee.

BigQuery ha una quota di caricamento di 15 TB per ogni job di caricamento . Internamente, Amazon Redshift comprime i dati della tabella, in modo che le dimensioni sarà maggiore di quella della tabella riportata da Amazon Redshift. Se prevedi per eseguire la migrazione di una tabella più grande di 15 TB, contatta Assistenza clienti Google Cloud.

L'utilizzo di questo servizio comporta l'addebito di costi esterni a Google. Consulta Amazon Redshift e Pagine dei prezzi di Amazon S3 per maggiori dettagli.

A causa di Modello di coerenza di Amazon S3, è possibile che alcuni file non vengano inclusi nel trasferimento in BigQuery.

Passaggi successivi