Genera metadati per traduzione e valutazione

Questo documento descrive come creare metadati ed eseguire query sui file di log utilizzando lo strumento di estrazione a riga di comando dwh-migration-dumper. I file di metadati descrivono gli oggetti SQL nel sistema di origine.

BigQuery Migration Service utilizza queste informazioni per migliorare la traduzione degli script SQL dal dialetto del sistema di origine a GoogleSQL.

Il test sulla migrazione di BigQuery utilizza file di metadati e file di log delle query per analizzare il data warehouse esistente e aiutarti a valutare lo sforzo per spostarlo in BigQuery.

Panoramica

Puoi utilizzare lo strumento dwh-migration-dumper per estrarre le informazioni dei metadati dalla piattaforma del database di cui stai eseguendo la migrazione a BigQuery. Sebbene lo strumento di estrazione non sia obbligatorio per la traduzione, è obbligatorio per la valutazione della migrazione di BigQuery e ti consigliamo vivamente di utilizzarlo per tutte le attività di migrazione.

Per maggiori informazioni, consulta la sezione Creare file di metadati.

Puoi usare lo strumento dwh-migration-dumper per estrarre metadati dalle seguenti piattaforme di database:

  • Teradata
  • Amazon Redshift
  • Apache Hive
  • Apache Spark
  • Azure Synapse
  • Microsoft SQL Server
  • IBM Netezza
  • Oracle
  • Snowflake
  • Trino o PrestoSQL
  • Vertica

Per la maggior parte di questi database puoi anche estrarre i log delle query.

Lo strumento dwh-migration-dumper esegue query sulle tabelle di sistema per raccogliere istruzioni Data Definition Language (DDL) relative ai database di utenti e sistemi. Non esegue query sui contenuti dei database utente. Lo strumento salva le informazioni dei metadati dalle tabelle di sistema come file CSV e poi comprime questi file in un unico pacchetto. Successivamente, carichi il file ZIP in Cloud Storage quando carichi i file di origine per la traduzione o la valutazione.

Quando utilizzi l'opzione per i log delle query, lo strumento dwh-migration-dumper esegue una query sulle tabelle di sistema per trovare istruzioni DDL e log delle query relativi ai database di utenti e sistema. Questi vengono salvati in formato CSV o yaml in una sottodirectory e poi compressi in un pacchetto ZIP. In nessun momento vengono eseguite query sui contenuti dei database utente. A questo punto, la valutazione della migrazione BigQuery richiede singoli file CSV, YAML e testo per i log delle query, quindi devi decomprimere tutti questi file dal file ZIP dei log delle query e caricarli per la valutazione.

Lo strumento dwh-migration-dumper può essere eseguito su Windows, macOS e Linux.

Lo strumento dwh-migration-dumper è disponibile con la licenza Apache 2.

Se scegli di non utilizzare lo strumento dwh-migration-dumper per la traduzione, puoi fornire manualmente i file di metadati raccogliendo le istruzioni DDL (Data Definition Language) per gli oggetti SQL nel sistema di origine in file di testo separati.

Per la valutazione della migrazione tramite la valutazione della migrazione di BigQuery, è necessario fornire metadati e log delle query estratti con lo strumento.

Requisiti di conformità

Forniamo il programma binario compilato dello strumento dwh-migration-dumper per facilità d'uso. Se devi controllare lo strumento per assicurarti che soddisfi i requisiti di conformità, puoi esaminare il codice sorgente dal repository GitHub dello strumento dwh-migration-dumper e compilare il tuo programma binario.

Prerequisiti

Installa Java

Sul server su cui intendi eseguire lo strumento dwh-migration-dumper deve essere installato Java 8 o una versione successiva. In caso contrario, scarica Java dalla pagina di download Java e installalo.

Autorizzazioni obbligatorie

L'account utente specificato per connettere lo strumento dwh-migration-dumper al sistema di origine deve disporre delle autorizzazioni per leggere i metadati dal sistema. Conferma che questo account disponga dell'appartenenza ai ruoli appropriata per eseguire query sulle risorse di metadati disponibili per la tua piattaforma. Ad esempio, INFORMATION_SCHEMA è una risorsa di metadati comune a diverse piattaforme.

Installa lo strumento dwh-migration-dumper

Per installare lo strumento dwh-migration-dumper, segui questi passaggi:

  1. Sulla macchina in cui vuoi eseguire lo strumento dwh-migration-dumper, scarica il file ZIP dal repository GitHub dello strumento dwh-migration-dumper.
  2. Scarica il file SHA256SUMS.txt ed esegui questo comando:
    sha256sum --check SHA256SUMS.txt
    
    Se la verifica non va a buon fine, consulta la sezione Risoluzione dei problemi.
  3. Estrai il file ZIP. Il programma binario dello strumento di estrazione si trova nella sottodirectory /bin della cartella creata estraendo il file ZIP.
  4. Aggiorna la variabile di ambiente PATH per includere il percorso di installazione per lo strumento di estrazione.

Esegui lo strumento dwh-migration-dumper

Lo strumento dwh-migration-dumper utilizza il seguente formato:

dwh-migration-dumper [FLAGS]

Lo strumento dwh-migration-dumper crea un file di output denominato dwh-migration-<source platform>-metadata.zip, ad esempio dwh-migration-teradata-metadata.zip, nella directory di lavoro.

Segui le istruzioni riportate di seguito per scoprire come eseguire lo strumento dwh-migration-dumper per la tua piattaforma di origine.

Teradata

Per consentire allo strumento dwh-migration-dumper di connettersi a Teradata, scarica il driver JDBC dalla pagina di download di Teradata.

La seguente tabella descrive i flag di uso comune per l'estrazione dei metadati Teradata e dei log delle query mediante lo strumento di estrazione. Per informazioni su tutti i flag supportati, consulta l'articolo sui flag globali.

Nome Valore predefinito Description Obbligatorio
--assessment

Attiva la modalità di valutazione durante la generazione di log del database o l'estrazione dei metadati. Lo strumento dwh-migration-dumper genera le statistiche di metadati richieste per la valutazione della migrazione di BigQuery quando viene utilizzato per l'estrazione dei metadati. Se utilizzato per i log delle query, estrae colonne aggiuntive per la valutazione della migrazione di BigQuery.

Necessaria quando si utilizza per eseguire il test, non necessaria per la traduzione.
--connector Il nome del connettore da utilizzare, in questo caso teradata per i metadati o teradata-logs per i log delle query.
--database

Un elenco dei database da estrarre, separati da virgole. I nomi dei database potrebbero essere sensibili alle maiuscole, a seconda della configurazione del server Teradata.

Se questo flag viene utilizzato in combinazione con il connettore teradata, lo strumento dwh-migration-dumper filtra le tabelle e le viste dei metadati in base all'elenco fornito di database. Le eccezioni sono le viste DatabasesV e RoleMembersV: lo strumento dwh-migration-dumper estrae i database e gli utenti da queste viste senza filtrare i dati in base al nome del database.

Questo flag non può essere utilizzato in combinazione con il connettore teradata-logs. I log delle query vengono sempre estratti per tutti i database.

No
--driver Il percorso assoluto o relativo del file JAR del driver da utilizzare per questa connessione. Puoi specificare più file JAR del driver, separandoli con virgole.
--host localhost Il nome host o l'indirizzo IP del server di database. No
--password La password da utilizzare per la connessione al database. Se non specificato, lo strumento di estrazione utilizza un prompt sicuro per richiederlo.
--port 1025 La porta del server del database. No
--user

Il nome utente da utilizzare per la connessione al database.

--query-log-alternates

Solo per il connettore teradata-logs.

Per estrarre i log delle query da una posizione alternativa, ti consigliamo di utilizzare invece i flag -Dteradata-logs.query-logs-table e -Dteradata-logs.sql-logs-table.

Per impostazione predefinita, i log delle query vengono estratti dalle tabelle dbc.DBQLogTbl e dbc.DBQLSQLTbl. Se utilizzi il flag --assessment, i log delle query vengono estratti dalla vista dbc.QryLogV e dalla tabella dbc.DBQLSQLTbl. Se devi estrarre i log delle query da una posizione alternativa, puoi specificare i nomi completi delle tabelle o delle viste utilizzando il flag --query-log-alternates. Il primo parametro fa riferimento all'alternativa alla tabella dbc.DBQLogTbl, mentre il secondo fa riferimento all'alternativa alla tabella dbc.DBQLSQLTbl. Sono necessari entrambi.
Il flag -Dteradata-logs.log-date-column può essere utilizzato per migliorare le prestazioni di estrazione quando entrambe le tabelle hanno una colonna indicizzata di tipo DATE.

Esempio: --query-log-alternates historicdb.ArchivedQryLogV,historicdb.ArchivedDBQLSqlTbl

No
-Dteradata.tmode

La modalità di transazione della connessione. Sono supportati i seguenti valori:

  • ANSI: modalità ANSI. Questa è la modalità predefinita (se il flag non è specificato)
  • TERA: modalità di transazione Teradata (BTET)
  • DEFAULT: utilizza la modalità di transazione predefinita configurata sul server di database
  • NONE: non è impostata nessuna modalità per la connessione

Esempio (Bash):
-Dteradata.tmode=TERA

Esempio (Windows PowerShell):
"-Dteradata.tmode=TERA"

No
-Dteradata-logs.log-date-column

Solo per il connettore teradata-logs.

Per migliorare le prestazioni dell'unione delle tabelle specificate dai flag -Dteradata-logs.query-logs-table e -Dteradata-logs.sql-logs-table, puoi includere una colonna aggiuntiva di tipo DATE nella condizione JOIN. Questa colonna deve essere definita in entrambe le tabelle e deve far parte dell'indice principale partizionato.

Esempio (Bash):
-Dteradata-logs.log-date-column=ArchiveLogDate

Esempio (Windows PowerShell):
"-Dteradata-logs.log-date-column=ArchiveLogDate"

No
-Dteradata-logs.query-logs-table

Solo per il connettore teradata-logs.

Per impostazione predefinita, i log delle query vengono estratti dalla tabella dbc.DBQLogTbl. Se utilizzi il flag --assessment, i log delle query vengono estratti dalla vista dbc.QryLogV. Se devi estrarre i log delle query da una posizione alternativa, puoi specificare il nome completo della tabella o della vista utilizzando questo flag.
Vedi il flag -Dteradata-logs.log-date-column per migliorare le prestazioni dell'estrazione.

Esempio (Bash):
-Dteradata-logs.query-logs-table=historicdb.ArchivedQryLogV

Esempio (Windows PowerShell):
"-Dteradata-logs.query-logs-table=historicdb.ArchivedQryLogV"

No
-Dteradata-logs.sql-logs-table

Solo per il connettore teradata-logs.

Per impostazione predefinita, i log delle query contenenti testo SQL vengono estratti dalla tabella dbc.DBQLSqlTbl. Se devi estrarli da una posizione alternativa, puoi specificare il nome completo della tabella o della vista utilizzando questo flag.
Vedi il flag -Dteradata-logs.log-date-column per migliorare le prestazioni dell'estrazione.

Esempio (Bash):
-Dteradata-logs.sql-logs-table=historicdb.ArchivedDBQLSqlTbl

Esempio (Windows PowerShell):
"-Dteradata-logs.sql-logs-table=historicdb.ArchivedDBQLSqlTbl"

No
-Dteradata-logs.utility-logs-table

Solo per il connettore teradata-logs.

Per impostazione predefinita, i log dell'utilità vengono estratti dalla tabella dbc.DBQLUtilityTbl. Se devi estrarre i log dell'utilità da una posizione alternativa, puoi specificare il nome completo della tabella utilizzando il flag -Dteradata-logs.utility-logs-table.

Esempio (Bash):
-Dteradata-logs.utility-logs-table=historicdb.ArchivedUtilityLogs

Esempio (Windows PowerShell):
"-Dteradata-logs.utility-logs-table=historicdb.ArchivedUtilityLogs"

No
-Dteradata-logs.res-usage-scpu-table

Solo per il connettore teradata-logs.

Per impostazione predefinita, i log di utilizzo delle risorse SCPU vengono estratti dalla tabella dbc.ResUsageScpu. Se devi estrarli da una località alternativa, puoi specificare il nome completo della tabella utilizzando il flag -Dteradata-logs.res-usage-scpu-table.

Esempio (Bash):
-Dteradata-logs.res-usage-scpu-table=historicdb.ArchivedResUsageScpu

Esempio (Windows PowerShell):
"-Dteradata-logs.res-usage-scpu-table=historicdb.ArchivedResUsageScpu"

No
-Dteradata-logs.res-usage-spma-table

Solo per il connettore teradata-logs.

Per impostazione predefinita, i log di utilizzo delle risorse SPMA vengono estratti dalla tabella dbc.ResUsageSpma. Se devi estrarre questi log da una posizione alternativa, puoi specificare il nome completo della tabella utilizzando il flag -Dteradata-logs.res-usage-spma-table.

Esempio (Bash):
-Dteradata-logs.res-usage-spma-table=historicdb.ArchivedResUsageSpma

Esempio (Windows PowerShell):
"-Dteradata-logs.res-usage-spma-table=historicdb.ArchivedResUsageSpma"

No
--query-log-start

L'ora di inizio (inclusa) per l'estrazione dei log delle query. Il valore è troncato all'ora. Questo flag è disponibile solo per il connettore teradata-logs.

Esempio: --query-log-start "2023-01-01 14:00:00"

No
--query-log-end

L'ora di fine (esclusiva) per l'estrazione dei log delle query. Il valore è troncato all'ora. Questo flag è disponibile solo per il connettore teradata-logs.

Esempio: --query-log-end "2023-01-15 22:00:00"

No
-Dteradata.metadata.tablesizev.max-rows

Solo per il connettore teradata.

Limita il numero di righe estratte dalla visualizzazione TableSizeV. Le righe sono raggruppate in base alle colonne DatabaseName, AccountName e TableName e poi ordinate in ordine decrescente in base alle dimensioni dello spazio permanente (l'espressione SUM(CurrentPerm)). Successivamente, viene estratto il numero specificato di righe.

Esempio (Bash):
-Dteradata.metadata.tablesizev.max-rows=100000

Esempio (Windows PowerShell):
"-Dteradata.metadata.tablesizev.max-rows=100000"

No
-Dteradata.metadata.diskspacev.max-rows

Solo per il connettore teradata.

Limita il numero di righe estratte dalla visualizzazione DiskSpaceV. Le righe vengono ordinate in ordine decrescente in base alle dimensioni dello spazio permanente (colonna CurrentPerm), dopodiché il numero specificato di righe viene estratto.

Esempio (Bash):
-Dteradata.metadata.diskspacev.max-rows=100000

Esempio (Windows PowerShell):
"-Dteradata.metadata.diskspacev.max-rows=100000"

No
-Dteradata.metadata.databasesv.users.max-rows

Solo per il connettore teradata.

Limita il numero di righe che rappresentano gli utenti (DBKind='U') che vengono estratte dalla visualizzazione DatabasesV. Le righe vengono ordinate in ordine decrescente in base alla colonna PermSpace e poi viene estratto il numero specificato di righe.

Esempio (Bash):
-Dteradata.metadata.databasesv.users.max-rows=100000

Esempio (Windows PowerShell):
"-Dteradata.metadata.databasesv.users.max-rows=100000"

No
-Dteradata.metadata.databasesv.dbs.max-rows

Solo per il connettore teradata.

Limita il numero di righe che rappresentano i database (DBKind='D') che vengono estratte dalla vista DatabasesV. Le righe vengono ordinate in ordine decrescente in base alla colonna PermSpace e poi viene estratto il numero specificato di righe.

Esempio (Bash):
-Dteradata.metadata.databasesv.dbs.max-rows=100000

Esempio (Windows PowerShell):
"-Dteradata.metadata.databasesv.dbs.max-rows=100000"

No
-Dteradata.metadata.max-text-length

Solo per il connettore teradata.

Lunghezza massima della colonna di testo durante l'estrazione dei dati dalla visualizzazione TableTextV. Il testo più lungo del limite definito verrà suddiviso in più righe. Intervallo consentito: compreso tra 5000 e 32.000 (inclusi).

Esempio (Bash):
-Dteradata.metadata.max-text-length=10000

Esempio (Windows PowerShell):
"-Dteradata.metadata.max-text-length=10000"

No
-Dteradata-logs.max-sql-length

Solo per il connettore teradata-logs.

Lunghezza massima della colonna DBQLSqlTbl.SqlTextInfo. Il testo della query più lungo del limite definito verrà suddiviso in più righe. Intervallo consentito: compreso tra 5000 e 31.000 (incluso).

Esempio (Bash):
-Dteradata-logs.max-sql-length=10000

Esempio (Windows PowerShell):
"-Dteradata-logs.max-sql-length=10000"

No

Esempi

L'esempio seguente mostra come estrarre i metadati per due database Teradata sull'host locale:

dwh-migration-dumper \
  --connector teradata \
  --user user \
  --password password \
  --database database1,database2 \
  --driver path/terajdbc4.jar

L'esempio seguente mostra come estrarre i log delle query per la valutazione sull'host locale per l'autenticazione:

dwh-migration-dumper \
  --connector teradata-logs \
  --assessment \
  --user user \
  --password password \
  --driver path/terajdbc4.jar

Tabelle e visualizzazioni estratte dallo strumento dwh-migration-dumper

Quando utilizzi il connettore teradata, vengono estratte le seguenti tabelle e visualizzazioni:

  • DBC.ColumnsV
  • DBC.DatabasesV
  • DBC.DBCInfo
  • DBC.FunctionsV
  • DBC.IndicesV
  • DBC.PartitioningConstraintsV
  • DBC.TablesV
  • DBC.TableTextV

Quando utilizzi il connettore teradata con il flag --assessment, vengono estratte le seguenti tabelle e visualizzazioni aggiuntive:

  • DBC.All_RI_ChildrenV
  • DBC.All_RI_ParentsV
  • DBC.AllTempTablesVX
  • DBC.DiskSpaceV
  • DBC.RoleMembersV
  • DBC.StatsV
  • DBC.TableSizeV

Quando utilizzi il connettore teradata-logs, vengono estratte le seguenti tabelle e visualizzazioni:

  • DBC.DBQLogTbl (cambia in DBC.QryLogV se viene utilizzato il flag --assessment)
  • DBC.DBQLSqlTbl

Quando utilizzi il connettore teradata-logs con il flag --assessment, vengono estratte le seguenti tabelle e visualizzazioni aggiuntive:

  • DBC.DBQLUtilityTbl
  • DBC.ResUsageScpu
  • DBC.ResUsageSpma

Redshift

Puoi utilizzare uno dei seguenti meccanismi di autenticazione e autorizzazione di Amazon Redshift con lo strumento di estrazione:

  • Un nome utente e una password.
  • Un ID chiave di accesso e una chiave segreta di AWS Identity and Access Management (IAM).
  • Un nome del profilo AWS IAM.

Per eseguire l'autenticazione con nome utente e password, utilizza il driver JDBC predefinito di Amazon Redshift per PostgreSQL. Per l'autenticazione con AWS IAM, utilizza il driver JDBC di Amazon Redshift, che puoi scaricare dalla pagina di download.

La seguente tabella descrive i flag di uso comune per l'estrazione di metadati e log delle query di Amazon Redshift mediante lo strumento dwh-migration-dumper. Per informazioni su tutti i flag supportati, consulta l'articolo sui flag globali.

Nome Valore predefinito Description Obbligatorio
--assessment

Attivazione della modalità di valutazione durante la generazione di log del database o l'estrazione dei metadati. Genera le statistiche di metadati richieste per la valutazione della migrazione di BigQuery quando viene utilizzato per l'estrazione dei metadati. Se utilizzato per l'estrazione dei log delle query, genera statistiche delle metriche delle query per la valutazione della migrazione di BigQuery.

Necessaria durante l'esecuzione in modalità di valutazione, non necessaria per la traduzione.
--connector Il nome del connettore da utilizzare, in questo caso redshift per i metadati o redshift-raw-logs per i log delle query.
--database Se non specificato, Amazon Redshift utilizza il valore --user come nome del database predefinito.

Il nome del database a cui connettersi.

No
--driver Se non specificato, Amazon Redshift utilizza il driver JDBC PostgreSQL predefinito. Il percorso assoluto o relativo del file JAR del driver da utilizzare per questa connessione. Puoi specificare più file JAR del driver, separandoli con virgole. No
--host localhost Il nome host o l'indirizzo IP del server di database. No
--iam-accesskeyid

L'ID della chiave di accesso AWS IAM da utilizzare per l'autenticazione. La chiave di accesso è una stringa di caratteri, simile a AKIAIOSFODNN7EXAMPLE.

Da utilizzare in combinazione con il flag --iam-secretaccesskey. Non utilizzare questo flag quando specifichi i flag --iam-profile o --password.

Non esplicitamente, ma devi fornire le informazioni di autenticazione tramite uno dei seguenti metodi:

  • Utilizzo di questo flag in combinazione con il flag --iam-secretaccesskey.
  • Utilizzo del flag --iam-profile.
  • Utilizzo del flag --password in combinazione con il flag --user.
--iam-profile

Il profilo AWS IAM da utilizzare per l'autenticazione. Puoi recuperare un valore del profilo da utilizzare esaminando il file $HOME/.aws/credentials o eseguendo aws configure list-profiles.

Non utilizzare questo flag con i flag --iam-accesskeyid, --iam-secretaccesskey o --password.

Non esplicitamente, ma devi fornire le informazioni di autenticazione tramite uno dei seguenti metodi:

  • Utilizzo di questo flag.
  • Utilizzo del flag --iam-accesskeyid in combinazione con il flag --iam-secretaccesskey.
  • Utilizzo del flag --password in combinazione con il flag --user.
--iam-secretaccesskey

La chiave di accesso secret AWS IAM da utilizzare per l'autenticazione. La chiave di accesso del secret è una stringa di caratteri, simile a wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY.

Da utilizzare in combinazione con il flag --iam-accesskeyid. Non utilizzare questo flag con i flag --iam-profile o --password.

Non esplicitamente, ma devi fornire le informazioni di autenticazione tramite uno dei seguenti metodi:

  • Utilizzo di questo flag in combinazione con il flag --iam-accesskeyid.
  • Utilizzo del flag --iam-profile.
  • Utilizzo del flag --password in combinazione con il flag --user.
--password La password da utilizzare per la connessione al database.

Non utilizzare questo flag con i flag --iam-accesskeyid, --iam-secretaccesskey o --iam-profile.

Non esplicitamente, ma devi fornire le informazioni di autenticazione tramite uno dei seguenti metodi:

  • Utilizzo di questo flag in combinazione con il flag --user.
  • Utilizzo del flag --iam-accesskeyid in combinazione con il flag --iam-secretaccesskey.
  • Utilizzo del flag --password.
--port 5439 La porta del server del database. No
--user Il nome utente da utilizzare per la connessione al database.
--query-log-start

L'ora di inizio (inclusa) per l'estrazione dei log delle query. Il valore è troncato all'ora. Questo flag è disponibile solo per il connettore redshift-raw-logs.

Esempio: --query-log-start "2023-01-01 14:00:00"

No
--query-log-end

L'ora di fine (esclusiva) per l'estrazione dei log delle query. Il valore è troncato all'ora. Questo flag è disponibile solo per il connettore redshift-raw-logs.

Esempio: --query-log-end "2023-01-15 22:00:00"

No

Esempi

L'esempio seguente mostra come estrarre i metadati da un database Amazon Redshift su un host specificato, utilizzando chiavi AWS IAM per l'autenticazione:

dwh-migration-dumper \
  --connector redshift \
  --database database \
  --driver path/redshift-jdbc42-version.jar \
  --host host.region.redshift.amazonaws.com \
  --iam-accesskeyid access_key_ID \
  --iam-secretaccesskey secret_access-key \
  --user user

L'esempio seguente mostra come estrarre i metadati da un database Amazon Redshift sull'host predefinito, utilizzando il nome utente e la password per l'autenticazione:

dwh-migration-dumper \
  --connector redshift \
  --database database \
  --password password \
  --user user

L'esempio seguente mostra come estrarre i metadati da un database Amazon Redshift su un host specificato, utilizzando un profilo AWS IAM per l'autenticazione:

dwh-migration-dumper \
  --connector redshift \
  --database database \
  --driver path/redshift-jdbc42-version.jar \
  --host host.region.redshift.amazonaws.com \
  --iam-profile profile \
  --user user \
  --assessment

L'esempio seguente mostra come estrarre i log delle query per Assessment da un database Amazon Redshift su un host specificato, utilizzando un profilo AWS IAM per l'autenticazione:

dwh-migration-dumper \
  --connector redshift-raw-logs \
  --database database \
  --driver path/redshift-jdbc42-version.jar \
  --host 123.456.789.012 \
  --iam-profile profile \
  --user user \
  --assessment

Tabelle e visualizzazioni estratte dallo strumento dwh-migration-dumper

Quando utilizzi il connettore redshift, vengono estratte le seguenti tabelle e visualizzazioni:

  • SVV_COLUMNS
  • SVV_EXTERNAL_COLUMNS
  • SVV_EXTERNAL_DATABASES
  • SVV_EXTERNAL_PARTITIONS
  • SVV_EXTERNAL_SCHEMAS
  • SVV_EXTERNAL_TABLES
  • SVV_TABLES
  • SVV_TABLE_INFO
  • INFORMATION_SCHEMA.COLUMNS
  • PG_CAST
  • PG_DATABASE
  • PG_LANGUAGE
  • PG_LIBRARY
  • PG_NAMESPACE
  • PG_OPERATOR
  • PG_PROC
  • PG_TABLE_DEF
  • PG_TABLES
  • PG_TYPE
  • PG_VIEWS

Quando utilizzi il connettore redshift con il flag --assessment, vengono estratte le seguenti tabelle e visualizzazioni aggiuntive:

  • SVV_DISKUSAGE
  • STV_MV_INFO
  • STV_WLM_SERVICE_CLASS_CONFIG
  • STV_WLM_SERVICE_CLASS_STATE

Quando utilizzi il connettore redshift-raw-logs, vengono estratte le seguenti tabelle e visualizzazioni:

  • STL_DDLTEXT
  • STL_QUERY
  • STL_QUERYTEXT
  • PG_USER

Quando utilizzi il connettore redshift-raw-logs con il flag --assessment, vengono estratte le seguenti tabelle e visualizzazioni aggiuntive:

  • STL_QUERY_METRICS
  • SVL_QUERY_QUEUE_INFO
  • STL_WLM_QUERY

Per informazioni sulle viste di sistema e sulle tabelle in Redshift, consulta Visualizzazioni di sistema Redshift e Tabelle del catalogo di sistema Redshift.

Apache Hive/Spark o Trino/PrestoSQL

Lo strumento dwh-migration-dumper supporta l'autenticazione sul metastore Apache Hive solo tramite Kerberos. Quindi i flag --user e --password non vengono utilizzati, usa invece il flag --hive-kerberos-url per fornire i dettagli dell'autenticazione Kerberos.

La seguente tabella descrive i flag di uso comune per l'estrazione di metadati Apache Hive, Spark, Presto o Trino mediante lo strumento di estrazione. Per informazioni su tutti i flag supportati, consulta l'articolo sui flag globali.

Nome Valore predefinito Description Obbligatorio
--assessment

Attiva la modalità di valutazione durante l'estrazione dei metadati. Lo strumento dwh-migration-dumper genera le statistiche di metadati richieste per la valutazione della migrazione di BigQuery quando viene utilizzato per l'estrazione dei metadati.

Obbligatorio per la valutazione. Non obbligatorio per la traduzione.
--connector Il nome del connettore da utilizzare, in questo caso hiveql.
--hive-metastore-dump-partition-metadata true

Consente allo strumento dwh-migration-dumper di estrarre i metadati della partizione. Ti consigliamo di impostare questo flag su false per il metastore di produzione con un numero significativo di partizioni, a causa delle implicazioni sulle prestazioni del client Thrift. Ciò migliora le prestazioni dello strumento di estrazione, ma causa una perdita di ottimizzazione delle partizioni sul lato BigQuery.

Non utilizzare questo flag con il flag --assessment, perché non avrà alcun effetto.

No
--hive-metastore-version 2.3.6

Quando esegui lo strumento dwh-migration-dumper, questo seleziona la specifica Thrift appropriata da utilizzare per la comunicazione con il tuo server Apache Hive, in base al valore di questo flag. Se lo strumento di estrazione non dispone di una specifica Thrift appropriata, utilizza il client 2.3.6 ed emette un avviso a stdout. In questo caso, contatta l'assistenza e fornisci il numero di versione di Apache Hive che hai richiesto.

No
--host localhost Il nome host o l'indirizzo IP del server di database. No
--port 9083 La porta del server del database. No
--hive-kerberos-url L'entità e l'host Kerberos da utilizzare per l'autenticazione. Obbligatorio per i cluster con l'autenticazione Kerberos abilitata.
-Dhiveql.rpc.protection

Il livello di configurazione della protezione RPC. Questo determina la connessione Quality of Protection (QOP) della connessione SASL (Simple Authentication and Security Layer) tra il cluster e lo strumento dwh-migration-dumper.

Deve essere uguale al valore del parametro hadoop.rpc.protection all'interno del file /etc/hadoop/conf/core-site.xml sul cluster, con uno dei seguenti valori:

  • authentication
  • integrity
  • privacy

Esempio (Bash):
-Dhiveql.rpc.protection=privacy

Esempio (Windows PowerShell):
"-Dhiveql.rpc.protection=privacy"

Obbligatorio per i cluster con l'autenticazione Kerberos abilitata.

Esempi

L'esempio seguente mostra come estrarre i metadati per un database Hive 2.3.7 su un host specificato, senza autenticazione e utilizzando una porta alternativa per la connessione:

dwh-migration-dumper \
  --connector hiveql \
  --hive-metastore-version 2.3.7 \
  --host host \
  --port port

Per utilizzare l'autenticazione Kerberos, accedi come utente con autorizzazioni di lettura per il metastore Hive e genera un ticket Kerberos. Quindi, genera il file ZIP dei metadati con il seguente comando:

JAVA_OPTS="-Djavax.security.auth.useSubjectCredsOnly=false" \
  dwh-migration-dumper \
  --connector hiveql \
  --host host \
  --port port \
  --hive-kerberos-url principal/kerberos_host

Azure Synapse o Microsoft SQL Server

Per consentire allo strumento dwh-migration-dumper di connettersi ad Azure Synapse o Microsoft SQL Server, scarica il suo driver JDBC dalla pagina di download di Microsoft.

La seguente tabella descrive i flag di uso comune per l'estrazione di metadati di Azure Synapse o Microsoft SQL Server mediante lo strumento di estrazione. Per informazioni su tutti i flag supportati, consulta l'articolo sui flag globali.

Nome Valore predefinito Description Obbligatorio
--connector Il nome del connettore da utilizzare, in questo caso sqlserver.
--database

Il nome del database a cui connettersi.

--driver Il percorso assoluto o relativo del file JAR del driver da utilizzare per questa connessione. Puoi specificare più file JAR del driver, separandoli con virgole.
--host localhost Il nome host o l'indirizzo IP del server di database. No
--password La password da utilizzare per la connessione al database.
--port 1433 La porta del server del database. No
--user Il nome utente da utilizzare per la connessione al database.

Esempi

L'esempio seguente mostra come estrarre i metadati da un database di Azure Synapse su un host specificato:

dwh-migration-dumper \
  --connector sqlserver \
  --database database \
  --driver path/mssql-jdbc.jar \
  --host server_name.sql.azuresynapse.net \
  --password password \
  --user user

Netezza

Per consentire allo strumento dwh-migration-dumper di connettersi a IBM Netezza, devi ottenere il relativo driver JDBC. In genere, puoi ottenere il driver dalla directory /nz/kit/sbin sul tuo host dell'appliance IBM Netezza. Se non riesci a trovarlo, chiedi assistenza all'amministratore di sistema oppure leggi Installazione e configurazione di JDBC nella documentazione di IBM Netezza.

La seguente tabella descrive i flag di uso comune per l'estrazione dei metadati IBM Netezza mediante lo strumento di estrazione. Per informazioni su tutti i flag supportati, consulta l'articolo sui flag globali.

Nome Valore predefinito Description Obbligatorio
--connector Il nome del connettore da utilizzare, in questo caso netezza.
--database

Un elenco dei database da estrarre, separati da virgole.

--driver Il percorso assoluto o relativo del file JAR del driver da utilizzare per questa connessione. Puoi specificare più file JAR del driver, separandoli con virgole.
--host localhost Il nome host o l'indirizzo IP del server di database. No
--password La password da utilizzare per la connessione al database.
--port 5480 La porta del server del database. No
--user Il nome utente da utilizzare per la connessione al database.

Esempi

L'esempio seguente mostra come estrarre i metadati per due database IBM Netezza su un host specificato:

dwh-migration-dumper \
  --connector netezza \
  --database database1,database2 \
  --driver path/nzjdbc.jar \
  --host host \
  --password password \
  --user user

Oracle

Per consentire allo strumento dwh-migration-dumper di connettersi a Oracle, scarica il driver JDBC dalla pagina di download di Oracle.

La seguente tabella descrive i flag di uso comune per l'estrazione dei metadati Oracle mediante lo strumento di estrazione. Per informazioni su tutti i flag supportati, consulta l'articolo sui flag globali.

Nome Valore predefinito Description Obbligatorio
--connector Il nome del connettore da utilizzare, in questo caso oracle.
--driver Il percorso assoluto o relativo del file JAR del driver da utilizzare per questa connessione. Puoi specificare più file JAR del driver, separandoli con virgole.
--host localhost Il nome host o l'indirizzo IP del server di database. No
--oracle-service

Il nome del servizio Oracle da utilizzare per la connessione.

Non esplicitamente, ma devi specificare questo flag o il flag --oracle-sid.
--oracle-sid

L'identificatore di sistema (SID) Oracle da utilizzare per la connessione.

Non esplicitamente, ma devi specificare questo flag o il flag --oracle-service.
--password La password da utilizzare per la connessione al database. Se non specificato, lo strumento di estrazione utilizza un prompt sicuro per richiederlo.
--port 1521 La porta del server del database. No
--user

Il nome utente da utilizzare per la connessione al database.

L'utente specificato deve avere il ruolo SELECT_CATALOG_ROLE per estrarre i metadati. Per verificare se l'utente dispone del ruolo richiesto, esegui la query select granted_role from user_role_privs; sul database Oracle.

Esempi

L'esempio seguente mostra come estrarre i metadati per un database Oracle su un host specificato utilizzando il servizio Oracle per la connessione:

dwh-migration-dumper \
  --connector oracle \
  --driver path/ojdbc8.jar \
  --host host \
  --oracle-service service_name \
  --password password \
  --user user

Snowflake

La seguente tabella descrive i flag di uso comune per l'estrazione dei metadati Snowflake mediante lo strumento dwh-migration-dumper. Per informazioni su tutti i flag supportati, consulta l'articolo sui flag globali.

Nome Valore predefinito Description Obbligatorio
--connector Il nome del connettore da utilizzare, in questo caso snowflake.
--database

Il nome del database a cui connettersi.

Puoi estrarre da un solo database alla volta da Snowflake.

--host localhost Il nome host o l'indirizzo IP del server di database. No
--password La password da utilizzare per la connessione al database. Se non specificato, lo strumento di estrazione utilizza un prompt sicuro per richiederlo.
--role Il ruolo Snowflake da utilizzare per l'autorizzazione. Devi specificarlo solo per le installazioni di grandi dimensioni in cui devi ottenere i metadati dallo schema SNOWFLAKE.ACCOUNT_USAGE anziché da INFORMATION_SCHEMA. Per maggiori informazioni, consulta Utilizzo di istanze Snowflake di grandi dimensioni. No
--user

Il nome utente da utilizzare per la connessione al database.

--warehouse

Il warehouse Snowflake da utilizzare per l'elaborazione delle query sui metadati.

Esempi

L'esempio seguente mostra come estrarre i metadati per un database Snowflake di dimensioni standard sull'host locale:

dwh-migration-dumper \
  --connector snowflake \
  --database database \
  --password password \
  --user user \
  --warehouse warehouse

L'esempio seguente mostra come estrarre i metadati per un database Snowflake di grandi dimensioni su un host specificato:

dwh-migration-dumper \
  --connector snowflake \
  --database database \
  --host "account.snowflakecomputing.com" \
  --password password \
  --role role \
  --user user \
  --warehouse warehouse

Utilizzo di istanze Snowflake di grandi dimensioni

Lo strumento dwh-migration-dumper legge i metadati da Snowflake INFORMATION_SCHEMA. Tuttavia, esiste un limite alla quantità di dati che puoi recuperare da INFORMATION_SCHEMA. Se esegui lo strumento di estrazione e ricevi l'errore SnowflakeSQLException: Information schema query returned too much data, devi svolgere i seguenti passaggi in modo da poter leggere i metadati dallo schema SNOWFLAKE.ACCOUNT_USAGE:

  1. Apri l'opzione Condivisioni nell'interfaccia web di Snowflake.
  2. Crea un database dalla condivisione SNOWFLAKE.ACCOUNT_USAGE:

    -- CREATE DATABASE database FROM SHARE SNOWFLAKE.ACCOUNT_USAGE;
    
  3. Crea un ruolo:

    CREATE ROLE role;
    
  4. Concedi i privilegi IMPORTED nel nuovo database al ruolo:

    GRANT IMPORTED PRIVILEGES ON DATABASE database TO ROLE role;
    
  5. Concedi il ruolo all'utente che intendi utilizzare per eseguire lo strumento dwh-migration-dumper:

    GRANT ROLE role TO USER user;
    

Vertica

Per consentire allo strumento dwh-migration-dumper di connettersi a Vertica, scarica il driver JDBC dalla relativa pagina di download.

La seguente tabella descrive i flag di uso comune per l'estrazione dei metadati Vertica mediante lo strumento di estrazione. Per informazioni su tutti i flag supportati, consulta l'articolo sui flag globali.

Nome Valore predefinito Description Obbligatorio
--connector Il nome del connettore da utilizzare, in questo caso vertica.
--database

Il nome del database a cui connettersi.

--driver Il percorso assoluto o relativo del file JAR del driver da utilizzare per questa connessione. Puoi specificare più file JAR del driver, separandoli con virgole.
--host localhost Il nome host o l'indirizzo IP del server di database. No
--password La password da utilizzare per la connessione al database.
--port 5433 La porta del server del database. No
--user Il nome utente da utilizzare per la connessione al database.

Esempi

L'esempio seguente mostra come estrarre i metadati da un database Vertica sull'host locale:

dwh-migration-dumper \
  --driver path/vertica-jdbc.jar \
  --connector vertica \
  --database database
  --user user
  --password password

Flag globali

La seguente tabella descrive i flag che possono essere utilizzati con qualsiasi piattaforma di origine supportata.

Nome Description
--connector Il nome del connettore per il sistema di origine.
--database L'utilizzo varia in base al sistema di origine.
--driver Il percorso assoluto o relativo del file JAR del driver da utilizzare per la connessione al sistema di origine. Puoi specificare più file JAR del driver, separandoli con virgole.
--dry-run o -n Mostra quali azioni eseguirebbe lo strumento di estrazione senza eseguirle.
--help Visualizza la guida della riga di comando.
--host Il nome host o l'indirizzo IP del server di database a cui connettersi.
--jdbcDriverClass Facoltativamente, esegue l'override del nome della classe del driver JDBC specificato dal fornitore. Utilizza questa opzione se hai un client JDBC personalizzato.
--output Il percorso del file ZIP di output. Ad esempio, dir1/dir2/teradata-metadata.zip. Se non specifichi un percorso, il file di output viene creato nella directory di lavoro. Se specifichi il percorso di una directory, nella directory specificata viene creato il nome del file ZIP predefinito. Se la directory non esiste, viene creata.

Per utilizzare Cloud Storage, usa il seguente formato:
gs://<BUCKET>/<PATH>

Per eseguire l'autenticazione utilizzando le credenziali di Google Cloud, consulta Autenticazione per l'utilizzo delle librerie client.

--password La password da utilizzare per la connessione al database.
--port La porta del server del database.
--save-response-file Salva i flag della riga di comando in un file JSON per riutilizzarli facilmente. Il file è denominato dumper-response-file.json e viene creato nella directory di lavoro. Per utilizzare il file di risposta, fornisci il relativo percorso preceduto da @ quando esegui lo strumento di estrazione, ad esempio dwh-migration-dumper @path/to/dumper-response-file.json.
--schema

Un elenco degli schemi da estrarre, separati da virgole.

Oracle non fa distinzione tra uno schema e l'utente del database che lo ha creato, quindi puoi utilizzare i nomi dello schema o i nomi utente con il flag --schema. Ad esempio, --schema schema1,user2,schema3.

--thread-pool-size

Imposta la dimensione del pool di thread, che influisce sulle dimensioni del pool di connessioni. La dimensione predefinita del pool di thread è il numero di core sul server che esegue lo strumento dwh-migration-dumper.

Se lo strumento di estrazione sembra lento o comunque necessita di più risorse, puoi aumentare il numero di thread utilizzati. Se è indicato che altri processi sul server richiedono una maggiore larghezza di banda, puoi ridurre il numero di thread utilizzati.

--url

L'URL da utilizzare per la connessione al database, anziché l'URI generato dal driver JDBC.

L'URI generato dovrebbe essere sufficiente nella maggior parte dei casi. Esegui l'override dell'URI generato solo se devi utilizzare un'impostazione di connessione JDBC specifica per la piattaforma di origine e che non è già impostata da uno dei flag elencati in questa tabella.

--user Il nome utente da utilizzare per la connessione al database.
--version Mostra la versione del prodotto.

Risoluzione dei problemi

Questa sezione illustra alcuni problemi comuni e tecniche per la risoluzione dei problemi relativi allo strumento dwh-migration-dumper.

Errore di memoria insufficiente

L'errore java.lang.OutOfMemoryError nell'output del terminale degli strumenti dwh-migration-dumper è spesso correlato a una memoria insufficiente per l'elaborazione dei dati recuperati. Per risolvere questo problema, aumenta la memoria disponibile o riduci il numero di thread in elaborazione.

Puoi aumentare la memoria massima esportando la variabile di ambiente JAVA_OPTS:

Linux

export JAVA_OPTS="-Xmx4G"

Windows

set JAVA_OPTS="-Xmx4G"

Puoi ridurre il numero di thread di elaborazione (il valore predefinito è 32) includendo il flag --thread-pool-size. Questa opzione è supportata solo per i connettori hiveql e redshift*.

dwh-migration-dumper --thread-pool-size=1

Gestione di un errore WARN...Task failed

A volte potresti visualizzare un errore WARN [main] o.c.a.d.MetadataDumper [MetadataDumper.java:107] Task failed: … nell'output del terminale dello strumento dwh-migration-dumper. Lo strumento di estrazione invia più query al sistema di origine e l'output di ogni query viene scritto nel proprio file. Questo problema indica che una di queste query non è riuscita. Tuttavia, l'errore di una query non impedisce l'esecuzione delle altre query. Se vengono visualizzati più di un paio di errori WARN, esamina i dettagli del problema e controlla se c'è qualcosa da correggere per far sì che la query venga eseguita correttamente. Ad esempio, se l'utente del database che hai specificato durante l'esecuzione dello strumento di estrazione non ha le autorizzazioni necessarie per leggere tutti i metadati, riprova con un utente che disponga delle autorizzazioni corrette.

File ZIP danneggiato

Per convalidare il file ZIP dello strumento dwh-migration-dumper, scarica il file SHA256SUMS.txt ed esegui questo comando:

sha256sum --check SHA256SUMS.txt

Il risultato di OK conferma la riuscita della verifica di checksum. Qualsiasi altro messaggio indica un errore di verifica:

  • FAILED: computed checksum did NOT match: il file ZIP è danneggiato e deve essere scaricato di nuovo.
  • FAILED: listed file could not be read: non è stato possibile individuare la versione del file ZIP. Assicurati che il checksum e i file ZIP siano stati scaricati dalla stessa versione di release e inseriti nella stessa directory.

L'estrazione dei log di query Teradata è lenta

Per migliorare le prestazioni dell'unione delle tabelle specificate dai flag -Dteradata-logs.query-logs-table e -Dteradata-logs.sql-logs-table, puoi includere una colonna aggiuntiva di tipo DATE nella condizione JOIN. Questa colonna deve essere definita in entrambe le tabelle e deve far parte dell'indice principale partizionato. Per includere questa colonna, utilizza il flag -Dteradata-logs.log-date-column.

Esempio:

Bash

dwh-migration-dumper \
  -Dteradata-logs.query-logs-table=historicdb.ArchivedQryLogV \
  -Dteradata-logs.sql-logs-table=historicdb.ArchivedDBQLSqlTbl \
  -Dteradata-logs.log-date-column=ArchiveLogDate

Windows PowerShell

dwh-migration-dumper `
  "-Dteradata-logs.query-logs-table=historicdb.ArchivedQryLogV" `
  "-Dteradata-logs.sql-logs-table=historicdb.ArchivedDBQLSqlTbl" `
  "-Dteradata-logs.log-date-column=ArchiveLogDate"

Limite di dimensione delle righe Teradata superato

Teradata 15 ha un limite di dimensione delle righe di 64 kB. Se il limite viene superato, il dumper restituisce un errore e viene visualizzato il seguente messaggio: none [Error 9804] [SQLState HY000] Response Row size or Constant Row size overflow

Per risolvere questo errore, estendi il limite di righe a 1 MB o suddividi le righe in più righe:

  • Installare e abilitare la funzionalità da 1 MB per le righe di perm e risposte e il software TTU corrente. Per maggiori informazioni, consulta il messaggio di database Teradata 9804.
  • Suddividi il testo lungo della query in più righe utilizzando i flag -Dteradata.metadata.max-text-length e -Dteradata-logs.max-sql-length.

Il seguente comando mostra l'utilizzo del flag -Dteradata.metadata.max-text-length per suddividere il testo della query lungo in più righe di massimo 10.000 caratteri ciascuna:

Bash

dwh-migration-dumper \
  --connector teradata \
  -Dteradata.metadata.max-text-length=10000

Windows PowerShell

dwh-migration-dumper `
  --connector teradata `
  "-Dteradata.metadata.max-text-length=10000"

Il seguente comando mostra l'utilizzo del flag -Dteradata-logs.max-sql-length per suddividere il testo della query lungo in più righe di massimo 10.000 caratteri ciascuna:

Bash

dwh-migration-dumper \
  --connector teradata-logs \
  -Dteradata-logs.max-sql-length=10000

Windows PowerShell

dwh-migration-dumper `
  --connector teradata-logs `
  "-Dteradata-logs.max-sql-length=10000"

Passaggi successivi

Dopo aver eseguito lo strumento dwh-migration-dumper, carica l'output in Cloud Storage insieme ai file di origine per la traduzione.