Valutazione della migrazione

La valutazione della migrazione a BigQuery ti consente di pianificare e rivedere la migrazione del tuo data warehouse esistente in BigQuery. Puoi eseguire la valutazione della migrazione a BigQuery per generare un report che ti consenta di valutare il costo di archiviazione dei dati in BigQuery, di capire in che modo BigQuery può ottimizzare il tuo carico di lavoro esistente per risparmiare sui costi e di preparare un piano di migrazione che illustri il tempo e lo sforzo necessari per completare la migrazione del data warehouse a BigQuery.

Questo documento descrive come utilizzare la valutazione della migrazione di BigQuery e i diversi modi in cui puoi esaminare i risultati della valutazione. Questo documento è rivolto agli utenti che hanno familiarità con la console Google Cloud e il traduttore SQL batch.

Prima di iniziare

Per preparare ed eseguire una valutazione della migrazione di BigQuery:

  1. Crea un bucket Cloud Storage.

  2. Estrai i metadati e i log delle query dal tuo data warehouse utilizzando lo strumentodwh-migration-dumper.

  3. Carica i metadati e i log delle query nel bucket Cloud Storage.

  4. Esegui la valutazione della migrazione.

  5. Esamina il report di Looker Studio.

  6. (Facoltativo) Esegui query sui risultati della valutazione per trovare informazioni dettagliate o specifiche sulla valutazione.

Estrarre metadati e log delle query dal data warehouse

Sia i metadati che i log delle query sono necessari per preparare la valutazione con i consigli.

Per estrarre i metadati e i log delle query necessari per eseguire la valutazione, seleziona il tuo data warehouse:

Teradata

Requisiti

  • Un computer collegato al data warehouse Teradata di origine (sono supportati Teradata 15 e versioni successive)
  • Un account Google Cloud con un bucket Cloud Storage per archiviare i dati
  • Un set di dati BigQuery vuoto per archiviare i risultati
  • Autorizzazioni di lettura sul set di dati per visualizzare i risultati
  • Consigliato: diritti di accesso a livello di amministratore al database di origine quando utilizzi lo strumento di estrazione per accedere alle tabelle di sistema

Requisito: abilita il logging

Lo strumento dwh-migration-dumper estrae tre tipi di log: log delle query, log delle utilità e log sull'utilizzo delle risorse. Per visualizzare approfondimenti più approfonditi, devi attivare il logging per i seguenti tipi di log:

Esegui lo strumento dwh-migration-dumper

Scarica lo strumento dwh-migration-dumper.

Scarica il file SHA256SUMS.txt ed esegui il seguente comando per verificare la correttezza del file ZIP:

Bash

sha256sum --check SHA256SUMS.txt

Windows PowerShell

(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]

Sostituisci RELEASE_ZIP_FILENAME con il nome del file ZIP scaricato della release dello strumento di estrazione a riga di comando dwh-migration-dumper, ad esempio dwh-migration-tools-v1.0.52.zip

Il risultato True conferma la verifica del checksum.

Il risultato False indica un errore di verifica. Assicurati che il checksum e i file ZIP vengano scaricati dalla stessa versione della release e collocati nella stessa directory.

Per informazioni dettagliate su come configurare e utilizzare lo strumento di estrazione, consulta Generare metadati per la traduzione e la valutazione.

Utilizza lo strumento di estrazione per estrarre log e metadati dal data warehouse Teradata come due file ZIP. Esegui i seguenti comandi su una macchina con accesso al data warehouse di origine per generare i file.

Genera il file ZIP dei metadati:

dwh-migration-dumper \
  --connector teradata \
  --database DATABASES \
  --driver path/terajdbc4.jar \
  --host HOST \
  --assessment \
  --user USER \
  --password PASSWORD

Genera il file ZIP contenente i log delle query:

dwh-migration-dumper \
  --connector teradata-logs \
  --driver path/terajdbc4.jar \
  --host HOST \
  --assessment \
  --user USER \
  --password PASSWORD

Sostituisci quanto segue:

  • DATABASES: l'elenco separato da virgole dei nomi dei database da estrarre
  • PATH: il percorso assoluto o relativo del file JAR del driver da utilizzare per questa connessione
  • VERSION: la versione del driver
  • HOST: l'indirizzo host
  • USER: il nome utente da utilizzare per la connessione al database
  • PASSWORD: la password da utilizzare per la connessione al database

    Se viene lasciato vuoto, all'utente viene chiesta la password.

Puoi utilizzare il flag --database solo per il connettore teradata. Questo flag consente di estrarre i metadati di uno o più database. Quando estrai i log delle query utilizzando il connettore teradata-logs, il flag --database non è disponibile. I log delle query vengono sempre estratti per tutti i database.

Per impostazione predefinita, i log delle query vengono estratti dalla visualizzazione dbc.QryLogV e dalla tabella dbc.DBQLSqlTbl. Se devi estrarre i log delle query da una posizione alternativa, puoi specificare i nomi delle tabelle o delle visualizzazioni utilizzando i flag -Dteradata-logs.query-logs-table e -Dteradata-logs.sql-logs-table.

Per impostazione predefinita, i log di utilità vengono estratti dalla tabelladbc.DBQLUtilityTbl. Se devi estrarre i log di utilità da una posizione alternativa, puoi specificare il nome della tabella utilizzando il flag -Dteradata-logs.utility-logs-table.

Per impostazione predefinita, i log di utilizzo delle risorse vengono estratti dalle tabelledbc.ResUsageScpu e dbc.ResUsageSpma. Se devi estrarre i log di utilizzo delle risorse da una posizione alternativa, puoi specificare i nomi delle tabelle utilizzando i flag -Dteradata-logs.res-usage-scpu-table e -Dteradata-logs.res-usage-spma-table.

Ad esempio:

Bash

dwh-migration-dumper \
  --connector teradata-logs \
  --driver path/terajdbc4.jar \
  --host HOST \
  --assessment \
  --user USER \
  --password PASSWORD \
  -Dteradata-logs.query-logs-table=pdcrdata.QryLogV_hst \
  -Dteradata-logs.sql-logs-table=pdcrdata.DBQLSqlTbl_hst \
  -Dteradata-logs.log-date-column=LogDate \
  -Dteradata-logs.utility-logs-table=pdcrdata.DBQLUtilityTbl_hst \
  -Dteradata-logs.res-usage-scpu-table=pdcrdata.ResUsageScpu_hst \
  -Dteradata-logs.res-usage-spma-table=pdcrdata.ResUsageSpma_hst

Windows PowerShell

dwh-migration-dumper `
  --connector teradata-logs `
  --driver path\terajdbc4.jar `
  --host HOST `
  --assessment `
  --user USER `
  --password PASSWORD `
  "-Dteradata-logs.query-logs-table=pdcrdata.QryLogV_hst" `
  "-Dteradata-logs.sql-logs-table=pdcrdata.DBQLSqlTbl_hst" `
  "-Dteradata-logs.log-date-column=LogDate" `
  "-Dteradata-logs.utility-logs-table=pdcrdata.DBQLUtilityTbl_hst" `
  "-Dteradata-logs.res-usage-scpu-table=pdcrdata.ResUsageScpu_hst" `
  "-Dteradata-logs.res-usage-spma-table=pdcrdata.ResUsageSpma_hst"

Per impostazione predefinita, lo strumento dwh-migration-dumper estrae i log delle query degli ultimi sette giorni. Google consiglia di fornire almeno due settimane di log delle query per poter visualizzare informazioni più approfondite. Puoi specificare un intervallo di tempo personalizzato utilizzando i flag --query-log-start e --query-log-end. Ad esempio:

dwh-migration-dumper \
  --connector teradata-logs \
  --driver path/terajdbc4.jar \
  --host HOST \
  --assessment \
  --user USER \
  --password PASSWORD \
  --query-log-start "2023-01-01 00:00:00" \
  --query-log-end "2023-01-15 00:00:00"

Puoi anche generare più file ZIP contenenti log delle query che coprono periodi diversi e fornirli tutti per la valutazione.

Amazon Redshift

Requisiti

  • Un computer collegato al data warehouse Amazon Redshift di origine
  • Un account Google Cloud con un bucket Cloud Storage per archiviare i dati
  • Un set di dati BigQuery vuoto per archiviare i risultati
  • Autorizzazioni di lettura sul set di dati per visualizzare i risultati
  • Consigliato: accesso superutente al database quando si utilizza lo strumento di estrazione per accedere alle tabelle di sistema

Esegui lo strumento dwh-migration-dumper

Scarica lo strumento di estrazione a riga di comando dwh-migration-dumper.

Scarica il file SHA256SUMS.txt ed esegui il seguente comando per verificare la correttezza del file ZIP:

Bash

sha256sum --check SHA256SUMS.txt

Windows PowerShell

(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]

Sostituisci RELEASE_ZIP_FILENAME con il nome del file ZIP scaricato della release dello strumento di estrazione a riga di comando dwh-migration-dumper, ad esempio dwh-migration-tools-v1.0.52.zip

Il risultato True conferma la verifica del checksum.

Il risultato False indica un errore di verifica. Assicurati che il checksum e i file ZIP vengano scaricati dalla stessa versione della release e collocati nella stessa directory.

Per informazioni dettagliate su come utilizzare lo strumento dwh-migration-dumper, consulta la pagina Genera metadati.

Utilizza lo strumento dwh-migration-dumper per estrarre log e metadati dal data warehouse Amazon Redshift come due file ZIP. Esegui i seguenti comandi su una macchina con accesso al data warehouse di origine per generare i file.

Genera il file ZIP dei metadati:

dwh-migration-dumper \
  --connector redshift \
  --database DATABASE \
  --driver PATH/redshift-jdbc42-VERSION.jar \
  --host host.region.redshift.amazonaws.com \
  --assessment \
  --user USER \
  --iam-profile IAM_PROFILE_NAME

Genera il file ZIP contenente i log delle query:

dwh-migration-dumper \
  --connector redshift-raw-logs \
  --database DATABASE \
  --driver PATH/redshift-jdbc42-VERSION.jar \
  --host host.region.redshift.amazonaws.com \
  --assessment \
  --user USER \
  --iam-profile IAM_PROFILE_NAME

Sostituisci quanto segue:

  • DATABASE: il nome del database a cui connetterti
  • PATH: il percorso assoluto o relativo del file JAR del driver da utilizzare per questa connessione
  • VERSION: la versione del driver
  • USER: il nome utente da utilizzare per la connessione al database
  • IAM_PROFILE_NAME: il nome del profilo IAM di Amazon Redshift. Obbligatorio per l'autenticazione di Amazon Redshift e per l'accesso all'API AWS. Per ottenere la descrizione dei cluster Amazon Redshift, utilizza l'API AWS.

Per impostazione predefinita, Amazon Redshift memorizza da tre a cinque giorni di log delle query.

Per impostazione predefinita, lo strumento dwh-migration-dumper estrae i log delle query degli ultimi sette giorni.

Google consiglia di fornire almeno due settimane di log delle query per poter visualizzare informazioni più approfondite. Per ottenere i risultati migliori, potresti dover eseguire lo strumento di estrazione alcune volte nel corso di due settimane. Puoi specificare un intervallo personalizzato utilizzando i flag --query-log-start e --query-log-end. Ad esempio:

dwh-migration-dumper \
  --connector redshift-raw-logs \
  --database DATABASE \
  --driver PATH/redshift-jdbc42-VERSION.jar \
  --host host.region.redshift.amazonaws.com \
  --assessment \
  --user USER \
  --iam-profile IAM_PROFILE_NAME \
  --query-log-start "2023-01-01 00:00:00" \
  --query-log-end "2023-01-02 00:00:00"

Puoi anche generare più file ZIP contenenti log delle query che coprono periodi diversi e fornirli tutti per la valutazione.

Apache Hive

Requisiti

  • Un computer collegato al data warehouse Apache Hive di origine (la valutazione della migrazione di BigQuery supporta Hive su Tez e MapReduce e le versioni di Apache Hive tra 2.2 e 3.1, inclusive)
  • Un account Google Cloud con un bucket Cloud Storage per archiviare i dati
  • Un set di dati BigQuery vuoto per archiviare i risultati
  • Autorizzazioni di lettura sul set di dati per visualizzare i risultati
  • Accedi al data warehouse Apache Hive di origine per configurare l'estrazione dei log delle query
  • Statistiche aggiornate su tabelle, partizioni e colonne

La valutazione della migrazione a BigQuery utilizza le statistiche di tabelle, partizioni e colonne per comprendere meglio il data warehouse Apache Hive e fornire approfondimenti approfonditi. Se l'impostazione di configurazione hive.stats.autogather è impostata su false nel data warehouse Apache Hive di origine, Google consiglia di attivarla o aggiornare le statistiche manualmente prima di eseguire lo strumento dwh-migration-dumper.

Esegui lo strumento dwh-migration-dumper

Scarica lo strumento di estrazione a riga di comando dwh-migration-dumper.

Scarica il file SHA256SUMS.txt ed esegui il seguente comando per verificare la correttezza del file ZIP:

Bash

sha256sum --check SHA256SUMS.txt

Windows PowerShell

(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]

Sostituisci RELEASE_ZIP_FILENAME con il nome del file ZIP scaricato della release dello strumento di estrazione a riga di comando dwh-migration-dumper, ad esempio dwh-migration-tools-v1.0.52.zip

Il risultato True conferma la verifica del checksum.

Il risultato False indica un errore di verifica. Assicurati che il checksum e i file ZIP vengano scaricati dalla stessa versione della release e collocati nella stessa directory.

Per informazioni dettagliate su come utilizzare lo strumento dwh-migration-dumper, consulta Generare metadati per la traduzione e la valutazione.

Utilizza lo strumento dwh-migration-dumper per generare i metadati dal data warehouse Hive come file ZIP.

Senza autenticazione

Per generare il file ZIP dei metadati, esegui il seguente comando su una macchina con accesso al data warehouse di origine:

dwh-migration-dumper \
  --connector hiveql \
  --database DATABASES \
  --host hive.cluster.host \
  --port 9083 \
  --assessment

Con autenticazione Kerberos

Per autenticarti al metastore, accedi come utente che ha accesso al metastore Hive e genera un ticket Kerberos. Quindi, genera il file ZIP dei metadati con il seguente comando:

JAVA_OPTS="-Djavax.security.auth.useSubjectCredsOnly=false" \
  dwh-migration-dumper \
  --connector hiveql \
  --database DATABASES \
  --host hive.cluster.host \
  --port 9083 \
  --hive-kerberos-url PRINCIPAL/HOST \
  -Dhiveql.rpc.protection=hadoop.rpc.protection \
  --assessment

Sostituisci quanto segue:

  • DATABASES: l'elenco separato da virgole dei nomi dei database da estrarre. Se non viene fornito, vengono estratti tutti i database.
  • PRINCIPAL: l'entità Kerberos a cui viene emesso il ticket
  • HOST: il nome host Kerberos a cui è stato emesso il ticket
  • hadoop.rpc.protection: la qualità della protezione (QOP) del livello di configurazione del protocollo SASL (Simple Authentication and Security Layer), uguale al valore del parametro hadoop.rpc.protection all'interno del file /etc/hadoop/conf/core-site.xml, con uno dei seguenti valori:
    • authentication
    • integrity
    • privacy

Estrai i log delle query con l'hook di logging hadoop-migration-assessment

Per estrarre i log delle query:

  1. Carica il hook di logging hadoop-migration-assessment.
  2. Configura le proprietà degli hook di log.
  3. Verifica il hook di logging.

Carica il hook di logging hadoop-migration-assessment

  1. Scarica il hook per i log di estrazione dei log delle query hadoop-migration-assessment che contiene il file JAR dell'hook per i log di Hive.

  2. Estrai il file JAR.

    Se devi eseguire la verifica dello strumento per assicurarti che soddisfi i requisiti di conformità, esamina il codice sorgente del repository GitHub dell'hook di logging hadoop-migration-assessment e compila il tuo file binario.

  3. Copia il file JAR nella cartella della libreria ausiliaria su tutti i cluster in cui prevedi di attivare il logging delle query. A seconda del fornitore, devi individuare la cartella della libreria ausiliaria nelle impostazioni del cluster e trasferire il file JAR nella cartella della libreria ausiliaria sul cluster Hive.

  4. Configura le proprietà di configurazione per l'hook di logging hadoop-migration-assessment. A seconda del fornitore di Hadoop, devi utilizzare la console dell'interfaccia utente per modificare le impostazioni del cluster. Modifica il file /etc/hive/conf/hive-site.xml o applica la configurazione con Configuration Manager.

Configura le proprietà

Se hai già altri valori per le seguenti chiavi di configurazione, aggiungi le impostazioni utilizzando una virgola (,). Per configurare l'hook di logging hadoop-migration-assessment, sono necessarie le seguenti impostazioni di configurazione:

  • hive.exec.failure.hooks: com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
  • hive.exec.post.hooks: com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
  • hive.exec.pre.hooks: com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
  • hive.aux.jars.path: includi il percorso del file JAR dell'hook di logging, ad esempio file:///HiveMigrationAssessmentQueryLogsHooks_deploy.jar.
  • dwhassessment.hook.base-directory: percorso della cartella di output dei log delle query. Ad esempio, hdfs://tmp/logs/.
  • Puoi anche impostare le seguenti configurazioni facoltative:

    • dwhassessment.hook.queue.capacity: la capacità della coda per i thread di registrazione degli eventi di query. Il valore predefinito è 64.
    • dwhassessment.hook.rollover-interval: la frequenza con cui deve essere eseguito il rollover del file. Ad esempio, 600s. Il valore predefinito è 3600 secondi (1 ora).
    • dwhassessment.hook.rollover-eligibility-check-interval: la frequenza con cui viene attivato il controllo dell'idoneità al rollover dei file in background. Ad esempio, 600s. Il valore predefinito è 600 secondi (10 minuti).

Verifica il hook di logging

Dopo aver riavviato il processo hive-server2, esegui una query di test e analizza i log di debug. Viene visualizzato il seguente messaggio:

Logger successfully started, waiting for query events. Log directory is '[dwhassessment.hook.base-directory value]'; rollover interval is '60' minutes;
rollover eligibility check is '10' minutes

L'hook di logging crea una sottocartella suddivisa per data nella cartella configurata. Il file Avro con gli eventi di query viene visualizzato in questa cartella dopo l'intervallo dwhassessment.hook.rollover-interval o la terminazione del processo hive-server2. Puoi cercare messaggi simili nei log di debug per visualizzare lo stato dell'operazione di rollover:

Updated rollover time for logger ID 'my_logger_id' to '2023-12-25T10:15:30'
Performed rollover check for logger ID 'my_logger_id'. Expected rollover time
is '2023-12-25T10:15:30'

Il rollover avviene a intervalli specificati o quando cambia il giorno. Quando la data cambia, il hook di logging crea anche una nuova sottocartella per quella data.

Google consiglia di fornire almeno due settimane di log delle query per poter visualizzare informazioni più approfondite.

Puoi anche generare cartelle contenenti log delle query da diversi cluster Hive e fornirli tutti per una singola valutazione.

Snowflake

Requisiti

Per estrarre i metadati e gli log delle query da Snowflake, devi soddisfare i seguenti requisiti:

  • Una macchina che può connettersi alle tue istanze Snowflake.
  • Un account Google Cloud con un bucket Cloud Storage per archiviare i dati.
  • Un set di dati BigQuery vuoto per archiviare i risultati. In alternativa, puoi creare un set di dati BigQuery quando crei il job di valutazione utilizzando l'interfaccia utente della console Google Cloud.
  • Avere accesso al ruolo ACCOUNTADMIN per la tua istanza Snowflake o essere in possesso di un ruolo con i privilegi IMPORTED PRIVILEGES sul database Snowflake da parte di un amministratore dell'account.

Esegui lo strumento dwh-migration-dumper

Scarica lo strumento di estrazione a riga di comando dwh-migration-dumper.

Scarica il file SHA256SUMS.txt ed esegui il seguente comando per verificare la correttezza del file ZIP:

Bash

sha256sum --check SHA256SUMS.txt

Windows PowerShell

(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]

Sostituisci RELEASE_ZIP_FILENAME con il nome del file ZIP scaricato della release dello strumento di estrazione a riga di comando dwh-migration-dumper, ad esempio dwh-migration-tools-v1.0.52.zip

Il risultato True conferma la verifica del checksum.

Il risultato False indica un errore di verifica. Assicurati che il checksum e i file ZIP vengano scaricati dalla stessa versione della release e collocati nella stessa directory.

Per informazioni dettagliate su come utilizzare lo strumento dwh-migration-dumper, consulta la pagina Genera metadati.

Utilizza lo strumento dwh-migration-dumper per estrarre log e metadati dal data warehouse Snowflake sotto forma di due file ZIP. Esegui i seguenti comandi su una macchina con accesso al data warehouse di origine per generare i file.

Genera il file ZIP dei metadati:

dwh-migration-dumper \
  --connector snowflake \
  --host HOST_NAME \
  --database SNOWFLAKE \
  --user USER_NAME \
  --role ROLE_NAME \
  --warehouse WAREHOUSE \
  --assessment \
  --password PASSWORD

Genera il file ZIP contenente i log delle query:

dwh-migration-dumper \
  --connector snowflake-logs \
  --host HOST_NAME \
  --database SNOWFLAKE \
  --user USER_NAME \
  --role ROLE_NAME \
  --warehouse WAREHOUSE \
  --query-log-start STARTING_DATE \
  --query-log-end ENDING_DATE \
  --assessment \
  --password PASSWORD

Sostituisci quanto segue:

  • HOST_NAME: il nome host della tua istanza Snowflake.
  • USER_NAME: il nome utente da utilizzare per la connessione al database, in cui l'utente deve disporre delle autorizzazioni di accesso descritte nella sezione dei requisiti.
  • ROLE_NAME: (Facoltativo) il ruolo utente durante l'esecuzione dello strumentodwh-migration-dumper, ad esempio ACCOUNTADMIN.
  • WAREHOUSE: il magazzino utilizzato per eseguire le operazioni di dumping. Se hai più magazzini virtuali, puoi specificare un magazzino qualsiasi per eseguire questa query. L'esecuzione di questa query con le autorizzazioni di accesso descritte nella sezione dei requisiti consente di estrarre tutti gli elementi del magazzino in questo account.
  • STARTING_DATE: (Facoltativo) utilizzato per indicare la data di inizio in un intervallo di date dei log delle query, scritta nel formato YYYY-MM-DD.
  • ENDING_DATE: (facoltativo) utilizzato per indicare la data di fine in un intervallo di date dei log delle query, scritta nel formato YYYY-MM-DD.

Puoi anche generare più file ZIP contenenti log delle query che coprono periodi non sovrapposti e fornirli tutti per la valutazione.

Oracle

Per richiedere feedback o assistenza per questa funzionalità, invia un'email all'indirizzo bq-edw-migration-support@google.com.

Requisiti

Per estrarre i metadati e gli log delle query da Oracle, devi soddisfare i seguenti requisiti:

  • Una macchina che può connettersi alle tue istanze Oracle.
  • Java 8 o versioni successive.
  • Un account Google Cloud con un bucket Cloud Storage per archiviare i dati.
  • Un set di dati BigQuery vuoto per archiviare i risultati. In alternativa, puoi creare un set di dati BigQuery quando crei il job di valutazione utilizzando l'interfaccia utente della console Google Cloud.
  • Un utente comune Oracle con privilegi SYSDBA.

Esegui lo strumento dwh-migration-dumper

Scarica lo strumento di estrazione a riga di comando dwh-migration-dumper.

Scarica il file SHA256SUMS.txt esegui il seguente comando per verificare la correttezza del file ZIP:

sha256sum --check SHA256SUMS.txt

Per informazioni dettagliate su come utilizzare lo strumento dwh-migration-dumper, consulta la pagina Genera metadati.

Utilizza lo strumento dwh-migration-dumper per estrarre i metadati e le statistiche sul rendimento nel file ZIP. Per impostazione predefinita, le statistiche vengono estratte dall'AWR di Oracle che richiede il pacchetto Oracle Tuning and Diagnostics. Se questi dati non sono disponibili, dwh-migration-dumper utilizza STATSPACK.

Per i database multi-tenant, lo strumento dwh-migration-dumper deve essere eseguito nel contenitore principale. Se lo esegui in uno dei database collegabili, mancano le statistiche sul rendimento e i metadati relativi ad altri database collegabili.

Genera il file ZIP dei metadati:

dwh-migration-dumper \
  --connector oracle-stats \
  --host HOST_NAME \
  --port PORT \
  --oracle-service SERVICE_NAME \
  --assessment \
  --driver JDBC_DRIVER_PATH \
  --user USER_NAME \
  --password

Sostituisci quanto segue:

  • HOST_NAME: il nome host della tua istanza Oracle.
  • PORT: il numero della porta di connessione. Il valore predefinito è 1521.
  • SERVICE_NAME: il nome del servizio Oracle da utilizzare per la connessione.
  • JDBC_DRIVER_PATH: il percorso assoluto o relativo al file JAR del driver. Puoi scaricare questo file dalla pagina Download del driver JDBC di Oracle. Devi selezionare la versione del driver compatibile con la versione del database.
  • USER_NAME: nome dell'utente utilizzato per connettersi alla tua istanza Oracle. L'utente deve disporre delle autorizzazioni di accesso come dettagliato nella sezione dei requisiti.

Carica i metadati e i log delle query su Cloud Storage

Dopo aver estratto i metadati e i log delle query dal data warehouse, puoi caricare i file in un bucket Cloud Storage per procedere con la valutazione della migrazione.

Teradata

Carica i metadati e uno o più file ZIP contenenti i log delle query nel tuo bucket Cloud Storage. Per saperne di più sulla creazione di bucket e sul caricamento di file in Cloud Storage, consulta Creare bucket e Caricare oggetti da un file system. Il limite per le dimensioni totali non compresse di tutti i file all'interno del file ZIP dei metadati è 50 GB.

Le voci di tutti i file ZIP contenenti i log delle query sono suddivise come segue:

  • File della cronologia delle query con il prefisso query_history_.
  • File delle serie temporali con i prefissi utility_logs_, dbc.ResUsageScpu_ e dbc.ResUsageSpma_.

Il limite per le dimensioni totali non compresse di tutti i file della cronologia delle query è di 5 TB. Il limite per le dimensioni totali non compresse di tutti i file delle serie temporali è di 1 TB.

Se i log delle query vengono archiviati in un altro database, consulta la descrizione degli indicatori -Dteradata-logs.query-logs-table e -Dteradata-logs.sql-logs-table all'inizio di questa sezione, che spiega come fornire una posizione alternativa per i log delle query.

Amazon Redshift

Carica i metadati e uno o più file ZIP contenenti i log delle query nel tuo bucket Cloud Storage. Per saperne di più sulla creazione di bucket e sul caricamento di file in Cloud Storage, consulta Creare bucket e Caricare oggetti da un file system. Il limite per le dimensioni totali non compresse di tutti i file all'interno del file ZIP dei metadati è 50 GB.

Le voci di tutti i file ZIP contenenti i log delle query sono suddivise come segue:

  • File della cronologia delle query con i prefissi querytext_ e ddltext_.
  • File delle serie temporali con i prefissi query_queue_info_, wlm_query_ e querymetrics_.

Il limite per le dimensioni totali non compresse di tutti i file della cronologia delle query è di 5 TB. Il limite per le dimensioni totali non compresse di tutti i file delle serie temporali è di 1 TB.

Apache Hive

Carica i metadati e le cartelle contenenti i log delle query da uno o più cluster Hive nel tuo bucket Cloud Storage. Per ulteriori informazioni sulla creazione di bucket e sul caricamento di file su Cloud Storage, consulta Creare bucket e Caricare oggetti da un file system.

Il limite per le dimensioni totali non compresse di tutti i file all'interno del file ZIP dei metadati è 50 GB.

Puoi utilizzare il connettore Cloud Storage per copiare i log delle query direttamente nella cartella Cloud Storage. Le cartelle contenenti sottocartelle con log delle query devono essere caricate nella stessa cartella Cloud Storage in cui viene caricato il file ZIP dei metadati.

Le cartelle dei log delle query contengono file della cronologia delle query con il prefisso dwhassessment_. Il limite per le dimensioni totali non compresse di tutti i file della cronologia delle query è 5 TB.

Snowflake

Carica i metadati e i file ZIP contenenti i log delle query e le cronologie di utilizzo nel tuo bucket Cloud Storage. Quando carichi questi file su Cloud Storage, devono essere soddisfatti i seguenti requisiti:

  • Le dimensioni totali non compresse di tutti i file all'interno del file ZIP dei metadati devono essere inferiori a 50 GB.
  • Il file ZIP dei metadati e il file ZIP contenente i log delle query devono essere caricati in una cartella Cloud Storage. Se hai più file ZIP contenenti log delle query non sovrapposti, puoi caricarli tutti.
  • Devi caricare tutti i file nella stessa cartella Cloud Storage.
  • Devi caricare tutti i file ZIP dei metadati e dei log delle query esattamente come vengono generati dallo strumento dwh-migration-dumper. Non decomprimerli, combinarli o modificarli in altro modo.
  • Le dimensioni totali non compresse di tutti i file della cronologia delle query devono essere inferiori a 5 TB.

Per ulteriori informazioni sulla creazione di bucket e sul caricamento di file su Cloud Storage, consulta Creare bucket e Caricare oggetti da un file system.

Oracle

Per richiedere feedback o assistenza per questa funzionalità, invia un'email all'indirizzo bq-edw-migration-support@google.com.

Carica il file ZIP contenente i metadati e le statistiche sulle prestazioni in un bucket Cloud Storage. Per impostazione predefinita, il nome del file ZIP è dwh-migration-oracle-stats.zip, ma puoi personalizzarlo specificandolo nel flag --output. Il limite per le dimensioni totali non compresse di tutti i file all'interno del file ZIP è 50 GB.

Per ulteriori informazioni sulla creazione di bucket e sul caricamento di file su Cloud Storage, consulta Creare bucket e Caricare oggetti da un file system.

Esegui una valutazione della migrazione di BigQuery

Segui questi passaggi per eseguire la valutazione della migrazione di BigQuery. Questi passaggi presuppongono che tu abbia caricato i file di metadati in un bucket Cloud Storage, come descritto nella sezione precedente.

Autorizzazioni obbligatorie

Per attivare BigQuery Migration Service, sono necessarie le seguenti autorizzazioni Identity and Access Management (IAM):

  • resourcemanager.projects.get
  • resourcemanager.projects.update
  • serviceusage.services.enable
  • serviceusage.services.get

Per accedere e utilizzare BigQuery Migration Service, devi disporre delle seguenti autorizzazioni sul progetto:

  • bigquerymigration.workflows.create
  • bigquerymigration.workflows.get
  • bigquerymigration.workflows.list
  • bigquerymigration.workflows.delete
  • bigquerymigration.subtasks.get
  • bigquerymigration.subtasks.list

Per eseguire BigQuery Migration Service, sono necessarie le seguenti autorizzazioni aggiuntive.

  • Autorizzazione ad accedere ai bucket Cloud Storage per i file di input e di output:

    • storage.objects.get nel bucket Cloud Storage di origine
    • storage.objects.list nel bucket Cloud Storage di origine
    • storage.objects.create nel bucket Cloud Storage di destinazione
    • storage.objects.delete nel bucket Cloud Storage di destinazione
    • storage.objects.update nel bucket Cloud Storage di destinazione
    • storage.buckets.get
    • storage.buckets.list
  • L'autorizzazione per leggere e aggiornare il set di dati BigQuery in cui BigQuery Migration Service scrive i risultati:

    • bigquery.datasets.update
    • bigquery.datasets.get
    • bigquery.datasets.create
    • bigquery.datasets.delete
    • bigquery.jobs.create
    • bigquery.jobs.delete
    • bigquery.jobs.list
    • bigquery.jobs.update
    • bigquery.tables.create
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.tables.list
    • bigquery.tables.updateData

Per condividere il report di Looker Studio con un utente, devi concedere i seguenti ruoli:

  • roles/bigquery.dataViewer
  • roles/bigquery.jobUser

Per personalizzare questo documento in modo da utilizzare il tuo progetto e il tuo utente nei comandi, modifica queste variabili: PROJECT, USER_EMAIL.

Crea un ruolo personalizzato con le autorizzazioni necessarie per utilizzare la valutazione della migrazione di BigQuery:

gcloud iam roles create BQMSrole \
  --project=PROJECT \
  --title=BQMSrole \
  --permissions=bigquerymigration.subtasks.get,bigquerymigration.subtasks.list,bigquerymigration.workflows.create,bigquerymigration.workflows.get,bigquerymigration.workflows.list,bigquerymigration.workflows.delete,resourcemanager.projects.update,resourcemanager.projects.get,serviceusage.services.enable,serviceusage.services.get,storage.objects.get,storage.objects.list,storage.objects.create,storage.objects.delete,storage.objects.update,bigquery.datasets.get,bigquery.datasets.update,bigquery.datasets.create,bigquery.datasets.delete,bigquery.tables.get,bigquery.tables.create,bigquery.tables.updateData,bigquery.tables.getData,bigquery.tables.list,bigquery.jobs.create,bigquery.jobs.update,bigquery.jobs.list,bigquery.jobs.delete,storage.buckets.list,storage.buckets.get

Concedi il ruolo personalizzato BQMSrole a un utente:

gcloud projects add-iam-policy-binding \
  PROJECT \
  --member=user:USER_EMAIL \
  --role=projects/PROJECT/roles/BQMSrole

Concedi i ruoli richiesti a un utente con cui vuoi condividere il report:

gcloud projects add-iam-policy-binding \
  PROJECT \
  --member=user:USER_EMAIL \
  --role=roles/bigquery.dataViewer

gcloud projects add-iam-policy-binding \
  PROJECT \
  --member=user:USER_EMAIL \
  --role=roles/bigquery.jobUser

Località supportate

La funzionalità di valutazione della migrazione di BigQuery è supportata in due tipi di località:

  • Una regione è un luogo geografico ben preciso, come Londra.

  • Per più regioni si intende una vasta area geografica, come gli Stati Uniti, che contiene due o più regioni. Le località multiregione possono fornire quote più elevate rispetto alle singole regioni.

Per saperne di più su regioni e zone, consulta Geografia e regioni.

Regioni

La tabella seguente elenca le regioni delle Americhe in cui è disponibile la valutazione della migrazione di BigQuery.
Descrizione della regione Nome della regione Dettagli
Columbus, Ohio us-east5
Dallas us-south1 icona foglia Bassi livelli di CO2
Iowa us-central1 icona foglia Bassi livelli di CO2
Carolina del Sud us-east1
Virginia del Nord us-east4
Oregon us-west1 icona foglia Bassi livelli di CO2
Los Angeles us-west2
Salt Lake City us-west3
La tabella seguente elenca le regioni dell'Asia Pacifico in cui è disponibile la valutazione della migrazione di BigQuery.
Descrizione della regione Nome della regione Dettagli
Singapore asia-southeast1
Tokyo asia-northeast1
La tabella seguente elenca le regioni in Europa in cui è disponibile la valutazione della migrazione di BigQuery.
Descrizione della regione Nome della regione Dettagli
Belgio europe-west1 icona foglia Bassi livelli di CO2
Finlandia europe-north1 icona foglia Bassi livelli di CO2
Francoforte europe-west3 icona foglia Bassi livelli di CO2
Londra europe-west2 icona foglia Bassi livelli di CO2
Madrid europe-southwest1 icona foglia Bassi livelli di CO2
Paesi Bassi europe-west4 icona foglia Bassi livelli di CO2
Parigi europe-west9 icona foglia Bassi livelli di CO2
Torino europe-west12
Varsavia europe-central2
Zurigo europe-west6 icona foglia Bassi livelli di CO2

Più regioni

La tabella seguente elenca le regioni in cui è disponibile la valutazione della migrazione di BigQuery.
Descrizione multiregionale Nome multiregione
Data center all'interno degli stati membri dell'Unione Europea EU
Data center negli Stati Uniti US

Prima di iniziare

Prima di eseguire la valutazione, devi abilitare l'API BigQuery Migration e creare un set di dati BigQuery per archiviare i risultati della valutazione.

Abilita l'API BigQuery Migration

Abilita l'API BigQuery Migration come segue:

  1. Nella console Google Cloud, vai alla pagina API BigQuery Migration.

    Vai all'API BigQuery Migration

  2. Fai clic su Attiva.

Creare un set di dati per i risultati della valutazione

La valutazione della migrazione di BigQuery scrive i risultati della valutazione nelle tabelle di BigQuery. Prima di iniziare, crea un set di dati per contenere queste tabelle. Quando condividi il report di Looker Studio, devi anche concedere agli utenti l'autorizzazione a leggere questo set di dati. Per saperne di più, consulta Rendi il report disponibile per gli utenti.

Esegui la valutazione della migrazione

Console

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel pannello di navigazione, vai a Valutazione.

  3. Fai clic su Avvia valutazione.

  4. Compila la finestra di dialogo di configurazione della valutazione.

    1. In Nome visualizzato, inserisci il nome che può contenere lettere, numeri o trattini bassi. Questo nome è solo a scopo di visualizzazione e non deve essere univoco.
    2. Nell'elenco Località dei dati, scegli una località per il job di valutazione. Il job di valutazione deve trovarsi nella stessa posizione del bucket Cloud Storage di input dei file estratti e del set di dati BigQuery di output.

      Tuttavia, se questa località è una regione multipla US o EU, la località del bucket Cloud Storage e la località del set di dati BigQuery possono trovarsi in una qualsiasi delle regioni all'interno di questa regione multipla. Il bucket Cloud Storage e il set di dati BigQuery possono trovarsi in posizioni diverse all'interno della stessa località a più regioni. Ad esempio, se selezioni la regione multipla US, il bucket Cloud Storage può trovarsi nella regione us-central1, mentre il set di dati BigQuery può trovarsi nella regione us-east1.

    3. Per Origine dati della valutazione, scegli il tuo data warehouse.

    4. In Percorso dei file di input, inserisci il percorso del bucket Cloud Storage contenente i file estratti.

    5. Per scegliere la modalità di archiviazione dei risultati della valutazione, scegli una delle seguenti opzioni:

      • Mantieni selezionata la casella di controllo Crea automaticamente il nuovo set di dati BigQuery per creare automaticamente il set di dati BigQuery. Il nome del set di dati viene generato automaticamente.
      • Deseleziona la casella di controllo Crea automaticamente il nuovo set di dati BigQuery e scegli il set di dati BigQuery vuoto esistente utilizzando il formatoprojectId.datasetId o crea un nuovo nome del set di dati. In questa opzione puoi scegliere il nome del set di dati BigQuery.

    Opzione 1: generazione automatica del set di dati BigQuery (valore predefinito) Finestra di dialogo Configurazione della valutazione.

    Opzione 2: creazione manuale del set di dati BigQuery: Finestra di dialogo di configurazione della valutazione con creazione manuale del set di dati.

  5. Fai clic su Crea. Puoi visualizzare lo stato del job nell'elenco dei job di valutazione.

    Mentre la valutazione è in esecuzione, puoi controllare l'avanzamento e il tempo stimato per il completamento nella descrizione comando dell'icona di stato.

    Avanzamento della valutazione nella descrizione comando.

  6. Mentre la valutazione è in esecuzione, puoi fare clic sul link Visualizza report nell'elenco dei job di valutazione per visualizzare il report della valutazione con dati parziali in Looker Studio. Il link Visualizza report potrebbe richiedere del tempo per essere visualizzato durante l'esecuzione della valutazione. Il report si apre in una nuova scheda.

    Il report viene aggiornato con i nuovi dati man mano che vengono elaborati. Aggiorna la scheda con il report o fai di nuovo clic su Visualizza report per visualizzare il report aggiornato.

  7. Al termine della valutazione, fai clic su Visualizza report per visualizzare il report completo della valutazione in Looker Studio. Il report si apre in una nuova scheda.

API

Chiama il metodo create con un flusso di lavoro definito.

Quindi, chiama il metodo start per avviare il flusso di lavoro di valutazione.

La valutazione crea tabelle nel set di dati BigQuery creato in precedenza. Puoi eseguire query su queste tabelle per ottenere informazioni sulle tabelle e sulle query utilizzate nel tuo data warehouse esistente. Per informazioni sui file di output della traduzione, consulta Traduttore SQL batch.

Risultato della valutazione aggregata condivisibile

Per le valutazioni di Amazon Redshift, Teradata e Snowflake, oltre al set di dati BigQuery creato in precedenza, il flusso di lavoro crea un altro set di dati leggero con lo stesso nome, oltre al suffisso _shareableRedactedAggregate. Questo set di dati contiene dati altamente aggregati ricavati dal set di dati di output e non contiene informazioni che consentono l'identificazione personale (PII).

Per trovare, ispezionare e condividere in modo sicuro il set di dati con altri utenti, consulta Eseguire query sulle tabelle di output della valutazione della migrazione.

La funzionalità è attiva per impostazione predefinita, ma puoi disattivarla utilizzando l'API pubblica.

Dettagli valutazione

Per visualizzare la pagina dei dettagli della valutazione, fai clic sul nome visualizzato nell'elenco dei job di valutazione.

Pagina dell'elenco dei test.

La pagina dei dettagli della valutazione contiene la scheda Configurazione, in cui puoi visualizzare ulteriori informazioni su un job di valutazione, e la scheda Errori, in cui puoi esaminare eventuali errori che si sono verificati durante l'elaborazione della valutazione.

Visualizza la scheda Configurazione per visualizzare le proprietà della valutazione.

Pagina dei dettagli della valutazione - scheda Configurazione.

Visualizza la scheda Errori per visualizzare gli errori che si sono verificati durante l'elaborazione della valutazione.

Pagina Dettagli valutazione - scheda Errori.

Rivedi e condividi il report di Looker Studio

Al termine dell'attività di valutazione, puoi creare e condividere un report di Looker Studio sui risultati.

Esamina il report

Fai clic sul link Visualizza report accanto al singolo compito di valutazione. Il report di Looker Studio si apre in una nuova scheda in modalità di anteprima. Puoi utilizzare la modalità di anteprima per esaminare i contenuti del report prima di condividerlo ulteriormente.

Il report ha un aspetto simile allo screenshot seguente:

Report di valutazione.

Per visualizzare le visualizzazioni contenute nel report, seleziona il tuo data warehouse:

Teradata

Il report è una narrazione in tre parti preceduta da una pagina di riepilogo con i punti salienti. Questa pagina include le seguenti sezioni:

  • Sistema esistente. Questa sezione è uno snapshot del sistema e dell'utilizzo di Teradata esistente, incluso il numero di database, schemi, tabelle e dimensioni totali in TB. Elenca inoltre gli schemi in base alle dimensioni e indica un potenziale utilizzo non ottimale delle risorse (tabelle senza scrittura o con poche letture).
  • Trasformazioni in stato stazionario di BigQuery (suggerimenti). Questa sezione mostra come sarà il sistema su BigQuery dopo la migrazione. Include suggerimenti per ottimizzare i workload su BigQuery (ed evitare sprechi).
  • Piano di migrazione. Questa sezione fornisce informazioni sull'impegno necessario per la migrazione stessa, ad esempio il passaggio dal sistema esistente allo stato stabile di BigQuery. Questa sezione include il conteggio delle query che sono state tradotte automaticamente e il tempo stimato per spostare ogni tabella in BigQuery.

I dettagli di ogni sezione includono quanto segue:

Sistema esistente

  • Computing e query
    • Utilizzo CPU:
      • Mappa termica dell'utilizzo medio orario della CPU (visualizzazione dell'utilizzo delle risorse di sistema complessivo)
      • Query per ora e giorno con utilizzo della CPU
      • Query per tipo (lettura/scrittura) con utilizzo della CPU
      • Applicazioni con utilizzo della CPU
      • Sovrapposizione dell'utilizzo orario della CPU con le prestazioni medie orarie delle query e le prestazioni medie orarie delle applicazioni
    • Istogramma delle query per tipo e durata delle query
    • Visualizzazione dei dettagli delle applicazioni (app, utente, query univoche, report e suddivisione ETL)
  • Panoramica dello spazio di archiviazione
    • Database per volume, visualizzazioni e tassi di accesso
    • Tabelle con tassi di accesso per utenti, query, scritture e creazione di tabelle temporanee
  • Applicazioni: tassi di accesso e indirizzi IP

Trasformazioni in stato stazionario di BigQuery (suggerimenti)

  • Indici di join convertiti in viste materializzate
  • Raggruppamento e partizione dei candidati in base a metadati e utilizzo
  • Query a bassa latenza identificate come candidate per BigQuery BI Engine
  • Colonne configurate con valori predefiniti che utilizzano la funzionalità di descrizione della colonna per memorizzare i valori predefiniti
  • Gli indici univoci in Teradata (per evitare righe con chiavi non univoche in una tabella) utilizzano le tabelle di staging e un'istruzione MERGE per inserire solo record univoci nelle tabelle di destinazione e poi eliminare i duplicati
  • Query e schema rimanenti tradotti così come sono

Piano di migrazione

  • Visualizzazione dettagliata con query tradotte automaticamente
    • Conteggio delle query totali con possibilità di filtrare in base a utente, applicazione, tabelle interessate, tabelle sottoposte a query e tipo di query
    • Bucket di query con pattern simili raggruppati e mostrati insieme in modo che l'utente possa vedere la filosofia di traduzione in base ai tipi di query
  • Query che richiedono l'intervento umano
    • Query con violazioni della struttura lessicale di BigQuery
    • Funzioni e procedure definite dall'utente
    • Parole chiave riservate di BigQuery
  • Programmazione delle tabelle per scritture e letture (per raggrupparle per il trasferimento)
  • Migrazione dei dati con BigQuery Data Transfer Service: tempo stimato per la migrazione per tabella

La sezione Sistema esistente contiene le seguenti visualizzazioni:

Panoramica del sistema
La visualizzazione Panoramica del sistema fornisce le metriche di volume di alto livello dei componenti chiave nel sistema esistente per un periodo di tempo specificato. La sequenza temporale valutata dipende dai log analizzati dalla valutazione della migrazione di BigQuery. Questa visualizzazione fornisce informazioni rapide sull'utilizzo del data warehouse di origine, che puoi utilizzare per la pianificazione della migrazione.
Volume della tabella
La visualizzazione Volume delle tabelle fornisce statistiche sulle tabelle e sui database più grandi rilevati dalla valutazione della migrazione a BigQuery. Poiché l'estrazione di tabelle di grandi dimensioni dal sistema di data warehouse di origine può richiedere più tempo, questa vista può essere utile per la pianificazione e la sequenziazione della migrazione.
Utilizzo della tabella
La visualizzazione Utilizzo tabelle fornisce statistiche sulle tabelle che vengono utilizzate molto nel sistema di data warehouse di origine. Le tabelle di uso intensivo possono aiutarti a capire quali potrebbero avere molte dipendenze e richiedere una pianificazione aggiuntiva durante il processo di migrazione.
Applicazioni
Le visualizzazioni Utilizzo applicazioni e Pattern di utilizzo delle applicazioni forniscono statistiche sulle applicazioni rilevate durante l'elaborazione dei log. Queste visualizzazioni consentono agli utenti di comprendere l'utilizzo di applicazioni specifiche nel tempo e l'impatto sull'utilizzo delle risorse. Durante una migrazione, è importante visualizzare l'importazione e il consumo dei dati per comprendere meglio le dipendenze del data warehouse e analizzare l'impatto del trasferimento di varie applicazioni dipendenti. La tabella Indirizzo IP può essere utile per individuare l'applicazione esatta che utilizza il data warehouse tramite connessioni JDBC.
Query
La vista Query fornisce una suddivisione dei tipi di istruzioni SQL eseguite e delle statistiche sul loro utilizzo. Puoi utilizzare l'istogramma di Tipo di query e Ora per identificare i periodi di utilizzo ridotto del sistema e le ore del giorno ottimali per trasferire i dati. Puoi anche utilizzare questa visualizzazione per identificare le query eseguite di frequente e gli utenti che richiamano queste esecuzioni.
Database
La visualizzazione Database fornisce metriche su dimensioni, tabelle, visualizzazioni e procedure definite nel sistema del data warehouse di origine. Questa visualizzazione può fornirti informazioni sul volume di oggetti di cui devi eseguire la migrazione.
Accoppiamento del database
La visualizzazione Accoppiamento database fornisce una visione d'insieme dei database e delle tabelle a cui si accede insieme in un'unica query. Questa visualizzazione può mostrare a quali tabelle e database viene fatto spesso riferimento e cosa puoi utilizzare per la pianificazione della migrazione.

La sezione Stato stabile di BigQuery contiene le seguenti visualizzazioni:

Tabelle senza utilizzo
La vista Tabelle senza utilizzo mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha rilevato alcun utilizzo durante il periodo di analisi dei log. La mancanza di utilizzo potrebbe indicare che non è necessario trasferire la tabella in BigQuery durante la migrazione o che i costi di archiviazione degli dati in BigQuery potrebbero essere inferiori. Devi convalidare l'elenco delle tabelle inutilizzate perché potrebbero essere utilizzate al di fuori del periodo dei log, ad esempio una tabella utilizzata solo una volta ogni tre o sei mesi.
Tabelle senza scrittura
La visualizzazione Tabelle senza scrittura mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha trovato aggiornamenti durante il periodo di log analizzato. La mancanza di scrittura può indicare dove potresti ridurre i costi di archiviazione in BigQuery.
Query a bassa latenza
La visualizzazione Query a bassa latenza mostra una distribuzione dei tempi di esecuzione delle query in base ai dati dei log analizzati. Se il grafico di distribuzione della durata delle query mostra un gran numero di query con un tempo di esecuzione inferiore a 1 secondo, valuta la possibilità di attivare BigQuery BI Engine per accelerare la BI e altri carichi di lavoro a bassa latenza.
Viste materializzate
La vista materializzata fornisce ulteriori suggerimenti di ottimizzazione per migliorare il rendimento su BigQuery.
Clustering e partizionamento

La visualizzazione Partizionamento e clustering mostra le tabelle che possono trarre vantaggio dal partizionamento, dal clustering o da entrambi.

I suggerimenti per i metadati vengono ottenuti analizzando lo schema del data warehouse di origine (ad esempio la partizione e la chiave primaria nella tabella di origine) e trovando l'equivalente BigQuery più vicino per ottenere caratteristiche di ottimizzazione simili.

I suggerimenti per il workload vengono ottenuti analizzando i log delle query di origine. Il consiglio viene determinato analizzando i carichi di lavoro, in particolare le clausole WHERE o JOIN nei log delle query analizzati.

Suggerimento di clustering

La visualizzazione Partizionamento mostra le tabelle che potrebbero avere più di 10.000 partitizioni, in base alla definizione del vincolo di partizionamento. Queste tabelle tendono a essere buoni candidati per il clustering BigQuery, che consente le partizioni delle tabelle granulari.

Vincoli univoci

La visualizzazione Vincoli univoci mostra sia le tabelle SET sia gli indici univoci definiti nel data warehouse di origine. In BigQuery, è consigliabile utilizzare tabelle di staging e un'istruzione MERGE per inserire solo record univoci in una tabella di destinazione. Utilizza i contenuti di questa visualizzazione per determinare per quali tabelle potrebbe essere necessario modificare l'ETL durante la migrazione.

Valori predefiniti / Vincoli di controllo

Questa visualizzazione mostra le tabelle che utilizzano i vincoli di controllo per impostare i valori predefiniti delle colonne. In BigQuery, consulta Specificare i valori predefiniti delle colonne.

La sezione Percorso di migrazione del report contiene le seguenti visualizzazioni:

Traduzione SQL
La visualizzazione Traduzione SQL elenca il conteggio e i dettagli delle query che sono state conversite automaticamente dalla valutazione della migrazione di BigQuery e che non richiedono intervento manuale. La traduzione automatica di SQL in genere raggiunge alti tassi di traduzione se vengono forniti i metadati. Questa visualizzazione è interattiva e consente di analizzare le query comuni e il modo in cui vengono tradotte.
Impegno offline
La visualizzazione Impegno offline acquisisce le aree che richiedono un intervento manuale, tra cui funzioni UDF specifiche e potenziali violazioni della struttura e della sintassi lessicale per tabelle o colonne.
Parole chiave riservate di BigQuery
La visualizzazione Parole chiave riservate di BigQuery mostra l'utilizzo rilevato di parole chiave che hanno un significato speciale nel linguaggio GoogleSQL e non possono essere utilizzate come identificatori, a meno che non siano racchiuse tra i caratteri di backtick (`).
Pianificazione degli aggiornamenti delle tabelle
La visualizzazione Pianificazione degli aggiornamenti delle tabelle mostra quando e con quale frequenza vengono aggiornate le tabelle per aiutarti a pianificare come e quando spostarle.
Migrazione dei dati a BigQuery
La visualizzazione Migrazione dei dati a BigQuery illustra il percorso di migrazione con il tempo stimato per eseguire la migrazione dei dati utilizzando BigQuery Data Transfer Service. Per ulteriori informazioni, consulta la guida a BigQuery Data Transfer Service per Teradata.

La sezione Appendice contiene le seguenti visualizzazioni:

Distinzione tra maiuscole e minuscole
La vista Sensibilità alle maiuscole mostra le tabelle nel data warehouse di origine configurate per eseguire confronti senza tenere conto delle maiuscole. Per impostazione predefinita, i confronti delle stringhe in BigQuery sono sensibili alle maiuscole. Per ulteriori informazioni, consulta la sezione Collazione.

Amazon Redshift

Approfondimenti sulla migrazione
La visualizzazione In evidenza della migrazione fornisce un riepilogo delle tre sezioni del report:
  1. Il riquadro Sistema esistente fornisce informazioni sul numero di database, schemi, tabelle e sulle dimensioni totali del sistema Redshift esistente. Vengono inoltre elencati gli schemi in base alle dimensioni e al potenziale utilizzo non ottimale delle risorse. Puoi utilizzare queste informazioni per ottimizzare i dati rimuovendo, partizionando o raggruppando in cluster le tabelle.
  2. Il riquadro Stato stabile di BigQuery fornisce informazioni su come saranno i dati dopo la migrazione in BigQuery, incluso il numero di query che possono essere tradotte automaticamente utilizzando BigQuery Migration Service. Questa sezione mostra anche i costi di archiviazione dei dati in BigQuery in base al tasso di importazione dati annuale, nonché suggerimenti di ottimizzazione per tabelle, provisioning e spazio.
  3. Il riquadro Percorso di migrazione fornisce informazioni sul lavoro necessario per la migrazione. Per ogni tabella viene mostrato il tempo stimato per la migrazione, il numero di righe nella tabella e le relative dimensioni.

La sezione Sistema esistente contiene le seguenti visualizzazioni:

Query per tipo e pianificazione
La visualizzazione Query per tipo e pianificazione classifica le query in ETL/scrittura e Report/aggregazione. La visualizzazione del mix di query nel tempo ti aiuta a comprendere i pattern di utilizzo esistenti e a identificare picchi e potenziali sovradimensionamenti che possono influire su costi e prestazioni.
Coda delle query
La vista Coda di query fornisce ulteriori dettagli sul carico del sistema, tra cui volume e combinazione di query e eventuali impatti sulle prestazioni dovuti alla coda, come risorse insufficienti.
Query e scalabilità WLM
La visualizzazione Query e scalabilità WLM identifica la scalabilità della concorrenza come un costo aggiuntivo e una complessità di configurazione. Mostra in che modo il sistema Redshift indirizza le query in base alle regole specificate e gli impatti sul rendimento dovuti alla formazione di code, allo scaling della concorrenza e alle query espulse.
Coda e attesa
La visualizzazione Coda e attesa offre un'analisi più approfondita delle code e dei tempi di attesa per le query nel tempo.
Classi WLM e rendimento
La visualizzazione Classi e rendimento WLM offre un modo facoltativo per mappare le regole a BigQuery. Tuttavia, ti consigliamo di lasciare che sia BigQuery a indirizzare automaticamente le query.
Approfondimenti sul volume di query e tabelle
La visualizzazione Approfondimenti sul volume di query e tabelle elenca le query in base a dimensioni, frequenza e utenti principali. In questo modo puoi classificare le sorgenti di carico sul sistema e pianificare la migrazione dei tuoi workload.
Database e schemi
La visualizzazione Database e schemi fornisce metriche su dimensioni, tabelle, visualizzazioni e procedure definite nel sistema di data warehouse di origine. In questo modo, puoi avere un quadro del volume di oggetti di cui è necessaria la migrazione.
Volume della tabella
La visualizzazione Volume delle tabelle fornisce statistiche sulle tabelle e sui database più grandi, mostrando come vi si accede. Poiché l'estrazione di tabelle di grandi dimensioni dal sistema di data warehouse di origine può richiedere più tempo, questa visualizzazione ti aiuta con la pianificazione e la sequenziazione della migrazione.
Utilizzo della tabella
La visualizzazione Utilizzo tabelle fornisce statistiche sulle tabelle che vengono utilizzate molto nel sistema di data warehouse di origine. Le tabelle di uso intensivo possono essere utilizzate per comprendere le tabelle che potrebbero avere molte dipendenze e richiedere una pianificazione aggiuntiva durante il processo di migrazione.
Importatori ed esportatori
La visualizzazione Importatori ed esportatori fornisce informazioni sui dati e sugli utenti coinvolti nell'importazione dei dati (utilizzando query COPY) e nell'esportazione dei dati (utilizzando query UNLOAD). Questa visualizzazione consente di identificare il livello di staging e le procedure relative all'importazione e alle esportazioni.
Utilizzo del cluster
La visualizzazione Utilizzo cluster fornisce informazioni generali su tutti i cluster disponibili e mostra l'utilizzo della CPU per ciascun cluster. Questa visualizza ti aiuta a comprendere la riserva di capacità del sistema.

La sezione Stato stabile di BigQuery contiene le seguenti visualizzazioni:

Clustering e partizionamento

La visualizzazione Partizionamento e clustering mostra le tabelle che possono trarre vantaggio dal partizionamento, dal clustering o da entrambi.

I suggerimenti per i metadati vengono ottenuti analizzando lo schema del data warehouse di origine (ad esempio la chiave di ordinamento e la chiave di distribuzione nella tabella di origine) e trovando l'equivalente BigQuery più vicino per ottenere caratteristiche di ottimizzazione simili.

I suggerimenti per i carichi di lavoro vengono ottenuti analizzando i log delle query di origine. Il consiglio viene determinato analizzando i carichi di lavoro, in particolare le clausole WHERE o JOIN nei log delle query analizzati.

Nella parte inferiore della pagina è presente un'istruzione create table tradotta con tutte le ottimizzazioni fornite. Tutte le istruzioni DDL tradotte possono essere anche estratte dal set di dati. Le istruzioni DDL tradotte vengono memorizzate nella tabella SchemaConversion nella colonna CreateTableDDL.

I consigli nel report vengono forniti solo per le tabelle di dimensioni superiori a 1 GB, in quanto le tabelle di piccole dimensioni non trarrebbero vantaggio dal clustering e dalla suddivisione in parti. Tuttavia, il DDL per tutte le tabelle (incluse quelle di dimensioni inferiori a 1 GB) è disponibile nella tabella SchemaConversion.

Tabelle senza utilizzo

La visualizzazione Tabelle senza utilizzo mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha rilevato alcun utilizzo durante il periodo di log analizzato. La mancanza di utilizzo potrebbe indicare che non è necessario trasferire la tabella in BigQuery durante la migrazione o che i costi di archiviazione dei dati in BigQuery potrebbero essere inferiori (fatturati come Archiviazione a lungo termine). Ti consigliamo di convalidare l'elenco delle tabelle inutilizzate perché potrebbero essere utilizzate al di fuori del periodo dei log, ad esempio una tabella utilizzata solo una volta ogni tre o sei mesi.

Tabelle senza scrittura

La visualizzazione Tabelle senza scrittura mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha identificato aggiornamenti durante il periodo di log analizzato. La mancanza di scrittura può indicare dove potresti ridurre i costi di archiviazione in BigQuery (fatturati come Archiviazione a lungo termine).

Motore BI e viste materializzate

BI Engine e le viste materializzate forniscono ulteriori suggerimenti di ottimizzazione per migliorare le prestazioni su BigQuery.

La sezione Percorso di migrazione contiene le seguenti visualizzazioni:

Traduzione SQL
La visualizzazione Traduzione SQL elenca il conteggio e i dettagli delle query che sono state conversite automaticamente dalla valutazione della migrazione di BigQuery e che non richiedono intervento manuale. La traduzione SQL automatica in genere raggiunge alti tassi di traduzione se vengono forniti i metadati.
Impegno per la traduzione offline SQL
La visualizzazione Impegno offline per la traduzione SQL acquisisce le aree che richiedono intervento manuale, tra cui funzioni definite dall'utente specifiche e query con potenziali ambiguità di traduzione.
Supporto di Aggiungere tabella tramite modifica
La visualizzazione Supporto per l'unione tabella di modifica mostra i dettagli dei costrutti SQL di Redshift comuni che non hanno una controparte diretta di BigQuery.
Assistenza per il comando di copia
La visualizzazione Supporto dei comandi di copia mostra i dettagli dei costrutti SQL Redshift comuni che non hanno una controparte diretta in BigQuery.
Avvisi SQL
La visualizzazione Avvisi SQL acquisisce le aree tradotte correttamente, ma che richiedono una revisione.
Violazioni della struttura lessicale e della sintassi
La vista Violazioni della struttura lessicale e della sintassi mostra i nomi di colonne, tabelle, funzioni e procedure che violano la sintassi di BigQuery.
Parole chiave riservate di BigQuery
La visualizzazione delle parole chiave riservate di BigQuery mostra l'utilizzo rilevato di parole chiave che hanno un significato speciale nel linguaggio GoogleSQL e non possono essere utilizzate come identificatori, a meno che non siano racchiuse tra caratteri di backtick (`).
Accoppiamento schema
La visualizzazione Accoppiamento schema fornisce una visualizzazione di alto livello di database, schemi e tabelle a cui si accede insieme in un'unica query. Questa visualizza può mostrare le tabelle, gli schemi e i database a cui viene fatto spesso riferimento e cosa puoi utilizzare per la pianificazione della migrazione.
Pianificazione degli aggiornamenti delle tabelle
La visualizzazione Pianificazione degli aggiornamenti delle tabelle mostra come, quando e con quale frequenza vengono aggiornate le tabelle per aiutarti a pianificare come e quando spostarle.
Scala della tabella
La visualizzazione Scala tabella elenca le tabelle con il maggior numero di colonne.
Migrazione dei dati a BigQuery
La visualizzazione Migrazione dei dati in BigQuery illustra il percorso di migrazione con il tempo stimato per la migrazione dei dati utilizzando BigQuery Data Transfer Service. Per ulteriori informazioni, consulta la guida di BigQuery Data Transfer Service per Redshift.
Riepilogo dell'esecuzione della valutazione

Il riepilogo dell'esecuzione della valutazione contiene la completezza del report, lo stato della valutazione in corso, lo stato dei file elaborati e gli errori.

La completezza del report indica la percentuale di dati elaborati correttamente che è consigliabile visualizzare per ottenere approfondimenti significativi nel report di valutazione. Se mancano i dati relativi a una determinata sezione del report, queste informazioni sono elencate nella tabella Moduli di valutazione sotto l'indicatore Completezza del report.

La metrica avanzamento indica la percentuale di dati elaborati finora, nonché la stima del tempo rimanente per elaborare tutti i dati. Al termine dell'elaborazione, la metrica di avanzamento non viene visualizzata.

Riepilogo dell'esecuzione della valutazione.

Apache Hive

Il report, costituito da una narrazione in tre parti, è preceduto da una pagina di riepilogo con i punti salienti che include le seguenti sezioni:

  • Sistema esistente: Hive. Questa sezione consiste in uno snapshot del sistema Hive esistente e del relativo utilizzo, inclusi il numero di database, tabelle, le dimensioni totali in GB e il numero di log delle query elaborati. Questa sezione elenca anche i database in base alle dimensioni e indica un potenziale utilizzo suboptimale delle risorse (tabelle senza scrittura o con poche letture) e del provisioning. I dettagli di questa sezione includono quanto segue:

    • Computing e query
      • Utilizzo CPU:
        • Query per ora e giorno con utilizzo della CPU
        • Query per tipo (lettura/scrittura)
        • Code e applicazioni
        • Sovrapposizione dell'utilizzo orario della CPU con le prestazioni medie orarie delle query e le prestazioni medie orarie delle applicazioni
      • Istogramma delle query per tipo e durata delle query
      • Pagina Coda e attesa
      • Visualizzazione dettagliata delle code (coda, utente, query univoche, suddivisione tra report ed ETL, per metriche)
    • Panoramica dello spazio di archiviazione
      • Database per volume, visualizzazioni e tassi di accesso
      • Tabelle con tassi di accesso per utenti, query, scritture e creazione di tabelle temporanee
    • Code e applicazioni: tassi di accesso e indirizzi IP dei client
  • Stato stabile di BigQuery. Questa sezione mostra come sarà il sistema su BigQuery dopo la migrazione. Include suggerimenti per ottimizzare i workload su BigQuery (ed evitare sprechi). I dettagli di questa sezione includono quanto segue:

    • Tabelle identificate come candidate per le viste materializzate
    • Raggruppamento e partizione dei candidati in base a metadati e utilizzo
    • Query a bassa latenza identificate come candidate per BigQuery BI Engine
    • Tabelle senza utilizzo in lettura o scrittura
    • Tabelle partizionate con uno sbilanciamento dei dati
  • Piano di migrazione. Questa sezione fornisce informazioni sull'impegno necessario per la migrazione stessa. Ad esempio, passare dal sistema esistente allo stato stabile di BigQuery. Questa sezione contiene i target di archiviazione identificati per ogni tabella, le tabelle identificate come significative per la migrazione e il conteggio delle query tradotta automaticamente. I dettagli di questa sezione includono quanto segue:

    • Visualizzazione dettagliata con query tradotte automaticamente
      • Conteggio delle query totali con possibilità di filtrare in base a utente, applicazione, tabelle interessate, tabelle sottoposte a query e tipo di query
      • Bucket di query con pattern simili raggruppati, che consentono agli utenti di vedere la filosofia di traduzione in base ai tipi di query
    • Query che richiedono l'intervento umano
      • Query con violazioni della struttura lessicale di BigQuery
      • Funzioni e procedure definite dall'utente
      • Parole chiave riservate di BigQuery
    • Query che richiede la revisione
    • Programmazione delle tabelle per scritture e letture (per raggrupparle per il trasferimento)
    • Destinazione di archiviazione identificata per le tabelle esterne e gestite

La sezione Sistema esistente - Hive contiene le seguenti visualizzazioni:

Panoramica del sistema
Questa visualizzazione fornisce le metriche di volume di alto livello dei componenti chiave nel sistema esistente per un periodo di tempo specificato. La sequenza temporale valutata dipende dai log analizzati dalla valutazione della migrazione di BigQuery. Questa visualizzazione fornisce informazioni rapide sull'utilizzo del data warehouse di origine, che puoi utilizzare per la pianificazione della migrazione.
Volume della tabella
Questa visualizzazione fornisce statistiche sulle tabelle e sui database più grandi rilevati dalla valutazione della migrazione a BigQuery. Poiché l'estrazione di tabelle di grandi dimensioni dal sistema di data warehouse di origine può richiedere più tempo, questa vista può essere utile per la pianificazione e la sequenziazione della migrazione.
Utilizzo della tabella
Questa visualizzazione fornisce statistiche sulle tabelle che vengono utilizzate molto nel sistema del data warehouse di origine. Le tabelle di uso intensivo possono aiutarti a capire quali potrebbero avere molte dipendenze e richiedere una pianificazione aggiuntiva durante il processo di migrazione.
Utilizzo code
Questa visualizzazione fornisce statistiche sull'utilizzo delle code YARN rilevate durante l'elaborazione dei log. Queste visualizzazioni consentono agli utenti di comprendere l'utilizzo di code e applicazioni specifiche nel tempo e l'impatto sull'utilizzo delle risorse. Queste visualizzazioni aiutano anche a identificare e dare la priorità ai carichi di lavoro per la migrazione. Durante una migrazione, è importante visualizzare l'importazione e il consumo dei dati per comprendere meglio le dipendenze del data warehouse e analizzare l'impatto del trasferimento di varie applicazioni dipendenti. La tabella degli indirizzi IP può essere utile per individuare l'applicazione esatta che utilizza il data warehouse tramite connessioni JDBC.
Metriche code
Questa visualizzazione fornisce un'analisi dettagliata delle diverse metriche sulle code YARN trovate durante l'elaborazione dei log. Questa visualizzazione consente agli utenti di comprendere i pattern di utilizzo in code specifiche e l'impatto sulla migrazione. Puoi anche utilizzare questa vista per identificare le connessioni tra le tabelle a cui hai eseguito query e le code in cui è stata eseguita la query.
Coda e attesa
Questa visualizzazione fornisce informazioni sul tempo di messa in coda delle query nel data warehouse di origine. I tempi di coda indicano un degrado delle prestazioni dovuto al sottodimensionamento e un provisioning aggiuntivo richiede un aumento dei costi di hardware e manutenzione.
Query
Questa visualizzazione fornisce una suddivisione dei tipi di istruzioni SQL eseguite e le statistiche del loro utilizzo. Puoi utilizzare l'istogramma di Tipo di query e Ora per identificare i periodi di utilizzo ridotto del sistema e le ore del giorno ottimali per trasferire i dati. Puoi anche utilizzare questa visualizzazione per identificare i motori di esecuzione Hive più utilizzati e le query eseguite di frequente, nonché i dettagli dell'utente.
Database
Questa visualizzazione fornisce metriche su dimensioni, tabelle, visualizzazioni e procedure definite nel sistema del data warehouse di origine. Questa visualizzazione può fornirti informazioni sul volume di oggetti di cui devi eseguire la migrazione.
Accoppiamento di database e tabelle
Questa visualizzazione fornisce una panoramica generale dei database e delle tabelle a cui si accede contemporaneamente in una singola query. Questa visualizzazione può mostrare a quali tabelle e database viene fatto spesso riferimento e cosa puoi utilizzare per la pianificazione della migrazione.

La sezione Stato stabile BigQuery contiene le seguenti visualizzazioni:

Tabelle senza utilizzo
La vista Tabelle senza utilizzo mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha rilevato alcun utilizzo durante il periodo di analisi dei log. La mancanza di utilizzo potrebbe indicare che non è necessario trasferire la tabella in BigQuery durante la migrazione o che i costi di archiviazione degli dati in BigQuery potrebbero essere inferiori. Devi convalidare l'elenco delle tabelle inutilizzate perché potrebbero essere utilizzate al di fuori del periodo dei log, ad esempio una tabella utilizzata solo una volta ogni tre o sei mesi.
Tabelle senza scrittura
La visualizzazione Tabelle senza scrittura mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha trovato aggiornamenti durante il periodo di log analizzato. La mancanza di scrittura può indicare dove potresti ridurre i costi di archiviazione in BigQuery.
Suggerimenti per il clustering e il partizionamento

Questa visualizzazione mostra le tabelle che possono trarre vantaggio dalla partizione, dal clustering o da entrambi.

I suggerimenti per i metadati vengono ottenuti analizzando lo schema del data warehouse di origine (ad esempio la partizione e la chiave primaria nella tabella di origine) e trovando l'equivalente BigQuery più vicino per ottenere caratteristiche di ottimizzazione simili.

I suggerimenti per il workload vengono ottenuti analizzando i log delle query di origine. Il consiglio viene determinato analizzando i carichi di lavoro, in particolare le clausole WHERE o JOIN nei log delle query analizzati.

Partizioni convertite in cluster

Questa vista mostra le tabelle con più di 10.000 partitizioni, in base alla definizione del vincolo di partizionamento. Queste tabelle tendono a essere buoni candidati per il clustering BigQuery, che consente le partizioni delle tabelle granulari.

Partizioni distorte

La visualizzazione Partizioni con dati non uniformi mostra le tabelle basate sull'analisi dei metadati e con dati non uniformi in una o più partizioni. Queste tabelle sono buoni candidati per la modifica dello schema, in quanto le query sulle partizioni distorte potrebbero non avere un buon rendimento.

Motore BI e viste materializzate

La visualizzazione Query a bassa latenza e viste materializzate mostra una distribuzione dei tempi di esecuzione delle query in base ai dati del log analizzati e ulteriori suggerimenti di ottimizzazione per migliorare le prestazioni su BigQuery. Se il grafico di distribuzione della durata delle query visualizza un numero elevato di query con un tempo di esecuzione inferiore a 1 secondo, valuta la possibilità di attivare BI Engine per accelerare la BI e altri carichi di lavoro a bassa latenza.

La sezione Piano di migrazione del report contiene le seguenti visualizzazioni:

Traduzione SQL
La visualizzazione Traduzione SQL elenca il conteggio e i dettagli delle query che sono state conversite automaticamente dalla valutazione della migrazione di BigQuery e che non richiedono intervento manuale. La traduzione automatica di SQL in genere raggiunge alti tassi di traduzione se vengono forniti i metadati. Questa visualizzazione è interattiva e consente di analizzare le query comuni e il modo in cui vengono tradotte.
Impegno per la traduzione offline SQL
La visualizzazione Impegno offline acquisisce le aree che richiedono un intervento manuale, tra cui funzioni UDF specifiche e potenziali violazioni della struttura e della sintassi lessicale per tabelle o colonne.
Avvisi SQL
La visualizzazione Avvisi SQL acquisisce le aree tradotte correttamente, ma che richiedono una revisione.
Parole chiave riservate di BigQuery
La visualizzazione Parole chiave riservate di BigQuery mostra l'utilizzo rilevato delle parole chiave che hanno un significato speciale nel linguaggio GoogleSQL. Queste parole chiave non possono essere utilizzate come identificatori, a meno che non siano racchiuse tra caratteri di barra verticale (`).
Pianificazione degli aggiornamenti delle tabelle
La visualizzazione Pianificazione degli aggiornamenti delle tabelle mostra quando e con quale frequenza vengono aggiornate le tabelle per aiutarti a pianificare come e quando spostarle.
Tabelle esterne BigLake
La visualizzazione Tabelle esterne BigLake illustra le tabelle identificate come target della migrazione a BigLake anziché a BigQuery.

La sezione Appendice del report contiene le seguenti visualizzazioni:

Analisi dettagliata dell'impegno per la traduzione offline SQL
La visualizzazione Analisi dettagliata dell'impegno offline fornisce informazioni aggiuntive sulle aree SQL che necessitano di intervento manuale.
Analisi dettagliata degli avvisi SQL
La visualizzazione Analisi degli avvisi dettagliati fornisce un'ulteriore informazione sulle aree SQL che sono state tradotte correttamente, ma richiedono una revisione.

Snowflake

Il report è costituito da diverse sezioni che possono essere utilizzate singolarmente o insieme. Il seguente diagramma organizza queste sezioni in tre obiettivi comuni degli utenti per aiutarti a valutare le tue esigenze di migrazione:

Diagramma di flusso del report di valutazione della migrazione per Snowflake

Visualizzazioni degli elementi salienti della migrazione

La sezione Aspetti salienti della migrazione contiene le seguenti visualizzazioni:

Modelli di determinazione dei prezzi di Snowflake e BigQuery
Elenco dei prezzi con diversi livelli/versioni. Include anche un'illustrazione di come la scalabilità automatica di BigQuery può aiutarti a risparmiare di più rispetto a Snowflake.
Costo totale di proprietà
Tabella interattiva che consente all'utente di definire: versione BigQuery, impegno, impegno relativo agli slot di riferimento, percentuale di archiviazione attiva e percentuale di dati caricati o modificati. Aiuta a stimare meglio il costo per le custodie personalizzate.
In evidenza nella traduzione automatica
Rapporto di traduzione aggregato, raggruppato per utente o database, in ordine crescente o decrescente. Sono inclusi anche il messaggio di errore più comune per la traduzione automatica non riuscita.

Visualizzazioni del sistema esistenti

La sezione Sistema esistente contiene le seguenti visualizzazioni:

Panoramica del sistema
La visualizzazione Panoramica del sistema fornisce le metriche dei volumi di alto livello dei componenti chiave del sistema esistente per un periodo di tempo specificato. La sequenza temporale valutata dipende dai log analizzati dalla valutazione della migrazione di BigQuery. Questa visualizzazione fornisce informazioni rapide sull'utilizzo del data warehouse di origine, che puoi utilizzare per la pianificazione della migrazione.
Panoramica dei magazzini virtuali
Mostra il costo di Snowflake per magazzino, nonché il ridimensionamento in base ai nodi nel periodo.
Volume della tabella
La visualizzazione Volume delle tabelle fornisce statistiche sulle tabelle e sui database più grandi rilevati dalla valutazione della migrazione a BigQuery. Poiché l'estrazione delle tabelle di grandi dimensioni dal sistema data warehouse di origine potrebbe richiedere più tempo, questa vista può essere utile per la pianificazione e la sequenziazione della migrazione.
Utilizzo della tabella
La visualizzazione Utilizzo tabelle fornisce statistiche sulle tabelle che vengono utilizzate molto nel sistema di data warehouse di origine. Le tabelle di uso intensivo possono aiutarti a capire quali potrebbero avere molte dipendenze e richiedere una pianificazione aggiuntiva durante il processo di migrazione.
Query
La vista Query fornisce una suddivisione dei tipi di istruzioni SQL eseguite e le statistiche del loro utilizzo. Puoi utilizzare l'istogramma di Tipo di query e Tempo per identificare periodi di utilizzo ridotto del sistema e momenti ottimali della giorno per trasferire i dati. Puoi anche utilizzare questa visualizzazione per identificare le query eseguite di frequente e gli utenti che richiamano queste esecuzioni.
Database
La visualizzazione Database fornisce metriche su dimensioni, tabelle, visualizzazioni e procedure definite nel sistema del data warehouse di origine. Questa visualizzazione fornisce informazioni sul volume di oggetti di cui devi eseguire la migrazione.

Viste di stato stazionario BigQuery

La sezione Stato stabile di BigQuery contiene le seguenti visualizzazioni:

Tabelle senza utilizzo
La visualizzazione Tabelle senza utilizzo mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha rilevato alcun utilizzo durante il periodo di analisi dei log. In questo modo puoi capire quali tabelle potrebbero non dover essere trasferite in BigQuery durante la migrazione o se i costi di archiviazione dei dati in BigQuery potrebbero essere inferiori. Devi convalidare l'elenco delle tabelle inutilizzate, poiché potrebbero essere utilizzate al di fuori del periodo di analisi dei log, ad esempio una tabella utilizzata solo una volta ogni trimestre o semestre.
Tabelle senza scrittura
La visualizzazione Tabelle senza scrittura mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha trovato aggiornamenti durante il periodo di log analizzato. Ciò può indicare che i costi di archiviazione dei dati in BigQuery potrebbero essere inferiori.

Visualizzazioni del piano di migrazione

La sezione Piano di migrazione del report contiene le seguenti visualizzazioni:

Traduzione SQL
La visualizzazione Traduzione SQL elenca il conteggio e i dettagli delle query che sono state conversite automaticamente dalla valutazione della migrazione di BigQuery e che non richiedono intervento manuale. La traduzione automatica di SQL in genere raggiunge alti tassi di traduzione se vengono forniti i metadati. Questa visualizzazione è interattiva e consente di analizzare le query comuni e il modo in cui vengono tradotte.
Impegno per la traduzione offline SQL
La visualizzazione Impegno offline acquisisce le aree che richiedono un intervento manuale, tra cui funzioni UDF specifiche e potenziali violazioni della struttura e della sintassi lessicale per tabelle o colonne.
Avvisi SQL - Da esaminare
La visualizzazione Avvisi da esaminare acquisisce le aree per le quali è stata eseguita la traduzione per la maggior parte, ma che richiedono un'ispezione da parte di persone fisiche.
Parole chiave riservate di BigQuery
La visualizzazione Parole chiave riservate di BigQuery mostra l'utilizzo rilevato di parole chiave che hanno un significato speciale nel linguaggio GoogleSQL e non possono essere utilizzate come identificatori, a meno che non siano racchiuse tra i caratteri di backtick (`).
Accoppiamento di database e tabelle
La visualizzazione Accoppiamento database fornisce una visione d'insieme dei database e delle tabelle a cui si accede insieme in un'unica query. Questa visualizzazione può mostrare le tabelle e i database a cui viene fatto spesso riferimento e cosa può essere utilizzato per la pianificazione della migrazione.
Pianificazione degli aggiornamenti delle tabelle
La visualizzazione Pianificazione aggiornamenti tabelle mostra quando e con quale frequenza vengono aggiornate le tabelle per aiutarti a pianificare come e quando spostarle.

Visualizzazioni Proof of Concept

La sezione PoC (proof of concept) contiene le seguenti viste:

PoC per dimostrare i risparmi di BigQuery in stato stabile
Sono incluse le query più frequenti, quelle che leggono più dati, le query più lente e le tabelle interessate da queste query.
PoC per dimostrare il piano di migrazione a BigQuery
Mostra in che modo BigQuery traduce le query più complesse e le tabelle interessate.

Oracle

Per richiedere feedback o assistenza per questa funzionalità, invia un'email all'indirizzo bq-edw-migration-support@google.com.

Approfondimenti sulla migrazione

La sezione Aspetti salienti della migrazione contiene le seguenti visualizzazioni:

  • Sistema esistente: uno snapshot del sistema Oracle esistente e del relativo utilizzo, incluso il numero di database, schemi, tabelle e dimensioni totali in GB. Fornisce inoltre il riepilogo della classificazione dei carichi di lavoro per ogni database per aiutarti a decidere se BigQuery è la destinazione di migrazione giusta.
  • Compatibilità: fornisce informazioni sull'impegno necessario per la migrazione stessa. Per ogni database analizzato, mostra il tempo di migrazione previsto e il numero di oggetti di database di cui è possibile eseguire la migrazione automaticamente con gli strumenti forniti da Google.
  • Stato stabile di BigQuery: contiene informazioni sull'aspetto dei dati dopo la migrazione in BigQuery, inclusi i costi di archiviazione dei dati in BigQuery in base al tasso di importazione dati annuale. Inoltre, fornisce la stima del costo di calcolo di BigQuery per Oracle Exadata.

Sistema esistente

La sezione Sistema esistente contiene le seguenti visualizzazioni:

  • Carichi di lavoro: descrive il tipo di carico di lavoro per ogni database in base alle metriche sul rendimento analizzate. Ogni database è classificato come OLAP, misto o OLTP. Queste informazioni possono aiutarti a decidere quali database è possibile eseguire la migrazione a BigQuery.
  • Database e schemi: fornisce una suddivisione delle dimensioni totali dello spazio di archiviazione in GB per ciascun database, schema o tabella. Inoltre, puoi utilizzare questa vista per identificare le viste materializzate e le tabelle esterne.
  • Funzionalità e link del database: mostra l'elenco delle funzionalità Oracle utilizzate nel database, insieme alle funzionalità o ai servizi equivalenti di BigQuery che possono essere utilizzati dopo la migrazione. Inoltre, puoi esplorare i link ai database per comprendere meglio le connessioni tra i database.
  • Connessioni al database: fornisce informazioni sulle sessioni del database avviate dall'utente o dall'applicazione. L'analisi di questi dati può aiutarti a identificare le applicazioni esterne che potrebbero richiedere un impegno aggiuntivo durante la migrazione.
  • Tipi di query: fornisce una suddivisione dei tipi di istruzioni SQL eseguite e le statistiche del loro utilizzo. Puoi utilizzare l'istogramma orario delle esecuzioni di query o del tempo CPU delle query per identificare periodi di utilizzo ridotto del sistema e momenti ottimali della giornata per trasferire i dati.
  • Codice sorgente PL/SQL: fornisce informazioni sugli oggetti PL/SQL, come funzioni o procedure, e sulle relative dimensioni per ogni database e schema. Inoltre, l'istogramma delle esecuzioni orarie può essere utilizzato per identificare le ore di picco con la maggior parte delle esecuzioni PL/SQL.

Stato stabile di BigQuery

La sezione Sistema esistente contiene le seguenti visualizzazioni:

  • Prezzi di Exadata e BigQuery: fornisce un confronto generale dei modelli di prezzi di Exadata e BigQuery per aiutarti a comprendere i vantaggi e i potenziali risparmi sui costi dopo la migrazione a BigQuery.
  • Strumento di stima dei costi di BigQuery: può essere utilizzato per stimare il costo totale di BigQuery in base alla configurazione di Exadata. Per ottenere la stima più accurata, devi fornire il numero di server di database, il loro tipo e l'utilizzo. Inoltre, puoi confrontare il costo di BigQuery in base alla versione e all'impegno selezionati.
  • Letture/scritture del database: fornisce informazioni sulle operazioni del disco fisico del database. L'analisi di questi dati può aiutarti a trovare il momento migliore per eseguire la migrazione dei dati da Oracle a BigQuery.

Suggerimenti per la migrazione

La sezione Suggerimenti per la migrazione contiene le seguenti visualizzazioni:

  • Compatibilità degli oggetti del database: fornisce una panoramica della compatibilità degli oggetti del database con BigQuery, incluso il numero di oggetti di cui è possibile eseguire la migrazione automatica con gli strumenti forniti da Google o che richiedono un'azione manuale. Queste informazioni vengono mostrate per ogni database, schema e tipo di oggetto database.
  • Impegno per la migrazione degli oggetti del database: mostra la stima dell'impegno per la migrazione in ore per ogni database, schema o tipo di oggetto del database. Inoltre, mostra la percentuale di oggetti di piccole, medie e grandi dimensioni in base all'impegno richiesto per la migrazione.
  • Impegno per la migrazione dello schema del database: fornisce l'elenco di tutti i tipi di oggetti del database rilevati, il loro numero, la compatibilità con BigQuery e l'impegno stimato per la migrazione in ore.
  • Impegno per la migrazione dello schema del database dettagliato: fornisce informazioni più approfondite sull'impegno per la migrazione dello schema del database, incluse le informazioni per ogni singolo oggetto.

Visualizzazioni Proof of Concept

La sezione Viste Proof of Concept contiene le seguenti viste:

  • Migrazione di proof of concept: mostra l'elenco suggerito di database con il minore impegno di migrazione che sono buoni candidati per la migrazione iniziale. Inoltre, mostra le query principali che possono contribuire a dimostrare il risparmio in termini di tempo e costi e il valore di BigQuery tramite un proof of concept.

Appendice

La sezione Appendice contiene le seguenti visualizzazioni:

  • Riepilogo esecuzione valutazione: fornisce i dettagli dell'esecuzione della valutazione, tra cui l'elenco dei file elaborati, gli errori e la completezza del report. Puoi utilizzare questa pagina per esaminare i dati mancanti nel report e comprendere meglio la completezza complessiva del report.

Condividi il report

Il report di Looker Studio è una dashboard frontend per la valutazione della migrazione. Si basa sulle autorizzazioni di accesso al set di dati sottostante. Per condividere il report, il destinatario deve avere accesso sia al report di Looker Studio sia al set di dati BigQuery che contiene i risultati della valutazione.

Quando apri il report dalla console Google Cloud, lo visualizzi in modalità di anteprima. Per creare e condividere il report con altri utenti, segui questi passaggi:

  1. Fai clic su Modifica e condividi. Looker Studio ti chiede di collegare i connettori di Looker Studio appena creati al nuovo report.
  2. Fai clic su Aggiungi al report. Il report riceve un ID report individuale che puoi utilizzare per accedervi.
  3. Per condividere il report di Looker Studio con altri utenti, segui i passaggi descritti in Condividere i report con visualizzatori ed editor.
  4. Concedi agli utenti l'autorizzazione per visualizzare il set di dati BigQuery utilizzato per eseguire l'attività di valutazione. Per ulteriori informazioni, consulta Concedere l'accesso a un set di dati.

Esegui query sulle tabelle di output della valutazione della migrazione

Sebbene i report di Looker Studio siano il modo più pratico per visualizzare i risultati della valutazione, puoi anche visualizzare e eseguire query sui dati sottostanti nel set di dati BigQuery.

Query di esempio

L'esempio seguente restituisce il numero totale di query uniche, il numero di query per le quali la traduzione non è riuscita e la percentuale di query uniche per le quali la traduzione non è riuscita.

  SELECT
    QueryCount.v AS QueryCount,
    ErrorCount.v as ErrorCount,
    (ErrorCount.v * 100) / QueryCount.v AS FailurePercentage
  FROM
  (
    SELECT
     COUNT(*) AS v
    FROM
      `your_project.your_dataset.TranslationErrors`
    WHERE Type = "ERROR"
  ) AS ErrorCount,
  (
    SELECT
      COUNT(DISTINCT(QueryHash)) AS v
    FROM
      `your_project.your_dataset.Queries`
  ) AS QueryCount;

Condividere il set di dati con gli utenti di altri progetti

Dopo aver ispezionato il set di dati, se vuoi condividerlo con un utente che non fa parte del tuo progetto, puoi utilizzare il flusso di lavoro del publisher di Analytics Hub.

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Fai clic sul set di dati per visualizzarne i dettagli.

  3. Fai clic su Condivisione > Pubblica come scheda.

  4. Nella finestra di dialogo visualizzata, crea una scheda come richiesto.

    Se hai già un scambio di dati, salta il passaggio 5.

  5. Crea una piattaforma di scambio pubblicitario e imposta le autorizzazioni. Per consentire a un utente di visualizzare le tue schede in questa piattaforma di scambio, aggiungilo all'elenco Abbonati.

  6. Inserisci i dettagli della scheda.

    Nome visualizzato è il nome di questa scheda ed è obbligatorio; gli altri campi sono facoltativi.

  7. Fai clic su Pubblica.

    Viene creata una scheda privata.

  8. Per la tua scheda, seleziona Altre azioni in Azioni.

  9. Fai clic su Copia link condivisione.

    Puoi condividere il link con gli utenti che hanno accesso in abbonamento alla tua piattaforma di scambio pubblicitario o alla tua scheda.

Tabelle di valutazione schematizzate

Per visualizzare le tabelle e i relativi schemi che la valutazione della migrazione a BigQuery scrive in BigQuery, seleziona il tuo data warehouse:

Teradata

AllRIChildren

Questa tabella fornisce le informazioni sull'integrità referenziale delle tabelle figlie.

Colonna Tipo Descrizione
IndexId INTEGER Il numero di indice di riferimento.
IndexName STRING Il nome dell'indice.
ChildDB STRING Il nome del database di riferimento, convertito in lettere minuscole.
ChildDBOriginal STRING Il nome del database di riferimento con la maiuscola conservata.
ChildTable STRING Il nome della tabella di riferimento, convertito in minuscolo.
ChildTableOriginal STRING Il nome della tabella di riferimento con la cassetta conservata.
ChildKeyColumn STRING Il nome di una colonna nella chiave di riferimento, convertito in minuscolo.
ChildKeyColumnOriginal STRING Il nome di una colonna nella chiave di riferimento con la maiuscola conservata.
ParentDB STRING Il nome del database a cui si fa riferimento, convertito in lettere minuscole.
ParentDBOriginal STRING Il nome del database a cui si fa riferimento con la maiuscola conservata.
ParentTable STRING Il nome della tabella a cui si fa riferimento, convertito in minuscolo.
ParentTableOriginal STRING Il nome della tabella a cui si fa riferimento con la maiuscola conservata.
ParentKeyColumn STRING Il nome della colonna in una chiave a cui viene fatto riferimento, convertito in minuscolo.
ParentKeyColumnOriginal STRING Il nome della colonna in una chiave a cui viene fatto riferimento con la maiuscola conservata.

AllRIParents

Questa tabella fornisce le informazioni sull'integrità referenziale delle tabelle principali.

Colonna Tipo Descrizione
IndexId INTEGER Il numero di indice di riferimento.
IndexName STRING Il nome dell'indice.
ChildDB STRING Il nome del database di riferimento, convertito in lettere minuscole.
ChildDBOriginal STRING Il nome del database di riferimento con la maiuscola conservata.
ChildTable STRING Il nome della tabella di riferimento, convertito in minuscolo.
ChildTableOriginal STRING Il nome della tabella di riferimento con la cassetta conservata.
ChildKeyColumn STRING Il nome di una colonna nella chiave di riferimento, convertito in minuscolo.
ChildKeyColumnOriginal STRING Il nome di una colonna nella chiave di riferimento con la maiuscola conservata.
ParentDB STRING Il nome del database a cui si fa riferimento, convertito in lettere minuscole.
ParentDBOriginal STRING Il nome del database a cui si fa riferimento con la maiuscola conservata.
ParentTable STRING Il nome della tabella a cui si fa riferimento, convertito in minuscolo.
ParentTableOriginal STRING Il nome della tabella a cui si fa riferimento con la maiuscola conservata.
ParentKeyColumn STRING Il nome della colonna in una chiave a cui viene fatto riferimento, convertito in minuscolo.
ParentKeyColumnOriginal STRING Il nome della colonna in una chiave a cui viene fatto riferimento con la maiuscola conservata.

Columns

Questa tabella fornisce informazioni sulle colonne.

Colonna Tipo Descrizione
DatabaseName STRING Il nome del database, convertito in minuscolo.
DatabaseNameOriginal STRING Il nome del database con la cassetta conservata.
TableName STRING Il nome della tabella, convertito in minuscolo.
TableNameOriginal STRING Il nome della tabella con la maiuscola conservata.
ColumnName STRING Il nome della colonna, convertito in minuscolo.
ColumnNameOriginal STRING Il nome della colonna con la maiuscola conservata.
ColumnType STRING Il tipo BigQuery della colonna, ad esempio STRING.
OriginalColumnType STRING Il tipo originale della colonna, ad esempio VARCHAR.
ColumnLength INTEGER Il numero massimo di byte della colonna, ad esempio 30 per VARCHAR(30).
DefaultValue STRING Il valore predefinito, se esistente.
Nullable BOOLEAN Indica se la colonna può ammettere valori nulli.

DiskSpace

Questa tabella fornisce informazioni sull'utilizzo dello spazio su disco per ogni database.

Colonna Tipo Descrizione
DatabaseName STRING Il nome del database, convertito in minuscolo.
DatabaseNameOriginal STRING Il nome del database con la cassetta conservata.
MaxPerm INTEGER Il numero massimo di byte allocati allo spazio permanente.
MaxSpool INTEGER Il numero massimo di byte allocati allo spazio spool.
MaxTemp INTEGER Il numero massimo di byte allocati allo spazio temporaneo.
CurrentPerm INTEGER Il numero di byte attualmente allocati allo spazio permanente.
CurrentSpool INTEGER Il numero di byte attualmente allocati allo spazio spool.
CurrentTemp INTEGER Il numero di byte attualmente allocati allo spazio temporaneo.
PeakPerm INTEGER Numero massimo di byte utilizzati dall'ultimo ripristino per lo spazio permanente.
PeakSpool INTEGER Numero massimo di byte utilizzati dall'ultimo ripristino per lo spazio spool.
PeakPersistentSpool INTEGER Numero massimo di byte utilizzati dall'ultimo ripristino per lo spazio permanente.
PeakTemp INTEGER Numero massimo di byte utilizzati dall'ultimo ripristino per lo spazio temporaneo.
MaxProfileSpool INTEGER Il limite di spazio per la coda per l'utente.
MaxProfileTemp INTEGER Il limite di spazio temporaneo per l'utente.
AllocatedPerm INTEGER Assegnazione attuale dello spazio permanente.
AllocatedSpool INTEGER Allocazione corrente dello spazio spool.
AllocatedTemp INTEGER Allottamento corrente di spazio temporaneo.

Functions

Questa tabella fornisce informazioni sulle funzioni.

Colonna Tipo Descrizione
DatabaseName STRING Il nome del database, convertito in minuscolo.
DatabaseNameOriginal STRING Il nome del database con la cassetta conservata.
FunctionName STRING Il nome della funzione.
LanguageName STRING Il nome della lingua.

Indices

Questa tabella fornisce informazioni sugli indici.

Colonna Tipo Descrizione
DatabaseName STRING Il nome del database, convertito in minuscolo.
DatabaseNameOriginal STRING Il nome del database con la cassetta conservata.
TableName STRING Il nome della tabella, convertito in minuscolo.
TableNameOriginal STRING Il nome della tabella con la maiuscola conservata.
IndexName STRING Il nome dell'indice.
ColumnName STRING Il nome della colonna, convertito in minuscolo.
ColumnNameOriginal STRING Il nome della colonna con la maiuscola conservata.
OrdinalPosition INTEGER La posizione della colonna.
UniqueFlag BOOLEAN Indica se l'indice impone l'unicità.

Queries

Questa tabella fornisce informazioni sulle query estratte.

Colonna Tipo Descrizione
QueryHash STRING L'hash della query.
QueryText STRING Il testo della query.

QueryLogs

Questa tabella fornisce alcune statistiche di esecuzione sulle query estratte.

Colonna Tipo Descrizione
QueryText STRING Il testo della query.
QueryHash STRING L'hash della query.
QueryId STRING L'ID della query.
QueryType STRING Il tipo di query, Query o DDL.
UserId BYTES L'ID dell'utente che ha eseguito la query.
UserName STRING Il nome dell'utente che ha eseguito la query.
StartTime TIMESTAMP Timestamp di invio della query.
Duration STRING Durata della query in millisecondi.
AppId STRING L'ID dell'applicazione che ha eseguito la query.
ProxyUser STRING L'utente proxy se utilizzato tramite un livello intermedio.
ProxyRole STRING Il ruolo proxy se utilizzato tramite un livello intermedio.

QueryTypeStatistics

Questa tabella fornisce statistiche sui tipi di query.

Colonna Tipo Descrizione
QueryHash STRING L'hash della query.
QueryType STRING Il tipo di query.
UpdatedTable STRING La tabella aggiornata dalla query, se presente.
QueriedTables ARRAY<STRING> Un elenco delle tabelle su cui è stata eseguita la query.

ResUsageScpu

Questa tabella fornisce informazioni sull'utilizzo delle risorse della CPU.

Colonna Tipo Descrizione
EventTime TIMESTAMP L'ora dell'evento.
NodeId INTEGER ID nodo
CabinetId INTEGER Il numero della cassetta fisica del nodo.
ModuleId INTEGER Il numero del modulo fisico del nodo.
NodeType STRING Tipo di nodo.
CpuId INTEGER ID della CPU all'interno di questo nodo.
MeasurementPeriod INTEGER Il periodo della misurazione espresso in centisecondi.
SummaryFlag STRING S - riga di riepilogo, N - riga non di riepilogo
CpuFrequency FLOAT Frequenza della CPU in MHz.
CpuIdle FLOAT Il tempo di inattività della CPU espresso in centisecondi.
CpuIoWait FLOAT Il tempo di attesa della CPU per l'I/O espresso in centisecondi.
CpuUServ FLOAT Il tempo in cui la CPU esegue il codice utente espresso in centisecondi.
CpuUExec FLOAT Il tempo in cui la CPU esegue il codice di servizio espresso in centisecondi.

Roles

Questa tabella fornisce informazioni sui ruoli.

Colonna Tipo Descrizione
RoleName STRING Il nome del ruolo.
Grantor STRING Il nome del database che ha concesso il ruolo.
Grantee STRING L'utente a cui viene concesso il ruolo.
WhenGranted TIMESTAMP Quando è stato concesso il ruolo.
WithAdmin BOOLEAN L'opzione Amministratore è impostata per il ruolo concesso.

SchemaConversion

Questa tabella fornisce informazioni sulle conversioni dello schema relative a clustering e partizionamento.

Nome colonna Tipo di colonna Descrizione
DatabaseName STRING Il nome del database di origine per cui viene fornito il suggerimento. Un database viene mappato a un set di dati in BigQuery.
TableName STRING Il nome della tabella per cui viene fornito il suggerimento.
PartitioningColumnName STRING Il nome della colonna di partizionamento suggerita in BigQuery.
ClusteringColumnNames ARRAY I nomi delle colonne di clustering suggerite in BigQuery.
CreateTableDDL STRING CREATE TABLE statement per creare la tabella in BigQuery.

TableInfo

Questa tabella fornisce informazioni sulle tabelle.

Colonna Tipo Descrizione
DatabaseName STRING Il nome del database, convertito in minuscolo.
DatabaseNameOriginal STRING Il nome del database con la cassetta conservata.
TableName STRING Il nome della tabella, convertito in minuscolo.
TableNameOriginal STRING Il nome della tabella con la maiuscola conservata.
LastAccessTimestamp TIMESTAMP L'ultima volta che è stato eseguito l'accesso alla tabella.
LastAlterTimestamp TIMESTAMP L'ultima volta che la tabella è stata modificata.
TableKind STRING Il tipo di tabella.

TableRelations

Questa tabella fornisce informazioni sulle tabelle.

Colonna Tipo Descrizione
QueryHash STRING L'hash della query che ha stabilito la relazione.
DatabaseName1 STRING Il nome del primo database.
TableName1 STRING Il nome della prima tabella.
DatabaseName2 STRING Il nome del secondo database.
TableName2 STRING Il nome della seconda tabella.
Relation STRING Il tipo di relazione tra le due tabelle.

TableSizes

Questa tabella fornisce informazioni sulle dimensioni delle tabelle.

Colonna Tipo Descrizione
DatabaseName STRING Il nome del database, convertito in minuscolo.
DatabaseNameOriginal STRING Il nome del database con la cassetta conservata.
TableName STRING Il nome della tabella, convertito in minuscolo.
TableNameOriginal STRING Il nome della tabella con la maiuscola conservata.
TableSizeInBytes INTEGER Le dimensioni della tabella in byte.

Users

Questa tabella fornisce informazioni sugli utenti.

Colonna Tipo Descrizione
UserName STRING Il nome dell'utente.
CreatorName STRING Il nome dell'entità che ha creato questo utente.
CreateTimestamp TIMESTAMP Il timestamp della creazione dell'utente.
LastAccessTimestamp TIMESTAMP Il timestamp dell'ultimo accesso di questo utente a un database.

Amazon Redshift

Columns

La tabella Columns proviene da una delle seguenti tabelle: SVV_COLUMNS, INFORMATION_SCHEMA.COLUMNS o PG_TABLE_DEF, ordinate in base alla priorità. Lo strumento tenta inizialmente di caricare i dati dalla tabella con la priorità più alta. Se non riesce, tenta di caricare i dati dalla tabella con la priorità successiva più alta. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di Amazon Redshift o PostgreSQL.

Colonna Tipo Descrizione
DatabaseName STRING Il nome del database.
SchemaName STRING Il nome dello schema.
TableName STRING Il nome della tabella.
ColumnName STRING Il nome della colonna.
DefaultValue STRING Il valore predefinito, se disponibile.
Nullable BOOLEAN Indica se una colonna può avere o meno un valore null.
ColumnType STRING Il tipo di colonna, ad esempio VARCHAR.
ColumnLength INTEGER La dimensione della colonna, ad esempio 30 per un VARCHAR(30).

CreateAndDropStatistic

Questa tabella fornisce informazioni sulla creazione e sull'eliminazione delle tabelle.

Colonna Tipo Descrizione
QueryHash STRING L'hash della query.
DefaultDatabase STRING Il database predefinito.
EntityType STRING Il tipo di entità, ad esempio TABLE.
EntityName STRING Il nome dell'entità.
Operation STRING L'operazione: CREATE o DROP.

Databases

Questa tabella proviene direttamente dalla tabella PG_DATABASE_INFO di Amazon Redshift. I nomi dei campi originali della tabella PG sono inclusi nelle descrizioni. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di Amazon Redshift e PostgreSQL.

Colonna Tipo Descrizione
DatabaseName STRING Il nome del database. Nome origine: datname
Owner STRING Il proprietario del database. Ad esempio, l'utente che ha creato il database. Nome dell'origine: datdba

ExternalColumns

Questa tabella contiene informazioni provenienti direttamente dalla tabella SVV_EXTERNAL_COLUMNS di Amazon Redshift. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di Amazon Redshift.

Colonna Tipo Descrizione
SchemaName STRING Il nome dello schema esterno.
TableName STRING Il nome della tabella esterna.
ColumnName STRING Il nome della colonna esterna.
ColumnType STRING Il tipo di colonna.
Nullable BOOLEAN Indica se una colonna può avere o meno un valore null.

ExternalDatabases

Questa tabella contiene informazioni della tabella SVV_EXTERNAL_DATABASES di Amazon Redshift. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di Amazon Redshift.

Colonna Tipo Descrizione
DatabaseName STRING Il nome del database esterno.
Location STRING La posizione del database.

ExternalPartitions

Questa tabella contiene informazioni della tabella SVV_EXTERNAL_PARTITIONS di Amazon Redshift. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di Amazon Redshift.

Colonna Tipo Descrizione
SchemaName STRING Il nome dello schema esterno.
TableName STRING Il nome della tabella esterna.
Location STRING La posizione della partizione. La dimensione della colonna è limitata a 128 caratteri. I valori più lunghi vengono troncati.

ExternalSchemas

Questa tabella contiene informazioni provenienti direttamente dalla tabella SVV_EXTERNAL_SCHEMAS di Amazon Redshift. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di Amazon Redshift.

Colonna Tipo Descrizione
SchemaName STRING Il nome dello schema esterno.
DatabaseName STRING Il nome del database esterno.

ExternalTables

Questa tabella contiene informazioni provenienti direttamente dalla tabella SVV_EXTERNAL_TABLES di Amazon Redshift. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di Amazon Redshift.

Colonna Tipo Descrizione
SchemaName STRING Il nome dello schema esterno.
TableName STRING Il nome della tabella esterna.

Functions

Questa tabella contiene informazioni direttamente dalla tabella PG_PROC di Amazon Redshift. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di Amazon Redshift e PostgreSQL.

Colonna Tipo Descrizione
SchemaName STRING Il nome dello schema.
FunctionName STRING Il nome della funzione.
LanguageName STRING Il linguaggio di implementazione o l'interfaccia di chiamata di questa funzione.

Queries

Questa tabella viene generata utilizzando le informazioni della tabella QueryLogs. A differenza della tabella QueryLogs, ogni riga della tabella Query contiene un solo statement di query memorizzato nella colonna QueryText. Questa tabella fornisce i dati di origine per generare le tabelle Statistiche e gli output di traduzione.

Colonna Tipo Descrizione
QueryText STRING Il testo della query.
QueryHash STRING L'hash della query.

QueryLogs

Questa tabella fornisce informazioni sull'esecuzione delle query.

Colonna Tipo Descrizione
QueryText STRING Il testo della query.
QueryHash STRING L'hash della query.
QueryID STRING L'ID della query.
UserID STRING L'ID dell'utente.
StartTime TIMESTAMP L'ora di inizio.
Duration INTEGER Durata in millisecondi.

QueryTypeStatistics

Colonna Tipo Descrizione
QueryHash STRING L'hash della query.
DefaultDatabase STRING Il database predefinito.
QueryType STRING Il tipo di query.
UpdatedTable STRING La tabella aggiornata.
QueriedTables ARRAY<STRING> Le tabelle su cui è stata eseguita la query.

TableInfo

Questa tabella contiene informazioni estratte dalla tabella SVV_TABLE_INFO in Amazon Redshift.

Colonna Tipo Descrizione
DatabaseName STRING Il nome del database.
SchemaName STRING Il nome dello schema.
TableId INTEGER L'ID tabella.
TableName STRING Il nome della tabella.
SortKey1 STRING Prima colonna nella chiave di ordinamento.
SortKeyNum INTEGER Numero di colonne definite come chiavi di ordinamento.
MaxVarchar INTEGER Dimensioni della colonna più grande che utilizza un tipo di dati VARCHAR.
Size INTEGER Dimensioni della tabella, in blocchi di dati da 1 MB.
TblRows INTEGER Numero totale di righe nella tabella.

TableRelations

Colonna Tipo Descrizione
QueryHash STRING L'hash della query che ha stabilito la relazione (ad es. una query JOIN).
DefaultDatabase STRING Il database predefinito.
TableName1 STRING La prima tabella della relazione.
TableName2 STRING La seconda tabella della relazione.
Relation STRING Il tipo di relazione. Deve essere uno dei seguenti valori: COMMA_JOIN, CROSS_JOIN, FULL_OUTER_JOIN, INNER_JOIN, LEFT_OUTER_JOIN, RIGHT_OUTER_JOIN, CREATED_FROM o INSERT_INTO.
Count INTEGER La frequenza con cui è stata osservata questa relazione.

TableSizes

Questa tabella fornisce informazioni sulle dimensioni delle tabelle.

Colonna Tipo Descrizione
DatabaseName STRING Il nome del database.
SchemaName STRING Il nome dello schema.
TableName STRING Il nome della tabella.
TableSizeInBytes INTEGER Le dimensioni della tabella in byte.

Tables

Questa tabella contiene le informazioni estratte dalla tabella SVV_TABLES in Amazon Redshift. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di Amazon Redshift.

Colonna Tipo Descrizione
DatabaseName STRING Il nome del database.
SchemaName STRING Il nome dello schema.
TableName STRING Il nome della tabella.
TableType STRING Il tipo di tabella.

TranslatedQueries

Questa tabella fornisce le traduzioni delle query.

Colonna Tipo Descrizione
QueryHash STRING L'hash della query.
TranslatedQueryText STRING Risultato della traduzione dal dialetto di origine a GoogleSQL.

TranslationErrors

Questa tabella fornisce informazioni sugli errori di traduzione delle query.

Colonna Tipo Descrizione
QueryHash STRING L'hash della query.
Severity STRING La gravità dell'errore, ad esempio ERROR.
Category STRING La categoria dell'errore, ad esempio AttributeNotFound.
Message STRING Il messaggio con i dettagli dell'errore.
LocationOffset INTEGER La posizione del carattere in cui si è verificato l'errore.
LocationLine INTEGER Il numero di riga dell'errore.
LocationColumn INTEGER Il numero di colonna dell'errore.
LocationLength INTEGER La lunghezza in caratteri della posizione dell'errore.

UserTableRelations

Colonna Tipo Descrizione
UserID STRING L'ID utente.
TableName STRING Il nome della tabella.
Relation STRING La relazione.
Count INTEGER Il conteggio.

Users

Questa tabella contiene informazioni estratte dalla tabella PG_USER in Amazon Redshift. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di PostgreSQL.

Colonna Tipo Descrizione
UserName STRING Il nome dell'utente.
UserId STRING L'ID utente.

Apache Hive

Columns

Questa tabella fornisce informazioni sulle colonne:

Colonna Tipo Descrizione
DatabaseName STRING Il nome del database con la cassetta conservata.
TableName STRING Il nome della tabella con la maiuscola conservata.
ColumnName STRING Il nome della colonna con la maiuscola conservata.
ColumnType STRING Il tipo BigQuery della colonna, ad esempio STRING.
OriginalColumnType STRING Il tipo originale della colonna, ad esempio VARCHAR.

CreateAndDropStatistic

Questa tabella fornisce informazioni sulla creazione e sull'eliminazione delle tabelle:

Colonna Tipo Descrizione
QueryHash STRING L'hash della query.
DefaultDatabase STRING Il database predefinito.
EntityType STRING Il tipo di entità, ad esempio TABLE.
EntityName STRING Il nome dell'entità.
Operation STRING L'operazione eseguita sulla tabella (CREATE o DROP).

Databases

Questa tabella fornisce informazioni sui database:

Colonna Tipo Descrizione
DatabaseName STRING Il nome del database con la cassetta conservata.
Owner STRING Il proprietario del database. Ad esempio, l'utente che ha creato il database.
Location STRING Posizione del database nel file system.

Functions

Questa tabella fornisce informazioni sulle funzioni:

Colonna Tipo Descrizione
DatabaseName STRING Il nome del database con la cassetta conservata.
FunctionName STRING Il nome della funzione.
LanguageName STRING Il nome della lingua.
ClassName STRING Il nome della classe della funzione.

ObjectReferences

Questa tabella fornisce informazioni sugli oggetti a cui viene fatto riferimento nelle query:

Colonna Tipo Descrizione
QueryHash STRING L'hash della query.
DefaultDatabase STRING Il database predefinito.
Clause STRING La clausola in cui compare l'oggetto. Ad esempio, SELECT.
ObjectName STRING Il nome dell'oggetto.
Type STRING Il tipo di oggetto.
Subtype STRING Il sottotipo dell'oggetto.

ParititionKeys

Questa tabella fornisce informazioni sulle chiavi di partizione:

Colonna Tipo Descrizione
DatabaseName STRING Il nome del database con la cassetta conservata.
TableName STRING Il nome della tabella con la maiuscola conservata.
ColumnName STRING Il nome della colonna con la maiuscola conservata.
ColumnType STRING Il tipo BigQuery della colonna, ad esempio STRING.

Parititions

Questa tabella fornisce informazioni sulle partizioni delle tabelle:

Colonna Tipo Descrizione
DatabaseName STRING Il nome del database con la cassetta conservata.
TableName STRING Il nome della tabella con la maiuscola conservata.
PartitionName STRING Il nome della partizione.
CreateTimestamp TIMESTAMP Il timestamp della creazione di questa partizione.
LastAccessTimestamp TIMESTAMP Il timestamp dell'ultimo accesso a questa partizione.
LastDdlTimestamp TIMESTAMP Il timestamp dell'ultima modifica di questa partizione.
TotalSize INTEGER Le dimensioni compresse della partizione in byte.

Queries

Questa tabella viene generata utilizzando le informazioni della tabella QueryLogs. A differenza della tabella QueryLogs, ogni riga della tabella Query contiene una sola istruzione di query memorizzata nella colonna QueryText. Questa tabella fornisce i dati di origine per generare le tabelle Statistiche e gli output di traduzione:

Colonna Tipo Descrizione
QueryHash STRING L'hash della query.
QueryText STRING Il testo della query.

QueryLogs

Questa tabella fornisce alcune statistiche di esecuzione sulle query estratte:

Colonna Tipo Descrizione
QueryText STRING Il testo della query.
QueryHash STRING L'hash della query.
QueryId STRING L'ID della query.
QueryType STRING Il tipo di query, Query o DDL.
UserName STRING Il nome dell'utente che ha eseguito la query.
StartTime TIMESTAMP Il timestamp di invio della query.
Duration STRING La durata della query in millisecondi.

QueryTypeStatistics

Questa tabella fornisce statistiche sui tipi di query:

Colonna Tipo Descrizione
QueryHash STRING L'hash della query.
QueryType STRING Il tipo di query.
UpdatedTable STRING La tabella aggiornata dalla query, se presente.
QueriedTables ARRAY<STRING> Un elenco delle tabelle su cui è stata eseguita la query.

QueryTypes

Questa tabella fornisce statistiche sui tipi di query:

Colonna Tipo Descrizione
QueryHash STRING L'hash della query.
Category STRING La categoria della query.
Type STRING Il tipo di query.
Subtype STRING Il sottotipo della query.

SchemaConversion

Questa tabella fornisce informazioni sulle conversioni dello schema correlate al clustering e al partizionamento:

Nome colonna Tipo di colonna Descrizione
DatabaseName STRING Il nome del database di origine per cui viene fornito il suggerimento. Un database viene mappato a un set di dati in BigQuery.
TableName STRING Il nome della tabella per cui viene fornito il suggerimento.
PartitioningColumnName STRING Il nome della colonna di partizionamento suggerita in BigQuery.
ClusteringColumnNames ARRAY I nomi delle colonne di clustering suggerite in BigQuery.
CreateTableDDL STRING CREATE TABLE statement per creare la tabella in BigQuery.

TableRelations

Questa tabella fornisce informazioni sulle tabelle:

Colonna Tipo Descrizione
QueryHash STRING L'hash della query che ha stabilito la relazione.
DatabaseName1 STRING Il nome del primo database.
TableName1 STRING Il nome della prima tabella.
DatabaseName2 STRING Il nome del secondo database.
TableName2 STRING Il nome della seconda tabella.
Relation STRING Il tipo di relazione tra le due tabelle.

TableSizes

Questa tabella fornisce informazioni sulle dimensioni delle tabelle:

Colonna Tipo Descrizione
DatabaseName STRING Il nome del database con la cassetta conservata.
TableName STRING Il nome della tabella con la maiuscola conservata.
TotalSize INTEGER Le dimensioni della tabella in byte.

Tables

Questa tabella fornisce informazioni sulle tabelle:

Colonna Tipo Descrizione
DatabaseName STRING Il nome del database con la cassetta conservata.
TableName STRING Il nome della tabella con la maiuscola conservata.
Type STRING Il tipo di tabella.

TranslatedQueries

Questa tabella fornisce le traduzioni delle query:

Colonna Tipo Descrizione
QueryHash STRING L'hash della query.
TranslatedQueryText STRING Il risultato della traduzione dal dialetto di origine a GoogleSQL.

TranslationErrors

Questa tabella fornisce informazioni sugli errori di traduzione delle query:

Colonna Tipo Descrizione
QueryHash STRING L'hash della query.
Severity STRING La gravità dell'errore, ad esempio ERROR.
Category STRING La categoria dell'errore, ad esempio AttributeNotFound.
Message STRING Il messaggio con i dettagli dell'errore.
LocationOffset INTEGER La posizione del carattere in cui si è verificato l'errore.
LocationLine INTEGER Il numero di riga dell'errore.
LocationColumn INTEGER Il numero di colonna dell'errore.
LocationLength INTEGER La lunghezza in caratteri della posizione dell'errore.

UserTableRelations

Colonna Tipo Descrizione
UserID STRING L'ID utente.
TableName STRING Il nome della tabella.
Relation STRING La relazione.
Count INTEGER Il conteggio.

Snowflake

Warehouses

Colonna Tipo Descrizione Presenza
WarehouseName STRING Il nome del magazzino. Sempre
State STRING Lo stato del magazzino. Valori possibili: STARTED, SUSPENDED, RESIZING. Sempre
Type STRING Tipo di magazzino. Valori possibili: STANDARD, SNOWPARK-OPTIMIZED. Sempre
Size STRING Dimensioni del magazzino. Valori possibili: X-Small, Small, Medium, Large, X-Large, 2X-Large ... 6X-Large. Sempre

Databases

Colonna Tipo Descrizione Presenza
DatabaseNameOriginal STRING Il nome del database, con la maiuscola conservata. Sempre
DatabaseName STRING Il nome del database, convertito in minuscolo. Sempre

Schemata

Colonna Tipo Descrizione Presenza
DatabaseNameOriginal STRING Il nome del database a cui appartiene lo schema, con la maiuscola conservata. Sempre
DatabaseName STRING Il nome del database a cui appartiene lo schema, convertito in minuscolo. Sempre
SchemaNameOriginal STRING Il nome dello schema, con la maiuscola conservata. Sempre
SchemaName STRING Il nome dello schema, convertito in minuscolo. Sempre

Tables

Colonna Tipo Descrizione Presenza
DatabaseNameOriginal STRING Il nome del database a cui appartiene la tabella, con la maiuscola conservata. Sempre
DatabaseName STRING Il nome del database a cui appartiene la tabella, convertito in minuscolo. Sempre
SchemaNameOriginal STRING Il nome dello schema a cui appartiene la tabella, con la maiuscola conservata. Sempre
SchemaName STRING Il nome dello schema a cui appartiene la tabella, convertito in minuscolo. Sempre
TableNameOriginal STRING Il nome della tabella, con la maiuscola conservata. Sempre
TableName STRING Il nome della tabella, convertito in minuscolo. Sempre
TableType STRING Tipo di tabella (vista / vista materializzata / tabella di base). Sempre
RowCount BIGNUMERIC Numero di righe nella tabella. Sempre

Columns

Colonna Tipo Descrizione Presenza
DatabaseName STRING Il nome del database, convertito in minuscolo. Sempre
DatabaseNameOriginal STRING Il nome del database, con la maiuscola conservata. Sempre
SchemaName STRING Il nome dello schema, convertito in minuscolo. Sempre
SchemaNameOriginal STRING Il nome dello schema, con la maiuscola conservata. Sempre
TableName STRING Il nome della tabella, convertito in minuscolo. Sempre
TableNameOriginal STRING Il nome della tabella con la maiuscola conservata. Sempre
ColumnName STRING Il nome della colonna, convertito in minuscolo. Sempre
ColumnNameOriginal STRING Il nome della colonna con la maiuscola conservata. Sempre
ColumnType STRING Il tipo di colonna. Sempre

CreateAndDropStatistics

Colonna Tipo Descrizione Presenza
QueryHash STRING L'hash della query. Sempre
DefaultDatabase STRING Il database predefinito. Sempre
EntityType STRING Il tipo di entità, ad esempio TABLE. Sempre
EntityName STRING Il nome dell'entità. Sempre
Operation STRING L'operazione: CREATE o DROP. Sempre

Queries

Colonna Tipo Descrizione Presenza
QueryText STRING Il testo della query. Sempre
QueryHash STRING L'hash della query. Sempre

QueryLogs

Colonna Tipo Descrizione Presenza
QueryText STRING Il testo della query. Sempre
QueryHash STRING L'hash della query. Sempre
QueryID STRING L'ID della query. Sempre
UserID STRING L'ID dell'utente. Sempre
StartTime TIMESTAMP L'ora di inizio. Sempre
Duration INTEGER Durata in millisecondi. Sempre

QueryTypeStatistics

Colonna Tipo Descrizione Presenza
QueryHash STRING L'hash della query. Sempre
DefaultDatabase STRING Il database predefinito. Sempre
QueryType STRING Il tipo di query. Sempre
UpdatedTable STRING La tabella aggiornata. Sempre
QueriedTables REPEATED STRING Le tabelle su cui è stata eseguita la query. Sempre

TableRelations

Colonna Tipo Descrizione Presenza
QueryHash STRING L'hash della query che ha stabilito la relazione (ad esempio, una query JOIN). Sempre
DefaultDatabase STRING Il database predefinito. Sempre
TableName1 STRING La prima tabella della relazione. Sempre
TableName2 STRING La seconda tabella della relazione. Sempre
Relation STRING Il tipo di relazione. Sempre
Count INTEGER La frequenza con cui è stata osservata questa relazione. Sempre

TranslatedQueries

Colonna Tipo Descrizione Presenza
QueryHash STRING L'hash della query. Sempre
TranslatedQueryText STRING Risultato della traduzione dal dialetto di origine a BigQuery SQL. Sempre

TranslationErrors

Colonna Tipo Descrizione Presenza
QueryHash STRING L'hash della query. Sempre
Severity STRING La gravità dell'errore, ad esempio ERROR. Sempre
Category STRING La categoria dell'errore, ad esempio AttributeNotFound. Sempre
Message STRING Il messaggio con i dettagli dell'errore. Sempre
LocationOffset INTEGER La posizione del carattere in cui si è verificato l'errore. Sempre
LocationLine INTEGER Il numero di riga dell'errore. Sempre
LocationColumn INTEGER Il numero di colonna dell'errore. Sempre
LocationLength INTEGER La lunghezza in caratteri della posizione dell'errore. Sempre

UserTableRelations

Colonna Tipo Descrizione Presenza
UserID STRING ID utente. Sempre
TableName STRING Il nome della tabella. Sempre
Relation STRING La relazione. Sempre
Count INTEGER Il conteggio. Sempre

Risoluzione dei problemi

Questa sezione illustra alcuni problemi comuni e tecniche di risoluzione dei problemi per la migrazione del data warehouse a BigQuery.

dwh-migration-dumper errori dello strumento

Per risolvere i problemi relativi a errori e avvisi nell'output del terminale dello strumento dwh-migration-dumper che si sono verificati durante l'estrazione dei metadati o dei log delle query, consulta la sezione Risoluzione dei problemi relativi alla generazione dei metadati.

Errori di migrazione di Hive

Questa sezione descrive i problemi comuni che potresti riscontrare quando pianifichi la migrazione del tuo data warehouse da Hive a BigQuery.

L'hook di logging scrive i messaggi di log di debug nei loghive-server2. Se riscontri problemi, esamina i log di debug dell'hook di logging, che contengono la stringa MigrationAssessmentLoggingHook.

Gestire l'errore ClassNotFoundException

L'errore potrebbe essere causato dal posizionamento errato del file JAR dell'hook di registrazione. Assicurati di aver aggiunto il file JAR alla cartella auxlib nel cluster Hive. In alternativa, puoi specificare il percorso completo del file JAR nella proprietà hive.aux.jars.path, ad esempio file:///HiveMigrationAssessmentQueryLogsHooks_deploy.jar.

Le sottocartelle non vengono visualizzate nella cartella configurata

Questo problema potrebbe essere causato da una configurazione errata o da problemi durante l'inizializzazione dell'hook di log.

Cerca nei log di debug hive-server2 i seguenti messaggi di hook di logging:

Unable to initialize logger, logging disabled
Log dir configuration key 'dwhassessment.hook.base-directory' is not set,
logging disabled.
Error while trying to set permission

Esamina i dettagli del problema e controlla se c'è qualcosa da correggere per risolverlo.

I file non vengono visualizzati nella cartella

Questo problema potrebbe essere causato da problemi riscontrati durante l'elaborazione di un evento o durante la scrittura in un file.

Cerca nei log di debug di hive-server2 i seguenti messaggi di hook di logging:

Failed to close writer for file
Got exception while processing event
Error writing record for query

Esamina i dettagli del problema e controlla se c'è qualcosa da correggere per risolverlo.

Alcuni eventi di query non vengono rilevati

Questo problema potrebbe essere causato da un overflow della coda del thread di hook di registrazione.

Cerca nei log di debug hive-server2 il seguente messaggio di hook di logging:

Writer queue is full. Ignoring event

Se sono presenti messaggi di questo tipo, valuta la possibilità di aumentare il parametrodwhassessment.hook.queue.capacity.

Passaggi successivi

Per ulteriori informazioni sullo strumento dwh-migration-dumper, consulta dwh-migration-tools.

Puoi anche scoprire di più sui seguenti passaggi della migrazione del data warehouse: