Valutazione della migrazione
La valutazione della migrazione a BigQuery ti consente di pianificare e rivedere la migrazione del tuo data warehouse esistente in BigQuery. Puoi eseguire la valutazione della migrazione a BigQuery per generare un report che ti consenta di valutare il costo di archiviazione dei dati in BigQuery, di capire in che modo BigQuery può ottimizzare il tuo carico di lavoro esistente per risparmiare sui costi e di preparare un piano di migrazione che illustri il tempo e lo sforzo necessari per completare la migrazione del data warehouse a BigQuery.
Questo documento descrive come utilizzare la valutazione della migrazione di BigQuery e i diversi modi in cui puoi esaminare i risultati della valutazione. Questo documento è rivolto agli utenti che hanno familiarità con la console Google Cloud e il traduttore SQL batch.
Prima di iniziare
Per preparare ed eseguire una valutazione della migrazione di BigQuery:
Estrai i metadati e i log delle query dal tuo data warehouse utilizzando lo strumento
dwh-migration-dumper
.Carica i metadati e i log delle query nel bucket Cloud Storage.
(Facoltativo) Esegui query sui risultati della valutazione per trovare informazioni dettagliate o specifiche sulla valutazione.
Estrarre metadati e log delle query dal data warehouse
Sia i metadati che i log delle query sono necessari per preparare la valutazione con i consigli.
Per estrarre i metadati e i log delle query necessari per eseguire la valutazione, seleziona il tuo data warehouse:
Teradata
Requisiti
- Un computer collegato al data warehouse Teradata di origine (sono supportati Teradata 15 e versioni successive)
- Un account Google Cloud con un bucket Cloud Storage per archiviare i dati
- Un set di dati BigQuery vuoto per archiviare i risultati
- Autorizzazioni di lettura sul set di dati per visualizzare i risultati
- Consigliato: diritti di accesso a livello di amministratore al database di origine quando utilizzi lo strumento di estrazione per accedere alle tabelle di sistema
Requisito: abilita il logging
Lo strumento dwh-migration-dumper
estrae tre tipi di log: log delle query, log delle utilità e log sull'utilizzo delle risorse. Per visualizzare approfondimenti più approfonditi, devi attivare il logging per i seguenti tipi di log:
- Log delle query:estratti dalla visualizzazione
dbc.QryLogV
e dalla tabelladbc.DBQLSqlTbl
. Attiva il logging specificando l'opzioneWITH SQL
. - Log di utilità:estratti dalla tabella
dbc.DBQLUtilityTbl
. Abilita l'accesso specificando l'opzioneWITH UTILITYINFO
. - Log di utilizzo delle risorse: estratti dalle tabelle
dbc.ResUsageScpu
edbc.ResUsageSpma
. Attiva il logging RSS per queste due tabelle.
Esegui lo strumento dwh-migration-dumper
Scarica lo strumento dwh-migration-dumper
.
Scarica il
file SHA256SUMS.txt
ed esegui il seguente comando per verificare la correttezza del file ZIP:
Bash
sha256sum --check SHA256SUMS.txt
Windows PowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Sostituisci RELEASE_ZIP_FILENAME
con il nome del file ZIP scaricato della release dello strumento di estrazione a riga di comando dwh-migration-dumper
, ad esempio dwh-migration-tools-v1.0.52.zip
Il risultato True
conferma la verifica del checksum.
Il risultato False
indica un errore di verifica. Assicurati che il checksum
e i file ZIP vengano scaricati dalla stessa versione della release e collocati nella stessa directory.
Per informazioni dettagliate su come configurare e utilizzare lo strumento di estrazione, consulta Generare metadati per la traduzione e la valutazione.
Utilizza lo strumento di estrazione per estrarre log e metadati dal data warehouse Teradata come due file ZIP. Esegui i seguenti comandi su una macchina con accesso al data warehouse di origine per generare i file.
Genera il file ZIP dei metadati:
dwh-migration-dumper \ --connector teradata \ --database DATABASES \ --driver path/terajdbc4.jar \ --host HOST \ --assessment \ --user USER \ --password PASSWORD
Genera il file ZIP contenente i log delle query:
dwh-migration-dumper \ --connector teradata-logs \ --driver path/terajdbc4.jar \ --host HOST \ --assessment \ --user USER \ --password PASSWORD
Sostituisci quanto segue:
DATABASES
: l'elenco separato da virgole dei nomi dei database da estrarrePATH
: il percorso assoluto o relativo del file JAR del driver da utilizzare per questa connessioneVERSION
: la versione del driverHOST
: l'indirizzo hostUSER
: il nome utente da utilizzare per la connessione al databasePASSWORD
: la password da utilizzare per la connessione al databaseSe viene lasciato vuoto, all'utente viene chiesta la password.
Puoi utilizzare il flag --database
solo per il connettore teradata
. Questo flag consente di estrarre i metadati di uno o più database. Quando estrai i log delle query utilizzando il connettore teradata-logs
, il flag --database
non è disponibile. I log delle query vengono sempre estratti per tutti i database.
Per impostazione predefinita, i log delle query vengono estratti dalla visualizzazione dbc.QryLogV
e dalla tabella dbc.DBQLSqlTbl
. Se devi
estrarre i log delle query da una posizione alternativa, puoi
specificare i nomi delle tabelle o delle visualizzazioni utilizzando
i flag -Dteradata-logs.query-logs-table
e -Dteradata-logs.sql-logs-table
.
Per impostazione predefinita, i log di utilità vengono estratti dalla tabelladbc.DBQLUtilityTbl
. Se devi estrarre i log di utilità da una posizione alternativa, puoi specificare il nome della tabella utilizzando il flag -Dteradata-logs.utility-logs-table
.
Per impostazione predefinita, i log di utilizzo delle risorse vengono estratti dalle tabelledbc.ResUsageScpu
e dbc.ResUsageSpma
. Se devi estrarre i log di utilizzo delle risorse da una posizione alternativa, puoi specificare i nomi delle tabelle utilizzando i flag -Dteradata-logs.res-usage-scpu-table
e -Dteradata-logs.res-usage-spma-table
.
Ad esempio:
Bash
dwh-migration-dumper \ --connector teradata-logs \ --driver path/terajdbc4.jar \ --host HOST \ --assessment \ --user USER \ --password PASSWORD \ -Dteradata-logs.query-logs-table=pdcrdata.QryLogV_hst \ -Dteradata-logs.sql-logs-table=pdcrdata.DBQLSqlTbl_hst \ -Dteradata-logs.log-date-column=LogDate \ -Dteradata-logs.utility-logs-table=pdcrdata.DBQLUtilityTbl_hst \ -Dteradata-logs.res-usage-scpu-table=pdcrdata.ResUsageScpu_hst \ -Dteradata-logs.res-usage-spma-table=pdcrdata.ResUsageSpma_hst
Windows PowerShell
dwh-migration-dumper ` --connector teradata-logs ` --driver path\terajdbc4.jar ` --host HOST ` --assessment ` --user USER ` --password PASSWORD ` "-Dteradata-logs.query-logs-table=pdcrdata.QryLogV_hst" ` "-Dteradata-logs.sql-logs-table=pdcrdata.DBQLSqlTbl_hst" ` "-Dteradata-logs.log-date-column=LogDate" ` "-Dteradata-logs.utility-logs-table=pdcrdata.DBQLUtilityTbl_hst" ` "-Dteradata-logs.res-usage-scpu-table=pdcrdata.ResUsageScpu_hst" ` "-Dteradata-logs.res-usage-spma-table=pdcrdata.ResUsageSpma_hst"
Per impostazione predefinita, lo strumento dwh-migration-dumper
estrae i log delle query degli ultimi sette giorni.
Google consiglia di fornire almeno due settimane di log delle query per poter visualizzare informazioni più approfondite. Puoi specificare un intervallo di tempo personalizzato utilizzando i flag --query-log-start
e --query-log-end
. Ad esempio:
dwh-migration-dumper \ --connector teradata-logs \ --driver path/terajdbc4.jar \ --host HOST \ --assessment \ --user USER \ --password PASSWORD \ --query-log-start "2023-01-01 00:00:00" \ --query-log-end "2023-01-15 00:00:00"
Puoi anche generare più file ZIP contenenti log delle query che coprono periodi diversi e fornirli tutti per la valutazione.
Amazon Redshift
Requisiti
- Un computer collegato al data warehouse Amazon Redshift di origine
- Un account Google Cloud con un bucket Cloud Storage per archiviare i dati
- Un set di dati BigQuery vuoto per archiviare i risultati
- Autorizzazioni di lettura sul set di dati per visualizzare i risultati
- Consigliato: accesso superutente al database quando si utilizza lo strumento di estrazione per accedere alle tabelle di sistema
Esegui lo strumento dwh-migration-dumper
Scarica lo strumento di estrazione a riga di comando dwh-migration-dumper
.
Scarica il
file SHA256SUMS.txt
ed esegui il seguente comando per verificare la correttezza del file ZIP:
Bash
sha256sum --check SHA256SUMS.txt
Windows PowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Sostituisci RELEASE_ZIP_FILENAME
con il nome del file ZIP scaricato della release dello strumento di estrazione a riga di comando dwh-migration-dumper
, ad esempio dwh-migration-tools-v1.0.52.zip
Il risultato True
conferma la verifica del checksum.
Il risultato False
indica un errore di verifica. Assicurati che il checksum
e i file ZIP vengano scaricati dalla stessa versione della release e collocati nella stessa directory.
Per informazioni dettagliate su come utilizzare lo strumento dwh-migration-dumper
, consulta la pagina Genera metadati.
Utilizza lo strumento dwh-migration-dumper
per estrarre log e metadati dal data warehouse Amazon Redshift come due file ZIP.
Esegui i seguenti comandi su una macchina con accesso al data warehouse di origine per generare i file.
Genera il file ZIP dei metadati:
dwh-migration-dumper \ --connector redshift \ --database DATABASE \ --driver PATH/redshift-jdbc42-VERSION.jar \ --host host.region.redshift.amazonaws.com \ --assessment \ --user USER \ --iam-profile IAM_PROFILE_NAME
Genera il file ZIP contenente i log delle query:
dwh-migration-dumper \ --connector redshift-raw-logs \ --database DATABASE \ --driver PATH/redshift-jdbc42-VERSION.jar \ --host host.region.redshift.amazonaws.com \ --assessment \ --user USER \ --iam-profile IAM_PROFILE_NAME
Sostituisci quanto segue:
DATABASE
: il nome del database a cui connettertiPATH
: il percorso assoluto o relativo del file JAR del driver da utilizzare per questa connessioneVERSION
: la versione del driverUSER
: il nome utente da utilizzare per la connessione al databaseIAM_PROFILE_NAME
: il nome del profilo IAM di Amazon Redshift. Obbligatorio per l'autenticazione di Amazon Redshift e per l'accesso all'API AWS. Per ottenere la descrizione dei cluster Amazon Redshift, utilizza l'API AWS.
Per impostazione predefinita, Amazon Redshift memorizza da tre a cinque giorni di log delle query.
Per impostazione predefinita, lo strumento dwh-migration-dumper
estrae i log delle query degli ultimi sette giorni.
Google consiglia di fornire almeno due settimane di log delle query per poter visualizzare informazioni più approfondite. Per ottenere i risultati migliori, potresti dover eseguire lo strumento di estrazione alcune volte nel corso di due settimane. Puoi specificare un intervallo personalizzato utilizzando i flag --query-log-start
e --query-log-end
.
Ad esempio:
dwh-migration-dumper \ --connector redshift-raw-logs \ --database DATABASE \ --driver PATH/redshift-jdbc42-VERSION.jar \ --host host.region.redshift.amazonaws.com \ --assessment \ --user USER \ --iam-profile IAM_PROFILE_NAME \ --query-log-start "2023-01-01 00:00:00" \ --query-log-end "2023-01-02 00:00:00"
Puoi anche generare più file ZIP contenenti log delle query che coprono periodi diversi e fornirli tutti per la valutazione.
Apache Hive
Requisiti
- Un computer collegato al data warehouse Apache Hive di origine (la valutazione della migrazione di BigQuery supporta Hive su Tez e MapReduce e le versioni di Apache Hive tra 2.2 e 3.1, inclusive)
- Un account Google Cloud con un bucket Cloud Storage per archiviare i dati
- Un set di dati BigQuery vuoto per archiviare i risultati
- Autorizzazioni di lettura sul set di dati per visualizzare i risultati
- Accedi al data warehouse Apache Hive di origine per configurare l'estrazione dei log delle query
- Statistiche aggiornate su tabelle, partizioni e colonne
La valutazione della migrazione a BigQuery utilizza le statistiche di tabelle, partizioni e colonne per comprendere meglio il data warehouse Apache Hive e fornire approfondimenti approfonditi. Se l'impostazione di configurazione hive.stats.autogather
è impostata su false
nel data warehouse Apache Hive di origine, Google consiglia di attivarla o aggiornare le statistiche manualmente prima di eseguire lo strumento dwh-migration-dumper
.
Esegui lo strumento dwh-migration-dumper
Scarica lo strumento di estrazione a riga di comando dwh-migration-dumper
.
Scarica il
file SHA256SUMS.txt
ed esegui il seguente comando per verificare la correttezza del file ZIP:
Bash
sha256sum --check SHA256SUMS.txt
Windows PowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Sostituisci RELEASE_ZIP_FILENAME
con il nome del file ZIP scaricato della release dello strumento di estrazione a riga di comando dwh-migration-dumper
, ad esempio dwh-migration-tools-v1.0.52.zip
Il risultato True
conferma la verifica del checksum.
Il risultato False
indica un errore di verifica. Assicurati che il checksum
e i file ZIP vengano scaricati dalla stessa versione della release e collocati nella stessa directory.
Per informazioni dettagliate su come utilizzare lo strumento dwh-migration-dumper
, consulta
Generare metadati per la traduzione e la valutazione.
Utilizza lo strumento dwh-migration-dumper
per generare i metadati dal data warehouse Hive come file ZIP.
Senza autenticazione
Per generare il file ZIP dei metadati, esegui il seguente comando su una macchina con accesso al data warehouse di origine:
dwh-migration-dumper \ --connector hiveql \ --database DATABASES \ --host hive.cluster.host \ --port 9083 \ --assessment
Con autenticazione Kerberos
Per autenticarti al metastore, accedi come utente che ha accesso al metastore Hive e genera un ticket Kerberos. Quindi, genera il file ZIP dei metadati con il seguente comando:
JAVA_OPTS="-Djavax.security.auth.useSubjectCredsOnly=false" \ dwh-migration-dumper \ --connector hiveql \ --database DATABASES \ --host hive.cluster.host \ --port 9083 \ --hive-kerberos-url PRINCIPAL/HOST \ -Dhiveql.rpc.protection=hadoop.rpc.protection \ --assessment
Sostituisci quanto segue:
DATABASES
: l'elenco separato da virgole dei nomi dei database da estrarre. Se non viene fornito, vengono estratti tutti i database.PRINCIPAL
: l'entità Kerberos a cui viene emesso il ticketHOST
: il nome host Kerberos a cui è stato emesso il tickethadoop.rpc.protection
: la qualità della protezione (QOP) del livello di configurazione del protocollo SASL (Simple Authentication and Security Layer), uguale al valore del parametrohadoop.rpc.protection
all'interno del file/etc/hadoop/conf/core-site.xml
, con uno dei seguenti valori:authentication
integrity
privacy
Estrai i log delle query con l'hook di logging hadoop-migration-assessment
Per estrarre i log delle query:
- Carica il hook di logging
hadoop-migration-assessment
. - Configura le proprietà degli hook di log.
- Verifica il hook di logging.
Carica il hook di logging hadoop-migration-assessment
Scarica il hook per i log di estrazione dei log delle query
hadoop-migration-assessment
che contiene il file JAR dell'hook per i log di Hive.Estrai il file JAR.
Se devi eseguire la verifica dello strumento per assicurarti che soddisfi i requisiti di conformità, esamina il codice sorgente del repository GitHub dell'hook di logging
hadoop-migration-assessment
e compila il tuo file binario.Copia il file JAR nella cartella della libreria ausiliaria su tutti i cluster in cui prevedi di attivare il logging delle query. A seconda del fornitore, devi individuare la cartella della libreria ausiliaria nelle impostazioni del cluster e trasferire il file JAR nella cartella della libreria ausiliaria sul cluster Hive.
Configura le proprietà di configurazione per l'hook di logging
hadoop-migration-assessment
. A seconda del fornitore di Hadoop, devi utilizzare la console dell'interfaccia utente per modificare le impostazioni del cluster. Modifica il file/etc/hive/conf/hive-site.xml
o applica la configurazione con Configuration Manager.
Configura le proprietà
Se hai già altri valori per le seguenti chiavi di configurazione, aggiungi le impostazioni utilizzando una virgola (,
). Per configurare l'hook di logging hadoop-migration-assessment
, sono necessarie le seguenti impostazioni di configurazione:
hive.exec.failure.hooks
:com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
hive.exec.post.hooks
:com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
hive.exec.pre.hooks
:com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
hive.aux.jars.path
: includi il percorso del file JAR dell'hook di logging, ad esempiofile://
./HiveMigrationAssessmentQueryLogsHooks_deploy.jar dwhassessment.hook.base-directory
: percorso della cartella di output dei log delle query. Ad esempio,hdfs://tmp/logs/
.Puoi anche impostare le seguenti configurazioni facoltative:
dwhassessment.hook.queue.capacity
: la capacità della coda per i thread di registrazione degli eventi di query. Il valore predefinito è64
.dwhassessment.hook.rollover-interval
: la frequenza con cui deve essere eseguito il rollover del file. Ad esempio,600s
. Il valore predefinito è 3600 secondi (1 ora).dwhassessment.hook.rollover-eligibility-check-interval
: la frequenza con cui viene attivato il controllo dell'idoneità al rollover dei file in background. Ad esempio,600s
. Il valore predefinito è 600 secondi (10 minuti).
Verifica il hook di logging
Dopo aver riavviato il processo hive-server2
, esegui una query di test
e analizza i log di debug. Viene visualizzato il seguente messaggio:
Logger successfully started, waiting for query events. Log directory is '[dwhassessment.hook.base-directory value]'; rollover interval is '60' minutes; rollover eligibility check is '10' minutes
L'hook di logging crea una sottocartella suddivisa per data nella
cartella configurata. Il file Avro con gli eventi di query viene visualizzato in questa
cartella dopo l'intervallo dwhassessment.hook.rollover-interval
o la terminazione del processo hive-server2
. Puoi cercare messaggi simili nei log di debug per visualizzare lo stato dell'operazione di rollover:
Updated rollover time for logger ID 'my_logger_id' to '2023-12-25T10:15:30'
Performed rollover check for logger ID 'my_logger_id'. Expected rollover time is '2023-12-25T10:15:30'
Il rollover avviene a intervalli specificati o quando cambia il giorno. Quando la data cambia, il hook di logging crea anche una nuova sottocartella per quella data.
Google consiglia di fornire almeno due settimane di log delle query per poter visualizzare informazioni più approfondite.
Puoi anche generare cartelle contenenti log delle query da diversi cluster Hive e fornirli tutti per una singola valutazione.
Snowflake
Requisiti
Per estrarre i metadati e gli log delle query da Snowflake, devi soddisfare i seguenti requisiti:
- Una macchina che può connettersi alle tue istanze Snowflake.
- Un account Google Cloud con un bucket Cloud Storage per archiviare i dati.
- Un set di dati BigQuery vuoto per archiviare i risultati. In alternativa, puoi creare un set di dati BigQuery quando crei il job di valutazione utilizzando l'interfaccia utente della console Google Cloud.
- Avere accesso al ruolo
ACCOUNTADMIN
per la tua istanza Snowflake o essere in possesso di un ruolo con i privilegiIMPORTED PRIVILEGES
sul databaseSnowflake
da parte di un amministratore dell'account.
Esegui lo strumento dwh-migration-dumper
Scarica lo strumento di estrazione a riga di comando dwh-migration-dumper
.
Scarica il
file SHA256SUMS.txt
ed esegui il seguente comando per verificare la correttezza del file ZIP:
Bash
sha256sum --check SHA256SUMS.txt
Windows PowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Sostituisci RELEASE_ZIP_FILENAME
con il nome del file ZIP scaricato della release dello strumento di estrazione a riga di comando dwh-migration-dumper
, ad esempio dwh-migration-tools-v1.0.52.zip
Il risultato True
conferma la verifica del checksum.
Il risultato False
indica un errore di verifica. Assicurati che il checksum
e i file ZIP vengano scaricati dalla stessa versione della release e collocati nella stessa directory.
Per informazioni dettagliate su come utilizzare lo strumento dwh-migration-dumper
, consulta la pagina Genera metadati.
Utilizza lo strumento dwh-migration-dumper
per estrarre log e metadati dal data warehouse Snowflake sotto forma di due file ZIP. Esegui i seguenti comandi su una macchina con accesso al data warehouse di origine per generare i file.
Genera il file ZIP dei metadati:
dwh-migration-dumper \ --connector snowflake \ --host HOST_NAME \ --database SNOWFLAKE \ --user USER_NAME \ --role ROLE_NAME \ --warehouse WAREHOUSE \ --assessment \ --password PASSWORD
Genera il file ZIP contenente i log delle query:
dwh-migration-dumper \ --connector snowflake-logs \ --host HOST_NAME \ --database SNOWFLAKE \ --user USER_NAME \ --role ROLE_NAME \ --warehouse WAREHOUSE \ --query-log-start STARTING_DATE \ --query-log-end ENDING_DATE \ --assessment \ --password PASSWORD
Sostituisci quanto segue:
HOST_NAME
: il nome host della tua istanza Snowflake.USER_NAME
: il nome utente da utilizzare per la connessione al database, in cui l'utente deve disporre delle autorizzazioni di accesso descritte nella sezione dei requisiti.ROLE_NAME
: (Facoltativo) il ruolo utente durante l'esecuzione dello strumentodwh-migration-dumper
, ad esempioACCOUNTADMIN
.WAREHOUSE
: il magazzino utilizzato per eseguire le operazioni di dumping. Se hai più magazzini virtuali, puoi specificare un magazzino qualsiasi per eseguire questa query. L'esecuzione di questa query con le autorizzazioni di accesso descritte nella sezione dei requisiti consente di estrarre tutti gli elementi del magazzino in questo account.STARTING_DATE
: (Facoltativo) utilizzato per indicare la data di inizio in un intervallo di date dei log delle query, scritta nel formatoYYYY-MM-DD
.ENDING_DATE
: (facoltativo) utilizzato per indicare la data di fine in un intervallo di date dei log delle query, scritta nel formatoYYYY-MM-DD
.
Puoi anche generare più file ZIP contenenti log delle query che coprono periodi non sovrapposti e fornirli tutti per la valutazione.
Oracle
Per richiedere feedback o assistenza per questa funzionalità, invia un'email all'indirizzo bq-edw-migration-support@google.com.
Requisiti
Per estrarre i metadati e gli log delle query da Oracle, devi soddisfare i seguenti requisiti:
- Una macchina che può connettersi alle tue istanze Oracle.
- Java 8 o versioni successive.
- Un account Google Cloud con un bucket Cloud Storage per archiviare i dati.
- Un set di dati BigQuery vuoto per archiviare i risultati. In alternativa, puoi creare un set di dati BigQuery quando crei il job di valutazione utilizzando l'interfaccia utente della console Google Cloud.
- Un utente comune Oracle con privilegi SYSDBA.
Esegui lo strumento dwh-migration-dumper
Scarica lo strumento di estrazione a riga di comando dwh-migration-dumper
.
Scarica il
file SHA256SUMS.txt
esegui il seguente comando per verificare la correttezza del file ZIP:
sha256sum --check SHA256SUMS.txt
Per informazioni dettagliate su come utilizzare lo strumento dwh-migration-dumper
, consulta la pagina Genera metadati.
Utilizza lo strumento dwh-migration-dumper
per estrarre i metadati e le statistiche sul rendimento nel file ZIP. Per impostazione predefinita, le statistiche vengono estratte dall'AWR di Oracle che richiede il pacchetto Oracle Tuning and Diagnostics. Se questi dati non sono disponibili, dwh-migration-dumper
utilizza STATSPACK.
Per i database multi-tenant, lo strumento dwh-migration-dumper
deve essere eseguito nel contenitore principale. Se lo esegui in uno dei database collegabili,
mancano le statistiche sul rendimento e i metadati relativi ad altri database collegabili.
Genera il file ZIP dei metadati:
dwh-migration-dumper \ --connector oracle-stats \ --host HOST_NAME \ --port PORT \ --oracle-service SERVICE_NAME \ --assessment \ --driver JDBC_DRIVER_PATH \ --user USER_NAME \ --password
Sostituisci quanto segue:
HOST_NAME
: il nome host della tua istanza Oracle.PORT
: il numero della porta di connessione. Il valore predefinito è 1521.SERVICE_NAME
: il nome del servizio Oracle da utilizzare per la connessione.JDBC_DRIVER_PATH
: il percorso assoluto o relativo al file JAR del driver. Puoi scaricare questo file dalla pagina Download del driver JDBC di Oracle. Devi selezionare la versione del driver compatibile con la versione del database.USER_NAME
: nome dell'utente utilizzato per connettersi alla tua istanza Oracle. L'utente deve disporre delle autorizzazioni di accesso come dettagliato nella sezione dei requisiti.
Carica i metadati e i log delle query su Cloud Storage
Dopo aver estratto i metadati e i log delle query dal data warehouse, puoi caricare i file in un bucket Cloud Storage per procedere con la valutazione della migrazione.
Teradata
Carica i metadati e uno o più file ZIP contenenti i log delle query nel tuo bucket Cloud Storage. Per saperne di più sulla creazione di bucket e sul caricamento di file in Cloud Storage, consulta Creare bucket e Caricare oggetti da un file system. Il limite per le dimensioni totali non compresse di tutti i file all'interno del file ZIP dei metadati è 50 GB.
Le voci di tutti i file ZIP contenenti i log delle query sono suddivise come segue:
- File della cronologia delle query con il prefisso
query_history_
. - File delle serie temporali con i prefissi
utility_logs_
,dbc.ResUsageScpu_
edbc.ResUsageSpma_
.
Il limite per le dimensioni totali non compresse di tutti i file della cronologia delle query è di 5 TB. Il limite per le dimensioni totali non compresse di tutti i file delle serie temporali è di 1 TB.
Se i log delle query vengono archiviati in un altro database, consulta la descrizione degli indicatori -Dteradata-logs.query-logs-table
e -Dteradata-logs.sql-logs-table
all'inizio di questa sezione, che spiega come fornire una posizione alternativa per i log delle query.
Amazon Redshift
Carica i metadati e uno o più file ZIP contenenti i log delle query nel tuo bucket Cloud Storage. Per saperne di più sulla creazione di bucket e sul caricamento di file in Cloud Storage, consulta Creare bucket e Caricare oggetti da un file system. Il limite per le dimensioni totali non compresse di tutti i file all'interno del file ZIP dei metadati è 50 GB.
Le voci di tutti i file ZIP contenenti i log delle query sono suddivise come segue:
- File della cronologia delle query con i prefissi
querytext_
eddltext_
. - File delle serie temporali con i prefissi
query_queue_info_
,wlm_query_
equerymetrics_
.
Il limite per le dimensioni totali non compresse di tutti i file della cronologia delle query è di 5 TB. Il limite per le dimensioni totali non compresse di tutti i file delle serie temporali è di 1 TB.
Apache Hive
Carica i metadati e le cartelle contenenti i log delle query da uno o più cluster Hive nel tuo bucket Cloud Storage. Per ulteriori informazioni sulla creazione di bucket e sul caricamento di file su Cloud Storage, consulta Creare bucket e Caricare oggetti da un file system.
Il limite per le dimensioni totali non compresse di tutti i file all'interno del file ZIP dei metadati è 50 GB.
Puoi utilizzare il connettore Cloud Storage per copiare i log delle query direttamente nella cartella Cloud Storage. Le cartelle contenenti sottocartelle con log delle query devono essere caricate nella stessa cartella Cloud Storage in cui viene caricato il file ZIP dei metadati.
Le cartelle dei log delle query contengono file della cronologia delle query con il prefisso dwhassessment_
. Il limite per le dimensioni totali non compresse di tutti i file della cronologia delle query è 5 TB.
Snowflake
Carica i metadati e i file ZIP contenenti i log delle query e le cronologie di utilizzo nel tuo bucket Cloud Storage. Quando carichi questi file su Cloud Storage, devono essere soddisfatti i seguenti requisiti:
- Le dimensioni totali non compresse di tutti i file all'interno del file ZIP dei metadati devono essere inferiori a 50 GB.
- Il file ZIP dei metadati e il file ZIP contenente i log delle query devono essere caricati in una cartella Cloud Storage. Se hai più file ZIP contenenti log delle query non sovrapposti, puoi caricarli tutti.
- Devi caricare tutti i file nella stessa cartella Cloud Storage.
- Devi caricare tutti i file ZIP dei metadati e dei log delle query esattamente come vengono generati dallo strumento
dwh-migration-dumper
. Non decomprimerli, combinarli o modificarli in altro modo. - Le dimensioni totali non compresse di tutti i file della cronologia delle query devono essere inferiori a 5 TB.
Per ulteriori informazioni sulla creazione di bucket e sul caricamento di file su Cloud Storage, consulta Creare bucket e Caricare oggetti da un file system.
Oracle
Per richiedere feedback o assistenza per questa funzionalità, invia un'email all'indirizzo bq-edw-migration-support@google.com.
Carica il file ZIP contenente i metadati e le statistiche sulle prestazioni in un bucket Cloud Storage. Per impostazione predefinita, il nome del file ZIP è
dwh-migration-oracle-stats.zip
, ma puoi personalizzarlo specificandolo
nel flag --output
. Il limite per le dimensioni totali non compresse di tutti i file all'interno del file ZIP è 50 GB.
Per ulteriori informazioni sulla creazione di bucket e sul caricamento di file su Cloud Storage, consulta Creare bucket e Caricare oggetti da un file system.
Esegui una valutazione della migrazione di BigQuery
Segui questi passaggi per eseguire la valutazione della migrazione di BigQuery. Questi passaggi presuppongono che tu abbia caricato i file di metadati in un bucket Cloud Storage, come descritto nella sezione precedente.
Autorizzazioni obbligatorie
Per attivare BigQuery Migration Service, sono necessarie le seguenti autorizzazioni Identity and Access Management (IAM):
resourcemanager.projects.get
resourcemanager.projects.update
serviceusage.services.enable
serviceusage.services.get
Per accedere e utilizzare BigQuery Migration Service, devi disporre delle seguenti autorizzazioni sul progetto:
bigquerymigration.workflows.create
bigquerymigration.workflows.get
bigquerymigration.workflows.list
bigquerymigration.workflows.delete
bigquerymigration.subtasks.get
bigquerymigration.subtasks.list
Per eseguire BigQuery Migration Service, sono necessarie le seguenti autorizzazioni aggiuntive.
Autorizzazione ad accedere ai bucket Cloud Storage per i file di input e di output:
storage.objects.get
nel bucket Cloud Storage di originestorage.objects.list
nel bucket Cloud Storage di originestorage.objects.create
nel bucket Cloud Storage di destinazionestorage.objects.delete
nel bucket Cloud Storage di destinazionestorage.objects.update
nel bucket Cloud Storage di destinazionestorage.buckets.get
storage.buckets.list
L'autorizzazione per leggere e aggiornare il set di dati BigQuery in cui BigQuery Migration Service scrive i risultati:
bigquery.datasets.update
bigquery.datasets.get
bigquery.datasets.create
bigquery.datasets.delete
bigquery.jobs.create
bigquery.jobs.delete
bigquery.jobs.list
bigquery.jobs.update
bigquery.tables.create
bigquery.tables.get
bigquery.tables.getData
bigquery.tables.list
bigquery.tables.updateData
Per condividere il report di Looker Studio con un utente, devi concedere i seguenti ruoli:
roles/bigquery.dataViewer
roles/bigquery.jobUser
Per personalizzare questo documento in modo da utilizzare il tuo progetto e il tuo utente nei comandi, modifica queste variabili:
PROJECT
,
USER_EMAIL
.
Crea un ruolo personalizzato con le autorizzazioni necessarie per utilizzare la valutazione della migrazione di BigQuery:
gcloud iam roles create BQMSrole \ --project=PROJECT \ --title=BQMSrole \ --permissions=bigquerymigration.subtasks.get,bigquerymigration.subtasks.list,bigquerymigration.workflows.create,bigquerymigration.workflows.get,bigquerymigration.workflows.list,bigquerymigration.workflows.delete,resourcemanager.projects.update,resourcemanager.projects.get,serviceusage.services.enable,serviceusage.services.get,storage.objects.get,storage.objects.list,storage.objects.create,storage.objects.delete,storage.objects.update,bigquery.datasets.get,bigquery.datasets.update,bigquery.datasets.create,bigquery.datasets.delete,bigquery.tables.get,bigquery.tables.create,bigquery.tables.updateData,bigquery.tables.getData,bigquery.tables.list,bigquery.jobs.create,bigquery.jobs.update,bigquery.jobs.list,bigquery.jobs.delete,storage.buckets.list,storage.buckets.get
Concedi il ruolo personalizzato BQMSrole
a un utente:
gcloud projects add-iam-policy-binding \ PROJECT \ --member=user:USER_EMAIL \ --role=projects/PROJECT/roles/BQMSrole
Concedi i ruoli richiesti a un utente con cui vuoi condividere il report:
gcloud projects add-iam-policy-binding \ PROJECT \ --member=user:USER_EMAIL \ --role=roles/bigquery.dataViewer gcloud projects add-iam-policy-binding \ PROJECT \ --member=user:USER_EMAIL \ --role=roles/bigquery.jobUser
Località supportate
La funzionalità di valutazione della migrazione di BigQuery è supportata in due tipi di località:
Una regione è un luogo geografico ben preciso, come Londra.
Per più regioni si intende una vasta area geografica, come gli Stati Uniti, che contiene due o più regioni. Le località multiregione possono fornire quote più elevate rispetto alle singole regioni.
Per saperne di più su regioni e zone, consulta Geografia e regioni.
Regioni
La tabella seguente elenca le regioni delle Americhe in cui è disponibile la valutazione della migrazione di BigQuery.Descrizione della regione | Nome della regione | Dettagli |
---|---|---|
Columbus, Ohio | us-east5 |
|
Dallas | us-south1 |
Bassi livelli di CO2 |
Iowa | us-central1 |
Bassi livelli di CO2 |
Carolina del Sud | us-east1 |
|
Virginia del Nord | us-east4 |
|
Oregon | us-west1 |
Bassi livelli di CO2 |
Los Angeles | us-west2 |
|
Salt Lake City | us-west3 |
Descrizione della regione | Nome della regione | Dettagli |
---|---|---|
Singapore | asia-southeast1 |
|
Tokyo | asia-northeast1 |
Descrizione della regione | Nome della regione | Dettagli |
---|---|---|
Belgio | europe-west1 |
Bassi livelli di CO2 |
Finlandia | europe-north1 |
Bassi livelli di CO2 |
Francoforte | europe-west3 |
Bassi livelli di CO2 |
Londra | europe-west2 |
Bassi livelli di CO2 |
Madrid | europe-southwest1 |
Bassi livelli di CO2 |
Paesi Bassi | europe-west4 |
Bassi livelli di CO2 |
Parigi | europe-west9 |
Bassi livelli di CO2 |
Torino | europe-west12 |
|
Varsavia | europe-central2 |
|
Zurigo | europe-west6 |
Bassi livelli di CO2 |
Più regioni
La tabella seguente elenca le regioni in cui è disponibile la valutazione della migrazione di BigQuery.Descrizione multiregionale | Nome multiregione |
---|---|
Data center all'interno degli stati membri dell'Unione Europea | EU |
Data center negli Stati Uniti | US |
Prima di iniziare
Prima di eseguire la valutazione, devi abilitare l'API BigQuery Migration e creare un set di dati BigQuery per archiviare i risultati della valutazione.
Abilita l'API BigQuery Migration
Abilita l'API BigQuery Migration come segue:
Nella console Google Cloud, vai alla pagina API BigQuery Migration.
Fai clic su Attiva.
Creare un set di dati per i risultati della valutazione
La valutazione della migrazione di BigQuery scrive i risultati della valutazione nelle tabelle di BigQuery. Prima di iniziare, crea un set di dati per contenere queste tabelle. Quando condividi il report di Looker Studio, devi anche concedere agli utenti l'autorizzazione a leggere questo set di dati. Per saperne di più, consulta Rendi il report disponibile per gli utenti.
Esegui la valutazione della migrazione
Console
Nella console Google Cloud, vai alla pagina BigQuery.
Nel pannello di navigazione, vai a Valutazione.
Fai clic su Avvia valutazione.
Compila la finestra di dialogo di configurazione della valutazione.
- In Nome visualizzato, inserisci il nome che può contenere lettere, numeri o trattini bassi. Questo nome è solo a scopo di visualizzazione e non deve essere univoco.
Nell'elenco Località dei dati, scegli una località per il job di valutazione. Il job di valutazione deve trovarsi nella stessa posizione del bucket Cloud Storage di input dei file estratti e del set di dati BigQuery di output.
Tuttavia, se questa località è una regione multipla
US
oEU
, la località del bucket Cloud Storage e la località del set di dati BigQuery possono trovarsi in una qualsiasi delle regioni all'interno di questa regione multipla. Il bucket Cloud Storage e il set di dati BigQuery possono trovarsi in posizioni diverse all'interno della stessa località a più regioni. Ad esempio, se selezioni la regione multiplaUS
, il bucket Cloud Storage può trovarsi nella regioneus-central1
, mentre il set di dati BigQuery può trovarsi nella regioneus-east1
.Per Origine dati della valutazione, scegli il tuo data warehouse.
In Percorso dei file di input, inserisci il percorso del bucket Cloud Storage contenente i file estratti.
Per scegliere la modalità di archiviazione dei risultati della valutazione, scegli una delle seguenti opzioni:
- Mantieni selezionata la casella di controllo Crea automaticamente il nuovo set di dati BigQuery per creare automaticamente il set di dati BigQuery. Il nome del set di dati viene generato automaticamente.
- Deseleziona la casella di controllo Crea automaticamente il nuovo set di dati BigQuery e scegli il set di dati BigQuery vuoto esistente utilizzando il formato
projectId.datasetId
o crea un nuovo nome del set di dati. In questa opzione puoi scegliere il nome del set di dati BigQuery.
Opzione 1: generazione automatica del set di dati BigQuery (valore predefinito)
Opzione 2: creazione manuale del set di dati BigQuery:
Fai clic su Crea. Puoi visualizzare lo stato del job nell'elenco dei job di valutazione.
Mentre la valutazione è in esecuzione, puoi controllare l'avanzamento e il tempo stimato per il completamento nella descrizione comando dell'icona di stato.
Mentre la valutazione è in esecuzione, puoi fare clic sul link Visualizza report nell'elenco dei job di valutazione per visualizzare il report della valutazione con dati parziali in Looker Studio. Il link Visualizza report potrebbe richiedere del tempo per essere visualizzato durante l'esecuzione della valutazione. Il report si apre in una nuova scheda.
Il report viene aggiornato con i nuovi dati man mano che vengono elaborati. Aggiorna la scheda con il report o fai di nuovo clic su Visualizza report per visualizzare il report aggiornato.
Al termine della valutazione, fai clic su Visualizza report per visualizzare il report completo della valutazione in Looker Studio. Il report si apre in una nuova scheda.
API
Chiama il metodo create
con un flusso di lavoro definito.
Quindi, chiama il metodo start
per avviare il flusso di lavoro di valutazione.
La valutazione crea tabelle nel set di dati BigQuery creato in precedenza. Puoi eseguire query su queste tabelle per ottenere informazioni sulle tabelle e sulle query utilizzate nel tuo data warehouse esistente. Per informazioni sui file di output della traduzione, consulta Traduttore SQL batch.
Risultato della valutazione aggregata condivisibile
Per le valutazioni di Amazon Redshift, Teradata e Snowflake, oltre al set di dati BigQuery creato in precedenza, il flusso di lavoro crea un altro set di dati leggero con lo stesso nome, oltre al suffisso _shareableRedactedAggregate
. Questo set di dati contiene dati altamente aggregati ricavati dal set di dati di output e non contiene informazioni che consentono l'identificazione personale (PII).
Per trovare, ispezionare e condividere in modo sicuro il set di dati con altri utenti, consulta Eseguire query sulle tabelle di output della valutazione della migrazione.
La funzionalità è attiva per impostazione predefinita, ma puoi disattivarla utilizzando l'API pubblica.
Dettagli valutazione
Per visualizzare la pagina dei dettagli della valutazione, fai clic sul nome visualizzato nell'elenco dei job di valutazione.
La pagina dei dettagli della valutazione contiene la scheda Configurazione, in cui puoi visualizzare ulteriori informazioni su un job di valutazione, e la scheda Errori, in cui puoi esaminare eventuali errori che si sono verificati durante l'elaborazione della valutazione.
Visualizza la scheda Configurazione per visualizzare le proprietà della valutazione.
Visualizza la scheda Errori per visualizzare gli errori che si sono verificati durante l'elaborazione della valutazione.
Rivedi e condividi il report di Looker Studio
Al termine dell'attività di valutazione, puoi creare e condividere un report di Looker Studio sui risultati.
Esamina il report
Fai clic sul link Visualizza report accanto al singolo compito di valutazione. Il report di Looker Studio si apre in una nuova scheda in modalità di anteprima. Puoi utilizzare la modalità di anteprima per esaminare i contenuti del report prima di condividerlo ulteriormente.
Il report ha un aspetto simile allo screenshot seguente:
Per visualizzare le visualizzazioni contenute nel report, seleziona il tuo data warehouse:
Teradata
Il report è una narrazione in tre parti preceduta da una pagina di riepilogo con i punti salienti. Questa pagina include le seguenti sezioni:
- Sistema esistente. Questa sezione è uno snapshot del sistema e dell'utilizzo di Teradata esistente, incluso il numero di database, schemi, tabelle e dimensioni totali in TB. Elenca inoltre gli schemi in base alle dimensioni e indica un potenziale utilizzo non ottimale delle risorse (tabelle senza scrittura o con poche letture).
- Trasformazioni in stato stazionario di BigQuery (suggerimenti). Questa sezione mostra come sarà il sistema su BigQuery dopo la migrazione. Include suggerimenti per ottimizzare i workload su BigQuery (ed evitare sprechi).
- Piano di migrazione. Questa sezione fornisce informazioni sull'impegno necessario per la migrazione stessa, ad esempio il passaggio dal sistema esistente allo stato stabile di BigQuery. Questa sezione include il conteggio delle query che sono state tradotte automaticamente e il tempo stimato per spostare ogni tabella in BigQuery.
I dettagli di ogni sezione includono quanto segue:
Sistema esistente
- Computing e query
- Utilizzo CPU:
- Mappa termica dell'utilizzo medio orario della CPU (visualizzazione dell'utilizzo delle risorse di sistema complessivo)
- Query per ora e giorno con utilizzo della CPU
- Query per tipo (lettura/scrittura) con utilizzo della CPU
- Applicazioni con utilizzo della CPU
- Sovrapposizione dell'utilizzo orario della CPU con le prestazioni medie orarie delle query e le prestazioni medie orarie delle applicazioni
- Istogramma delle query per tipo e durata delle query
- Visualizzazione dei dettagli delle applicazioni (app, utente, query univoche, report e suddivisione ETL)
- Utilizzo CPU:
- Panoramica dello spazio di archiviazione
- Database per volume, visualizzazioni e tassi di accesso
- Tabelle con tassi di accesso per utenti, query, scritture e creazione di tabelle temporanee
- Applicazioni: tassi di accesso e indirizzi IP
Trasformazioni in stato stazionario di BigQuery (suggerimenti)
- Indici di join convertiti in viste materializzate
- Raggruppamento e partizione dei candidati in base a metadati e utilizzo
- Query a bassa latenza identificate come candidate per BigQuery BI Engine
- Colonne configurate con valori predefiniti che utilizzano la funzionalità di descrizione della colonna per memorizzare i valori predefiniti
- Gli indici univoci in Teradata
(per evitare righe con chiavi non univoche in
una tabella) utilizzano le tabelle di staging e un'istruzione
MERGE
per inserire solo record univoci nelle tabelle di destinazione e poi eliminare i duplicati - Query e schema rimanenti tradotti così come sono
Piano di migrazione
- Visualizzazione dettagliata con query tradotte automaticamente
- Conteggio delle query totali con possibilità di filtrare in base a utente, applicazione, tabelle interessate, tabelle sottoposte a query e tipo di query
- Bucket di query con pattern simili raggruppati e mostrati insieme in modo che l'utente possa vedere la filosofia di traduzione in base ai tipi di query
- Query che richiedono l'intervento umano
- Query con violazioni della struttura lessicale di BigQuery
- Funzioni e procedure definite dall'utente
- Parole chiave riservate di BigQuery
- Programmazione delle tabelle per scritture e letture (per raggrupparle per il trasferimento)
- Migrazione dei dati con BigQuery Data Transfer Service: tempo stimato per la migrazione per tabella
La sezione Sistema esistente contiene le seguenti visualizzazioni:
- Panoramica del sistema
- La visualizzazione Panoramica del sistema fornisce le metriche di volume di alto livello dei componenti chiave nel sistema esistente per un periodo di tempo specificato. La sequenza temporale valutata dipende dai log analizzati dalla valutazione della migrazione di BigQuery. Questa visualizzazione fornisce informazioni rapide sull'utilizzo del data warehouse di origine, che puoi utilizzare per la pianificazione della migrazione.
- Volume della tabella
- La visualizzazione Volume delle tabelle fornisce statistiche sulle tabelle e sui database più grandi rilevati dalla valutazione della migrazione a BigQuery. Poiché l'estrazione di tabelle di grandi dimensioni dal sistema di data warehouse di origine può richiedere più tempo, questa vista può essere utile per la pianificazione e la sequenziazione della migrazione.
- Utilizzo della tabella
- La visualizzazione Utilizzo tabelle fornisce statistiche sulle tabelle che vengono utilizzate molto nel sistema di data warehouse di origine. Le tabelle di uso intensivo possono aiutarti a capire quali potrebbero avere molte dipendenze e richiedere una pianificazione aggiuntiva durante il processo di migrazione.
- Applicazioni
- Le visualizzazioni Utilizzo applicazioni e Pattern di utilizzo delle applicazioni forniscono statistiche sulle applicazioni rilevate durante l'elaborazione dei log. Queste visualizzazioni consentono agli utenti di comprendere l'utilizzo di applicazioni specifiche nel tempo e l'impatto sull'utilizzo delle risorse. Durante una migrazione, è importante visualizzare l'importazione e il consumo dei dati per comprendere meglio le dipendenze del data warehouse e analizzare l'impatto del trasferimento di varie applicazioni dipendenti. La tabella Indirizzo IP può essere utile per individuare l'applicazione esatta che utilizza il data warehouse tramite connessioni JDBC.
- Query
- La vista Query fornisce una suddivisione dei tipi di istruzioni SQL eseguite e delle statistiche sul loro utilizzo. Puoi utilizzare l'istogramma di Tipo di query e Ora per identificare i periodi di utilizzo ridotto del sistema e le ore del giorno ottimali per trasferire i dati. Puoi anche utilizzare questa visualizzazione per identificare le query eseguite di frequente e gli utenti che richiamano queste esecuzioni.
- Database
- La visualizzazione Database fornisce metriche su dimensioni, tabelle, visualizzazioni e procedure definite nel sistema del data warehouse di origine. Questa visualizzazione può fornirti informazioni sul volume di oggetti di cui devi eseguire la migrazione.
- Accoppiamento del database
- La visualizzazione Accoppiamento database fornisce una visione d'insieme dei database e delle tabelle a cui si accede insieme in un'unica query. Questa visualizzazione può mostrare a quali tabelle e database viene fatto spesso riferimento e cosa puoi utilizzare per la pianificazione della migrazione.
La sezione Stato stabile di BigQuery contiene le seguenti visualizzazioni:
- Tabelle senza utilizzo
- La vista Tabelle senza utilizzo mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha rilevato alcun utilizzo durante il periodo di analisi dei log. La mancanza di utilizzo potrebbe indicare che non è necessario trasferire la tabella in BigQuery durante la migrazione o che i costi di archiviazione degli dati in BigQuery potrebbero essere inferiori. Devi convalidare l'elenco delle tabelle inutilizzate perché potrebbero essere utilizzate al di fuori del periodo dei log, ad esempio una tabella utilizzata solo una volta ogni tre o sei mesi.
- Tabelle senza scrittura
- La visualizzazione Tabelle senza scrittura mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha trovato aggiornamenti durante il periodo di log analizzato. La mancanza di scrittura può indicare dove potresti ridurre i costi di archiviazione in BigQuery.
- Query a bassa latenza
- La visualizzazione Query a bassa latenza mostra una distribuzione dei tempi di esecuzione delle query in base ai dati dei log analizzati. Se il grafico di distribuzione della durata delle query mostra un gran numero di query con un tempo di esecuzione inferiore a 1 secondo, valuta la possibilità di attivare BigQuery BI Engine per accelerare la BI e altri carichi di lavoro a bassa latenza.
- Viste materializzate
- La vista materializzata fornisce ulteriori suggerimenti di ottimizzazione per migliorare il rendimento su BigQuery.
- Clustering e partizionamento
La visualizzazione Partizionamento e clustering mostra le tabelle che possono trarre vantaggio dal partizionamento, dal clustering o da entrambi.
I suggerimenti per i metadati vengono ottenuti analizzando lo schema del data warehouse di origine (ad esempio la partizione e la chiave primaria nella tabella di origine) e trovando l'equivalente BigQuery più vicino per ottenere caratteristiche di ottimizzazione simili.
I suggerimenti per il workload vengono ottenuti analizzando i log delle query di origine. Il consiglio viene determinato analizzando i carichi di lavoro, in particolare le clausole
WHERE
oJOIN
nei log delle query analizzati.- Suggerimento di clustering
La visualizzazione Partizionamento mostra le tabelle che potrebbero avere più di 10.000 partitizioni, in base alla definizione del vincolo di partizionamento. Queste tabelle tendono a essere buoni candidati per il clustering BigQuery, che consente le partizioni delle tabelle granulari.
- Vincoli univoci
La visualizzazione Vincoli univoci mostra sia le tabelle
SET
sia gli indici univoci definiti nel data warehouse di origine. In BigQuery, è consigliabile utilizzare tabelle di staging e un'istruzioneMERGE
per inserire solo record univoci in una tabella di destinazione. Utilizza i contenuti di questa visualizzazione per determinare per quali tabelle potrebbe essere necessario modificare l'ETL durante la migrazione.- Valori predefiniti / Vincoli di controllo
Questa visualizzazione mostra le tabelle che utilizzano i vincoli di controllo per impostare i valori predefiniti delle colonne. In BigQuery, consulta Specificare i valori predefiniti delle colonne.
La sezione Percorso di migrazione del report contiene le seguenti visualizzazioni:
- Traduzione SQL
- La visualizzazione Traduzione SQL elenca il conteggio e i dettagli delle query che sono state conversite automaticamente dalla valutazione della migrazione di BigQuery e che non richiedono intervento manuale. La traduzione automatica di SQL in genere raggiunge alti tassi di traduzione se vengono forniti i metadati. Questa visualizzazione è interattiva e consente di analizzare le query comuni e il modo in cui vengono tradotte.
- Impegno offline
- La visualizzazione Impegno offline acquisisce le aree che richiedono un intervento manuale, tra cui funzioni UDF specifiche e potenziali violazioni della struttura e della sintassi lessicale per tabelle o colonne.
- Parole chiave riservate di BigQuery
- La visualizzazione Parole chiave riservate di BigQuery mostra l'utilizzo rilevato
di parole chiave che hanno un significato speciale nel linguaggio GoogleSQL
e non possono essere utilizzate come identificatori, a meno che non siano racchiuse tra i caratteri di backtick (
`
). - Pianificazione degli aggiornamenti delle tabelle
- La visualizzazione Pianificazione degli aggiornamenti delle tabelle mostra quando e con quale frequenza vengono aggiornate le tabelle per aiutarti a pianificare come e quando spostarle.
- Migrazione dei dati a BigQuery
- La visualizzazione Migrazione dei dati a BigQuery illustra il percorso di migrazione con il tempo stimato per eseguire la migrazione dei dati utilizzando BigQuery Data Transfer Service. Per ulteriori informazioni, consulta la guida a BigQuery Data Transfer Service per Teradata.
La sezione Appendice contiene le seguenti visualizzazioni:
- Distinzione tra maiuscole e minuscole
- La vista Sensibilità alle maiuscole mostra le tabelle nel data warehouse di origine configurate per eseguire confronti senza tenere conto delle maiuscole. Per impostazione predefinita, i confronti delle stringhe in BigQuery sono sensibili alle maiuscole. Per ulteriori informazioni, consulta la sezione Collazione.
Amazon Redshift
- Approfondimenti sulla migrazione
- La visualizzazione In evidenza della migrazione fornisce un riepilogo delle tre sezioni del report:
- Il riquadro Sistema esistente fornisce informazioni sul numero di database, schemi, tabelle e sulle dimensioni totali del sistema Redshift esistente. Vengono inoltre elencati gli schemi in base alle dimensioni e al potenziale utilizzo non ottimale delle risorse. Puoi utilizzare queste informazioni per ottimizzare i dati rimuovendo, partizionando o raggruppando in cluster le tabelle.
- Il riquadro Stato stabile di BigQuery fornisce informazioni su come saranno i dati dopo la migrazione in BigQuery, incluso il numero di query che possono essere tradotte automaticamente utilizzando BigQuery Migration Service. Questa sezione mostra anche i costi di archiviazione dei dati in BigQuery in base al tasso di importazione dati annuale, nonché suggerimenti di ottimizzazione per tabelle, provisioning e spazio.
- Il riquadro Percorso di migrazione fornisce informazioni sul lavoro necessario per la migrazione. Per ogni tabella viene mostrato il tempo stimato per la migrazione, il numero di righe nella tabella e le relative dimensioni.
La sezione Sistema esistente contiene le seguenti visualizzazioni:
- Query per tipo e pianificazione
- La visualizzazione Query per tipo e pianificazione classifica le query in ETL/scrittura e Report/aggregazione. La visualizzazione del mix di query nel tempo ti aiuta a comprendere i pattern di utilizzo esistenti e a identificare picchi e potenziali sovradimensionamenti che possono influire su costi e prestazioni.
- Coda delle query
- La vista Coda di query fornisce ulteriori dettagli sul carico del sistema, tra cui volume e combinazione di query e eventuali impatti sulle prestazioni dovuti alla coda, come risorse insufficienti.
- Query e scalabilità WLM
- La visualizzazione Query e scalabilità WLM identifica la scalabilità della concorrenza come un costo aggiuntivo e una complessità di configurazione. Mostra in che modo il sistema Redshift indirizza le query in base alle regole specificate e gli impatti sul rendimento dovuti alla formazione di code, allo scaling della concorrenza e alle query espulse.
- Coda e attesa
- La visualizzazione Coda e attesa offre un'analisi più approfondita delle code e dei tempi di attesa per le query nel tempo.
- Classi WLM e rendimento
- La visualizzazione Classi e rendimento WLM offre un modo facoltativo per mappare le regole a BigQuery. Tuttavia, ti consigliamo di lasciare che sia BigQuery a indirizzare automaticamente le query.
- Approfondimenti sul volume di query e tabelle
- La visualizzazione Approfondimenti sul volume di query e tabelle elenca le query in base a dimensioni, frequenza e utenti principali. In questo modo puoi classificare le sorgenti di carico sul sistema e pianificare la migrazione dei tuoi workload.
- Database e schemi
- La visualizzazione Database e schemi fornisce metriche su dimensioni, tabelle, visualizzazioni e procedure definite nel sistema di data warehouse di origine. In questo modo, puoi avere un quadro del volume di oggetti di cui è necessaria la migrazione.
- Volume della tabella
- La visualizzazione Volume delle tabelle fornisce statistiche sulle tabelle e sui database più grandi, mostrando come vi si accede. Poiché l'estrazione di tabelle di grandi dimensioni dal sistema di data warehouse di origine può richiedere più tempo, questa visualizzazione ti aiuta con la pianificazione e la sequenziazione della migrazione.
- Utilizzo della tabella
- La visualizzazione Utilizzo tabelle fornisce statistiche sulle tabelle che vengono utilizzate molto nel sistema di data warehouse di origine. Le tabelle di uso intensivo possono essere utilizzate per comprendere le tabelle che potrebbero avere molte dipendenze e richiedere una pianificazione aggiuntiva durante il processo di migrazione.
- Importatori ed esportatori
- La visualizzazione Importatori ed esportatori fornisce informazioni sui dati e sugli utenti coinvolti nell'importazione dei dati (utilizzando query
COPY
) e nell'esportazione dei dati (utilizzando queryUNLOAD
). Questa visualizzazione consente di identificare il livello di staging e le procedure relative all'importazione e alle esportazioni. - Utilizzo del cluster
- La visualizzazione Utilizzo cluster fornisce informazioni generali su tutti i cluster disponibili e mostra l'utilizzo della CPU per ciascun cluster. Questa visualizza ti aiuta a comprendere la riserva di capacità del sistema.
La sezione Stato stabile di BigQuery contiene le seguenti visualizzazioni:
- Clustering e partizionamento
La visualizzazione Partizionamento e clustering mostra le tabelle che possono trarre vantaggio dal partizionamento, dal clustering o da entrambi.
I suggerimenti per i metadati vengono ottenuti analizzando lo schema del data warehouse di origine (ad esempio la chiave di ordinamento e la chiave di distribuzione nella tabella di origine) e trovando l'equivalente BigQuery più vicino per ottenere caratteristiche di ottimizzazione simili.
I suggerimenti per i carichi di lavoro vengono ottenuti analizzando i log delle query di origine. Il consiglio viene determinato analizzando i carichi di lavoro, in particolare le clausole
WHERE
oJOIN
nei log delle query analizzati.Nella parte inferiore della pagina è presente un'istruzione create table tradotta con tutte le ottimizzazioni fornite. Tutte le istruzioni DDL tradotte possono essere anche estratte dal set di dati. Le istruzioni DDL tradotte vengono memorizzate nella tabella
SchemaConversion
nella colonnaCreateTableDDL
.I consigli nel report vengono forniti solo per le tabelle di dimensioni superiori a 1 GB, in quanto le tabelle di piccole dimensioni non trarrebbero vantaggio dal clustering e dalla suddivisione in parti. Tuttavia, il DDL per tutte le tabelle (incluse quelle di dimensioni inferiori a 1 GB) è disponibile nella tabella
SchemaConversion
.- Tabelle senza utilizzo
La visualizzazione Tabelle senza utilizzo mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha rilevato alcun utilizzo durante il periodo di log analizzato. La mancanza di utilizzo potrebbe indicare che non è necessario trasferire la tabella in BigQuery durante la migrazione o che i costi di archiviazione dei dati in BigQuery potrebbero essere inferiori (fatturati come Archiviazione a lungo termine). Ti consigliamo di convalidare l'elenco delle tabelle inutilizzate perché potrebbero essere utilizzate al di fuori del periodo dei log, ad esempio una tabella utilizzata solo una volta ogni tre o sei mesi.
- Tabelle senza scrittura
La visualizzazione Tabelle senza scrittura mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha identificato aggiornamenti durante il periodo di log analizzato. La mancanza di scrittura può indicare dove potresti ridurre i costi di archiviazione in BigQuery (fatturati come Archiviazione a lungo termine).
- Motore BI e viste materializzate
BI Engine e le viste materializzate forniscono ulteriori suggerimenti di ottimizzazione per migliorare le prestazioni su BigQuery.
La sezione Percorso di migrazione contiene le seguenti visualizzazioni:
- Traduzione SQL
- La visualizzazione Traduzione SQL elenca il conteggio e i dettagli delle query che sono state conversite automaticamente dalla valutazione della migrazione di BigQuery e che non richiedono intervento manuale. La traduzione SQL automatica in genere raggiunge alti tassi di traduzione se vengono forniti i metadati.
- Impegno per la traduzione offline SQL
- La visualizzazione Impegno offline per la traduzione SQL acquisisce le aree che richiedono intervento manuale, tra cui funzioni definite dall'utente specifiche e query con potenziali ambiguità di traduzione.
- Supporto di Aggiungere tabella tramite modifica
- La visualizzazione Supporto per l'unione tabella di modifica mostra i dettagli dei costrutti SQL di Redshift comuni che non hanno una controparte diretta di BigQuery.
- Assistenza per il comando di copia
- La visualizzazione Supporto dei comandi di copia mostra i dettagli dei costrutti SQL Redshift comuni che non hanno una controparte diretta in BigQuery.
- Avvisi SQL
- La visualizzazione Avvisi SQL acquisisce le aree tradotte correttamente, ma che richiedono una revisione.
- Violazioni della struttura lessicale e della sintassi
- La vista Violazioni della struttura lessicale e della sintassi mostra i nomi di colonne, tabelle, funzioni e procedure che violano la sintassi di BigQuery.
- Parole chiave riservate di BigQuery
- La visualizzazione delle parole chiave riservate di BigQuery mostra l'utilizzo rilevato di parole chiave
che hanno un significato speciale nel linguaggio GoogleSQL e non possono essere utilizzate
come identificatori, a meno che non siano racchiuse tra caratteri di backtick (
`
). - Accoppiamento schema
- La visualizzazione Accoppiamento schema fornisce una visualizzazione di alto livello di database, schemi e tabelle a cui si accede insieme in un'unica query. Questa visualizza può mostrare le tabelle, gli schemi e i database a cui viene fatto spesso riferimento e cosa puoi utilizzare per la pianificazione della migrazione.
- Pianificazione degli aggiornamenti delle tabelle
- La visualizzazione Pianificazione degli aggiornamenti delle tabelle mostra come, quando e con quale frequenza vengono aggiornate le tabelle per aiutarti a pianificare come e quando spostarle.
- Scala della tabella
- La visualizzazione Scala tabella elenca le tabelle con il maggior numero di colonne.
- Migrazione dei dati a BigQuery
- La visualizzazione Migrazione dei dati in BigQuery illustra il percorso di migrazione con il tempo stimato per la migrazione dei dati utilizzando BigQuery Data Transfer Service. Per ulteriori informazioni, consulta la guida di BigQuery Data Transfer Service per Redshift.
- Riepilogo dell'esecuzione della valutazione
Il riepilogo dell'esecuzione della valutazione contiene la completezza del report, lo stato della valutazione in corso, lo stato dei file elaborati e gli errori.
La completezza del report indica la percentuale di dati elaborati correttamente che è consigliabile visualizzare per ottenere approfondimenti significativi nel report di valutazione. Se mancano i dati relativi a una determinata sezione del report, queste informazioni sono elencate nella tabella Moduli di valutazione sotto l'indicatore Completezza del report.
La metrica avanzamento indica la percentuale di dati elaborati finora, nonché la stima del tempo rimanente per elaborare tutti i dati. Al termine dell'elaborazione, la metrica di avanzamento non viene visualizzata.
Apache Hive
Il report, costituito da una narrazione in tre parti, è preceduto da una pagina di riepilogo con i punti salienti che include le seguenti sezioni:
Sistema esistente: Hive. Questa sezione consiste in uno snapshot del sistema Hive esistente e del relativo utilizzo, inclusi il numero di database, tabelle, le dimensioni totali in GB e il numero di log delle query elaborati. Questa sezione elenca anche i database in base alle dimensioni e indica un potenziale utilizzo suboptimale delle risorse (tabelle senza scrittura o con poche letture) e del provisioning. I dettagli di questa sezione includono quanto segue:
- Computing e query
- Utilizzo CPU:
- Query per ora e giorno con utilizzo della CPU
- Query per tipo (lettura/scrittura)
- Code e applicazioni
- Sovrapposizione dell'utilizzo orario della CPU con le prestazioni medie orarie delle query e le prestazioni medie orarie delle applicazioni
- Istogramma delle query per tipo e durata delle query
- Pagina Coda e attesa
- Visualizzazione dettagliata delle code (coda, utente, query univoche, suddivisione tra report ed ETL, per metriche)
- Utilizzo CPU:
- Panoramica dello spazio di archiviazione
- Database per volume, visualizzazioni e tassi di accesso
- Tabelle con tassi di accesso per utenti, query, scritture e creazione di tabelle temporanee
- Code e applicazioni: tassi di accesso e indirizzi IP dei client
- Computing e query
Stato stabile di BigQuery. Questa sezione mostra come sarà il sistema su BigQuery dopo la migrazione. Include suggerimenti per ottimizzare i workload su BigQuery (ed evitare sprechi). I dettagli di questa sezione includono quanto segue:
- Tabelle identificate come candidate per le viste materializzate
- Raggruppamento e partizione dei candidati in base a metadati e utilizzo
- Query a bassa latenza identificate come candidate per BigQuery BI Engine
- Tabelle senza utilizzo in lettura o scrittura
- Tabelle partizionate con uno sbilanciamento dei dati
Piano di migrazione. Questa sezione fornisce informazioni sull'impegno necessario per la migrazione stessa. Ad esempio, passare dal sistema esistente allo stato stabile di BigQuery. Questa sezione contiene i target di archiviazione identificati per ogni tabella, le tabelle identificate come significative per la migrazione e il conteggio delle query tradotta automaticamente. I dettagli di questa sezione includono quanto segue:
- Visualizzazione dettagliata con query tradotte automaticamente
- Conteggio delle query totali con possibilità di filtrare in base a utente, applicazione, tabelle interessate, tabelle sottoposte a query e tipo di query
- Bucket di query con pattern simili raggruppati, che consentono agli utenti di vedere la filosofia di traduzione in base ai tipi di query
- Query che richiedono l'intervento umano
- Query con violazioni della struttura lessicale di BigQuery
- Funzioni e procedure definite dall'utente
- Parole chiave riservate di BigQuery
- Query che richiede la revisione
- Programmazione delle tabelle per scritture e letture (per raggrupparle per il trasferimento)
- Destinazione di archiviazione identificata per le tabelle esterne e gestite
- Visualizzazione dettagliata con query tradotte automaticamente
La sezione Sistema esistente - Hive contiene le seguenti visualizzazioni:
- Panoramica del sistema
- Questa visualizzazione fornisce le metriche di volume di alto livello dei componenti chiave nel sistema esistente per un periodo di tempo specificato. La sequenza temporale valutata dipende dai log analizzati dalla valutazione della migrazione di BigQuery. Questa visualizzazione fornisce informazioni rapide sull'utilizzo del data warehouse di origine, che puoi utilizzare per la pianificazione della migrazione.
- Volume della tabella
- Questa visualizzazione fornisce statistiche sulle tabelle e sui database più grandi rilevati dalla valutazione della migrazione a BigQuery. Poiché l'estrazione di tabelle di grandi dimensioni dal sistema di data warehouse di origine può richiedere più tempo, questa vista può essere utile per la pianificazione e la sequenziazione della migrazione.
- Utilizzo della tabella
- Questa visualizzazione fornisce statistiche sulle tabelle che vengono utilizzate molto nel sistema del data warehouse di origine. Le tabelle di uso intensivo possono aiutarti a capire quali potrebbero avere molte dipendenze e richiedere una pianificazione aggiuntiva durante il processo di migrazione.
- Utilizzo code
- Questa visualizzazione fornisce statistiche sull'utilizzo delle code YARN rilevate durante l'elaborazione dei log. Queste visualizzazioni consentono agli utenti di comprendere l'utilizzo di code e applicazioni specifiche nel tempo e l'impatto sull'utilizzo delle risorse. Queste visualizzazioni aiutano anche a identificare e dare la priorità ai carichi di lavoro per la migrazione. Durante una migrazione, è importante visualizzare l'importazione e il consumo dei dati per comprendere meglio le dipendenze del data warehouse e analizzare l'impatto del trasferimento di varie applicazioni dipendenti. La tabella degli indirizzi IP può essere utile per individuare l'applicazione esatta che utilizza il data warehouse tramite connessioni JDBC.
- Metriche code
- Questa visualizzazione fornisce un'analisi dettagliata delle diverse metriche sulle code YARN trovate durante l'elaborazione dei log. Questa visualizzazione consente agli utenti di comprendere i pattern di utilizzo in code specifiche e l'impatto sulla migrazione. Puoi anche utilizzare questa vista per identificare le connessioni tra le tabelle a cui hai eseguito query e le code in cui è stata eseguita la query.
- Coda e attesa
- Questa visualizzazione fornisce informazioni sul tempo di messa in coda delle query nel data warehouse di origine. I tempi di coda indicano un degrado delle prestazioni dovuto al sottodimensionamento e un provisioning aggiuntivo richiede un aumento dei costi di hardware e manutenzione.
- Query
- Questa visualizzazione fornisce una suddivisione dei tipi di istruzioni SQL eseguite e le statistiche del loro utilizzo. Puoi utilizzare l'istogramma di Tipo di query e Ora per identificare i periodi di utilizzo ridotto del sistema e le ore del giorno ottimali per trasferire i dati. Puoi anche utilizzare questa visualizzazione per identificare i motori di esecuzione Hive più utilizzati e le query eseguite di frequente, nonché i dettagli dell'utente.
- Database
- Questa visualizzazione fornisce metriche su dimensioni, tabelle, visualizzazioni e procedure definite nel sistema del data warehouse di origine. Questa visualizzazione può fornirti informazioni sul volume di oggetti di cui devi eseguire la migrazione.
- Accoppiamento di database e tabelle
- Questa visualizzazione fornisce una panoramica generale dei database e delle tabelle a cui si accede contemporaneamente in una singola query. Questa visualizzazione può mostrare a quali tabelle e database viene fatto spesso riferimento e cosa puoi utilizzare per la pianificazione della migrazione.
La sezione Stato stabile BigQuery contiene le seguenti visualizzazioni:
- Tabelle senza utilizzo
- La vista Tabelle senza utilizzo mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha rilevato alcun utilizzo durante il periodo di analisi dei log. La mancanza di utilizzo potrebbe indicare che non è necessario trasferire la tabella in BigQuery durante la migrazione o che i costi di archiviazione degli dati in BigQuery potrebbero essere inferiori. Devi convalidare l'elenco delle tabelle inutilizzate perché potrebbero essere utilizzate al di fuori del periodo dei log, ad esempio una tabella utilizzata solo una volta ogni tre o sei mesi.
- Tabelle senza scrittura
- La visualizzazione Tabelle senza scrittura mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha trovato aggiornamenti durante il periodo di log analizzato. La mancanza di scrittura può indicare dove potresti ridurre i costi di archiviazione in BigQuery.
- Suggerimenti per il clustering e il partizionamento
Questa visualizzazione mostra le tabelle che possono trarre vantaggio dalla partizione, dal clustering o da entrambi.
I suggerimenti per i metadati vengono ottenuti analizzando lo schema del data warehouse di origine (ad esempio la partizione e la chiave primaria nella tabella di origine) e trovando l'equivalente BigQuery più vicino per ottenere caratteristiche di ottimizzazione simili.
I suggerimenti per il workload vengono ottenuti analizzando i log delle query di origine. Il consiglio viene determinato analizzando i carichi di lavoro, in particolare le clausole
WHERE
oJOIN
nei log delle query analizzati.- Partizioni convertite in cluster
Questa vista mostra le tabelle con più di 10.000 partitizioni, in base alla definizione del vincolo di partizionamento. Queste tabelle tendono a essere buoni candidati per il clustering BigQuery, che consente le partizioni delle tabelle granulari.
- Partizioni distorte
La visualizzazione Partizioni con dati non uniformi mostra le tabelle basate sull'analisi dei metadati e con dati non uniformi in una o più partizioni. Queste tabelle sono buoni candidati per la modifica dello schema, in quanto le query sulle partizioni distorte potrebbero non avere un buon rendimento.
- Motore BI e viste materializzate
La visualizzazione Query a bassa latenza e viste materializzate mostra una distribuzione dei tempi di esecuzione delle query in base ai dati del log analizzati e ulteriori suggerimenti di ottimizzazione per migliorare le prestazioni su BigQuery. Se il grafico di distribuzione della durata delle query visualizza un numero elevato di query con un tempo di esecuzione inferiore a 1 secondo, valuta la possibilità di attivare BI Engine per accelerare la BI e altri carichi di lavoro a bassa latenza.
La sezione Piano di migrazione del report contiene le seguenti visualizzazioni:
- Traduzione SQL
- La visualizzazione Traduzione SQL elenca il conteggio e i dettagli delle query che sono state conversite automaticamente dalla valutazione della migrazione di BigQuery e che non richiedono intervento manuale. La traduzione automatica di SQL in genere raggiunge alti tassi di traduzione se vengono forniti i metadati. Questa visualizzazione è interattiva e consente di analizzare le query comuni e il modo in cui vengono tradotte.
- Impegno per la traduzione offline SQL
- La visualizzazione Impegno offline acquisisce le aree che richiedono un intervento manuale, tra cui funzioni UDF specifiche e potenziali violazioni della struttura e della sintassi lessicale per tabelle o colonne.
- Avvisi SQL
- La visualizzazione Avvisi SQL acquisisce le aree tradotte correttamente, ma che richiedono una revisione.
- Parole chiave riservate di BigQuery
- La visualizzazione Parole chiave riservate di BigQuery mostra l'utilizzo rilevato
delle parole chiave che hanno un significato speciale nel linguaggio GoogleSQL.
Queste parole chiave non possono essere utilizzate come identificatori, a meno che non siano racchiuse tra caratteri di barra verticale (
`
). - Pianificazione degli aggiornamenti delle tabelle
- La visualizzazione Pianificazione degli aggiornamenti delle tabelle mostra quando e con quale frequenza vengono aggiornate le tabelle per aiutarti a pianificare come e quando spostarle.
- Tabelle esterne BigLake
- La visualizzazione Tabelle esterne BigLake illustra le tabelle identificate come target della migrazione a BigLake anziché a BigQuery.
La sezione Appendice del report contiene le seguenti visualizzazioni:
- Analisi dettagliata dell'impegno per la traduzione offline SQL
- La visualizzazione Analisi dettagliata dell'impegno offline fornisce informazioni aggiuntive sulle aree SQL che necessitano di intervento manuale.
- Analisi dettagliata degli avvisi SQL
- La visualizzazione Analisi degli avvisi dettagliati fornisce un'ulteriore informazione sulle aree SQL che sono state tradotte correttamente, ma richiedono una revisione.
Snowflake
Il report è costituito da diverse sezioni che possono essere utilizzate singolarmente o insieme. Il seguente diagramma organizza queste sezioni in tre obiettivi comuni degli utenti per aiutarti a valutare le tue esigenze di migrazione:
Visualizzazioni degli elementi salienti della migrazione
La sezione Aspetti salienti della migrazione contiene le seguenti visualizzazioni:
- Modelli di determinazione dei prezzi di Snowflake e BigQuery
- Elenco dei prezzi con diversi livelli/versioni. Include anche un'illustrazione di come la scalabilità automatica di BigQuery può aiutarti a risparmiare di più rispetto a Snowflake.
- Costo totale di proprietà
- Tabella interattiva che consente all'utente di definire: versione BigQuery, impegno, impegno relativo agli slot di riferimento, percentuale di archiviazione attiva e percentuale di dati caricati o modificati. Aiuta a stimare meglio il costo per le custodie personalizzate.
- In evidenza nella traduzione automatica
- Rapporto di traduzione aggregato, raggruppato per utente o database, in ordine crescente o decrescente. Sono inclusi anche il messaggio di errore più comune per la traduzione automatica non riuscita.
Visualizzazioni del sistema esistenti
La sezione Sistema esistente contiene le seguenti visualizzazioni:
- Panoramica del sistema
- La visualizzazione Panoramica del sistema fornisce le metriche dei volumi di alto livello dei componenti chiave del sistema esistente per un periodo di tempo specificato. La sequenza temporale valutata dipende dai log analizzati dalla valutazione della migrazione di BigQuery. Questa visualizzazione fornisce informazioni rapide sull'utilizzo del data warehouse di origine, che puoi utilizzare per la pianificazione della migrazione.
- Panoramica dei magazzini virtuali
- Mostra il costo di Snowflake per magazzino, nonché il ridimensionamento in base ai nodi nel periodo.
- Volume della tabella
- La visualizzazione Volume delle tabelle fornisce statistiche sulle tabelle e sui database più grandi rilevati dalla valutazione della migrazione a BigQuery. Poiché l'estrazione delle tabelle di grandi dimensioni dal sistema data warehouse di origine potrebbe richiedere più tempo, questa vista può essere utile per la pianificazione e la sequenziazione della migrazione.
- Utilizzo della tabella
- La visualizzazione Utilizzo tabelle fornisce statistiche sulle tabelle che vengono utilizzate molto nel sistema di data warehouse di origine. Le tabelle di uso intensivo possono aiutarti a capire quali potrebbero avere molte dipendenze e richiedere una pianificazione aggiuntiva durante il processo di migrazione.
- Query
- La vista Query fornisce una suddivisione dei tipi di istruzioni SQL eseguite e le statistiche del loro utilizzo. Puoi utilizzare l'istogramma di Tipo di query e Tempo per identificare periodi di utilizzo ridotto del sistema e momenti ottimali della giorno per trasferire i dati. Puoi anche utilizzare questa visualizzazione per identificare le query eseguite di frequente e gli utenti che richiamano queste esecuzioni.
- Database
- La visualizzazione Database fornisce metriche su dimensioni, tabelle, visualizzazioni e procedure definite nel sistema del data warehouse di origine. Questa visualizzazione fornisce informazioni sul volume di oggetti di cui devi eseguire la migrazione.
Viste di stato stazionario BigQuery
La sezione Stato stabile di BigQuery contiene le seguenti visualizzazioni:
- Tabelle senza utilizzo
- La visualizzazione Tabelle senza utilizzo mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha rilevato alcun utilizzo durante il periodo di analisi dei log. In questo modo puoi capire quali tabelle potrebbero non dover essere trasferite in BigQuery durante la migrazione o se i costi di archiviazione dei dati in BigQuery potrebbero essere inferiori. Devi convalidare l'elenco delle tabelle inutilizzate, poiché potrebbero essere utilizzate al di fuori del periodo di analisi dei log, ad esempio una tabella utilizzata solo una volta ogni trimestre o semestre.
- Tabelle senza scrittura
- La visualizzazione Tabelle senza scrittura mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha trovato aggiornamenti durante il periodo di log analizzato. Ciò può indicare che i costi di archiviazione dei dati in BigQuery potrebbero essere inferiori.
Visualizzazioni del piano di migrazione
La sezione Piano di migrazione del report contiene le seguenti visualizzazioni:
- Traduzione SQL
- La visualizzazione Traduzione SQL elenca il conteggio e i dettagli delle query che sono state conversite automaticamente dalla valutazione della migrazione di BigQuery e che non richiedono intervento manuale. La traduzione automatica di SQL in genere raggiunge alti tassi di traduzione se vengono forniti i metadati. Questa visualizzazione è interattiva e consente di analizzare le query comuni e il modo in cui vengono tradotte.
- Impegno per la traduzione offline SQL
- La visualizzazione Impegno offline acquisisce le aree che richiedono un intervento manuale, tra cui funzioni UDF specifiche e potenziali violazioni della struttura e della sintassi lessicale per tabelle o colonne.
- Avvisi SQL - Da esaminare
- La visualizzazione Avvisi da esaminare acquisisce le aree per le quali è stata eseguita la traduzione per la maggior parte, ma che richiedono un'ispezione da parte di persone fisiche.
- Parole chiave riservate di BigQuery
- La visualizzazione Parole chiave riservate di BigQuery mostra l'utilizzo rilevato
di parole chiave che hanno un significato speciale nel linguaggio GoogleSQL
e non possono essere utilizzate come identificatori, a meno che non siano racchiuse tra i caratteri di backtick (
`
). - Accoppiamento di database e tabelle
- La visualizzazione Accoppiamento database fornisce una visione d'insieme dei database e delle tabelle a cui si accede insieme in un'unica query. Questa visualizzazione può mostrare le tabelle e i database a cui viene fatto spesso riferimento e cosa può essere utilizzato per la pianificazione della migrazione.
- Pianificazione degli aggiornamenti delle tabelle
- La visualizzazione Pianificazione aggiornamenti tabelle mostra quando e con quale frequenza vengono aggiornate le tabelle per aiutarti a pianificare come e quando spostarle.
Visualizzazioni Proof of Concept
La sezione PoC (proof of concept) contiene le seguenti viste:
- PoC per dimostrare i risparmi di BigQuery in stato stabile
- Sono incluse le query più frequenti, quelle che leggono più dati, le query più lente e le tabelle interessate da queste query.
- PoC per dimostrare il piano di migrazione a BigQuery
- Mostra in che modo BigQuery traduce le query più complesse e le tabelle interessate.
Oracle
Per richiedere feedback o assistenza per questa funzionalità, invia un'email all'indirizzo bq-edw-migration-support@google.com.
Approfondimenti sulla migrazione
La sezione Aspetti salienti della migrazione contiene le seguenti visualizzazioni:
- Sistema esistente: uno snapshot del sistema Oracle esistente e del relativo utilizzo, incluso il numero di database, schemi, tabelle e dimensioni totali in GB. Fornisce inoltre il riepilogo della classificazione dei carichi di lavoro per ogni database per aiutarti a decidere se BigQuery è la destinazione di migrazione giusta.
- Compatibilità: fornisce informazioni sull'impegno necessario per la migrazione stessa. Per ogni database analizzato, mostra il tempo di migrazione previsto e il numero di oggetti di database di cui è possibile eseguire la migrazione automaticamente con gli strumenti forniti da Google.
- Stato stabile di BigQuery: contiene informazioni sull'aspetto dei dati dopo la migrazione in BigQuery, inclusi i costi di archiviazione dei dati in BigQuery in base al tasso di importazione dati annuale. Inoltre, fornisce la stima del costo di calcolo di BigQuery per Oracle Exadata.
Sistema esistente
La sezione Sistema esistente contiene le seguenti visualizzazioni:
- Carichi di lavoro: descrive il tipo di carico di lavoro per ogni database in base alle metriche sul rendimento analizzate. Ogni database è classificato come OLAP, misto o OLTP. Queste informazioni possono aiutarti a decidere quali database è possibile eseguire la migrazione a BigQuery.
- Database e schemi: fornisce una suddivisione delle dimensioni totali dello spazio di archiviazione in GB per ciascun database, schema o tabella. Inoltre, puoi utilizzare questa vista per identificare le viste materializzate e le tabelle esterne.
- Funzionalità e link del database: mostra l'elenco delle funzionalità Oracle utilizzate nel database, insieme alle funzionalità o ai servizi equivalenti di BigQuery che possono essere utilizzati dopo la migrazione. Inoltre, puoi esplorare i link ai database per comprendere meglio le connessioni tra i database.
- Connessioni al database: fornisce informazioni sulle sessioni del database avviate dall'utente o dall'applicazione. L'analisi di questi dati può aiutarti a identificare le applicazioni esterne che potrebbero richiedere un impegno aggiuntivo durante la migrazione.
- Tipi di query: fornisce una suddivisione dei tipi di istruzioni SQL eseguite e le statistiche del loro utilizzo. Puoi utilizzare l'istogramma orario delle esecuzioni di query o del tempo CPU delle query per identificare periodi di utilizzo ridotto del sistema e momenti ottimali della giornata per trasferire i dati.
- Codice sorgente PL/SQL: fornisce informazioni sugli oggetti PL/SQL, come funzioni o procedure, e sulle relative dimensioni per ogni database e schema. Inoltre, l'istogramma delle esecuzioni orarie può essere utilizzato per identificare le ore di picco con la maggior parte delle esecuzioni PL/SQL.
Stato stabile di BigQuery
La sezione Sistema esistente contiene le seguenti visualizzazioni:
- Prezzi di Exadata e BigQuery: fornisce un confronto generale dei modelli di prezzi di Exadata e BigQuery per aiutarti a comprendere i vantaggi e i potenziali risparmi sui costi dopo la migrazione a BigQuery.
- Strumento di stima dei costi di BigQuery: può essere utilizzato per stimare il costo totale di BigQuery in base alla configurazione di Exadata. Per ottenere la stima più accurata, devi fornire il numero di server di database, il loro tipo e l'utilizzo. Inoltre, puoi confrontare il costo di BigQuery in base alla versione e all'impegno selezionati.
- Letture/scritture del database: fornisce informazioni sulle operazioni del disco fisico del database. L'analisi di questi dati può aiutarti a trovare il momento migliore per eseguire la migrazione dei dati da Oracle a BigQuery.
Suggerimenti per la migrazione
La sezione Suggerimenti per la migrazione contiene le seguenti visualizzazioni:
- Compatibilità degli oggetti del database: fornisce una panoramica della compatibilità degli oggetti del database con BigQuery, incluso il numero di oggetti di cui è possibile eseguire la migrazione automatica con gli strumenti forniti da Google o che richiedono un'azione manuale. Queste informazioni vengono mostrate per ogni database, schema e tipo di oggetto database.
- Impegno per la migrazione degli oggetti del database: mostra la stima dell'impegno per la migrazione in ore per ogni database, schema o tipo di oggetto del database. Inoltre, mostra la percentuale di oggetti di piccole, medie e grandi dimensioni in base all'impegno richiesto per la migrazione.
- Impegno per la migrazione dello schema del database: fornisce l'elenco di tutti i tipi di oggetti del database rilevati, il loro numero, la compatibilità con BigQuery e l'impegno stimato per la migrazione in ore.
- Impegno per la migrazione dello schema del database dettagliato: fornisce informazioni più approfondite sull'impegno per la migrazione dello schema del database, incluse le informazioni per ogni singolo oggetto.
Visualizzazioni Proof of Concept
La sezione Viste Proof of Concept contiene le seguenti viste:
- Migrazione di proof of concept: mostra l'elenco suggerito di database con il minore impegno di migrazione che sono buoni candidati per la migrazione iniziale. Inoltre, mostra le query principali che possono contribuire a dimostrare il risparmio in termini di tempo e costi e il valore di BigQuery tramite un proof of concept.
Appendice
La sezione Appendice contiene le seguenti visualizzazioni:
- Riepilogo esecuzione valutazione: fornisce i dettagli dell'esecuzione della valutazione, tra cui l'elenco dei file elaborati, gli errori e la completezza del report. Puoi utilizzare questa pagina per esaminare i dati mancanti nel report e comprendere meglio la completezza complessiva del report.
Condividi il report
Il report di Looker Studio è una dashboard frontend per la valutazione della migrazione. Si basa sulle autorizzazioni di accesso al set di dati sottostante. Per condividere il report, il destinatario deve avere accesso sia al report di Looker Studio sia al set di dati BigQuery che contiene i risultati della valutazione.
Quando apri il report dalla console Google Cloud, lo visualizzi in modalità di anteprima. Per creare e condividere il report con altri utenti, segui questi passaggi:
- Fai clic su Modifica e condividi. Looker Studio ti chiede di collegare i connettori di Looker Studio appena creati al nuovo report.
- Fai clic su Aggiungi al report. Il report riceve un ID report individuale che puoi utilizzare per accedervi.
- Per condividere il report di Looker Studio con altri utenti, segui i passaggi descritti in Condividere i report con visualizzatori ed editor.
- Concedi agli utenti l'autorizzazione per visualizzare il set di dati BigQuery utilizzato per eseguire l'attività di valutazione. Per ulteriori informazioni, consulta Concedere l'accesso a un set di dati.
Esegui query sulle tabelle di output della valutazione della migrazione
Sebbene i report di Looker Studio siano il modo più pratico per visualizzare i risultati della valutazione, puoi anche visualizzare e eseguire query sui dati sottostanti nel set di dati BigQuery.
Query di esempio
L'esempio seguente restituisce il numero totale di query uniche, il numero di query per le quali la traduzione non è riuscita e la percentuale di query uniche per le quali la traduzione non è riuscita.
SELECT QueryCount.v AS QueryCount, ErrorCount.v as ErrorCount, (ErrorCount.v * 100) / QueryCount.v AS FailurePercentage FROM ( SELECT COUNT(*) AS v FROM `your_project.your_dataset.TranslationErrors` WHERE Type = "ERROR" ) AS ErrorCount, ( SELECT COUNT(DISTINCT(QueryHash)) AS v FROM `your_project.your_dataset.Queries` ) AS QueryCount;
Condividere il set di dati con gli utenti di altri progetti
Dopo aver ispezionato il set di dati, se vuoi condividerlo con un utente che non fa parte del tuo progetto, puoi utilizzare il flusso di lavoro del publisher di Analytics Hub.
Nella console Google Cloud, vai alla pagina BigQuery.
Fai clic sul set di dati per visualizzarne i dettagli.
Fai clic su > Pubblica come scheda.
CondivisioneNella finestra di dialogo visualizzata, crea una scheda come richiesto.
Se hai già un scambio di dati, salta il passaggio 5.
Crea una piattaforma di scambio pubblicitario e imposta le autorizzazioni. Per consentire a un utente di visualizzare le tue schede in questa piattaforma di scambio, aggiungilo all'elenco Abbonati.
Inserisci i dettagli della scheda.
Nome visualizzato è il nome di questa scheda ed è obbligatorio; gli altri campi sono facoltativi.
Fai clic su Pubblica.
Viene creata una scheda privata.
Per la tua scheda, seleziona
Altre azioni in Azioni.Fai clic su Copia link condivisione.
Puoi condividere il link con gli utenti che hanno accesso in abbonamento alla tua piattaforma di scambio pubblicitario o alla tua scheda.
Tabelle di valutazione schematizzate
Per visualizzare le tabelle e i relativi schemi che la valutazione della migrazione a BigQuery scrive in BigQuery, seleziona il tuo data warehouse:
Teradata
AllRIChildren
Questa tabella fornisce le informazioni sull'integrità referenziale delle tabelle figlie.
Colonna | Tipo | Descrizione |
---|---|---|
IndexId |
INTEGER |
Il numero di indice di riferimento. |
IndexName |
STRING |
Il nome dell'indice. |
ChildDB |
STRING |
Il nome del database di riferimento, convertito in lettere minuscole. |
ChildDBOriginal |
STRING |
Il nome del database di riferimento con la maiuscola conservata. |
ChildTable |
STRING |
Il nome della tabella di riferimento, convertito in minuscolo. |
ChildTableOriginal |
STRING |
Il nome della tabella di riferimento con la cassetta conservata. |
ChildKeyColumn |
STRING |
Il nome di una colonna nella chiave di riferimento, convertito in minuscolo. |
ChildKeyColumnOriginal |
STRING |
Il nome di una colonna nella chiave di riferimento con la maiuscola conservata. |
ParentDB |
STRING |
Il nome del database a cui si fa riferimento, convertito in lettere minuscole. |
ParentDBOriginal |
STRING |
Il nome del database a cui si fa riferimento con la maiuscola conservata. |
ParentTable |
STRING |
Il nome della tabella a cui si fa riferimento, convertito in minuscolo. |
ParentTableOriginal |
STRING |
Il nome della tabella a cui si fa riferimento con la maiuscola conservata. |
ParentKeyColumn |
STRING |
Il nome della colonna in una chiave a cui viene fatto riferimento, convertito in minuscolo. |
ParentKeyColumnOriginal |
STRING |
Il nome della colonna in una chiave a cui viene fatto riferimento con la maiuscola conservata. |
AllRIParents
Questa tabella fornisce le informazioni sull'integrità referenziale delle tabelle principali.
Colonna | Tipo | Descrizione |
---|---|---|
IndexId |
INTEGER |
Il numero di indice di riferimento. |
IndexName |
STRING |
Il nome dell'indice. |
ChildDB |
STRING |
Il nome del database di riferimento, convertito in lettere minuscole. |
ChildDBOriginal |
STRING |
Il nome del database di riferimento con la maiuscola conservata. |
ChildTable |
STRING |
Il nome della tabella di riferimento, convertito in minuscolo. |
ChildTableOriginal |
STRING |
Il nome della tabella di riferimento con la cassetta conservata. |
ChildKeyColumn |
STRING |
Il nome di una colonna nella chiave di riferimento, convertito in minuscolo. |
ChildKeyColumnOriginal |
STRING |
Il nome di una colonna nella chiave di riferimento con la maiuscola conservata. |
ParentDB |
STRING |
Il nome del database a cui si fa riferimento, convertito in lettere minuscole. |
ParentDBOriginal |
STRING |
Il nome del database a cui si fa riferimento con la maiuscola conservata. |
ParentTable |
STRING |
Il nome della tabella a cui si fa riferimento, convertito in minuscolo. |
ParentTableOriginal |
STRING |
Il nome della tabella a cui si fa riferimento con la maiuscola conservata. |
ParentKeyColumn |
STRING |
Il nome della colonna in una chiave a cui viene fatto riferimento, convertito in minuscolo. |
ParentKeyColumnOriginal |
STRING |
Il nome della colonna in una chiave a cui viene fatto riferimento con la maiuscola conservata. |
Columns
Questa tabella fornisce informazioni sulle colonne.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database, convertito in minuscolo. |
DatabaseNameOriginal |
STRING |
Il nome del database con la cassetta conservata. |
TableName |
STRING |
Il nome della tabella, convertito in minuscolo. |
TableNameOriginal |
STRING |
Il nome della tabella con la maiuscola conservata. |
ColumnName |
STRING |
Il nome della colonna, convertito in minuscolo. |
ColumnNameOriginal |
STRING |
Il nome della colonna con la maiuscola conservata. |
ColumnType |
STRING |
Il tipo BigQuery della colonna, ad esempio STRING . |
OriginalColumnType |
STRING |
Il tipo originale della colonna, ad esempio VARCHAR . |
ColumnLength |
INTEGER |
Il numero massimo di byte della colonna, ad esempio 30 per VARCHAR(30) . |
DefaultValue |
STRING |
Il valore predefinito, se esistente. |
Nullable |
BOOLEAN |
Indica se la colonna può ammettere valori nulli. |
DiskSpace
Questa tabella fornisce informazioni sull'utilizzo dello spazio su disco per ogni database.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database, convertito in minuscolo. |
DatabaseNameOriginal |
STRING |
Il nome del database con la cassetta conservata. |
MaxPerm |
INTEGER |
Il numero massimo di byte allocati allo spazio permanente. |
MaxSpool |
INTEGER |
Il numero massimo di byte allocati allo spazio spool. |
MaxTemp |
INTEGER |
Il numero massimo di byte allocati allo spazio temporaneo. |
CurrentPerm |
INTEGER |
Il numero di byte attualmente allocati allo spazio permanente. |
CurrentSpool |
INTEGER |
Il numero di byte attualmente allocati allo spazio spool. |
CurrentTemp |
INTEGER |
Il numero di byte attualmente allocati allo spazio temporaneo. |
PeakPerm |
INTEGER |
Numero massimo di byte utilizzati dall'ultimo ripristino per lo spazio permanente. |
PeakSpool |
INTEGER |
Numero massimo di byte utilizzati dall'ultimo ripristino per lo spazio spool. |
PeakPersistentSpool |
INTEGER |
Numero massimo di byte utilizzati dall'ultimo ripristino per lo spazio permanente. |
PeakTemp |
INTEGER |
Numero massimo di byte utilizzati dall'ultimo ripristino per lo spazio temporaneo. |
MaxProfileSpool |
INTEGER |
Il limite di spazio per la coda per l'utente. |
MaxProfileTemp |
INTEGER |
Il limite di spazio temporaneo per l'utente. |
AllocatedPerm |
INTEGER |
Assegnazione attuale dello spazio permanente. |
AllocatedSpool |
INTEGER |
Allocazione corrente dello spazio spool. |
AllocatedTemp |
INTEGER |
Allottamento corrente di spazio temporaneo. |
Functions
Questa tabella fornisce informazioni sulle funzioni.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database, convertito in minuscolo. |
DatabaseNameOriginal |
STRING |
Il nome del database con la cassetta conservata. |
FunctionName |
STRING |
Il nome della funzione. |
LanguageName |
STRING |
Il nome della lingua. |
Indices
Questa tabella fornisce informazioni sugli indici.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database, convertito in minuscolo. |
DatabaseNameOriginal |
STRING |
Il nome del database con la cassetta conservata. |
TableName |
STRING |
Il nome della tabella, convertito in minuscolo. |
TableNameOriginal |
STRING |
Il nome della tabella con la maiuscola conservata. |
IndexName |
STRING |
Il nome dell'indice. |
ColumnName |
STRING |
Il nome della colonna, convertito in minuscolo. |
ColumnNameOriginal |
STRING |
Il nome della colonna con la maiuscola conservata. |
OrdinalPosition |
INTEGER |
La posizione della colonna. |
UniqueFlag |
BOOLEAN |
Indica se l'indice impone l'unicità. |
Queries
Questa tabella fornisce informazioni sulle query estratte.
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
QueryText |
STRING |
Il testo della query. |
QueryLogs
Questa tabella fornisce alcune statistiche di esecuzione sulle query estratte.
Colonna | Tipo | Descrizione |
---|---|---|
QueryText |
STRING |
Il testo della query. |
QueryHash |
STRING |
L'hash della query. |
QueryId |
STRING |
L'ID della query. |
QueryType |
STRING |
Il tipo di query, Query o DDL. |
UserId |
BYTES |
L'ID dell'utente che ha eseguito la query. |
UserName |
STRING |
Il nome dell'utente che ha eseguito la query. |
StartTime |
TIMESTAMP |
Timestamp di invio della query. |
Duration |
STRING |
Durata della query in millisecondi. |
AppId |
STRING |
L'ID dell'applicazione che ha eseguito la query. |
ProxyUser |
STRING |
L'utente proxy se utilizzato tramite un livello intermedio. |
ProxyRole |
STRING |
Il ruolo proxy se utilizzato tramite un livello intermedio. |
QueryTypeStatistics
Questa tabella fornisce statistiche sui tipi di query.
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
QueryType |
STRING |
Il tipo di query. |
UpdatedTable |
STRING |
La tabella aggiornata dalla query, se presente. |
QueriedTables |
ARRAY<STRING> |
Un elenco delle tabelle su cui è stata eseguita la query. |
ResUsageScpu
Questa tabella fornisce informazioni sull'utilizzo delle risorse della CPU.
Colonna | Tipo | Descrizione |
---|---|---|
EventTime |
TIMESTAMP |
L'ora dell'evento. |
NodeId |
INTEGER |
ID nodo |
CabinetId |
INTEGER |
Il numero della cassetta fisica del nodo. |
ModuleId |
INTEGER |
Il numero del modulo fisico del nodo. |
NodeType |
STRING |
Tipo di nodo. |
CpuId |
INTEGER |
ID della CPU all'interno di questo nodo. |
MeasurementPeriod |
INTEGER |
Il periodo della misurazione espresso in centisecondi. |
SummaryFlag |
STRING |
S - riga di riepilogo, N - riga non di riepilogo |
CpuFrequency |
FLOAT |
Frequenza della CPU in MHz. |
CpuIdle |
FLOAT |
Il tempo di inattività della CPU espresso in centisecondi. |
CpuIoWait |
FLOAT |
Il tempo di attesa della CPU per l'I/O espresso in centisecondi. |
CpuUServ |
FLOAT |
Il tempo in cui la CPU esegue il codice utente espresso in centisecondi. |
CpuUExec |
FLOAT |
Il tempo in cui la CPU esegue il codice di servizio espresso in centisecondi. |
Roles
Questa tabella fornisce informazioni sui ruoli.
Colonna | Tipo | Descrizione |
---|---|---|
RoleName |
STRING |
Il nome del ruolo. |
Grantor |
STRING |
Il nome del database che ha concesso il ruolo. |
Grantee |
STRING |
L'utente a cui viene concesso il ruolo. |
WhenGranted |
TIMESTAMP |
Quando è stato concesso il ruolo. |
WithAdmin |
BOOLEAN |
L'opzione Amministratore è impostata per il ruolo concesso. |
SchemaConversion
Questa tabella fornisce informazioni sulle conversioni dello schema relative a clustering e partizionamento.
Nome colonna | Tipo di colonna | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database di origine per cui viene fornito il suggerimento. Un database viene mappato a un set di dati in BigQuery. |
TableName |
STRING |
Il nome della tabella per cui viene fornito il suggerimento. |
PartitioningColumnName |
STRING |
Il nome della colonna di partizionamento suggerita in BigQuery. |
ClusteringColumnNames |
ARRAY |
I nomi delle colonne di clustering suggerite in BigQuery. |
CreateTableDDL |
STRING |
CREATE TABLE statement
per creare la tabella in BigQuery. |
TableInfo
Questa tabella fornisce informazioni sulle tabelle.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database, convertito in minuscolo. |
DatabaseNameOriginal |
STRING |
Il nome del database con la cassetta conservata. |
TableName |
STRING |
Il nome della tabella, convertito in minuscolo. |
TableNameOriginal |
STRING |
Il nome della tabella con la maiuscola conservata. |
LastAccessTimestamp |
TIMESTAMP |
L'ultima volta che è stato eseguito l'accesso alla tabella. |
LastAlterTimestamp |
TIMESTAMP |
L'ultima volta che la tabella è stata modificata. |
TableKind |
STRING |
Il tipo di tabella. |
TableRelations
Questa tabella fornisce informazioni sulle tabelle.
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query che ha stabilito la relazione. |
DatabaseName1 |
STRING |
Il nome del primo database. |
TableName1 |
STRING |
Il nome della prima tabella. |
DatabaseName2 |
STRING |
Il nome del secondo database. |
TableName2 |
STRING |
Il nome della seconda tabella. |
Relation |
STRING |
Il tipo di relazione tra le due tabelle. |
TableSizes
Questa tabella fornisce informazioni sulle dimensioni delle tabelle.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database, convertito in minuscolo. |
DatabaseNameOriginal |
STRING |
Il nome del database con la cassetta conservata. |
TableName |
STRING |
Il nome della tabella, convertito in minuscolo. |
TableNameOriginal |
STRING |
Il nome della tabella con la maiuscola conservata. |
TableSizeInBytes |
INTEGER |
Le dimensioni della tabella in byte. |
Users
Questa tabella fornisce informazioni sugli utenti.
Colonna | Tipo | Descrizione |
---|---|---|
UserName |
STRING |
Il nome dell'utente. |
CreatorName |
STRING |
Il nome dell'entità che ha creato questo utente. |
CreateTimestamp |
TIMESTAMP |
Il timestamp della creazione dell'utente. |
LastAccessTimestamp |
TIMESTAMP |
Il timestamp dell'ultimo accesso di questo utente a un database. |
Amazon Redshift
Columns
La tabella Columns
proviene da una delle seguenti tabelle:
SVV_COLUMNS,
INFORMATION_SCHEMA.COLUMNS
o
PG_TABLE_DEF,
ordinate in base alla priorità. Lo strumento tenta inizialmente di caricare i dati dalla tabella con la priorità più alta. Se non riesce, tenta di caricare i dati dalla tabella con la priorità successiva più alta. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di Amazon Redshift o PostgreSQL.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database. |
SchemaName |
STRING |
Il nome dello schema. |
TableName |
STRING |
Il nome della tabella. |
ColumnName |
STRING |
Il nome della colonna. |
DefaultValue |
STRING |
Il valore predefinito, se disponibile. |
Nullable |
BOOLEAN |
Indica se una colonna può avere o meno un valore null. |
ColumnType |
STRING |
Il tipo di colonna, ad esempio VARCHAR . |
ColumnLength |
INTEGER |
La dimensione della colonna, ad esempio 30 per un
VARCHAR(30) . |
CreateAndDropStatistic
Questa tabella fornisce informazioni sulla creazione e sull'eliminazione delle tabelle.
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
DefaultDatabase |
STRING |
Il database predefinito. |
EntityType |
STRING |
Il tipo di entità, ad esempio TABLE. |
EntityName |
STRING |
Il nome dell'entità. |
Operation |
STRING |
L'operazione: CREATE o DROP. |
Databases
Questa tabella proviene direttamente dalla tabella PG_DATABASE_INFO di Amazon Redshift. I nomi dei campi originali della tabella PG sono inclusi nelle descrizioni. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di Amazon Redshift e PostgreSQL.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database. Nome origine: datname |
Owner |
STRING |
Il proprietario del database. Ad esempio, l'utente che ha creato il database. Nome dell'origine: datdba |
ExternalColumns
Questa tabella contiene informazioni provenienti direttamente dalla tabella SVV_EXTERNAL_COLUMNS di Amazon Redshift. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di Amazon Redshift.
Colonna | Tipo | Descrizione |
---|---|---|
SchemaName |
STRING |
Il nome dello schema esterno. |
TableName |
STRING |
Il nome della tabella esterna. |
ColumnName |
STRING |
Il nome della colonna esterna. |
ColumnType |
STRING |
Il tipo di colonna. |
Nullable |
BOOLEAN |
Indica se una colonna può avere o meno un valore null. |
ExternalDatabases
Questa tabella contiene informazioni della tabella SVV_EXTERNAL_DATABASES di Amazon Redshift. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di Amazon Redshift.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database esterno. |
Location |
STRING |
La posizione del database. |
ExternalPartitions
Questa tabella contiene informazioni della tabella SVV_EXTERNAL_PARTITIONS di Amazon Redshift. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di Amazon Redshift.
Colonna | Tipo | Descrizione |
---|---|---|
SchemaName |
STRING |
Il nome dello schema esterno. |
TableName |
STRING |
Il nome della tabella esterna. |
Location |
STRING |
La posizione della partizione. La dimensione della colonna è limitata a 128 caratteri. I valori più lunghi vengono troncati. |
ExternalSchemas
Questa tabella contiene informazioni provenienti direttamente dalla tabella SVV_EXTERNAL_SCHEMAS di Amazon Redshift. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di Amazon Redshift.
Colonna | Tipo | Descrizione |
---|---|---|
SchemaName |
STRING |
Il nome dello schema esterno. |
DatabaseName |
STRING |
Il nome del database esterno. |
ExternalTables
Questa tabella contiene informazioni provenienti direttamente dalla tabella SVV_EXTERNAL_TABLES di Amazon Redshift. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di Amazon Redshift.
Colonna | Tipo | Descrizione |
---|---|---|
SchemaName |
STRING |
Il nome dello schema esterno. |
TableName |
STRING |
Il nome della tabella esterna. |
Functions
Questa tabella contiene informazioni direttamente dalla tabella PG_PROC di Amazon Redshift. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di Amazon Redshift e PostgreSQL.
Colonna | Tipo | Descrizione |
---|---|---|
SchemaName |
STRING |
Il nome dello schema. |
FunctionName |
STRING |
Il nome della funzione. |
LanguageName |
STRING |
Il linguaggio di implementazione o l'interfaccia di chiamata di questa funzione. |
Queries
Questa tabella viene generata utilizzando le informazioni della tabella QueryLogs
. A differenza della tabella QueryLogs
, ogni riga della tabella Query contiene un solo statement di query memorizzato nella colonna QueryText. Questa tabella fornisce i dati di origine per generare le tabelle Statistiche e gli output di traduzione.
Colonna | Tipo | Descrizione |
---|---|---|
QueryText |
STRING |
Il testo della query. |
QueryHash |
STRING |
L'hash della query. |
QueryLogs
Questa tabella fornisce informazioni sull'esecuzione delle query.
Colonna | Tipo | Descrizione |
---|---|---|
QueryText |
STRING |
Il testo della query. |
QueryHash |
STRING |
L'hash della query. |
QueryID |
STRING |
L'ID della query. |
UserID |
STRING |
L'ID dell'utente. |
StartTime |
TIMESTAMP |
L'ora di inizio. |
Duration |
INTEGER |
Durata in millisecondi. |
QueryTypeStatistics
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
DefaultDatabase |
STRING |
Il database predefinito. |
QueryType |
STRING |
Il tipo di query. |
UpdatedTable |
STRING |
La tabella aggiornata. |
QueriedTables |
ARRAY<STRING> |
Le tabelle su cui è stata eseguita la query. |
TableInfo
Questa tabella contiene informazioni estratte dalla tabella SVV_TABLE_INFO in Amazon Redshift.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database. |
SchemaName |
STRING |
Il nome dello schema. |
TableId |
INTEGER |
L'ID tabella. |
TableName |
STRING |
Il nome della tabella. |
SortKey1 |
STRING |
Prima colonna nella chiave di ordinamento. |
SortKeyNum |
INTEGER |
Numero di colonne definite come chiavi di ordinamento. |
MaxVarchar |
INTEGER |
Dimensioni della colonna più grande che utilizza un tipo di dati VARCHAR . |
Size |
INTEGER |
Dimensioni della tabella, in blocchi di dati da 1 MB. |
TblRows |
INTEGER |
Numero totale di righe nella tabella. |
TableRelations
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query che ha stabilito la relazione (ad es. una query JOIN). |
DefaultDatabase |
STRING |
Il database predefinito. |
TableName1 |
STRING |
La prima tabella della relazione. |
TableName2 |
STRING |
La seconda tabella della relazione. |
Relation |
STRING |
Il tipo di relazione. Deve essere uno dei seguenti valori:
COMMA_JOIN , CROSS_JOIN ,
FULL_OUTER_JOIN , INNER_JOIN ,
LEFT_OUTER_JOIN ,
RIGHT_OUTER_JOIN , CREATED_FROM o
INSERT_INTO . |
Count |
INTEGER |
La frequenza con cui è stata osservata questa relazione. |
TableSizes
Questa tabella fornisce informazioni sulle dimensioni delle tabelle.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database. |
SchemaName |
STRING |
Il nome dello schema. |
TableName |
STRING |
Il nome della tabella. |
TableSizeInBytes |
INTEGER |
Le dimensioni della tabella in byte. |
Tables
Questa tabella contiene le informazioni estratte dalla tabella SVV_TABLES in Amazon Redshift. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di Amazon Redshift.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database. |
SchemaName |
STRING |
Il nome dello schema. |
TableName |
STRING |
Il nome della tabella. |
TableType |
STRING |
Il tipo di tabella. |
TranslatedQueries
Questa tabella fornisce le traduzioni delle query.
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
TranslatedQueryText |
STRING |
Risultato della traduzione dal dialetto di origine a GoogleSQL. |
TranslationErrors
Questa tabella fornisce informazioni sugli errori di traduzione delle query.
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
Severity |
STRING |
La gravità dell'errore, ad esempio ERROR . |
Category |
STRING |
La categoria dell'errore, ad esempio
AttributeNotFound . |
Message |
STRING |
Il messaggio con i dettagli dell'errore. |
LocationOffset |
INTEGER |
La posizione del carattere in cui si è verificato l'errore. |
LocationLine |
INTEGER |
Il numero di riga dell'errore. |
LocationColumn |
INTEGER |
Il numero di colonna dell'errore. |
LocationLength |
INTEGER |
La lunghezza in caratteri della posizione dell'errore. |
UserTableRelations
Colonna | Tipo | Descrizione |
---|---|---|
UserID |
STRING |
L'ID utente. |
TableName |
STRING |
Il nome della tabella. |
Relation |
STRING |
La relazione. |
Count |
INTEGER |
Il conteggio. |
Users
Questa tabella contiene informazioni estratte dalla tabella PG_USER in Amazon Redshift. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di PostgreSQL.
Colonna | Tipo | Descrizione | |
---|---|---|---|
UserName |
STRING |
Il nome dell'utente. | |
UserId |
STRING |
L'ID utente. |
Apache Hive
Columns
Questa tabella fornisce informazioni sulle colonne:
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database con la cassetta conservata. |
TableName |
STRING |
Il nome della tabella con la maiuscola conservata. |
ColumnName |
STRING |
Il nome della colonna con la maiuscola conservata. |
ColumnType |
STRING |
Il tipo BigQuery della colonna, ad esempio STRING . |
OriginalColumnType |
STRING |
Il tipo originale della colonna, ad esempio VARCHAR . |
CreateAndDropStatistic
Questa tabella fornisce informazioni sulla creazione e sull'eliminazione delle tabelle:
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
DefaultDatabase |
STRING |
Il database predefinito. |
EntityType |
STRING |
Il tipo di entità, ad esempio TABLE . |
EntityName |
STRING |
Il nome dell'entità. |
Operation |
STRING |
L'operazione eseguita sulla tabella (CREATE o DROP ). |
Databases
Questa tabella fornisce informazioni sui database:
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database con la cassetta conservata. |
Owner |
STRING |
Il proprietario del database. Ad esempio, l'utente che ha creato il database. |
Location |
STRING |
Posizione del database nel file system. |
Functions
Questa tabella fornisce informazioni sulle funzioni:
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database con la cassetta conservata. |
FunctionName |
STRING |
Il nome della funzione. |
LanguageName |
STRING |
Il nome della lingua. |
ClassName |
STRING |
Il nome della classe della funzione. |
ObjectReferences
Questa tabella fornisce informazioni sugli oggetti a cui viene fatto riferimento nelle query:
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
DefaultDatabase |
STRING |
Il database predefinito. |
Clause |
STRING |
La clausola in cui compare l'oggetto. Ad esempio, SELECT . |
ObjectName |
STRING |
Il nome dell'oggetto. |
Type |
STRING |
Il tipo di oggetto. |
Subtype |
STRING |
Il sottotipo dell'oggetto. |
ParititionKeys
Questa tabella fornisce informazioni sulle chiavi di partizione:
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database con la cassetta conservata. |
TableName |
STRING |
Il nome della tabella con la maiuscola conservata. |
ColumnName |
STRING |
Il nome della colonna con la maiuscola conservata. |
ColumnType |
STRING |
Il tipo BigQuery della colonna, ad esempio STRING . |
Parititions
Questa tabella fornisce informazioni sulle partizioni delle tabelle:
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database con la cassetta conservata. |
TableName |
STRING |
Il nome della tabella con la maiuscola conservata. |
PartitionName |
STRING |
Il nome della partizione. |
CreateTimestamp |
TIMESTAMP |
Il timestamp della creazione di questa partizione. |
LastAccessTimestamp |
TIMESTAMP |
Il timestamp dell'ultimo accesso a questa partizione. |
LastDdlTimestamp |
TIMESTAMP |
Il timestamp dell'ultima modifica di questa partizione. |
TotalSize |
INTEGER |
Le dimensioni compresse della partizione in byte. |
Queries
Questa tabella viene generata utilizzando le informazioni della tabella QueryLogs
. A differenza della tabella QueryLogs
, ogni riga della tabella Query contiene una sola istruzione di query memorizzata nella colonna QueryText
. Questa tabella fornisce i dati di origine per generare le tabelle Statistiche e gli output di traduzione:
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
QueryText |
STRING |
Il testo della query. |
QueryLogs
Questa tabella fornisce alcune statistiche di esecuzione sulle query estratte:
Colonna | Tipo | Descrizione |
---|---|---|
QueryText |
STRING |
Il testo della query. |
QueryHash |
STRING |
L'hash della query. |
QueryId |
STRING |
L'ID della query. |
QueryType |
STRING |
Il tipo di query, Query o DDL . |
UserName |
STRING |
Il nome dell'utente che ha eseguito la query. |
StartTime |
TIMESTAMP |
Il timestamp di invio della query. |
Duration |
STRING |
La durata della query in millisecondi. |
QueryTypeStatistics
Questa tabella fornisce statistiche sui tipi di query:
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
QueryType |
STRING |
Il tipo di query. |
UpdatedTable |
STRING |
La tabella aggiornata dalla query, se presente. |
QueriedTables |
ARRAY<STRING> |
Un elenco delle tabelle su cui è stata eseguita la query. |
QueryTypes
Questa tabella fornisce statistiche sui tipi di query:
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
Category |
STRING |
La categoria della query. |
Type |
STRING |
Il tipo di query. |
Subtype |
STRING |
Il sottotipo della query. |
SchemaConversion
Questa tabella fornisce informazioni sulle conversioni dello schema correlate al clustering e al partizionamento:
Nome colonna | Tipo di colonna | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database di origine per cui viene fornito il suggerimento. Un database viene mappato a un set di dati in BigQuery. |
TableName |
STRING |
Il nome della tabella per cui viene fornito il suggerimento. |
PartitioningColumnName |
STRING |
Il nome della colonna di partizionamento suggerita in BigQuery. |
ClusteringColumnNames |
ARRAY |
I nomi delle colonne di clustering suggerite in BigQuery. |
CreateTableDDL |
STRING |
CREATE TABLE statement
per creare la tabella in BigQuery. |
TableRelations
Questa tabella fornisce informazioni sulle tabelle:
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query che ha stabilito la relazione. |
DatabaseName1 |
STRING |
Il nome del primo database. |
TableName1 |
STRING |
Il nome della prima tabella. |
DatabaseName2 |
STRING |
Il nome del secondo database. |
TableName2 |
STRING |
Il nome della seconda tabella. |
Relation |
STRING |
Il tipo di relazione tra le due tabelle. |
TableSizes
Questa tabella fornisce informazioni sulle dimensioni delle tabelle:
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database con la cassetta conservata. |
TableName |
STRING |
Il nome della tabella con la maiuscola conservata. |
TotalSize |
INTEGER |
Le dimensioni della tabella in byte. |
Tables
Questa tabella fornisce informazioni sulle tabelle:
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database con la cassetta conservata. |
TableName |
STRING |
Il nome della tabella con la maiuscola conservata. |
Type |
STRING |
Il tipo di tabella. |
TranslatedQueries
Questa tabella fornisce le traduzioni delle query:
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
TranslatedQueryText |
STRING |
Il risultato della traduzione dal dialetto di origine a GoogleSQL. |
TranslationErrors
Questa tabella fornisce informazioni sugli errori di traduzione delle query:
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
Severity |
STRING |
La gravità dell'errore, ad esempio ERROR . |
Category |
STRING |
La categoria dell'errore, ad esempio
AttributeNotFound . |
Message |
STRING |
Il messaggio con i dettagli dell'errore. |
LocationOffset |
INTEGER |
La posizione del carattere in cui si è verificato l'errore. |
LocationLine |
INTEGER |
Il numero di riga dell'errore. |
LocationColumn |
INTEGER |
Il numero di colonna dell'errore. |
LocationLength |
INTEGER |
La lunghezza in caratteri della posizione dell'errore. |
UserTableRelations
Colonna | Tipo | Descrizione |
---|---|---|
UserID |
STRING |
L'ID utente. |
TableName |
STRING |
Il nome della tabella. |
Relation |
STRING |
La relazione. |
Count |
INTEGER |
Il conteggio. |
Snowflake
Warehouses
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
WarehouseName |
STRING |
Il nome del magazzino. | Sempre |
State |
STRING |
Lo stato del magazzino. Valori possibili: STARTED , SUSPENDED , RESIZING . |
Sempre |
Type |
STRING |
Tipo di magazzino. Valori possibili: STANDARD , SNOWPARK-OPTIMIZED . |
Sempre |
Size |
STRING |
Dimensioni del magazzino. Valori possibili: X-Small , Small , Medium , Large , X-Large , 2X-Large ... 6X-Large . |
Sempre |
Databases
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
DatabaseNameOriginal |
STRING |
Il nome del database, con la maiuscola conservata. | Sempre |
DatabaseName |
STRING |
Il nome del database, convertito in minuscolo. | Sempre |
Schemata
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
DatabaseNameOriginal |
STRING |
Il nome del database a cui appartiene lo schema, con la maiuscola conservata. | Sempre |
DatabaseName |
STRING |
Il nome del database a cui appartiene lo schema, convertito in minuscolo. | Sempre |
SchemaNameOriginal |
STRING |
Il nome dello schema, con la maiuscola conservata. | Sempre |
SchemaName |
STRING |
Il nome dello schema, convertito in minuscolo. | Sempre |
Tables
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
DatabaseNameOriginal |
STRING |
Il nome del database a cui appartiene la tabella, con la maiuscola conservata. | Sempre |
DatabaseName |
STRING |
Il nome del database a cui appartiene la tabella, convertito in minuscolo. | Sempre |
SchemaNameOriginal |
STRING |
Il nome dello schema a cui appartiene la tabella, con la maiuscola conservata. | Sempre |
SchemaName |
STRING |
Il nome dello schema a cui appartiene la tabella, convertito in minuscolo. | Sempre |
TableNameOriginal |
STRING |
Il nome della tabella, con la maiuscola conservata. | Sempre |
TableName |
STRING |
Il nome della tabella, convertito in minuscolo. | Sempre |
TableType |
STRING |
Tipo di tabella (vista / vista materializzata / tabella di base). | Sempre |
RowCount |
BIGNUMERIC |
Numero di righe nella tabella. | Sempre |
Columns
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
DatabaseName |
STRING |
Il nome del database, convertito in minuscolo. | Sempre |
DatabaseNameOriginal |
STRING |
Il nome del database, con la maiuscola conservata. | Sempre |
SchemaName |
STRING |
Il nome dello schema, convertito in minuscolo. | Sempre |
SchemaNameOriginal |
STRING |
Il nome dello schema, con la maiuscola conservata. | Sempre |
TableName |
STRING |
Il nome della tabella, convertito in minuscolo. | Sempre |
TableNameOriginal |
STRING |
Il nome della tabella con la maiuscola conservata. | Sempre |
ColumnName |
STRING |
Il nome della colonna, convertito in minuscolo. | Sempre |
ColumnNameOriginal |
STRING |
Il nome della colonna con la maiuscola conservata. | Sempre |
ColumnType |
STRING |
Il tipo di colonna. | Sempre |
CreateAndDropStatistics
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
QueryHash |
STRING |
L'hash della query. | Sempre |
DefaultDatabase |
STRING |
Il database predefinito. | Sempre |
EntityType |
STRING |
Il tipo di entità, ad esempio TABLE . |
Sempre |
EntityName |
STRING |
Il nome dell'entità. | Sempre |
Operation |
STRING |
L'operazione: CREATE o DROP . |
Sempre |
Queries
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
QueryText |
STRING |
Il testo della query. | Sempre |
QueryHash |
STRING |
L'hash della query. | Sempre |
QueryLogs
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
QueryText |
STRING |
Il testo della query. | Sempre |
QueryHash |
STRING |
L'hash della query. | Sempre |
QueryID |
STRING |
L'ID della query. | Sempre |
UserID |
STRING |
L'ID dell'utente. | Sempre |
StartTime |
TIMESTAMP |
L'ora di inizio. | Sempre |
Duration |
INTEGER |
Durata in millisecondi. | Sempre |
QueryTypeStatistics
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
QueryHash |
STRING |
L'hash della query. | Sempre |
DefaultDatabase |
STRING |
Il database predefinito. | Sempre |
QueryType |
STRING |
Il tipo di query. | Sempre |
UpdatedTable |
STRING |
La tabella aggiornata. | Sempre |
QueriedTables |
REPEATED STRING |
Le tabelle su cui è stata eseguita la query. | Sempre |
TableRelations
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
QueryHash |
STRING |
L'hash della query che ha stabilito la relazione (ad esempio, una query JOIN ). |
Sempre |
DefaultDatabase |
STRING |
Il database predefinito. | Sempre |
TableName1 |
STRING |
La prima tabella della relazione. | Sempre |
TableName2 |
STRING |
La seconda tabella della relazione. | Sempre |
Relation |
STRING |
Il tipo di relazione. | Sempre |
Count |
INTEGER |
La frequenza con cui è stata osservata questa relazione. | Sempre |
TranslatedQueries
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
QueryHash |
STRING |
L'hash della query. | Sempre |
TranslatedQueryText |
STRING |
Risultato della traduzione dal dialetto di origine a BigQuery SQL. | Sempre |
TranslationErrors
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
QueryHash |
STRING |
L'hash della query. | Sempre |
Severity |
STRING |
La gravità dell'errore, ad esempio ERROR . |
Sempre |
Category |
STRING |
La categoria dell'errore, ad esempio AttributeNotFound . |
Sempre |
Message |
STRING |
Il messaggio con i dettagli dell'errore. | Sempre |
LocationOffset |
INTEGER |
La posizione del carattere in cui si è verificato l'errore. | Sempre |
LocationLine |
INTEGER |
Il numero di riga dell'errore. | Sempre |
LocationColumn |
INTEGER |
Il numero di colonna dell'errore. | Sempre |
LocationLength |
INTEGER |
La lunghezza in caratteri della posizione dell'errore. | Sempre |
UserTableRelations
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
UserID |
STRING |
ID utente. | Sempre |
TableName |
STRING |
Il nome della tabella. | Sempre |
Relation |
STRING |
La relazione. | Sempre |
Count |
INTEGER |
Il conteggio. | Sempre |
Risoluzione dei problemi
Questa sezione illustra alcuni problemi comuni e tecniche di risoluzione dei problemi per la migrazione del data warehouse a BigQuery.
dwh-migration-dumper
errori dello strumento
Per risolvere i problemi relativi a errori e avvisi nell'output del terminale dello strumento dwh-migration-dumper
che si sono verificati durante l'estrazione dei metadati o dei log delle query, consulta la sezione Risoluzione dei problemi relativi alla generazione dei metadati.
Errori di migrazione di Hive
Questa sezione descrive i problemi comuni che potresti riscontrare quando pianifichi la migrazione del tuo data warehouse da Hive a BigQuery.
L'hook di logging scrive i messaggi di log di debug nei loghive-server2
. Se riscontri problemi, esamina i log di debug dell'hook di logging, che contengono la stringa MigrationAssessmentLoggingHook
.
Gestire l'errore ClassNotFoundException
L'errore potrebbe essere causato dal posizionamento errato del file JAR dell'hook di registrazione. Assicurati di aver aggiunto il file JAR alla cartella auxlib nel
cluster Hive. In alternativa, puoi specificare il percorso completo del
file JAR nella proprietà hive.aux.jars.path
, ad esempio
file://
.
Le sottocartelle non vengono visualizzate nella cartella configurata
Questo problema potrebbe essere causato da una configurazione errata o da problemi durante l'inizializzazione dell'hook di log.
Cerca nei log di debug hive-server2
i seguenti messaggi di hook di logging:
Unable to initialize logger, logging disabled
Log dir configuration key 'dwhassessment.hook.base-directory' is not set, logging disabled.
Error while trying to set permission
Esamina i dettagli del problema e controlla se c'è qualcosa da correggere per risolverlo.
I file non vengono visualizzati nella cartella
Questo problema potrebbe essere causato da problemi riscontrati durante l'elaborazione di un evento o durante la scrittura in un file.
Cerca nei log di debug di hive-server2
i seguenti messaggi di hook di logging:
Failed to close writer for file
Got exception while processing event
Error writing record for query
Esamina i dettagli del problema e controlla se c'è qualcosa da correggere per risolverlo.
Alcuni eventi di query non vengono rilevati
Questo problema potrebbe essere causato da un overflow della coda del thread di hook di registrazione.
Cerca nei log di debug hive-server2
il seguente messaggio di hook di logging:
Writer queue is full. Ignoring event
Se sono presenti messaggi di questo tipo, valuta la possibilità di aumentare il parametrodwhassessment.hook.queue.capacity
.
Passaggi successivi
Per ulteriori informazioni sullo strumento dwh-migration-dumper
, consulta
dwh-migration-tools.
Puoi anche scoprire di più sui seguenti passaggi della migrazione del data warehouse:
- Panoramica della migrazione
- Panoramica del trasferimento di schemi e dati
- Pipeline di dati
- Traduzione batch di SQL
- Traduzione SQL interattiva
- Sicurezza e governance dei dati
- Strumento di convalida dei dati