Valutazione della migrazione
La valutazione della migrazione di BigQuery consente di pianificare e rivedere la migrazione del tuo data warehouse esistente in BigQuery. Puoi eseguire la valutazione della migrazione a BigQuery per generare un report e valutare i costi di archiviazione dei dati in BigQuery, scoprire in che modo BigQuery può ottimizzare il carico di lavoro esistente per risparmiare sui costi e preparare un piano di migrazione che definisca il tempo e l'impegno necessari per completare la migrazione del data warehouse a BigQuery.
Questo documento descrive come utilizzare la valutazione della migrazione di BigQuery e i diversi modi in cui puoi esaminare i risultati della valutazione. Questo documento è destinato agli utenti che hanno familiarità con la console Google Cloud e il traduttore SQL batch.
Panoramica
Per preparare ed eseguire una valutazione della migrazione a BigQuery, segui questi passaggi:
Estrai metadati e log delle query dal tuo data warehouse utilizzando lo strumento
dwh-migration-dumper
.Carica i metadati e i log delle query nel bucket Cloud Storage.
(Facoltativo) Esegui una query sui risultati della valutazione per trovare informazioni dettagliate o specifiche sulla valutazione.
Estrai metadati e log delle query dal data warehouse
Per preparare la valutazione con i suggerimenti sono necessari sia i log delle query sia i metadati.
Per estrarre i metadati e i log delle query necessari per eseguire la valutazione, seleziona il tuo data warehouse:
Teradata
Requisiti
- Una macchina connessa al tuo data warehouse Teradata di origine (sono supportati Teradata 15 e versioni successive)
- Un account Google Cloud con un bucket Cloud Storage per archiviare i dati
- Un set di dati BigQuery vuoto per archiviare i risultati
- Autorizzazioni di lettura sul set di dati per visualizzare i risultati
- Diritti di accesso al database di origine a livello di amministratore quando utilizzi lo strumento di estrazione per accedere alle tabelle di sistema
Requisito: abilitare il logging
Lo strumento dwh-migration-dumper
estrae tre tipi di log: log delle query, log dell'utilità e log sull'utilizzo delle risorse. Per visualizzare insight più approfonditi, devi abilitare il logging per i seguenti tipi di log:
- Log delle query: estratti dalla vista
dbc.QryLogV
e dalla tabelladbc.DBQLSqlTbl
. Abilita il logging specificando l'opzioneWITH SQL
. - Log di utilità: estratti dalla tabella
dbc.DBQLUtilityTbl
. Abilita il logging specificando l'opzioneWITH UTILITYINFO
. - Log di utilizzo delle risorse: estratti dalle tabelle
dbc.ResUsageScpu
edbc.ResUsageSpma
. Abilita il logging RSS per queste due tabelle.
Esegui lo strumento dwh-migration-dumper
Scarica lo strumento dwh-migration-dumper
.
Scarica il file SHA256SUMS.txt
ed esegui questo comando per verificare la correttezza del file ZIP:
sha256sum --check SHA256SUMS.txt
Per maggiori dettagli su come configurare e utilizzare lo strumento di estrazione, consulta Generare metadati per la traduzione e la valutazione.
Utilizza lo strumento di estrazione per estrarre log e metadati dal data warehouse Teradata come due file ZIP. Esegui i comandi seguenti su una macchina con accesso al data warehouse di origine per generare i file.
Genera il file ZIP dei metadati:
dwh-migration-dumper \ --connector teradata \ --database DATABASES \ --driver path/terajdbc4.jar \ --host HOST \ --assessment \ --user USER \ --password PASSWORD
Genera il file ZIP contenente i log delle query:
dwh-migration-dumper \ --connector teradata-logs \ --driver path/terajdbc4.jar \ --host HOST \ --assessment \ --user USER \ --password PASSWORD
Sostituisci quanto segue:
DATABASES
: l'elenco separato da virgole dei nomi dei database da estrarrePATH
: il percorso assoluto o relativo al file JAR del driver da utilizzare per questa connessioneVERSION
: la versione del driverHOST
: l'indirizzo hostUSER
: il nome utente da utilizzare per la connessione al databasePASSWORD
: la password da utilizzare per la connessione al databaseSe il campo viene lasciato vuoto, all'utente verrà richiesta la password.
Puoi utilizzare solo il flag --database
per il connettore teradata
. Questo flag consente di estrarre i metadati di uno o più database. Quando estrai i log delle query utilizzando il connettore teradata-logs
, il flag --database
non è disponibile. I log delle query vengono sempre estratti per tutti i database.
Per impostazione predefinita, i log delle query vengono estratti dalla vista dbc.QryLogV
e dalla tabella dbc.DBQLSqlTbl
. Se devi estrarre i log delle query da una posizione alternativa, puoi specificare i nomi delle tabelle o delle viste utilizzando i flag -Dteradata-logs.query-logs-table
e -Dteradata-logs.sql-logs-table
.
Per impostazione predefinita, i log dell'utilità vengono estratti dalla tabella dbc.DBQLUtilityTbl
. Se devi estrarre i log dell'utilità da una posizione alternativa, puoi specificare il nome della tabella utilizzando il flag -Dteradata-logs.utility-logs-table
.
Per impostazione predefinita, i log di utilizzo delle risorse vengono estratti dalle tabelle dbc.ResUsageScpu
e dbc.ResUsageSpma
. Se devi estrarre i log di utilizzo delle risorse da una località alternativa, puoi specificare i nomi delle tabelle utilizzando i flag -Dteradata-logs.res-usage-scpu-table
e -Dteradata-logs.res-usage-spma-table
.
Ad esempio:
Bash
dwh-migration-dumper \ --connector teradata-logs \ --driver path/terajdbc4.jar \ --host HOST \ --assessment \ --user USER \ --password PASSWORD \ -Dteradata-logs.query-logs-table=historicdb.ArchivedQryLogV \ -Dteradata-logs.sql-logs-table=historicdb.ArchivedDBQLSqlTbl \ -Dteradata-logs.log-date-column=ArchiveLogDate \ -Dteradata-logs.utility-logs-table=historicdb.ArchivedUtilityLogs \ -Dteradata-logs.res-usage-scpu-table=historicdb.ArchivedResUsageScpu \ -Dteradata-logs.res-usage-spma-table=historicdb.ArchivedResUsageSpma
Windows PowerShell
dwh-migration-dumper ` --connector teradata-logs ` --driver path\terajdbc4.jar ` --host HOST ` --assessment ` --user USER ` --password PASSWORD ` "-Dteradata-logs.query-logs-table=historicdb.ArchivedQryLogV" ` "-Dteradata-logs.sql-logs-table=historicdb.ArchivedDBQLSqlTbl" ` "-Dteradata-logs.log-date-column=ArchiveLogDate" ` "-Dteradata-logs.utility-logs-table=historicdb.ArchivedUtilityLogs" ` "-Dteradata-logs.res-usage-scpu-table=historicdb.ArchivedResUsageScpu" ` "-Dteradata-logs.res-usage-spma-table=historicdb.ArchivedResUsageSpma"
Per impostazione predefinita, lo strumento dwh-migration-dumper
estrae i log delle query degli ultimi sette giorni.
Google consiglia di fornire almeno due settimane di log delle query per visualizzare insight più approfonditi. Puoi specificare un intervallo di tempo personalizzato
utilizzando i flag --query-log-start
e --query-log-end
. Ad esempio:
dwh-migration-dumper \ --connector teradata-logs \ --driver path/terajdbc4.jar \ --host HOST \ --assessment \ --user USER \ --password PASSWORD \ --query-log-start "2023-01-01 00:00:00" \ --query-log-end "2023-01-15 00:00:00"
Puoi anche generare più file ZIP contenenti log delle query che coprono periodi diversi e fornirli tutti per la valutazione.
Amazon Redshift
Requisiti
- Una macchina connessa al tuo data warehouse di origine Amazon Redshift
- Un account Google Cloud con un bucket Cloud Storage per archiviare i dati
- Un set di dati BigQuery vuoto per archiviare i risultati
- Autorizzazioni di lettura sul set di dati per visualizzare i risultati
- Consigliato: accesso super user al database quando si utilizza lo strumento di estrazione per accedere alle tabelle di sistema
Esegui lo strumento dwh-migration-dumper
Scarica lo strumento di estrazione a riga di comando di dwh-migration-dumper
.
Scarica il file SHA256SUMS.txt
ed esegui questo comando per verificare la correttezza del file ZIP:
sha256sum --check SHA256SUMS.txt
Per informazioni dettagliate su come utilizzare lo strumento dwh-migration-dumper
, consulta la pagina Generare metadati.
Utilizza lo strumento dwh-migration-dumper
per estrarre log e metadati dal tuo data warehouse Amazon Redshift come due file ZIP.
Esegui i comandi seguenti su una macchina con accesso al data warehouse di origine per generare i file.
Genera il file ZIP dei metadati:
dwh-migration-dumper \ --connector redshift \ --database DATABASE \ --driver PATH/redshift-jdbc42-VERSION.jar \ --host host.region.redshift.amazonaws.com \ --assessment \ --user USER \ --password PASSWORD
Genera il file ZIP contenente i log delle query:
dwh-migration-dumper \ --connector redshift-raw-logs \ --database DATABASE \ --driver PATH/redshift-jdbc42-VERSION.jar \ --host host.region.redshift.amazonaws.com \ --assessment \ --user USER \ --password PASSWORD
Sostituisci quanto segue:
DATABASE
: il nome del database a cui connettersiPATH
: il percorso assoluto o relativo al file JAR del driver da utilizzare per questa connessioneVERSION
: la versione del driverUSER
: il nome utente da utilizzare per la connessione al databasePASSWORD
: la password da utilizzare per la connessione al databaseSe il campo viene lasciato vuoto, all'utente verrà richiesta la password.
Per impostazione predefinita, Amazon Redshift archivia da tre a cinque giorni di log delle query.
Per impostazione predefinita, lo strumento dwh-migration-dumper
estrae i log delle query degli ultimi sette giorni.
Google consiglia di fornire almeno due settimane di log delle query per visualizzare insight più approfonditi. Potresti dover eseguire lo strumento di estrazione più volte nell'arco di due settimane per ottenere i risultati migliori. Puoi specificare un intervallo
personalizzato utilizzando i flag --query-log-start
e --query-log-end
.
Ad esempio:
dwh-migration-dumper \ --connector redshift-raw-logs \ --database DATABASE \ --driver PATH/redshift-jdbc42-VERSION.jar \ --host host.region.redshift.amazonaws.com \ --assessment \ --user USER \ --password PASSWORD \ --query-log-start "2023-01-01 00:00:00" \ --query-log-end "2023-01-02 00:00:00"
Puoi anche generare più file ZIP contenenti log delle query che coprono periodi diversi e fornirli tutti per la valutazione.
Apache Hive
Per richiedere feedback o assistenza per questa funzionalità, invia un'email all'indirizzo bq-edw-migration-support@google.com
.
Requisiti
- Una macchina connessa al tuo data warehouse Apache Hive di origine (la valutazione della migrazione di BigQuery supporta Hive su Tez e MapReduce e le versioni di Apache Hive comprese tra 2.2 e 3.1 incluse)
- Un account Google Cloud con un bucket Cloud Storage per archiviare i dati
- Un set di dati BigQuery vuoto per archiviare i risultati
- Autorizzazioni di lettura sul set di dati per visualizzare i risultati
- Accesso al data warehouse Apache Hive di origine per configurare l'estrazione dei log di query
- Statistiche aggiornate su tabelle, partizioni e colonne
La valutazione della migrazione di BigQuery utilizza statistiche su tabelle, partizioni e colonne per comprendere meglio il data warehouse Apache Hive e fornire insight approfonditi. Se l'impostazione di configurazione hive.stats.autogather
è impostata su false
nel data warehouse Apache Hive di origine, Google consiglia di abilitarlo o aggiornare manualmente le statistiche prima di eseguire lo strumento dwh-migration-dumper
.
Esegui lo strumento dwh-migration-dumper
Scarica lo strumento di estrazione a riga di comando di dwh-migration-dumper
.
Scarica il file SHA256SUMS.txt
ed esegui questo comando per verificare la correttezza del file ZIP:
sha256sum --check SHA256SUMS.txt
Per maggiori dettagli su come utilizzare lo strumento dwh-migration-dumper
, consulta
Generare metadati per la traduzione e la valutazione.
Utilizza lo strumento dwh-migration-dumper
per generare metadati dal data warehouse di Hive come file ZIP.
Senza autenticazione
Per generare il file ZIP dei metadati, esegui questo comando su una macchina che ha accesso al data warehouse di origine:
dwh-migration-dumper \ --connector hiveql \ --database DATABASES \ --host hive.cluster.host \ --port 9083 \ --assessment
Con autenticazione Kerberos
Per eseguire l'autenticazione nel metastore, accedi come utente che ha accesso al metastore Hive e genera un ticket Kerberos. Quindi, genera il file ZIP dei metadati con il seguente comando:
JAVA_OPTS="-Djavax.security.auth.useSubjectCredsOnly=false" \ dwh-migration-dumper \ --connector hiveql \ --database DATABASES \ --host hive.cluster.host \ --port 9083 \ --hive-kerberos-url PRINCIPAL/HOST \ -Dhiveql.rpc.protection=hadoop.rpc.protection \ --assessment
Sostituisci quanto segue:
DATABASES
: l'elenco separato da virgole dei nomi dei database da estrarre. Se non viene specificato, vengono estratti tutti i database.PRINCIPAL
: l'entità kerberos a cui viene emesso il ticketHOST
: il nome host kerberos per il quale viene emesso il tickethadoop.rpc.protection
: la qualità della protezione (QOP) del livello di configurazione SASL (Simple Authentication and Security Layer), uguale al valore del parametrohadoop.rpc.protection
all'interno del file/etc/hadoop/conf/core-site.xml
, con uno dei seguenti valori:authentication
integrity
privacy
Estrai i log delle query con l'hook di logging hadoop-migration-assessment
Per estrarre i log delle query:
- Carica l'hook di logging
hadoop-migration-assessment
. - Configura le proprietà dell'hook di logging.
- Verifica l'hook di logging.
Carica l'hook di logging hadoop-migration-assessment
Scarica l'hook di logging dell'estrazione dei log delle query
hadoop-migration-assessment
contenente il file JAR dell'hook di logging Hive.Estrai il file JAR.
Se devi verificare lo strumento per assicurarti che soddisfi i requisiti di conformità, esamina il codice sorgente dal repository GitHub di hook di logging
hadoop-migration-assessment
e compila il tuo programma binario.Copia il file JAR nella cartella della libreria ausiliaria in tutti i cluster in cui prevedi di abilitare il logging delle query. A seconda del fornitore, devi individuare la cartella della libreria ausiliaria nelle impostazioni del cluster e trasferire il file JAR nella cartella della libreria ausiliaria sul cluster Hive.
Imposta le proprietà di configurazione per l'hook di logging
hadoop-migration-assessment
. A seconda del fornitore di Hadoop, devi utilizzare la console UI per modificare le impostazioni del cluster. Modifica il file/etc/hive/conf/hive-site.xml
o applica la configurazione con il gestore di configurazione.
Configurare le proprietà
Se esistono già altri valori per le seguenti chiavi di configurazione, aggiungi le impostazioni utilizzando una virgola (,
). Per configurare l'hook di logging hadoop-migration-assessment
, sono necessarie le seguenti impostazioni di configurazione:
hive.exec.failure.hooks
:com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
hive.exec.post.hooks
:com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
hive.exec.pre.hooks
:com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
hive.aux.jars.path
: includi il percorso del file JAR di hook di logging, ad esempiofile://
./HiveMigrationAssessmentQueryLogsHooks_deploy.jar dwhassessment.hook.base-directory
: percorso della cartella di output dei log delle query. Ad esempio,hdfs://tmp/logs/
.Puoi anche impostare le seguenti configurazioni facoltative:
dwhassessment.hook.queue.capacity
: la capacità di coda per i thread di logging degli eventi di query. Il valore predefinito è64
.dwhassessment.hook.rollover-interval
: la frequenza con cui deve essere eseguito il riporto del file. Ad esempio,600s
. Il valore predefinito è 3600 secondi (1 ora).dwhassessment.hook.rollover-eligibility-check-interval
: la frequenza con cui il controllo dell'idoneità per il riporto del file viene attivato in background. Ad esempio,600s
. Il valore predefinito è 600 secondi (10 minuti).
Verifica l'hook di logging
Dopo aver riavviato il processo hive-server2
, esegui una query di prova e analizza i log di debug. Puoi vedere il seguente messaggio:
Logger successfully started, waiting for query events. Log directory is '[dwhassessment.hook.base-directory value]'; rollover interval is '60' minutes; rollover eligibility check is '10' minutes
L'hook di logging crea una sottocartella partizionata in base alle date nella cartella configurata. Il file Avro con gli eventi di query viene visualizzato in quella cartella dopo l'intervallo dwhassessment.hook.rollover-interval
o la terminazione del processo hive-server2
. Puoi cercare messaggi simili nei log di debug per visualizzare lo stato dell'operazione di riporto:
Updated rollover time for logger ID 'my_logger_id' to '2023-12-25T10:15:30'
Performed rollover check for logger ID 'my_logger_id'. Expected rollover time is '2023-12-25T10:15:30'
Il rollback avviene agli intervalli specificati o al cambio di giorno. Quando la data cambia, l'hook di logging crea anche una nuova sottocartella per quella data.
Google consiglia di fornire almeno due settimane di log delle query per visualizzare insight più approfonditi.
Puoi anche generare cartelle contenenti log delle query di diversi cluster Hive e fornirli tutti per una singola valutazione.
Snowflake
Requisiti
Per estrarre metadati e log di query da Snowflake, devi soddisfare i seguenti requisiti:
- Una macchina in grado di connettersi alle tue istanze Snowflake.
- Un account Google Cloud con un bucket Cloud Storage per archiviare i dati.
- Un set di dati BigQuery vuoto per archiviare i risultati. In alternativa, puoi creare un set di dati BigQuery quando crei il job di valutazione utilizzando l'interfaccia utente della console Google Cloud.
- Accesso al ruolo
ACCOUNTADMIN
per l'istanza Snowflake o concessione del ruolo con privilegiIMPORTED PRIVILEGES
nel databaseSnowflake
da un amministratore account.
Esegui lo strumento dwh-migration-dumper
Scarica lo strumento di estrazione a riga di comando di dwh-migration-dumper
.
Scarica il file SHA256SUMS.txt
ed esegui questo comando per verificare la correttezza del file ZIP:
sha256sum --check SHA256SUMS.txt
Per informazioni dettagliate su come utilizzare lo strumento dwh-migration-dumper
, consulta la pagina Generare metadati.
Utilizza lo strumento dwh-migration-dumper
per estrarre log e metadati dal data warehouse di Snowflake come due file ZIP. Esegui i comandi seguenti su una macchina con accesso al data warehouse di origine per generare i file.
Genera il file ZIP dei metadati:
dwh-migration-dumper \ --connector snowflake \ --host HOST_NAME \ --database SNOWFLAKE \ --user USER_NAME \ --role ROLE_NAME \ --warehouse WAREHOUSE \ --assessment \ --password PASSWORD
Genera il file ZIP contenente i log delle query:
dwh-migration-dumper \ --connector snowflake-logs \ --host HOST_NAME \ --database SNOWFLAKE \ --user USER_NAME \ --role ROLE_NAME \ --warehouse WAREHOUSE \ --query-log-start STARTING_DATE \ --query-log-end ENDING_DATE \ --assessment \ --password PASSWORD
Sostituisci quanto segue:
HOST_NAME
: il nome host dell'istanza Snowflake.USER_NAME
: il nome utente da utilizzare per la connessione al database, in cui l'utente deve disporre delle autorizzazioni di accesso come descritto nella sezione dei requisiti.ROLE_NAME
: (facoltativo) il ruolo utente quando esegui lo strumentodwh-migration-dumper
, ad esempioACCOUNTADMIN
.WAREHOUSE
: il warehouse utilizzato per eseguire le operazioni di dumping. Se hai più warehouse virtuali, puoi specificare qualsiasi warehouse per eseguire questa query. L'esecuzione di questa query con le autorizzazioni di accesso descritte nella sezione dei requisiti consente di estrarre tutti gli artefatti del warehouse in questo account.STARTING_DATE
: (facoltativo) utilizzato per indicare la data di inizio in un intervallo di date nei log delle query, nel formatoYYYY-MM-DD
.ENDING_DATE
: (facoltativo) utilizzato per indicare la data di fine in un intervallo di date dei log delle query, nel formatoYYYY-MM-DD
.
Puoi anche generare più file ZIP contenenti log delle query che coprono periodi non sovrapposti e fornirli tutti per la valutazione.
Carica metadati e log delle query su Cloud Storage
Dopo aver estratto i metadati e i log delle query dal data warehouse, puoi caricare i file in un bucket Cloud Storage per procedere con la valutazione della migrazione.
Teradata
Carica i metadati e uno o più file ZIP contenenti i log delle query nel bucket Cloud Storage. Per ulteriori informazioni sulla creazione di bucket e sul caricamento di file in Cloud Storage, consulta Creare bucket e Caricare oggetti da un file system. Il limite per le dimensioni totali non compresse di tutti i file all'interno del file ZIP dei metadati è di 50 GB.
Le voci in tutti i file ZIP contenenti i log delle query sono suddivise come segue:
- Esegui una query sui file di cronologia con il prefisso
query_history_
. - File di serie temporali con i prefissi
utility_logs_
,dbc.ResUsageScpu_
edbc.ResUsageSpma_
.
Il limite per le dimensioni totali non compresse di tutti i file della cronologia delle query è di 5 TB. Il limite per le dimensioni totali non compresse di tutti i file delle serie temporali è di 1 TB.
Se i log delle query sono archiviati in un database diverso, consulta la descrizione dei flag -Dteradata-logs.query-logs-table
e -Dteradata-logs.sql-logs-table
all'inizio di questa sezione, che spiega come fornire una posizione alternativa per i log delle query.
Amazon Redshift
Carica i metadati e uno o più file ZIP contenenti i log delle query nel bucket Cloud Storage. Per ulteriori informazioni sulla creazione di bucket e sul caricamento di file in Cloud Storage, consulta Creare bucket e Caricare oggetti da un file system. Il limite per le dimensioni totali non compresse di tutti i file all'interno del file ZIP dei metadati è di 50 GB.
Le voci in tutti i file ZIP contenenti i log delle query sono suddivise come segue:
- Esegui query sui file di cronologia con i prefissi
querytext_
eddltext_
. - File di serie temporali con i prefissi
query_queue_info_
,wlm_query_
equerymetrics_
.
Il limite per le dimensioni totali non compresse di tutti i file della cronologia delle query è di 5 TB. Il limite per le dimensioni totali non compresse di tutti i file delle serie temporali è di 1 TB.
Apache Hive
Per richiedere feedback o assistenza per questa funzionalità, invia un'email all'indirizzo bq-edw-migration-support@google.com
.
Carica i metadati e le cartelle contenenti i log delle query da uno o più cluster Hive nel bucket Cloud Storage. Per ulteriori informazioni sulla creazione di bucket e sul caricamento dei file in Cloud Storage, consulta Creare bucket e Caricare oggetti da un file system.
Il limite per le dimensioni totali non compresse di tutti i file all'interno del file ZIP dei metadati è di 50 GB.
Puoi utilizzare il connettore Cloud Storage per copiare i log delle query direttamente nella cartella Cloud Storage. Le cartelle contenenti sottocartelle con log delle query devono essere caricate nella stessa cartella Cloud Storage in cui è caricato il file ZIP dei metadati.
Le cartelle dei log delle query contengono file di cronologia delle query con il prefisso dwhassessment_
. Il limite per le dimensioni totali non compresse di tutti i file della cronologia delle query è di 5 TB.
Snowflake
Carica i metadati e i file ZIP contenenti i log delle query e le cronologie di utilizzo nel tuo bucket Cloud Storage. Durante il caricamento di questi file su Cloud Storage, devono essere soddisfatti i seguenti requisiti:
- Le dimensioni totali non compresse di tutti i file all'interno del file ZIP dei metadati devono essere inferiori a 50 GB.
- Il file ZIP dei metadati e il file ZIP contenente i log delle query devono essere caricati in una cartella Cloud Storage. Se hai più file ZIP che contengono log di query non sovrapposti, puoi caricarli tutti.
- Devi caricare tutti i file nella stessa cartella di Cloud Storage.
- Devi caricare tutti i file ZIP dei log delle query e dei metadati esattamente come vengono restituiti dallo strumento
dwh-migration-dumper
. Non decomprimere, combinare o modificare in altro modo. - Le dimensioni totali non compresse di tutti i file di cronologia delle query devono essere inferiori a 5 TB.
Per ulteriori informazioni sulla creazione di bucket e sul caricamento dei file in Cloud Storage, consulta Creare bucket e Caricare oggetti da un file system.
Esegui una valutazione della migrazione di BigQuery
Segui questi passaggi per eseguire la valutazione della migrazione di BigQuery. Questi passaggi presuppongono che tu abbia caricato i file dei metadati in un bucket Cloud Storage, come descritto nella sezione precedente.
Autorizzazioni obbligatorie
Per abilitare BigQuery Migration Service, devi disporre delle seguenti autorizzazioni IAM (Identity and Access Management):
resourcemanager.projects.get
resourcemanager.projects.update
serviceusage.services.enable
serviceusage.services.get
Per accedere a BigQuery Migration Service e utilizzarlo, devi disporre delle seguenti autorizzazioni per il progetto:
bigquerymigration.workflows.create
bigquerymigration.workflows.get
bigquerymigration.workflows.list
bigquerymigration.workflows.delete
bigquerymigration.subtasks.get
bigquerymigration.subtasks.list
Per eseguire BigQuery Migration Service, devi disporre delle seguenti autorizzazioni aggiuntive.
Autorizzazione per accedere ai bucket Cloud Storage per i file di input e di output:
storage.objects.get
sul bucket Cloud Storage di originestorage.objects.list
sul bucket Cloud Storage di originestorage.objects.create
sul bucket Cloud Storage di destinazionestorage.objects.delete
sul bucket Cloud Storage di destinazionestorage.objects.update
sul bucket Cloud Storage di destinazionestorage.buckets.get
storage.buckets.list
Autorizzazione per leggere e aggiornare il set di dati BigQuery in cui BigQuery Migration Service scrive i risultati:
bigquery.datasets.update
bigquery.datasets.get
bigquery.datasets.create
bigquery.datasets.delete
bigquery.jobs.create
bigquery.jobs.delete
bigquery.jobs.list
bigquery.jobs.update
bigquery.tables.create
bigquery.tables.get
bigquery.tables.getData
bigquery.tables.list
bigquery.tables.updateData
Per condividere il report di Looker Studio con un utente, devi concedere i ruoli seguenti:
roles/bigquery.dataViewer
roles/bigquery.jobUser
Per personalizzare questo documento in modo da utilizzare il tuo progetto e il tuo utente nei comandi, modifica queste variabili:
PROJECT
,
USER_EMAIL
.
Crea un ruolo personalizzato con le autorizzazioni necessarie per utilizzare la valutazione della migrazione di BigQuery:
gcloud iam roles create BQMSrole \ --project=PROJECT \ --title=BQMSrole \ --permissions=bigquerymigration.subtasks.get,bigquerymigration.subtasks.list,bigquerymigration.workflows.create,bigquerymigration.workflows.get,bigquerymigration.workflows.list,bigquerymigration.workflows.delete,resourcemanager.projects.update,resourcemanager.projects.get,serviceusage.services.enable,serviceusage.services.get,storage.objects.get,storage.objects.list,storage.objects.create,storage.objects.delete,storage.objects.update,bigquery.datasets.get,bigquery.datasets.update,bigquery.datasets.create,bigquery.datasets.delete,bigquery.tables.get,bigquery.tables.create,bigquery.tables.updateData,bigquery.tables.getData,bigquery.tables.list,bigquery.jobs.create,bigquery.jobs.update,bigquery.jobs.list,bigquery.jobs.delete,storage.buckets.list,storage.buckets.get
Concedi il ruolo personalizzato BQMSrole
a un utente:
gcloud projects add-iam-policy-binding \ PROJECT \ --member=user:USER_EMAIL \ --role=projects/PROJECT/roles/BQMSrole
Concedi i ruoli richiesti a un utente con cui vuoi condividere il report:
gcloud projects add-iam-policy-binding \ PROJECT \ --member=user:USER_EMAIL \ --role=roles/bigquery.dataViewer gcloud projects add-iam-policy-binding \ PROJECT \ --member=user:USER_EMAIL \ --role=roles/bigquery.jobUser
Località supportate
La funzionalità di valutazione della migrazione di BigQuery è supportata in due tipi di località:
Una regione è un luogo geografico ben preciso, come Londra.
Per più regioni si intende una grande area geografica, come gli Stati Uniti, che contiene due o più regioni. Le località che operano in più regioni possono fornire quote più grandi rispetto a singole regioni.
Per ulteriori informazioni su regioni e zone, consulta Area geografica e regioni.
Regioni
La tabella seguente elenca le regioni delle Americhe in cui è disponibile la valutazione della migrazione di BigQuery.Descrizione della regione | Nome regione | Dettagli |
---|---|---|
Columbus, Ohio | us-east5 |
|
Dallas | us-south1 |
|
Iowa | us-central1 |
A basse emissioni di CO2 |
Carolina del Sud | us-east1 |
|
Virginia del Nord | us-east4 |
|
Oregon | us-west1 |
A basse emissioni di CO2 |
Los Angeles | us-west2 |
|
Salt Lake City | us-west3 |
Descrizione della regione | Nome regione | Dettagli |
---|---|---|
Singapore | asia-southeast1 |
|
Tokyo | asia-northeast1 |
Descrizione della regione | Nome regione | Dettagli |
---|---|---|
Belgio | europe-west1 |
A basse emissioni di CO2 |
Finlandia | europe-north1 |
A basse emissioni di CO2 |
Francoforte | europe-west3 |
A basse emissioni di CO2 |
Londra | europe-west2 |
A basse emissioni di CO2 |
Madrid | europe-southwest1 |
|
Paesi Bassi | europe-west4 |
|
Parigi | europe-west9 |
A basse emissioni di CO2 |
Torino | europe-west12 |
|
Varsavia | europe-central2 |
|
Zurigo | europe-west6 |
A basse emissioni di CO2 |
Più regioni
La tabella seguente elenca le regioni multiple in cui è disponibile la valutazione della migrazione di BigQuery.Descrizione per più regioni | Nome più regioni |
---|---|
Data center negli stati membri dell'Unione Europea | EU |
Data center negli Stati Uniti | US |
Prima di iniziare
Prima di eseguire la valutazione, devi abilitare l'API BigQuery Migration e creare un set di dati BigQuery per archiviare i risultati della valutazione.
Abilita l'API BigQuery Migration
Abilita l'API BigQuery Migration nel seguente modo:
Nella console Google Cloud, vai alla pagina API BigQuery Migration.
Fai clic su Abilita.
Crea un set di dati per i risultati della valutazione
La valutazione della migrazione di BigQuery scrive i risultati della valutazione nelle tabelle in BigQuery. Prima di iniziare, crea un set di dati che contenga queste tabelle. Quando condividi il report di Looker Studio, devi anche concedere agli utenti l'autorizzazione a leggere questo set di dati. Per maggiori informazioni, consulta Rendere il report disponibile agli utenti.
Esegui la valutazione della migrazione
Console
Nella console Google Cloud, vai alla pagina BigQuery.
Nel pannello di navigazione, vai a Valutazione.
Fai clic su Inizia la valutazione.
Compila la finestra di dialogo di configurazione della valutazione.
- In Nome visualizzato, inserisci il nome che può contenere lettere, numeri o trattini bassi. Questo nome è solo a scopo di visualizzazione e non deve essere univoco.
- Nell'elenco Località dei dati, scegli una località per il job di valutazione. Per un'esecuzione più efficiente, questa posizione e le posizioni del bucket di input dei file estratti e del bucket di output devono essere le stesse.
- In Origine dati di valutazione, scegli il tuo data warehouse.
- In Percorso dei file di input, inserisci il percorso del bucket Cloud Storage che contiene i file estratti.
- In Set di dati, identifica il set di dati BigQuery che conterrà i risultati della valutazione utilizzando il formato
projectId.datasetId
.
Fai clic su Crea. Puoi visualizzare lo stato del job nell'elenco dei job di valutazione.
Al termine della valutazione, fai clic su Crea report per visualizzare il report di valutazione in Looker Studio. Il report si apre in una nuova scheda.
API
Chiama il metodo create
con un flusso di lavoro definito.
Quindi chiama il metodo start
per avviare il flusso di lavoro della valutazione.
La valutazione crea tabelle nel set di dati BigQuery che hai creato in precedenza. Puoi eseguire query su questi elementi per ottenere informazioni sulle tabelle e sulle query utilizzate nel data warehouse esistente. Per informazioni sui file di output della traduzione, vedi Traduttore SQL batch.
Esaminare e condividere il report di Looker Studio
Una volta completata l'attività di valutazione, puoi creare e condividere un report di Looker Studio dei risultati.
Esamina il report
Fai clic sul link Crea report accanto alla singola attività di valutazione. Il report di Looker Studio si apre in una nuova scheda, in modalità di anteprima. Puoi utilizzare la modalità di anteprima per esaminare i contenuti del report prima di condividerlo ulteriormente.
Il report è simile al seguente screenshot:
Per vedere quali viste sono contenute nel report, seleziona il tuo data warehouse:
Teradata
Il report è un articolo in tre parti preceduto da una pagina di riepilogo. che include le seguenti sezioni:
- Sistema esistente. Questa sezione è uno snapshot del sistema Teradata esistente e dell'utilizzo, che include il numero di database, schemi, tabelle e le dimensioni totali (in TB). Elenca inoltre gli schemi per dimensione e punta a un potenziale utilizzo delle risorse non ottimale (tabelle senza scritture o poche letture).
- Trasformazioni dello stato permanente di BigQuery (suggerimenti). Questa sezione mostra l'aspetto del sistema su BigQuery dopo la migrazione. Include suggerimenti per ottimizzare i carichi di lavoro su BigQuery (ed evitare sprechi).
- Piano di migrazione. Questa sezione fornisce informazioni sull'attività di migrazione stessa, ad esempio sul passaggio dal sistema esistente allo stato stabile di BigQuery. Questa sezione include il numero di query tradotte automaticamente e il tempo previsto per spostare ogni tabella in BigQuery.
I dettagli di ogni sezione includono quanto segue:
Sistema esistente
- Computing e query
- Utilizzo CPU:
- Mappa termica dell'utilizzo medio orario della CPU (visualizzazione complessiva dell'utilizzo delle risorse di sistema)
- Query per ora e giorno con utilizzo della CPU
- Query per tipo (lettura/scrittura) con utilizzo della CPU
- Applicazioni con utilizzo della CPU
- Overlay dell'utilizzo orario della CPU con prestazioni ore medie delle query e prestazioni orarie delle applicazioni
- Istogramma delle query per tipo e durata delle query
- Visualizzazione dei dettagli delle applicazioni (app, utente, query uniche, report e analisi ETL)
- Utilizzo CPU:
- Panoramica dell'archiviazione
- Database per volume, visualizzazioni e percentuali di accesso
- Tabelle con tariffe di accesso per utenti, query, scritture e creazioni temporanee di tabelle
- Applicazioni: tariffe di accesso e indirizzi IP
Trasformazioni dello stato stazionario di BigQuery (suggerimenti)
- Indici di join convertiti in viste materializzate
- Clustering e partizionamento candidati in base a metadati e utilizzo
- Query a bassa latenza identificate come candidati per BigQuery BI Engine
- Le colonne configurate con valori predefiniti che usano la descrizione delle colonne per archiviare
- Gli indici univoci in Teradata (per impedire righe con chiavi non univoche in una tabella) utilizzano tabelle di gestione temporanea e un'istruzione
MERGE
per inserire solo record univoci nelle tabelle di destinazione e poi ignorare i duplicati. - Query rimanenti e schema tradotti così come sono
Piano di migrazione
- Visualizzazione dettagliata con query tradotte automaticamente
- Conteggio delle query totali con la possibilità di filtrare per utente, applicazione, tabelle interessate, tabelle sottoposte a query e tipo di query
- Bucket di query con pattern simili raggruppati e mostrati in modo che l'utente possa vedere la filosofia di traduzione per tipo di query
- Query che richiedono l'intervento umano
- Query con violazioni della struttura lessica di BigQuery
- Funzioni e procedure definite dall'utente
- Parole chiave prenotate BigQuery
- Le tabelle vengono pianificate tramite scritture e letture (per raggrupparle per lo spostamento)
- Migrazione dei dati con BigQuery Data Transfer Service: Tempo stimato per la migrazione per tabella
La sezione Sistema esistente contiene le seguenti visualizzazioni:
- Panoramica del sistema
- La visualizzazione Panoramica del sistema fornisce le metriche di volume di alto livello dei componenti chiave nel sistema esistente per un periodo di tempo specificato. La sequenza temporale valutata dipende dai log analizzati mediante la valutazione della migrazione di BigQuery. Questa vista offre insight rapidi sull'utilizzo del data warehouse di origine, che puoi utilizzare per pianificare la migrazione.
- Volume tabella
- La visualizzazione Volume tabella fornisce statistiche sulle tabelle e sui database più grandi rilevati dalla valutazione della migrazione di BigQuery. Poiché l'estrazione di tabelle di grandi dimensioni potrebbe richiedere più tempo dal sistema di data warehouse di origine, questa vista può essere utile per la pianificazione e la sequenza della migrazione.
- Utilizzo della tabella
- La visualizzazione Utilizzo tabelle fornisce statistiche sulle tabelle maggiormente utilizzate all'interno del sistema di data warehouse di origine. Le tabelle molto utilizzate possono aiutarti a capire quali potrebbero avere molte dipendenze e richiedere una pianificazione aggiuntiva durante il processo di migrazione.
- Applicazioni
- Le visualizzazioni Utilizzo delle applicazioni e Pattern applicazioni forniscono statistiche sulle applicazioni trovate durante l'elaborazione dei log. Queste viste consentono agli utenti di comprendere l'utilizzo di applicazioni specifiche nel tempo e l'impatto sull'utilizzo delle risorse. Durante una migrazione, è importante visualizzare l'importazione e il consumo dei dati per comprendere meglio le dipendenze del data warehouse e analizzare l'impatto dello spostamento insieme di varie applicazioni dipendenti. La tabella degli indirizzi IP può essere utile per individuare l'applicazione esatta utilizzando il data warehouse tramite connessioni JDBC.
- Query
- La vista Query fornisce un'analisi dettagliata dei tipi di istruzioni SQL eseguite e delle loro statistiche sull'utilizzo. Puoi utilizzare l'istogramma per tipo di query e ora per identificare bassi periodi di utilizzo del sistema e ore ottimali del giorno per trasferire i dati. Puoi anche utilizzare questa visualizzazione per identificare le query eseguite di frequente e gli utenti che le richiamano.
- Database
- La vista Database fornisce metriche su dimensioni, tabelle, viste e procedure definite nel sistema di data warehouse di origine. Questa visualizzazione può fornire insight sul volume di oggetti di cui è necessario eseguire la migrazione.
- Accoppiamento database
- La vista Accoppiamento database offre una vista di alto livello sui database e sulle tabelle a cui si accede insieme in una singola query. Questa vista può mostrare le tabelle e i database a cui viene spesso fatto riferimento e cosa puoi utilizzare per la pianificazione della migrazione.
La sezione Stato stabile di BigQuery contiene le seguenti viste:
- Tavoli senza utilizzo
- La vista Tabelle senza utilizzo mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha rilevato alcun utilizzo durante il periodo dei log analizzato. Un mancato utilizzo potrebbe indicare che non è necessario trasferire la tabella a BigQuery durante la migrazione o che i costi di archiviazione dei dati in BigQuery potrebbero essere inferiori. Devi convalidare l'elenco delle tabelle inutilizzate perché potrebbero essere utilizzate al di fuori del periodo dei log, ad esempio una tabella utilizzata solo una volta ogni tre o sei mesi.
- Tabelle senza scrittura
- La visualizzazione Tabelle senza scritture mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha trovato alcun aggiornamento durante il periodo dei log analizzati. La mancanza di scritture può indicare dove potresti ridurre i costi di archiviazione in BigQuery.
- Query a bassa latenza
- La visualizzazione Query a bassa latenza mostra una distribuzione dei runtime delle query in base ai dati di log analizzati. Se il grafico di distribuzione della durata delle query mostra un numero elevato di query con tempi di esecuzione inferiori a 1 secondo, valuta la possibilità di abilitare BigQuery BI Engine per accelerare i carichi di lavoro BI e altri carichi di lavoro a bassa latenza.
- Viste materializzate
- La vista materializzata fornisce ulteriori suggerimenti di ottimizzazione per migliorare le prestazioni su BigQuery.
- Clustering e partizionamento
La visualizzazione Partizionamento e clustering mostra tabelle che potrebbero trarre vantaggio dal partizionamento, dal clustering o da entrambi.
I suggerimenti relativi ai metadati vengono ottenuti analizzando lo schema del data warehouse di origine (come partizionamento e chiave primaria nella tabella di origine) e individuando l'equivalente BigQuery più prossimo per ottenere caratteristiche di ottimizzazione simili.
I suggerimenti relativi al carico di lavoro vengono ottenuti analizzando i log delle query di origine. Il suggerimento viene determinato analizzando i carichi di lavoro, in particolare le clausole
WHERE
oJOIN
nei log di query analizzati.- Suggerimento sul clustering
La visualizzazione Partizionamento mostra le tabelle che potrebbero avere più di 4000 partizioni, in base alla definizione del relativo vincolo di partizionamento. Queste tabelle tendono a essere adatte al clustering di BigQuery, che consente partizioni granulari delle tabelle.
- Vincoli unici
La vista Vincoli unici mostra sia le tabelle
SET
sia gli indici unici definiti all'interno del data warehouse di origine. In BigQuery, è consigliabile utilizzare tabelle di gestione temporanea e un'istruzioneMERGE
per inserire solo record univoci in una tabella di destinazione. Utilizza i contenuti di questa vista per determinare per quali tabelle potresti aver bisogno di modificare l'ETL durante la migrazione.- Valori predefiniti / vincoli di controllo
Questa visualizzazione mostra le tabelle che utilizzano vincoli di controllo per impostare valori predefiniti per le colonne. In BigQuery, consulta Specifica dei valori predefiniti delle colonne.
La sezione Percorso di migrazione del report contiene le seguenti visualizzazioni:
- Traduzione SQL
- La vista Traduzione SQL elenca il numero e i dettagli delle query che sono state convertite automaticamente dalla valutazione della migrazione di BigQuery e che non richiedono interventi manuali. La traduzione automatica SQL in genere genera tassi di traduzione elevati se vengono forniti metadati. Questa visualizzazione è interattiva e consente di analizzare le query comuni e la loro traduzione.
- Impegno offline
- La vista Impegno offline mostra le aree che richiedono un intervento manuale, tra cui funzioni definite dall'utente specifiche e potenziali strutture lessicali e violazioni della sintassi per tabelle o colonne.
- Parole chiave riservate BigQuery
- La visualizzazione Parole chiave riservate di BigQuery mostra l'utilizzo rilevato delle parole chiave che hanno un significato speciale nel linguaggio GoogleSQL e non può essere utilizzata come identificatori, a meno che non sia racchiusa tra caratteri di accento grave (
`
). - Pianificazione degli aggiornamenti tabella
- La visualizzazione Pianificazione degli aggiornamenti delle tabelle mostra quando e con quale frequenza vengono aggiornate le tabelle, per aiutarti a pianificare come e quando spostarle.
- Migrazione dei dati a BigQuery
- La vista Migrazione dei dati a BigQuery indica il percorso di migrazione con il tempo previsto per eseguire la migrazione dei dati utilizzando BigQuery Data Transfer Service. Per ulteriori informazioni, consulta la guida di BigQuery Data Transfer Service per Teradata.
La sezione Appendice contiene le seguenti visualizzazioni:
- Distinzione tra maiuscole e minuscole
- La vista Sensibilità alle maiuscole mostra tabelle nel data warehouse di origine configurate per eseguire confronti senza distinzione tra maiuscole e minuscole. Per impostazione predefinita, i confronti di stringhe in BigQuery sono sensibili alle maiuscole. Per ulteriori informazioni, consulta la sezione Collation.
Amazon Redshift
- Punti salienti della migrazione
- La vista Panoramica della migrazione fornisce un riepilogo esecutivo delle tre sezioni del report:
- Il riquadro Sistema esistente fornisce informazioni sul numero di database, schemi, tabelle e la dimensione totale del sistema Redshift esistente. Elenca inoltre gli schemi per dimensioni e potenziale utilizzo non ottimale delle risorse. Puoi utilizzare queste informazioni per ottimizzare i dati rimuovendo, partizionando o eseguendo il clustering delle tabelle.
- Il riquadro Stato stabile di BigQuery fornisce informazioni sull'aspetto dei tuoi dati dopo la migrazione su BigQuery, incluso il numero di query che possono essere tradotte automaticamente utilizzando BigQuery Migration Service. Questa sezione mostra anche i costi per l'archiviazione dei dati in BigQuery in base alla frequenza di importazione annuale dei dati, insieme ai suggerimenti per l'ottimizzazione di tabelle, provisioning e spazio.
- Il riquadro Percorso di migrazione fornisce informazioni sullo stesso percorso di migrazione. Per ogni tabella sono indicati il tempo previsto per la migrazione, il numero di righe nella tabella e le dimensioni.
La sezione Sistema esistente contiene le seguenti visualizzazioni:
- Query per tipo e pianificazione
- La visualizzazione Query per tipo e Pianificazione classifica le query in ETL/Scrittura e Report/Aggregazione. La visualizzazione del mix di query nel tempo ti aiuta a comprendere i pattern di utilizzo esistenti e a identificare il burstiness e il potenziale overprovisioning che può influire su costi e prestazioni.
- Coda delle query
- La visualizzazione Coda delle query fornisce ulteriori dettagli sul carico del sistema, tra cui volume delle query, mix e qualsiasi impatto sulle prestazioni dovuto alla coda, ad esempio risorse insufficienti.
- Query e scalabilità WLM
- La vista Query e Scalabilità WLM identifica la scalabilità in contemporanea come un costo aggiuntivo e una complessità di configurazione. Mostra come il tuo sistema Redshift indirizza le query in base alle regole specificate e l'impatto sulle prestazioni dovuto alle code, alla scalabilità della contemporaneità e all'eliminazione delle query.
- Coda e attesa
- La visualizzazione Coda e In attesa offre un approfondimento più dettagliato sulla coda e sui tempi di attesa per le query nel tempo.
- Classi e prestazioni WLM
- La visualizzazione Classi e prestazioni WLM offre un modo facoltativo per mappare le regole a BigQuery. Tuttavia, ti consigliamo di lasciare che BigQuery instrada automaticamente le query.
- Insight sul volume di query e tabelle
- La visualizzazione Insight sul volume di query e tabelle elenca le query per dimensione, frequenza e utenti principali. Questo consente di classificare le origini del carico sul sistema e pianificare come eseguire la migrazione dei carichi di lavoro.
- Database e schemi
- La visualizzazione Database e schemi fornisce metriche su dimensioni, tabelle, visualizzazioni e procedure definite nel sistema di data warehouse di origine. Fornisce insight sul volume di oggetti di cui è necessario eseguire la migrazione.
- Volume tabella
- La visualizzazione Volume tabella fornisce statistiche sulle tabelle e sui database più grandi e mostra le modalità di accesso. Poiché l'estrazione di tabelle di grandi dimensioni potrebbe richiedere più tempo dal sistema di data warehouse di origine, questa vista semplifica la pianificazione e la sequenza della migrazione.
- Utilizzo della tabella
- La visualizzazione Utilizzo tabelle fornisce statistiche sulle tabelle maggiormente utilizzate all'interno del sistema di data warehouse di origine. Puoi sfruttare le tabelle molto utilizzate per comprendere le tabelle che potrebbero avere molte dipendenze e garantire ulteriori pianificazioni durante il processo di migrazione.
- Rifiuti per tavoli
- La visualizzazione Tabella dei rifiuti mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha rilevato alcun utilizzo durante il periodo dei log analizzati. Questo può indicare quali tabelle potrebbero non dover essere trasferite in BigQuery durante la migrazione. Ti consigliamo di convalidare l'elenco delle tabelle inutilizzate poiché potrebbero avere un utilizzo al di fuori del periodo dei log analizzato, ad esempio una tabella utilizzata solo una volta al trimestre o a metà.
La sezione Stato stabile di BigQuery contiene le seguenti viste:
- Proof of concept per la dimostrazione dello stato stazionario
- Questa visualizzazione elenca le query eseguite più di frequente, quelle che accedono alla maggior parte dei dati e le query più lunghe in base alla durata. Riepiloga anche le tabelle a cui accedono queste query.
- Suggerimenti per l'ottimizzazione
- La visualizzazione Suggerimenti di ottimizzazione elenca le potenziali tabelle per
il clustering o il partizionamento in base alle colonne. L'utilità è determinata dall'analisi dei carichi di lavoro, in particolare delle clausole
WHERE
oJOIN
nei log delle query analizzati. - BI Engine e viste materializzate
- BI Engine e le viste materializzate forniscono ulteriori suggerimenti di ottimizzazione per migliorare le prestazioni su BigQuery.
La sezione Percorso di migrazione contiene le seguenti visualizzazioni:
- Traduzione SQL
- La vista Traduzione SQL elenca il numero e i dettagli delle query che sono state convertite automaticamente dalla valutazione della migrazione di BigQuery e che non richiedono interventi manuali. La traduzione automatica SQL raggiunge in genere alti tassi di traduzione se vengono forniti metadati.
- Impegno offline
- La vista Impegno offline mostra le aree che richiedono un intervento manuale, tra cui funzioni definite dall'utente specifiche e query con potenziali ambiguità di traduzione.
- Pianificazione degli aggiornamenti tabella
- La visualizzazione Pianificazione degli aggiornamenti delle tabelle mostra come e quando vengono aggiornate le tabelle per aiutarti a pianificare come e quando spostarle.
- Scala tabella
- La visualizzazione Scala tabella elenca le tabelle con il maggior numero di colonne.
- Migrazione dei dati a BigQuery
- La vista Migrazione dei dati a BigQuery indica il percorso di migrazione con il tempo previsto per eseguire la migrazione dei dati utilizzando Data Transfer Service di BigQuery Migration Service. Per ulteriori informazioni, consulta la guida di BigQuery Data Transfer Service per Redshift.
Apache Hive
Il report, composto da una narrazione in tre parti, è preceduto da una pagina di riepilogo dei punti salienti che comprende le seguenti sezioni:
Sistema esistente - Hive. Questa sezione è composta da uno snapshot del sistema Hive esistente e dell'utilizzo che include il numero di database, le tabelle, le dimensioni totali (in GB) e il numero di log di query elaborati. Questa sezione elenca inoltre i database per dimensione e indica il potenziale utilizzo non ottimale delle risorse (tabelle senza scritture o poche letture) e il provisioning. I dettagli di questa sezione includono quanto segue:
- Computing e query
- Utilizzo CPU:
- Query per ora e giorno con utilizzo della CPU
- Query per tipo (lettura/scrittura)
- Code e applicazioni
- Overlay dell'utilizzo orario della CPU con prestazioni ore medie delle query e prestazioni orarie delle applicazioni
- Istogramma delle query per tipo e durata delle query
- Pagina Coda e attesa
- Visualizzazione dettagliata delle code (coda, utente, query uniche, analisi dei report e ETL, per metriche)
- Utilizzo CPU:
- Panoramica dello spazio di archiviazione
- Database per volume, visualizzazioni e percentuali di accesso
- Tabelle con tariffe di accesso per utenti, query, scritture e creazioni temporanee di tabelle
- Code e applicazioni: tariffe di accesso e indirizzi IP dei client.
- Computing e query
Stato stabile di BigQuery. Questa sezione mostra l'aspetto del sistema su BigQuery dopo la migrazione. Include suggerimenti per ottimizzare i carichi di lavoro su BigQuery (ed evitare sprechi). I dettagli di questa sezione includono quanto segue:
- Tabelle identificate come candidati per le viste materializzate
- Clustering e partizionamento candidati in base a metadati e utilizzo
- Query a bassa latenza identificate come candidati per BigQuery BI Engine
- Tabelle senza utilizzo in lettura o scrittura
- Tabelle partizionate con disallineamento dei dati
Piano di migrazione. Questa sezione fornisce informazioni sullo stesso impegno di migrazione. Ad esempio, passare dal sistema esistente allo stato stabile di BigQuery. Questa sezione contiene i target di archiviazione identificati per ogni tabella, le tabelle identificate come significative per la migrazione e il numero di query tradotte automaticamente. I dettagli di questa sezione includono quanto segue:
- Visualizzazione dettagliata con query tradotte automaticamente
- Conteggio delle query totali con la possibilità di filtrare per utente, applicazione, tabelle interessate, tabelle sottoposte a query e tipo di query
- Bucket di query con pattern simili raggruppati, consentendo agli utenti di vedere la filosofia di traduzione per tipo di query
- Query che richiedono l'intervento umano
- Query con violazioni della struttura lessicale di BigQuery
- Funzioni e procedure definite dall'utente
- Parole chiave prenotate BigQuery
- Query da esaminare
- Le tabelle vengono pianificate tramite scritture e letture (per raggrupparle per lo spostamento)
- Destinazione di archiviazione identificata per le tabelle esterne e gestite
- Visualizzazione dettagliata con query tradotte automaticamente
La sezione Sistema esistente - Hive contiene le seguenti visualizzazioni:
- Panoramica del sistema
- Questa visualizzazione fornisce le metriche di volume generale dei componenti chiave nel sistema esistente per un periodo di tempo specificato. La sequenza temporale valutata dipende dai log analizzati mediante la valutazione della migrazione di BigQuery. Questa vista offre insight rapidi sull'utilizzo del data warehouse di origine, che puoi utilizzare per pianificare la migrazione.
- Volume tabella
- Questa visualizzazione fornisce statistiche sulle tabelle e sui database più grandi rilevati dalla valutazione della migrazione di BigQuery. Poiché l'estrazione di tabelle di grandi dimensioni potrebbe richiedere più tempo dal sistema di data warehouse di origine, questa vista può essere utile per la pianificazione e la sequenza della migrazione.
- Utilizzo della tabella
- Questa visualizzazione fornisce statistiche su quali tabelle sono molto utilizzate all'interno del sistema di data warehouse di origine. Le tabelle molto utilizzate possono aiutarti a capire quali potrebbero avere molte dipendenze e richiedere una pianificazione aggiuntiva durante il processo di migrazione.
- Utilizzo delle code
- Questa visualizzazione fornisce statistiche sull'utilizzo delle code YARN rilevato durante l'elaborazione dei log. Queste viste consentono agli utenti di comprendere l'utilizzo di code e applicazioni specifiche nel tempo e l'impatto sull'utilizzo delle risorse. Queste viste aiutano anche a identificare e a stabilire la priorità dei carichi di lavoro per la migrazione. Durante una migrazione, è importante visualizzare l'importazione e il consumo dei dati per comprendere meglio le dipendenze del data warehouse e analizzare l'impatto dello spostamento insieme di varie applicazioni dipendenti. La tabella degli indirizzi IP può essere utile per individuare l'applicazione esatta utilizzando il data warehouse tramite connessioni JDBC.
- Metriche relative alle code
- Questa visualizzazione fornisce un'analisi delle diverse metriche sulle code YARN trovate durante l'elaborazione dei log. Questa visualizzazione consente agli utenti di comprendere i pattern di utilizzo in code specifiche e l'impatto sulla migrazione. Puoi anche utilizzare questa visualizzazione per identificare le connessioni tra le tabelle a cui si accede nelle query e le code in cui è stata eseguita la query.
- Coda e attesa
- Questa vista fornisce un insight sul tempo di coda delle query nel data warehouse di origine. I tempi di coda indicano un degrado delle prestazioni dovuto al provisioning insufficiente, mentre il provisioning aggiuntivo richiede costi hardware e di manutenzione maggiori.
- Query
- Questa visualizzazione fornisce una suddivisione dei tipi di istruzioni SQL eseguite e statistiche relative al loro utilizzo. Puoi utilizzare l'istogramma per tipo di query e ora per identificare bassi periodi di utilizzo del sistema e ore ottimali del giorno per trasferire i dati. Puoi anche utilizzare questa vista per identificare i motori di esecuzione Hive più utilizzati e le query eseguite di frequente insieme ai dettagli dell'utente.
- Database
- Questa vista fornisce metriche su dimensioni, tabelle, visualizzazioni e procedure definite nel sistema di data warehouse di origine. Questa visualizzazione può fornire insight sul volume di oggetti di cui è necessario eseguire la migrazione.
- Accoppiamento di database e tabelle
- Questa visualizzazione offre una visione generale dei database e delle tabelle a cui si accede insieme in una singola query. Questa vista può mostrare le tabelle e i database a cui viene spesso fatto riferimento e cosa puoi utilizzare per la pianificazione della migrazione.
La sezione Stato stabile di BigQuery contiene le seguenti viste:
- Tavoli senza utilizzo
- La vista Tabelle senza utilizzo mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha rilevato alcun utilizzo durante il periodo dei log analizzato. Un mancato utilizzo potrebbe indicare che non è necessario trasferire la tabella a BigQuery durante la migrazione o che i costi di archiviazione dei dati in BigQuery potrebbero essere inferiori. Devi convalidare l'elenco delle tabelle inutilizzate perché potrebbero essere utilizzate al di fuori del periodo dei log, ad esempio una tabella utilizzata solo una volta ogni tre o sei mesi.
- Tabelle senza scrittura
- La visualizzazione Tabelle senza scritture mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha trovato alcun aggiornamento durante il periodo dei log analizzati. La mancanza di scritture può indicare dove potresti ridurre i costi di archiviazione in BigQuery.
- Suggerimenti per clustering e partizionamento
Questa vista mostra le tabelle che potrebbero trarre vantaggio dal partizionamento, dal clustering o da entrambi.
I suggerimenti relativi ai metadati vengono ottenuti analizzando lo schema del data warehouse di origine (come partizionamento e chiave primaria nella tabella di origine) e individuando l'equivalente BigQuery più prossimo per ottenere caratteristiche di ottimizzazione simili.
I suggerimenti relativi al carico di lavoro vengono ottenuti analizzando i log delle query di origine. Il suggerimento viene determinato analizzando i carichi di lavoro, in particolare le clausole
WHERE
oJOIN
nei log di query analizzati.- Partizioni convertite in cluster
Questa visualizzazione mostra le tabelle con più di 4000 partizioni, in base alla definizione del vincolo di partizionamento. Queste tabelle tendono a essere adatte al clustering di BigQuery, che consente partizioni granulari delle tabelle.
- Partizioni disallineate
La visualizzazione Partizioni inclinate mostra le tabelle basate sull'analisi dei metadati e con un disallineamento dei dati su una o più partizioni. Queste tabelle sono ideali per la modifica dello schema, poiché le query su partizioni inclinate potrebbero non funzionare correttamente.
- BI Engine e viste materializzate
La visualizzazione Query a bassa latenza e viste materializzate mostra una distribuzione di runtime delle query in base ai dati di log analizzati e ulteriori suggerimenti di ottimizzazione per migliorare le prestazioni su BigQuery. Se il grafico di distribuzione della durata delle query mostra un numero elevato di query con un runtime inferiore a 1 secondo, valuta la possibilità di abilitare BI Engine per accelerare i carichi di lavoro BI e altri carichi di lavoro a bassa latenza.
La sezione Piano di migrazione del report contiene le seguenti visualizzazioni:
- Traduzione SQL
- La vista Traduzione SQL elenca il numero e i dettagli delle query che sono state convertite automaticamente dalla valutazione della migrazione di BigQuery e che non richiedono interventi manuali. La traduzione automatica SQL in genere genera tassi di traduzione elevati se vengono forniti metadati. Questa visualizzazione è interattiva e consente di analizzare le query comuni e la loro traduzione.
- Impegno di traduzione SQL offline
- La vista Impegno offline mostra le aree che richiedono un intervento manuale, tra cui funzioni definite dall'utente specifiche e potenziali strutture lessicali e violazioni della sintassi per tabelle o colonne.
- Avvisi SQL
- La visualizzazione Avvisi SQL mostra le aree che sono state tradotte correttamente, ma che richiedono una revisione.
- Parole chiave riservate BigQuery
- La visualizzazione Parole chiave riservate di BigQuery mostra l'utilizzo rilevato delle parole chiave con un significato speciale nel linguaggio GoogleSQL.
Queste parole chiave non possono essere utilizzate come identificatori, a meno che non siano racchiuse da un accento grave (
`
). - Pianificazione degli aggiornamenti tabella
- La visualizzazione Pianificazione degli aggiornamenti delle tabelle mostra quando e con quale frequenza vengono aggiornate le tabelle, per aiutarti a pianificare come e quando spostarle.
- Tavoli esterni BigLake
- La visualizzazione Tabelle esterne BigLake delinea le tabelle che sono identificate come destinazioni per la migrazione a BigLake anziché BigQuery.
La sezione Appendice del report contiene le seguenti visualizzazioni:
- Analisi dettagliata del lavoro offline della traduzione SQL
- La visualizzazione Analisi dettagliata del lavoro offline fornisce informazioni aggiuntive sulle aree SQL che richiedono un intervento manuale.
- Analisi dettagliata degli avvisi SQL
- La visualizzazione Analisi dettagliata degli avvisi fornisce informazioni aggiuntive sulle aree SQL tradotte correttamente, ma che richiedono una revisione.
Snowflake
Il report è composto da diverse sezioni che possono essere utilizzate separatamente o insieme. Il seguente diagramma organizza queste sezioni in tre obiettivi utente comuni per aiutarti a valutare le tue esigenze di migrazione:
Visualizzazioni in evidenza sulla migrazione
La sezione Informazioni importanti sulla migrazione contiene le seguenti visualizzazioni:
- Modelli di prezzi di Snowflake e BigQuery
- Elenco dei prezzi per i diversi livelli/versioni. Include inoltre un'illustrazione di come la scalabilità automatica di BigQuery può aiutare a risparmiare sui costi rispetto a Snowflake.
- Costo totale di proprietà
- Tabella interattiva che consente all'utente di definire: versione BigQuery, impegno, impegno di slot di base, percentuale di spazio di archiviazione attivo e percentuale di dati caricati o modificati. Consente di stimare meglio il costo per le richieste personalizzate.
- Traduzione automatica in evidenza
- Rapporto di traduzione aggregato, raggruppato per utente o database, in ordine crescente o decrescente. Include anche il messaggio di errore più comune per la traduzione automatica non riuscita.
Viste del sistema esistenti
La sezione Sistema esistente contiene le seguenti visualizzazioni:
- Panoramica del sistema
- La visualizzazione Panoramica del sistema fornisce le metriche di volume di alto livello dei componenti chiave nel sistema esistente per un periodo di tempo specificato. La sequenza temporale valutata dipende dai log analizzati mediante la valutazione della migrazione di BigQuery. Questa vista offre insight rapidi sull'utilizzo del data warehouse di origine, che puoi utilizzare per pianificare la migrazione.
- Panoramica dei warehouse virtuali
- Mostra il costo di Snowflake per warehouse, nonché il ricalcolo basato su nodi nel periodo.
- Volume tabella
- La visualizzazione Volume tabella fornisce statistiche sulle tabelle e sui database più grandi rilevati dalla valutazione della migrazione di BigQuery. Poiché l'estrazione di tabelle di grandi dimensioni potrebbe richiedere più tempo dal sistema di data warehouse di origine, questa vista può essere utile per la pianificazione e la sequenza della migrazione.
- Utilizzo della tabella
- La visualizzazione Utilizzo tabelle fornisce statistiche sulle tabelle maggiormente utilizzate all'interno del sistema di data warehouse di origine. Le tabelle utilizzate molto spesso possono aiutarti a capire quali potrebbero avere molte dipendenze e richiedere un'ulteriore pianificazione durante il processo di migrazione.
- Query
- La vista Query fornisce un'analisi dettagliata dei tipi di istruzioni SQL eseguite e le statistiche del loro utilizzo. Puoi utilizzare l'istogramma di Tipo di query e Tempo per identificare i bassi periodi di utilizzo del sistema e le ore ottimali del giorno per il trasferimento dei dati. Puoi anche utilizzare questa vista per identificare le query eseguite di frequente e gli utenti che le richiamano.
- Database
- La vista Database fornisce metriche su dimensioni, tabelle, viste e procedure definite nel sistema di data warehouse di origine. Questa visualizzazione fornisce informazioni dettagliate sul volume di oggetti di cui è necessario eseguire la migrazione.
Visualizzazioni in stato stabile di BigQuery
La sezione Stato stabile di BigQuery contiene le seguenti viste:
- Tavoli senza utilizzo
- La vista Tabelle senza utilizzo mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha rilevato alcun utilizzo durante il periodo dei log analizzato. Questo può indicare quali tabelle potrebbero non dover essere trasferite a BigQuery durante la migrazione o che i costi di archiviazione dei dati in BigQuery potrebbero essere inferiori. Devi convalidare l'elenco delle tabelle inutilizzate poiché potrebbero avere un utilizzo al di fuori del periodo dei log analizzato, ad esempio una tabella che viene utilizzata solo una volta al trimestre o a metà.
- Tabelle senza scrittura
- La visualizzazione Tabelle senza scritture mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha trovato alcun aggiornamento durante il periodo dei log analizzati. Questo può indicare che i costi di archiviazione dei dati in BigQuery potrebbero essere inferiori.
Visualizzazioni del piano di migrazione
La sezione Piano di migrazione del report contiene le seguenti visualizzazioni:
- Traduzione SQL
- La vista Traduzione SQL elenca il numero e i dettagli delle query che sono state convertite automaticamente dalla valutazione della migrazione di BigQuery e che non richiedono interventi manuali. La traduzione automatica SQL in genere genera tassi di traduzione elevati se vengono forniti metadati. Questa visualizzazione è interattiva e consente di analizzare le query comuni e la loro traduzione.
- Impegno di traduzione SQL offline
- La vista Impegno offline mostra le aree che richiedono un intervento manuale, tra cui funzioni definite dall'utente specifiche e potenziali strutture lessicali e violazioni della sintassi per tabelle o colonne.
- Avvisi SQL - Da esaminare
- La visualizzazione Avvisi da esaminare mostra le aree per lo più tradotte, ma richiede un'ispezione da parte di persone fisiche.
- Parole chiave riservate BigQuery
- La visualizzazione Parole chiave riservate di BigQuery mostra l'utilizzo rilevato delle parole chiave che hanno un significato speciale nel linguaggio GoogleSQL e non può essere utilizzata come identificatori, a meno che non sia racchiusa tra caratteri di accento grave (
`
). - Accoppiamento di database e tabelle
- La vista Accoppiamento database offre una vista di alto livello sui database e sulle tabelle a cui si accede insieme in una singola query. Questa vista può mostrare le tabelle e i database a cui viene spesso fatto riferimento e cosa può essere utilizzato per la pianificazione della migrazione.
- Pianificazione degli aggiornamenti tabella
- La visualizzazione Pianificazione degli aggiornamenti delle tabelle mostra quando e con quale frequenza vengono aggiornate le tabelle per aiutarti a pianificare come e quando spostarle.
Visualizzazioni Proof of Concept
La sezione PoC (proof of concept) contiene le seguenti visualizzazioni:
- PDC per dimostrare i risparmi di BigQuery in stato stabile
- Include le query più frequenti, quelle che leggono la maggior parte dei dati, le query più lente e le tabelle interessate da queste query.
- PDC per la dimostrazione del piano di migrazione di BigQuery
- Mostra in che modo BigQuery traduce le query più complesse e le tabelle su cui incidono.
Condividere il report
Il report di Looker Studio è una dashboard frontend per la valutazione della migrazione. Si basa sulle autorizzazioni di accesso al set di dati sottostanti. Per condividere il report, il destinatario deve avere accesso sia al report di Looker Studio sia al set di dati BigQuery contenente i risultati della valutazione.
Quando apri il report dalla console Google Cloud, lo visualizzi in modalità di anteprima. Per creare e condividere il report con altri utenti, segui questi passaggi:
- Fai clic su Modifica e condividi. Looker Studio ti chiede di collegare i connettori Looker Studio appena creati al nuovo report.
- Fai clic su Aggiungi al report. Il report riceve un ID report individuale, che puoi usare per accedere al report.
- Per condividere il report di Looker Studio con altri utenti, segui i passaggi descritti in Condividere i report con visualizzatori ed editor.
- Concedi agli utenti l'autorizzazione per visualizzare il set di dati BigQuery utilizzato per eseguire l'attività di valutazione. Per ulteriori informazioni, consulta Concedere l'accesso a un set di dati.
Esegui una query sulle tabelle di output della valutazione della migrazione
Sebbene Looker Studio indichi il modo più comodo per visualizzare i risultati della valutazione, puoi anche eseguire query sui dati sottostanti nel set di dati BigQuery.
Query di esempio
L'esempio seguente restituisce il numero totale di query univoche, il numero di query per le quali la traduzione non è riuscita e la percentuale di query uniche per cui la traduzione non è riuscita.
SELECT QueryCount.v AS QueryCount, ErrorCount.v as ErrorCount, (ErrorCount.v * 100) / QueryCount.v AS FailurePercentage FROM ( SELECT COUNT(*) AS v FROM `your_project.your_dataset.TranslationErrors` WHERE Type = "ERROR" ) AS ErrorCount, ( SELECT COUNT(DISTINCT(QueryHash)) AS v FROM `your_project.your_dataset.Queries` ) AS QueryCount;
Schemi delle tabelle di valutazione
Per visualizzare le tabelle e i relativi schemi che la valutazione sulla migrazione di BigQuery scrive in BigQuery, seleziona il tuo data warehouse:
Teradata
AllRIChildren
Questa tabella fornisce le informazioni sull'integrità referenziale delle tabelle secondarie.
Colonna | Tipo | Descrizione |
---|---|---|
IndexId |
INTEGER |
Il numero di indice di riferimento. |
IndexName |
STRING |
Il nome dell'indice. |
ChildDB |
STRING |
Il nome del database di riferimento, convertito in minuscolo. |
ChildDBOriginal |
STRING |
Il nome del database di riferimento con la richiesta conservata. |
ChildTable |
STRING |
Il nome della tabella di riferimento, convertito in minuscolo. |
ChildTableOriginal |
STRING |
Il nome della tabella di riferimento con le maiuscole e le minuscole mantenute. |
ChildKeyColumn |
STRING |
Il nome di una colonna nella chiave di riferimento, convertito in minuscolo. |
ChildKeyColumnOriginal |
STRING |
Il nome di una colonna nella chiave di riferimento con le maiuscole e le minuscole mantenute. |
ParentDB |
STRING |
Il nome del database di riferimento, convertito in minuscolo. |
ParentDBOriginal |
STRING |
Il nome del database di riferimento con la richiesta conservata. |
ParentTable |
STRING |
Il nome della tabella di riferimento, convertito in minuscolo. |
ParentTableOriginal |
STRING |
Il nome della tabella di riferimento con la richiesta mantenuta. |
ParentKeyColumn |
STRING |
Il nome della colonna in una chiave di riferimento, convertito in minuscolo. |
ParentKeyColumnOriginal |
STRING |
Il nome della colonna in una chiave a cui viene fatto riferimento con le maiuscole/minuscole. |
AllRIParents
Questa tabella fornisce le informazioni sull'integrità referenziale degli elementi padre della tabella.
Colonna | Tipo | Descrizione |
---|---|---|
IndexId |
INTEGER |
Il numero di indice di riferimento. |
IndexName |
STRING |
Il nome dell'indice. |
ChildDB |
STRING |
Il nome del database di riferimento, convertito in minuscolo. |
ChildDBOriginal |
STRING |
Il nome del database di riferimento con la richiesta conservata. |
ChildTable |
STRING |
Il nome della tabella di riferimento, convertito in minuscolo. |
ChildTableOriginal |
STRING |
Il nome della tabella di riferimento con le maiuscole e le minuscole mantenute. |
ChildKeyColumn |
STRING |
Il nome di una colonna nella chiave di riferimento, convertito in minuscolo. |
ChildKeyColumnOriginal |
STRING |
Il nome di una colonna nella chiave di riferimento con le maiuscole e le minuscole mantenute. |
ParentDB |
STRING |
Il nome del database di riferimento, convertito in minuscolo. |
ParentDBOriginal |
STRING |
Il nome del database di riferimento con la richiesta conservata. |
ParentTable |
STRING |
Il nome della tabella di riferimento, convertito in minuscolo. |
ParentTableOriginal |
STRING |
Il nome della tabella di riferimento con la richiesta mantenuta. |
ParentKeyColumn |
STRING |
Il nome della colonna in una chiave di riferimento, convertito in minuscolo. |
ParentKeyColumnOriginal |
STRING |
Il nome della colonna in una chiave a cui viene fatto riferimento con le maiuscole/minuscole. |
Columns
Questa tabella fornisce informazioni sulle colonne.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database, convertito in minuscolo. |
DatabaseNameOriginal |
STRING |
Il nome del database con la richiesta conservata. |
TableName |
STRING |
Il nome della tabella, convertito in minuscolo. |
TableNameOriginal |
STRING |
Il nome della tabella con le maiuscole/minuscole mantenute. |
ColumnName |
STRING |
Il nome della colonna, convertito in minuscolo. |
ColumnNameOriginal |
STRING |
Il nome della colonna in cui le maiuscole/minuscole sono mantenute. |
ColumnType |
STRING |
Il tipo di BigQuery della colonna, ad esempio STRING . |
OriginalColumnType |
STRING |
Il tipo originale della colonna, ad esempio VARCHAR . |
ColumnLength |
INTEGER |
Il numero massimo di byte della colonna, ad esempio 30 per VARCHAR(30) . |
DefaultValue |
STRING |
Il valore predefinito, se esistente. |
Nullable |
BOOLEAN |
Indica se la colonna è null. |
DiskSpace
Questa tabella fornisce informazioni sull'utilizzo dello spazio su disco per ogni database.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database, convertito in minuscolo. |
DatabaseNameOriginal |
STRING |
Il nome del database con la richiesta conservata. |
MaxPerm |
INTEGER |
Il numero massimo di byte allocati allo spazio permanente. |
MaxSpool |
INTEGER |
Il numero massimo di byte allocati allo spazio di spool. |
MaxTemp |
INTEGER |
Il numero massimo di byte allocati allo spazio temporaneo. |
CurrentPerm |
INTEGER |
Il numero di byte attualmente allocati allo spazio permanente. |
CurrentSpool |
INTEGER |
Il numero di byte attualmente allocati allo spazio di spool. |
CurrentTemp |
INTEGER |
Il numero di byte attualmente allocati allo spazio temporaneo. |
PeakPerm |
INTEGER |
Numero massimo di byte utilizzati dall'ultimo ripristino per lo spazio permanente. |
PeakSpool |
INTEGER |
Numero massimo di byte utilizzati dall'ultimo ripristino per lo spazio di spool. |
PeakPersistentSpool |
INTEGER |
Numero massimo di byte utilizzati dall'ultima reimpostazione per lo spazio permanente. |
PeakTemp |
INTEGER |
Numero massimo di byte utilizzati dall'ultima reimpostazione per lo spazio temporaneo. |
MaxProfileSpool |
INTEGER |
Il limite per lo spazio di spooling per l'utente. |
MaxProfileTemp |
INTEGER |
Il limite di spazio temporaneo per l'utente. |
AllocatedPerm |
INTEGER |
Allocazione attuale dello spazio permanente. |
AllocatedSpool |
INTEGER |
Allocazione attuale dello spazio di spooling. |
AllocatedTemp |
INTEGER |
Allocazione attuale dello spazio temporaneo. |
Functions
Questa tabella fornisce informazioni sulle funzioni.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database, convertito in minuscolo. |
DatabaseNameOriginal |
STRING |
Il nome del database con la richiesta conservata. |
FunctionName |
STRING |
Il nome della funzione. |
LanguageName |
STRING |
Il nome della lingua. |
Indices
Questa tabella fornisce informazioni sugli indici.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database, convertito in minuscolo. |
DatabaseNameOriginal |
STRING |
Il nome del database con la richiesta conservata. |
TableName |
STRING |
Il nome della tabella, convertito in minuscolo. |
TableNameOriginal |
STRING |
Il nome della tabella con le maiuscole/minuscole mantenute. |
IndexName |
STRING |
Il nome dell'indice. |
ColumnName |
STRING |
Il nome della colonna, convertito in minuscolo. |
ColumnNameOriginal |
STRING |
Il nome della colonna in cui le maiuscole/minuscole sono mantenute. |
OrdinalPosition |
INTEGER |
La posizione della colonna. |
UniqueFlag |
BOOLEAN |
Indica se l'indice applica l'univocità. |
Queries
Questa tabella fornisce informazioni sulle query estratte.
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
QueryText |
STRING |
Il testo della query. |
QueryLogs
Questa tabella fornisce alcune statistiche di esecuzione relative alle query estratte.
Colonna | Tipo | Descrizione |
---|---|---|
QueryText |
STRING |
Il testo della query. |
QueryHash |
STRING |
L'hash della query. |
QueryId |
STRING |
L'ID della query. |
QueryType |
STRING |
Il tipo di query: Query o DDL. |
UserId |
BYTES |
L'ID dell'utente che ha eseguito la query. |
UserName |
STRING |
Il nome dell'utente che ha eseguito la query. |
StartTime |
TIMESTAMP |
Timestamp dell'invio della query. |
Duration |
STRING |
Durata della query in millisecondi. |
AppId |
STRING |
L'ID dell'applicazione che ha eseguito la query. |
ProxyUser |
STRING |
L'utente proxy quando utilizzato attraverso un livello intermedio. |
ProxyRole |
STRING |
Il ruolo proxy quando utilizzato attraverso un livello intermedio. |
QueryTypeStatistics
Questa tabella fornisce statistiche sui tipi di query.
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
QueryType |
STRING |
Il tipo di query. |
UpdatedTable |
STRING |
La tabella aggiornata dalla query, se presente. |
QueriedTables |
ARRAY<STRING> |
Un elenco delle tabelle su cui è stata eseguita la query. |
ResUsageScpu
Questa tabella fornisce informazioni sull'utilizzo delle risorse della CPU.
Colonna | Tipo | Descrizione |
---|---|---|
EventTime |
TIMESTAMP |
L'ora dell'evento. |
NodeId |
INTEGER |
Node ID (ID nodo) |
CabinetId |
INTEGER |
Il numero di CAB fisico del nodo. |
ModuleId |
INTEGER |
Il numero di modulo fisico del nodo. |
NodeType |
STRING |
Tipo di nodo. |
CpuId |
INTEGER |
ID della CPU all'interno di questo nodo. |
MeasurementPeriod |
INTEGER |
Il periodo di misurazione espresso in centisecondi. |
SummaryFlag |
STRING |
S - riga di riepilogo, N - riga senza riepilogo |
CpuFrequency |
FLOAT |
frequenza della CPU in MHz. |
CpuIdle |
FLOAT |
Il tempo di inattività della CPU espresso in centisecondi. |
CpuIoWait |
FLOAT |
Il tempo di attesa della CPU da parte della CPU espresso in centisecondi. |
CpuUServ |
FLOAT |
Il tempo in cui la CPU esegue il codice utente espresso in centisecondi. |
CpuUExec |
FLOAT |
Il tempo in cui la CPU esegue il codice di servizio espresso in centisecondi. |
Roles
Questa tabella fornisce informazioni sui ruoli.
Colonna | Tipo | Descrizione |
---|---|---|
RoleName |
STRING |
Il nome del ruolo. |
Grantor |
STRING |
Il nome del database che ha concesso il ruolo. |
Grantee |
STRING |
L'utente a cui è stato concesso il ruolo. |
WhenGranted |
TIMESTAMP |
La data in cui è stato concesso il ruolo. |
WithAdmin |
BOOLEAN |
È impostata l'opzione Amministrazione per il ruolo concesso. |
SchemaConversion
Questa tabella fornisce informazioni sulle conversioni dello schema correlate al clustering e al partizionamento.
Nome colonna | Tipo di colonna | Description |
---|---|---|
DatabaseName |
STRING |
Il nome del database di origine per il quale viene suggerito il suggerimento. Un database viene mappato a un set di dati in BigQuery. |
TableName |
STRING |
Il nome della tabella per cui viene dato il suggerimento. |
PartitioningColumnName |
STRING |
Il nome della colonna di partizionamento suggerita in BigQuery. |
ClusteringColumnNames |
ARRAY |
I nomi delle colonne di clustering suggerite in BigQuery. |
CreateTableDDL |
STRING |
Il CREATE TABLE statement per creare la tabella in BigQuery. |
TableInfo
Questa tabella fornisce informazioni sulle tabelle.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database, convertito in minuscolo. |
DatabaseNameOriginal |
STRING |
Il nome del database con la richiesta conservata. |
TableName |
STRING |
Il nome della tabella, convertito in minuscolo. |
TableNameOriginal |
STRING |
Il nome della tabella con le maiuscole/minuscole mantenute. |
LastAccessTimestamp |
TIMESTAMP |
L'ultimo accesso alla tabella. |
LastAlterTimestamp |
TIMESTAMP |
L'ultima volta che la tabella è stata modificata. |
TableKind |
STRING |
Il tipo di tabella. |
TableRelations
Questa tabella fornisce informazioni sulle tabelle.
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query che ha stabilito la relazione. |
DatabaseName1 |
STRING |
Il nome del primo database. |
TableName1 |
STRING |
Il nome della prima tabella. |
DatabaseName2 |
STRING |
Il nome del secondo database. |
TableName2 |
STRING |
Il nome della seconda tabella. |
Relation |
STRING |
Il tipo di relazione tra le due tabelle. |
TableSizes
Questa tabella fornisce informazioni sulle dimensioni delle tabelle.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database, convertito in minuscolo. |
DatabaseNameOriginal |
STRING |
Il nome del database con la richiesta conservata. |
TableName |
STRING |
Il nome della tabella, convertito in minuscolo. |
TableNameOriginal |
STRING |
Il nome della tabella con le maiuscole/minuscole mantenute. |
TableSizeInBytes |
INTEGER |
Le dimensioni della tabella in byte. |
Users
Questa tabella fornisce informazioni sugli utenti.
Colonna | Tipo | Descrizione |
---|---|---|
UserName |
STRING |
Il nome dell'utente. |
CreatorName |
STRING |
Il nome dell'entità che ha creato l'utente. |
CreateTimestamp |
TIMESTAMP |
Il timestamp della creazione dell'utente. |
LastAccessTimestamp |
TIMESTAMP |
Il timestamp dell'ultimo accesso dell'utente a un database. |
Amazon Redshift
Columns
La tabella Columns
proviene da una delle seguenti tabelle:
SVV_COLUMNS,
INFORMATION_SCHEMA.COLUMNS
o
PG_TABLE_DEF,
ordinate per priorità. Lo strumento tenta prima di caricare
i dati dalla tabella con la priorità più alta. Se questa operazione non riesce, proverà a caricare i dati dalla successiva tabella con priorità più elevata. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di Amazon Redshift o PostgreSQL.
Colonna | Tipo | Description |
---|---|---|
DatabaseName |
STRING |
Il nome del database. |
SchemaName |
STRING |
Il nome dello schema. |
TableName |
STRING |
Il nome della tabella. |
ColumnName |
STRING |
Il nome della colonna. |
DefaultValue |
STRING |
Il valore predefinito, se disponibile. |
Nullable |
BOOLEAN |
Indica se una colonna può avere un valore nullo o meno. |
ColumnType |
STRING |
Il tipo di colonna, ad esempio VARCHAR . |
ColumnLength |
INTEGER |
La dimensione della colonna, ad esempio 30 per un
VARCHAR(30) . |
CreateAndDropStatistic
Questa tabella fornisce informazioni sulla creazione e l'eliminazione delle tabelle.
Colonna | Tipo | Description |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
DefaultDatabase |
STRING |
Il database predefinito. |
EntityType |
STRING |
Il tipo di entità, ad esempio TABELLA. |
EntityName |
STRING |
Il nome dell'entità. |
Operation |
STRING |
L'operazione: CREATE o DROP. |
Databases
Questa tabella proviene direttamente dalla tabella PG_DATABASE_INFO di Amazon Redshift. I nomi dei campi originali della tabella PG sono inclusi nelle descrizioni. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di Amazon Redshift e PostgreSQL.
Colonna | Tipo | Description |
---|---|---|
DatabaseName |
STRING |
Il nome del database. Nome origine: datname |
Owner |
STRING |
Il proprietario del database. ad esempio l'utente che ha creato il database. Nome origine: datdba |
ExternalColumns
Questa tabella contiene informazioni tratte dalla tabella SVV_EXTERNAL_COLUMNS direttamente da Amazon Redshift. Per ulteriori dettagli su schema e utilizzo, consulta la documentazione di Amazon Redshift.
Colonna | Tipo | Description |
---|---|---|
SchemaName |
STRING |
Il nome dello schema esterno. |
TableName |
STRING |
Il nome della tabella esterna. |
ColumnName |
STRING |
Il nome della colonna esterna. |
ColumnType |
STRING |
Il tipo di colonna. |
Nullable |
BOOLEAN |
Indica se una colonna può avere un valore nullo o meno. |
ExternalDatabases
Questa tabella contiene informazioni tratte dalla tabella SVV_EXTERNAL_DATABASES direttamente da Amazon Redshift. Per ulteriori dettagli su schema e utilizzo, consulta la documentazione di Amazon Redshift.
Colonna | Tipo | Description |
---|---|---|
DatabaseName |
STRING |
Il nome del database esterno. |
Location |
STRING |
La posizione del database. |
ExternalPartitions
Questa tabella contiene informazioni tratte dalla tabella SVV_EXTERNAL_PARTITIONS direttamente da Amazon Redshift. Per ulteriori dettagli su schema e utilizzo, consulta la documentazione di Amazon Redshift.
Colonna | Tipo | Description |
---|---|---|
SchemaName |
STRING |
Il nome dello schema esterno. |
TableName |
STRING |
Il nome della tabella esterna. |
Location |
STRING |
La posizione della partizione. La dimensione massima della colonna può essere di 128 caratteri. I valori più lunghi vengono troncati. |
ExternalSchemas
Questa tabella contiene informazioni tratte dalla tabella SVV_EXTERNAL_SCHEMAS direttamente da Amazon Redshift. Per ulteriori dettagli su schema e utilizzo, consulta la documentazione di Amazon Redshift.
Colonna | Tipo | Description |
---|---|---|
SchemaName |
STRING |
Il nome dello schema esterno. |
DatabaseName |
STRING |
Il nome del database esterno. |
ExternalTables
Questa tabella contiene informazioni tratte dalla tabella SVV_EXTERNAL_TABLES direttamente da Amazon Redshift. Per ulteriori dettagli su schema e utilizzo, consulta la documentazione di Amazon Redshift.
Colonna | Tipo | Description |
---|---|---|
SchemaName |
STRING |
Il nome dello schema esterno. |
TableName |
STRING |
Il nome della tabella esterna. |
Functions
Questa tabella contiene informazioni provenienti dalla tabella PG_PROC direttamente da Amazon Redshift. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di Amazon Redshift e PostgreSQL.
Colonna | Tipo | Description |
---|---|---|
SchemaName |
STRING |
Il nome dello schema. |
FunctionName |
STRING |
Il nome della funzione. |
LanguageName |
STRING |
La lingua di implementazione o l'interfaccia di chiamata di questa funzione. |
Queries
Questa tabella viene generata utilizzando le informazioni contenute nella tabella QueryLogs
. A differenza della tabella QueryLogs
, ogni riga della tabella Query contiene una sola istruzione di query archiviata nella colonna QueryText. Questa tabella fornisce i dati di origine per generare le tabelle delle statistiche e gli output di traduzione.
Colonna | Tipo | Description |
---|---|---|
QueryText |
STRING |
Il testo della query. |
QueryHash |
STRING |
L'hash della query. |
QueryLogs
Questa tabella fornisce informazioni sull'esecuzione della query.
Colonna | Tipo | Description |
---|---|---|
QueryText |
STRING |
Il testo della query. |
QueryHash |
STRING |
L'hash della query. |
QueryID |
STRING |
L'ID della query. |
UserID |
STRING |
L'ID dell'utente. |
StartTime |
TIMESTAMP |
L'ora di inizio. |
Duration |
INTEGER |
Durata in millisecondi. |
QueryTypeStatistics
Colonna | Tipo | Description |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
DefaultDatabase |
STRING |
Il database predefinito. |
QueryType |
STRING |
Il tipo di query. |
UpdatedTable |
STRING |
La tabella aggiornata. |
QueriedTables |
ARRAY<STRING> |
Le tabelle su cui è stata eseguita la query. |
TableInfo
Questa tabella contiene informazioni estratte dalla tabella SVV_TABLE_INFO in Amazon Redshift.
Colonna | Tipo | Description |
---|---|---|
DatabaseName |
STRING |
Il nome del database. |
SchemaName |
STRING |
Il nome dello schema. |
TableId |
INTEGER |
L'ID della tabella. |
TableName |
STRING |
Il nome della tabella. |
SortKey1 |
STRING |
Prima colonna nella chiave di ordinamento. |
SortKeyNum |
INTEGER |
Numero di colonne definite come chiavi di ordinamento. |
MaxVarchar |
INTEGER |
Dimensioni della colonna più grande che utilizza un tipo di dati VARCHAR . |
Size |
INTEGER |
Dimensioni della tabella, in blocchi di dati da 1 MB. |
TblRows |
INTEGER |
Numero totale di righe nella tabella. |
TableRelations
Colonna | Tipo | Description |
---|---|---|
QueryHash |
STRING |
L'hash della query che ha stabilito la relazione (ad esempio, una query JOIN). |
DefaultDatabase |
STRING |
Il database predefinito. |
TableName1 |
STRING |
La prima tabella della relazione. |
TableName2 |
STRING |
La seconda tabella della relazione. |
Relation |
STRING |
Il tipo di relazione. Utilizza uno dei seguenti valori:
COMMA_JOIN , CROSS_JOIN ,
FULL_OUTER_JOIN , INNER_JOIN ,
LEFT_OUTER_JOIN ,
RIGHT_OUTER_JOIN , CREATED_FROM o
INSERT_INTO . |
Count |
INTEGER |
La frequenza con cui è stata osservata questa relazione. |
TableSizes
Questa tabella fornisce informazioni sulle dimensioni delle tabelle.
Colonna | Tipo | Description |
---|---|---|
DatabaseName |
STRING |
Il nome del database. |
SchemaName |
STRING |
Il nome dello schema. |
TableName |
STRING |
Il nome della tabella. |
TableSizeInBytes |
INTEGER |
Le dimensioni della tabella in byte. |
Tables
Questa tabella contiene informazioni estratte dalla tabella SVV_TABLES in Amazon Redshift. Per ulteriori dettagli su schema e utilizzo, consulta la documentazione di Amazon Redshift.
Colonna | Tipo | Description |
---|---|---|
DatabaseName |
STRING |
Il nome del database. |
SchemaName |
STRING |
Il nome dello schema. |
TableName |
STRING |
Il nome della tabella. |
TableType |
STRING |
Il tipo di tabella. |
TranslatedQueries
Questa tabella fornisce le traduzioni delle query.
Colonna | Tipo | Description |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
TranslatedQueryText |
STRING |
Risultato della traduzione dal dialetto di origine a GoogleSQL. |
TranslationErrors
Questa tabella fornisce informazioni sugli errori di traduzione delle query.
Colonna | Tipo | Description |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
Severity |
STRING |
La gravità dell'errore, ad esempio ERROR . |
Category |
STRING |
La categoria dell'errore, ad esempio
AttributeNotFound . |
Message |
STRING |
Il messaggio con i dettagli dell'errore. |
LocationOffset |
INTEGER |
La posizione del carattere in cui si trova l'errore. |
LocationLine |
INTEGER |
Il numero di riga dell'errore. |
LocationColumn |
INTEGER |
Il numero di colonna dell'errore. |
LocationLength |
INTEGER |
Il numero di caratteri della posizione dell'errore. |
UserTableRelations
Colonna | Tipo | Description |
---|---|---|
UserID |
STRING |
L'ID utente. |
TableName |
STRING |
Il nome della tabella. |
Relation |
STRING |
La relazione. |
Count |
INTEGER |
Il conteggio. |
Users
Questa tabella contiene informazioni estratte dalla tabella PG_USER in Amazon Redshift. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di PostgreSQL.
Colonna | Tipo | Description | |
---|---|---|---|
UserName |
STRING |
Il nome dell'utente. | |
UserId |
STRING |
L'ID utente. |
Apache Hive
Columns
Questa tabella fornisce informazioni sulle colonne:
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database con la richiesta conservata. |
TableName |
STRING |
Il nome della tabella con le maiuscole/minuscole mantenute. |
ColumnName |
STRING |
Il nome della colonna in cui le maiuscole/minuscole sono mantenute. |
ColumnType |
STRING |
Il tipo di BigQuery della colonna, ad esempio STRING . |
OriginalColumnType |
STRING |
Il tipo originale della colonna, ad esempio VARCHAR . |
CreateAndDropStatistic
Questa tabella fornisce informazioni sulla creazione e l'eliminazione delle tabelle:
Colonna | Tipo | Description |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
DefaultDatabase |
STRING |
Il database predefinito. |
EntityType |
STRING |
Il tipo di entità, ad esempio TABLE . |
EntityName |
STRING |
Il nome dell'entità. |
Operation |
STRING |
L'operazione eseguita nella tabella (CREATE o DROP ). |
Databases
Questa tabella fornisce informazioni sui database:
Colonna | Tipo | Description |
---|---|---|
DatabaseName |
STRING |
Il nome del database con la richiesta conservata. |
Owner |
STRING |
Il proprietario del database. ad esempio l'utente che ha creato il database. |
Location |
STRING |
Posizione del database nel file system. |
Functions
Questa tabella fornisce informazioni sulle funzioni:
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database con la richiesta conservata. |
FunctionName |
STRING |
Il nome della funzione. |
LanguageName |
STRING |
Il nome della lingua. |
ClassName |
STRING |
Il nome della classe della funzione. |
ObjectReferences
Questa tabella fornisce informazioni sugli oggetti a cui viene fatto riferimento nelle query:
Colonna | Tipo | Description |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
DefaultDatabase |
STRING |
Il database predefinito. |
Clause |
STRING |
La clausola in cui viene visualizzato l'oggetto. Ad esempio, SELECT . |
ObjectName |
STRING |
Il nome dell'oggetto. |
Type |
STRING |
Il tipo di oggetto. |
Subtype |
STRING |
Il sottotipo dell'oggetto. |
ParititionKeys
Questa tabella fornisce informazioni sulle chiavi di partizione:
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database con la richiesta conservata. |
TableName |
STRING |
Il nome della tabella con le maiuscole/minuscole mantenute. |
ColumnName |
STRING |
Il nome della colonna in cui le maiuscole/minuscole sono mantenute. |
ColumnType |
STRING |
Il tipo di BigQuery della colonna, ad esempio STRING . |
Parititions
Questa tabella fornisce informazioni sulle partizioni delle tabelle:
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database con la richiesta conservata. |
TableName |
STRING |
Il nome della tabella con le maiuscole/minuscole mantenute. |
PartitionName |
STRING |
Il nome della partizione. |
CreateTimestamp |
TIMESTAMP |
Il timestamp della creazione della partizione. |
LastAccessTimestamp |
TIMESTAMP |
Il timestamp dell'ultimo accesso alla partizione. |
LastDdlTimestamp |
TIMESTAMP |
Il timestamp dell'ultima modifica della partizione. |
TotalSize |
INTEGER |
La dimensione compressa della partizione in byte. |
Queries
Questa tabella viene generata utilizzando le informazioni contenute nella tabella QueryLogs
. A differenza della tabella QueryLogs
, ogni riga della tabella Query contiene una sola istruzione di query archiviata nella colonna QueryText
. Questa tabella fornisce i dati di origine per generare le tabelle delle statistiche e gli output di traduzione:
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
QueryText |
STRING |
Il testo della query. |
QueryLogs
Questa tabella fornisce alcune statistiche di esecuzione relative alle query estratte:
Colonna | Tipo | Descrizione |
---|---|---|
QueryText |
STRING |
Il testo della query. |
QueryHash |
STRING |
L'hash della query. |
QueryId |
STRING |
L'ID della query. |
QueryType |
STRING |
Il tipo di query, Query o DDL . |
UserName |
STRING |
Il nome dell'utente che ha eseguito la query. |
StartTime |
TIMESTAMP |
Il timestamp di invio della query. |
Duration |
STRING |
La durata della query in millisecondi. |
QueryTypeStatistics
Questa tabella fornisce statistiche sui tipi di query:
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
QueryType |
STRING |
Il tipo di query. |
UpdatedTable |
STRING |
La tabella aggiornata dalla query, se presente. |
QueriedTables |
ARRAY<STRING> |
Un elenco delle tabelle su cui è stata eseguita la query. |
QueryTypes
Questa tabella fornisce statistiche sui tipi di query:
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
Category |
STRING |
La categoria della query. |
Type |
STRING |
Il tipo di query. |
Subtype |
STRING |
Il sottotipo della query. |
SchemaConversion
Questa tabella fornisce informazioni sulle conversioni dello schema correlate al clustering e al partizionamento:
Nome colonna | Tipo di colonna | Description |
---|---|---|
DatabaseName |
STRING |
Il nome del database di origine per il quale viene suggerito il suggerimento. Un database viene mappato a un set di dati in BigQuery. |
TableName |
STRING |
Il nome della tabella per cui viene dato il suggerimento. |
PartitioningColumnName |
STRING |
Il nome della colonna di partizionamento suggerita in BigQuery. |
ClusteringColumnNames |
ARRAY |
I nomi delle colonne di clustering suggerite in BigQuery. |
CreateTableDDL |
STRING |
Il CREATE TABLE statement per creare la tabella in BigQuery. |
TableRelations
Questa tabella fornisce informazioni sulle tabelle:
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query che ha stabilito la relazione. |
DatabaseName1 |
STRING |
Il nome del primo database. |
TableName1 |
STRING |
Il nome della prima tabella. |
DatabaseName2 |
STRING |
Il nome del secondo database. |
TableName2 |
STRING |
Il nome della seconda tabella. |
Relation |
STRING |
Il tipo di relazione tra le due tabelle. |
TableSizes
Questa tabella fornisce informazioni sulle dimensioni delle tabelle:
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database con la richiesta conservata. |
TableName |
STRING |
Il nome della tabella con le maiuscole/minuscole mantenute. |
TotalSize |
INTEGER |
Le dimensioni della tabella in byte. |
Tables
Questa tabella fornisce informazioni sulle tabelle:
Colonna | Tipo | Description |
---|---|---|
DatabaseName |
STRING |
Il nome del database con la richiesta conservata. |
TableName |
STRING |
Il nome della tabella con le maiuscole/minuscole mantenute. |
Type |
STRING |
Il tipo di tabella. |
TranslatedQueries
Questa tabella fornisce le traduzioni delle query:
Colonna | Tipo | Description |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
TranslatedQueryText |
STRING |
Il risultato della traduzione dal dialetto di origine a GoogleSQL. |
TranslationErrors
Questa tabella fornisce informazioni sugli errori di traduzione delle query:
Colonna | Tipo | Description |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
Severity |
STRING |
La gravità dell'errore, ad esempio ERROR . |
Category |
STRING |
La categoria dell'errore, ad esempio
AttributeNotFound . |
Message |
STRING |
Il messaggio con i dettagli dell'errore. |
LocationOffset |
INTEGER |
La posizione del carattere in cui si trova l'errore. |
LocationLine |
INTEGER |
Il numero di riga dell'errore. |
LocationColumn |
INTEGER |
Il numero di colonna dell'errore. |
LocationLength |
INTEGER |
Il numero di caratteri della posizione dell'errore. |
UserTableRelations
Colonna | Tipo | Description |
---|---|---|
UserID |
STRING |
L'ID utente. |
TableName |
STRING |
Il nome della tabella. |
Relation |
STRING |
La relazione. |
Count |
INTEGER |
Il conteggio. |
Snowflake
Warehouses
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
WarehouseName |
STRING |
Il nome del warehouse. | Sempre |
State |
STRING |
Lo stato del warehouse. Valori possibili: STARTED , SUSPENDED , RESIZING . |
Sempre |
Type |
STRING |
Tipo di warehouse. Valori possibili: STANDARD , SNOWPARK-OPTIMIZED . |
Sempre |
Size |
STRING |
Dimensioni del warehouse. Valori possibili: X-Small , Small , Medium , Large , X-Large , 2X-Large ... 6X-Large . |
Sempre |
Databases
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
DatabaseNameOriginal |
STRING |
Il nome del database, con la distinzione tra maiuscole e minuscole. | Sempre |
DatabaseName |
STRING |
Il nome del database, convertito in minuscolo. | Sempre |
Schemata
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
DatabaseNameOriginal |
STRING |
Il nome del database a cui appartiene lo schema, con il caso conservato. | Sempre |
DatabaseName |
STRING |
Il nome del database a cui appartiene lo schema, convertito in minuscolo. | Sempre |
SchemaNameOriginal |
STRING |
Il nome dello schema, con le maiuscole e le minuscole mantenute. | Sempre |
SchemaName |
STRING |
Il nome dello schema, convertito in minuscolo. | Sempre |
Tables
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
DatabaseNameOriginal |
STRING |
Il nome del database a cui appartiene la tabella, con il caso conservato. | Sempre |
DatabaseName |
STRING |
Il nome del database a cui appartiene la tabella, convertito in minuscolo. | Sempre |
SchemaNameOriginal |
STRING |
Il nome dello schema a cui appartiene la tabella, con il caso conservato. | Sempre |
SchemaName |
STRING |
Il nome dello schema a cui appartiene la tabella, convertito in minuscolo. | Sempre |
TableNameOriginal |
STRING |
Il nome della tabella, con le maiuscole/minuscole mantenute. | Sempre |
TableName |
STRING |
Il nome della tabella, convertito in minuscolo. | Sempre |
TableType |
STRING |
Tipo di tabella (visualizzazione / vista materializzata / tabella di base). | Sempre |
RowCount |
BIGNUMERIC |
Numero di righe nella tabella. | Sempre |
Columns
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
DatabaseName |
STRING |
Il nome del database, convertito in minuscolo. | Sempre |
DatabaseNameOriginal |
STRING |
Il nome del database, con la distinzione tra maiuscole e minuscole. | Sempre |
SchemaName |
STRING |
Il nome dello schema, convertito in minuscolo. | Sempre |
SchemaNameOriginal |
STRING |
Il nome dello schema, con le maiuscole e le minuscole mantenute. | Sempre |
TableName |
STRING |
Il nome della tabella, convertito in minuscolo. | Sempre |
TableNameOriginal |
STRING |
Il nome della tabella con le maiuscole/minuscole mantenute. | Sempre |
ColumnName |
STRING |
Il nome della colonna, convertito in minuscolo. | Sempre |
ColumnNameOriginal |
STRING |
Il nome della colonna in cui le maiuscole/minuscole sono mantenute. | Sempre |
ColumnType |
STRING |
Il tipo di colonna. | Sempre |
CreateAndDropStatistics
Colonna | Tipo | Description | Presenza |
---|---|---|---|
QueryHash |
STRING |
L'hash della query. | Sempre |
DefaultDatabase |
STRING |
Il database predefinito. | Sempre |
EntityType |
STRING |
Il tipo di entità, ad esempio TABLE . |
Sempre |
EntityName |
STRING |
Il nome dell'entità. | Sempre |
Operation |
STRING |
L'operazione: CREATE o DROP . |
Sempre |
Queries
Colonna | Tipo | Description | Presenza |
---|---|---|---|
QueryText |
STRING |
Il testo della query. | Sempre |
QueryHash |
STRING |
L'hash della query. | Sempre |
QueryLogs
Colonna | Tipo | Description | Presenza |
---|---|---|---|
QueryText |
STRING |
Il testo della query. | Sempre |
QueryHash |
STRING |
L'hash della query. | Sempre |
QueryID |
STRING |
L'ID della query. | Sempre |
UserID |
STRING |
L'ID dell'utente. | Sempre |
StartTime |
TIMESTAMP |
L'ora di inizio. | Sempre |
Duration |
INTEGER |
Durata in millisecondi. | Sempre |
QueryTypeStatistics
Colonna | Tipo | Description | Presenza |
---|---|---|---|
QueryHash |
STRING |
L'hash della query. | Sempre |
DefaultDatabase |
STRING |
Il database predefinito. | Sempre |
QueryType |
STRING |
Il tipo di query. | Sempre |
UpdatedTable |
STRING |
La tabella aggiornata. | Sempre |
QueriedTables |
REPEATED STRING |
Le tabelle su cui è stata eseguita la query. | Sempre |
TableRelations
Colonna | Tipo | Description | Presenza |
---|---|---|---|
QueryHash |
STRING |
L'hash della query che ha stabilito la relazione (ad esempio, una query JOIN ). |
Sempre |
DefaultDatabase |
STRING |
Il database predefinito. | Sempre |
TableName1 |
STRING |
La prima tabella della relazione. | Sempre |
TableName2 |
STRING |
La seconda tabella della relazione. | Sempre |
Relation |
STRING |
Il tipo di relazione. | Sempre |
Count |
INTEGER |
La frequenza con cui è stata osservata questa relazione. | Sempre |
TranslatedQueries
Colonna | Tipo | Description | Presenza |
---|---|---|---|
QueryHash |
STRING |
L'hash della query. | Sempre |
TranslatedQueryText |
STRING |
Risultato della traduzione dal dialetto di origine in BigQuery SQL. | Sempre |
TranslationErrors
Colonna | Tipo | Description | Presenza |
---|---|---|---|
QueryHash |
STRING |
L'hash della query. | Sempre |
Severity |
STRING |
La gravità dell'errore, ad esempio ERROR . |
Sempre |
Category |
STRING |
La categoria dell'errore, ad esempio AttributeNotFound . |
Sempre |
Message |
STRING |
Il messaggio con i dettagli dell'errore. | Sempre |
LocationOffset |
INTEGER |
La posizione del carattere in cui si trova l'errore. | Sempre |
LocationLine |
INTEGER |
Il numero di riga dell'errore. | Sempre |
LocationColumn |
INTEGER |
Il numero di colonna dell'errore. | Sempre |
LocationLength |
INTEGER |
Il numero di caratteri della posizione dell'errore. | Sempre |
UserTableRelations
Colonna | Tipo | Description | Presenza |
---|---|---|---|
UserID |
STRING |
ID utente. | Sempre |
TableName |
STRING |
Il nome della tabella. | Sempre |
Relation |
STRING |
La relazione. | Sempre |
Count |
INTEGER |
Il conteggio. | Sempre |
Risoluzione dei problemi
Questa sezione illustra alcuni problemi comuni e le tecniche per la risoluzione dei problemi per la migrazione del data warehouse a BigQuery.
dwh-migration-dumper
errori dello strumento
Per risolvere errori e avvisi nell'output del terminale degli strumenti dwh-migration-dumper
che si sono verificati durante l'estrazione dei metadati o dei log di query, consulta la pagina relativa alla generazione dei problemi relativi ai metadati.
Errori di migrazione Hive
Questa sezione descrive i problemi comuni che potresti riscontrare quando prevedi di eseguire la migrazione del tuo data warehouse da Hive a BigQuery.
L'hook di logging scrive i messaggi di log di debug nei log di hive-server2
. Se riscontri problemi, consulta i log di debug dell'hook di logging, contenenti la stringa MigrationAssessmentLoggingHook
.
Gestisci l'errore ClassNotFoundException
L'errore potrebbe essere causato dallo spostamento errato del file JAR di hook di logging. Assicurati di aver aggiunto il file JAR alla cartella auxlib nel cluster Hive. In alternativa, puoi specificare il percorso completo del
file JAR nella proprietà hive.aux.jars.path
, ad esempio
file://
.
Le sottocartelle non vengono visualizzate nella cartella configurata
Questo problema potrebbe essere causato dall'errata configurazione o da problemi durante l'inizializzazione dell'hook di logging.
Cerca nei log di debug di hive-server2
i seguenti messaggi hook di logging:
Unable to initialize logger, logging disabled
Log dir configuration key 'dwhassessment.hook.base-directory' is not set, logging disabled.
Error while trying to set permission
Esamina i dettagli del problema e controlla se c'è qualcosa da correggere per risolverlo.
I file non vengono visualizzati nella cartella
Questo potrebbe essere causato da problemi che si verificano durante l'elaborazione di un evento o la scrittura su un file.
Cerca nei log di debug di hive-server2
i seguenti messaggi hook di logging:
Failed to close writer for file
Got exception while processing event
Error writing record for query
Esamina i dettagli del problema e controlla se c'è qualcosa da correggere per risolverlo.
Alcuni eventi di query non sono presenti
Questo problema potrebbe essere causato dall'overflow della coda dei thread dell'hook di logging.
Cerca nei log di debug di hive-server2
il seguente messaggio di hook di logging:
Writer queue is full. Ignoring event
Se sono presenti messaggi di questo tipo, ti consigliamo di aumentare il parametro
dwhassessment.hook.queue.capacity
.
Passaggi successivi
Per maggiori informazioni sullo strumento dwh-migration-dumper
, consulta
dwh-migration-tools.
Puoi anche scoprire di più sui seguenti passaggi nella migrazione del data warehouse:
- Panoramica della migrazione
- Panoramica del trasferimento di schemi e dati
- pipeline di dati
- Traduzione SQL batch
- Traduzione SQL interattiva
- Sicurezza e governance dei dati
- Strumento di convalida dei dati