Valutazione della migrazione
La valutazione della migrazione di BigQuery consente di pianificare e rivedere la migrazione il data warehouse esistente in BigQuery. Puoi eseguire la valutazione della migrazione a BigQuery per generare un report che ti consenta di valutare il costo di archiviazione dei dati in BigQuery, di capire in che modo BigQuery può ottimizzare il tuo carico di lavoro esistente per risparmiare sui costi e di preparare un piano di migrazione che illustri il tempo e lo sforzo necessari per completare la migrazione del data warehouse a BigQuery.
Questo documento descrive come utilizzare la valutazione della migrazione di BigQuery e i diversi modi in cui puoi esaminare i risultati della valutazione. Questo documento è destinata agli utenti che conoscono Console Google Cloud e il traduttore SQL batch.
Prima di iniziare
Per preparare ed eseguire una valutazione della migrazione di BigQuery:
Estrai metadati e log delle query dal data warehouse utilizzando Strumento
dwh-migration-dumper
.Carica i log dei metadati e delle query nel bucket Cloud Storage.
(Facoltativo) Esegui query sui risultati del test per trovare informazioni dettagliate o specifiche le informazioni sulla valutazione.
Estrarre metadati e log delle query dal data warehouse
Per preparare la valutazione sono necessari sia i metadati che i log delle query personalizzati.
Per estrarre i metadati e i log delle query necessari per eseguire la valutazione, seleziona del tuo data warehouse:
Teradata
Requisiti
- Una macchina connessa al data warehouse Teradata di origine (Teradata 15 e versioni successive)
- Un account Google Cloud con un bucket Cloud Storage per archiviare i dati
- Un set di dati BigQuery vuoto per archiviare i risultati
- Autorizzazioni di lettura sul set di dati per visualizzare i risultati
- Opzione consigliata: diritti di accesso a livello di amministratore al database di origine quando si utilizza lo strumento di estrazione per accedere alle tabelle di sistema.
Requisito: abilita il logging
Lo strumento dwh-migration-dumper
estrae tre tipi di log: log delle query, utilità
di dati e di utilizzo delle risorse. Devi abilitare il logging per
tipi di log per visualizzare insight più approfonditi:
- Log delle query:estratti dalla vista
dbc.QryLogV
e dalla tabelladbc.DBQLSqlTbl
. Abilita il logging per specificando l'opzioneWITH SQL
. - Log di utilità: estratti dalla tabella
dbc.DBQLUtilityTbl
. Attiva logging per specificando l'opzioneWITH UTILITYINFO
. - Log di utilizzo delle risorse: estratti dalle tabelle
dbc.ResUsageScpu
edbc.ResUsageSpma
. Attiva il logging dei feed RSS per queste due tabelle.
Esegui lo strumento dwh-migration-dumper
Scarica lo strumento dwh-migration-dumper
.
Scarica il
File SHA256SUMS.txt
ed esegui questo comando per verificarne la correttezza del file zip:
Bash
sha256sum --check SHA256SUMS.txt
Windows PowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Sostituisci RELEASE_ZIP_FILENAME
con
nome del file ZIP scaricato della versione dello strumento di estrazione della riga di comando dwh-migration-dumper
, per
esempio, dwh-migration-tools-v1.0.52.zip
Il risultato True
conferma la verifica del checksum riuscita.
Il risultato False
indica un errore di verifica. Assicurati che il checksum
e i file ZIP vengano scaricati dalla stessa versione della release e collocati nella stessa directory.
Per informazioni dettagliate su come configurare e utilizzare lo strumento di estrazione, consulta Generare metadati per la traduzione e la valutazione.
Utilizzare lo strumento di estrazione per estrarre log e metadati dal data warehouse Teradata due file ZIP. Esegui questi comandi su una macchina con accesso all'origine data warehouse per generare i file.
Genera il file ZIP dei metadati:
dwh-migration-dumper \ --connector teradata \ --database DATABASES \ --driver path/terajdbc4.jar \ --host HOST \ --assessment \ --user USER \ --password PASSWORD
Genera il file ZIP contenente i log delle query:
dwh-migration-dumper \ --connector teradata-logs \ --driver path/terajdbc4.jar \ --host HOST \ --assessment \ --user USER \ --password PASSWORD
Sostituisci quanto segue:
DATABASES
: elenco separato da virgole del database nomi da estrarrePATH
: il percorso assoluto o relativo verso il conducente File JAR da utilizzare per questa connessioneVERSION
: la versione del driverHOST
: indirizzo hostUSER
: il nome utente da utilizzare per il database connessionePASSWORD
: la password da utilizzare per la connessione al databaseSe viene lasciato vuoto, all'utente viene chiesta la password.
Puoi utilizzare solo il flag --database
per il connettore teradata
. Questo flag
consente di estrarre i metadati di uno o più database. Quando estrai
log delle query utilizzando il connettore teradata-logs
, il flag --database
non disponibile. I log delle query vengono sempre estratti per tutti i database.
Per impostazione predefinita, i log delle query vengono estratti
dalla vista dbc.QryLogV
e dalla tabella dbc.DBQLSqlTbl
. Se hai bisogno
per estrarre i log delle query da una posizione alternativa, puoi
specifica i nomi delle tabelle o delle viste utilizzando il metodo
-Dteradata-logs.query-logs-table
e -Dteradata-logs.sql-logs-table
e i flag facoltativi.
Per impostazione predefinita, i log dell'utilità vengono estratti dalla tabella
dbc.DBQLUtilityTbl
. Se devi estrarre i log dell'utilità da un
alternativa, puoi specificare il nome della tabella utilizzando
-Dteradata-logs.utility-logs-table
flag.
Per impostazione predefinita, i log di utilizzo delle risorse vengono estratti dalle tabelle
dbc.ResUsageScpu
e dbc.ResUsageSpma
. Se hai bisogno di estrarre
di utilizzo delle risorse da una località alternativa, puoi specificare i nomi
delle tabelle utilizzando gli attributi -Dteradata-logs.res-usage-scpu-table
-Dteradata-logs.res-usage-spma-table
flag.
Ad esempio:
Bash
dwh-migration-dumper \ --connector teradata-logs \ --driver path/terajdbc4.jar \ --host HOST \ --assessment \ --user USER \ --password PASSWORD \ -Dteradata-logs.query-logs-table=pdcrdata.QryLogV_hst \ -Dteradata-logs.sql-logs-table=pdcrdata.DBQLSqlTbl_hst \ -Dteradata-logs.log-date-column=LogDate \ -Dteradata-logs.utility-logs-table=pdcrdata.DBQLUtilityTbl_hst \ -Dteradata-logs.res-usage-scpu-table=pdcrdata.ResUsageScpu_hst \ -Dteradata-logs.res-usage-spma-table=pdcrdata.ResUsageSpma_hst
Windows PowerShell
dwh-migration-dumper ` --connector teradata-logs ` --driver path\terajdbc4.jar ` --host HOST ` --assessment ` --user USER ` --password PASSWORD ` "-Dteradata-logs.query-logs-table=pdcrdata.QryLogV_hst" ` "-Dteradata-logs.sql-logs-table=pdcrdata.DBQLSqlTbl_hst" ` "-Dteradata-logs.log-date-column=LogDate" ` "-Dteradata-logs.utility-logs-table=pdcrdata.DBQLUtilityTbl_hst" ` "-Dteradata-logs.res-usage-scpu-table=pdcrdata.ResUsageScpu_hst" ` "-Dteradata-logs.res-usage-spma-table=pdcrdata.ResUsageSpma_hst"
Per impostazione predefinita, lo strumento dwh-migration-dumper
estrae gli ultimi sette giorni
log delle query.
Google consiglia di fornire i log delle query per almeno due settimane
in grado di visualizzare insight più approfonditi. Puoi specificare un intervallo di tempo personalizzato
utilizzando i flag --query-log-start
e --query-log-end
. Ad esempio:
dwh-migration-dumper \ --connector teradata-logs \ --driver path/terajdbc4.jar \ --host HOST \ --assessment \ --user USER \ --password PASSWORD \ --query-log-start "2023-01-01 00:00:00" \ --query-log-end "2023-01-15 00:00:00"
Puoi anche generare più file ZIP contenenti log delle query che coprono periodi diversi e fornirli tutti per la valutazione.
Amazon Redshift
Requisiti
- Una macchina connessa al data warehouse Amazon Redshift di origine
- Un account Google Cloud con un bucket Cloud Storage per archiviare dati
- Un set di dati BigQuery vuoto per archiviare i risultati
- Autorizzazioni di lettura sul set di dati per visualizzare i risultati
- Opzione consigliata: accesso dei super utenti al database durante l'uso dell'estrazione per accedere alle tabelle di sistema
Esegui lo strumento dwh-migration-dumper
Scarica lo strumento di estrazione a riga di comando dwh-migration-dumper
.
Scarica il
File SHA256SUMS.txt
ed esegui questo comando per verificarne la correttezza del file zip:
Bash
sha256sum --check SHA256SUMS.txt
Windows PowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Sostituisci RELEASE_ZIP_FILENAME
con
nome del file ZIP scaricato della versione dello strumento di estrazione della riga di comando dwh-migration-dumper
, per
esempio, dwh-migration-tools-v1.0.52.zip
Il risultato True
conferma la verifica del checksum riuscita.
Il risultato di False
indica un errore di verifica. Assicurati che il checksum
e i file ZIP vengono scaricati dalla stessa versione di release e inseriti in
nella stessa directory.
Per maggiori dettagli su come utilizzare lo strumento dwh-migration-dumper
,
vedi il
generare metadati
.
Usa lo strumento dwh-migration-dumper
per estrarre log e metadati dai tuoi
data warehouse Amazon Redshift come due file ZIP.
Esegui questi comandi su una macchina con accesso all'origine
data warehouse per generare i file.
Genera il file ZIP dei metadati:
dwh-migration-dumper \ --connector redshift \ --database DATABASE \ --driver PATH/redshift-jdbc42-VERSION.jar \ --host host.region.redshift.amazonaws.com \ --assessment \ --user USER \ --iam-profile IAM_PROFILE_NAME
Genera il file ZIP contenente i log delle query:
dwh-migration-dumper \ --connector redshift-raw-logs \ --database DATABASE \ --driver PATH/redshift-jdbc42-VERSION.jar \ --host host.region.redshift.amazonaws.com \ --assessment \ --user USER \ --iam-profile IAM_PROFILE_NAME
Sostituisci quanto segue:
DATABASE
: il nome del database a cui connettertiPATH
: il percorso assoluto o relativo verso il conducente File JAR da utilizzare per questa connessioneVERSION
: la versione del driverUSER
: il nome utente da utilizzare per il database connessioneIAM_PROFILE_NAME
: il valore Nome del profilo IAM Amazon Redshift. Obbligatorio per l'autenticazione Amazon Redshift e per AWS Accesso all'API. Per ottenere la descrizione dei cluster Amazon Redshift, utilizza l'API AWS.
Per impostazione predefinita, Amazon Redshift memorizza da tre a cinque giorni di log delle query.
Per impostazione predefinita, lo strumento dwh-migration-dumper
estrae gli ultimi sette giorni di query
logaritmi.
Google consiglia di fornire i log delle query per almeno due settimane
able
per visualizzare insight più approfonditi. Potresti dover eseguire
strumento di estrazione di dati per alcune volte
nel corso di due settimane per ottenere i migliori risultati. Puoi specificare un intervallo personalizzato utilizzando i flag --query-log-start
e --query-log-end
.
Ad esempio:
dwh-migration-dumper \ --connector redshift-raw-logs \ --database DATABASE \ --driver PATH/redshift-jdbc42-VERSION.jar \ --host host.region.redshift.amazonaws.com \ --assessment \ --user USER \ --iam-profile IAM_PROFILE_NAME \ --query-log-start "2023-01-01 00:00:00" \ --query-log-end "2023-01-02 00:00:00"
Puoi anche generare più file ZIP contenenti i log delle query periodi diversi e li sottoponi tutti per la valutazione.
Apache Hive
Requisiti
- Un computer collegato al data warehouse Apache Hive di origine (la valutazione della migrazione di BigQuery supporta Hive su Tez e MapReduce e le versioni di Apache Hive tra 2.2 e 3.1, inclusive)
- Un account Google Cloud con un bucket Cloud Storage per archiviare i dati
- Un set di dati BigQuery vuoto per archiviare i risultati
- Autorizzazioni di lettura sul set di dati per visualizzare i risultati
- Accedi al data warehouse Apache Hive di origine per configurare l'estrazione dei log delle query
- Statistiche aggiornate su tabelle, partizioni e colonne
La valutazione della migrazione di BigQuery utilizza le statistiche di tabelle, partizioni e colonne per
a comprendere meglio il data warehouse Apache Hive e a fornire
insight approfonditi. Se la configurazione di hive.stats.autogather
sia impostata su false
nel data warehouse Apache Hive di origine,
Google consiglia di attivarla o di aggiornare le statistiche manualmente prima
eseguendo lo strumento dwh-migration-dumper
.
Esegui lo strumento dwh-migration-dumper
Scarica lo strumento di estrazione dalla riga di comando dwh-migration-dumper
.
Scarica il
File SHA256SUMS.txt
ed esegui questo comando per verificarne la correttezza del file zip:
Bash
sha256sum --check SHA256SUMS.txt
Windows PowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Sostituisci RELEASE_ZIP_FILENAME
con
nome del file ZIP scaricato della versione dello strumento di estrazione della riga di comando dwh-migration-dumper
, per
esempio, dwh-migration-tools-v1.0.52.zip
Il risultato True
conferma la verifica del checksum riuscita.
Il risultato di False
indica un errore di verifica. Assicurati che il checksum
e i file ZIP vengono scaricati dalla stessa versione di release e inseriti in
nella stessa directory.
Per maggiori dettagli su come utilizzare lo strumento dwh-migration-dumper
, vedi
Generare metadati per la traduzione e la valutazione.
Usa lo strumento dwh-migration-dumper
per generare metadati dal tuo
Hive data warehouse come file ZIP.
Senza autenticazione
Per generare il file ZIP dei metadati, esegui questo comando su una macchina che ha accesso al data warehouse di origine:
dwh-migration-dumper \ --connector hiveql \ --database DATABASES \ --host hive.cluster.host \ --port 9083 \ --assessment
Con autenticazione Kerberos
Per eseguire l'autenticazione al metastore, accedi come utente con accesso al metastore Hive e genera un ticket Kerberos. Quindi, genera il file ZIP dei metadati con il seguente comando:
JAVA_OPTS="-Djavax.security.auth.useSubjectCredsOnly=false" \ dwh-migration-dumper \ --connector hiveql \ --database DATABASES \ --host hive.cluster.host \ --port 9083 \ --hive-kerberos-url PRINCIPAL/HOST \ -Dhiveql.rpc.protection=hadoop.rpc.protection \ --assessment
Sostituisci quanto segue:
DATABASES
: elenco separato da virgole del database nomi da estrarre. Se non viene specificato, vengono estratti tutti i database.PRINCIPAL
: l'entità Kerberos a cui viene emesso il bigliettoHOST
: il nome host kerberos su cui viene emesso il tickethadoop.rpc.protection
: la qualità della protezione del livello di configurazione SASL (Simple Authentication and Security Layer), uguale al valore del parametrohadoop.rpc.protection
all'interno di/etc/hadoop/conf/core-site.xml
, con uno dei seguenti valori:authentication
integrity
privacy
Estrai i log delle query con l'hook di logging hadoop-migration-assessment
Per estrarre i log delle query:
- Carica l'hook di logging
hadoop-migration-assessment
. - Configura le proprietà dell'hook di logging.
- Verifica l'hook di logging.
Carica l'hook di logging hadoop-migration-assessment
Scarica l'hook di logging per l'estrazione dei log delle query di
hadoop-migration-assessment
che contiene i dati File JAR dell'hook di logging di Hive.Estrai il file JAR.
Se devi verificare lo strumento per assicurarti che sia conforme requisiti, esamina il codice sorgente
hadoop-migration-assessment
Logging del repository GitHub hook e compila il tuo file binario.Copia il file JAR nella cartella della libreria ausiliaria su tutti i cluster in cui intendi abilitare il logging delle query. A seconda del fornitore, devi per individuare la cartella della libreria ausiliaria nelle impostazioni del cluster e trasferire il file JAR nella cartella della libreria ausiliaria sul cluster Hive.
Imposta le proprietà di configurazione per
hadoop-migration-assessment
hook di logging. A seconda del fornitore di Hadoop, devi utilizzare la console dell'interfaccia utente per modificare le impostazioni del cluster. Modifica/etc/hive/conf/hive-site.xml
o applicare la configurazione con Gestore configurazione.
Configura le proprietà
Se hai già altri valori per i seguenti
di configurazione, aggiungi le impostazioni utilizzando una virgola (,
).
Per impostare hadoop-migration-assessment
hook di logging, devi eseguire la seguente configurazione
le seguenti impostazioni sono obbligatorie:
hive.exec.failure.hooks
:com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
hive.exec.post.hooks
:com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
hive.exec.pre.hooks
:com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
hive.aux.jars.path
: includi il percorso del file JAR dell'hook di logging, ad esempiofile://
./HiveMigrationAssessmentQueryLogsHooks_deploy.jar dwhassessment.hook.base-directory
: percorso dei log delle query cartella di output. Ad esempio,hdfs://tmp/logs/
.Puoi anche impostare le seguenti configurazioni facoltative:
dwhassessment.hook.queue.capacity
: la capacità della coda per i thread di registrazione degli eventi di query. Il valore predefinito è64
.dwhassessment.hook.rollover-interval
: la frequenza al di cui deve essere eseguito il riporto del file. Ad esempio,600s
. Il valore predefinito è 3600 secondi (1 ora).dwhassessment.hook.rollover-eligibility-check-interval
: il valore la frequenza con cui viene attivato il controllo di idoneità del riporto del file nel sfondo. Ad esempio,600s
. Il valore predefinito è 600 secondi (10 minuti).
Verifica il hook di logging
Dopo aver riavviato il processo hive-server2
, esegui una query di test
e analizza i log di debug. Viene visualizzato il seguente messaggio:
Logger successfully started, waiting for query events. Log directory is '[dwhassessment.hook.base-directory value]'; rollover interval is '60' minutes; rollover eligibility check is '10' minutes
L'hook di logging crea una sottocartella partizionata in base alle date
nella cartella configurata. Il file Avro con eventi di query viene visualizzato in
cartella dopo l'intervallo dwhassessment.hook.rollover-interval
o hive-server2
terminazione del processo. Puoi cercare simili
di debug nei log di debug per verificare lo stato dell'operazione di riporto:
Updated rollover time for logger ID 'my_logger_id' to '2023-12-25T10:15:30'
Performed rollover check for logger ID 'my_logger_id'. Expected rollover time is '2023-12-25T10:15:30'
Il rollback avviene a intervalli specificati o quando il giorno cambia. Quando la data cambia, il hook di logging crea anche una nuova sottocartella per quella data.
Google consiglia di fornire i log delle query per almeno due settimane in grado di visualizzare insight più approfonditi.
Puoi anche generare cartelle contenenti log delle query da Hive cluster e forniscili tutti in un unico ambiente la valutazione.
Snowflake
Requisiti
Devi soddisfare i seguenti requisiti per estrarre i metadati e Log delle query di Snowflake:
- Una macchina in grado di connettersi alle tue istanze Snowflake.
- Un account Google Cloud con un bucket Cloud Storage per archiviare e i dati di Google Cloud.
- Un set di dati BigQuery vuoto in cui archiviare i risultati. In alternativa, puoi creare un set di dati BigQuery quando e creare il job di valutazione utilizzando l'interfaccia utente della console Google Cloud.
- Accedi al ruolo
ACCOUNTADMIN
per l'istanza Snowflake o esegui ha concesso un ruolo con i privilegiIMPORTED PRIVILEGES
sul databaseSnowflake
da un amministratore account.
Esegui lo strumento dwh-migration-dumper
Scarica lo strumento di estrazione dalla riga di comando dwh-migration-dumper
.
Scarica il
File SHA256SUMS.txt
ed esegui questo comando per verificarne la correttezza del file zip:
Bash
sha256sum --check SHA256SUMS.txt
Windows PowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Sostituisci RELEASE_ZIP_FILENAME
con
nome del file ZIP scaricato della versione dello strumento di estrazione della riga di comando dwh-migration-dumper
, per
esempio, dwh-migration-tools-v1.0.52.zip
Il risultato True
conferma la verifica del checksum riuscita.
Il risultato False
indica un errore di verifica. Assicurati che il checksum
e i file ZIP vengono scaricati dalla stessa versione di release e inseriti in
nella stessa directory.
Per informazioni dettagliate su come utilizzare lo strumento dwh-migration-dumper
, consulta la pagina Genera metadati.
Usa lo strumento dwh-migration-dumper
per estrarre log e metadati dai tuoi
il data warehouse Snowflake come due file ZIP. Esegui questi comandi su un
macchina con accesso al data warehouse di origine per generare i file.
Genera il file ZIP dei metadati:
dwh-migration-dumper \ --connector snowflake \ --host HOST_NAME \ --database SNOWFLAKE \ --user USER_NAME \ --role ROLE_NAME \ --warehouse WAREHOUSE \ --assessment \ --password PASSWORD
Genera il file ZIP contenente i log delle query:
dwh-migration-dumper \ --connector snowflake-logs \ --host HOST_NAME \ --database SNOWFLAKE \ --user USER_NAME \ --role ROLE_NAME \ --warehouse WAREHOUSE \ --query-log-start STARTING_DATE \ --query-log-end ENDING_DATE \ --assessment \ --password PASSWORD
Sostituisci quanto segue:
HOST_NAME
: il nome host del tuo Snowflake in esecuzione in un'istanza Compute Engine.USER_NAME
: il nome utente da utilizzare per il database in cui l'utente deve disporre delle autorizzazioni di accesso descritte in dettaglio nella sezione Requisiti.ROLE_NAME
: (facoltativo) il ruolo utente quando esegue Strumentodwh-migration-dumper
, ad esempioACCOUNTADMIN
.WAREHOUSE
: il magazzino utilizzato per eseguire le operazioni di dumping. Se hai più warehouse virtuali, specificare qualsiasi warehouse per l'esecuzione della query. L'esecuzione di questa query con autorizzazioni di accesso dettagliate nella sezione dei requisiti estrae tutti gli artefatti del warehouse in questo account.STARTING_DATE
: (facoltativo) utilizzato per indicare data di inizio in un intervallo di date dei log di query, scritta nel formatoYYYY-MM-DD
.ENDING_DATE
: (facoltativo) utilizzato per indicare data di fine in un intervallo di date dei log delle query, scritto nel formatoYYYY-MM-DD
.
Puoi anche generare più file ZIP contenenti i log delle query che non si sovrappongano e sottoponili a valutazione.
Carica i metadati e i log delle query su Cloud Storage
Dopo aver estratto i metadati e i log delle query dal data warehouse, puoi caricare i file in un bucket Cloud Storage per procedere con e la valutazione della migrazione.
Teradata
Carica i metadati e uno o più file ZIP contenenti i log delle query nel tuo nel bucket Cloud Storage. Per ulteriori informazioni sulla creazione di bucket e sul caricamento di file in Cloud Storage, consulta Creare bucket e Caricare oggetti da un file system. Il limite per le dimensioni totali non compresse di tutti i file all'interno dei metadati è di 50 GB.
Le voci in tutti i file ZIP contenenti i log delle query vengono suddivise in seguenti:
- File della cronologia delle query con il prefisso
query_history_
. - I file di serie temporali con
utility_logs_
,dbc.ResUsageScpu_
e Prefissidbc.ResUsageSpma_
.
Il limite per le dimensioni totali non compresse di tutti i file di cronologia delle query è 5 TB. Il limite per le dimensioni totali non compresse di tutti i file delle serie temporali è di 1 TB.
Se i log delle query sono archiviati in un database diverso, consulta
la descrizione di -Dteradata-logs.query-logs-table
e
-Dteradata-logs.sql-logs-table
delle segnalazioni precedenti in questa sezione,
come fornire una località alternativa per i log delle query.
Amazon Redshift
Carica i metadati e uno o più file ZIP contenenti i log delle query nel tuo nel bucket Cloud Storage. Per saperne di più sulla creazione di bucket caricare file su Cloud Storage, consulta Creare bucket e caricare oggetti da un file system. Il limite per le dimensioni totali non compresse di tutti i file all'interno del file ZIP dei metadati è 50 GB.
Le voci in tutti i file ZIP contenenti i log delle query vengono suddivise in seguenti:
- File della cronologia delle query con i prefissi
querytext_
eddltext_
. - I file di serie temporali con
query_queue_info_
,wlm_query_
e Prefissiquerymetrics_
.
Il limite per le dimensioni totali non compresse di tutti i file di cronologia delle query è 5 TB. Il limite per la dimensione totale non compressa di tutti i file delle serie temporali è 1 TB.
Apache Hive
Carica i metadati e le cartelle contenenti i log delle query da uno o più cluster Hive in Cloud Storage di sincronizzare la directory di una VM con un bucket. Per saperne di più sulla creazione di bucket e sul caricamento di file Cloud Storage, consulta Creare bucket e caricare oggetti da un file system.
Il limite per le dimensioni totali non compresse di tutti i file all'interno dei metadati è di 50 GB.
Puoi utilizzare il connettore Cloud Storage per copiare i log delle query direttamente nella cartella Cloud Storage. Le cartelle contenenti sottocartelle con i log delle query devono essere caricate nella stessa cartella di Cloud Storage in cui viene caricato il file ZIP dei metadati.
Le cartelle dei log delle query contengono file di cronologia delle query con dwhassessment_
. Il limite per le dimensioni totali non compresse di tutta la cronologia delle query
è di 5 TB.
Snowflake
Carica i metadati e i file ZIP contenenti i log delle query e l'utilizzo alle tue cronologie di sincronizzare la directory di una VM con un bucket. Quando carichi questi file su Cloud Storage, procedi nel seguente modo che devono essere soddisfatti:
- Le dimensioni totali non compresse di tutti i file all'interno del file ZIP dei metadati deve essere inferiore a 50 GB.
- Il file ZIP dei metadati e il file ZIP contenente i log delle query devono essere in una cartella di Cloud Storage. Se hai più file ZIP contenenti log di query che non si sovrappongono, puoi caricarli tutti.
- Devi caricare tutti i file nella stessa cartella di Cloud Storage.
- Devi caricare tutti i file ZIP dei metadati e dei log delle query esattamente come sono
sono generati dallo strumento
dwh-migration-dumper
. Non decomprimere, combinare o altrimenti modifiche. - Le dimensioni totali non compresse di tutti i file di cronologia delle query devono essere inferiori di oltre 5 TB.
Per saperne di più sulla creazione di bucket e sul caricamento di file Cloud Storage, consulta Creare bucket e caricare oggetti da un file system.
Esegui una valutazione della migrazione di BigQuery
Segui questi passaggi per eseguire la valutazione della migrazione di BigQuery. Questi passaggi presuppongono che caricato i file di metadati in un bucket Cloud Storage, come descritto sezione precedente.
Autorizzazioni obbligatorie
Per attivare BigQuery Migration Service, sono necessarie le seguenti autorizzazioni Identity and Access Management (IAM):
resourcemanager.projects.get
resourcemanager.projects.update
serviceusage.services.enable
serviceusage.services.get
Per accedere a BigQuery Migration Service e utilizzarlo, è necessario quanto segue autorizzazioni sul progetto:
bigquerymigration.workflows.create
bigquerymigration.workflows.get
bigquerymigration.workflows.list
bigquerymigration.workflows.delete
bigquerymigration.subtasks.get
bigquerymigration.subtasks.list
Per eseguire BigQuery Migration Service, è necessario quanto segue autorizzazioni aggiuntive.
Autorizzazione ad accedere ai bucket Cloud Storage per i file di input e di output:
storage.objects.get
nel bucket Cloud Storage di originestorage.objects.list
nel bucket Cloud Storage di originestorage.objects.create
nel bucket Cloud Storage di destinazionestorage.objects.delete
nel bucket Cloud Storage di destinazionestorage.objects.update
nel bucket Cloud Storage di destinazionestorage.buckets.get
storage.buckets.list
Autorizzazione a leggere e aggiornare il set di dati BigQuery in cui BigQuery Migration Service scrive i risultati:
bigquery.datasets.update
bigquery.datasets.get
bigquery.datasets.create
bigquery.datasets.delete
bigquery.jobs.create
bigquery.jobs.delete
bigquery.jobs.list
bigquery.jobs.update
bigquery.tables.create
bigquery.tables.get
bigquery.tables.getData
bigquery.tables.list
bigquery.tables.updateData
Per condividere il report di Looker Studio con un utente, devi concedere i seguenti ruoli:
roles/bigquery.dataViewer
roles/bigquery.jobUser
Per personalizzare questo documento in modo che utilizzi il tuo progetto e il tuo utente nei comandi, modifica queste variabili:
PROJECT
,
USER_EMAIL
.
Crea un ruolo personalizzato con le autorizzazioni necessarie per utilizzare la valutazione della migrazione di BigQuery:
gcloud iam roles create BQMSrole \ --project=PROJECT \ --title=BQMSrole \ --permissions=bigquerymigration.subtasks.get,bigquerymigration.subtasks.list,bigquerymigration.workflows.create,bigquerymigration.workflows.get,bigquerymigration.workflows.list,bigquerymigration.workflows.delete,resourcemanager.projects.update,resourcemanager.projects.get,serviceusage.services.enable,serviceusage.services.get,storage.objects.get,storage.objects.list,storage.objects.create,storage.objects.delete,storage.objects.update,bigquery.datasets.get,bigquery.datasets.update,bigquery.datasets.create,bigquery.datasets.delete,bigquery.tables.get,bigquery.tables.create,bigquery.tables.updateData,bigquery.tables.getData,bigquery.tables.list,bigquery.jobs.create,bigquery.jobs.update,bigquery.jobs.list,bigquery.jobs.delete,storage.buckets.list,storage.buckets.get
Concedi il ruolo personalizzato BQMSrole
a un utente:
gcloud projects add-iam-policy-binding \ PROJECT \ --member=user:USER_EMAIL \ --role=projects/PROJECT/roles/BQMSrole
Concedi i ruoli richiesti a un utente con cui vuoi condividere il report:
gcloud projects add-iam-policy-binding \ PROJECT \ --member=user:USER_EMAIL \ --role=roles/bigquery.dataViewer gcloud projects add-iam-policy-binding \ PROJECT \ --member=user:USER_EMAIL \ --role=roles/bigquery.jobUser
Località supportate
La funzionalità di valutazione della migrazione di BigQuery è supportata in due tipi di località:
Una regione è un luogo geografico ben preciso, come Londra.
Per più regioni si intende una grande area geografica, come gli Stati Uniti, che contiene due o più regioni. Località multiregionali possono fornire quote superiori rispetto alle singole regioni.
Per saperne di più su regioni e zone, consulta Geografia e regioni.
Regioni
La tabella seguente elenca le regioni delle Americhe in cui è disponibile la valutazione della migrazione di BigQuery.Descrizione della regione | Nome regione | Dettagli |
---|---|---|
Columbus, Ohio | us-east5 |
|
Dallas | us-south1 |
A basse emissioni di CO2 |
Iowa | us-central1 |
A basse emissioni di CO2 |
Carolina del Sud | us-east1 |
|
Virginia del Nord | us-east4 |
|
Oregon | us-west1 |
Bassi livelli di CO2 |
Los Angeles | us-west2 |
|
Salt Lake City | us-west3 |
Descrizione regione | Nome regione | Dettagli |
---|---|---|
Singapore | asia-southeast1 |
|
Tokyo | asia-northeast1 |
Descrizione regione | Nome regione | Dettagli |
---|---|---|
Belgio | europe-west1 |
A basse emissioni di CO2 |
Finlandia | europe-north1 |
A basse emissioni di CO2 |
Francoforte | europe-west3 |
A basse emissioni di CO2 |
Londra | europe-west2 |
A basse emissioni di CO2 |
Madrid | europe-southwest1 |
A basse emissioni di CO2 |
Paesi Bassi | europe-west4 |
Bassi livelli di CO2 |
Parigi | europe-west9 |
A basse emissioni di CO2 |
Torino | europe-west12 |
|
Varsavia | europe-central2 |
|
Zurigo | europe-west6 |
A basse emissioni di CO2 |
Più regioni
La tabella seguente elenca le regioni multiple in cui è disponibile la valutazione della migrazione di BigQuery.Descrizione per più regioni | Nome di più regioni |
---|---|
Data center all'interno degli stati membri dell'Unione Europea | EU |
Data center negli Stati Uniti | US |
Prima di iniziare
Prima di eseguire la valutazione, devi abilitare l'API BigQuery Migration e creare un set di dati BigQuery per archiviare i risultati della valutazione.
Abilita l'API BigQuery Migration
Abilita l'API BigQuery Migration come segue:
Nella console Google Cloud, vai alla pagina Migrazione a BigQuery dell'API.
Fai clic su Abilita.
Crea un set di dati per i risultati della valutazione
La valutazione della migrazione di BigQuery scrive i risultati della valutazione nelle tabelle in BigQuery. Prima di iniziare, crea un set di dati in cui conservare questi tabelle. Quando condividi il report di Looker Studio, devi anche concedere agli utenti l'autorizzazione per leggere questo set di dati. Per ulteriori informazioni, vedi Rendi il report disponibile per gli utenti.
Esegui la valutazione della migrazione
Console
Nella console Google Cloud, vai alla pagina BigQuery.
Nel pannello di navigazione, vai a Test.
Fai clic su Inizia valutazione.
Compila la finestra di dialogo di configurazione della valutazione.
- In Nome visualizzato, inserisci il nome che può contenere lettere, numeri o trattini bassi. Questo nome è solo a scopo di visualizzazione e non deve essere necessariamente univoco.
Nell'elenco Località dei dati, scegli una località per la valutazione. un lavoro. Il job di valutazione deve trovarsi nella stessa località i file estratti inseriscono il bucket Cloud Storage e l'output set di dati BigQuery.
Tuttavia, se questa località ha più regioni
US
oEU
, la località del bucket Cloud Storage e BigQuery la posizione del set di dati può essere in una qualsiasi delle regioni all'interno di questa località multiregionale. Bucket Cloud Storage e set di dati BigQuery possono trovarsi in località diverse all'interno della stessa località multiregionale. Ad esempio, se selezioni la località multiregionaleUS
, Il bucket Cloud Storage può trovarsi nella regioneus-central1
, mentre Il set di dati BigQuery può trovarsi nella regioneus-east1
.Per Origine dati valutazione, scegli il tuo data warehouse.
In Percorso dei file di input, inserisci il percorso dei file di Cloud Storage bucket che contiene i tuoi file estratti.
Per scegliere la modalità di archiviazione dei risultati della valutazione, scegli una delle seguenti opzioni:
- Mantieni selezionata la casella di controllo Crea automaticamente il nuovo set di dati BigQuery per ottenere Set di dati BigQuery creato automaticamente. Il nome del il set di dati viene generato automaticamente.
- Deseleziona la casella di controllo Crea automaticamente il nuovo set di dati BigQuery e scegli il set di dati BigQuery vuoto esistente utilizzando il formato
projectId.datasetId
o crea un nuovo nome del set di dati. In questa opzione puoi scegliere il nome del set di dati BigQuery.
Opzione 1: generazione automatica del set di dati BigQuery (predefinita)
Opzione 2: creazione manuale del set di dati BigQuery:
Fai clic su Crea. Puoi visualizzare lo stato del job nei job di valutazione dall'elenco di lettura.
Mentre la valutazione è in esecuzione, puoi controllare l'avanzamento e il tempo stimato per il completamento nella descrizione comando dell'icona di stato.
Mentre la valutazione è in esecuzione, puoi fare clic sul link Visualizza report in l'elenco dei job di valutazione per visualizzare il report di valutazione con dati parziali e Looker Studio. Il link Visualizza report potrebbe richiedere del tempo per vengono visualizzati durante l'esecuzione della valutazione. Il report si apre in una nuova scheda.
Il report viene aggiornato con i nuovi dati man mano che vengono elaborati. Aggiorna la scheda con il report o fai di nuovo clic su Visualizza report per vedere il report aggiornato.
Al termine della valutazione, fai clic su Visualizza report per visualizzare il report completo della valutazione in Looker Studio. Il report si apre in una nuova scheda.
API
Chiama il create
con un flusso di lavoro definito.
Quindi chiama il start
per avviare il flusso di lavoro della valutazione.
La valutazione crea tabelle nel set di dati BigQuery creato in precedenza. Puoi eseguire query per informazioni sulle tabelle e sulle query utilizzate nei dati esistenti warehouse. Per informazioni sui file di output della traduzione, vedi Traduttore SQL batch.
Risultato della valutazione aggregata condivisibile
Per le valutazioni di Amazon Redshift, Teradata e Snowflake, oltre alle
creato in precedenza, il flusso di lavoro crea un altro
set di dati leggero con lo stesso nome, più
Suffisso _shareableRedactedAggregate
. Questo set di dati contiene dati altamente aggregati ricavati dal set di dati di output e non contiene informazioni che consentono l'identificazione personale (PII).
Per trovare, ispezionare e condividere in modo sicuro il set di dati con altri utenti, vedi Esegui una query sulle tabelle di output della valutazione della migrazione.
La funzione è attiva per impostazione predefinita, ma puoi disattivarla utilizzando il API pubblica.
Dettagli valutazione
Per visualizzare la pagina dei dettagli della valutazione, fai clic sul nome visualizzato nella valutazione dei job.
La pagina dei dettagli del test contiene la scheda Configurazione, in cui puoi visualizzare ulteriori informazioni su un job di valutazione e la scheda Errori, in cui possono esaminare eventuali errori che si sono verificati durante l'elaborazione della valutazione.
Visualizza la scheda Configurazione per vedere le proprietà della valutazione.
Visualizza la scheda Errori per vedere gli errori che si sono verificati durante la valutazione. e l'elaborazione dei dati.
Rivedi e condividi il report di Looker Studio
Al termine dell'attività di valutazione, puoi creare e condividere un Report di Looker Studio dei risultati.
Esamina il report
Fai clic sul link Visualizza report accanto al singolo compito di valutazione. Il report di Looker Studio si apre in una nuova scheda, in modalità di anteprima. Tu puoi utilizzare la modalità di anteprima per esaminare i contenuti del report prima di condividerlo ulteriormente.
Il report ha un aspetto simile allo screenshot seguente:
Per vedere quali viste sono contenute nel report, seleziona il tuo data warehouse:
Teradata
Il report è composto da tre parti ed è preceduto da un riepilogo In evidenza. Tale pagina include le seguenti sezioni:
- Sistema esistente. Questa sezione è un'istantanea della versione di Teradata esistente il sistema e l'utilizzo, tra cui il numero di database, schemi, tabelle dimensioni totali (in TB). Elenca anche gli schemi per dimensione e punta a potenziale utilizzo non ottimale delle risorse (tabelle senza scritture o poche letture).
- Trasformazioni dello stato stabile di BigQuery (suggerimenti). Questa sezione mostra come apparirà il sistema su BigQuery dopo la migrazione. Include suggerimenti per l'ottimizzazione carichi di lavoro standard su BigQuery (evitando sprechi).
- Piano di migrazione. Questa sezione fornisce informazioni sull'impegno necessario per la migrazione stessa, ad esempio il passaggio dal sistema esistente allo stato stabile di BigQuery. Questa sezione include il conteggio delle query che sono state tradotte automaticamente e il tempo stimato per spostare ogni tabella in BigQuery.
I dettagli di ogni sezione includono quanto segue:
Sistema esistente
- Computing e Query
- Utilizzo CPU:
- Mappa termica dell'utilizzo orario medio della CPU (tutto il sistema utilizzo delle risorse)
- Query per ora e giorno con utilizzo della CPU
- Query per tipo (lettura/scrittura) con utilizzo della CPU
- Applicazioni con utilizzo della CPU
- Overlay dell'utilizzo orario della CPU con la media della query oraria e prestazioni orarie medie delle applicazioni
- Istogramma delle query per tipo e durata delle query
- Visualizzazione dei dettagli delle applicazioni (app, utente, query uniche, report rispetto all'analisi ETL)
- Utilizzo CPU:
- Panoramica dello spazio di archiviazione
- Database per volume, visualizzazioni e tassi di accesso
- Tabelle con tassi di accesso per utenti, query, scritture e creazione di tabelle temporanee
- Applicazioni: tariffe di accesso e indirizzi IP
Trasformazioni dello stato stabile di BigQuery (suggerimenti)
- Indici di join convertiti in viste materializzate
- Raggruppamento e partizionamento dei candidati in base ai metadati e all'utilizzo
- Query a bassa latenza identificate come candidati per BigQuery BI Engine
- Le colonne configurate con valori predefiniti che utilizzano la funzionalità di descrizione delle colonne per memorizzare i valori predefiniti
- Indici univoci in Teradata
(per evitare che le righe con chiavi non univoche in
una tabella) usa tabelle temporanee e un'istruzione
MERGE
per inserire solo record univoci nelle tabelle di destinazione e poi ignorare i duplicati. - Query rimanenti e schema tradotti così come sono
Piano di migrazione
- Visualizzazione dettagliata con query tradotte automaticamente
- Numero di query totali con la possibilità di filtrare per utente, applicazione, tabelle interessate, tabelle sottoposte a query e tipo di query
- Bucket di query con pattern simili raggruppati e mostrati insieme in modo che l'utente possa vedere la filosofia di traduzione in base ai tipi di query
- Query che richiedono l'intervento umano
- Query con violazioni della struttura lessicale di BigQuery
- Funzioni e procedure definite dall'utente
- Parole chiave prenotate in BigQuery
- Programmazione delle tabelle per scritture e letture (per raggrupparle per il trasferimento)
- Migrazione dei dati con BigQuery Data Transfer Service: Tempo stimato per la migrazione per tabella
La sezione Sistema esistente contiene le seguenti viste:
- Panoramica del sistema
- La vista Panoramica del sistema mostra le metriche di volume generale dei componenti chiave nel sistema esistente per un determinato periodo di tempo. La sequenza temporale dipendono dai log analizzati dalla valutazione della migrazione di BigQuery. Questa vista offre insight rapidi sull'utilizzo del data warehouse di origine, che puoi utilizzare per pianificare la migrazione.
- Volume tabella
- La vista Volume tabella fornisce statistiche sulle tabelle e sui database più grandi individuata dalla valutazione della migrazione di BigQuery. Poiché l'estrazione di tabelle di grandi dimensioni dal sistema di data warehouse di origine può richiedere più tempo, questa vista può essere utile per la pianificazione e la sequenziazione della migrazione.
- Utilizzo della tabella
- La visualizzazione Utilizzo delle tabelle fornisce statistiche sulle tabelle più utilizzate all'interno del sistema di data warehouse di origine. Le tabelle molto utilizzate possono aiutarti a capire quali tabelle potrebbero avere molte dipendenze e richiedere pianificarla durante il processo di migrazione.
- Applicazioni
- Le viste Utilizzo delle applicazioni e Modelli di applicazioni forniscono statistiche sulle applicazioni rilevate durante l'elaborazione dei log. Queste viste consente agli utenti di comprendere l'utilizzo di applicazioni specifiche nel tempo l'impatto su e l'utilizzo delle risorse. Durante una migrazione, è importante visualizzare l'importazione e il consumo dei dati per comprendere meglio delle dipendenze del data warehouse e per analizzare l'impatto del trasferimento di usare insieme più applicazioni dipendenti. La tabella degli indirizzi IP può essere utile per individuare l'applicazione esatta utilizzando il data warehouse tramite le connessioni JDBC.
- Query
- La vista Query mostra un'analisi dettagliata dei tipi di istruzioni SQL eseguite e statistiche sul loro utilizzo. Puoi utilizzare l'istogramma di Tipo di query e Ora per identificare i periodi di utilizzo ridotto del sistema e le ore del giorno ottimali per trasferire i dati. Puoi utilizzare questa visualizzazione anche per identificare eseguiti di frequente query e gli utenti che richiamano queste esecuzioni.
- Database
- La vista Database fornisce metriche relative a dimensioni, tabelle, viste e procedure definito nel sistema di data warehouse di origine. Questa vista può fornire insight il volume degli oggetti di cui devi eseguire la migrazione.
- Accoppiamento database
- La vista Database Coupling offre una visione generale sui database e a cui si accede insieme in una singola query. Questa visualizzazione può mostrare a quali tabelle e database si fa riferimento spesso e cosa puoi utilizzare la pianificazione della migrazione.
La sezione stato fisso di BigQuery contiene quanto segue: visualizzazioni:
- Tabelle senza utilizzo
- La visualizzazione Tabelle senza utilizzo mostra le tabelle in cui La valutazione della migrazione di BigQuery non ha rilevato alcun utilizzo durante il periodo dei log che è stato analizzato. La mancanza di utilizzo potrebbe indicare che non è necessario trasferire la tabella in BigQuery durante la migrazione o che i costi di archiviazione degli dati in BigQuery potrebbero essere inferiori. Devi convalidare l'elenco delle tabelle non utilizzate perché potrebbe avere utilizzo al di fuori del periodo dei log, ad esempio una tabella che viene utilizzata solo una volta ogni tre o sei mesi.
- Tabelle senza scritture
- La visualizzazione Tabelle senza scritture mostra le tabelle in cui La valutazione della migrazione BigQuery non ha trovato aggiornamenti durante i log periodo analizzato. La mancanza di scritture può indicare dove potresti per ridurre i costi di archiviazione in BigQuery.
- Query a bassa latenza
- La vista Query a bassa latenza mostra una distribuzione dei runtime delle query in base sui dati di log analizzati. Se il grafico di distribuzione della durata delle query mostra un un numero elevato di query con < 1 secondo in runtime, valuta la possibilità di abilitare BigQuery BI Engine per accelerare la BI e altri carichi di lavoro a bassa latenza.
- Viste materializzate
- La vista materializzata fornisce ulteriori suggerimenti di ottimizzazione per delle prestazioni su BigQuery.
- Clustering e partizionamento
La vista Partizionamento e clustering mostra le tabelle che possono trarre vantaggio dal partizionamento, dal clustering o da entrambi.
I suggerimenti dei metadati si ottengono analizzando i dati di origine Schema del warehouse (come partizionamento e chiave primaria nella tabella di origine) e l'individuazione dell'equivalente BigQuery più vicino caratteristiche di ottimizzazione simili.
I suggerimenti relativi al carico di lavoro si ottengono analizzando i log delle query di origine. Il suggerimento viene determinato analizzando i carichi di lavoro, in particolare Clausole
WHERE
oJOIN
nei log delle query analizzate.- Suggerimento di clustering
La vista Partizionamento mostra le tabelle che possono avere più di 10.000 in base alla definizione del vincolo di partizionamento. Queste tabelle tendono a essere buoni candidati per il clustering di BigQuery, consente partizioni granulari delle tabelle.
- Vincoli univoci
La vista Vincoli unici mostra sia le tabelle
SET
sia gli indici univoci definiti all'interno del data warehouse di origine. In BigQuery, si consiglia di utilizzare tabelle temporanee e un'istruzioneMERGE
solo per l'inserimento unici in una tabella di destinazione. Utilizza i contenuti di questa visualizzazione per favorire determinare per quali tabelle potrebbe essere necessario regolare l'ETL durante migrazione.- Valori predefiniti / Verifica vincoli
Questa visualizzazione mostra le tabelle che utilizzano vincoli di controllo per impostare le colonne predefinite e i relativi valori. In BigQuery, vedi Specifica i valori predefiniti della colonna.
La sezione Percorso di migrazione del report contiene le seguenti viste:
- Traduzione SQL
- La vista Traduzione SQL elenca il numero e i dettagli delle query convertita automaticamente dalla valutazione della migrazione di BigQuery e non richiede procedure manuali dell'intervento. La traduzione SQL automatizzata di solito raggiunge tariffe di traduzione, se vengono forniti metadati. Questa visualizzazione è interattiva e permette di analizzare le query comuni e il modo in cui vengono tradotte.
- Impegno offline
- La visualizzazione Impegno offline acquisisce le aree che richiedono un intervento manuale, tra cui funzioni UDF specifiche e potenziali violazioni della struttura e della sintassi lessicale per tabelle o colonne.
- Parole chiave riservate a BigQuery
- La visualizzazione Parole chiave riservate di BigQuery mostra l'utilizzo rilevato
di parole chiave con un significato speciale
nel linguaggio GoogleSQL,
e non possono essere utilizzati come identificatori, a meno che non siano racchiusi tra un accento grave (
`
) caratteri. - Pianificazione degli aggiornamenti delle tabelle
- La vista Pianificazione degli aggiornamenti delle tabelle mostra quando e con quale frequenza le tabelle vengono aggiornati per aiutarti a pianificare come e quando spostarli.
- Migrazione dei dati in BigQuery
- La vista Migrazione dei dati a BigQuery delinea la migrazione con il Tempo previsto per la migrazione dei dati usando BigQuery Data Transfer Service. Per ulteriori informazioni, consulta Guida di BigQuery Data Transfer Service per Teradata.
La sezione Appendice contiene le seguenti visualizzazioni:
- Distinzione tra maiuscole e minuscole
- La vista Sensibilità alle maiuscole mostra le tabelle nel data warehouse di origine configurate per eseguire confronti senza tenere conto delle maiuscole. Per impostazione predefinita, i confronti delle stringhe in BigQuery sono sensibili alle maiuscole. Per ulteriori informazioni, consulta la sezione Collazione.
Amazon Redshift
- Punti salienti della migrazione
- La visualizzazione Punti salienti della migrazione fornisce un riepilogo esecutivo dei tre sezioni del report:
- Il riquadro Sistema esistente fornisce informazioni sul numero di come database, schemi, tabelle e la dimensione totale del cluster Redshift esistente Sistema. Elenca anche gli schemi per dimensione e potenziale non ottimale all'utilizzo delle risorse. Puoi utilizzare queste informazioni per ottimizzare i dati rimuovendo, partizionando o raggruppando in cluster le tabelle.
- Il riquadro Stato stazionario di BigQuery fornisce informazioni su ciò che i dati saranno simili a quelli dopo la migrazione in BigQuery, incluso il numero di query che possono essere tradotte automaticamente utilizzando BigQuery Migration Service. Questa sezione mostra anche i costi di archiviazione dei dati in BigQuery in base alla percentuale annuale di importazione dati, con suggerimenti per l'ottimizzazione di tabelle, provisioning e spazio.
- Il riquadro Percorso di migrazione fornisce informazioni sul lavoro necessario per la migrazione. Per ogni tabella mostra il traffico previsto tempo per la migrazione, il numero di righe presenti nella tabella e le relative dimensioni.
La sezione Sistema esistente contiene le seguenti viste:
- Query per tipo e pianificazione
- Nella vista Query per tipo e pianificazione le query vengono classificate in ETL/scrittura e generazione di report/aggregazione. Vedere la combinazione di query nel tempo aiuta a comprendere i pattern di utilizzo esistenti e a identificare la burstness e il potenziale overprovisioning che può influire su costi e prestazioni.
- Coda delle query
- La vista Coda di query fornisce ulteriori dettagli sul carico del sistema, tra cui volume e combinazione di query e eventuali impatti sulle prestazioni dovuti alla coda, come risorse insufficienti.
- Query e scalabilità WLM
- La vista Query e scalabilità WLM identifica la scalabilità della contemporaneità come una maggiore complessità in termini di costi e configurazione. Mostra come il tuo sistema Redshift instrada le query in base alle regole specificate e le prestazioni a causa di accodamento, scalabilità della contemporaneità e query eliminate.
- Coda e attesa
- La visualizzazione Coda e attesa offre un'analisi più approfondita dei tempi di attesa e di coda per le query nel tempo.
- Corsi e prestazioni del programma WLM
- La visualizzazione Corsi e Rendimento del programma WLM offre un modo facoltativo per mappare in BigQuery. Tuttavia, ti consigliamo di lasciare che sia BigQuery a indirizzare automaticamente le query.
- Query e Insight sul volume delle tabelle
- La query e La visualizzazione degli insight sul volume delle tabelle elenca le query per dimensione, frequenza, e gli utenti principali. In questo modo puoi classificare le sorgenti di carico sul sistema e pianificare la migrazione dei carichi di lavoro.
- Database e schemi
- La vista Database e schemi fornisce metriche su dimensioni, tabelle, viste e procedure definite nel sistema di data warehouse di origine. Questo fornisce insight sul volume degli oggetti di cui è necessario eseguire la migrazione.
- Volume tabella
- La visualizzazione Volume delle tabelle fornisce statistiche sulle tabelle e sui database più grandi, mostrando come vi si accede. Poiché le tabelle di grandi dimensioni possono richiedere per estrarre dal sistema di data warehouse di origine, questa vista aiuta la pianificazione e la sequenza della migrazione.
- Utilizzo della tabella
- La visualizzazione Utilizzo delle tabelle fornisce statistiche sulle tabelle più utilizzate all'interno del sistema di data warehouse di origine. Le tabelle di uso intensivo possono essere utilizzate per comprendere le tabelle che potrebbero avere molte dipendenze e richiedere una pianificazione aggiuntiva durante il processo di migrazione.
- Importatori ed esportatori
- Gli importatori e La visualizzazione degli esportatori fornisce informazioni su dati e utenti
coinvolti nell'importazione dei dati (con
COPY
query) e nell'esportazione dei dati (utilizzandoUNLOAD
). Questa visualizzazione consente di identificare il livello di staging e le procedure relative all'importazione e alle esportazioni. - Utilizzo del cluster
- La vista Utilizzo dei cluster fornisce informazioni generali su tutti cluster disponibili e visualizza l'utilizzo della CPU per ogni cluster. Questo può aiutarti a comprendere la riserva di capacità del sistema.
La sezione stato fisso di BigQuery contiene quanto segue: visualizzazioni:
- Clustering e partizionamento
La vista Partizionamento e clustering mostra le tabelle che possono trarre vantaggio dal partizionamento, dal clustering o da entrambi.
I suggerimenti per i metadati vengono ottenuti analizzando lo schema del data warehouse di origine (ad esempio la chiave di ordinamento e la chiave di distribuzione nella tabella di origine) e trovando l'equivalente BigQuery più vicino per ottenere caratteristiche di ottimizzazione simili.
I suggerimenti relativi al carico di lavoro vengono ottenuti analizzando la query di origine logaritmi. Il suggerimento viene determinato analizzando i carichi di lavoro, in particolare le clausole
WHERE
oJOIN
nei log delle query analizzate.Nella parte inferiore della pagina è presente un'istruzione create table tradotta con tutte le ottimizzazioni fornite. Tutte le istruzioni DDL tradotte possono essere estratte dal set di dati. Le istruzioni DDL tradotte vengono memorizzate in Tabella
SchemaConversion
nella colonnaCreateTableDDL
.I consigli nel report sono forniti solo per tabelle più grandi di 1 GB perché le tabelle piccole non trarrebbero vantaggio dal clustering il partizionamento orizzontale. Tuttavia, il linguaggio DDL per tutte le tabelle (incluse quelle di dimensioni inferiori a 1 GB) sono disponibili nella tabella
SchemaConversion
.- Tabelle senza utilizzo
La visualizzazione Tabelle senza utilizzo mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha identificato alcun utilizzo durante il periodo di log analizzato. Il mancato utilizzo può indicare che non è necessario trasferirla in BigQuery durante la migrazione o che i costi di archiviazione dei dati BigQuery potrebbe essere inferiore (fatturazione Spazio di archiviazione a lungo termine). Consigliamo di convalidare l'elenco delle tabelle inutilizzate perché potrebbero avere al di fuori del periodo di log, ad esempio una tabella usata solo una volta ogni tre o sei mesi.
- Tabelle senza scritture
La visualizzazione Tabelle senza scrittura mostra le tabelle in cui la valutazione della migrazione di BigQuery non ha identificato aggiornamenti durante il periodo di log analizzato. La mancanza di scritture può indicare dove potresti ridurre i costi di archiviazione in BigQuery (fatturati Spazio di archiviazione a lungo termine).
- Motore BI e viste materializzate
BI Engine e le viste materializzate offrono ulteriori ottimizzazioni per migliorare le prestazioni di BigQuery.
La sezione Percorso di migrazione contiene le seguenti viste:
- Traduzione SQL
- La vista Traduzione SQL elenca il numero e i dettagli delle query convertita automaticamente dalla valutazione della migrazione di BigQuery e non richiede procedure manuali dell'intervento. La traduzione SQL automatica in genere raggiunge alti tassi di traduzione se vengono forniti i metadati.
- Tentativo di traduzione SQL offline
- La visualizzazione Impegno offline di traduzione SQL cattura le aree che richiedono intervento manuale, incluse funzioni definite dall'utente e query specifiche con ambiguità nella traduzione.
- Modifica supporto aggiunta tabella
- La visualizzazione Modifica supporto di aggiunta tabella mostra i dettagli su Redshift più comuni Costrutti SQL che non hanno una controparte BigQuery diretta.
- Assistenza per il comando di copia
- La visualizzazione Supporto dei comandi di copia mostra i dettagli sulle query SQL comuni di Redshift che non hanno una controparte BigQuery diretta.
- Avvisi SQL
- La visualizzazione Avvisi SQL acquisisce le aree tradotte correttamente, ma richiedono una revisione.
- Struttura lessicale e Violazioni della sintassi
- Struttura lessicale e Nella vista Violazioni della sintassi vengono mostrati i nomi colonne, tabelle, funzioni e procedure che violano Sintassi di BigQuery.
- Parole chiave riservate a BigQuery
- La visualizzazione Parole chiave riservate di BigQuery mostra l'uso rilevato delle parole chiave
che hanno un significato speciale nel linguaggio GoogleSQL e che non possono essere usati
come identificatori, a meno che non siano racchiusi tra un accento grave (
`
). - Accoppiamento schema
- La vista Accoppiamento schema offre una visione generale sui database, schemi e tabelle a cui si accede insieme in una singola query. Questo può mostrare a quali tabelle, schemi e database si fa spesso riferimento e cosa puoi usare per pianificare la migrazione.
- Pianificazione degli aggiornamenti delle tabelle
- La vista Pianificazione degli aggiornamenti delle tabelle mostra come e quando e con quale frequenza le tabelle vengono aggiornati per aiutarti a pianificare come e quando spostarli.
- Scala della tabella
- La visualizzazione Scala tabella elenca le tabelle con il maggior numero di colonne.
- Migrazione dei dati a BigQuery
- La vista Migrazione dei dati a BigQuery delinea la migrazione percorso con Il tempo previsto per la migrazione dei dati utilizzando BigQuery Migration Service Data Transfer Service. Per ulteriori informazioni, consulta BigQuery Data Transfer Service per la guida Redshift.
- Riepilogo esecuzione valutazione
Il riepilogo esecuzione della valutazione contiene la completezza del report, l'avanzamento della valutazione in corso e lo stato dei file elaborati ed errori.
La completezza dei report rappresenta la percentuale di report elaborati correttamente i dati consigliati per mostrare informazioni significative report di valutazione. Se i dati per un determinato sezione del report, queste informazioni sono elencate nella Tabella Moduli di valutazione in Completezza dei report .
La metrica di avanzamento indica la percentuale di dati elaborati. finora insieme alla stima del tempo rimanente per l'elaborazione di i dati. Al termine dell'elaborazione, la metrica di avanzamento non visualizzati.
Apache Hive
Il report è composto da una narrazione in tre parti preceduta da un riepilogo pagina delle notifiche che include le seguenti sezioni:
Sistema esistente: Hive. Questa sezione è composta da un'istantanea dei Sistema Hive e utilizzo, tra cui il numero di database, tabelle e il loro totale dimensioni (in GB) e il numero di log di query elaborati. Questa sezione elenca anche database per dimensione e punta a potenziali risorse non ottimali l'utilizzo (tabelle senza scritture o poche letture) e il provisioning. I dettagli di questa sezione includono:
- Computing e query
- Utilizzo CPU:
- Query per ora e giorno con utilizzo della CPU
- Query per tipo (lettura/scrittura)
- Code e applicazioni
- Overlay dell'utilizzo orario della CPU con la media della query oraria e prestazioni orarie medie delle applicazioni
- Istogramma delle query per tipo e durata delle query
- Pagina di accodamento e attesa
- Visualizzazione dettagliata code (coda, utente, query uniche, report ed ETL dettagliata, per metriche)
- Utilizzo CPU:
- Panoramica dello spazio di archiviazione
- Database per volume, visualizzazioni e tassi di accesso
- Tabelle con tassi di accesso per utenti, query, scritture e creazione di tabelle temporanee
- Code e applicazioni: frequenze di accesso e indirizzi IP client
- Computing e query
Stato stazionario di BigQuery. Questa sezione mostra come sarà il sistema su BigQuery dopo la migrazione. Include suggerimenti per ottimizzare i carichi di lavoro su BigQuery ed evitare sprechi. I dettagli di questa sezione includono:
- Tabelle identificate come candidati per le viste materializzate
- Raggruppamento e partizionamento dei candidati in base ai metadati e all'utilizzo
- Query a bassa latenza identificate come candidati per BigQuery BI Engine
- Tabelle senza utilizzo in lettura o scrittura
- Tabelle partizionate con il disallineamento dei dati
Piano di migrazione. Questa sezione fornisce informazioni su durante l'operazione di migrazione. Ad esempio, passare dal sistema esistente allo stato stabile di BigQuery. Questa sezione contiene destinazioni di archiviazione identificate per ogni tabella, tabelle identificate come significative per la migrazione e il numero di query tradotti automaticamente. I dettagli di questa sezione includono:
- Visualizzazione dettagliata con query tradotte automaticamente
- Numero di query totali con la possibilità di filtrare per utente, applicazione, tabelle interessate, tabelle sottoposte a query e tipo di query
- Bucket di query con pattern simili raggruppati, in modo da consentire agli utenti per vedere la filosofia di traduzione per tipi di query
- Query che richiedono l'intervento umano
- Query con struttura grammaticale BigQuery violazioni
- Funzioni e procedure definite dall'utente
- Parole chiave prenotate in BigQuery
- Query da esaminare
- Pianificazioni delle tabelle per scrittura e lettura (per raggrupparle per lo spostamento)
- Destinazione di archiviazione identificata per le tabelle esterne e gestite
- Visualizzazione dettagliata con query tradotte automaticamente
La sezione Sistema esistente - Hive contiene le seguenti visualizzazioni:
- Panoramica del sistema
- Questa visualizzazione mostra le metriche relative al volume di alto livello dei componenti chiave nel sistema esistente per un determinato periodo di tempo. La sequenza temporale valutata dipende dai log analizzati dalla valutazione della migrazione di BigQuery. Questa vista offre insight rapidi sull'utilizzo del data warehouse di origine, che puoi utilizzare per pianificare la migrazione.
- Volume tabella
- Questa visualizzazione fornisce statistiche sulle tabelle e sui database più grandi individuata dalla valutazione della migrazione di BigQuery. Poiché le tabelle di grandi dimensioni potrebbero richiedere più tempo estrarre dal sistema di data warehouse di origine, questa vista può essere utile la pianificazione e la sequenza della migrazione.
- Utilizzo della tabella
- Questa visualizzazione fornisce statistiche sulle tabelle più utilizzate all'interno del sistema di data warehouse di origine. Le tabelle di uso intensivo possono aiutarti a capire quali potrebbero avere molte dipendenze e richiedere una pianificazione aggiuntiva durante il processo di migrazione.
- Utilizzo delle code
- Questa visualizzazione fornisce statistiche sulle code YARN durante l'elaborazione dei log. Queste viste consentono agli utenti di comprendere l'utilizzo di code e applicazioni specifiche nel tempo e l'impatto e l'utilizzo delle risorse. Queste visualizzazioni aiutano anche a identificare e dare la priorità ai carichi di lavoro per la migrazione. Durante una migrazione, è importante visualizzare l'importazione e il consumo dei dati per comprendere meglio le dipendenze del data warehouse e analizzare l'impatto del trasferimento di varie applicazioni dipendenti. La tabella degli indirizzi IP può essere utile per individuare l'applicazione esatta utilizzando il data warehouse tramite le connessioni JDBC.
- Metriche code
- Questa visualizzazione fornisce un'analisi dettagliata delle diverse metriche su Code YARN trovate durante l'elaborazione dei log. Questa vista consente agli utenti di comprendere i modelli di utilizzo in code specifiche e l'impatto sulla migrazione. Puoi utilizzare questa visualizzazione anche per identificare le connessioni tra le tabelle a cui si accede nelle query e nelle code in cui è stata eseguita la query.
- Coda e attesa
- Questa vista fornisce un approfondimento sull'accodamento delle query nel data warehouse di origine. I tempi di coda indicano il rendimento peggioramento dovuto a provisioning insufficiente e provisioning aggiuntivo richiede maggiori costi di hardware e manutenzione.
- Query
- Questa visualizzazione fornisce una suddivisione dei tipi di istruzioni SQL eseguite e le statistiche del loro utilizzo. Puoi utilizzare l'istogramma di Tipo di query e Ora per identificare i periodi di utilizzo ridotto del sistema e le ore del giorno ottimali per trasferire i dati. Puoi utilizzare questa vista anche per identificare Hive motori di esecuzione ed esecuzione frequente query insieme ai dettagli dell'utente.
- Database
- Questa vista fornisce metriche su dimensioni, tabelle, viste e procedure definite nel sistema del data warehouse di origine. Questa vista può fornire insight il volume degli oggetti di cui devi eseguire la migrazione.
- Database e Accoppiamento tavolo
- Questa visualizzazione offre una visione generale sui database e a cui si accede insieme in una singola query. Questa visualizzazione può mostrare a quali tabelle e database si fa riferimento spesso e cosa puoi utilizzare la pianificazione della migrazione.
La sezione Stato stazionario di BigQuery contiene quanto segue: visualizzazioni:
- Tabelle senza utilizzo
- La visualizzazione Tabelle senza utilizzo mostra le tabelle in cui La valutazione della migrazione di BigQuery non ha rilevato alcun utilizzo durante il periodo dei log che è stato analizzato. Un mancato utilizzo potrebbe indicare che non è necessario trasferire la tabella a BigQuery durante la migrazione o che i costi di archiviazione in BigQuery potrebbe essere inferiore. Devi convalidare l'elenco delle tabelle inutilizzate perché potrebbero essere utilizzate al di fuori del periodo dei log, ad esempio una tabella utilizzata solo una volta ogni tre o sei mesi.
- Tabelle senza scritture
- La visualizzazione Tabelle senza scritture mostra le tabelle in cui La valutazione della migrazione BigQuery non ha trovato aggiornamenti durante i log periodo analizzato. La mancanza di scritture può indicare dove potresti per ridurre i costi di archiviazione in BigQuery.
- Suggerimenti per clustering e partizionamento
Questa visualizzazione mostra le tabelle che possono trarre vantaggio dalla partizione, dal clustering o da entrambi.
I suggerimenti dei metadati si ottengono analizzando i dati di origine Schema del warehouse (come partizionamento e chiave primaria nella tabella di origine) e l'individuazione dell'equivalente BigQuery più vicino caratteristiche di ottimizzazione simili.
I suggerimenti relativi al carico di lavoro si ottengono analizzando i log delle query di origine. Il suggerimento viene determinato analizzando i carichi di lavoro, in particolare Clausole
WHERE
oJOIN
nei log delle query analizzate.- Partizioni convertite in cluster
Questa visualizzazione mostra le tabelle con più di 10.000 in base alla definizione del vincolo di partizionamento. Queste tabelle tendono a essere buoni candidati per il clustering di BigQuery, consente partizioni granulari delle tabelle.
- Partizioni disallineate
La visualizzazione Partizioni disallineate mostra le tabelle basate sui metadati l'analisi e avere disallineamenti dei dati su una o più partizioni. Queste tabelle sono buoni candidati per la modifica dello schema, in quanto le query sulle partizioni distorte potrebbero non avere un buon rendimento.
- BI Engine e viste materializzate
La vista Query a bassa latenza e viste materializzate mostra distribuzione dei runtime delle query in base ai dati di log analizzati e a ulteriori suggerimenti di ottimizzazione per migliorare il rendimento in BigQuery. Se il grafico di distribuzione della durata delle query visualizza un numero elevato di query con un runtime inferiore a un secondo, considera consentendo a BI Engine di accelerare la BI e altri carichi di lavoro a bassa latenza.
La sezione Piano di migrazione del report contiene le seguenti visualizzazioni:
- Traduzione SQL
- La vista Traduzione SQL elenca il numero e i dettagli delle query convertita automaticamente dalla valutazione della migrazione di BigQuery e non richiede procedure manuali dell'intervento. La traduzione SQL automatizzata di solito raggiunge tariffe di traduzione, se vengono forniti metadati. Questa visualizzazione è interattiva e permette di analizzare le query comuni e il modo in cui vengono tradotte.
- Tentativo di traduzione SQL offline
- La visualizzazione Impegno offline individua le aree che richiedono un intervento manuale, tra cui funzioni definite dall'utente specifiche, nonché potenziali strutture grammaticali e sintassi violazioni per tabelle o colonne.
- Avvisi SQL
- La visualizzazione Avvisi SQL acquisisce le aree tradotte correttamente, ma che richiedono una revisione.
- Parole chiave riservate di BigQuery
- La visualizzazione Parole chiave riservate di BigQuery mostra l'utilizzo rilevato
di parole chiave con significato speciale
nel linguaggio GoogleSQL.
Queste parole chiave non possono essere utilizzate come identificatori, a meno che non siano racchiuse tra caratteri di barra verticale (
`
). - Pianificazione degli aggiornamenti delle tabelle
- La vista Pianificazione degli aggiornamenti delle tabelle mostra quando e con quale frequenza le tabelle vengono aggiornati per aiutarti a pianificare come e quando spostarli.
- Tavoli esterni BigLake
- Le tabelle esterne di BigLake visualizzano le tabelle di strutture che identificati come target della migrazione a BigLake anziché in BigQuery.
La sezione Appendice del report contiene le seguenti visualizzazioni:
- Analisi dettagliata dello sforzo offline di traduzione SQL
- La vista Analisi dettagliata dello sforzo offline fornisce un approfondimento sulle aree SQL che richiedono un intervento manuale.
- Analisi dettagliata degli avvisi SQL
- La visualizzazione Analisi dettagliata degli avvisi fornisce un approfondimento sulle aree SQL tradotti correttamente, ma richiedono una revisione.
Snowflake
Il report è composto da diverse sezioni che possono essere utilizzate separatamente o insieme. Il seguente diagramma organizza queste sezioni in tre comuni per aiutarti a valutare le tue esigenze di migrazione:
Visualizzazioni degli elementi salienti della migrazione
La sezione Informazioni salienti della migrazione contiene le seguenti visualizzazioni:
- Modelli di prezzi di Snowflake e BigQuery
- Elenco dei prezzi con diversi livelli/versioni. Include anche illustrazione di come la scalabilità automatica di BigQuery può aiutare a risparmiare di più rispetto a quello di Snowflake.
- Costo totale di proprietà
- Tabella interattiva che consente all'utente di definire: BigQuery Versione, impegno, impegno di slot di base, percentuale di attivi spazio di archiviazione e la percentuale di dati caricati o modificati. Consente di stimare meglio i costi per le richieste personalizzate.
- Traduzione automatica in evidenza
- Rapporto di traduzione aggregato, raggruppato per utente o database, in ordine crescente o decrescente. Sono inclusi anche il messaggio di errore più comune per la traduzione automatica non riuscita.
Viste di sistema esistenti
La sezione Sistema esistente contiene le seguenti viste:
- Panoramica del sistema
- La vista Panoramica del sistema fornisce le metriche di alto livello di volume della chiave nel sistema esistente per un determinato periodo di tempo. La la sequenza temporale valutata dipende dai log analizzati Valutazione della migrazione di BigQuery. Questa visualizzazione fornisce informazioni rapide sulla fonte all'utilizzo del data warehouse, che puoi usare per pianificare la migrazione.
- Panoramica dei warehouse virtuali
- Mostra il costo di Snowflake per magazzino, nonché il ridimensionamento in base ai nodi nel periodo.
- Volume tabella
- La visualizzazione Volume tabella fornisce statistiche sulle tabelle più grandi e trovati dalla valutazione della migrazione di BigQuery. Poiché le tabelle di grandi dimensioni possono richiedere più tempo per estrarre dal sistema di data warehouse di origine, questa vista può essere utile nella pianificazione e nella sequenza della migrazione.
- Utilizzo della tabella
- La visualizzazione Utilizzo delle tabelle fornisce statistiche sulle tabelle che vengono utilizzate molto nel sistema di data warehouse di origine. Le tabelle molto utilizzate possono aiutarti per capire quali tabelle potrebbero avere molte dipendenze e richiedere pianificazione aggiuntiva durante il processo di migrazione.
- Query
- La vista Query fornisce una suddivisione dei tipi di istruzioni SQL eseguite e le statistiche del loro utilizzo. Puoi usare l'istogramma di Tipo di query Tempo per identificare periodi ridotti di utilizzo del sistema e tempi ottimali di giorno per trasferire i dati. Puoi utilizzare questa visualizzazione anche per identificare query eseguite e gli utenti che le richiamano.
- Database
- La vista Database fornisce metriche su dimensioni, tabelle, viste e delle procedure definite nel sistema di data warehouse di origine. Questa vista fornisce sul volume degli oggetti di cui devi eseguire la migrazione.
Viste in stato stabile di BigQuery
La sezione stato fisso di BigQuery contiene quanto segue: visualizzazioni:
- Tabelle senza utilizzo
- La visualizzazione Tabelle senza utilizzo mostra le tabelle in cui La valutazione della migrazione BigQuery non ha rilevato alcun utilizzo durante i log periodo analizzato. Ciò può indicare quali tabelle potrebbero non dover a BigQuery durante la migrazione o che i costi di archiviazione dei dati in BigQuery potrebbero essere inferiori. Tu devono convalidare l'elenco delle tabelle inutilizzate poiché potrebbero avere al di fuori del periodo dei log analizzato, ad esempio una tabella usata solo una volta al trimestre o alla metà.
- Tabelle senza scritture
- La visualizzazione Tabelle senza scritture mostra le tabelle in cui La valutazione della migrazione BigQuery non ha trovato aggiornamenti durante i log periodo analizzato. Ciò può indicare che i costi di archiviazione dei dati in BigQuery potrebbero essere inferiori.
Viste del piano di migrazione
La sezione Piano di migrazione del report contiene le seguenti viste:
- Traduzione SQL
- La vista Traduzione SQL elenca il numero e i dettagli delle query convertita automaticamente dalla valutazione della migrazione di BigQuery e non richiede procedure manuali dell'intervento. La traduzione SQL automatizzata di solito raggiunge tariffe di traduzione, se vengono forniti metadati. Questa visualizzazione è interattiva e permette di analizzare le query comuni e il modo in cui vengono tradotte.
- Tentativo di traduzione SQL offline
- La visualizzazione Impegno offline individua le aree che richiedono un intervento manuale, tra cui funzioni definite dall'utente specifiche, nonché potenziali strutture grammaticali e sintassi violazioni per tabelle o colonne.
- Avvisi SQL - Da esaminare
- La visualizzazione Avvisi da esaminare acquisisce le aree per le quali è stata eseguita la traduzione per la maggior parte, ma che richiedono un'ispezione da parte di persone fisiche.
- Parole chiave riservate di BigQuery
- La visualizzazione Parole chiave riservate di BigQuery mostra l'utilizzo rilevato
di parole chiave che hanno un significato speciale nel linguaggio GoogleSQL
e non possono essere utilizzate come identificatori, a meno che non siano racchiuse tra i caratteri di backtick (
`
). - Accoppiamento di database e tabelle
- La vista Database Coupling offre una visione generale sui database e a cui si accede insieme in una singola query. Questa visualizzazione può mostrare a quali tabelle e database si fa spesso riferimento e a cosa si può fare pianificazione della migrazione.
- Pianificazione degli aggiornamenti delle tabelle
- La vista Pianificazione degli aggiornamenti delle tabelle mostra quando e con quale frequenza le tabelle vengono aggiornati per aiutarti a pianificare come e quando spostarli.
Visualizzazioni Proof of Concept
La sezione PoC (proof of concept) contiene le seguenti viste:
- PoC per dimostrare i risparmi di BigQuery in stato stabile
- Include le query più frequenti, quelle che leggono la maggior parte dei dati, quelle più lente e le tabelle interessate da queste query.
- PDC per la dimostrazione del piano di migrazione di BigQuery
- Mostra in che modo BigQuery traduce le query più complesse e le tabelle interessate.
Condividi il report
Il report di Looker Studio è una dashboard frontend per la migrazione la valutazione. Si basa sulle autorizzazioni di accesso ai set di dati sottostanti. Per condividere il destinatario deve avere accesso sia a Looker Studio che e il set di dati BigQuery che contiene i risultati della valutazione.
Quando apri il report dalla console Google Cloud, vedrai il in modalità di anteprima. Per creare e condividere il report con altri utenti, segui questi passaggi:
- Fai clic su Modifica e condividi. Looker Studio ti chiede di collegare nuovi connettori di Looker Studio al nuovo report.
- Fai clic su Aggiungi al report. Il report riceve un singolo ID, che che puoi utilizzare per accedere al report.
- Per condividere il report di Looker Studio con altri utenti, segui i passaggi descritti in Condividere i report con visualizzatori ed editor.
- Concedi agli utenti l'autorizzazione a visualizzare il set di dati BigQuery per eseguire l'attività di valutazione. Per ulteriori informazioni, consulta Concedere l'accesso a un set di dati.
Esegui query sulle tabelle di output della valutazione della migrazione
Sebbene i report di Looker Studio siano il modo più comodo per visualizzare i risultati della valutazione, puoi anche visualizzare ed eseguire query sui dati sottostanti nel set di dati BigQuery.
Query di esempio
L'esempio seguente restituisce il numero totale di query uniche, il numero di query che non hanno superato la traduzione e la percentuale di query uniche traduzione non riuscita.
SELECT QueryCount.v AS QueryCount, ErrorCount.v as ErrorCount, (ErrorCount.v * 100) / QueryCount.v AS FailurePercentage FROM ( SELECT COUNT(*) AS v FROM `your_project.your_dataset.TranslationErrors` WHERE Type = "ERROR" ) AS ErrorCount, ( SELECT COUNT(DISTINCT(QueryHash)) AS v FROM `your_project.your_dataset.Queries` ) AS QueryCount;
Condividi il set di dati con utenti di altri progetti
Dopo l'ispezione del set di dati, se vuoi condividerlo con un utente non nel tuo progetto, puoi farlo utilizzando flusso di lavoro per i publisher di Analytics Hub.
Nella console Google Cloud, vai alla pagina BigQuery.
Fai clic sul set di dati per visualizzarne i dettagli.
Fai clic su > Pubblica come scheda.
CondivisioneNella finestra di dialogo visualizzata, crea una scheda come richiesto.
Se hai già uno scambio di dati, salta il passaggio 5.
Crea una piattaforma di scambio pubblicitario e imposta le autorizzazioni. Per consentire a un utente di visualizzare le tue schede in questo scambio, aggiungilo alla Iscritti.
Inserisci i dettagli della scheda.
Il nome visualizzato è il nome di questa scheda ed è obbligatorio; altri campi sono facoltativi.
Fai clic su Pubblica.
Viene creata una scheda privata.
Per la tua scheda, seleziona
In Azioni, fai clic su Altre azioni.Fai clic su Copia link condivisione.
Puoi condividere il link con gli utenti che hanno accesso in abbonamento al tuo tramite la piattaforma di scambio pubblicitario o la scheda di attività.
Schemi delle tabelle di valutazione
Per vedere le tabelle e i relativi schemi utilizzati per la valutazione della migrazione di BigQuery scrive in BigQuery, seleziona il tuo data warehouse:
Teradata
AllRIChildren
Questa tabella fornisce le integrità referenziale informazioni relative ai nodi figlio della tabella.
Colonna | Tipo | Descrizione |
---|---|---|
IndexId |
INTEGER |
Il numero di indice di riferimento. |
IndexName |
STRING |
Il nome dell'indice. |
ChildDB |
STRING |
Il nome del database di riferimento, convertito in minuscolo. |
ChildDBOriginal |
STRING |
Il nome del database di riferimento con il caso conservato. |
ChildTable |
STRING |
Il nome della tabella di riferimento, convertito in minuscolo. |
ChildTableOriginal |
STRING |
Il nome della tabella di riferimento con la cassetta conservata. |
ChildKeyColumn |
STRING |
Il nome di una colonna nella chiave di riferimento, convertito in minuscolo. |
ChildKeyColumnOriginal |
STRING |
Il nome di una colonna nella chiave di riferimento con la distinzione tra maiuscole e minuscole. |
ParentDB |
STRING |
Il nome del database a cui si fa riferimento, convertito in lettere minuscole. |
ParentDBOriginal |
STRING |
Il nome del database a cui viene fatto riferimento con la distinzione tra maiuscole e minuscole. |
ParentTable |
STRING |
Il nome della tabella di riferimento, convertito in minuscolo. |
ParentTableOriginal |
STRING |
Il nome della tabella a cui viene fatto riferimento con la distinzione tra maiuscole e minuscole mantenuta. |
ParentKeyColumn |
STRING |
Il nome della colonna in una chiave di riferimento, convertito in minuscolo. |
ParentKeyColumnOriginal |
STRING |
Il nome della colonna in una chiave di riferimento con la distinzione tra maiuscole e minuscole. |
AllRIParents
Questa tabella fornisce le informazioni sull'integrità referenziale delle tabelle principali.
Colonna | Tipo | Descrizione |
---|---|---|
IndexId |
INTEGER |
Il numero di indice di riferimento. |
IndexName |
STRING |
Il nome dell'indice. |
ChildDB |
STRING |
Il nome del database di riferimento, convertito in minuscolo. |
ChildDBOriginal |
STRING |
Il nome del database di riferimento con il caso conservato. |
ChildTable |
STRING |
Il nome della tabella di riferimento, convertito in minuscolo. |
ChildTableOriginal |
STRING |
Il nome della tabella di riferimento con la cassetta conservata. |
ChildKeyColumn |
STRING |
Il nome di una colonna nella chiave di riferimento, convertito in minuscolo. |
ChildKeyColumnOriginal |
STRING |
Il nome di una colonna nella chiave di riferimento con la distinzione tra maiuscole e minuscole. |
ParentDB |
STRING |
Il nome del database a cui si fa riferimento, convertito in lettere minuscole. |
ParentDBOriginal |
STRING |
Il nome del database a cui viene fatto riferimento con la distinzione tra maiuscole e minuscole. |
ParentTable |
STRING |
Il nome della tabella di riferimento, convertito in minuscolo. |
ParentTableOriginal |
STRING |
Il nome della tabella a cui viene fatto riferimento con la distinzione tra maiuscole e minuscole mantenuta. |
ParentKeyColumn |
STRING |
Il nome della colonna in una chiave di riferimento, convertito in minuscolo. |
ParentKeyColumnOriginal |
STRING |
Il nome della colonna in una chiave di riferimento con la distinzione tra maiuscole e minuscole. |
Columns
Questa tabella fornisce informazioni sulle colonne.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database, convertito in minuscolo. |
DatabaseNameOriginal |
STRING |
Il nome del database in cui viene mantenuta la distinzione tra maiuscole e minuscole. |
TableName |
STRING |
Il nome della tabella, convertito in minuscolo. |
TableNameOriginal |
STRING |
Il nome della tabella in cui le maiuscole e le minuscole vengono mantenute. |
ColumnName |
STRING |
Il nome della colonna, convertito in minuscolo. |
ColumnNameOriginal |
STRING |
Il nome della colonna in cui le maiuscole vengono mantenute. |
ColumnType |
STRING |
Il tipo di colonna BigQuery, ad esempio STRING . |
OriginalColumnType |
STRING |
Il tipo originale della colonna, ad esempio VARCHAR . |
ColumnLength |
INTEGER |
Il numero massimo di byte della colonna, ad esempio 30 per VARCHAR(30) . |
DefaultValue |
STRING |
Il valore predefinito, se esistente. |
Nullable |
BOOLEAN |
Indica se la colonna può ammettere valori nulli. |
DiskSpace
Questa tabella fornisce informazioni sull'utilizzo dello spazio su disco per ciascun database.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database, convertito in minuscolo. |
DatabaseNameOriginal |
STRING |
Il nome del database in cui viene mantenuta la distinzione tra maiuscole e minuscole. |
MaxPerm |
INTEGER |
Il numero massimo di byte allo spazio permanente. |
MaxSpool |
INTEGER |
Il numero massimo di byte allocati allo spazio spool. |
MaxTemp |
INTEGER |
Il numero massimo di byte allo spazio temporaneo. |
CurrentPerm |
INTEGER |
Il numero di byte attualmente allocati allo spazio permanente. |
CurrentSpool |
INTEGER |
Il numero di byte attualmente allocati allo spazio spool. |
CurrentTemp |
INTEGER |
Il numero di byte attualmente allocati allo spazio temporaneo. |
PeakPerm |
INTEGER |
Numero massimo di byte utilizzati dall'ultima reimpostazione per lo spazio permanente. |
PeakSpool |
INTEGER |
Numero massimo di byte utilizzati dall'ultima reimpostazione per lo spazio di spool. |
PeakPersistentSpool |
INTEGER |
Numero massimo di byte utilizzati dall'ultima reimpostazione per lo spazio permanente. |
PeakTemp |
INTEGER |
Numero massimo di byte utilizzati dall'ultima reimpostazione per lo spazio temporaneo. |
MaxProfileSpool |
INTEGER |
Il limite di spazio per la coda per l'utente. |
MaxProfileTemp |
INTEGER |
Il limite di spazio temporaneo per l'utente. |
AllocatedPerm |
INTEGER |
Allocazione attuale di spazio permanente. |
AllocatedSpool |
INTEGER |
Allocazione corrente dello spazio spool. |
AllocatedTemp |
INTEGER |
Allocazione attuale dello spazio temporaneo. |
Functions
Questa tabella fornisce informazioni sulle funzioni.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database, convertito in minuscolo. |
DatabaseNameOriginal |
STRING |
Il nome del database in cui le maiuscole e le minuscole vengono mantenute. |
FunctionName |
STRING |
Il nome della funzione. |
LanguageName |
STRING |
Il nome della lingua. |
Indices
Questa tabella fornisce informazioni sugli indici.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database, convertito in minuscolo. |
DatabaseNameOriginal |
STRING |
Il nome del database in cui viene mantenuta la distinzione tra maiuscole e minuscole. |
TableName |
STRING |
Il nome della tabella, convertito in minuscolo. |
TableNameOriginal |
STRING |
Il nome della tabella in cui le maiuscole e le minuscole vengono mantenute. |
IndexName |
STRING |
Il nome dell'indice. |
ColumnName |
STRING |
Il nome della colonna, convertito in minuscolo. |
ColumnNameOriginal |
STRING |
Il nome della colonna con la maiuscola conservata. |
OrdinalPosition |
INTEGER |
La posizione della colonna. |
UniqueFlag |
BOOLEAN |
Indica se l'indice applica l'univocità. |
Queries
Questa tabella fornisce informazioni sulle query estratte.
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
QueryText |
STRING |
Il testo della query. |
QueryLogs
Questa tabella fornisce alcune statistiche di esecuzione delle query estratte.
Colonna | Tipo | Descrizione |
---|---|---|
QueryText |
STRING |
Il testo della query. |
QueryHash |
STRING |
L'hash della query. |
QueryId |
STRING |
L'ID della query. |
QueryType |
STRING |
Il tipo di query, Query o DDL. |
UserId |
BYTES |
L'ID dell'utente che ha eseguito la query. |
UserName |
STRING |
Il nome dell'utente che ha eseguito la query. |
StartTime |
TIMESTAMP |
Timestamp dell'invio della query. |
Duration |
STRING |
Durata della query in millisecondi. |
AppId |
STRING |
L'ID dell'applicazione che ha eseguito la query. |
ProxyUser |
STRING |
L'utente proxy se utilizzato tramite un livello intermedio. |
ProxyRole |
STRING |
Il ruolo proxy se utilizzato tramite un livello intermedio. |
QueryTypeStatistics
Questa tabella fornisce statistiche sui tipi di query.
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
QueryType |
STRING |
Il tipo di query. |
UpdatedTable |
STRING |
La tabella aggiornata dalla query, se presente. |
QueriedTables |
ARRAY<STRING> |
Un elenco delle tabelle su cui è stata eseguita una query. |
ResUsageScpu
Questa tabella fornisce informazioni sull'utilizzo delle risorse della CPU.
Colonna | Tipo | Descrizione |
---|---|---|
EventTime |
TIMESTAMP |
L'ora dell'evento. |
NodeId |
INTEGER |
ID nodo |
CabinetId |
INTEGER |
Il numero del cabinet fisico del nodo. |
ModuleId |
INTEGER |
Il numero del modulo fisico del nodo. |
NodeType |
STRING |
Tipo di nodo. |
CpuId |
INTEGER |
ID della CPU all'interno di questo nodo. |
MeasurementPeriod |
INTEGER |
Il periodo della misurazione espresso in centisecondi. |
SummaryFlag |
STRING |
S - riga di riepilogo, N - riga non di riepilogo |
CpuFrequency |
FLOAT |
Frequenza CPU in MHz. |
CpuIdle |
FLOAT |
Il tempo di inattività della CPU espresso in centisecondi. |
CpuIoWait |
FLOAT |
Il tempo di attesa della CPU per l'I/O espresso in centisecondi. |
CpuUServ |
FLOAT |
Il tempo di esecuzione del codice utente da parte della CPU, espresso in centisecondi. |
CpuUExec |
FLOAT |
Tempo di esecuzione del codice di servizio da parte della CPU, espresso in centisecondi. |
Roles
Questa tabella fornisce informazioni sui ruoli.
Colonna | Tipo | Descrizione |
---|---|---|
RoleName |
STRING |
Il nome del ruolo. |
Grantor |
STRING |
Il nome del database che ha concesso il ruolo. |
Grantee |
STRING |
L'utente a cui viene concesso il ruolo. |
WhenGranted |
TIMESTAMP |
Quando è stato concesso il ruolo. |
WithAdmin |
BOOLEAN |
Opzione amministratore impostata per il ruolo concesso. |
SchemaConversion
Questa tabella fornisce informazioni sulle conversioni dello schema relative a clustering e partizionamento.
Nome colonna | Tipo di colonna | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database di origine per cui viene fornito il suggerimento. Un database viene mappato a un set di dati in BigQuery. |
TableName |
STRING |
Il nome della tabella per la quale viene fornito il suggerimento. |
PartitioningColumnName |
STRING |
Il nome della colonna di partizionamento suggerita in in BigQuery. |
ClusteringColumnNames |
ARRAY |
I nomi delle colonne di clustering suggerite in in BigQuery. |
CreateTableDDL |
STRING |
CREATE TABLE statement
per creare la tabella in BigQuery. |
TableInfo
Questa tabella fornisce informazioni sulle tabelle.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database, convertito in minuscolo. |
DatabaseNameOriginal |
STRING |
Il nome del database in cui viene mantenuta la distinzione tra maiuscole e minuscole. |
TableName |
STRING |
Il nome della tabella, convertito in minuscolo. |
TableNameOriginal |
STRING |
Il nome della tabella in cui le maiuscole e le minuscole vengono mantenute. |
LastAccessTimestamp |
TIMESTAMP |
L'ultima volta che è stato eseguito l'accesso alla tabella. |
LastAlterTimestamp |
TIMESTAMP |
L'ultima volta che la tabella è stata modificata. |
TableKind |
STRING |
Il tipo di tabella. |
TableRelations
Questa tabella fornisce informazioni sulle tabelle.
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query che ha stabilito la relazione. |
DatabaseName1 |
STRING |
Il nome del primo database. |
TableName1 |
STRING |
Il nome della prima tabella. |
DatabaseName2 |
STRING |
Il nome del secondo database. |
TableName2 |
STRING |
Il nome della seconda tabella. |
Relation |
STRING |
Il tipo di relazione tra le due tabelle. |
TableSizes
Questa tabella fornisce informazioni sulle dimensioni delle tabelle.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database, convertito in minuscolo. |
DatabaseNameOriginal |
STRING |
Il nome del database in cui viene mantenuta la distinzione tra maiuscole e minuscole. |
TableName |
STRING |
Il nome della tabella, convertito in minuscolo. |
TableNameOriginal |
STRING |
Il nome della tabella in cui le maiuscole e le minuscole vengono mantenute. |
TableSizeInBytes |
INTEGER |
Le dimensioni della tabella in byte. |
Users
Questa tabella fornisce informazioni sugli utenti.
Colonna | Tipo | Descrizione |
---|---|---|
UserName |
STRING |
Il nome dell'utente. |
CreatorName |
STRING |
Il nome dell'entità che ha creato l'utente. |
CreateTimestamp |
TIMESTAMP |
Timestamp della creazione dell'utente. |
LastAccessTimestamp |
TIMESTAMP |
Timestamp dell'ultimo accesso a un database da parte dell'utente. |
Amazon Redshift
Columns
La tabella Columns
proviene da una delle seguenti tabelle:
SVV_COLUMNS,
INFORMATION_SCHEMA.COLUMNS
o
PG_TABLE_DEF,
in ordine di priorità. Lo strumento tenta di caricare i dati
la tabella delle priorità. Se non riesce, il sistema tenta di caricare i dati dal
successiva con la massima priorità. Fai riferimento ad Amazon Redshift o PostgreSQL
documentazione per ulteriori dettagli sullo schema e sull'utilizzo.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database. |
SchemaName |
STRING |
Il nome dello schema. |
TableName |
STRING |
Il nome della tabella. |
ColumnName |
STRING |
Il nome della colonna. |
DefaultValue |
STRING |
Il valore predefinito, se disponibile. |
Nullable |
BOOLEAN |
Indica se una colonna può avere un valore nullo. |
ColumnType |
STRING |
Il tipo di colonna, ad esempio VARCHAR . |
ColumnLength |
INTEGER |
La dimensione della colonna, ad esempio 30 per un
VARCHAR(30) . |
CreateAndDropStatistic
Questa tabella fornisce informazioni sulla creazione e sull'eliminazione delle tabelle.
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
DefaultDatabase |
STRING |
Il database predefinito. |
EntityType |
STRING |
Tipo di entità, ad esempio TABLE. |
EntityName |
STRING |
Il nome dell'entità. |
Operation |
STRING |
L'operazione: CREATE o DROP. |
Databases
Questa tabella proviene dal PG_DATABASE_INFO direttamente da Amazon Redshift. I nomi dei campi originali della tabella PG sono inclusi nelle descrizioni. Fai riferimento ad Amazon Redshift e Documentazione di PostgreSQL per ulteriori dettagli sullo schema e sull'utilizzo.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database. Nome origine: datname |
Owner |
STRING |
Il proprietario del database. ad esempio l'utente che ha creato il database. Nome dell'origine: datdba |
ExternalColumns
Questa tabella contiene informazioni SVV_EXTERNAL_COLUMNS direttamente da Amazon Redshift. Consultare Amazon Redshift documentazione per ulteriori dettagli sullo schema e sull'utilizzo.
Colonna | Tipo | Descrizione |
---|---|---|
SchemaName |
STRING |
Il nome dello schema esterno. |
TableName |
STRING |
Il nome della tabella esterna. |
ColumnName |
STRING |
Il nome della colonna esterna. |
ColumnType |
STRING |
Il tipo di colonna. |
Nullable |
BOOLEAN |
Indica se una colonna può avere un valore nullo. |
ExternalDatabases
Questa tabella contiene informazioni SVV_EXTERNAL_DATABASES direttamente da Amazon Redshift. Consultare Amazon Redshift documentazione per ulteriori dettagli sullo schema e sull'utilizzo.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database esterno. |
Location |
STRING |
Località del database. |
ExternalPartitions
Questa tabella contiene informazioni SVV_EXTERNAL_PARTITIONS direttamente da Amazon Redshift. Consultare Amazon Redshift documentazione per ulteriori dettagli sullo schema e sull'utilizzo.
Colonna | Tipo | Descrizione |
---|---|---|
SchemaName |
STRING |
Il nome dello schema esterno. |
TableName |
STRING |
Il nome della tabella esterna. |
Location |
STRING |
La posizione della partizione. La dimensione della colonna è limitata a 128 caratteri. I valori più lunghi vengono troncati. |
ExternalSchemas
Questa tabella contiene informazioni SVV_EXTERNAL_SCHEMAS direttamente da Amazon Redshift. Consultare Amazon Redshift documentazione per ulteriori dettagli sullo schema e sull'utilizzo.
Colonna | Tipo | Descrizione |
---|---|---|
SchemaName |
STRING |
Il nome dello schema esterno. |
DatabaseName |
STRING |
Il nome del database esterno. |
ExternalTables
Questa tabella contiene informazioni SVV_EXTERNAL_TABLES direttamente da Amazon Redshift. Per ulteriori dettagli su schema e utilizzo, consulta la documentazione di Amazon Redshift.
Colonna | Tipo | Descrizione |
---|---|---|
SchemaName |
STRING |
Il nome dello schema esterno. |
TableName |
STRING |
Il nome della tabella esterna. |
Functions
Questa tabella contiene informazioni direttamente dalla tabella PG_PROC di Amazon Redshift. Per ulteriori dettagli sullo schema e sull'utilizzo, consulta la documentazione di Amazon Redshift e PostgreSQL.
Colonna | Tipo | Descrizione |
---|---|---|
SchemaName |
STRING |
Il nome dello schema. |
FunctionName |
STRING |
Il nome della funzione. |
LanguageName |
STRING |
Il linguaggio di implementazione o l'interfaccia di chiamata di questa funzione. |
Queries
Questa tabella viene generata utilizzando le informazioni della tabella QueryLogs
. Non mi piace
Nella tabella QueryLogs
, ogni riga della tabella Query contiene solo una query
archiviata nella colonna QueryText. Questa tabella fornisce i dati di origine
per generare le tabelle delle statistiche e gli output di traduzione.
Colonna | Tipo | Descrizione |
---|---|---|
QueryText |
STRING |
Il testo della query. |
QueryHash |
STRING |
L'hash della query. |
QueryLogs
Questa tabella fornisce informazioni sull'esecuzione della query.
Colonna | Tipo | Descrizione |
---|---|---|
QueryText |
STRING |
Il testo della query. |
QueryHash |
STRING |
L'hash della query. |
QueryID |
STRING |
L'ID della query. |
UserID |
STRING |
L'ID dell'utente. |
StartTime |
TIMESTAMP |
L'ora di inizio. |
Duration |
INTEGER |
Durata in millisecondi. |
QueryTypeStatistics
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
DefaultDatabase |
STRING |
Il database predefinito. |
QueryType |
STRING |
Il tipo di query. |
UpdatedTable |
STRING |
La tabella aggiornata. |
QueriedTables |
ARRAY<STRING> |
Le tabelle su cui è stata eseguita la query. |
TableInfo
Questa tabella contiene informazioni estratte dalla Tabella SVV_TABLE_INFO in Amazon Redshift.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database. |
SchemaName |
STRING |
Il nome dello schema. |
TableId |
INTEGER |
L'ID tabella. |
TableName |
STRING |
Il nome della tabella. |
SortKey1 |
STRING |
Prima colonna nella chiave di ordinamento. |
SortKeyNum |
INTEGER |
Numero di colonne definite come chiavi di ordinamento. |
MaxVarchar |
INTEGER |
Dimensioni della colonna più grande che utilizza un valore VARCHAR
tipo di dati. |
Size |
INTEGER |
Dimensioni della tabella, in blocchi di dati da 1 MB. |
TblRows |
INTEGER |
Numero totale di righe nella tabella. |
TableRelations
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query che ha stabilito la relazione (ad esempio, un JOIN query). |
DefaultDatabase |
STRING |
Il database predefinito. |
TableName1 |
STRING |
La prima tabella della relazione. |
TableName2 |
STRING |
La seconda tabella della relazione. |
Relation |
STRING |
Il tipo di relazione. Utilizza uno dei seguenti valori:
COMMA_JOIN , CROSS_JOIN ,
FULL_OUTER_JOIN INNER_JOIN
LEFT_OUTER_JOIN ,
RIGHT_OUTER_JOIN , CREATED_FROM o
INSERT_INTO . |
Count |
INTEGER |
La frequenza con cui è stata osservata questa relazione. |
TableSizes
Questa tabella fornisce informazioni sulle dimensioni delle tabelle.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database. |
SchemaName |
STRING |
Il nome dello schema. |
TableName |
STRING |
Il nome della tabella. |
TableSizeInBytes |
INTEGER |
Le dimensioni della tabella in byte. |
Tables
Questa tabella contiene informazioni estratte dalla Tabella SVV_TABLES in Amazon Redshift. Per saperne di più, consulta la documentazione di Amazon Redshift e i dettagli sullo schema e sull'utilizzo.
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database. |
SchemaName |
STRING |
Il nome dello schema. |
TableName |
STRING |
Il nome della tabella. |
TableType |
STRING |
Il tipo di tabella. |
TranslatedQueries
Questa tabella fornisce le traduzioni delle query.
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
TranslatedQueryText |
STRING |
Risultato della traduzione dal dialetto di origine a GoogleSQL. |
TranslationErrors
Questa tabella fornisce informazioni sugli errori di traduzione delle query.
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
Severity |
STRING |
La gravità dell'errore, ad esempio ERROR . |
Category |
STRING |
La categoria dell'errore, ad esempio
AttributeNotFound . |
Message |
STRING |
Il messaggio con i dettagli dell'errore. |
LocationOffset |
INTEGER |
La posizione del carattere della posizione dell'errore. |
LocationLine |
INTEGER |
Il numero di riga dell'errore. |
LocationColumn |
INTEGER |
Il numero di colonna dell'errore. |
LocationLength |
INTEGER |
Il numero di caratteri della posizione dell'errore. |
UserTableRelations
Colonna | Tipo | Descrizione |
---|---|---|
UserID |
STRING |
L'ID utente. |
TableName |
STRING |
Il nome della tabella. |
Relation |
STRING |
La relazione. |
Count |
INTEGER |
Il conteggio. |
Users
Questa tabella contiene informazioni estratte dalla PG_USER in Amazon Redshift. Per saperne di più, consulta la documentazione di PostgreSQL e i dettagli sullo schema e sull'utilizzo.
Colonna | Tipo | Descrizione | |
---|---|---|---|
UserName |
STRING |
Il nome dell'utente. | |
UserId |
STRING |
L'ID utente. |
Apache Hive
Columns
Questa tabella fornisce informazioni sulle colonne:
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database in cui viene mantenuta la distinzione tra maiuscole e minuscole. |
TableName |
STRING |
Il nome della tabella in cui le maiuscole e le minuscole vengono mantenute. |
ColumnName |
STRING |
Il nome della colonna in cui le maiuscole vengono mantenute. |
ColumnType |
STRING |
Il tipo di colonna BigQuery, ad esempio STRING . |
OriginalColumnType |
STRING |
Il tipo originale di colonna, ad esempio VARCHAR . |
CreateAndDropStatistic
Questa tabella fornisce informazioni sulla creazione e sull'eliminazione delle tabelle:
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
DefaultDatabase |
STRING |
Il database predefinito. |
EntityType |
STRING |
Tipo di entità, ad esempio TABLE . |
EntityName |
STRING |
Il nome dell'entità. |
Operation |
STRING |
L'operazione eseguita sulla tabella (CREATE o DROP ). |
Databases
Questa tabella fornisce informazioni sui database:
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database in cui viene mantenuta la distinzione tra maiuscole e minuscole. |
Owner |
STRING |
Il proprietario del database. ad esempio l'utente che ha creato il database. |
Location |
STRING |
Posizione del database nel file system. |
Functions
Questa tabella fornisce informazioni sulle funzioni:
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database in cui viene mantenuta la distinzione tra maiuscole e minuscole. |
FunctionName |
STRING |
Il nome della funzione. |
LanguageName |
STRING |
Il nome della lingua. |
ClassName |
STRING |
Il nome della classe della funzione. |
ObjectReferences
Questa tabella fornisce informazioni sugli oggetti a cui viene fatto riferimento nelle query:
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
DefaultDatabase |
STRING |
Il database predefinito. |
Clause |
STRING |
La clausola in cui compare l'oggetto. Ad esempio, SELECT . |
ObjectName |
STRING |
Il nome dell'oggetto. |
Type |
STRING |
Il tipo di oggetto. |
Subtype |
STRING |
Il sottotipo dell'oggetto. |
ParititionKeys
Questa tabella fornisce informazioni sulle chiavi di partizione:
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database in cui viene mantenuta la distinzione tra maiuscole e minuscole. |
TableName |
STRING |
Il nome della tabella in cui le maiuscole e le minuscole vengono mantenute. |
ColumnName |
STRING |
Il nome della colonna in cui le maiuscole vengono mantenute. |
ColumnType |
STRING |
Il tipo di colonna BigQuery, ad esempio STRING . |
Parititions
Questa tabella fornisce informazioni sulle partizioni delle tabelle:
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database in cui viene mantenuta la distinzione tra maiuscole e minuscole. |
TableName |
STRING |
Il nome della tabella in cui le maiuscole e le minuscole vengono mantenute. |
PartitionName |
STRING |
Il nome della partizione. |
CreateTimestamp |
TIMESTAMP |
Il timestamp della creazione di questa partizione. |
LastAccessTimestamp |
TIMESTAMP |
Timestamp dell'ultimo accesso a questa partizione. |
LastDdlTimestamp |
TIMESTAMP |
Timestamp dell'ultima modifica della partizione. |
TotalSize |
INTEGER |
Le dimensioni compresse della partizione in byte. |
Queries
Questa tabella viene generata utilizzando le informazioni della tabella QueryLogs
. A differenza della tabella QueryLogs
, ogni riga della tabella Query contiene una sola istruzione di query memorizzata nella colonna QueryText
. Questa tabella fornisce i dati di origine per generare le tabelle Statistiche e gli output di traduzione:
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
QueryText |
STRING |
Il testo della query. |
QueryLogs
Questa tabella fornisce alcune statistiche di esecuzione relative alle query estratte:
Colonna | Tipo | Descrizione |
---|---|---|
QueryText |
STRING |
Il testo della query. |
QueryHash |
STRING |
L'hash della query. |
QueryId |
STRING |
L'ID della query. |
QueryType |
STRING |
Il tipo di query: Query o DDL . |
UserName |
STRING |
Il nome dell'utente che ha eseguito la query. |
StartTime |
TIMESTAMP |
Il timestamp di invio della query. |
Duration |
STRING |
Durata della query in millisecondi. |
QueryTypeStatistics
Questa tabella fornisce statistiche sui tipi di query:
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
QueryType |
STRING |
Il tipo di query. |
UpdatedTable |
STRING |
La tabella aggiornata dalla query, se presente. |
QueriedTables |
ARRAY<STRING> |
Un elenco delle tabelle su cui è stata eseguita una query. |
QueryTypes
Questa tabella fornisce statistiche sui tipi di query:
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
Category |
STRING |
La categoria della query. |
Type |
STRING |
Il tipo di query. |
Subtype |
STRING |
Il sottotipo della query. |
SchemaConversion
Questa tabella fornisce informazioni sulle conversioni dello schema correlate a: il clustering e il partizionamento:
Nome colonna | Tipo di colonna | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database di origine per cui viene fornito il suggerimento. Un database viene mappato a un set di dati in BigQuery. |
TableName |
STRING |
Il nome della tabella per la quale viene fornito il suggerimento. |
PartitioningColumnName |
STRING |
Il nome della colonna di partizionamento suggerita in in BigQuery. |
ClusteringColumnNames |
ARRAY |
I nomi delle colonne di clustering suggerite in in BigQuery. |
CreateTableDDL |
STRING |
CREATE TABLE statement
per creare la tabella in BigQuery. |
TableRelations
Questa tabella fornisce informazioni sulle tabelle:
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query che ha stabilito la relazione. |
DatabaseName1 |
STRING |
Il nome del primo database. |
TableName1 |
STRING |
Il nome della prima tabella. |
DatabaseName2 |
STRING |
Il nome del secondo database. |
TableName2 |
STRING |
Il nome della seconda tabella. |
Relation |
STRING |
Il tipo di relazione tra le due tabelle. |
TableSizes
Questa tabella fornisce informazioni sulle dimensioni delle tabelle:
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database in cui viene mantenuta la distinzione tra maiuscole e minuscole. |
TableName |
STRING |
Il nome della tabella con la maiuscola conservata. |
TotalSize |
INTEGER |
Le dimensioni della tabella in byte. |
Tables
Questa tabella fornisce informazioni sulle tabelle:
Colonna | Tipo | Descrizione |
---|---|---|
DatabaseName |
STRING |
Il nome del database in cui viene mantenuta la distinzione tra maiuscole e minuscole. |
TableName |
STRING |
Il nome della tabella in cui le maiuscole e le minuscole vengono mantenute. |
Type |
STRING |
Il tipo di tabella. |
TranslatedQueries
Questa tabella fornisce le traduzioni delle query:
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
TranslatedQueryText |
STRING |
Il risultato della traduzione dal dialetto di origine a GoogleSQL. |
TranslationErrors
Questa tabella fornisce informazioni sugli errori di traduzione delle query:
Colonna | Tipo | Descrizione |
---|---|---|
QueryHash |
STRING |
L'hash della query. |
Severity |
STRING |
La gravità dell'errore, ad esempio ERROR . |
Category |
STRING |
La categoria dell'errore, ad esempio
AttributeNotFound . |
Message |
STRING |
Il messaggio con i dettagli dell'errore. |
LocationOffset |
INTEGER |
La posizione del carattere della posizione dell'errore. |
LocationLine |
INTEGER |
Il numero di riga dell'errore. |
LocationColumn |
INTEGER |
Il numero di colonna dell'errore. |
LocationLength |
INTEGER |
Il numero di caratteri della posizione dell'errore. |
UserTableRelations
Colonna | Tipo | Descrizione |
---|---|---|
UserID |
STRING |
L'ID utente. |
TableName |
STRING |
Il nome della tabella. |
Relation |
STRING |
La relazione. |
Count |
INTEGER |
Il conteggio. |
Snowflake
Warehouses
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
WarehouseName |
STRING |
Il nome del magazzino. | Sempre |
State |
STRING |
Lo stato del magazzino. Valori possibili: STARTED , SUSPENDED , RESIZING . |
Sempre |
Type |
STRING |
Tipo di warehouse. Valori possibili: STANDARD , SNOWPARK-OPTIMIZED . |
Sempre |
Size |
STRING |
Dimensioni del magazzino. Valori possibili: X-Small , Small , Medium , Large , X-Large , 2X-Large ... 6X-Large . |
Sempre |
Databases
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
DatabaseNameOriginal |
STRING |
Il nome del database, mantenendo le maiuscole/minuscole. | Sempre |
DatabaseName |
STRING |
Il nome del database, convertito in minuscolo. | Sempre |
Schemata
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
DatabaseNameOriginal |
STRING |
Il nome del database a cui appartiene lo schema, con la maiuscola conservata. | Sempre |
DatabaseName |
STRING |
Il nome del database a cui appartiene lo schema, convertito in lettere minuscole. | Sempre |
SchemaNameOriginal |
STRING |
Il nome dello schema, mantenendo le maiuscole/minuscole. | Sempre |
SchemaName |
STRING |
Il nome dello schema, convertito in minuscolo. | Sempre |
Tables
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
DatabaseNameOriginal |
STRING |
Il nome del database a cui appartiene la tabella, con la distinzione tra maiuscole e minuscole. | Sempre |
DatabaseName |
STRING |
Il nome del database a cui appartiene la tabella, convertito in lettere minuscole. | Sempre |
SchemaNameOriginal |
STRING |
Il nome dello schema a cui appartiene la tabella, con la distinzione tra maiuscole e minuscole. | Sempre |
SchemaName |
STRING |
Il nome dello schema a cui appartiene la tabella, convertito in minuscolo. | Sempre |
TableNameOriginal |
STRING |
Il nome della tabella, senza distinzione tra maiuscole e minuscole. | Sempre |
TableName |
STRING |
Il nome della tabella, convertito in minuscolo. | Sempre |
TableType |
STRING |
Tipo di tabella (vista/vista materializzata/tabella di base). | Sempre |
RowCount |
BIGNUMERIC |
Numero di righe nella tabella. | Sempre |
Columns
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
DatabaseName |
STRING |
Il nome del database, convertito in minuscolo. | Sempre |
DatabaseNameOriginal |
STRING |
Il nome del database, mantenendo le maiuscole/minuscole. | Sempre |
SchemaName |
STRING |
Il nome dello schema, convertito in minuscolo. | Sempre |
SchemaNameOriginal |
STRING |
Il nome dello schema, mantenendo le maiuscole/minuscole. | Sempre |
TableName |
STRING |
Il nome della tabella, convertito in minuscolo. | Sempre |
TableNameOriginal |
STRING |
Il nome della tabella con la maiuscola conservata. | Sempre |
ColumnName |
STRING |
Il nome della colonna, convertito in minuscolo. | Sempre |
ColumnNameOriginal |
STRING |
Il nome della colonna in cui le maiuscole vengono mantenute. | Sempre |
ColumnType |
STRING |
Il tipo di colonna. | Sempre |
CreateAndDropStatistics
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
QueryHash |
STRING |
L'hash della query. | Sempre |
DefaultDatabase |
STRING |
Il database predefinito. | Sempre |
EntityType |
STRING |
Il tipo di entità, ad esempio TABLE . |
Sempre |
EntityName |
STRING |
Il nome dell'entità. | Sempre |
Operation |
STRING |
L'operazione: CREATE o DROP . |
Sempre |
Queries
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
QueryText |
STRING |
Il testo della query. | Sempre |
QueryHash |
STRING |
L'hash della query. | Sempre |
QueryLogs
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
QueryText |
STRING |
Il testo della query. | Sempre |
QueryHash |
STRING |
L'hash della query. | Sempre |
QueryID |
STRING |
L'ID della query. | Sempre |
UserID |
STRING |
L'ID dell'utente. | Sempre |
StartTime |
TIMESTAMP |
L'ora di inizio. | Sempre |
Duration |
INTEGER |
Durata in millisecondi. | Sempre |
QueryTypeStatistics
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
QueryHash |
STRING |
L'hash della query. | Sempre |
DefaultDatabase |
STRING |
Il database predefinito. | Sempre |
QueryType |
STRING |
Il tipo di query. | Sempre |
UpdatedTable |
STRING |
La tabella aggiornata. | Sempre |
QueriedTables |
REPEATED STRING |
Le tabelle su cui è stata eseguita la query. | Sempre |
TableRelations
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
QueryHash |
STRING |
L'hash della query che ha stabilito la relazione (ad esempio, una query JOIN ). |
Sempre |
DefaultDatabase |
STRING |
Il database predefinito. | Sempre |
TableName1 |
STRING |
La prima tabella della relazione. | Sempre |
TableName2 |
STRING |
La seconda tabella della relazione. | Sempre |
Relation |
STRING |
Il tipo di relazione. | Sempre |
Count |
INTEGER |
La frequenza con cui è stata osservata questa relazione. | Sempre |
TranslatedQueries
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
QueryHash |
STRING |
L'hash della query. | Sempre |
TranslatedQueryText |
STRING |
Risultato della traduzione dal dialetto di origine a BigQuery SQL. | Sempre |
TranslationErrors
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
QueryHash |
STRING |
L'hash della query. | Sempre |
Severity |
STRING |
La gravità dell'errore, ad esempio ERROR . |
Sempre |
Category |
STRING |
La categoria dell'errore, ad esempio AttributeNotFound . |
Sempre |
Message |
STRING |
Il messaggio con i dettagli dell'errore. | Sempre |
LocationOffset |
INTEGER |
La posizione del carattere della posizione dell'errore. | Sempre |
LocationLine |
INTEGER |
Il numero di riga dell'errore. | Sempre |
LocationColumn |
INTEGER |
Il numero di colonna dell'errore. | Sempre |
LocationLength |
INTEGER |
Il numero di caratteri della posizione dell'errore. | Sempre |
UserTableRelations
Colonna | Tipo | Descrizione | Presenza |
---|---|---|---|
UserID |
STRING |
ID utente. | Sempre |
TableName |
STRING |
Il nome della tabella. | Sempre |
Relation |
STRING |
La relazione. | Sempre |
Count |
INTEGER |
Il conteggio. | Sempre |
Risoluzione dei problemi
Questa sezione illustra alcuni problemi comuni e tecniche di risoluzione dei problemi relativi eseguendo la migrazione del data warehouse a BigQuery.
dwh-migration-dumper
errore dello strumento
Per risolvere errori e avvisi nel terminale degli strumenti dwh-migration-dumper
che si è verificato durante l'estrazione dei metadati o dei log delle query, consulta
generare la risoluzione dei problemi relativi ai metadati.
Errori di migrazione Hive
Questa sezione descrive i problemi comuni che potresti riscontrare quando pianifichi per eseguire la migrazione del data warehouse da Hive a BigQuery.
L'hook di logging scrive i messaggi di log di debug nel file
hive-server2
di log. Se riscontri problemi, consulta
log di debug dell'hook di logging, che contengono
Stringa MigrationAssessmentLoggingHook
.
Gestisci l'errore ClassNotFoundException
L'errore potrebbe essere causato dal file JAR dell'hook di logging
posizionamento errato. Assicurati di aver aggiunto il file JAR alla cartella auxlib nel
cluster Hive. In alternativa, puoi specificare il percorso completo
il file JAR nella proprietà hive.aux.jars.path
, ad esempio
file://
.
Le sottocartelle non vengono visualizzate nella cartella configurata
Questo problema potrebbe essere causato da un'errata configurazione o da problemi durante di inizializzazione dell'hook di logging.
Cerca nei log di debug di hive-server2
le seguenti informazioni
Logging dei messaggi hook:
Unable to initialize logger, logging disabled
Log dir configuration key 'dwhassessment.hook.base-directory' is not set, logging disabled.
Error while trying to set permission
Esamina i dettagli del problema e controlla se c'è qualcosa da correggere per risolverlo.
I file non vengono visualizzati nella cartella
Questo problema potrebbe essere causato da problemi riscontrati durante un evento durante l'elaborazione o la scrittura su un file.
Cerca nei log di debug hive-server2
le seguenti informazioni
Logging dei messaggi hook:
Failed to close writer for file
Got exception while processing event
Error writing record for query
Esamina i dettagli del problema e controlla se c'è qualcosa da correggere per risolverlo.
Alcuni eventi di query sono andati persi
Questo problema potrebbe essere causato dalla coda del thread dell'hook di logging dell'overflow.
Cerca nei log di debug hive-server2
le seguenti informazioni
messaggio hook di logging:
Writer queue is full. Ignoring event
Se sono presenti messaggi di questo tipo, valuta la possibilità di aumentare
Parametro dwhassessment.hook.queue.capacity
.
Passaggi successivi
Per ulteriori informazioni sullo strumento dwh-migration-dumper
, consulta
dwh-migration-tools.
Puoi anche scoprire di più sui seguenti passaggi della migrazione del data warehouse:
- Panoramica della migrazione
- Panoramica del trasferimento di schemi e dati
- Pipeline di dati
- Traduzione SQL batch
- Traduzione SQL interattiva
- Sicurezza e governance dei dati
- Strumento di convalida dei dati