Informazioni sullo schema delle varianti BigQuery

Questa pagina spiega la struttura dello schema generato in BigQuery quando utilizzi lo strumento di trasformazione delle varianti. Leggi questa pagina se utilizzi lo strumento di trasformazione delle varianti per trasformare e caricare i file VCF direttamente in BigQuery e vuoi capire come è strutturata la tabella di esportazione.

Nomenclatura

Per comprendere gli schemi e i formati di esportazione, consulta i seguenti termini.

Nomenclatura Genomics

Esempio
DNA raccolto ed elaborato mediante un unico identificatore. Un campione generalmente riguarda un singolo organismo individuale, ma può anche essere un campione eterogeneo, ad esempio un tampone di guancia.
Nome di riferimento
Il nome di un segmento di riferimento del DNA. Il nome di riferimento è in genere un cromosoma, ma potrebbe trattarsi di altre regioni denominate di un genoma di riferimento.
Variante

Una regione del genoma che è stata identificata come diversa dal genoma di riferimento. Una variante deve avere le seguenti proprietà:

  • Nome di riferimento
  • Posizione iniziale
  • Posizione finale
  • Una o più basi di riferimento
Segmento senza varianti

Una regione del genoma corrispondente al genoma di riferimento. Questo segmento senza variazioni viene anche chiamato "segmento di riferimento". In genere, i dati genomici non includono segmenti non varianti con varianti.

Per saperne di più sui segmenti senza varianti, consulta Informazioni sul gVCF.

Chiamata

Un'occorrenza identificata di una variante o di un segmento senza variazioni per un singolo campione. Una chiamata rappresenta la determinazione del genotipo relativo a una particolare variante. La chiamata potrebbe includere informazioni associate come qualità e phasing.

Campi INFO

Campi facoltativi aggiunti alle informazioni sulla variante e sulla chiamata. Ad esempio, tutte le chiamate hanno un campo genotype, ma non tutti i set di dati hanno un campo "Qualità del genotipo" (GQ). Il campo genotype è una parte fissa dello schema VariantCall, ma non ha un campo GQ. Puoi importare il campo e il valore GQ come coppie chiave-valore nel campo info VariantCall.

Per ulteriori informazioni sulla nomenclatura genomica, vedi quanto segue:

Termini di BigQuery

Acquisisci familiarità con i seguenti termini di BigQuery:

Campi semplici
Elementi di dati semplici, come numeri e stringhe, in una tabella BigQuery.
Campi nidificati
Elementi di dati complessi in una tabella BigQuery. Un campo nidificato può contenere più campi, sia semplici che nidificati.
Campi ripetuti
Campi di una tabella BigQuery che possono avere più valori, ad esempio un elenco. I campi ripetuti possono essere sia semplici sia nidificati.

Per ulteriori informazioni sui tipi di dati complessi di BigQuery, consulta questo articolo:

Struttura della tabella delle varianti

Quando esegui lo strumento di trasformazione delle varianti, devi specificare il nome della tabella BigQuery. In genere, il nome della tabella è variants.

Struttura dei record della tabella delle varianti

I record di primo livello della tabella variants possono essere sia varianti che segmenti non varianti. Ogni record della tabella variants contiene una o più chiamate.

La tabella seguente illustra la struttura dei record della tabella delle varianti. La tabella mostra i seguenti record delle varianti:

  • Variant1
  • Variant2

Il set di dati BigQuery contiene i seguenti esempi:

  • Sample1
  • Sample2
  • Sample3

Nella tabella seguente puoi osservare questi risultati:

  • Variant1 è stato chiamato per Sample1 e Sample2.
  • Variant2 è stato chiamato per Sample1 e Sample3.
   
Variant1 Esempio1

Esempio2
Variant2 Esempio1

Esempio3
... ...

Struttura dei campi della tabella delle varianti

Ogni tabella variants include un insieme fisso di campi e un insieme di variabili. La struttura della tabella è la seguente:

     
Campi delle varianti corretti Chiamata Campi INFORMAZIONI variante
... Campi di chiamata corretti Campi di informazioni sulle chiamate ...

Campi fissi della tabella delle varianti

I campi fissi a livello di record (variante) sono i seguenti:

  • reference_name
  • start_position
  • end_position
  • reference_bases
  • alternate_bases
  • names
  • quality
  • filter

I campi fissi a livello di chiamata (VariantCall) sono i seguenti:

  • name
  • genotype
  • phaseset

Schema di esempio

Quando i dati di 1000 genomi sono stati caricati in BigQuery, includevano l'importazione di ALL.chrY.phase3_integrated_v1a.20130502.genotypes.vcf.

Il file VCF include vari campi INFO a livello di variante e chiamata, come descritto nelle seguenti istruzioni di intestazione INFO e FORMAT:

##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=GP,Number=G,Type=Float,Description="Genotype likelihoods">
##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">
##FORMAT=<ID=FT,Number=1,Type=String,Description="Per-sample genotype filter">
##FORMAT=<ID=PL,Number=G,Type=Integer,Description="Normalized, Phred-scaled likelihoods for genotypes as defined in the VCF specification">
 [[trimmed]]
##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral allele">
##INFO=<ID=AC,Number=A,Type=Integer,Description="Total number of alternate alleles in called genotypes">
##INFO=<ID=AF,Number=A,Type=Float,Description="Estimated allele frequency in the range (0,1]">
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of samples with data">
 [[trimmed]]

Al momento del caricamento del file in BigQuery, si è verificato quanto segue:

  • I campi contrassegnati come INFO, come AC e AF, sono stati aggiunti come campi INFO alle risorse delle varianti.
  • I campi contrassegnati come FORMAT, come i campi GP e GQ, sono stati aggiunti come campi INFO alle risorse VariantCall.
  • Il campo FORMAT GT non è stato aggiunto come campo INFO. Il valore è stato convertito nel campo genotype.

La visualizzazione dello schema in BigQuery mostra i seguenti campi fissi:

Nome campo Tipo Modalità Descrizione
reference_name STRING NULLABLE Nome di riferimento.
start_position INTEGER NULLABLE Posizione iniziale (in base 0). Corrisponde alla prima base della stringa di basi di riferimento.
end_position INTEGER NULLABLE Posizione finale (in base 0). Corrisponde alla prima base dopo l'ultima base nell'allele di riferimento.
reference_bases STRING NULLABLE Basi di riferimento.
alternate_bases RECORD REPEATED Un record per ogni base alternativa (se presente). Vedi Ulteriori informazioni sui record alternate_bases.
alternate_bases.alt STRING NULLABLE Base alternativa.
names STRING REPEATED Nomi delle varianti (ad esempio, Ref confezione ID).
qualità delle chiamate affidabile FLOAT NULLABLE Punteggio di qualità in scala Phred (-10log10 prob(chiamata errata)). Valori più alti implicano una qualità migliore.
filtra STRING REPEATED Elenco di eventuali filtri non riusciti o "PASS" che indica che la variante ha superato tutti i filtri.
chiamare RECORD REPEATED Un record per ogni chiamata.

La visualizzazione dello schema mostra i seguenti campi di variabili (i campi INFO):

Nome campo Tipo Modalità Descrizione
call.name STRING NULLABLE Nome della chiamata.
call.genotype INTEGER REPEATED Genotipo della chiamata. "-1" è utilizzato nei casi in cui il genotipo non viene chiamato.
call.phaseset STRING NULLABLE Set di fasi della chiamata (se presente). "*" viene utilizzato nei casi in cui il genotipo è in fasi ma non è stata specificata alcuna fase ("PS" in FORMAT).

Informazioni aggiuntive sul record alternate_bases

Il record alternate_bases contiene qualsiasi campo INFO con Number=A. Il record semplifica l'esecuzione delle query eliminando la necessità di mappare ogni campo con il record alternativo corrispondente.

Per utilizzare la versione precedente dello schema BigQuery, in cui i campi Number=A sono indipendenti da basi alternative, completa questi passaggi:

  1. Esegui lo strumento di trasformazione delle varianti e passa il flag --split_alternate_allele_info_fields.
  2. Imposta il valore del flag --split_alternate_allele_info_fields su False.

Suddividi automaticamente i record

Nei seguenti casi, lo strumento di trasformazione delle varianti suddivide automaticamente un record in più righe in cui ogni riga è inferiore a 100 MB:

  • Un record contiene un numero elevato di chiamate.
  • Un numero elevato di chiamate genera una riga BigQuery di dimensioni superiori a 100 MB.

La suddivisione automatica dei record è necessaria a causa del limite di BigQuery di 100 MB per riga.

Valori null

Se un campo ripetuto in virgola mobile o intero contiene un valore null, lo strumento di trasformazione delle varianti non può creare lo schema di BigQuery. BigQuery non consente valori nulli nei campi ripetuti. L'intero record può essere nullo, ma i valori all'interno del record non devono essere null.

Ad esempio:

  1. Supponiamo che il campo INFO di un file VCF abbia i valori 1,.,2. Lo strumento di trasformazione delle varianti non può caricare 1,null,2 in BigQuery.
  2. È necessario utilizzare una sostituzione numerica per il valore null. Per impostazione predefinita, il valore sostitutivo è -2^31 o -2147483648.

Per impostare un valore numerico personalizzato, trasmetti il flag --null_numeric_value_replacement con un valore quando esegui lo strumento di trasformazione delle varianti.

In alternativa, puoi convertire i valori nulli in una stringa e utilizzare . come valore. In questo caso, l'intestazione deve essere specificata come String.