Esporta i dati in Bigtable (ETL inverso)
Questo documento descrive come configurare l'ETL inverso (RETL) da
BigQuery a Bigtable. È possibile farlo utilizzando l'istruzione EXPORT
DATA
per
esportare dati da una tabella BigQuery a un
Tabella Bigtable.
Puoi utilizzare un flusso di lavoro RETL in Bigtable di combinare le capacità di analisi di BigQuery La bassa latenza e la velocità effettiva elevata di Bigtable. Questo flusso di lavoro consente offri i dati agli utenti delle applicazioni senza esaurire le quote e i limiti in BigQuery.
Caratteristiche delle tabelle Bigtable
Le tabelle Bigtable sono diverse dalle tabelle BigQuery in diversi modi:
- Sia le tabelle Bigtable che quelle BigQuery sono costituite da righe, ma una riga Bigtable è composta da una chiave di riga e da famiglie di colonne con un numero arbitrario di colonne appartenenti alla stessa famiglia di colonne.
- Le famiglie di colonne per una determinata tabella vengono create al momento della creazione della tabella, ma possono in un secondo momento. Quando viene creata una famiglia di colonne, non è necessario specificare le colonne che appartengono a questa famiglia.
- Le colonne Bigtable non devono essere definite in anticipo e possono Essere utilizzato per archiviare i dati nel nome (noto anche come qualificatore) entro i limiti delle dimensioni dei dati all'interno delle tabelle.
- Le colonne Bigtable possono avere qualsiasi valore binario entro i limiti di dimensione dei dati all'interno delle tabelle.
- Le colonne Bigtable hanno sempre una dimensione temporale (nota anche come versione). È possibile archiviare un numero qualsiasi di valori in qualsiasi riga per la stessa colonna purché il timestamp non sia identico.
- Un timestamp Bigtable viene misurato in microsecondi dal momento Tempo di Unix: per Ad esempio, 0 rappresenta 1970-01-01T00:00:00 UTC. I timestamp devono essere un numero non negativo di microsecondi con granularità in millisecondi (sono accettati solo i multipli di 1000 us). Il valore predefinito Il timestamp di Bigtable è 0.
- I dati in Bigtable vengono letti per chiave di riga, più chiavi di riga, intervallo di chiavi di riga o tramite un filtro. Almeno una chiave di riga o un intervallo di chiavi di riga è obbligatorio in tutti i tipi di richieste di lettura, ad eccezione di una scansione completa della tabella.
Per informazioni su come preparare i risultati di BigQuery per l'esportazione in Bigtable, consulta Preparare i risultati delle query per l'esportazione.
Prima di iniziare
Devi creare un'istanza istanza Bigtable e un'istanza Tabella Bigtable per ricevere i dati esportati.
Concedi ruoli IAM (Identity and Access Management) che offrono agli utenti autorizzazioni necessarie per eseguire ogni attività in questo documento.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per esportare i dati di BigQuery in Bigtable, chiedi all'amministratore di concederti i seguenti ruoli IAM nel tuo progetto:
-
Esporta i dati da una tabella BigQuery:
Visualizzatore dati BigQuery (
roles/bigquery.dataViewer
) -
Esegui un job di esportazione:
Utente BigQuery (
roles/bigquery.user
) -
Scrivi dati in una tabella Bigtable:
Utente Bigtable (
roles/bigtable.user
)
Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite la ruoli o altri ruoli predefiniti ruoli.
Limitazioni
- La codifica è limitata solo a
BINARY
eTEXT
. - Il profilo dell'app Bigtable di destinazione. deve essere configurato con il routing a cluster singolo e un livello di priorità delle richieste basso.
- Il profilo dell'app Bigtable deve essere configurato per instradare i dati a un cluster Bigtable co-allocato con il set di dati BigQuery. Per ulteriori informazioni, consulta le considerazioni sulla località.
- Le esportazioni in Bigtable sono supportate solo per le versioni BigQuery Enterprise o Enterprise Plus. La versione BigQuery Standard e il computing on demand non sono supportati.
Considerazioni sulla località
- Se il set di dati BigQuery si trova in una località multiregionale,
Profilo app Bigtable
deve essere configurato per instradare i dati a un cluster Bigtable all'interno di quella località multiregionale.
Ad esempio, se il set di dati BigQuery si trova nell'area multiregionale
US
, il cluster Bigtable può essere localizzato nelus-west1
(Oregon), che si trova all'interno degli Stati Uniti. - Se il set di dati BigQuery si trova in una singola regione, il profilo dell'app Bigtable
deve essere configurato per instradare i dati a un cluster Bigtable
la stessa regione. Ad esempio, se il tuo set di dati BigQuery si trova nel campo
asia-northeast1
(Tokyo), anche il cluster Bigtable deve trovarsi Regioneasia-northeast1
(Tokyo).
Per ulteriori informazioni, vedi Posizioni Bigtable.
Tipi BigQuery supportati
I seguenti tipi di dati sono supportati quando vengono scritti in Bigtable:
Tipo BigQuery | Valore Bigtable scritto |
---|---|
BYTES |
Esportato così com'è. |
STRING |
Convertito in BYTES . |
INTEGER |
Se il criterio bigtable_options.column_families.encoding è impostato su
BINARY , il valore viene scritto in un formato big-endian da 8 byte
(byte più significativi
). Se bigtable_options.column_families.encoding è impostato su TEXT , il valore viene scritto come stringa leggibile che rappresenta un numero. |
FLOAT |
Scrive il valore nel formato di output IEEE 754 a 8 byte. |
BOOLEAN |
Se bigtable_options.column_families.encoding è impostato su BINARY , il valore viene scritto come valore a 1 byte (false = 0x00 o true = 0x01). Se bigtable_options.column_families.encoding è impostato su TEXT , il valore viene scritto come testo ("true" o "false" ). |
JSON |
Una colonna esportata di tipo
JSON viene interpretata come un gruppo di colonne appartenenti a una famiglia di colonne Bigtable specifica. I membri dell'oggetto JSON vengono interpretati come colonne e i loro valori devono essere scritti in Bigtable. Il nome della colonna da scrivere può essere modificato utilizzando la configurazione bigtable_options . Ad esempio:
JSON '{"FIELD1": "VALUE1", "FIELD2": "VALUE2"}' as MY_COLUMN_FAMILY Dove i valori VALUE1 e VALUE2 vengono scritti in Bigtable come colonne FIELD1 e FIELD2 nella famiglia di colonne MY_COLUMN_FAMILY.
|
STRUCT |
Una colonna esportata di tipo
STRUCT viene interpretata come un gruppo di colonne appartenenti a una specifica famiglia di colonne Bigtable. I membri dello struct vengono interpretati come colonne e i loro valori vengono scritti in Bigtable. Il nome della colonna da scrivere può essere modificato utilizzando la configurazione bigtable_options . Ad esempio:
STRUCT<FIELD1 STRING, FIELD2 INTEGER> as MY_COLUMN_FAMILY Dove i valori FIELD1 e FIELD2 vengono scritti in Bigtable come colonne FIELD1 e FIELD2 nella famiglia di colonne MY_COLUMN_FAMILY.
|
Questi tipi di dati supportati sono simili alla lettura da tabelle Bigtable esterne per BigQuery.
NULL
valori in Bigtable
I valori NULL
in Bigtable hanno i seguenti vincoli:
Bigtable non ha un analogo per i valori
NULL
. L'esportazione di un valoreNULL
per una determinata famiglia di colonne e colonna in Bigtable elimina i valori attuali da una riga di Bigtable.Se un valore Bigtable con una determinata chiave di riga, famiglia di colonne, qualificatore di colonna e timestamp non esiste prima dell'esportazione, i valori
NULL
esportati non hanno alcun effetto sulla riga Bigtable.Quando esporti un valore
NULL
di tipoSTRUCT
oJSON
, tutti i valori della colonna che appartengono alla famiglia di colonne corrispondente della riga interessata vengono eliminate. Devi trasmettere il valoreNULL
al tipoSTRUCT
oJSON
in modo che l'SQL per associarvi un tipo corretto. La seguente query elimina tutti i dati dalla famiglia di colonnecolumn_family1
con un insieme di chiavi riga specificate:EXPORT DATA OPTIONS (...) AS SELECT rowkey, CAST(NULL as STRUCT<INT64>) AS column_family1 FROM T
Le righe con chiavi di riga
NULL
vengono ignorate durante l'esportazione. Il numero di righe saltate viene restituito nelle statistiche di esportazione all'autore della chiamata.
Configurare le esportazioni con bigtable_options
Puoi utilizzare la configurazione bigtable_options
durante un'esportazione per colmare le differenze tra i modelli di archiviazione di BigQuery e Bigtable. La configurazione è espressa sotto forma di stringa JSON, come mostrato nell'esempio seguente:
EXPORT DATA OPTIONS( uri="https://bigtable.googleapis.com/projects/PROJECT_ID
/instances/INSTANCE_ID
/appProfiles/APP_PROFILE_ID
/tables/TABLE
", bigtable_options = """{ "columnFamilies": [{ "familyId": "COLUMN_FAMILY_NAME
", "encoding": "ENCODING_VALUE
", "columns": [ { "qualifierString": "BIGTABLE_COLUMN_QUALIFIER
", ["qualifierEncoded": "BASE_64_ENCODED_VALUE
",] "fieldName": "BIGQUERY_RESULT_FIELD_NAME
" } ] }] }""" )
La seguente tabella descrive i possibili campi utilizzati in un bigtable_options
configurazione:
Nome campo | Descrizione |
---|---|
columnFamilies |
Un array di descrittori della famiglia di colonne. |
columnFamilies.familyId |
Identificatore della famiglia di colonne Bigtable. |
columnFamilies.encoding |
Il valore può essere impostato su BINARY o TEXT . Per informazioni su come vengono codificati i tipi, consulta Tipi BigQuery supportati. |
columnFamilies.columns |
Un array di mappature delle colonne Bigtable. |
columnFamilies.columns.qualifierString |
(Facoltativo) Un qualificatore di colonna Bigtable. Specifica questo valore se il qualificatore della colonna non contiene codici non UTF-8. I campi qualifierString e qualifierEncoding si escludono a vicenda. Se non vengono specificati né qualifierString né qualifierEncoded , viene utilizzato fieldName come qualificatore di colonna. |
columnFamilies.columns.qualifierEncoded |
(Facoltativo) Qualificatore della colonna con codifica Base64. Simile a qualifierString nel caso in cui il qualificatore di colonna deve avere codici non UTF-8. |
columnFamilies.columns.fieldName |
Obbligatorio: nome del campo del set di risultati BigQuery. Può essere una stringa vuota in alcuni casi. Per un esempio di come viene utilizzato un valore fieldName vuoto con campi di tipo semplice, consulta Preparare i risultati della query per l'esportazione. |
Prepara i risultati della query per l'esportazione
Per esportare i risultati delle query in Bigtable, questi devono soddisfare i i seguenti requisiti:
- Il set di risultati deve contenere una colonna
rowkey
di tipoSTRING
oBYTES
. - Le chiavi di riga, i qualificatori di colonna, i valori e i timestamp non devono superare i limiti di dimensione dei dati all'interno delle tabelle di Bigtable.
- Nel set di risultati deve essere presente almeno una colonna diversa da
rowkey
. - Ogni colonna del set di risultati deve essere di uno dei tipi di BigQuery supportati. Eventuali tipi di colonne non supportati devono essere convertiti in uno dei tipi supportati prima dell'esportazione in Bigtable.
Bigtable non richiede che i qualificatori di colonna siano nomi di colonne BigQuery validi e supporta l'utilizzo di qualsiasi byte. Per informazioni sull'override dei descrittori di colonna di destinazione per un'esportazione, vedi Configurare le esportazioni con bigtable_options
.
Se utilizzi i valori esportati con le API Bigtable, ad esempio ReadModifyWriteRow
, tutti i valori numerici devono utilizzare la codifica binaria corretta.
Per impostazione predefinita, colonne di risultati autonome di tipo diverso da STRUCT
o
JSON
sono interpretati come valori per le famiglie di colonne di destinazione
uguale al nome della colonna dei risultati e qualificatore di colonna uguale a una stringa vuota.
Per dimostrare come vengono scritti questi tipi di dati, considera il seguente esempio SQL:
dove column
e column2
sono colonne di risultati autonome:
SELECT
x as column1, y as column2
FROM table
In questa query di esempio, SELECT x as column1
scrive valori in Bigtable
nella famiglia di colonne column1
e nel qualificatore di colonna ''
(stringa vuota) quando
gestisce tipi diversi da JSON
o STRUCT
.
Puoi modificare il modo in cui questi tipi vengono scritti in un'esportazione utilizzando
Configurazione di bigtable_options
,
nell'esempio seguente:
EXPORT DATA OPTIONS ( … bigtable_options="""{ "columnFamilies" : [ { "familyId": "ordered_at", "columns": [ {"qualifierString": "order_time", "fieldName": ""} ] } ] }""" ) AS SELECT order_id as rowkey, STRUCT(product, amount) AS sales_info, EXTRACT (MILLISECOND FROM order_timestamp AT TIME ZONE "UTC") AS ordered_at FROM T
In questo esempio, la tabella BigQuery T
contiene la proprietà
riga seguente:
order_id |
order_timestamp |
product |
amount |
---|---|---|---|
101 | 2023-03-28T10:40:54Z | Joystick | 2 |
Se utilizzi la configurazione bigtable_options
precedente con la tabella T
, il valore
vengono scritti in Bigtable i seguenti dati:
rowkey |
sales_info (famiglia di colonne) |
ordered_at (famiglia di colonne) |
|||
---|---|---|---|---|---|
101 | prodotto | quantità | order_time | ||
1970-01-01T00:00:00Z | Joystick | 1970-01-01T00:00:00Z | 2 | 1680000054000 |
1680000054000
rappresenta 2023-03-28T10:40:54Z
in millisecondi dall'ora Unix epoch nel fuso orario UTC.
Imposta il timestamp per tutte le celle di una riga utilizzando _CHANGE_TIMESTAMP
Puoi aggiungere una colonna _CHANGE_TIMESTAMP
di tipo TIMESTAMP
al risultato per l'esportazione.
Ogni cella scritta in Bigtable utilizza il valore del timestamp della colonna _CHANGE_TIMESTAMP
della riga del risultato esportata.
Bigtable non supporta i timestamp precedenti all'epoca di Unix
(1970-01-01T00:00:00Z). Se il valore _CHANGE_TIMESTAMP
è NULL
, viene utilizzata la data e l'ora dell'epoca Unix di 0
come valore predefinito del timestamp.
La seguente query scrive le celle per le colonne product
e amount
con il
timestamp specificato nella colonna order_timestamp
della tabella T
.
EXPORT DATA OPTIONS (...) AS SELECT rowkey, STRUCT(product, amount) AS sales_info, order_timestamp as _CHANGE_TIMESTAMP FROM T
Esporta continuamente
Se vuoi elaborare in modo continuativo una query di esportazione, puoi configurarla come una query continua.
Esportare più risultati con lo stesso valore rowkey
Quando esporti un risultato contenente più righe con lo stesso valore rowkey
,
i valori scritti in Bigtable finiscono nella stessa
riga di Bigtable.
Puoi utilizzare questo metodo per generare più versioni dei valori delle colonne nella stessa riga. In questo esempio, la tabella orders
in BigQuery contiene
i seguenti dati:
id |
customer |
order_timestamp |
amount_spent |
---|---|---|---|
100 | Bruno | 2023-01-01T10:10:54Z | 10,99 |
101 | Alice | 02-01-2023T12:10:50Z | 102,7 |
102 | Bruno | 2023-01-04T15:17:01Z | 11,1 |
L'utente esegue quindi il seguente statement EXPORT DATA
:
EXPORT DATA OPTIONS (
uri="https://bigtable.googleapis.com/projects/PROJECT-ID/instances/INSTANCE-ID/appProfiles/APP_PROFILE_ID
/tables/TABLE",
format="CLOUD_BIGTABLE"
) AS
SELECT customer as rowkey, STRUCT(amount_spent) as orders_column_family, order_timestamp as _CHANGE_TIMESTAMP
FROM orders
L'utilizzo di questa istruzione con la tabella BigQuery orders
determina la scrittura dei seguenti dati in Bigtable:
orders_column_family | ||
---|---|---|
Chiave di riga | amount_spent | |
Alice | 02-01-2023T12:10:50Z | 102,7 |
Bruno | 2023-01-01T10:10:54Z | 10,99 |
2023-01-04T15:17:01Z | 11,1 |
L'esportazione in Bigtable unisce nuovi valori nella tabella anziché sostituire intere righe. Se i valori sono già presenti in Bigtable per una chiave di riga, i nuovi valori possono parzialmente o completamente eseguire l'override dei valori precedenti a seconda della famiglia di colonne, dei nomi delle colonne e i timestamp delle celle che vengono scritte.
Esporta più colonne come valori del buffer di protocollo (Protobuf)
I buffer di protocollo forniscono un meccanismo flessibile ed efficiente per la serializzazione dei dati strutturati. L'esportazione come Protobuf può essere utile se si considera la modalità di gestione dei diversi tipi tra BigQuery e Bigtable. Puoi utilizzare le funzioni predefinite dall'utente (UDF) di BigQuery per esportare i dati come valori binari Protobuf in Bigtable. Per ulteriori informazioni, vedi Esportare i dati come colonne Protobuf.
Ottimizzazione dell'esportazione
Puoi modificare la velocità effettiva di esportazione dei record da BigQuery Bigtable modificando il numero di nodi Cluster di destinazione Bigtable. La velocità effettiva (righe scritte al secondo) aumenta in modo lineare con il numero di nodi nel cluster di destinazione. Ad esempio, se raddoppi il numero di nodi nel cluster di destinazione, il throughput dell'esportazione raddoppierà approssimativamente.
Prezzi
Quando esporti i dati in una query standard, la fatturazione avviene in base ai prezzi dell'estrazione dei dati.
Quando esporti i dati in una query continua, la fatturazione avviene in base ai prezzi di calcolo della capacità di BigQuery.
Per eseguire query continue, è necessario avere un
prenotazione che utilizza
Versione Enterprise o Enterprise Plus,
e un'assegnazione di prenotazione
che utilizza il tipo di job CONTINUOUS
.
Dopo l'esportazione dei dati, ti vengono addebitati i costi per l'archiviazione dei dati in Bigtable. Per ulteriori informazioni, consulta la sezione Prezzi di Bigtable.