Caricamenti dell'API
La funzionalità di caricamento di contenuti multimediali consente all'API BigQuery di archiviare i dati nel cloud e renderli disponibili al server. I tipi di dati che potresti voler caricare includono foto, video, file PDF, file ZIP o qualsiasi altro tipo di dati.
Opzioni di caricamento
L'API BigQuery ti consente di caricare determinati tipi di dati binari o multimediali. Le caratteristiche specifiche dei dati che puoi caricare sono specificate nella pagina di riferimento per qualsiasi metodo che supporta il caricamento di contenuti multimediali:
- Dimensioni massime del file di caricamento: la quantità massima di dati che puoi archiviare con questo metodo.
- Tipi MIME multimediali accettati: i tipi di dati binari che puoi archiviare utilizzando questo metodo.
Puoi effettuare richieste di caricamento in uno dei seguenti modi. Specifica il metodo che utilizzi con il parametro di richiesta uploadType
.
- Caricamento di più parti:
uploadType=multipart
. Per il trasferimento rapido di file e metadati di piccole dimensioni; trasferisce il file insieme ai metadati che lo descrivono, il tutto in una singola richiesta. - Caricamento ripristinabile:
uploadType=resumable
. Per un trasferimento affidabile, particolarmente importante con file di grandi dimensioni. Con questo metodo utilizzi una richiesta di avvio della sessione che, facoltativamente, può includere metadati. Questa è una buona strategia da utilizzare per la maggior parte delle applicazioni, poiché funziona anche per file di dimensioni ridotte al costo di un'ulteriore richiesta HTTP per caricamento.
Quando carichi contenuti multimediali, utilizzi un URI speciale. Infatti, i metodi che supportano i caricamenti di contenuti multimediali hanno due endpoint URI:
L'URI /upload per i contenuti multimediali. Il formato dell'endpoint di caricamento è URI della risorsa standard con un prefisso "/upload". Utilizza questo URI quando trasferire i dati multimediali stessi.
Esempio:
POST /upload/bigquery/v2/projects/projectId/jobs
L'URI della risorsa standard per i metadati. Se la risorsa contiene campi di dati, questi campi vengono utilizzati per archiviare i metadati che descrivono . Puoi utilizzare questo URI durante la creazione o l'aggiornamento dei valori dei metadati.
Esempio:
POST /bigquery/v2/projects/projectId/jobs
Caricamento di più parti
Se hai metadati che vuoi inviare insieme ai dati da caricare, puoi effettuare una singola richiesta multipart/related
. Questa è una buona scelta se le dimensioni dei dati che stai inviando sono sufficientemente limitate da essere caricati di nuovo nella loro interezza in caso di interruzione della connessione.
Per utilizzare il caricamento di più parti, effettua una richiesta POST
all'URI /upload del metodo e aggiungi il parametro di query
uploadType=multipart
, ad esempio:
POST https://www.googleapis.com/upload/bigquery/v2/projects/projectId/jobs?uploadType=multipart
Le intestazioni HTTP di primo livello da utilizzare quando si effettua una richiesta di caricamento multiparte includono:
Content-Type
. Impostalo su multipart/related e includi la stringa di confine che utilizzi per identificare le parti della richiesta.Content-Length
. Impostato sul numero totale di byte nel corpo della richiesta. La parte multimediale della richiesta deve essere inferiore alle dimensioni massime del file specificate per questo metodo.
Il corpo della richiesta è formattato come tipo di contenuti multipart/related
[RFC2387] e contiene esattamente due parti. Le parti sono identificate da una stringa di confine, e la stringa limite finale è seguita da due trattini.
Ogni parte della richiesta con più parti richiede un'intestazione Content-Type
aggiuntiva:
- Parte dei metadati: deve essere la prima e
Content-Type
deve corrispondere a uno dei formati dei metadati accettati. - Parte multimediale: deve essere la seconda e
Content-Type
deve corrispondere a uno dei tipi MIME multimediali accettati dal metodo.
Consulta la documentazione di riferimento dell'API per l'elenco dei tipi MIME dei contenuti multimediali accettati e dei limiti di dimensioni per i file caricati per ciascun metodo.
Nota : per creare o aggiornare la parte dei metadati.
Solo, senza caricare i dati associati, invia semplicemente una richiesta POST
o PUT
all'endpoint della risorsa standard:
https://www.googleapis.com/bigquery/v2/projects/projectId/jobs
Esempio: caricamento di più parti
L'esempio seguente mostra una richiesta di caricamento suddiviso per l'API BigQuery.
POST /upload/bigquery/v2/projects/projectId/jobs?uploadType=multipart HTTP/1.1 Host: www.googleapis.com Authorization: Bearer your_auth_token Content-Type: multipart/related; boundary=foo_bar_baz Content-Length: number_of_bytes_in_entire_request_body --foo_bar_baz Content-Type: application/json; charset=UTF-8 { "configuration": { "load": { "sourceFormat": "NEWLINE_DELIMITED_JSON", "schema": { "fields": [ {"name": "f1", "type": "STRING"}, {"name": "f2", "type": "INTEGER"} ] }, "destinationTable": { "projectId": "projectId", "datasetId": "datasetId", "tableId": "tableId" } } } } --foo_bar_baz Content-Type: */* CSV, JSON, AVRO, PARQUET, or ORC data --foo_bar_baz--
Se la richiesta ha esito positivo, il server restituisce il codice di stato HTTP 200 OK
insieme a tutti i metadati:
HTTP/1.1 200 Content-Type: application/json { "configuration": { "load": { "sourceFormat": "NEWLINE_DELIMITED_JSON", "schema": { "fields": [ {"name": "f1", "type": "STRING"}, {"name": "f2", "type": "INTEGER"} ] }, "destinationTable": { "projectId": "projectId", "datasetId": "datasetId", "tableId": "tableId" } } } }
Caricamento ripristinabile
Per caricare i file di dati in modo più affidabile, puoi utilizzare il protocollo di caricamento ripristinabile. Questo protocollo ti consente di riprendere un'operazione di caricamento dopo che un errore di comunicazione ha interrotto il flusso di dati. È particolarmente utile se devi trasferire file di grandi dimensioni e la probabilità che si verifichino interruzioni di rete o altri errori di trasmissione è elevata, ad esempio durante il caricamento da un'app client mobile. Inoltre, consente di ridurre l'utilizzo della larghezza di banda in caso di errori di rete, in quanto non è necessario riavviare il caricamento di file di grandi dimensioni dall'inizio.
I passaggi per utilizzare il caricamento ricoinducibile includono:
- Avvia una sessione riassumibile. Effettua una richiesta iniziale all'URI di caricamento che include gli eventuali metadati.
- Salva l'URI della sessione riassumibile. Salva l'URI della sessione restituito nella risposta della richiesta iniziale; lo utilizzerai per le richieste rimanenti in questa sessione.
- Carica il file. Invia il file multimediale all'URI della sessione riavviabile.
Inoltre, le app che utilizzano il caricamento ripristinabile devono avere un codice per riprendere un caricamento interrotto. Se un caricamento viene interrotto, verifica la quantità di dati ricevuti, quindi riprendi il caricamento a partire da quel momento.
Nota: un URI di caricamento scade dopo una settimana.
Passaggio 1: avvia una sessione riassumibile
Per avviare un caricamento riavviabile, invia una richiesta POST
all'URI /upload del metodo e aggiungi il parametro di query
uploadType=resumable
, ad esempio:
POST https://www.googleapis.com/upload/bigquery/v2/projects/projectId/jobs?uploadType=resumable
Per questa richiesta iniziale, il corpo è vuoto o contiene solo i metadati. Trasferirai i contenuti effettivi del file che vuoi caricare nelle richieste successive.
Utilizza le seguenti intestazioni HTTP con la richiesta iniziale:X-Upload-Content-Type
. Imposta il tipo MIME multimediale dei dati di caricamento da trasferire nelle richieste successive.X-Upload-Content-Length
. Imposta il numero di byte dei dati di caricamento da trasferire nelle richieste successive. Se la lunghezza non è nota al momento della richiesta, puoi omettere questa intestazione.- Se fornisci metadati:
Content-Type
. Impostato in base al tipo di dati dei metadati. Content-Length
. Imposta il numero di byte specificati nel corpo di questa richiesta iniziale. Non è necessario se utilizzi la codifica di trasferimento a blocchi.
Consulta la documentazione di riferimento dell'API per consultare l'elenco dei tipi MIME multimediali accettati e i limiti di dimensioni per i file caricati relativi a ciascun metodo.
Esempio: richiesta di avvio sessione ripristinabile
L'esempio seguente mostra come avviare una sessione riassumibile per l'API BigQuery.
POST /upload/bigquery/v2/projects/projectId/jobs?uploadType=resumable HTTP/1.1 Host: www.googleapis.com Authorization: Bearer your_auth_token Content-Length: 38 Content-Type: application/json; charset=UTF-8 X-Upload-Content-Type: */* X-Upload-Content-Length: 2000000 { "configuration": { "load": { "sourceFormat": "NEWLINE_DELIMITED_JSON", "schema": { "fields": [ {"name": "f1", "type": "STRING"}, {"name": "f2", "type": "INTEGER"} ] }, "destinationTable": { "projectId": "projectId", "datasetId": "datasetId", "tableId": "tableId" } } } }
Nota: per una richiesta di aggiornamento iniziale riassumibile senza metadati, lascia vuoto il corpo della richiesta e imposta l'intestazione Content-Length
su 0
.
La sezione successiva descrive come gestire la risposta.
Passaggio 2: salva l'URI della sessione riassumibile
Se la richiesta di avvio della sessione ha esito positivo, il server API risponde con un codice di stato HTTP 200 OK
. Inoltre, fornisce un'intestazione Location
che specifica l'URI della sessione ripristinabile. L'intestazione Location
, mostrata nell'esempio seguente, include una parte del parametro di query upload_id
che fornisce l'ID di caricamento univoco da utilizzare per questa sessione.
Esempio: risposta di avvio della sessione ripristinabile
Ecco la risposta alla richiesta del passaggio 1:
HTTP/1.1 200 OK Location: https://www.googleapis.com/upload/bigquery/v2/projects/projectId/jobs?uploadType=resumable&upload_id=xa298sd_sdlkj2 Content-Length: 0
Il valore dell'intestazione Location
, come mostrato nell'esempio di risposta riportato sopra, è l'URI di sessione che utilizzerai come endpoint HTTP per eseguire il caricamento effettivo del file o per eseguire query sullo stato del caricamento.
Copia e salva l'URI della sessione per poterlo utilizzare per le richieste successive.
Passaggio 3: carica il file
Per caricare il file, invia una richiesta PUT
all'URI di caricamento ottenuto nel passaggio precedente. Il formato della richiesta di caricamento è:
PUT session_uri
Le intestazioni HTTP da utilizzare per effettuare le richieste di caricamento dei file riavviabili includono Content-Length
. Imposta questo elemento sul numero di byte che carichi in questa richiesta, che in genere corrisponde alle dimensioni del file di caricamento.
Esempio: richiesta di caricamento file ripristinabile
Ecco una richiesta riassumibile per caricare l'intero file CSV, JSON, AVRO, PARQUET o ORC di 2.000.000 di byte per l'esempio corrente.
PUT https://www.googleapis.com/upload/bigquery/v2/projects/projectId/jobs?uploadType=resumable&upload_id=xa298sd_sdlkj2 HTTP/1.1 Content-Length: 2000000 Content-Type: */* bytes 0-1999999
Se la richiesta ha esito positivo, il server risponde con un HTTP 201 Created
e con tutti i metadati associati alla risorsa. Se la richiesta iniziale della sessione riassumibile fosse stata PUT
per aggiornare una risorsa esistente, la risposta di successo sarebbe 200 OK
, insieme a eventuali metadati associati a questa risorsa.
Se la richiesta di caricamento viene interrotta o se ricevi un codice HTTP 503 Service Unavailable
o un altro codice 5xx
dal server, segui la procedura descritta in Riprendere un caricamento interrotto.
Caricamento del file in blocchi
Con i caricamenti ripristinabili, puoi suddividere un file in blocchi e inviare una serie di richieste per caricare ogni blocco in sequenza. Questo non è l'approccio preferito, poiché le richieste aggiuntive comportano costi in termini di prestazioni e in genere non sono necessarie. Tuttavia, potresti dover utilizzare il chunking per ridurre la quantità di dati trasferiti in una singola richiesta. Questo è utile quando esiste un limite di tempo fisso per le singole richieste, come nel caso di determinate classi di richieste di Google App Engine. Inoltre, ti consente di eseguire operazioni come fornire indicazioni sull'avanzamento del caricamento per i browser precedenti che non supportano l'avanzamento del caricamento per impostazione predefinita.
Riprendere un caricamento interrotto
Se una richiesta di caricamento viene terminata prima di ricevere una risposta o se ricevi una risposta HTTP 503 Service Unavailable
dal server, devi riprendere il caricamento interrotto. Per farlo:
- Stato della richiesta. Esegui una query sullo stato attuale del caricamento inviando una richiesta
PUT
vuota all'URI del caricamento. Per questa richiesta, le intestazioni HTTP devono includere un'intestazioneContent-Range
che indica che la posizione corrente nel file è sconosciuta. Ad esempio, impostaContent-Range
su*/2000000
se la lunghezza totale del file è 2.000.000. Se non conosci la dimensione originale del file, impostaContent-Range
su*/*
.Nota: puoi richiedere lo stato tra un chunk e l'altro, non solo se il caricamento viene interrotto. Questa opzione è utile, ad esempio, se vuoi mostrare le indicazioni di avanzamento del caricamento per i browser precedenti.
- Ottieni il numero di byte caricati. Elabora la risposta della query sullo stato. Il server utilizza l'intestazione
Range
nella risposta per specificare i byte che ha ricevuto fino a quel momento. Ad esempio, un'intestazioneRange
di0-299999
indica che sono stati ricevuti i primi 300.000 byte del file. - Carica i dati rimanenti. Infine, ora che sai dove riprendere la richiesta, invia i dati rimanenti o il blocco attuale. Tieni presente che in entrambi i casi devi trattare i dati rimanenti come un blocco separato, quindi devi inviare l'intestazione
Content-Range
quando riprendi il caricamento.
Esempio: riprendere un caricamento interrotto
1) Richiedi lo stato del caricamento.
La seguente richiesta utilizza l'intestazione Content-Range
per indicare che la posizione corrente nel file di 2.000.000 byte è sconosciuta.
PUT {session_uri} HTTP/1.1 Content-Length: 0 Content-Range: bytes */2000000
2) Estrai il numero di byte caricati finora dalla risposta.
La risposta del server utilizza l'intestazione Range
per indicare che ha ricevuto finora i primi 43 byte del file. Utilizza il valore superiore dell'intestazione Range
per determinare da dove iniziare il caricamento ripreso.
HTTP/1.1 308 Resume Incomplete Content-Length: 0 Range: 0-42
Nota: è possibile che la risposta dello stato sia 201 Created
o 200 OK
se il caricamento è completato. Questo può accadere se la connessione si interrompeva dopo aver caricato tutti i byte, ma prima che il client ricevesse una risposta dal server.
3) Riprendi il caricamento dal punto in cui era stato interrotto.
La richiesta seguente riprende il caricamento inviando i byte rimanenti del file, a partire dal byte 43.
PUT {session_uri} HTTP/1.1 Content-Length: 1999957 Content-Range: bytes 43-1999999/2000000 bytes 43-1999999
Best practice
Quando carichi contenuti multimediali, è utile conoscere alcune best practice relative alla gestione degli errori.
- Riprendi o riprova i caricamenti non riusciti a causa di interruzioni della connessione o di eventuali errori di
5xx
, tra cui:500 Internal Server Error
502 Bad Gateway
503 Service Unavailable
504 Gateway Timeout
- Utilizza una strategia di backoff esponenziale se viene restituito un errore del server
5xx
quando riprendi o ritentano le richieste di caricamento. Questi errori possono verificarsi se un server viene sovraccarico. Il backoff esponenziale può contribuire ad alleviare questi tipi di problemi durante periodi di elevato volume di richieste o traffico di rete intenso. - Altri tipi di richieste non devono essere gestiti dal backoff esponenziale, ma puoi comunque provarne diversi. Quando riprovi a queste richieste, limita il numero di nuovi tentativi. Ad esempio, prima di segnalare un errore, il codice potrebbe limitare i tentativi a massimo dieci nuovi tentativi.
- Gestisci gli errori
404 Not Found
e410 Gone
durante i caricamenti riavviabili riavviando l'intero caricamento dall'inizio.
Backoff esponenziale
Il backoff esponenziale è una strategia di gestione degli errori standard per le applicazioni di rete in cui il client ritenta periodicamente una richiesta non riuscita in un intervallo di tempo sempre più lungo. Se un volume elevato di richieste o un traffico di rete intenso causano errori del server, il backoff esponenziale potrebbe essere una buona strategia per gestirli. Al contrario, non è una strategia pertinente per gestire errori non correlati al volume della rete o ai tempi di risposta, come credenziali di autorizzazione non valide o errori relativi a file non trovati.
Se utilizzato correttamente, il backoff esponenziale aumenta l'efficienza dell'utilizzo della larghezza di banda, riduce il numero di richieste necessarie per ottenere una risposta positiva e massimizza il throughput delle richieste in ambienti simultanei.
Il flusso per l'implementazione del backoff esponenziale semplice è il seguente:
- Invia una richiesta all'API.
- Ricevere una risposta
HTTP 503
, che indica che devi riprovare a inviare la richiesta. - Attendi 1 secondo + numero_casuale_di_millisecondi e riprova a inviare la richiesta.
- Ricevere una risposta
HTTP 503
, che indica che devi riprovare a inviare la richiesta. - Attendi 2 secondi + numero_casuale_millisecondi e riprova a eseguire la richiesta.
- Ricevere una risposta
HTTP 503
, che indica che devi riprovare a inviare la richiesta. - Attendi 4 secondi + numero_casuale_millisecondi e riprova a eseguire la richiesta.
- Ricevi una risposta
HTTP 503
, che indica che devi riprovare a eseguire la richiesta. - Attendi 8 secondi + numero_casuale_di_millisecondi e riprova a inviare la richiesta.
- Ricevere una risposta
HTTP 503
, che indica che devi riprovare a inviare la richiesta. - Attendi 16 secondi + numero_casuale_millisecondi e riprova a inviare la richiesta.
- Interrompi. Segnala o registra un errore.
Nel flusso riportato sopra, numero_casuale_millisecondi è un numero casuale di millisecondi inferiore o uguale a 1000. Questo è necessario, poiché l'introduzione di un piccolo ritardo casuale consente di distribuire il carico in modo più uniforme ed evitare la possibilità di un picco di richieste sul server. Il valore di random_number_milliseconds deve essere ridefinito dopo ogni attesa.
Nota : l'attesa è sempre (2 ^ n) + numero_casuale_millisecondi, dove n è un numero intero monotonicamente crescente inizialmente definito come 0. Il numero intero n viene incrementato di 1 per ogni iterazione (ogni richiesta).
L'algoritmo è impostato per terminare quando n è 5. Questo limite impedisce ai client di riprovare all'infinito e comporta un ritardo totale di circa 32 secondi prima che una richiesta venga considerata "un errore non recuperabile". È consentito un numero massimo maggiore di nuovi tentativi, soprattutto se è in corso un caricamento di lunga durata. assicurati di limitare il ritardo dei nuovi tentativi a un valore ragionevole, ad esempio inferiore a un minuto.