Questa pagina è stata tradotta dall'API Cloud Translation.

Caricamenti dell'API

La funzionalità di caricamento dei contenuti multimediali consente all'API BigQuery di archiviare i dati nel cloud e renderli disponibili per il server. I tipi di dati che potresti voler caricare includono foto, video, file PDF, file ZIP o qualsiasi altro tipo di dati.

Opzioni di caricamento

L'API BigQuery ti consente di caricare determinati tipi di dati binari o multimediali. Le caratteristiche specifiche dei dati che puoi caricare sono specificate nella pagina di riferimento di qualsiasi metodo che supporta i caricamenti di contenuti multimediali:

Dimensioni massime del file di caricamento: la quantità massima di dati che puoi archiviare con questo metodo.
Tipi MIME multimediali accettati: i tipi di dati binari che puoi archiviare utilizzando questo metodo.

Puoi inviare richieste di caricamento in uno dei seguenti modi. Specifica il metodo che utilizzi con il parametro di richiesta uploadType.

Caricamento suddiviso in più parti: uploadType=multipart. Per il trasferimento rapido di file e metadati di piccole dimensioni; trasferisce il file insieme ai metadati che lo descrivono, il tutto in una singola richiesta.
Caricamento interrompibile: uploadType=resumable. Per un trasferimento affidabile, particolarmente importante con file di grandi dimensioni. Con questo metodo, utilizzi una richiesta di avvio della sessione, che facoltativamente può includere metadati. Questa è una buona strategia da utilizzare per la maggior parte delle applicazioni, poiché funziona anche per file più piccoli al costo di un'ulteriore richiesta HTTP per caricamento.

Quando carichi contenuti multimediali, utilizzi un URI speciale. Infatti, i metodi che supportano i caricamenti di contenuti multimediali hanno due endpoint URI:

L'URI /upload per i contenuti multimediali. Il formato dell'endpoint di caricamento è l'URI della risorsa standard con un prefisso "/upload". Utilizza questo URI quando trasferisci i dati multimediali stessi.
Esempio: POST /upload/bigquery/v2/projects/projectId/jobs
L'URI della risorsa standard per i metadati. Se la risorsa contiene campi di dati, questi campi vengono utilizzati per memorizzare i metadati che descrivono il file caricato. Puoi utilizzare questo URI quando crei o aggiorni i valori dei metadati.
Esempio: POST /bigquery/v2/projects/projectId/jobs

Caricamento multiparte

Se hai metadati che vuoi inviare insieme ai dati da caricare, puoi effettuare una singola richiesta multipart/related. Questa è una buona scelta se i dati che stai inviando sono abbastanza piccoli da poter essere caricati di nuovo nella loro interezza in caso di errore di connessione.

Per utilizzare il caricamento suddiviso, invia una richiesta POST all'URI /upload del metodo e aggiungi il parametro di query uploadType=multipart, ad esempio:

POST https://www.googleapis.com/upload/bigquery/v2/projects/projectId/jobs?uploadType=multipart

Le intestazioni HTTP di primo livello da utilizzare quando si effettua una richiesta di caricamento suddiviso sono:

Content-Type. Impostalo su multipart/related e includi la stringa di confine che utilizzi per identificare le parti della richiesta.
Content-Length. Impostato sul numero totale di byte nel corpo della richiesta. La parte multimediale della richiesta deve essere inferiore alle dimensioni massime del file specificate per questo metodo.

Il corpo della richiesta è formattato come tipo di contenuti multipart/related [RFC2387] e contiene esattamente due parti. Le parti sono identificate da una stringa di confine, seguita da due trattini.

Ogni parte della richiesta con più parti richiede un'intestazione Content-Type aggiuntiva:

Parte dei metadati: deve essere la prima e Content-Type deve corrispondere a uno dei formati dei metadati accettati.
Parte multimediale: deve essere la seconda e Content-Type deve corrispondere a uno dei tipi MIME multimediali accettati dal metodo.

Consulta la documentazione di riferimento dell'API per l'elenco dei tipi MIME dei contenuti multimediali accettati e dei limiti di dimensioni per i file caricati per ciascun metodo.

Nota: per creare o aggiornare solo la parte dei metadati, senza caricare i dati associati, invia una richiesta POST o PUT all'endpoint della risorsa standard: https://www.googleapis.com/bigquery/v2/projects/projectId/jobs

Esempio: caricamento multiparte

L'esempio seguente mostra una richiesta di caricamento suddiviso per l'API BigQuery.

POST /upload/bigquery/v2/projects/projectId/jobs?uploadType=multipart HTTP/1.1
Host: www.googleapis.com
Authorization: Bearer your_auth_token
Content-Type: multipart/related; boundary=foo_bar_baz
Content-Length: number_of_bytes_in_entire_request_body

--foo_bar_baz
Content-Type: application/json; charset=UTF-8

{
  "configuration": {
    "load": {
      "sourceFormat": "NEWLINE_DELIMITED_JSON",
      "schema": {
        "fields": [
          {"name": "f1", "type": "STRING"},
          {"name": "f2", "type": "INTEGER"}
        ]
      },
      "destinationTable": {
        "projectId": "projectId",
        "datasetId": "datasetId",
        "tableId": "tableId"
      }
    }
  }
}


--foo_bar_baz
Content-Type: */*

CSV, JSON, AVRO, PARQUET, or ORC data
--foo_bar_baz--

Se la richiesta riesce, il server restituisce il codice di stato HTTP 200 OK insieme a eventuali metadati:

HTTP/1.1 200
Content-Type: application/json

{
  "configuration": {
    "load": {
      "sourceFormat": "NEWLINE_DELIMITED_JSON",
      "schema": {
        "fields": [
          {"name": "f1", "type": "STRING"},
          {"name": "f2", "type": "INTEGER"}
        ]
      },
      "destinationTable": {
        "projectId": "projectId",
        "datasetId": "datasetId",
        "tableId": "tableId"
      }
    }
  }
}

Caricamento ripristinabile

Per caricare i file di dati in modo più affidabile, puoi utilizzare il protocollo di caricamento ripristinabile. Questo protocollo ti consente di riprendere un'operazione di caricamento dopo che un errore di comunicazione ha interrotto il flusso di dati. È particolarmente utile se trasferisci file di grandi dimensioni e la probabilità di un'interruzione della rete o di un altro errore di trasmissione è elevata, ad esempio quando carichi file da un'app client mobile. Può anche ridurre l'utilizzo della larghezza di banda in caso di guasti della rete perché non devi riavviare i caricamenti di file di grandi dimensioni dall'inizio.

I passaggi per utilizzare il caricamento ricoinducibile includono:

Avvia una sessione riassumibile. Effettua una richiesta iniziale all'URI di caricamento che include gli eventuali metadati.
Salva l'URI della sessione riassumibile. Salva l'URI della sessione restituito nella risposta della richiesta iniziale; lo utilizzerai per le richieste rimanenti in questa sessione.
Carica il file. Invia il file multimediale all'URI della sessione riavviabile.

Inoltre, le app che utilizzano il caricamento ripristinabile devono avere un codice per riprendere un caricamento interrotto. Se un caricamento viene interrotto, scopri quanti dati sono stati ricevuti correttamente e poi riprendi il caricamento da quel punto.

Nota : un URI di caricamento scade dopo una settimana.

Passaggio 1: avvia una sessione riassumibile

Per avviare un caricamento riavviabile, invia una richiesta POST all'URI /upload del metodo e aggiungi il parametro di query uploadType=resumable, ad esempio:

POST https://www.googleapis.com/upload/bigquery/v2/projects/projectId/jobs?uploadType=resumable

Per questa richiesta iniziale, il corpo è vuoto o contiene solo i metadati. Trasferirai i contenuti effettivi del file che vuoi caricare nelle richieste successive.

Utilizza le seguenti intestazioni HTTP con la richiesta iniziale:

X-Upload-Content-Type. Imposta il tipo MIME dei dati di caricamento da trasferire nelle richieste successive.
X-Upload-Content-Length. Imposta il numero di byte di dati di caricamento da trasferire nelle richieste successive. Se la lunghezza è sconosciuta al momento della richiesta, puoi omettere questa intestazione.
Se fornisci metadati: Content-Type. Impostato in base al tipo di dati dei metadati.
Content-Length. Imposta il numero di byte specificati nel corpo di questa richiesta iniziale. Non è necessario se utilizzi la codifica di trasferimento a blocchi.

Consulta la documentazione di riferimento dell'API per l'elenco dei tipi MIME dei contenuti multimediali accettati e dei limiti di dimensioni per i file caricati per ciascun metodo.

Esempio: richiesta di avvio della sessione riutilizzabile

L'esempio seguente mostra come avviare una sessione riassumibile per l'API BigQuery.

POST /upload/bigquery/v2/projects/projectId/jobs?uploadType=resumable HTTP/1.1
Host: www.googleapis.com
Authorization: Bearer your_auth_token
Content-Length: 38
Content-Type: application/json; charset=UTF-8
X-Upload-Content-Type: */*
X-Upload-Content-Length: 2000000

{
  "configuration": {
    "load": {
      "sourceFormat": "NEWLINE_DELIMITED_JSON",
      "schema": {
        "fields": [
          {"name": "f1", "type": "STRING"},
          {"name": "f2", "type": "INTEGER"}
        ]
      },
      "destinationTable": {
        "projectId": "projectId",
        "datasetId": "datasetId",
        "tableId": "tableId"
      }
    }
  }
}

Nota: per una richiesta di aggiornamento iniziale riassumibile senza metadati, lascia vuoto il corpo della richiesta e imposta l'intestazione Content-Length su 0.

La sezione successiva descrive come gestire la risposta.

Passaggio 2: salva l'URI della sessione riassumibile

Se la richiesta di avvio della sessione va a buon fine, il server API risponde con un codice di stato HTTP 200 OK. Inoltre, fornisce un'intestazione Location che specifica l'URI della sessione riassumibile. L'intestazione Location, mostrata nell'esempio seguente, include una parte del parametro di query upload_id che fornisce l'ID caricamento univoco da utilizzare per questa sessione.

Esempio: risposta all'avvio della sessione riassumibile

Ecco la risposta alla richiesta nel passaggio 1:

HTTP/1.1 200 OK
Location: https://www.googleapis.com/upload/bigquery/v2/projects/projectId/jobs?uploadType=resumable&upload_id=xa298sd_sdlkj2
Content-Length: 0

Il valore dell'intestazione Location, come mostrato nella risposta di esempio riportata sopra, è l'URI della sessione che utilizzerai come endpoint HTTP per eseguire il caricamento effettivo del file o eseguire query sullo stato del caricamento.

Copia e salva l'URI della sessione per utilizzarlo per le richieste successive.

Passaggio 3: carica il file

Per caricare il file, invia una richiesta PUT all'URI di caricamento ottenuto nel passaggio precedente. Il formato della richiesta di caricamento è:

PUT session_uri

Le intestazioni HTTP da utilizzare per effettuare le richieste di caricamento dei file riavviabili includono Content-Length. Imposta il numero di byte che carichi in questa richiesta, che in genere corrisponde alle dimensioni del file di caricamento.

Esempio: richiesta di caricamento di file ripristinabile

Ecco una richiesta riprendente per caricare l'intero file CSV, JSON, AVRO, PARQUET o ORC di 2.000.000 byte per l'esempio corrente.

PUT https://www.googleapis.com/upload/bigquery/v2/projects/projectId/jobs?uploadType=resumable&upload_id=xa298sd_sdlkj2 HTTP/1.1
Content-Length: 2000000
Content-Type: */*

bytes 0-1999999

Se la richiesta va a buon fine, il server risponde con un messaggio HTTP 201 Created, insieme a eventuali metadati associati a questa risorsa. Se la richiesta iniziale della sessione riassumibile fosse stata PUT per aggiornare una risorsa esistente, la risposta di successo sarebbe 200 OK, insieme a eventuali metadati associati a questa risorsa.

Se la richiesta di caricamento viene interrotta o se ricevi una risposta HTTP 503 Service Unavailable o un'altra 5xx dal server, segui la procedura descritta in Riprendere un caricamento interrotto.

Caricamento del file a blocchi

Con i caricamenti riavviabili, puoi suddividere un file in blocchi e inviare una serie di richieste per caricare ogni blocco in sequenza. Questo non è l'approccio preferito, poiché le richieste aggiuntive comportano costi in termini di prestazioni e in genere non sono necessarie. Tuttavia, potresti dover utilizzare il chunking per ridurre la quantità di dati trasferiti in una singola richiesta. Questo è utile quando esiste un limite di tempo fisso per le singole richieste, come nel caso di determinate classi di richieste di Google App Engine. Inoltre, ti consente di eseguire operazioni come fornire indicazioni sull'avanzamento del caricamento per i browser precedenti che non supportano l'avanzamento del caricamento per impostazione predefinita.

Espandi per ulteriori informazioni

Se carichi i dati in blocchi, è richiesta anche l'intestazione Content-Range, oltre all'intestazione Content-Length necessaria per i caricamenti completi dei file:

Content-Length. Imposta la dimensione del chunk o eventualmente un valore inferiore, come potrebbe essere il caso dell'ultima richiesta.
Content-Range: impostato per mostrare i byte del file che stai caricando. Ad esempio, Content-Range: bytes 0-524287/2000000 indica che stai fornendo i primi 524.288 byte (256 x 1024 x 2) in un file di 2.000.000 byte.

Limitazione della dimensione dei chunk: tutti i chunk devono avere una dimensione pari a un multiplo di 256 KB (256 x 1024 byte), ad eccezione dell'ultimo chunk che completa il caricamento. Se utilizzi il chunking, è importante mantenere le dimensioni dei chunk il più grandi possibile per mantenere il caricamento efficiente.

Esempio: richiesta di caricamento di file suddivisi in blocchi con possibilità di ripresa

Una richiesta che invia i primi 524.288 byte potrebbe avere il seguente aspetto:

PUT {session_uri} HTTP/1.1
Host: www.googleapis.com
Content-Length: 524288
Content-Type: */*
Content-Range: bytes 0-524287/2000000

bytes 0-524288

Se la richiesta va a buon fine, il server risponde con 308 Resume Incomplete, insieme a un'intestazione Range che identifica il numero totale di byte memorizzati fino a quel momento:

HTTP/1.1 308 Resume Incomplete
Content-Length: 0
Range: bytes=0-524287

Utilizza il valore superiore restituito nell'intestazione Range per determinare dove iniziare il prossimo chunk. Continua a PUT ogni chunk del file finché l'intero file non è stato caricato.

Se la richiesta PUT di un chunk viene interrotta o se ricevi un codice HTTP 503 Service Unavailable o qualsiasi altra risposta 5xx dal server, segui la procedura descritta in Riprendere un caricamento interrotto, ma anziché caricare il resto del file, continua a caricare i chunk da quel punto.

Note importanti:

Assicurati di utilizzare l'intestazione Range nella risposta per determinare dove iniziare il prossimo chunk; non dare per scontato che il server abbia ricevuto tutti i byte inviati nella richiesta precedente.
Ogni URI di caricamento ha una durata limitata e alla fine scade (entro un giorno circa, se non viene utilizzato). Per questo motivo, è meglio avviare un caricamento con possibilità di ripresa non appena ottieni l'URI di caricamento e riprendere un caricamento interrotto poco dopo l'interruzione.
Se invii una richiesta con un ID sessione di caricamento scaduto, il server restituisce un codice di stato 404 Not Found. Quando si verifica un errore non recuperabile nella sessione di caricamento, il server restituisce un codice di stato 410 Gone. In questi casi, devi avviare un nuovo caricamento ripristinabile, ottenere un nuovo URI di caricamento e avviare il caricamento dall'inizio utilizzando il nuovo endpoint.

Al termine del caricamento dell'intero file, il server risponde con un messaggio HTTP 201 Created e con eventuali metadati associati a questa risorsa. Se questa richiesta avesse aggiornato un'entità esistente anziché crearne una nuova, il codice di risposta HTTP per un caricamento completato sarebbe stato 200 OK.

Riprendere un caricamento interrotto

Se una richiesta di caricamento viene interrotta prima di ricevere una risposta o se ricevi una risposta HTTP 503 Service Unavailable dal server, devi riprendere il caricamento interrotto. Per farlo:

Stato della richiesta. Esegui una query sullo stato corrente del caricamento inviando una richiesta PUT vuota all'URI di caricamento. Per questa richiesta, le intestazioni HTTP devono includere un'intestazione Content-Range che indichi che la posizione corrente nel file è sconosciuta. Ad esempio, imposta Content-Range su */2000000 se la lunghezza totale del file è 2.000.000. Se non conosci le dimensioni complete del file, imposta Content-Range su */*.
Nota : puoi richiedere lo stato tra un chunk e l'altro, non solo se il caricamento viene interrotto. Questa opzione è utile, ad esempio, se vuoi mostrare le indicazioni relative all'avanzamento del caricamento per i browser precedenti.
Ottieni il numero di byte caricati. Elabora la risposta della query sullo stato. Il server utilizza l'intestazione Range nella risposta per specificare quali byte ha ricevuto finora. Ad esempio, un'intestazione Range di 0-299999 indica che i primi 300.000 byte del file sono stati ricevuti.
Carica i dati rimanenti. Infine, ora che sai dove riprendere la richiesta, invia i dati rimanenti o il chunk corrente. Tieni presente che in entrambi i casi devi trattare i dati rimanenti come un blocco separato, quindi devi inviare l'intestazione Content-Range quando riprendi il caricamento.

Esempio: riprendere un caricamento interrotto

1) Richiedi lo stato del caricamento.

La seguente richiesta utilizza l'intestazione Content-Range per indicare che la posizione corrente nel file di 2.000.000 byte è sconosciuta.

PUT {session_uri} HTTP/1.1
Content-Length: 0
Content-Range: bytes */2000000

2) Estrai dalla risposta il numero di byte caricati fino a quel momento.

La risposta del server utilizza l'intestazione Range per indicare che ha ricevuto finora i primi 43 byte del file. Utilizza il valore superiore dell'intestazione Range per determinare da dove iniziare il caricamento ripreso.

HTTP/1.1 308 Resume Incomplete
Content-Length: 0
Range: 0-42

Nota: è possibile che la risposta dello stato sia 201 Created o 200 OK se il caricamento è completato. Ciò può accadere se la connessione si interrompe dopo il caricamento di tutti i byte, ma prima che il client riceva una risposta dal server.

3) Riprendi il caricamento dal punto in cui era stato interrotto.

La richiesta seguente riprende il caricamento inviando i byte rimanenti del file, a partire dal byte 43.

PUT {session_uri} HTTP/1.1
Content-Length: 1999957
Content-Range: bytes 43-1999999/2000000

bytes 43-1999999

Best practice

Quando carichi contenuti multimediali, è utile conoscere alcune best practice relative alla gestione degli errori.

Riprendi o riprova i caricamenti che non vanno a buon fine a causa di interruzioni della connessione o di errori 5xx, tra cui:
- 500 Internal Server Error
- 502 Bad Gateway
- 503 Service Unavailable
- 504 Gateway Timeout
Utilizza una strategia di backoff esponenziale se viene restituito un errore del server 5xx durante la ripresa o il nuovo tentativo delle richieste di caricamento. Questi errori possono verificarsi se un server è in sovraccarico. Il backoff esponenziale può contribuire ad alleviare questi tipi di problemi durante periodi di elevato volume di richieste o traffico di rete intenso.
Altri tipi di richieste non devono essere gestiti dal backoff esponenziale, ma puoi comunque riprovare con alcuni di questi. Quando riprovi a inviare queste richieste, limita il numero di tentativi. Ad esempio, il codice potrebbe limitare a dieci o meno i tentativi di ripetizione prima di segnalare un errore.
Gestisci gli errori 404 Not Found e 410 Gone durante i caricamenti riavviabili riavviando l'intero caricamento dall'inizio.

Backoff esponenziale

Il backoff esponenziale è una strategia di gestione degli errori standard per le applicazioni di rete in cui il client riprova periodicamente una richiesta non riuscita per un periodo di tempo sempre maggiore. Se un volume elevato di richieste o un traffico di rete intenso causano errori del server, il backoff esponenziale potrebbe essere una buona strategia per gestirli. Al contrario, non è una strategia pertinente per gestire errori non correlati al volume della rete o ai tempi di risposta, come credenziali di autorizzazione non valide o errori di file non trovati.

Se utilizzato correttamente, il backoff esponenziale aumenta l'efficienza dell'utilizzo della larghezza di banda, riduce il numero di richieste necessarie per ottenere una risposta positiva e massimizza il throughput delle richieste in ambienti simultanei.

Il flusso per l'implementazione del backoff esponenziale semplice è il seguente:

Invia una richiesta all'API.
Ricevere una risposta HTTP 503, che indica che devi riprovare a inviare la richiesta.
Attendi 1 secondo + numero_casuale_di_millisecondi e riprova a inviare la richiesta.
Ricevere una risposta HTTP 503, che indica che devi riprovare a inviare la richiesta.
Attendi 2 secondi + numero_casuale_di_millisecondi e riprova a inviare la richiesta.
Ricevere una risposta HTTP 503, che indica che devi riprovare a inviare la richiesta.
Attendi 4 secondi + numero_casuale_di_millisecondi e riprova.
Ricevere una risposta HTTP 503, che indica che devi riprovare a inviare la richiesta.
Attendi 8 secondi + numero_casuale_di_millisecondi e riprova a inviare la richiesta.
Ricevere una risposta HTTP 503, che indica che devi riprovare a inviare la richiesta.
Attendi 16 secondi + numero_casuale_di_millisecondi e riprova a inviare la richiesta.
Interrompi. Segnala o registra un errore.

Nel flusso precedente, numero_casuale_di_millisecondi è un numero casuale di millisecondi minore o uguale a 1000. Questo è necessario, poiché l'introduzione di un piccolo ritardo casuale consente di distribuire il carico in modo più uniforme ed evitare la possibilità di un picco sul server. Il valore di random_number_milliseconds deve essere ridefinito dopo ogni attesa.

Nota: l'attesa è sempre (2 ^ n) + random_number_milliseconds, dove n è un numero intero crescente definito inizialmente come 0. L'intero n viene incrementato di 1 per ogni iterazione (ogni richiesta).

L'algoritmo è impostato per terminare quando n è 5. Questo limite impedisce ai client di riprovare all'infinito e comporta un ritardo totale di circa 32 secondi prima che una richiesta venga considerata "un errore non recuperabile". Un numero massimo di tentativi più elevato è accettabile, soprattutto se è in corso un caricamento lungo. Assicurati solo di limitare il ritardo del nuovo tentativo a un valore ragionevole, ad esempio meno di un minuto.