Caricamenti dell'API

La funzionalità di caricamento di contenuti multimediali consente all'API BigQuery di archiviare i dati nel cloud e renderli disponibili al server. I tipi di dati che potresti voler caricare includono foto, video, file PDF, file ZIP o qualsiasi altro tipo di dati.

Opzioni di caricamento

L'API BigQuery ti consente di caricare determinati tipi di dati binari o multimediali. Le caratteristiche specifiche dei dati che puoi caricare sono specificate nella pagina di riferimento per qualsiasi metodo che supporta il caricamento di contenuti multimediali:

  • Dimensioni massime del file di caricamento: la quantità massima di dati che puoi archiviare con questo metodo.
  • Tipi MIME multimediali accettati: i tipi di dati binari che puoi archiviare utilizzando questo metodo.

Puoi effettuare richieste di caricamento in uno dei seguenti modi. Specifica il metodo che utilizzi con il parametro di richiesta uploadType.

  • Caricamento di più parti: uploadType=multipart. Per il trasferimento rapido di file e metadati di piccole dimensioni; trasferisce il file insieme ai metadati che lo descrivono, il tutto in una singola richiesta.
  • Caricamento ripristinabile: uploadType=resumable. Per un trasferimento affidabile, particolarmente importante con file di grandi dimensioni. Con questo metodo utilizzi una richiesta di avvio della sessione che, facoltativamente, può includere metadati. Questa è una buona strategia da utilizzare per la maggior parte delle applicazioni, poiché funziona anche per file di dimensioni ridotte al costo di un'ulteriore richiesta HTTP per caricamento.

Quando carichi contenuti multimediali, utilizzi un URI speciale. Infatti, i metodi che supportano i caricamenti di contenuti multimediali hanno due endpoint URI:

  • L'URI /upload per i contenuti multimediali. Il formato dell'endpoint di caricamento è URI della risorsa standard con un prefisso "/upload". Utilizza questo URI quando trasferire i dati multimediali stessi.

    Esempio: POST /upload/bigquery/v2/projects/projectId/jobs

  • L'URI della risorsa standard per i metadati. Se la risorsa contiene campi di dati, questi campi vengono utilizzati per archiviare i metadati che descrivono . Puoi utilizzare questo URI durante la creazione o l'aggiornamento dei valori dei metadati.

    Esempio: POST /bigquery/v2/projects/projectId/jobs

Caricamento di più parti

Se hai metadati che vuoi inviare insieme ai dati da caricare, puoi effettuare una singola richiesta multipart/related. Questa è una buona scelta se le dimensioni dei dati che stai inviando sono sufficientemente limitate da essere caricati di nuovo nella loro interezza in caso di interruzione della connessione.

Per utilizzare il caricamento di più parti, effettua una richiesta POST all'URI /upload del metodo e aggiungi il parametro di query uploadType=multipart, ad esempio:

POST https://www.googleapis.com/upload/bigquery/v2/projects/projectId/jobs?uploadType=multipart

Le intestazioni HTTP di primo livello da utilizzare quando si effettua una richiesta di caricamento multiparte includono:

  • Content-Type. Impostalo su multipart/related e includi la stringa di confine che utilizzi per identificare le parti della richiesta.
  • Content-Length. Impostato sul numero totale di byte nel corpo della richiesta. La parte multimediale della richiesta deve essere inferiore alle dimensioni massime del file specificate per questo metodo.

Il corpo della richiesta è formattato come tipo di contenuti multipart/related [RFC2387] e contiene esattamente due parti. Le parti sono identificate da una stringa di confine, e la stringa limite finale è seguita da due trattini.

Ogni parte della richiesta con più parti richiede un'intestazione Content-Type aggiuntiva:

  1. Parte dei metadati: deve essere la prima e Content-Type deve corrispondere a uno dei formati dei metadati accettati.
  2. Parte multimediale: deve essere la seconda e Content-Type deve corrispondere a uno dei tipi MIME multimediali accettati dal metodo.

Consulta la documentazione di riferimento dell'API per l'elenco dei tipi MIME dei contenuti multimediali accettati e dei limiti di dimensioni per i file caricati per ciascun metodo.

Nota : per creare o aggiornare la parte dei metadati. Solo, senza caricare i dati associati, invia semplicemente una richiesta POST o PUT all'endpoint della risorsa standard: https://www.googleapis.com/bigquery/v2/projects/projectId/jobs

Esempio: caricamento di più parti

L'esempio seguente mostra una richiesta di caricamento suddiviso per l'API BigQuery.

POST /upload/bigquery/v2/projects/projectId/jobs?uploadType=multipart HTTP/1.1
Host: www.googleapis.com
Authorization: Bearer your_auth_token
Content-Type: multipart/related; boundary=foo_bar_baz
Content-Length: number_of_bytes_in_entire_request_body

--foo_bar_baz
Content-Type: application/json; charset=UTF-8

{
  "configuration": {
    "load": {
      "sourceFormat": "NEWLINE_DELIMITED_JSON",
      "schema": {
        "fields": [
          {"name": "f1", "type": "STRING"},
          {"name": "f2", "type": "INTEGER"}
        ]
      },
      "destinationTable": {
        "projectId": "projectId",
        "datasetId": "datasetId",
        "tableId": "tableId"
      }
    }
  }
}


--foo_bar_baz
Content-Type: */*

CSV, JSON, AVRO, PARQUET, or ORC data
--foo_bar_baz--

Se la richiesta ha esito positivo, il server restituisce il codice di stato HTTP 200 OK insieme a tutti i metadati:

HTTP/1.1 200
Content-Type: application/json

{
  "configuration": {
    "load": {
      "sourceFormat": "NEWLINE_DELIMITED_JSON",
      "schema": {
        "fields": [
          {"name": "f1", "type": "STRING"},
          {"name": "f2", "type": "INTEGER"}
        ]
      },
      "destinationTable": {
        "projectId": "projectId",
        "datasetId": "datasetId",
        "tableId": "tableId"
      }
    }
  }
}

Caricamento ripristinabile

Per caricare i file di dati in modo più affidabile, puoi utilizzare il protocollo di caricamento ripristinabile. Questo protocollo ti consente di riprendere un'operazione di caricamento dopo che un errore di comunicazione ha interrotto il flusso di dati. È particolarmente utile se devi trasferire file di grandi dimensioni e la probabilità che si verifichino interruzioni di rete o altri errori di trasmissione è elevata, ad esempio durante il caricamento da un'app client mobile. Inoltre, consente di ridurre l'utilizzo della larghezza di banda in caso di errori di rete, in quanto non è necessario riavviare il caricamento di file di grandi dimensioni dall'inizio.

I passaggi per utilizzare il caricamento ricoinducibile includono:

  1. Avvia una sessione riassumibile. Effettua una richiesta iniziale all'URI di caricamento che include gli eventuali metadati.
  2. Salva l'URI della sessione riassumibile. Salva l'URI della sessione restituito nella risposta della richiesta iniziale; lo utilizzerai per le richieste rimanenti in questa sessione.
  3. Carica il file. Invia il file multimediale all'URI della sessione riavviabile.

Inoltre, le app che utilizzano il caricamento ripristinabile devono avere un codice per riprendere un caricamento interrotto. Se un caricamento viene interrotto, verifica la quantità di dati ricevuti, quindi riprendi il caricamento a partire da quel momento.

Nota: un URI di caricamento scade dopo una settimana.

Passaggio 1: avvia una sessione riassumibile

Per avviare un caricamento riavviabile, invia una richiesta POST all'URI /upload del metodo e aggiungi il parametro di query uploadType=resumable, ad esempio:

POST https://www.googleapis.com/upload/bigquery/v2/projects/projectId/jobs?uploadType=resumable

Per questa richiesta iniziale, il corpo è vuoto o contiene solo i metadati. Trasferirai i contenuti effettivi del file che vuoi caricare nelle richieste successive.

Utilizza le seguenti intestazioni HTTP con la richiesta iniziale:

  • X-Upload-Content-Type. Imposta il tipo MIME multimediale dei dati di caricamento da trasferire nelle richieste successive.
  • X-Upload-Content-Length. Imposta il numero di byte dei dati di caricamento da trasferire nelle richieste successive. Se la lunghezza non è nota al momento della richiesta, puoi omettere questa intestazione.
  • Se fornisci metadati: Content-Type. Impostato in base al tipo di dati dei metadati.
  • Content-Length. Imposta il numero di byte specificati nel corpo di questa richiesta iniziale. Non è necessario se utilizzi la codifica di trasferimento a blocchi.

Consulta la documentazione di riferimento dell'API per consultare l'elenco dei tipi MIME multimediali accettati e i limiti di dimensioni per i file caricati relativi a ciascun metodo.

Esempio: richiesta di avvio sessione ripristinabile

L'esempio seguente mostra come avviare una sessione riassumibile per l'API BigQuery.

POST /upload/bigquery/v2/projects/projectId/jobs?uploadType=resumable HTTP/1.1
Host: www.googleapis.com
Authorization: Bearer your_auth_token
Content-Length: 38
Content-Type: application/json; charset=UTF-8
X-Upload-Content-Type: */*
X-Upload-Content-Length: 2000000

{
  "configuration": {
    "load": {
      "sourceFormat": "NEWLINE_DELIMITED_JSON",
      "schema": {
        "fields": [
          {"name": "f1", "type": "STRING"},
          {"name": "f2", "type": "INTEGER"}
        ]
      },
      "destinationTable": {
        "projectId": "projectId",
        "datasetId": "datasetId",
        "tableId": "tableId"
      }
    }
  }
}

Nota: per una richiesta di aggiornamento iniziale riassumibile senza metadati, lascia vuoto il corpo della richiesta e imposta l'intestazione Content-Length su 0.

La sezione successiva descrive come gestire la risposta.

Passaggio 2: salva l'URI della sessione riassumibile

Se la richiesta di avvio della sessione ha esito positivo, il server API risponde con un codice di stato HTTP 200 OK. Inoltre, fornisce un'intestazione Location che specifica l'URI della sessione ripristinabile. L'intestazione Location, mostrata nell'esempio seguente, include una parte del parametro di query upload_id che fornisce l'ID di caricamento univoco da utilizzare per questa sessione.

Esempio: risposta di avvio della sessione ripristinabile

Ecco la risposta alla richiesta del passaggio 1:

HTTP/1.1 200 OK
Location: https://www.googleapis.com/upload/bigquery/v2/projects/projectId/jobs?uploadType=resumable&upload_id=xa298sd_sdlkj2
Content-Length: 0

Il valore dell'intestazione Location, come mostrato nell'esempio di risposta riportato sopra, è l'URI di sessione che utilizzerai come endpoint HTTP per eseguire il caricamento effettivo del file o per eseguire query sullo stato del caricamento.

Copia e salva l'URI della sessione per poterlo utilizzare per le richieste successive.

Passaggio 3: carica il file

Per caricare il file, invia una richiesta PUT all'URI di caricamento ottenuto nel passaggio precedente. Il formato della richiesta di caricamento è:

PUT session_uri

Le intestazioni HTTP da utilizzare per effettuare le richieste di caricamento dei file riavviabili includono Content-Length. Imposta questo elemento sul numero di byte che carichi in questa richiesta, che in genere corrisponde alle dimensioni del file di caricamento.

Esempio: richiesta di caricamento file ripristinabile

Ecco una richiesta riassumibile per caricare l'intero file CSV, JSON, AVRO, PARQUET o ORC di 2.000.000 di byte per l'esempio corrente.

PUT https://www.googleapis.com/upload/bigquery/v2/projects/projectId/jobs?uploadType=resumable&upload_id=xa298sd_sdlkj2 HTTP/1.1
Content-Length: 2000000
Content-Type: */*

bytes 0-1999999

Se la richiesta ha esito positivo, il server risponde con un HTTP 201 Created e con tutti i metadati associati alla risorsa. Se la richiesta iniziale della sessione riassumibile fosse stata PUT per aggiornare una risorsa esistente, la risposta di successo sarebbe 200 OK, insieme a eventuali metadati associati a questa risorsa.

Se la richiesta di caricamento viene interrotta o se ricevi un codice HTTP 503 Service Unavailable o un altro codice 5xx dal server, segui la procedura descritta in Riprendere un caricamento interrotto.  


Caricamento del file in blocchi

Con i caricamenti ripristinabili, puoi suddividere un file in blocchi e inviare una serie di richieste per caricare ogni blocco in sequenza. Questo non è l'approccio preferito, poiché le richieste aggiuntive comportano costi in termini di prestazioni e in genere non sono necessarie. Tuttavia, potresti dover utilizzare il chunking per ridurre la quantità di dati trasferiti in una singola richiesta. Questo è utile quando esiste un limite di tempo fisso per le singole richieste, come nel caso di determinate classi di richieste di Google App Engine. Inoltre, ti consente di eseguire operazioni come fornire indicazioni sull'avanzamento del caricamento per i browser precedenti che non supportano l'avanzamento del caricamento per impostazione predefinita.


Riprendere un caricamento interrotto

Se una richiesta di caricamento viene terminata prima di ricevere una risposta o se ricevi una risposta HTTP 503 Service Unavailable dal server, devi riprendere il caricamento interrotto. Per farlo:

  1. Stato della richiesta. Esegui una query sullo stato attuale del caricamento inviando una richiesta PUT vuota all'URI del caricamento. Per questa richiesta, le intestazioni HTTP devono includere un'intestazione Content-Range che indica che la posizione corrente nel file è sconosciuta.  Ad esempio, imposta Content-Range su */2000000 se la lunghezza totale del file è 2.000.000. Se non conosci la dimensione originale del file, imposta Content-Range su */*.

    Nota: puoi richiedere lo stato tra un chunk e l'altro, non solo se il caricamento viene interrotto. Questa opzione è utile, ad esempio, se vuoi mostrare le indicazioni di avanzamento del caricamento per i browser precedenti.

  2. Ottieni il numero di byte caricati. Elabora la risposta della query sullo stato. Il server utilizza l'intestazione Range nella risposta per specificare i byte che ha ricevuto fino a quel momento. Ad esempio, un'intestazione Range di 0-299999 indica che sono stati ricevuti i primi 300.000 byte del file.
  3. Carica i dati rimanenti. Infine, ora che sai dove riprendere la richiesta, invia i dati rimanenti o il blocco attuale. Tieni presente che in entrambi i casi devi trattare i dati rimanenti come un blocco separato, quindi devi inviare l'intestazione Content-Range quando riprendi il caricamento.
Esempio: riprendere un caricamento interrotto

1) Richiedi lo stato del caricamento.

La seguente richiesta utilizza l'intestazione Content-Range per indicare che la posizione corrente nel file di 2.000.000 byte è sconosciuta.

PUT {session_uri} HTTP/1.1
Content-Length: 0
Content-Range: bytes */2000000

2) Estrai il numero di byte caricati finora dalla risposta.

La risposta del server utilizza l'intestazione Range per indicare che ha ricevuto finora i primi 43 byte del file. Utilizza il valore superiore dell'intestazione Range per determinare da dove iniziare il caricamento ripreso.

HTTP/1.1 308 Resume Incomplete
Content-Length: 0
Range: 0-42

Nota: è possibile che la risposta dello stato sia 201 Created o 200 OK se il caricamento è completato. Questo può accadere se la connessione si interrompeva dopo aver caricato tutti i byte, ma prima che il client ricevesse una risposta dal server.

3) Riprendi il caricamento dal punto in cui era stato interrotto.

La richiesta seguente riprende il caricamento inviando i byte rimanenti del file, a partire dal byte 43.

PUT {session_uri} HTTP/1.1
Content-Length: 1999957
Content-Range: bytes 43-1999999/2000000

bytes 43-1999999

Best practice

Quando carichi contenuti multimediali, è utile conoscere alcune best practice relative alla gestione degli errori.

  • Riprendi o riprova i caricamenti non riusciti a causa di interruzioni della connessione o di eventuali errori di 5xx, tra cui:
    • 500 Internal Server Error
    • 502 Bad Gateway
    • 503 Service Unavailable
    • 504 Gateway Timeout
  • Utilizza una strategia di backoff esponenziale se viene restituito un errore del server 5xx quando riprendi o ritentano le richieste di caricamento. Questi errori possono verificarsi se un server viene sovraccarico. Il backoff esponenziale può contribuire ad alleviare questi tipi di problemi durante periodi di elevato volume di richieste o traffico di rete intenso.
  • Altri tipi di richieste non devono essere gestiti dal backoff esponenziale, ma puoi comunque provarne diversi. Quando riprovi a queste richieste, limita il numero di nuovi tentativi. Ad esempio, prima di segnalare un errore, il codice potrebbe limitare i tentativi a massimo dieci nuovi tentativi.
  • Gestisci gli errori 404 Not Found e 410 Gone durante i caricamenti riavviabili riavviando l'intero caricamento dall'inizio.

Backoff esponenziale

Il backoff esponenziale è una strategia di gestione degli errori standard per le applicazioni di rete in cui il client ritenta periodicamente una richiesta non riuscita in un intervallo di tempo sempre più lungo. Se un volume elevato di richieste o un traffico di rete intenso causano errori del server, il backoff esponenziale potrebbe essere una buona strategia per gestirli. Al contrario, non è una strategia pertinente per gestire errori non correlati al volume della rete o ai tempi di risposta, come credenziali di autorizzazione non valide o errori relativi a file non trovati.

Se utilizzato correttamente, il backoff esponenziale aumenta l'efficienza dell'utilizzo della larghezza di banda, riduce il numero di richieste necessarie per ottenere una risposta positiva e massimizza il throughput delle richieste in ambienti simultanei.

Il flusso per l'implementazione del backoff esponenziale semplice è il seguente:

  1. Invia una richiesta all'API.
  2. Ricevere una risposta HTTP 503, che indica che devi riprovare a inviare la richiesta.
  3. Attendi 1 secondo + numero_casuale_di_millisecondi e riprova a inviare la richiesta.
  4. Ricevere una risposta HTTP 503, che indica che devi riprovare a inviare la richiesta.
  5. Attendi 2 secondi + numero_casuale_millisecondi e riprova a eseguire la richiesta.
  6. Ricevere una risposta HTTP 503, che indica che devi riprovare a inviare la richiesta.
  7. Attendi 4 secondi + numero_casuale_millisecondi e riprova a eseguire la richiesta.
  8. Ricevi una risposta HTTP 503, che indica che devi riprovare a eseguire la richiesta.
  9. Attendi 8 secondi + numero_casuale_di_millisecondi e riprova a inviare la richiesta.
  10. Ricevere una risposta HTTP 503, che indica che devi riprovare a inviare la richiesta.
  11. Attendi 16 secondi + numero_casuale_millisecondi e riprova a inviare la richiesta.
  12. Interrompi. Segnala o registra un errore.

Nel flusso riportato sopra, numero_casuale_millisecondi è un numero casuale di millisecondi inferiore o uguale a 1000. Questo è necessario, poiché l'introduzione di un piccolo ritardo casuale consente di distribuire il carico in modo più uniforme ed evitare la possibilità di un picco di richieste sul server. Il valore di random_number_milliseconds deve essere ridefinito dopo ogni attesa.

Nota : l'attesa è sempre (2 ^ n) + numero_casuale_millisecondi, dove n è un numero intero monotonicamente crescente inizialmente definito come 0. Il numero intero n viene incrementato di 1 per ogni iterazione (ogni richiesta).

L'algoritmo è impostato per terminare quando n è 5. Questo limite impedisce ai client di riprovare all'infinito e comporta un ritardo totale di circa 32 secondi prima che una richiesta venga considerata "un errore non recuperabile". È consentito un numero massimo maggiore di nuovi tentativi, soprattutto se è in corso un caricamento di lunga durata. assicurati di limitare il ritardo dei nuovi tentativi a un valore ragionevole, ad esempio inferiore a un minuto.

Guide alle librerie client API