Lavorare con i dati geospaziali
L'analisi geospaziale ti consente di analizzare i dati geografici in BigQuery. I dati geografici sono noti anche come dati geospaziali.
I tipi di oggetti comuni quando si lavora con dati geospaziali includono:
- Una geometria rappresenta una superficie sulla Terra. Spesso viene descritta utilizzando punti, linee, poligoni o una raccolta di punti, linee e poligoni. Una raccolta di geometrie è una geometria che rappresenta l'unione spaziale di tutte le forme della raccolta.
- Un elemento spaziale rappresenta un oggetto spaziale logico. Combina una geometria con attributi aggiuntivi specifici dell'applicazione.
- Una raccolta di elementi spaziali è un insieme di elementi spaziali.
In BigQuery, il tipo di dato
GEOGRAPHY
rappresenta un valore geometrico o una raccolta di geometrie. Per rappresentare
elementi spaziali, crea una tabella con una colonna GEOGRAPHY
per la geometria più altre colonne per gli attributi. Ogni riga della tabella è un elemento spaziale e l'intera tabella rappresenta una raccolta di elementi spaziali.
Il tipo di dati GEOGRAPHY
descrive un insieme di punti sulla superficie terrestre. Un insieme di punti è un insieme di punti, linee e poligoni sullo spheroide di riferimento WGS84 con bordi geodetici. Puoi utilizzare il tipo di dato GEOGRAPHY
chiamando una delle funzioni geografiche di GoogleSQL.
Caricamento di dati geospaziali
I singoli punti sulla Terra possono essere descritti solo da una coppia di longitudine e latitudine.
Ad esempio, puoi caricare un file CSV contenente valori di longitudine e latitudine
e poi utilizzare la funzione
ST_GEOGPOINT
per convertirli in valori GEOGRAPHY
.
Per aree geografiche più complesse, puoi caricare i seguenti formati di dati geospaziali
in una colonna GEOGRAPHY
:
- Well-Known Text (WKT)
- Formato binario noto (WKB)
- GeoJSON
- GeoParquet
Caricamento di dati WKT o WKB
WKT è un formato di testo per descrivere singole forme geometriche utilizzando punti, linee, poligoni con fori facoltativi o una raccolta di punti, linee o poligoni. WKB è la versione binaria del formato WKT. WKB può essere codificato in esadecimale per i formati che non supportano i dati binari, come JSON.
Ad esempio, quanto segue definisce un punto in WKT:
POINT(-121 41)
Per descrivere un elemento spaziale, WKT è in genere incorporato in un formato di file contenitore, ad esempio un file CSV, o in una tabella di database. Una riga di un file o di una tabella solitamente corrisponde all'elemento spaziale. L'intero file o l'intera tabella
corrisponde alla raccolta di elementi. Per caricare i dati WKT in
BigQuery, fornisci uno schema che
specifichi una colonna GEOGRAPHY
per i dati geospaziali.
Ad esempio, potresti avere un file CSV contenente i seguenti dati:
"POLYGON((-124.49 47.35,-124.49 40.73,-116.49 40.73,-116.49 47.35,-124.49 47.35))",poly1
"POLYGON((-85.6 31.66,-85.6 24.29,-78.22 24.29,-78.22 31.66,-85.6 31.66))",poly2
"POINT(1 2)",point1
Puoi caricare questo file eseguendo il comando load
dello strumento a riga di comando bq:
bq load --source_format=CSV \
--schema="geography:GEOGRAPHY,name:STRING" \
mydataset.mytable filename1.csv
Per ulteriori informazioni sul caricamento dei dati in BigQuery, consulta Introduzione al caricamento dei dati.
Per eseguire lo streaming dei dati WKT in una tabella BigQuery esistente con una colonna GEOGRAPHY
, serializza i dati come stringa nella richiesta API.
bq
Esegui il comando insert
dello strumento a riga di comando bq:
echo '{"geo": "LINESTRING (-118.4085 33.9416, -73.7781 40.6413)"}' \
| bq insert my_dataset.geo_table
Python
Prima di provare questo esempio, segui le istruzioni di configurazione Python riportate nella guida rapida all'utilizzo di BigQuery con le librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API BigQuery Python.
Per autenticarti in BigQuery, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configurare l'autenticazione per le librerie client.
Per ulteriori informazioni sull'inserimento di flussi di dati in BigQuery, consulta Inserimento di flussi di dati in BigQuery.
Puoi anche convertire una stringa di testo WKT in un valore GEOGRAPHY
utilizzando la funzione
ST_GeogFromText
.
Caricamento di dati GeoJSON
GeoJSON è un formato basato su JSON per geometrie e elementi spaziali. Ad esempio, quanto segue definisce un punto in GeoJSON:
{ "type": "Point", "coordinates": [-121,41] }
I dati GeoJSON possono contenere uno dei seguenti tipi di oggetti:
- Oggetti geometrici. Un oggetto geometria è una forma spaziale, descritta come unione di punti, linee e poligoni con eventuali fori.
- Caratterizza gli oggetti. Un oggetto elemento contiene una geometria e altre coppie nome/valore, il cui significato è specifico dell'applicazione.
- Raccolte di funzionalità. Una raccolta di elementi è un insieme di oggetti elemento.
Esistono due modi per caricare i dati GeoJSON in BigQuery:
- Carica i file GeoJSON delimitati da nuova riga.
- Carica singoli oggetti geometrici GeoJSON incorporati in altri tipi di file.
Caricamento di file GeoJSON delimitati da nuova riga
Un file GeoJSON delimitato da nuova riga contiene un elenco di oggetti feature GeoJSON, uno per riga nel file. Un oggetto caratteristica GeoJSON è un oggetto JSON con i seguenti membri:
type
. Per gli oggetti feature, il valore deve essereFeature
. BigQuery convalida il valore, ma non lo include nello schema della tabella.geometry
. Il valore è un oggetto GeoJSONGeometry
onull
. BigQuery converte questo membro in un valoreGEOGRAPHY
.properties
. Il valore è un oggetto JSON o null. Se il valore non ènull
, BigQuery carica ogni membro dell'oggetto JSON come colonna di tabella separata. Per ulteriori informazioni su come BigQuery analizza i tipi di dati JSON, consulta Dettagli sul caricamento dei dati JSON.id
. Facoltativo. Se presente, il valore è una stringa o un numero. BigQuery carica questo valore in una colonna denominataid
.
Se l'oggetto elemento contiene altri membri non elencati qui, BigQuery li converte direttamente in colonne di tabella.
Puoi caricare un file GeoJSON delimitato da nuova riga utilizzando il comando bq
load
dello strumento a riga di comando bq, come segue:
bq load \ --source_format=NEWLINE_DELIMITED_JSON \ --json_extension=GEOJSON \ --autodetect \ DATASET.TABLE \ FILE_PATH_OR_URI
Sostituisci quanto segue:
DATASET
è il nome del set di dati.TABLE
è il nome della tabella di destinazione.FILE_PATH_OR_URI
è un percorso a un file locale o un URI Cloud Storage.
L'esempio precedente attiva il rilevamento automatico dello schema. Per un maggiore controllo su come BigQuery converte i valori all'interno dell'oggetto properties
, puoi fornire uno schema esplicito. Per ulteriori informazioni, consulta
Specificare gli schemi.
Se fornisci uno schema esplicito, non includere una colonna type
di primo livello
nella definizione dello schema. Per ogni membro del membro properties
, definisci colonne separate, non una singola colonna nidificata.
Come definito da RFC 7946,
una struttura di dati GeoJSON completa è un singolo oggetto JSON. Molti sistemi esportano i dati GeoJSON come un singolo oggetto FeatureCollection
contenente tutte le geometrie. Per caricare questo formato in BigQuery, devi convertire il file rimuovendo l'oggetto FeatureCollection
a livello di radice e dividendo i singoli oggetti feature in righe separate. Ad esempio, il seguente
comando utilizza lo strumento a riga di comando jq
per suddividere un file GeoJSON in formato delimitato da nuova riga:
cat ~/file1.json | jq -c '.features[]' > converted.json
Creazione di una tabella esterna da un file GeoJSON delimitato da nuova riga
Puoi eseguire query su un file GeoJSON delimitato da nuova riga archiviato in Cloud Storage creando una tabella esterna. Per creare la tabella esterna, utilizza l'istruzione DDL CREATE EXTERNAL TABLE
. Nella clausola OPTIONS
, imposta l'opzione format
su
NEWLINE_DELIMITED_JSON
e l'opzione json_extension
su GEOJSON
.
Esempio:
CREATE EXTERNAL TABLE mydataset.table1 OPTIONS (
format="NEWLINE_DELIMITED_JSON",
json_extension = 'GEOJSON',
uris = ['gs://mybucket/geofile.json']
);
Caricamento dei dati geometrici GeoJSON
L'analisi geospaziale supporta il caricamento di singoli oggetti geometrici GeoJSON incorporati come stringhe di testo in altri tipi di file. Ad esempio, puoi caricare un file CSV in cui una delle colonne contiene un oggetto geometria GeoJSON.
Per caricare questo tipo di dati GeoJSON in BigQuery, fornisci un
schema che specifichi una colonna GEOGRAPHY
per i
dati GeoJSON. Devi fornire lo schema manualmente. In caso contrario, se il rilevamento automatico è attivo, BigQuery carica i dati come valore STRING
.
L'analisi geospaziale non supporta il caricamento di oggetti feature o raccolte di feature GeoJSON utilizzando questo approccio. Se devi caricare oggetti feature, valuta la possibilità di utilizzare file GeoJSON delimitati da nuova riga.
Per trasmettere in streaming i dati GeoJSON a una tabella BigQuery esistente con una colonnaGEOGRAPHY
, serializza i dati come stringa nella richiesta API.
bq
Esegui il comando insert
dello strumento a riga di comando bq:
echo '{"geo": "{\"type\": \"LineString\", \"coordinates\": [[-118.4085, 33.9416], [-73.7781, 40.6413]]}"}' \
| bq insert my_dataset.geo_table
Python
Prima di provare questo esempio, segui le istruzioni di configurazione Python riportate nella guida rapida all'utilizzo di BigQuery con le librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API BigQuery Python.
Per autenticarti in BigQuery, configura le Credenziali predefinite dell'applicazione. Per saperne di più, consulta Configurare l'autenticazione per le librerie client.
Puoi anche convertire un oggetto geometria GeoJSON in un valore GEOGRAPHY
utilizzando la funzione ST_GEOGFROMGEOJSON
. Ad esempio, puoi memorizzare le geometrie come valori STRING
e poi eseguire una query che chiami ST_GEOGFROMGEOJSON
.
Caricamento dei file GeoParquet
GeoParquet è una specifica che aggiunge tipi geospaziali al formato file Parquet. GeoParquet include metadati che forniscono una semantica definita ai dati geospaziali contenuti, evitando i problemi di interpretazione che si verificano con altri formati di dati geospaziali.
Quando carica i file Parquet, BigQuery controlla la presenza di metadati GeoParquet. Se esistono metadati GeoParquet, BigQuery carica per impostazione predefinita tutte le colonne descritte in una colonna GEOGRAPHY
corrispondente.
Per ulteriori informazioni sul caricamento dei file Parquet, consulta
Caricamento dei dati Parquet.
Creazione di una tabella esterna dai dati GeoParquet
Le tabelle esterne
che fanno riferimento ai file GeoParquet mappano le colonne pertinenti al tipo GEOGRAPHY
.
Le statistiche disponibili nel file GeoParquet (bbox
, covering
) non vengono utilizzate per accelerare le query su una tabella esterna.
Sistemi di coordinate e bordi
Nell'analisi geospaziale, i punti sono posizioni sulla superficie di uno sferoide WGS84, expressed as longitude and geodetic latitude. Un bordo è una geodetica sferica tra due punti finali. In altre parole, i bordi sono il percorso più breve sulla superficie di una sfera.
Il formato WKT non fornisce un sistema di coordinate. Quando carichi i dati WKT, l'analisi geospaziale presuppone che i dati utilizzino coordinate WGS84 con bordi sferici. Assicurati che i dati di origine corrispondano a questo sistema di coordinate, a meno che le aree geografiche non siano sufficientemente piccole da consentire di ignorare la differenza tra i bordi sferici e planari.
GeoJSON utilizza esplicitamente le coordinate WGS84 con bordi piani. Quando carichi i dati GeoJSON, l'analisi geospaziale converte i bordi piani in bordi sferici. L'analisi geospaziale aggiunge punti aggiuntivi alla linea, se necessario, in modo che la sequenza di spigoli convertita rimanga a 10 metri dalla linea originale. Questo procedura è nota come tessellatura o densificazione non uniforme. Non puoi controllare direttamente la procedura di tessellation.
Per caricare le aree geografiche con bordi sferici, utilizza WKT. Per caricare le aree geografiche con bordi piani, spesso chiamate geometrie, è più semplice utilizzare GeoJSON. Tuttavia, se i dati geometrici sono già in formato WKT, un'altra opzione è caricarli come tipo STRING
e poi utilizzare la funzione ST_GEOGFROMTEXT
per convertirli in valori GEOGRAPHY
. Imposta il parametro planar
su TRUE
per interpretare i dati come piani.
I file GeoParquet includono metadati sul sistema di coordinate e sugli spigoli utilizzati per creare i dati. Quando leggi i file GeoParquet con bordi piani, l'analisi geospaziale li converte in bordi sferici. I file GeoParquet con sistemi di coordinate diversi da WGS84 vengono rifiutati.
Quando scegli un formato di interscambio, assicurati di comprendere il sistema di coordinate utilizzato dai dati di origine. La maggior parte dei sistemi supporta esplicitamente l'analisi della geografia (a differenza della geometria) da WKT oppure presuppone bordi piani.
Le coordinate devono essere prima la longitudine e poi la latitudine. Se la geografia contiene segmenti o bordi lunghi, questi devono essere tessellati, perché l'analisi geospaziale li interpreta come geodetiche sferiche, che potrebbero non corrispondere al sistema di coordinate da cui provengono i dati.
Orientamento del poligono
Su una sfera, ogni poligono ha un poligono complementare. Ad esempio, un poligono che descrive i continenti della Terra avrà un poligono complementare che descrive gli oceani della Terra. Poiché i due poligoni sono descritti dagli stessi anelli di confine, sono necessarie regole per risolvere l'ambiguità relativa a quale dei due poligoni è descritto da una determinata stringa WKT.
Quando carichi stringhe WKT e WKB da file o utilizzando l'importazione di flussi di dati, l'analisi geospaziale presuppone che i poligoni nell'input siano orientati come segue: Se attraversi il confine del poligono nell'ordine dei vertici di input, l'interno del poligono è a sinistra. L'analisi geospaziale utilizza la stessa regola per l'esportazione di oggetti geografici in stringhe WKT e WKB.
Se utilizzi la funzione ST_GeogFromText
per convertire una stringa WKT in un valore GEOGRAPHY
, il parametro oriented
specifica in che modo la funzione determina il poligono:
FALSE
: interpreta l'input come il poligono con l'area più piccola. Questo è il comportamento predefinito.TRUE
: utilizza la regola di orientamento a sinistra descritta in precedenza. Questa opzione consente di caricare poligoni con un'area più grande di un emisfero.
Poiché le stringhe GeoJSON sono definite su una mappa piana, l'orientamento può essere determinato senza ambiguità, anche se l'input non segue la regola di orientamento definita nella specifica del formato GeoJSON, RFC 7946.
Gestione di dati spaziali con formattazione non corretta
Quando carichi dati spaziali da altri strumenti in BigQuery, potresti riscontrare errori di conversione dovuti a dati WKT o GeoJSON non validi. Ad esempio, un errore come Edge K has duplicate vertex with edge N
indica che il poligono ha vertici duplicati (oltre al primo e all'ultimo).
Per evitare problemi di formattazione, puoi utilizzare una funzione che genera un output conforme agli standard. Ad esempio, quando esporti i dati da PostGIS, puoi utilizzare la funzione PostGIS ST_MakeValid
per standardizzare l'output.
In alternativa, importa i dati come testo e poi convertili chiamando
ST_GEOGFROMTEXT
o ST_GEOGFROMGEOJSON
con il parametro make_valid
. Quando make_valid
è TRUE
, queste funzioni tentano di riparare i poligoni non validi.
Per trovare o ignorare i dati formattati in modo improprio, utilizza il prefisso della funzione SAFE
per visualizzare i dati problematici. Ad esempio, la seguente query
utilizza il prefisso SAFE
per recuperare dati spaziali con formattazione non corretta.
SELECT geojson AS bad_geojson FROM mytable WHERE geojson IS NOT NULL AND SAFE.ST_GeogFromGeoJson(geojson) IS NULL
Vincoli
Geospatial Analytics non supporta le seguenti funzionalità nei formati geospaziali:
- Geometrie tridimensionali. Sono inclusi il suffisso "Z" nel formato WKT e la coordinata altitudine nel formato GeoJSON.
- Sistemi di riferimento lineari. Sono inclusi il suffisso "M" nel formato WKT.
- Oggetti di geometria WKT diversi da primitive geometriche o geometrie multiparti. In particolare, l'analisi geospaziale supporta solo Point, MultiPoint, LineString, MultiLineString, Polygon, MultiPolygon e GeometryCollection.
Consulta
ST_GeogFromGeoJson
e
ST_GeogFromText
per i vincoli specifici per i formati di input GeoJSON e WKT.
Carica i dati geospaziali di Google Earth Engine
Google Earth Engine è una piattaforma di dati geospaziali che compila e analizza gli approfondimenti delle immagini satellitari e di osservazione della Terra utilizzando dati raster, dove i dati sono organizzati in una griglia di celle che rappresentano le informazioni sulle immagini digitali. Anche se BigQuery funziona principalmente con dati vettoriali tabulari, gli utenti possono utilizzare i propri dati BigQuery insieme ai dati raster di Earth Engine per incorporare set di dati vettoriali e raster nei propri flussi di lavoro.
Per informazioni sull'esportazione dei dati di Earth Engine in BigQuery, consulta Esportare in BigQuery.
Trasformazione dei dati geospaziali
Se la tabella contiene colonne separate per longitudine e latitudine, puoi trasformare i valori in aree geografiche utilizzando le funzioni geografiche di GoogleSQL come ST_GeogPoint
.
Ad esempio, se hai due colonne DOUBLE
per longitudine e latitudine, puoi creare una colonna geografica con la seguente query:
SELECT *, ST_GeogPoint(longitude, latitude) AS g FROM mytable
BigQuery può convertire stringhe WKT e GeoJSON in tipi geografici.
Se i dati sono in un altro formato, ad esempio shapefile, utilizza uno strumento esterno per convertirli in un formato file di input supportato, ad esempio un file CSV, con le colonne GEOGRAPHY
codificate come stringhe WKT o GeoJSON.
Partizionamento e clustering dei dati geospaziali
Puoi partizionare e
raggruppare in cluster le tabelle che contengono colonne GEOGRAPHY
. Puoi utilizzare una colonna GEOGRAPHY
come colonna di clustering, ma non puoi
utilizzare una colonna GEOGRAPHY
come colonna di partizionamento.
Se memorizzi dati GEOGRAPHY
in una tabella e le tue query filtrano i dati utilizzando un
predicato spaziale, assicurati che la tabella sia raggruppata in base alla colonna GEOGRAPHY
.
In genere, questo migliora le prestazioni delle query e potrebbe ridurre i costi. Un predicato spaziale chiama una funzione geografica booleana e ha una colonna GEOGRAPHY
come uno degli argomenti. L'esempio seguente mostra un predicato spaziale che utilizza la funzione ST_DWithin
:
WHERE ST_DWithin(geo, ST_GeogPoint(longitude, latitude), 100)
Utilizzo di JOIN con dati spaziali
Le unioni spaziali sono unioni di due tabelle con una funzione geografica del predicato nella clausola WHERE
. Ad esempio:
-- how many stations within 1 mile range of each zip code? SELECT zip_code AS zip, ANY_VALUE(zip_code_geom) AS polygon, COUNT(*) AS bike_stations FROM `bigquery-public-data.new_york.citibike_stations` AS bike_stations, `bigquery-public-data.geo_us_boundaries.zip_codes` AS zip_codes WHERE ST_DWithin( zip_codes.zip_code_geom, ST_GeogPoint(bike_stations.longitude, bike_stations.latitude), 1609.34) GROUP BY zip ORDER BY bike_stations DESC
Le unioni spaziali hanno un rendimento migliore quando i dati geografici sono permanenti. L'esempio riportato sopra crea i valori geografici nella query. È più efficiente memorizzare i valori geografici in una tabella BigQuery.
Ad esempio, la seguente query recupera coppie di longitudine e latitudine e le converte in punti geografici. Quando esegui questa query, specifichi una nuova tabella di destinazione per archiviare i risultati della query:
SELECT *, ST_GeogPoint(pLongitude, pLatitude) AS p FROM mytable
BigQuery implementa join spaziali ottimizzati per gli operatori INNER JOIN e CROSS JOIN con le seguenti funzioni di predicato GoogleSQL:
Le unioni spaziali non sono ottimizzate:
- Per le unioni LEFT, RIGHT o FULL OUTER
- In caso di unioni ANTI
- Quando il predicato spaziale è negato
Un JOIN che utilizza il predicato ST_DWithin
viene ottimizzato solo quando il parametro distanza è un'espressione costante.
Esportazione di dati spaziali
Quando esporti i dati spaziali da BigQuery, i valori della colonna GEOGRAPHY
sono sempre formattati come stringhe WKT. Per esportare i dati in formato GeoJSON,
utilizza la funzione ST_AsGeoJSON
.
Se gli strumenti che utilizzi per analizzare i dati esportati non riconoscono il tipo di dati GEOGRAPHY
, puoi convertire i valori di colonna in stringhe utilizzando una funzione geografica come ST_AsText
o ST_AsGeoJSON
.
L'analisi geospaziale aggiunge punti aggiuntivi alla linea, se necessario, in modo che la sequenza di spigoli convertita rimanga a una distanza massima di 10 metri dalla linea geodetica originale.
Ad esempio, la seguente query utilizza ST_AsGeoJSON
per convertire i valori GeoJSON in stringhe.
SELECT ST_AsGeoJSON(ST_MakeLine(ST_GeogPoint(1,1), ST_GeogPoint(3,2)))
I dati risultanti saranno simili ai seguenti:
{ "type": "LineString", "coordinates": [ [1, 1], [1.99977145571783, 1.50022838764041], [2.49981908082299, 1.75018082434274], [3, 2] ] }
La riga GeoJSON contiene due punti aggiuntivi. L'analisi geospaziale aggiunge questi punti in modo che la linea GeoJSON segua da vicino lo stesso percorso sul terreno della linea originale.
Passaggi successivi
- Per iniziare a utilizzare l'analisi geospaziale, consulta Guida introduttiva all'analisi geospaziale per gli analisti di dati.
- Per scoprire di più sulle opzioni di visualizzazione per l'analisi geospaziale, consulta Visualizzazione dei dati geospaziali.
- Per la documentazione sulle funzioni GoogleSQL nell'analisi geospaziale, consulta Funzioni geografiche in GoogleSQL.