Architettura di analisi geospaziali

Last reviewed 2024-03-25 UTC

Questo documento ti aiuta a comprendere le Google Cloud funzionalità geospaziali e come usarle nelle tue applicazioni di analisi geospaziale. Questo documento è rivolto a professionisti dei sistemi di informazione geografica (GIS), data scientist e sviluppatori di applicazioni che vogliono imparare a utilizzare i prodotti e i servizi disponibili in Google Cloud per fornire approfondimenti geospaziali agli stakeholder aziendali.

Panoramica

Google Cloud offre una suite completa di funzionalità di analisi geospaziale e di machine learning che possono aiutarti a sviluppare approfondimenti per comprendere meglio il mondo, il tuo ambiente e la tua attività. Le informazioni geospaziali che ottieni da queste Google Cloud funzionalità possono aiutarti a prendere decisioni aziendali più accurate e sostenibili senza la complessità e la spesa della gestione dell'infrastruttura GIS tradizionale.

Casi d'uso di analisi geospaziali

Molte decisioni aziendali critiche ruotano attorno ai dati sulla posizione. Le informazioni ricavate dall'analisi geospaziale sono applicabili a una serie di settori, attività e mercati, come descritto nei seguenti esempi:

  • Valutazione del rischio ambientale. Comprendi i rischi derivanti dalle condizioni ambientali prevedendo disastri naturali come inondazioni e incendi, per riuscire a prevedere e pianificare il rischio in modo più efficace.
  • Ottimizzazione della selezione dei siti. Combina le metriche proprietarie del sito con i dati disponibili pubblicamente, come i modelli di traffico e la mobilità geografica, quindi utilizza l'analisi geospaziale per trovare le sedi ottimali per la tua attività e prevedere i risultati finanziari.
  • Pianificazione della logistica e dei trasporti. Gestisci al meglio le operazioni di flotta, come la logistica dell'ultimo miglio, analizza i dati dei veicoli autonomi, gestisci le ferrovie di precisione e migliora la pianificazione della mobilità incorporando i dati geospaziali nel processo decisionale aziendale.
  • Comprendere e migliorare la salute e il rendimento del suolo. Analizza milioni di ettari di terreno per comprendere le caratteristiche del suolo e aiutare gli agricoltori ad analizzare le interazioni tra le variabili che influiscono sulla produzione dei raccolti.
  • Gestione dello sviluppo sostenibile. Mappa le condizioni economiche, ambientali e sociali per determinare le aree di interesse per la protezione e la tutela dell'ambiente.

Componenti di base del cloud geospaziale

L'architettura di analisi geospaziale può essere costituita da uno o più componenti cloud geospaziali, a seconda del caso d'uso e dei requisiti. Ogni componente offre funzionalità diverse e questi componenti lavorano insieme per formare un'architettura di analisi cloud geospaziale unificata e scalabile.

I dati sono la materia prima per fornire informazioni geospaziali. Dati geospaziali di qualità sono disponibili da una serie di fonti pubbliche e proprietarie. Le fonti di dati pubblici includono i set di dati pubblici di BigQuery, il catalogo Earth Engine e il United States Geological Survey (USGS). Le origini dati proprietarie includono sistemi interni come SAP e Oracle e strumenti GIS interni come Esri ArcGIS Server, Carto e QGIS. Puoi aggregare i dati di più sistemi aziendali, come la gestione dell'inventario, l'analisi di marketing e la logistica della catena di approvvigionamento, quindi combinarli con i dati delle origini geospaziali e inviare i risultati al tuo data warehouse geospaziale.

A seconda del tipo di dati e della destinazione di un'origine, potresti essere in grado di caricare le origini dati geospaziali direttamente nel tuo data warehouse di analisi. Ad esempio, BigQuery offre il supporto integrato per il caricamento di file GeoJSON delimitati da una nuova riga, mentre Earth Engine dispone di un catalogo di dati integrato con una raccolta completa di set di dati pronti per l'analisi. Puoi caricare altri dati in altri formati tramite una pipeline di dati geospaziali che pre-elabora i dati geospaziali e li carica nel data warehouse aziendale in Google Cloud. Puoi creare pipeline di dati pronte per la produzione utilizzando Dataflow. In alternativa, puoi utilizzare una soluzione di partner come FME Spatial ETL.

Il data warehouse aziendale è il nucleo della tua piattaforma di analisi geospaziale. Dopo aver caricato i dati geospaziali nel data warehouse, puoi iniziare a creare applicazioni e approfondimenti geospaziali utilizzando alcune delle seguenti funzionalità:

L'architettura funge quindi da unico sistema che puoi utilizzare per archiviare, elaborare e gestire i dati su larga scala. L'architettura ti consente inoltre di creare e implementare soluzioni di analisi avanzata che possono produrre approfondimenti non possibili su sistemi che non includono queste funzionalità.

Tipi di dati, formati e sistemi di coordinate geospaziali

Per aggregare i dati geospaziali in un data warehouse come BigQuery, devi comprendere i formati di dati geospaziali che è probabile che tu stia riscontrando nei sistemi interni e da fonti pubbliche.

Tipi di dati

I tipi di dati geospaziali si suddividono in due categorie: vettoriali e raster.

I dati vettoriali sono composti da vertici e segmenti di linea, come mostrato nel seguente diagramma.

Esempi di immagini vettoriali (punti, linee, poligoni, poligoni multi e raccolte).

Alcuni esempi di dati vettoriali sono i confini dei lotti, i lotti pubblici (strade) e le posizioni delle risorse. Poiché i dati vettoriali possono essere archiviati in un formato tabulare (righe e colonne), i database geospaziali come BigQuery e PostGIS in Cloud SQL sono eccellenti per archiviare, indicizzare e analizzare i dati vettoriali.

I dati raster sono costituiti da griglie di pixel. Alcuni esempi di dati raster sono le misurazioni atmosferiche e le immagini satellitari, come mostrato negli esempi riportati di seguito.

Esempi di immagini raster che mostrano foto aeree di aree geografiche.

Earth Engine è progettato per l'archiviazione e l'analisi su scala planetaria dei dati raster. Earth Engine include la possibilità di vettorizzare i raster, che può aiutarti a classificare le regioni e comprendere i pattern nei dati raster. Ad esempio, analizzando i dati raster atmosferici nel tempo, puoi estrarre vettori che rappresentano le correnti di vento prevalenti. Puoi caricare ogni singolo pixel del raster in BigQuery utilizzando un processo chiamato poligonizzazione, che converte ogni pixel direttamente in una forma vettoriale.

Le applicazioni cloud geospaziali spesso combinano entrambi i tipi di dati per produrre approfondimenti olistici che sfruttano i punti di forza delle origini dati di ciascuna categoria. Ad esempio, un'applicazione immobiliare che aiuta a identificare nuovi siti di sviluppo potrebbe combinare dati vettoriali come i confini dei lotti con dati raster come quelli di elevazione per ridurre al minimo il rischio di inondazioni e i costi assicurativi.

Formati dei dati

La tabella seguente elenca i formati di dati geospaziali più diffusi e i modi in cui possono essere utilizzati nella tua piattaforma di analisi.

Formato dell'origine dati Descrizione Esempi
Shapefile Un formato di dati vettoriali sviluppato da Esri. Ti consente di memorizzare posizioni geometriche e associare attributi. Geometrie dei lotti del censimento, impronte degli edifici
WKT Un formato di dati vettoriali leggibile che viene pubblicato da OGC. Il supporto di questo formato è integrato in BigQuery. Rappresentazione delle geometrie nei file CSV
WKB Un equivalente binario efficiente in termini di spazio di archiviazione del WKT. Il supporto di questo formato è integrato in BigQuery. Rappresentazione delle geometrie in file CSV e database
KML Un formato vettoriale compatibile con XML utilizzato da Google Earth e da altri strumenti per computer. Il formato è pubblicato da OGC. Forme di edifici, strade ed elementi del terreno 3D
Geojson Un formato di dati vettoriali aperti basato su JSON. Funzionalità in browser web e applicazioni mobile
GeoTIFF Un formato di dati raster ampiamente utilizzato. Questo formato consente di mappare i pixel di un'immagine TIFF alle coordinate geografiche. Modelli digitali dell'elevazione, Landsat

Sistemi di riferimento delle coordinate

Tutti i dati geospaziali, indipendentemente dal tipo e dal formato, includono un sistema di riferimento delle coordinate che consente agli strumenti di analisi geospaziali come BigQuery e Earth Engine di associare le coordinate a una posizione fisica sulla superficie terrestre. Esistono due tipi di sistemi di riferimento delle coordinate di base: geodetici e piani.

I dati geodetici tengono conto della curvatura della Terra e utilizzano un sistema di coordinate basato su coordinate geografiche (longitudine e latitudine). Le forme geodesiche sono comunemente chiamate geografie. Il sistema di riferimento delle coordinate WGS 84 usato da BigQuery è un sistema di coordinate geodesiche.

I dati planari si basano su una proiezione della mappa, come la proiezione Mercatore, che mappa le coordinate geografiche su un piano bidimensionale. Per caricare i dati planari in BigQuery, devi eseguire la riproiezione dei dati planari nel sistema di coordinate WGS 84. Puoi eseguire questa riproiezione manualmente utilizzando gli strumenti GIS esistenti o una pipeline di dati cloud geospaziali (consulta la sezione successiva).

Considerazioni per la creazione di una pipeline di dati cloud geospaziali

Come accennato, puoi caricare alcuni dati geospaziali direttamente in BigQuery ed Earth Engine, a seconda del tipo di dati. BigQuery ti consente di caricare dati vettoriali nei formati file WKT, WKB e GeoJSON se i dati utilizzano il sistema di riferimento WGS 84. Earth Engine si integra direttamente con i dati disponibili nel catalogo Earth Engine e supporta il caricamento diretto delle immagini raster nel formato file GeoTIFF.

Potresti trovare dati geospaziali archiviati in altri formati e che non possono essere caricati direttamente in BigQuery. In alternativa, i dati potrebbero essere in un sistema di riferimento delle coordinate che devi prima riprodurre nel sistema di riferimento WGS 84. Analogamente, potresti riscontrare dati che devono essere pre-trattati, semplificati e corretti per gli errori.

Puoi caricare i dati geospaziali pre-elaborati in BigQuery creando pipeline di dati geospaziali utilizzando Dataflow. Dataflow è un servizio di analisi gestito che supporta l'elaborazione dei dati in streaming e batch su larga scala.

Puoi utilizzare la libreria Python geobeam che estende Apache Beam e aggiunge funzionalità di elaborazione geospaziale a Dataflow. La libreria ti consente di leggere i dati geospaziali da varie fonti. La libreria ti aiuta anche a elaborare e trasformare i dati e a caricarli in BigQuery per utilizzarli come data warehouse cloud geospaziale. La libreria geobeam è open source, quindi puoi modificarla e estenderla per supportare formati e attività di pre-elaborazione aggiuntivi.

Utilizzando Dataflow e la libreria geobeam, puoi importare e analizzare in parallelo enormi quantità di dati geospaziali. La libreria geobeam funziona implementando connettori I/O personalizzati. La libreria geobeam include GDAL, PROJ, e altre librerie correlate per semplificare l'elaborazione dei dati geospaziali. Ad esempio, geobeam esegue automaticamente la riproiezione di tutte le geometrie di input nel sistema di coordinate WGS84 utilizzato da BigQuery per archiviare, raggruppare ed elaborare i dati spaziali.

La libreria geobeam segue i pattern di progettazione di Apache Beam, pertanto le pipeline spaziali funzionano in modo simile alle pipeline non spaziali. La differenza è che utilizzi le classi personalizzate geobeam FileBasedSource per leggere dai file di origine spaziali. Puoi anche utilizzare le geobeam funzioni di trasformazione integrate per elaborare i dati spaziali e implementare le tue funzioni.

L'esempio seguente mostra come creare una pipeline che legga un file raster, poligonizzi il raster, lo rilevi in WGS 84 e scriva i poligoni in BigQuery.

with beam.Pipeline(options=pipeline_options) as p:
  (p
   | beam.io.Read(GeotiffSource(known_args.gcs_url))
   | 'MakeValid' >> beam.Map(geobeam.fn.make_valid)
   | 'FilterInvalid' >> beam.Filter(geobeam.fn.filter_invalid)
   | 'FormatRecords' >> beam.Map(geobeam.fn.format_record,
       known_args.band_column, known_args.band_type)
   | 'WriteToBigQuery' >> beam.io.WriteToBigQuery('DATASET.TABLE'))

Analisi dei dati geospaziali in BigQuery

Una volta che i dati sono in BigQuery, puoi trasformarli, analizzarli e modellarli. Ad esempio, puoi eseguire una query sull'elevazione media di un lotto di terreno calcolando l'intersezione di queste aree geografiche e unendo le tabelle utilizzando SQL standard. BigQuery offre molte funzioni che ti consentono di creare nuovi valori geografici, calcolare le misurazioni delle geografie, esplorare la relazione tra due aree geografiche e altro ancora. Puoi eseguire l'indicizzazione geospaziale gerarchica con le celle della griglia S2 utilizzando le funzioni S2 di BigQuery. Inoltre, puoi utilizzare le funzionalità di machine learning di BigQuery ML per identificare schemi nei dati, ad esempio creare un modello di machine learning k-means per raggruppare i dati geospaziali.

Visualizzazione, report e implementazione geospaziali

Google Cloud offre diverse opzioni per visualizzare e generare report sui tuoi dati e approfondimenti spaziali al fine di fornirli a utenti e applicazioni. I metodi che utilizzi per rappresentare le informazioni spaziali dipendono dai requisiti e dagli scopi della tua attività. Non tutti gli approfondimenti spaziali sono rappresentati graficamente. Molti approfondimenti sono più efficaci se forniti tramite un servizio API come Apigee, o salvandoli in un database delle applicazioni come Firestore in modo che possano potenziare le funzionalità delle applicazioni rivolte agli utenti.

Durante il test e la prototipazione delle analisi geospaziali, puoi utilizzare BigQuery GeoViz per convalidare le query e generare un output visivo da BigQuery. Per i report di business intelligence, puoi utilizzare Looker Studio o Looker per connetterti a BigQuery e combinare le visualizzazioni geospaziali con una vasta gamma di altri tipi di report al fine di presentare una visione unificata delle informazioni di cui hai bisogno.

Puoi anche creare applicazioni che consentano agli utenti di interagire con dati e approfondimenti geospaziali e di incorporare questi approfondimenti nelle tue applicazioni aziendali. Ad esempio, utilizzando Google Maps Platform, puoi combinare analisi geospaziali, machine learning e dati dell'API Maps in un'unica applicazione basata su mappe. Utilizzando librerie open source come deck.gl, puoi includere visualizzazioni e animazioni ad alte prestazioni per raccontare storie basate su mappe e rappresentare meglio i tuoi dati.

Google dispone inoltre di un ecosistema solido e in crescita di offerte dei partner che possono aiutarti a sfruttare al meglio le informazioni geospaziali. Carto, NGIS, Climate Engine, e altri hanno funzionalità e offerte specializzate che puoi personalizzare in base al tuo settore e alla tua attività.

Architettura di riferimento

Il seguente diagramma mostra un'architettura di riferimento che illustra l'interazione tra i componenti cloud geospaziali. L'architettura ha due componenti chiave: la pipeline di dati geospaziali e la piattaforma di analisi geospaziale.

Architettura che mostra il flusso da un'origine dati (Earth Engine o Cloud Storage) attraverso una pipeline basata su Dataflow e inserisce i risultati in BigQuery.

Come mostrato nel diagramma, i dati delle origini geospaziali vengono caricati in Cloud Storage e in Earth Engine. Da entrambi i prodotti, i dati possono essere caricati tramite una pipeline Dataflow utilizzando geobeam per eseguire operazioni di preelaborazione comuni come la convalida delle funzionalità e la re-proiezione della geometria. Dataflow scrive l'output della pipeline in BigQuery. Quando i dati sono in BigQuery, possono essere analizzati in situ utilizzando BigQuery Analytics e il machine learning oppure è possibile accedervi da altri servizi come Looker Studio, Looker, Vertex AI e Apigee.

Passaggi successivi