Sistemi a griglia per l'analisi spaziale

Questo documento illustra lo scopo e i metodi di utilizzo dei sistemi a griglia geospaziale (ad es. S2 e H3) in BigQuery per organizzare i dati spaziali in aree geografiche standardizzate. Viene inoltre spiegato come scegliere il sistema di griglia più adatto alla tua applicazione. Questo è utile per chiunque lavori con dati spaziali ed esegua l'analisi in BigQuery.

Panoramica e sfide dell'utilizzo dell'analisi spaziale

L'analisi spaziale aiuta a mostrare la relazione tra entità (negozi o case) ed eventi in uno spazio fisico. Analisi spaziale che utilizzano la superficie della Terra come spazio fisico chiamato analisi geospaziali. BigQuery include caratteristiche e funzioni geospaziali che consentono di eseguire analisi geospaziali su larga scala.

Molti casi d'uso geospaziali implicano l'aggregazione dei dati all'interno di aree localizzate e confrontando le aggregazioni statistiche di queste aree tra loro. Questi le aree localizzate sono rappresentate come poligoni in una tabella di database spaziale. In alcuni contesti, è chiamato geografia statistica. Il metodo per determinare l'estensione delle aree geografiche deve standardizzati per migliorare i report, le analisi indicizzazione spaziale. Ad esempio, un rivenditore potrebbe voler analizzare i cambiamenti dei gruppi demografici nel tempo nelle zone in cui si trovano i loro negozi o in quelle in cui si trovano prendere in considerazione la creazione di un nuovo negozio. Oppure, una compagnia assicurativa potrebbe voler migliorare la propria comprensione dei rischi immobiliari analizzando rischi naturali prevalenti in una determinata area.

A causa delle rigide normative sulla privacy dei dati in molte aree, i set di dati che contengono le informazioni sulla posizione devono essere anonimizzate o parzialmente anonimizzate per contribuire a proteggere la privacy delle persone rappresentate nei dati. Ad esempio: potresti dover eseguire un'analisi del rischio di concentrazione del credito geografica set di dati contenente dati sui mutui ipotecari in sospeso. Per anonimizzare che lo renda adatto a un'analisi conforme, è necessario conservare i sulla posizione delle strutture, ma evita di utilizzare una specifica l'indirizzo o le coordinate di longitudine e latitudine.

Negli esempi precedenti, ai progettisti di queste analisi vengono presentati le seguenti sfide:

  • Come tracciare i confini dell'area entro i quali si analizzano i cambiamenti nel tempo?
  • Come utilizzare i confini amministrativi esistenti, come le sezioni di censimento o un sistema a griglia multi-risoluzione?

Questo documento mira a rispondere a queste domande spiegando ogni opzione, descrivendo le best practice e aiutandoti a evitare gli errori più comuni.

Insidie comuni nella scelta delle aree statistiche

Set di dati aziendali come vendite immobiliari, campagne di marketing, e-commerce spedizioni e polizze assicurative sono adatte per l'analisi spaziale. Spesso si tratta di set di dati contengono quella che sembra essere una pratica chiave di join spaziale, come sezione di censimento, un codice postale o il nome di una città. Set di dati pubblici che contengono di sezioni di censimento, codici postali e città sono immediatamente disponibili, il che li induce ad avere la tentazione di usarli come confini amministrativi per i sistemi e aggregazione.

Questi e altri confini amministrativi, sebbene nominalmente comodi, svantaggi. Inoltre, questi limiti potrebbero funzionare bene nelle prime fasi di una progetto di analisi dei dati, ma gli svantaggi si possono notare nelle fasi successive.

Codici postali

I codici postali vengono utilizzati per indirizzare la posta in vari paesi in tutto il mondo e a causa di questa ubiquità, vengono spesso utilizzati per fare riferimento a luoghi e aree set di dati spaziali e non spaziali. Facendo riferimento all'esempio precedente, un mutuo, spesso è necessario anonimizzare un set di dati prima che avvenga eseguire analisi. Poiché l'indirizzo di ogni proprietà contiene un codice postale, le tabelle di riferimento dei codici postali sono accessibili, il che la rende una comoda opzione per chiave di join per l'analisi spaziale.

Un errore nell'utilizzo dei codici postali è che non vengono rappresentati come poligoni e non esiste un'unica fonte attendibile corretta per il codice postale in queste aree. Inoltre, i codici postali non rappresentano una buona rappresentazione del reale comportamento umano. I dati del codice postale più comunemente utilizzati negli Stati Uniti provengono da: i file TIGER/Line Shapefile degli US Census Bureau, che contiene un set di dati chiamato ZCTA5 (area di tabulazione codici postali). Questo set di dati rappresenta un'approssimazione dei confini del codice postale derivati provenienti dai percorsi di consegna della posta. Tuttavia, alcuni codici postali che rappresentano singoli edifici non hanno confini. Il problema si verifica in altri paesi difficile formare un'unica tabella delle informazioni globale che contenga una un insieme autorevole di confini di codici postali che può essere utilizzato in più sistemi tra set di dati.

Inoltre, in tutto il mondo non viene utilizzato un formato di codice postale standardizzato. Alcuni sono numerici, con un numero di cifre compreso tra tre e dieci, mentre altri sono alfanumerici. C'è anche una sovrapposizione tra i paesi, il che rende necessario archiviare paese di origine in una colonna distinta insieme al codice postale. Alcune paesi non utilizzano i codici postali, complicando ulteriormente l'analisi.

Zone di censimento, città e contee

Esistono alcune unità amministrative, come sezioni di censimento, città e contee che non soffrono per la mancanza di un confine autorevole. I confini città, ad esempio, sono nella maggior parte dei casi ben stabilite dal governo le autorità competenti. Le sezioni di censimento sono ben definite dallo US Census Bureau istituzioni analoghe nella maggior parte degli altri paesi.

Uno svantaggio di usare questi e altri confini amministrativi è che cambiano nel tempo e non sono geograficamente coerenti tra loro. Contee e città si uniscono o si dividono tra loro e occasionalmente è stato rinominato. Negli Stati Uniti, le sezioni di censimento vengono aggiornate una volta ogni decennio volte in altri paesi. In alcuni casi, il confine geografico può essere confuso modifica, ma il suo identificatore univoco rimane lo stesso, il che rende difficile analizzare e comprendere i cambiamenti nel tempo.

Un altro svantaggio comune ad alcuni confini amministrativi è che sono aree discrete senza gerarchia geografica. Oltre a confrontare le singole aree tra loro, un requisito comune è confrontare delle aree stesse ad altre aggregazioni. Ad esempio, un rivenditore che implementa il modello Huff potresti voler eseguire questa analisi utilizzando più distanze, il che potrebbe non corrispondono alle aree amministrative utilizzate altrove nell'attività.

Griglie a risoluzione singola e multipla

Le griglie a risoluzione singola sono costituite da unità discrete che non hanno alcuna relazione geografica alle aree più grandi che le contengono. Ad esempio, i codici postali hanno un relazione geografica incoerente con i confini delle aree amministrative più come città o contee che possono contenere codici postali. Per lo spazio dei dati, è importante capire in che modo le diverse aree sono correlate senza conoscere a fondo la storia e la legislazione che definisce il poligono dell'area.

Le griglie a risoluzione multi-risoluzione a volte sono chiamate griglie gerarchiche perché le celle a ogni livello di zoom vengono suddivisi in celle più piccole a livelli di zoom più elevati. Le griglie a risoluzione multi-risoluzione sono costituite da una gerarchia ben definita di unità che sono contenuti in unità più grandi. Le sezioni di censimento, ad esempio, contengono gruppi di blocchi, che a loro volta contengono blocchi. Questa relazione gerarchica coerente può essere utile per l'aggregazione statistica. Ad esempio, prendendo una media di i redditi di tutti i gruppi di blocchi contenuti in un contratto, puoi mostrare il valore le entrate della sezione censita contenente i gruppi di blocco. Non sarebbe possibile con i codici postali perché tutte le aree postali si trovano in un unico posto risoluzione del problema. Sarebbe difficile confrontare il reddito di un contratto con il suo le sezioni circostanti in quanto non esiste un modo standardizzato per definire l'adiacenza, o confrontando il reddito in paesi diversi.

Sistemi di rete S2 e H3

Questa sezione fornisce una panoramica dei sistemi di rete S2 e H3.

S2

La geometria S2 è un sistema di griglia gerarchico open source sviluppati da Google e rilasciati al pubblico nel 2011. Puoi utilizzare la griglia S2 sistema per organizzare e indicizzare i dati spaziali assegnando un numero intero univoco a 64 bit a ciascuna cella. Ci sono 31 livelli di risoluzione. Ogni cella è rappresentata da quadrato ed è progettato per operazioni su geometrie sferiche (a volte chiamate aree geografiche). Ogni quadrato è suddiviso in quattro quadrati più piccoli. Attraversamento vicino, che è la capacità di identificare le celle S2 vicine, è meno definita perché i quadrati possono avere quattro o otto vicini pertinenti, a seconda del tipo di analisi. Di seguito è riportato un esempio di celle della griglia S2 a risoluzione multipla:

Esempio di celle della griglia S2.

BigQuery utilizza le celle S2 per indicizzare i dati spaziali ed espone più funzioni. Ad esempio, S2_CELLIDFROMPOINT restituisce l'ID cella S2 che contiene un punto sulla superficie terrestre in un determinato livello.

H3

H3 è una griglia gerarchica open source sviluppato da Uber e utilizzato da Overture Maps. Ci sono 16 livelli di risoluzione del problema. Ogni cella è rappresentata da un esagono e, come S2, ogni cella è assegnato un numero intero univoco a 64 bit. Nell'esempio relativo a visualizzazione di celle H3 che coprono il Golfo del Messico, le celle H3 più piccole non sono contenute perfettamente dalle celle più grandi.

Ogni cella si divide in sette esagoni più piccoli. La suddivisione non è esatta, ma è adeguato per molti casi d'uso. Ogni cella condivide un bordo con sei celle vicine, semplificando l'attraversamento del vicino. Ad esempio, a ogni livello, ci sono 12 pentagoni, che invece condividono un vantaggio con cinque vicini di sei. Sebbene H3 non sia supportato in BigQuery, puoi aggiungere il supporto di H3 a BigQuery utilizzando Strumenti di analisi di Carto Analytics per BigQuery.

Sebbene entrambe le librerie S2 e H3 siano open source e disponibili Licenza Apache 2, la libreria H3 offre una documentazione più dettagliata.

HEALPix

Uno schema aggiuntivo per grigliare la sfera, comunemente usato nel campo dell'astronomia, è nota come Hierarchical Equal Area isoLatitude Pixelation (HEALPix). HEALPix è indipendente da una profondità di pixel gerarchica, ma il tempo di calcolo rimane costante.

HEALPix è uno schema di pixelizzazione gerarchico ad area uguale per la sfera. È utilizzata per rappresentare e analizzare dati sulla sfera celeste (o altro). Nel oltre a tempo di calcolo costante, la griglia HEALPix ha le seguenti caratteristiche:

  • Le celle della griglia sono gerarchiche, in cui le relazioni padre-figlio sono viene mantenuta.
  • In una gerarchia specifica, le celle sono di aree uguali.
  • Le celle seguono una distribuzione iso-latitudine, consentendo prestazioni più elevate per i metodi spettrali.

BigQuery non supporta HEALPix, ma numerose implementazioni in una varietà di linguaggi, tra cui JavaScript, che lo rende pratico per l'uso in BigQuery (UDF).

Esempi di casi d'uso per ogni strategia di indicizzazione

Questa sezione fornisce alcuni esempi che ti aiutano a valutare qual è la soluzione migliore di rete per il tuo caso d'uso.

Molti casi d'uso relativi all'analisi e alla generazione di report prevedono la visualizzazione, nell'ambito per l'analisi stessa o per la segnalazione agli stakeholder aziendali. Questi vengono generalmente presentate in Web Mercator, ovvero la proiezione planare utilizzata da Google Maps e da molti altri di mappatura delle applicazioni. Nei casi in cui la visualizzazione gioca un ruolo fondamentale, le celle H3 offrire un'esperienza di visualizzazione soggettivamente migliore. nelle celle S2, soprattutto latitudini più alte, tendono a apparire più distorte di S3 e a non coerente con celle di latitudine inferiori se presentate in una proiezione planare.

Le celle H3 semplificano l'implementazione laddove il confronto tra i vicini gioca un ruolo importante il ruolo nell'analisi. Ad esempio, un'analisi comparativa tra le sezioni di città può aiutare a decidere quale sede è più adatta per l'apertura di un nuovo punto vendita o un centro di distribuzione. L'analisi richiede calcoli statistici per di una determinata cella che viene confrontata con le celle vicine.

Le cellule S2 possono funzionare meglio nelle analisi di natura globale, come le analisi che prevedono la misurazione di distanze e angoli. Pokemon Go di Niantic utilizza celle S2 per determinare dove sono posizionati gli asset del gioco e come distribuiti in tempo reale. L'esatta proprietà di suddivisione delle celle S2 garantisce che gli asset possono essere distribuiti uniformemente in tutto il mondo.

Passaggi successivi