Sistemas de grade para análise espacial

Neste documento, explicamos o propósito e os métodos para usar sistemas de grade geoespacial (como S2 e H3) no BigQuery a fim de organizar dados espaciais em áreas geográficas padronizadas. Também explicamos como escolher o sistema de grade ideal para o aplicativo. Este documento é útil para quem trabalha com dados espaciais e faz análises espaciais no BigQuery.

Visão geral e desafios do uso de análises espaciais

A análise espacial ajuda a mostrar a relação entre entidades (lojas ou casas) e eventos em um espaço físico. A análise espacial, que usa a superfície da Terra como espaço físico, é chamada de análise geoespacial. O BigQuery inclui recursos e funções geoespaciais que permitem realizar análises geoespaciais em escala.

Muitos casos de uso geoespaciais envolvem a agregação de dados em áreas localizadas e a comparação de agregações estatísticas dessas áreas entre si. Essas áreas localizadas são representadas como polígonos em uma tabela de banco de dados espacial. Em alguns contextos, esse método é chamado de geografia estatística. O método para determinar a extensão das áreas geográficas precisa ser padronizado para melhores relatórios, análises e indexação espacial. Por exemplo, um varejista pode querer analisar as mudanças nas informações demográficas ao longo do tempo em áreas em que estão localizadas as lojas ou em áreas em que está pensando em construir uma nova loja. Uma seguradora pode querer melhorar a compreensão de riscos de propriedade analisando riscos de perigo natural predominantes em uma área específica.

Devido a regulamentações rígidas de privacidade de dados em muitas áreas, os conjuntos de dados que contêm informações de localização precisam ser desidentificados ou parcialmente anonimizados para ajudar a proteger a privacidade das pessoas representadas neles. Por exemplo, pode ser necessário realizar uma análise de risco de concentração de crédito geográfica em um conjunto de dados que contém dados sobre empréstimos hipotecários pendentes. Para desidentificar o conjunto de dados e torná-lo adequado para a análise em conformidade, você precisa manter informações relevantes sobre o local das propriedades, mas evitar o uso de um endereço específico ou de coordenadas de longitude e latitude.

Nos exemplos anteriores, os designers dessas análises recebem os seguintes desafios:

  • Como traçar os limites da área dentro dos quais você analisa as mudanças ao longo do tempo?
  • Como usar os limites administrativos atuais, como setores censitários ou um sistema de grade de várias resoluções?

Este documento tem como objetivo responder a essas perguntas explicando cada opção, descrevendo as práticas recomendadas e ajudando você a evitar armadilhas comuns.

Erros comuns ao escolher áreas estatísticas

Para análise espacial, são adequados os conjuntos de dados de negócios, como vendas de imóveis, campanhas de marketing, remessas de e-commerce e apólices de seguro. Muitas vezes, esses conjuntos de dados contêm o que parece ser uma chave de junção espacial conveniente, como um setor censitário, um CEP ou o nome de uma cidade. Os conjuntos de dados públicos que contêm representações de setores censitários, CEPs e cidades estão prontamente disponíveis, o que os torna tentadores de usar como limites administrativos para agregação estatística.

Embora sejam nominalmente convenientes, esses e outros limites administrativos têm desvantagens. Além disso, esses limites podem funcionar bem nos estágios iniciais de um projeto de análise, mas as desvantagens podem ser notadas nos estágios posteriores.

CEPs

Os CEPs são usados para rotear correspondências em vários países do mundo e, devido a essa onipresença, costumam ser usados para fazer referência a locais e áreas em conjuntos de dados espaciais e não espaciais. Com base no exemplo anterior sobre empréstimo hipotecário, um conjunto de dados geralmente precisa ser desidentificado antes que a análise downstream possa ser executada. Como cada endereço de propriedade contém um CEP, as tabelas de referência desse código são acessíveis, o que as torna uma opção conveniente para uma chave de junção para análise espacial.

Um problema no uso de CEPs é que eles não são representados como polígonos, e não há uma única fonte de verdade confiável para as áreas de códigos postais. Além disso, os CEPs não são uma boa representação do comportamento humano real. Os dados de CEP mais usados nos EUA são do US Census Bureau TIGER/Line Shapefiles, que contém um conjunto de dados chamado ZCTA5 (área de tabulação de CEP). Esse conjunto de dados representa uma aproximação dos limites de CEP derivados de rotas de entrega de correspondência. No entanto, alguns CEPs que representam edifícios individuais não têm limite. Esse problema também está presente em outros países, dificultando a criação de uma única tabela de fatos global que contenha um conjunto autoritativo de limites de códigos postais que possa ser usado em sistemas e conjuntos de dados.

Além disso, não existe um formato de código postal padronizado que seja usado no mundo todo. Alguns são numéricos, variando de três a dez dígitos, enquanto outros são alfanuméricos. Há também uma sobreposição entre países, o que faz com que seja necessário armazenar o país de origem em uma coluna separada, além do código postal. Alguns países não usam CEPs, o que complica ainda mais a análise.

Setores censitários, cidades e condados

Algumas unidades administrativas, como setores censitários, cidades e condados, não sofrem com a falta de um limite autoritativo. Os limites das cidades, por exemplo, são, na maioria dos casos, bem estabelecidos por autoridades do governo. Os setores censitários são bem definidos pelo US Census Bureau e por instituições análogas na maioria dos outros países.

Uma desvantagem de usar esses e outros limites administrativos é que eles mudam com o tempo e não são geograficamente consistentes entre si. Os condados e as cidades se mesclam ou se separam e, às vezes, são renomeados. Os setores censitários são atualizados uma vez por década nos EUA e em momentos diferentes em outros países. Surpreendentemente, o limite geográfico pode mudar em alguns casos, mas o identificador exclusivo permanece o mesmo, dificultando a análise e a compreensão das mudanças ao longo do tempo.

Outra desvantagem comum a alguns limites administrativos é que eles são áreas discretas sem hierarquia geográfica. Além de comparar áreas individuais entre si, um requisito comum é comparar as agregações das próprias áreas com outras agregações. Por exemplo, um varejista que está implementando o modelo Huff pode querer executar essa análise usando várias distâncias, que podem não corresponder a áreas administrativas usadas em outros lugares da empresa.

Grades de resolução única e multirresolução

Grades de resolução única consistem em unidades discretas que não têm relação geográfica com áreas maiores que contêm essas unidades. Por exemplo, os CEPs têm uma relação geográfica inconsistente com os limites de unidades administrativas maiores, como cidades ou condados que podem conter CEPs. Para a análise espacial, é importante entender como diferentes áreas estão relacionadas sem ter profundo conhecimento da história e da legislação que define o polígono da área.

As grades multirresolução às vezes são chamadas de grades hierárquicas porque as células em cada nível de zoom são subdivididas em células menores em níveis de zoom mais altos. Grades multirresolução consistem em hierarquias bem definidas de unidades contidas em unidades maiores. Os setores censitários, por exemplo, contêm grupos de blocos, que, por sua vez, contêm blocos. Essa relação hierárquica consistente pode ser útil para a agregação estatística. Por exemplo, ao calcular a média das rendas de todos os grupos de blocos contidos em uma divisão, é possível mostrar a renda média desse setor que contém os grupos de blocos. Isso não seria possível com CEPs, porque todas as áreas postais estão localizadas em uma única resolução. Seria difícil comparar a renda de uma divisão com as áreas ao redor, já que não há uma forma padronizada de definir a continuidade ou comparar a renda em países diferentes.

Sistemas de grade S2 e H3

Esta seção fornece uma visão geral dos sistemas de grade S2 e H3.

S2

A geometria S2 é um sistema de grade hierárquica de código aberto desenvolvido pelo Google e lançado para o público em 2011. Use o sistema de grade S2 para organizar e indexar dados espaciais atribuindo um número inteiro exclusivo de 64 bits a cada célula. Há 31 níveis de resolução. Cada célula é representada como um quadrado e é projetada para operações em geometrias esféricas (às vezes chamadas de geografias). Cada quadrado é subdividido em quatro quadrados menores. A travessia de vizinhos, que é a capacidade de identificar células S2 vizinhas, é menos bem definida porque os quadrados podem ter quatro ou oito vizinhos relevantes, dependendo do tipo de análise. Confira o seguinte exemplo de células de grade S2 multirresolução:

Exemplo de células da grade S2.

O BigQuery usa células S2 para indexar dados espaciais e expõe várias funções. Por exemplo, S2_CELLIDFROMPOINT retorna o ID de célula S2 que contém um ponto na superfície da Terra em um determinado nível.

H3

O H3 é um sistema de grade hierárquica de código aberto desenvolvido pela Uber e usado pelo Overture Maps. Há 16 níveis de resolução. Cada célula é representada como um hexágono e, como em S2, cada célula recebe um número inteiro exclusivo de 64 bits. No exemplo sobre visualização de células H3 cobrindo o Golfo do México, as células H3 menores não estão perfeitamente contidas nas células maiores.

Cada célula é subdividida em sete hexágonos menores. A subdivisão não é exata, mas é adequada para muitos casos de uso. Cada célula compartilha uma borda com seis células vizinhas, o que simplifica a travessia vizinha. Por exemplo, em cada nível, há 12 pentágonos, que compartilham uma borda com cinco vizinhos em vez de seis. Embora o BigQuery não ofereça suporte a H3, você pode adicionar suporte a H3 ao BigQuery usando a Carto Analytics Toolbox para BigQuery.

Embora as bibliotecas S2 e H3 sejam de código aberto e estejam disponíveis sob a licença Apache 2, a biblioteca H3 tem uma documentação mais detalhada.

HEALPix

Um esquema adicional para fazer a grade da esfera, comumente usado no campo da astronomia, é conhecido como HEALPix. HEALPix é independente da profundidade hierárquica de pixels, mas o tempo de computação permanece constante.

O HEALPix é um esquema hierárquico de pixelização de área igual para a esfera. Ele é usado para representar e analisar dados na esfera celestial (ou outra). Além do tempo de computação constante, a grade HEALPix tem as seguintes características:

  • As células da grade são hierárquicas, e as relações pai-filho são mantidas.
  • Em uma hierarquia específica, as células são de áreas iguais.
  • As células seguem uma distribuição de iso-latitude, o que permite maior desempenho para métodos espectrais.

O BigQuery não é compatível com o HEALPix, mas há diversas implementações em várias linguagens, incluindo JavaScript, o que o torna conveniente para uso em funções definidas pelo usuário (UDFs) do BigQuery.

Exemplos de casos de uso para cada estratégia de indexação

Esta seção fornece alguns exemplos que ajudam você a avaliar qual é o melhor sistema de grade para seu caso de uso.

Muitos casos de uso de análise e geração de relatórios envolvem visualização, seja como parte da análise ou para informar as partes interessadas dos negócios. Essas visualizações geralmente são apresentadas no Web Mercator, que é a projeção plana usada pelo Google Maps e por muitos outros aplicativos de mapeamento da Web. Nos casos em que a visualização desempenha um papel vital, as células H3 proporcionam uma experiência de visualização subjetivamente melhor. As células S2, especialmente em latitudes mais altas, tendem a parecer mais distorcidas do que H3 e não parecem consistentes com células de latitudes mais baixas quando apresentadas em uma projeção plana.

As células H3 simplificam a implementação quando a comparação de vizinhos desempenha um papel importante na análise. Por exemplo, uma análise comparativa entre seções de uma cidade pode ajudar a decidir qual local é adequado para a abertura de uma nova loja de varejo ou centro de distribuição. A análise requer cálculos estatísticos para atributos de uma determinada célula que são comparados com suas células vizinhas.

As células S2 podem funcionar melhor em análises de natureza global, como análises que envolvem medições de distâncias e ângulos. O Pokémon Go da Niantic usa células S2 para determinar onde os recursos do jogo são colocados e como são distribuídos. A propriedade de subdivisão exata das células S2 garante que os recursos do jogo possam ser distribuídos de maneira uniforme em todo o mundo.

A seguir