Arquitectura de estadísticas geoespaciales

Last reviewed 2024-03-25 UTC

En este documento, encontrarás ayuda para comprender las capacidades geoespaciales de Google Cloud y cómo puedes usarlas en tus aplicaciones de estadísticas geoespaciales. Este documento está dirigido a profesionales de sistemas de información geográfica (GIS), científicos de datos y desarrolladores de aplicaciones que quieran aprender a usar los productos y servicios disponibles en Google Cloud para entregar estadísticas geoespaciales a las partes interesadas de la empresa.

Descripción general

Google Cloud proporciona un conjunto integral de funciones de aprendizaje automático y estadísticas geoespaciales que pueden ayudarte a desarrollar estadísticas para comprender más sobre el mundo, el entorno y la empresa. Las estadísticas geoespaciales que obtienes de estas capacidades de Google Cloud pueden ayudarte a tomar decisiones empresariales más precisas y sustentables sin la complejidad y el gasto de administrar infraestructura tradicional de GIS.

Casos de uso de análisis geoespaciales

Muchas decisiones de negocios esenciales se relacionan con los datos de ubicación. Las estadísticas obtenidas de estadísticas geoespaciales se pueden aplicar en varios sectores, empresas y mercados, como se describe en los siguientes ejemplos:

  • Evalúa el riesgo ambiental. Comprende los riesgos que presentan las condiciones ambientales mediante la predicción de desastres naturales, como inundaciones e incendios naturales, que te ayudará a anticipar los riesgos con mayor eficacia y planificarlo.
  • Optimización de la selección de sitios. Combina las métricas del sitio de propiedad con datos disponibles a nivel público, como patrones de tráfico y movilidad geográfica, y, luego, usa estadísticas geoespaciales para encontrar las ubicaciones óptimas para tu negocio y predecir resultados financieros.
  • Planifica la logística y el transporte. Administra mejor las operaciones de flota, como la logística de red de acceso, analiza datos de vehículos autónomos, administra los recorridos de precisión y mejora la planificación de la movilidad mediante la incorporación de datos geoespaciales en la toma de decisiones empresariales.
  • Información y mejora del estado y el rendimiento del suelo. Analiza millones de kilómetros de suelo para comprender las características del suelo y ayudar a los agricultores a analizar las interacciones entre las variables que afectan la producción de cosechas.
  • Administración del desarrollo sustentable. Asigna condiciones económicas, ambientales y sociales para determinar las áreas de enfoque de protección y conservación del medioambiente.

Componentes básicos geoespacial de la nube

Tu arquitectura de estadísticas geoespaciales puede consistir en uno o más componentes de la nube geoespacial, según tu caso de uso y requisitos. Cada componente proporciona diferentes capacidades, y estos funcionan en conjunto para formar una arquitectura unificada de estadísticas de nube geoespaciales y escalables.

Los datos son el material sin procesar para entregar estadísticas geoespaciales. Los datos geoespaciales de calidad están disponibles a partir de varias fuentes públicas y patentadas. Las fuentes de datos públicos incluyen conjuntos de datos públicos de BigQuery, el catálogo de Earth Engine y el Servicio Geológico de los Estados Unidos (USGS). Las fuentes de datos privadas incluyen sistemas internos, como SAP y Oracle, y herramientas Git internas, como Esri ArcGIS Server, Carto y QGIS. Puedes agregar datos de varios sistemas empresariales, como la administración del inventario, las estadísticas de marketing y la logística de la cadena de suministro, y, luego, combinar esos datos con datos de origen geoespaciales y enviar los resultados al almacén de datos geoespaciales.

Según el tipo de destino y el tipo de datos de una fuente, puedes cargar fuentes de datos geoespaciales directamente en tu almacén de datos de estadísticas. Por ejemplo, BigQuery tiene compatibilidad integrada para cargar archivos GeoJSON delimitados por saltos de línea y Earth Engine tiene un catálogo de datos integrado con una colección completa de conjuntos de datos listos para el análisis. Puedes cargar otros datos en otros formatos a través de una canalización de datos geoespaciales que realiza el procesamiento previo de los datos geoespaciales y los carga en el almacén de datos empresariales en Google Cloud. Puedes compilar canalizaciones de datos listas para la producción mediante Dataflow. Como alternativa, puedes usar una solución de socios, como ETL espacial de FME.

El almacén de datos empresariales es el núcleo de tu plataforma de estadísticas geoespaciales. Después de cargar los datos geoespaciales en el almacén de datos, puedes comenzar a compilar estadísticas y aplicaciones geoespaciales mediante algunas de las siguientes capacidades:

Tu arquitectura funciona como un sistema único que puedes usar para almacenar, procesar y administrar datos a gran escala. La arquitectura también te permite compilar y, luego, implementar soluciones de estadísticas avanzadas que pueden producir estadísticas que no son posibles en sistemas que no incluyen estas funciones.

Tipos de datos geoespaciales, formatos y sistemas de coordenadas

Para agregar tus datos geoespaciales a un almacén de datos como BigQuery, debes comprender los formatos de datos geoespaciales que es probable que encuentres en sistemas internos y de fuentes públicas.

Tipos de datos

Los tipos de datos geoespaciales se dividen en dos categorías: vectoriales y de trama.

Los datos vectoriales se componen de vértices y segmentos de línea, como se muestra en el siguiente diagrama.

Ejemplos de imágenes vectoriales (punto, LineString, polígono, multipolígono y colecciones).

Los ejemplos de datos vectoriales incluyen límites de parcelas, derechos de paso públicos (rutas) y ubicaciones de recursos. Debido a que los datos vectoriales se pueden almacenar en un formato tabular (fila y columna), las bases de datos geoespaciales, como BigQuery y PostGIS en Cloud SQL, superan el almacenamiento, la indexación y análisis de datos vectoriales.

Los datos de trama están compuestos por cuadrículas de píxeles. Los ejemplos de datos de trama incluyen medidas atmosféricas y también imágenes satelitales, como se muestra en los siguientes ejemplos.

Ejemplos de imágenes de trama que muestran fotos operativas de áreas geográficas.

Earth Engine está diseñado para el almacenamiento y el análisis de datos de trama a escala mundial. Earth Engine incluye la capacidad de vectorizar tramas, lo que puede ayudarte a clasificar regiones y comprender patrones en datos de trama. Por ejemplo, mediante el análisis de datos de trama atmosféricos a lo largo del tiempo, puedes extraer vectores que representan las corrientes de viento predominantes. Puedes cargar cada píxel de trama individual en BigQuery mediante un proceso llamado polígono, que convierte cada píxel directamente en una forma de vector.

Las aplicaciones de nubes geoespaciales suelen combinar ambos tipos de datos para producir estadísticas integrales que aprovechan las fortalezas de las fuentes de datos de cada categoría. Por ejemplo, una aplicación inmobiliaria que ayuda a identificar nuevos sitios de desarrollo podría combinar datos vectoriales, como límites de parcelas, con datos de tramas como datos de elevación para minimizar el riesgo de inundación y los costos de seguros.

Formatos de datos

En la siguiente tabla, se enumeran los formatos de datos geoespaciales populares y las formas en que se pueden usar en tu plataforma de estadísticas.

Formato de fuente de datos Descripción Ejemplos
Shapefile Un formato de datos vectoriales que desarrolló Esri. Te permite almacenar ubicaciones geométricas y asociar atributos. Geometrías de censos, huellas digitales
WKT Un formato de datos vectoriales legible que publica OGC. La compatibilidad con este formato está integrada en BigQuery. Representación de geometrías en archivos CSV
WKB Un equivalente binario eficiente del almacenamiento de WKT. La compatibilidad con este formato está integrada en BigQuery. Representación de geometrías en archivos y bases de datos CSV
KML Un formato vector compatible con XML que usa Google Earth y otras herramientas de escritorio. OGC publica el formato. Formas de edificios 3D, rutas, accidentes terrestres
Geojson Un formato de datos vectoriales abierto que se basa en JSON. Funciones en navegadores web y aplicaciones para dispositivos móviles
GeoTIFF Un formato de datos de trama muy usado. Este formato te permite asignar píxeles de una imagen TIFF a coordenadas geográficas. Modelos de elevación digital, Landsat

Sistemas de referencia de coordenadas

Todos los datos geoespaciales, sin importar el tipo y el formato, incluyen un sistema de referencia de coordenadas que permite que las herramientas de análisis geoespaciales como BigQuery y Earth Engine asocien coordenadas con una ubicación física. la superficie de la Tierra. Existen dos tipos básicos de sistemas de referencia de coordenadas: geodésica y plana.

Los datos geodésicos tienen en cuenta la curvatura de la Tierra y usan un sistema de coordenadas basado en coordenadas geográficas (longitud y latitud). Las formas geodésicas se conocen como geografías. El sistema de referencia de coordenadas WGS 84 que usa BigQuery es un sistema de coordenadas geodésicas.

Los datos planos se basan en una proyección geográfica, como Mercator, que asigna coordenadas geográficas a un plano bidimensional. Para cargar datos planos en BigQuery, debes volver a proyectar datos planos en el sistema de coordenadas WGS 84. Puedes realizar esta reproyección de forma manual con tus herramientas de GIS existentes o con una canalización de datos de nube geoespacial (consulta la siguiente sección).

Consideraciones para compilar una canalización de datos geoespacial en la nube

Como se mencionó, puedes cargar algunos datos geoespaciales directamente en BigQuery y Earth Engine, según el tipo de datos. BigQuery te permite cargar datos vectoriales en los formatos de archivo WKT, WKB y GeoJSON si los datos usan el sistema de referencia WGS 84. Earth Engine se integra directamente con los datos disponibles en el catálogo de Earth Engine y admite la carga de imágenes de trama directamente en el formato de archivo GeoTIFF.

Es posible que encuentres datos geoespaciales que se almacenan en otros formatos y que no se pueden cargar directamente en BigQuery. O bien, es posible que los datos estén en un sistema de referencia de coordenadas que primero debes volver a proyectar en el sistema de referencia de WGS 84. Del mismo modo, es posible que encuentres datos que se deban procesar, simplificar y corregir para detectar errores.

Puedes cargar datos geoespaciales preprocesados en BigQuery mediante la compilación de canalizaciones de datos geoespaciales mediante Dataflow. Dataflow es un servicio de estadísticas administrado que admite la transmisión y el procesamiento de datos por lotes a gran escala.

Puedes usar la biblioteca de Python geobeam que extiende Apache Beam y agrega capacidades de procesamiento geoespacial a Dataflow. La biblioteca te permite leer datos geoespaciales de una variedad de fuentes. La biblioteca también te ayudará a procesar y transformar los datos y cargarlos en BigQuery para usarlos como tu almacén de datos en la nube geoespacial. La biblioteca geobeam es de código abierto, por lo que puedes modificarla y extenderla para admitir formatos adicionales y tareas de procesamiento previo.

Con Dataflow y la biblioteca geobeam, puedes transferir y analizar grandes cantidades de datos geoespaciales en paralelo. La biblioteca geobeam funciona mediante la implementación de conectores de E/S personalizados. La biblioteca geobeam incluye GDAL, PROJ y otras bibliotecas relacionadas para facilitar el procesamiento de datos geoespaciales. Por ejemplo, geobeam vuelve a proyectar de forma automática todas las geometrías de entrada en el sistema de coordenadas WGS84 que usa BigQuery para almacenar, agrupar y procesar datos espaciales.

La biblioteca geobeam sigue los patrones de diseño de Apache Beam, por lo que las canalizaciones espaciales funcionan de manera similar a las canalizaciones no espaciales. La diferencia es que usas las clases FileBasedSource personalizadas de geobeam para leer desde los archivos de origen espacial. También puedes usar las funciones de transformación geobeam integradas para procesar tus datos espaciales y, luego, implementar tus propias funciones.

En el siguiente ejemplo, se muestra cómo puedes crear una canalización que lea un archivo de trama, poligonice la trama, la reproyecte en WGS 84 y escriba los polígonos en BigQuery.

with beam.Pipeline(options=pipeline_options) as p:
  (p
   | beam.io.Read(GeotiffSource(known_args.gcs_url))
   | 'MakeValid' >> beam.Map(geobeam.fn.make_valid)
   | 'FilterInvalid' >> beam.Filter(geobeam.fn.filter_invalid)
   | 'FormatRecords' >> beam.Map(geobeam.fn.format_record,
       known_args.band_column, known_args.band_type)
   | 'WriteToBigQuery' >> beam.io.WriteToBigQuery('DATASET.TABLE'))

Análisis de datos geoespaciales en BigQuery

Cuando los datos están en BigQuery, puedes transformarlos, analizarlos y modelarlos. Por ejemplo, puedes consultar la elevación promedio de una parcela de terreno mediante el procesamiento de la intersección de esas geografías y unir las tablas mediante SQL estándar. BigQuery ofrece muchas funciones que te permiten construir valores geográficos nuevos, calcular las medidas de geografías, explorar la relación entre dos geografías y mucho más. Puedes realizar una indexación geoespacial jerárquica con celdas de cuadrícula de S2 mediante funciones de BigQuery S2. Además, puedes usar las características de aprendizaje automático de BigQuery ML para identificar patrones en los datos, como crear un modelo de aprendizaje automático de k-means para agrupar datos geoespaciales.

Implementación, informes y visualización de datos geoespaciales

Google Cloud ofrece varias opciones para visualizar y también informar tus datos y estadísticas espaciales a fin de entregarlos a usuarios y aplicaciones. Los métodos que usas para representar las estadísticas espaciales dependen de los requisitos y objetivos de tu negocio. No todas las estadísticas espaciales se representan de forma gráfica. Muchas estadísticas se entregan mejor a través de un servicio de API, como Apigee, o si las guardas en una base de datos de aplicaciones como Firestore para que Las estadísticas pueden potenciar funciones en tus aplicaciones orientadas al usuario.

Mientras pruebas y prototipas tus análisis geoespaciales, puedes usar BigQuery GeoViz como una forma de validar tus consultas y generar un resultado visual desde BigQuery. Para informes de inteligencia empresarial, puedes usar Looker Studio o Looker a fin de conectarte a BigQuery y combinar tus visualizaciones geoespaciales con una amplia variedad de tipos de informes para presentar una vista unificada de las estadísticas que necesitas.

También puedes compilar aplicaciones que les permitan a tus usuarios interactuar con datos geoespaciales y estadísticas, e incorporar esas estadísticas a las aplicaciones de tu empresa. Por ejemplo, si usas elGoogle Maps Platform, puedes combinar estadísticas geoespaciales, aprendizaje automático y datos de API de Google Maps en una sola aplicación basada en mapas. Mediante el uso de bibliotecas de código abierto, como deck.gl, puedes incluir visualizaciones y animaciones de alto rendimiento para indicarle a mapas: basadas en historias y representar mejor tus datos.

Google también tiene un ecosistema sólido y en crecimiento de ofertas de socios que pueden ayudarte a aprovechar al máximo tus estadísticas geoespaciales. Carto, NGIS, Climate Engine y otros tienen capacidades y ofertas especializadas que puedes personalice tu industria y negocio.

Arquitectura de referencia

En el siguiente diagrama, se muestra una arquitectura de referencia en la que se ilustra cómo interactúan los componentes de la nube geoespaciales. La arquitectura tiene dos componentes clave: la canalización de datos geoespaciales y la plataforma de estadísticas geoespaciales.

Arquitectura que muestra el flujo de una fuente de datos (Earth Engine o Cloud Storage) a través de una canalización basada en Dataflow y coloca los resultados en BigQuery.

Como se muestra en el diagrama, los datos de origen geoespaciales se cargan en Cloud Storage y Earth Engine. Desde cualquiera de estos productos, los datos se pueden cargar a través de una canalización de Dataflow mediante geobeam para realizar operaciones de procesamiento previo comunes, como la validación de atributos y la reproyección geométrica. Dataflow escribe el resultado de la canalización en BigQuery. Cuando los datos están en BigQuery, se pueden analizar in situ con estadísticas de BigQuery y aprendizaje automático, o se puede acceder a ellos mediante otros servicios como Looker Studio, Looker, Vertex AI y Apigee.

¿Qué sigue?