Architecture de l'analyse géospatiale

Last reviewed 2024-03-25 UTC

Ce document vous aide à comprendre les capacités géospatiales de Google Cloud et comment les utiliser dans vos applications d'analyse géospatiale. Ce document est destiné aux professionnels des systèmes d'information géographique (SIG), aux data scientists et aux développeurs d'applications qui souhaitent apprendre à utiliser les produits et services disponibles dans Google Cloud pour fournir des insights géospatiaux aux personnes concernées par l'entreprise.

Présentation

Google Cloud fournit une suite complète de fonctionnalités d'analyse géospatiale et de machine learning qui peuvent vous aider à développer des insights pour mieux comprendre le monde, votre environnement et votre entreprise. Les insights géospatiaux que vous obtenez grâce à ces fonctionnalités Google Cloud peuvent vous aider à prendre des décisions stratégiques plus précises et durables sans la complexité et les frais engendrés par la gestion d'une infrastructure SIG traditionnelle.

Cas d'utilisation de l'analyse géospatiale

De nombreuses décisions commerciales critiques s'appuient sur les données de localisation. Les insights tirés de l'analyse géospatiale sont applicables dans divers secteurs, entreprises et marchés, comme décrit dans les exemples suivants :

  • Évaluer les risques environnementaux. Comprenez les risques liés aux conditions environnementales en prédisant les catastrophes naturelles telles que les inondations et les incendies, afin de mieux anticiper les risques et vous y préparer.
  • Optimiser la sélection des sites. Combinez les métriques de sites propriétaires avec des données accessibles au public, comme les tendances du trafic et la mobilité géographique, puis utilisez l'analyse géospatiale pour trouver les zones optimales pour votre entreprise et prédire des résultats financiers.
  • Planifier la logistique et le transport. Améliorez la gestion des opérations de votre parc telles que la logistique du dernier kilomètre, analysez les données provenant de véhicules autonomes, gérez les parcours avec précision, et améliorez la planification de la mobilité en intégrant des données géospatiales au processus décisionnel.
  • Comprendre et améliorer la santé et le rendement des sols. Analysez des millions d'acres de terres pour comprendre les caractéristiques des sols et aider les agriculteurs à analyser les interactions entre les variables qui affectent la production agricole.
  • Gérer le développement durable. Dressez la carte des conditions économiques, environnementales et sociales afin de déterminer les zones prioritaires pour la protection et la préservation de l'environnement.

Composants cloud d'analyse géospatiale

Votre architecture d'analyses géospatiales peut comporter un ou plusieurs composants cloud d'analyse géospatiale, en fonction de votre cas d'utilisation et de vos exigences. Chaque composant fournit des fonctionnalités différentes, et ces composants fonctionnent ensemble pour former une architecture d'analyse cloud géospatiale unifiée et évolutive.

Les données sont la matière première pour fournir des informations géospatiales. Plusieurs sources publiques et propriétaires proposent des données géospatiales de qualité. Les sources de données publiques incluent des ensembles de données publics de BigQuery, le catalogue Earth Engine et l'l'Institut d'études géologiques des États-Unis (USGS, United States Geological Survey). Les sources de données propriétaires incluent des systèmes internes tels que SAP et Oracle, et des outils SIG internes tels que Esri ArcGIS Server, Carto et QGIS. Vous pouvez agréger les données de plusieurs systèmes d'entreprise, tels que la gestion des stocks, les analyses marketing et la logistique de la chaîne d'approvisionnement, puis les combiner avec des données sources géospatiales et envoyer les résultats à votre entrepôt de données géospatiales.

En fonction du type de données et de la destination d'une source, vous pouvez charger des sources de données géospatiales directement dans votre entrepôt de données d'analyse. Par exemple, BigQuery prend nativement en charge le chargement de fichiers GeoJSON délimités par un retour à la ligne et Earth Engine dispose d'un catalogue de données intégré avec une collection complète d'ensembles de données prêts à être analysés. Vous pouvez charger d'autres données dans d'autres formats via un pipeline de données géospatiales qui prétraite les données géospatiales et les charge dans votre entrepôt de données d'entreprise dansGoogle Cloud. Vous pouvez créer des pipelines de données prêts pour la production à l'aide de Dataflow. Vous pouvez également utiliser une solution partenaire telle que FME Spatial ETL.

L'entrepôt de données d'entreprise est au cœur de votre plate-forme d'analyse géospatiale. Une fois les données géospatiales chargées dans votre entrepôt de données, vous pouvez commencer à créer des applications et des insights géospatiaux en utilisant certaines des fonctionnalités suivantes :

Votre architecture sert ensuite de système unique que vous pouvez utiliser pour stocker, traiter et gérer des données à grande échelle. L'architecture vous permet également de créer et de déployer des solutions d'analyse avancées capables de produire des insights impossibles à mettre en œuvre sur les systèmes qui n'incluent pas ces fonctionnalités.

Types de données géospatiales, formats et systèmes de coordonnées

Pour agréger vos données géospatiales dans un entrepôt de données tel que BigQuery, vous devez comprendre les formats de données géospatiales que vous êtes susceptible de rencontrer dans les systèmes internes et à partir de sources publiques.

Types de données

Les types de données géospatiales appartiennent à deux catégories: les données vectorielles et les données de trame.

Les données vectorielles sont composées de sommets et de segments de lignes, comme illustré dans le schéma suivant.

Exemples d'images vectorielles (point, linestring, polygone, multipolygone et collections).

Les exemples de données vectorielles comprennent les limites des parcelles, les droits de passage publics (routes) et les emplacements des éléments. Comme les données vectorielles peuvent être stockées sous forme de tableau (ligne et colonne), les bases de données géospatiales telles que BigQuery et PostGIS dans Cloud SQL excellent dans le stockage, l'indexation et l'analyse des données vectorielles.

Les données de trame sont composées de grilles de pixels. Par exemple, il peut s'agir de mesures atmosphériques et d'images satellite, comme illustré dans les exemples suivants.

Exemples d'images de trame montrant des photos aérienne de zones géographiques.

Earth Engine est conçu pour le stockage et l'analyse à l'échelle mondiale de données de trame. Earth Engine inclut la capacité à vectoriser des trames, ce qui peut vous aider à classer des régions et à comprendre les tendances des données de trame. Par exemple, en analysant des données de trame atmosphériques au fil du temps, vous pouvez extraire des vecteurs représentant les courants de vent dominants. Vous pouvez charger chaque pixel de trame individuel dans BigQuery à l'aide d'un processus appelé polygonisation, qui convertit chaque pixel directement en forme vectorielle.

Les applications cloud géospatiales combinent souvent les deux types de données afin de produire des insights globaux exploitant les atouts des sources de données de chaque catégorie. Par exemple, une application pour une activité dans l'immobilier qui aide à identifier de nouveaux sites de développement peut combiner des données vectorielles, telles que des limites de parcelle, et des données de trame, telles que des données d'élévation, afin de minimiser les risques d'inondations et les coûts en assurance.

Formats de données

Le tableau suivant répertorie les formats de données géospatiales courants et les manières dont ils peuvent être utilisés dans votre plate-forme d'analyse.

Format de la source de données Description Exemples
Shapefile Format de données vectorielles qui a été développé par Esri. Il vous permet de stocker des emplacements géométriques et d'associer des attributs. Géométrie des secteurs de recensement, empreintes des bâtiments
WKT Format de données vectorielles lisible publié par OGC. La prise en charge de ce format est intégrée à BigQuery. Représentation des géométries dans les fichiers CSV
WKB Un binaire efficace en termes de stockage équivalent à WKT. La prise en charge de ce format est intégrée à BigQuery. Représentation des géométries dans les fichiers CSV et les bases de données
KML Format vectoriel compatible avec XML utilisé par Google Earth et les autres outils de bureau. Le format est publié par OGC. Formes de bâtiments 3D, routes, caractéristiques de la terre
Geojson Format de données vectorielles libre basé sur JSON. Fonctionnalités dans les navigateurs Web et les applications mobiles
GeoTIFF Format de données de trame couramment utilisé. Ce format vous permet de mapper des pixels d'une image TIFF à des coordonnées géographiques. Modèles d'élévation numériques, Landsat

Systèmes de référence de coordonnées

Toutes les données géospatiales, quel que soit leur type et leur format, incluent un système de référence de coordonnées qui permet aux outils d'analyse géospatiale tels que BigQuery et Earth Engine d'associer des coordonnées à un emplacement physique sur la surface de la Terre. Il existe deux types de systèmes de référence de coordonnées : géodésique et planaire.

Les données géodésiques prennent en compte la courbe de la Terre et utilisent un système de coordonnées basé sur les coordonnées géographiques (longitude et latitude). Les formes géodésiques sont communément appelées zones géographiques. Le système de référence de coordonnées WGS 84 utilisé par BigQuery est un système de coordonnées géodésiques.

Les données planaires sont basées sur une projection de carte telle que Mercator, qui mappe les coordonnées géographiques sur un plan en deux dimensions. Pour charger des données planaires dans BigQuery, vous devez les reprojeter dans le système de coordonnées WGS 84. Vous pouvez effectuer cette reprojection manuellement à l'aide de vos outils SIG existants ou à l'aide d'un pipeline de données cloud géospatial (voir la section suivante).

Éléments à prendre en compte pour créer un pipeline de données cloud géospatiales

Comme indiqué, vous pouvez charger certaines données géospatiales directement dans BigQuery et Earth Engine, en fonction du type de données. BigQuery vous permet de charger des données vectorielles aux formats de fichiers WKT, WKB et GeoJSON si les données utilisent le système de référence WGS 84. Earth Engine s'intègre directement aux données disponibles dans le catalogue Earth Engine et accepte directement le chargement d'images de trame au format de fichier GeoTIFF.

Il est possible de rencontrer des données géospatiales stockées dans d'autres formats et ne pouvant pas être chargées directement dans BigQuery. Les données peuvent également se trouver dans un système de référence de coordonnées que vous devez d'abord reprojeter dans le système de référence WGS 84. De même, vous pouvez rencontrer des données qui doivent être prétraitées, simplifiées et corrigées en cas d'erreurs.

Vous pouvez charger des données géospatiales prétraitées dans BigQuery en créant des pipelines de données géospatiales à l'aide de Dataflow. Dataflow est un service d'analyse géré compatible avec le traitement par flux et par lot de données à grande échelle.

Vous pouvez utiliser la bibliothèque Python geobeam, qui étend Apache Beam et ajoute des capacités de traitement géospatial à Dataflow. Elle vous permet de lire des données géospatiales provenant de diverses sources. La bibliothèque vous aide également à traiter et transformer les données, puis à les charger dans BigQuery pour les utiliser comme entrepôt de données cloud géospatiales. La bibliothèque geobeam est Open Source. Vous pouvez donc la modifier et l'étendre afin d'accepter des formats et des tâches de prétraitement supplémentaires.

À l'aide de Dataflow et de la bibliothèque geobeam, vous pouvez ingérer et analyser de grands volumes de données géospatiales en parallèle. La bibliothèque geobeam met en œuvre des connecteurs d'E/S personnalisés. La bibliothèque geobeam inclut GDAL, PROJ et d'autres bibliothèques associées pour faciliter le traitement des données géospatiales. Par exemple, geobeam projette automatiquement toutes les géométries d'entrée sur le système de coordonnées WGS84 utilisé par BigQuery pour stocker, mettre en cluster et traiter les données spatiales.

La bibliothèque geobeam suit les modèles de conception Apache Beam. Votre pipeline spatial fonctionne donc de manière semblable aux pipelines non spatiaux. La différence est que vous devez utiliser les classes FileBasedSource personnalisées geobeam pour lire les fichiers source spatiaux. Vous pouvez également utiliser les fonctions de transformation geobeam intégrées pour traiter vos données spatiales et implémenter vos propres fonctions.

L'exemple suivant montre comment créer un pipeline qui lit un fichier de trame, transforme la trame en polygone, la reprojete sur WGS 84 et écrit les polygones dans BigQuery.

with beam.Pipeline(options=pipeline_options) as p:
  (p
   | beam.io.Read(GeotiffSource(known_args.gcs_url))
   | 'MakeValid' >> beam.Map(geobeam.fn.make_valid)
   | 'FilterInvalid' >> beam.Filter(geobeam.fn.filter_invalid)
   | 'FormatRecords' >> beam.Map(geobeam.fn.format_record,
       known_args.band_column, known_args.band_type)
   | 'WriteToBigQuery' >> beam.io.WriteToBigQuery('DATASET.TABLE'))

Analyse de données géospatiales dans BigQuery

Lorsque les données se trouvent dans BigQuery, vous pouvez les transformer, les analyser et les modéliser. Par exemple, vous pouvez interroger l'altitude moyenne d'une parcelle de terre en calculant l'intersection de ces zones géographiques et en joignant les tables à l'aide de SQL standard. BigQuery offre de nombreuses fonctions qui vous permettent de créer de nouvelles valeurs géographiques, de calculer les mesures de zones géographiques, d'explorer la relation entre deux zones géographiques, etc. Vous pouvez effectuer une indexation géospatiale hiérarchique avec des cellules en grille S2 à l'aide des fonctions BigQuery S2. En outre, vous pouvez utiliser les fonctionnalités de machine learning de BigQuery ML pour identifier des modèles dans les données, comme la création d'un modèle de machine learning en k-moyennes pour le clustering de données géospatiales.

Visualisation géospatiale, rapports et déploiement

Google Cloud propose plusieurs options de visualisation et de création de rapports sur vos données spatiales et vos insights, afin de les fournir aux utilisateurs et aux applications. Les méthodes que vous utilisez pour représenter vos insights spatiaux dépendent des exigences et des objectifs de votre entreprise. Tous les insights spatiaux ne sont pas représentés de manière graphique. De nombreux insights sont mieux rendus via un service d'API tel qu'Apigee, ou en les enregistrant dans une base de données d'applications telle que Firestore, pour que les insights permettent d'améliorer les fonctionnalités de vos applications destinées aux utilisateurs.

Pendant que vous testez et prototypez vos analyses géospatiales, vous pouvez utiliser BigQuery GeoViz pour valider vos requêtes et générer un résultat visuel à partir de BigQuery. Pour les rapports d'informatique décisionnelle, vous pouvez utiliser Looker Studio ou Looker pour vous connecter à BigQuery et combiner vos visualisations géospatiales avec une grande variété d'autres types de rapports et ainsi présenter une vue unifiée des insights dont vous avez besoin.

Vous pouvez également créer des applications permettant à vos utilisateurs d'interagir avec des données et insights géospatiaux, et d'intégrer ces insights dans vos applications métier. Par exemple, en utilisant Google Maps Platform, vous pouvez combiner des analyses géospatiales, le machine learning et les données de l'API Google Maps en une seule application basée sur une carte. En utilisant des bibliothèques Open Source comme deck.gl, vous pouvez inclure des visualisations et des animations hautes performances pour élaborer des récits basés sur la carte et mieux représenter vos données.

Google propose également un écosystème robuste et en expansion permanente d'offres partenaires, qui peuvent vous aider à tirer le meilleur parti de vos insights d'analyses géospatiales. Carto ,NGIS ,Climate Engine et autres possèdent des fonctionnalités et des offres spécialisées que vous pouvez personnaliser en fonction de votre secteur d'activité et de votre entreprise.

Architecture de référence

Le diagramme suivant montre une architecture de référence illustrant les interactions entre les composants du cloud géospatial. L'architecture comporte deux composants clés : le pipeline de données géospatiales et la plate-forme d'analyse géospatiale.

Architecture montrant le flux d'une source de données (Earth Engine ou Cloud Storage) via un pipeline basé sur Dataflow et l'insertion des résultats dans BigQuery.

Comme le montre le schéma, les données sources géospatiales sont chargées dans Cloud Storage et Earth Engine. À partir de l'un de ces produits, les données peuvent être chargées via un pipeline Dataflow à l'aide de geobeam pour effectuer des opérations de prétraitement courantes, telles que la validation des caractéristiques et la reprojection géométrique. Dataflow écrit la sortie du pipeline dans BigQuery. Lorsque les données se trouvent dans BigQuery, elles peuvent être analysées sur place à l'aide des fonctions d'analyse de BigQuery et du machine learning, ou elles peuvent être accessibles par d'autres services tels que Looker Studio, Looker, Vertex AI et Apigee.

Étapes suivantes