Ensembles de données publics

Consultez et analysez les ensembles de données publics hébergés sur Google Cloud Platform.

Profiter d'un essai gratuit

Consultez et analysez des données

Les ensembles de données publics de Google Cloud Platform vous permettent de consulter et d'analyser des données facilement dans le cloud. Ces ensembles de données sont hébergés et accessibles gratuitement par le biais d'une large gamme d'entrepôts de données et de logiciels d'analyse, allant de la solution Open Source Apache Spark aux technologies de pointe de Google comme Google BigQuery et Google Cloud Dataflow. Qu'il s'agisse de données génomiques structurées, de données encyclopédiques ou de données non structurées sur le climat, les ensembles de données publics offrent un vrai terrain de jeu aux novices du big data et de l'analyse de données, ainsi qu'un dépôt puissant aux chercheurs chevronnés. Vous pouvez également les intégrer à votre application afin de fournir des informations précieuses à vos utilisateurs. Quel que soit l'usage que vous en faites, ces ensembles de données sont disponibles gratuitement sur GCP.

Consultez et analysez des données

Ensembles de données publics Google BigQuery

BigQuery héberge une multitude d'ensembles de données publics qui peuvent être analysés à l'aide de SQL, le langage le plus utilisé au monde. Interrogez ces données soit directement dans l'UI Web de BigQuery, soit de façon automatisée à l'aide de l'API REST BigQuery. Ces ensembles de données sont hébergés gratuitement et accessibles à tous. Interrogez jusqu'à 1 To de données par mois sans aucuns frais, et ne payez que les requêtes qui dépassent ce quota gratuit (voir notre grille tarifaire).

Vidéo "How to run a terabyte of Google BigQuery queries each month without a credit card"
Interrogez les ensembles de données publics BigQuery

Ensembles de données publics Google Genomics

Google collabore avec la communauté scientifique pour héberger certaines données génomiques, comme le projet 1000 Genomes, en tant que ressource publique. Accédez à ces ensembles de données à partir de l'API Google Genomics, de l'interface Web de BigQuery et d'exemples Open Source.

Ensembles de données publics Google Genomics

Ensembles de données de géo-imagerie

Les ensembles de données du radar Doppler NEXRAD et d'imagerie satellite Landsat et Sentinel sont disponibles sur Google Cloud Storage. Utilisez GCP pour exécuter des analyses et développer de nouveaux produits, sans vous soucier des coûts de stockage, ni du temps et des frais nécessaires au téléchargement de très grands ensembles de données.

En plus de ces ensembles de données hébergés sur Google Cloud Storage, une grande variété d'ensembles de données matricielles géoscientifiques standards sont également disponibles dans Earth Engine. Cette plate-forme fournit un éditeur de code basé sur le Web. Très pratique, il est conçu pour faciliter et accélérer le développement de workflows géospatiaux complexes.

Ensembles de données de géo-imagerie

Ensembles de données BigQuery

Trajets Bay Area Bike Share
Ces données concernent tous les trajets effectués par le biais du service de location de vélos Bay Area Bike Share depuis août 2013 et sont mises à jour quotidiennement. En savoir plus
Corpus de livres GDELT
Cet ensemble de données contient 3,5 millions de livres numérisés qui couvrent deux siècles d'histoire et comptent des collections complètes d'ouvrages écrits en anglais et relevant du domaine public de l'Internet Archive (1,3 million de volumes) et de l'HathiTrust (2,2 millions de volumes). En savoir plus
Données GitHub
Cet ensemble de données public contient des données d'activité GitHub représentant plus de 2,8 millions de dépôts GitHub Open Source, plus de 145 millions de commits uniques, plus de 2 milliards de chemins d'accès de fichiers différents et le contenu de la dernière révision représentant 163 millions de fichiers. En savoir plus
Données issues des formulaires 990 de l'IRS
Cet ensemble de données comprend des informations financières sur les organismes à but non lucratif ou exonérés d'impôts aux États-Unis, collectées par l'Agence fédérale des impôts (IRS, Internal Revenue Service) par le biais du formulaire 990. En savoir plus
Données Stack Overflow
Cet ensemble de données contient une archive des contenus Stack Overflow, tels que les posts, les votes, les tags et les badges. En savoir plus
Données sur les arbres des rues de San Francisco
Ces données incluent une liste des arbres des rues de San Francisco entretenus par le service des travaux publics de la ville. Cette liste indique les dates de plantation, les espèces et l'emplacement des arbres. En savoir plus
Données des rapports de police de la ville de San Francisco
Ces données incluent les incidents enregistrés par le système de rapport des incidents et des crimes du département de police de San Francisco (SFPD, San Francisco Police Department) depuis janvier 2003. En savoir plus
Données sur les appels aux pompiers de la ville de San Francisco
Ces données concernent les réponses des pompiers aux appels reçus depuis avril 2000 et sont mises à jour quotidiennement. Ces données comprennent le numéro d'appel, la référence de l'incident, l'adresse, l'identifiant de la caserne, le type d'appel et sa catégorie. En savoir plus
Données sur les demandes au service 311 de la ville de San Francisco
Ces données incluent toutes les demandes effectuées auprès du service 311 de la ville de San Francisco depuis juillet 2008 et sont mises à jour quotidiennement. En savoir plus
USA Names
Cet ensemble de données de l'Administration de la sécurité sociale des États-Unis contient tous les noms associés aux demandes de cartes de sécurité sociale déposées à l'occasion des naissances qui ont eu lieu dans ce pays après 1879. En savoir plus
USA Disease Surveillance
Cet ensemble de données publié par le département de la Santé et des Services sociaux des États-Unis inclut tous les rapports de surveillance hebdomadaires des maladies dont la déclaration était obligatoire au niveau national pour toutes les villes et tous les États des États-Unis entre 1888 et 2013. En savoir plus
Bureau des statistiques de travail des États-Unis
Cet ensemble de données comprend toutes les statistiques économiques sur l'inflation, les prix, le chômage, les salaires et les prestations sociales réalisées par le Bureau des statistiques de travail des États-Unis (BLS, Bureau of Labor Statistics). En savoir plus
Hacker News
Cet ensemble de données contient tous les articles et commentaires provenant du site Hacker News depuis son lancement en 2006. En savoir plus
Données de la Major League Baseball
Ces données publiques concernent tous les matchs disputés en 2016 au cours du championnat de la Major League Baseball (MLB). En savoir plus
Données Medicare
Cet ensemble de données public a été créé par les Centres de services Medicare et Medicaid (CMS, Centers for Medicare and Medicaid Services). Ces données résument le recours aux procédures, services et médicaments fournis aux bénéficiaires de Medicare ainsi que les paiements associés. En savoir plus
Données météorologiques NOAA GSOD
Cet ensemble de données public a été créé par l'Agence américaine d'observation océanique et atmosphérique (NOAA, National Oceanic and Atmospheric Administration). Il comporte des données mondiales obtenues auprès du centre de climatologie de l'USAF. Cet ensemble réunit des données GSOD de 1929 à 2016, recueillies par plus de 9 000 stations. En savoir plus
NOAA GHCN
Cet ensemble de données public a été créé par la NOAA et comporte des résumés climatiques issus de stations terrestres du monde entier. Ils ont été soumis à une série commune de vérifications d'assurance qualité. Cet ensemble s'appuie sur une vingtaine de sources, y compris sur certaines données annuelles relevées depuis 1763. En savoir plus
Courses NYC TLC
Ces données recueillies par la Commission des taxis et limousines de la ville de New York (NYC TLC, NYC Taxi and Limousine Commission) contiennent les enregistrements de toutes les courses effectuées dans les taxis jaunes et verts de la ville de New York depuis 2009. En savoir plus
Demandes au service 311 de la ville de New York
Ces données publiques incluent toutes des demandes effectuées auprès du service 311 depuis 2010 et sont mises à jour quotidiennement. En composant ce numéro, les usagers accèdent aux services municipaux pour les demandes sans urgence. En savoir plus
Trajets Citi Bike effectués dans la ville de New York
Ces données collectées par le programme de partage de vélos Citi Bike de la ville de New York incluent les enregistrements des déplacements de leurs 10 000 vélos et les données relatives aux 600 stations dans les quartiers de Manhattan, de Brooklyn, du Queens et à Jersey City depuis le lancement de Citi Bike en septembre 2013. En savoir plus
Recensement des arbres de la ville de New York
Les données relatives aux arbres des rues de la ville de New York regroupent les recensements effectués en 1995, 2005 et 2015 par les bénévoles du département des parcs et loisirs de la ville. En savoir plus
Collisions impliquant des véhicules motorisés enregistrées par la police de la ville de New York
Cet ensemble de données inclut toutes les informations concernant les collisions impliquant des véhicules motorisés dans la ville de New York enregistrées par le département de police (NYPD) depuis 2012. En savoir plus
Données Open Images
Cet ensemble de données contient environ neuf millions d'URL vers des images qui ont été annotées à l'aide de libellés couvrant plus de 6 000 catégories. En savoir plus

Ensembles de données de géo-imagerie

Landsat
Cet ensemble de données d'images satellite de l'Institut d'études géologiques des États-Unis (USGS, United States Geological Survey) inclut des millions d'images multispectrales de la surface de la Terre, à des résolutions allant de 15 à 60 mètres par pixel, de 1982 à nos jours. En savoir plus
Ensembles de données Earth Engine
Le catalogue de données publiques d'Earth Engine contient un large éventail d'ensembles de données matricielles géoscientifiques standards. En savoir plus
Sentinel-2
Cet ensemble de données d'images satellite provenant de l'Agence spatiale européenne (ESA, European Space Agency) inclut des images multispectrales de la surface de la Terre, à une résolution allant de 10 à 60 mètres par pixel, de 2015 à aujourd'hui. En savoir plus
NEXRAD
Cet ensemble de données rassemble les informations collectées par un réseau de 160 radars météorologiques Doppler haute résolution utilisés par le service météorologique des États-Unis (NWS, National Weather Service) de la NOAA, l'Agence fédérale américaine de l'aviation (FAA, Federal Aviation Administration) et l'armée de l'air américaine (USAF, U.S. Air Force). En savoir plus

Ensembles de données génomiques

1000 Genomes
Cet ensemble de données comprend environ 2 500 génomes provenant de 25 populations du monde entier. En savoir plus
Génomes de référence
Il s'agit de génomes de référence tels que GRCh37, GRCh37lite, GRCh38, hg19, hs37d5 et b37. En savoir plus
Platinum Genome d'Illumina
Cet ensemble de données comprend le CEPH famille 1463 à 17 membres. En savoir plus
Projet Simons Genome Diversity
Cet ensemble de données comprend 25 génomes issus de 13 populations différentes qui ont servi en tant qu'ensemble de données de projet pilote pour le projet Genome Diversity. En savoir plus
Données génomiques sur le cancer TCGA dans le cloud
Ces données TCGA en accès libre incluent des appels de mutation somatique, des données cliniques, l'expression mRNA et miRNA, la méthylation d'ADN et l'expression de la protéine provenant de 33 types de tumeurs différents. En savoir plus
Base de données MSSNG pour les chercheurs dans le domaine de l'autisme
Cet ensemble de données comprend une collection en pleine expansion de génomes Illumina et Complete Genomics de familles touchées par l'autisme. En savoir plus

Tarifs des ensembles de données publics

Les ensembles de données publics de Google Cloud sont accessibles gratuitement depuis un compte Google. Des frais peuvent s'appliquer en cas de requêtes importantes ou pour certains scénarios d'utilisation.

  • BigQuery : les ensembles de données publics hébergés dans BigQuery sont accessibles gratuitement aux utilisateurs effectuant des requêtes ne dépassant pas 1 To/mois. En cas de dépassement de ce quota, les conditions tarifaires des requêtes s'appliquent.
  • Google Cloud Storage : les ensembles de données publics hébergés dans Google Cloud Storage, comme les données matricielles et les données génomiques, sont accessibles gratuitement. Vous ne payez que les ressources GCP utilisées pour analyser les données, telles que les ressources de calcul ou l'espace de stockage supplémentaire dont vous vous servez pour vos propres applications.