Ensembles de données publics de BigQuery
Un ensemble de données public est un ensemble de données stocké dans BigQuery et mis à la disposition du grand public via le Programme d'ensembles de données publics de Google Cloud. Les ensembles de données publics sont des ensembles de données que BigQuery héberge afin que vous puissiez y accéder et les intégrer à vos applications. Google prend en charge le stockage de ces ensembles de données et fournit un accès public aux données via un projet. Vous ne payez que pour les requêtes que vous effectuez sur les données. Le premier To par mois est gratuit (voir notre grille tarifaire).
Les ensembles de données publics peuvent être analysés à l'aide de requêtes en ancien SQL ou en GoogleSQL. Utilisez un nom de table complet lorsque vous interrogez des ensembles de données publics, par exemple bigquery-public-data.bbc_news.fulltext
. Si votre organisation restreint l'accès aux données, par exemple à l'aide de périmètres de sécurité, vous devrez peut-être contacter votre administrateur pour obtenir l'autorisation d'accéder aux ensembles de données publics.
Vous pouvez accéder à des ensembles de données publics BigQuery en utilisant la console Google Cloud, en utilisant l'outil de ligne de commande bq ou en appelant l'API REST BigQuery à l'aide de diverses bibliothèques clientes telles que Java, .NET ou Python. Vous pouvez également afficher et interroger des ensembles de données publics via Analytics Hub, une plate-forme d'échange de données qui vous aide à découvrir les bibliothèques de données et à y accéder.
Les ensembles de données publics ne sont pas accessibles par défaut depuis un périmètre VPC Service Controls. Aucun contrat de niveau de service n'est appliqué au Programme d'ensembles de données publics.
Pour en savoir plus sur chaque ensemble de données individuel, cliquez sur son nom dans la section "Ensembles de données" de Cloud Marketplace.
Accéder à la section "Ensembles de données" de Cloud Marketplace
Avant de commencer
Pour commencer à utiliser un ensemble de données public BigQuery, vous devez créer ou sélectionner un projet. Le premier téraoctet de données traitées par mois est gratuit. Par conséquent, vous pouvez commencer à interroger des ensembles de données publics sans activer la facturation. Si vous avez l'intention de dépasser le quota offert par la version gratuite, vous devez également activer la facturation.
- Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
- BigQuery est automatiquement activé dans les nouveaux projets.
Pour activer BigQuery dans un projet préexistant,
Enable the BigQuery API.
Emplacements des ensembles de données publics
Chaque ensemble de données public est stocké dans un emplacement spécifique tel que US
ou EU
. Les exemples de tables BigQuery sont actuellement stockés dans l'emplacement multirégional US
.
Lorsque vous interrogez un exemple de table, fournissez l'option --location=US
dans la ligne de commande, choisissez US
comme emplacement de traitement dans la console Google Cloud, ou spécifiez la propriété location
dans la section jobReference
de la ressource de tâche lorsque vous utilisez l'API. Étant donné que les exemples de tables sont stockés aux États-Unis, vous ne pouvez pas écrire de résultats issus de requêtes des exemples de tables sur une table d'une autre région, et vous ne pouvez pas joindre d'exemples de tables aux tables d'une autre région.
Accéder aux ensembles de données publics dans la console Google Cloud
Vous pouvez accéder aux ensembles de données publics dans la console Google Cloud via les méthodes suivantes :
Dans le volet Explorateur, affichez le projet
bigquery-public-data
. Pour en savoir plus, consultez la page Ouvrir un ensemble de données public.En utilisant Analytics Hub pour afficher les ensembles de données publics et vous y abonner.
Pour savoir quand une table de données a été mise à jour pour la dernière fois, accédez à la section Détails de la table, comme décrit dans la section Obtenir des informations sur la table et consultez le champ Dernière modification. Pour en savoir plus sur la sélection et la suppression de projets, consultez la page Utiliser des projets.
Autres ensembles de données publics
Vous pouvez interroger de nombreux autres ensembles de données publics. Certains sont hébergés par Google, mais bien d'autres sont hébergés par des tiers. Voici des exemples :
- Ensembles de données publics de Cloud Life Sciences
- Ensemble de données radiographiques du thorax du NIH
- Ensemble de données TCIA (The Cancer Imaging Archive)
- Ensemble de données des notes de version pour la majorité des produits Google Cloud en disponibilité générale
Partager publiquement un ensemble de données
Vous pouvez partager n'importe lequel de vos ensembles de données avec le public. Pour ce faire, modifiez les contrôles d'accès de l'ensemble de données afin d'autoriser l'accès par "Tous les utilisateurs authentifiés". Pour plus d'informations sur la définition des contrôles d'accès des ensembles de données, consultez la page Contrôler l'accès aux ensembles de données.
Lorsque vous partagez un ensemble de données avec le public :
- Les frais de stockage sont supportés par le compte de facturation associé au projet qui contient l'ensemble de données partagé avec le public.
- Les frais de requête sont supportés par le compte de facturation associé au projet dans lequel les tâches de requête sont exécutées.
Pour en savoir plus, consultez la page de présentation des tarifs BigQuery.
Exemples de tables
En plus des ensembles de données publics, BigQuery propose un nombre limité d'exemples de tables que vous pouvez interroger. Ces tables sont contenues dans
l'
ensemble de données bigquery-public-data:samples
.
Les conditions requises pour interroger les exemples de tables BigQuery sont identiques à celles destinées à l'interrogation des ensembles de données publics.
L'ensemble de données bigquery-public-data:samples
inclut les tables suivantes :
Nom | Description |
---|---|
gsod |
Contient les informations météorologiques recueillies par l'agence américaine NOAA, telles que les quantités de précipitations et les vitesses du vent de la fin de 1929 au début de 2010. |
github_nested |
Contient une chronologie des actions telles que les requêtes d'extraction et les commentaires sur les référentiels GitHub avec un schéma imbriqué. Créée en septembre 2012. |
github_timeline |
Contient une chronologie des actions telles que les demandes d'extraction et les commentaires sur les dépôts GitHub avec un schéma plat. Créée en mai 2012. |
natality |
Décrit toutes les naissances enregistrées aux États-Unis dans les 50 États, le District de Columbia et la ville de New York, de 1969 à 2008. |
shakespeare |
Contient un index de mots des œuvres de Shakespeare, indiquant le nombre de fois où chaque mot apparaît dans chaque corpus. |
trigrams |
Contient des trigrammes en anglais provenant d'un échantillon d'ouvrages publiés entre 1520 et 2008. |
wikipedia |
Contient l'historique complet des révisions de tous les articles de Wikipédia jusqu'en avril 2010. |
Nous contacter
Si vous avez des questions concernant le Programme d'ensembles de données publics de BigQuery, contactez-nous à l'adresse bq-public-data@google.com
.
Étape suivante
Pour savoir comment interroger une table dans un ensemble de données public, consultez la page Guide de démarrage rapide sur l'utilisation de la console Google Cloud.