Apprenez-en davantage sur les ensembles de données publics BigQuery.

Le catalogue du Programme d'ensembles de données publics de Google Cloud se trouve dans GCP Marketplace. Pour en savoir plus sur chaque ensemble de données individuel, consultez les pages Marketplace dans la section Ensembles de données.

Accéder à la section "Ensembles de données" de GCP Marketplace

Un ensemble de données public est un ensemble de données stocké dans BigQuery et mis à la disposition du grand public via le Programme d'ensembles de données publics de Google Cloud. Les ensembles de données publics sont des ensembles de données que BigQuery héberge afin que vous puissiez y accéder et les intégrer à vos applications. Google prend en charge le stockage de ces ensembles de données et fournit un accès public aux données via un projet. Vous ne payez que pour les requêtes que vous effectuez sur les données. Le premier To par mois est gratuit (voir notre grille tarifaire).

Avant de commencer

Les ensembles de données publics peuvent être analysés à l'aide de requêtes en ancien SQL ou en SQL standard. Vous pouvez accéder aux ensembles de données publics BigQuery en utilisant l'UI Web de BigQuery dans Cloud Console, l'UI Web classique de BigQuery ou l'outil de ligne de commande, ou en effectuant des appels vers l'API REST BigQuery à l'aide de différentes bibliothèques clientes, telles que Java, .NET ou Python.

Pour commencer à utiliser un ensemble de données public BigQuery, vous devez créer ou sélectionner un projet. Le premier téraoctet de données traitées par mois est gratuit. Par conséquent, vous pouvez commencer à interroger des ensembles de données publics sans activer la facturation. Si vous avez l'intention de dépasser le quota offert par la version gratuite, vous devez également activer la facturation.

  1. Connectez-vous à votre compte Google.

    Si vous n'en possédez pas déjà un, vous devez en créer un.

  2. Dans Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Cloud.

    Accéder à la page de sélection du projet

  3. Vérifiez que la facturation est activée pour votre projet Google Cloud. Découvrez comment vérifier que la facturation est activée pour votre projet.

  4. BigQuery est automatiquement activé dans les nouveaux projets. Pour activer BigQuery dans un projet préexistant, Activer l'APIBigQuery

    Activer l'API

Emplacements des ensembles de données publics

Les exemples de tables BigQuery sont actuellement stockés dans l'emplacement multirégional US. Pour interroger un exemple de table, fournissez l'option --location=US sur la ligne de commande, choisissez US comme emplacement de traitement dans Cloud Console ou l'UI Web classique de BigQuery, ou spécifiez la propriété location dans la section jobReference de la ressource de tâche lorsque vous utilisez l'API. Étant donné que les exemples de tables sont stockés aux États-Unis, vous ne pouvez pas écrire de résultats issus de requêtes des exemples de tables sur une table d'une autre région, et vous ne pouvez pas joindre d'exemples de tables aux tables d'une autre région.

Accéder aux ensembles de données publics dans l'UI Web de BigQuery

Vous pouvez accéder aux ensembles de données publics à l'aide de deux interfaces utilisateur :

Le projet bigquery-public-data est automatiquement épinglé à chaque projet dans les deux UI. Vous le trouverez dans le volet de navigation.

Pour ouvrir le projet bigquery-public-data manuellement, vous pouvez procéder comme suit :

  • Pour ouvrir les ensembles de données publics dans l'UI Web classique de BigQuery, saisissez l'URL suivante dans votre navigateur : https://bigquery.cloud.google.com/.
  • Pour ouvrir les ensembles de données publics dans l'UI Web de BigQuery dans Cloud Console, saisissez l'URL suivante : https://console.cloud.google.com/bigquery?project=bigquery-public-data&page=project.

Pour passer de Cloud Console à l'UI Web classique, consultez la section Passer à l'interface utilisateur Web classique.

Autres ensembles de données publics

Vous pouvez interroger de nombreux autres ensembles de données publics. Certains sont hébergés par Google, mais bien d'autres sont hébergés par des tiers. Voici des exemples :

Partager un ensemble de données avec le public

Vous pouvez partager n'importe lequel de vos ensembles de données avec le public. Pour ce faire, modifiez les contrôles d'accès de l'ensemble de données afin d'autoriser l'accès par "Tous les utilisateurs authentifiés". Pour plus d'informations sur la définition des contrôles d'accès des ensembles de données, consultez la page Contrôler l'accès aux ensembles de données.

Lorsque vous partagez un ensemble de données avec le public :

  • Les frais de stockage sont supportés par le compte de facturation associé au projet qui contient l'ensemble de données partagé avec le public.
  • Les frais de requête sont supportés par le compte de facturation associé au projet dans lequel les tâches de requête sont exécutées.

Pour en savoir plus, consultez la section Facturation des frais.

Exemples de tables

En plus des ensembles de données publics, BigQuery propose un nombre limité d'exemples de tables que vous pouvez interroger. Ces tables sont contenues dans l'ensemble de données bigquery-public-data:samples.

Les conditions requises pour interroger les exemples de tables BigQuery sont identiques à celles destinées à l'interrogation des ensembles de données publics.

L'ensemble de données bigquery-public-data:samples inclut les tables suivantes :

Nom Description
gsod Contient les informations météorologiques recueillies par l'agence américaine NOAA, telles que les quantités de précipitations et les vitesses du vent de la fin de 1929 au début de 2010.
github_nested Contient une chronologie des actions telles que les requêtes d'extraction et les commentaires sur les référentiels GitHub avec un schéma imbriqué. Créée en septembre 2012.
github_timeline Contient une chronologie des actions telles que les demandes d'extraction et les commentaires sur les dépôts GitHub avec un schéma plat. Créée en mai 2012.
natality Décrit toutes les naissances enregistrées aux États-Unis dans les 50 États, le District de Columbia et la ville de New York, de 1969 à 2008.
shakespeare Contient un index de mots des œuvres de Shakespeare, indiquant le nombre de fois où chaque mot apparaît dans chaque corpus.
trigrams Contient des trigrammes en anglais provenant d'un échantillon d'ouvrages publiés entre 1520 et 2008.
wikipedia Contient l'historique complet des révisions de tous les articles de Wikipédia jusqu'en avril 2010.

Nous contacter

Si vous avez des questions concernant le Programme d'ensembles de données publics de BigQuery, contactez-nous à l'adresse bq-public-data@google.com.