Ensembles de données publics de BigQuery

Un ensemble de données public est un ensemble de données stocké dans BigQuery et mis à la disposition du grand public via le Programme d'ensembles de données publics de Google Cloud. Les ensembles de données publics sont des ensembles de données que BigQuery héberge afin que vous puissiez y accéder et les intégrer à vos applications. Google prend en charge le stockage de ces ensembles de données et fournit un accès public aux données via un projet. Vous ne payez que pour les requêtes que vous effectuez sur les données. Le premier To par mois est gratuit (voir notre grille tarifaire).

Les ensembles de données publics peuvent être analysés à l'aide de requêtes en ancien SQL ou en SQL standard. Utilisez un nom de table complet lorsque vous interrogez des ensembles de données publics, par exemple bigquery-public-data.bbc_news.fulltext.

Vous pouvez accéder aux ensembles de données publics de BigQuery à l'aide de Cloud Console, en utilisant l'outil de ligne de commande bq ou en appelant la méthodeAPI REST BigQuery à l'aide de différentes bibliothèques clientes telles que Java, .NET ou Python.

Pour en savoir plus sur chaque ensemble de données individuel, cliquez sur son nom dans la section "Ensembles de données" de Cloud Marketplace.

Accéder à la section "Ensembles de données" de Cloud Marketplace

Avant de commencer

Pour commencer à utiliser un ensemble de données public BigQuery, vous devez créer ou sélectionner un projet. Le premier téraoctet de données traitées par mois est gratuit. Par conséquent, vous pouvez commencer à interroger des ensembles de données publics sans activer la facturation. Si vous avez l'intention de dépasser le quota offert par la version gratuite, vous devez également activer la facturation.

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  3. Assurez-vous que la facturation est activée pour votre projet Cloud. Découvrez comment vérifier que la facturation est activée pour votre projet.

  4. BigQuery est automatiquement activé dans les nouveaux projets. Pour activer BigQuery dans un projet préexistant, Activez l'API BigQuery.

    Activer l'API

Emplacements des ensembles de données publics

Les exemples de tables BigQuery sont actuellement stockés dans l'emplacement multirégional US. Lorsque vous interrogez un exemple de table, fournissez l'option --location=US dans la ligne de commande, choisissez US comme emplacement de traitement dans Cloud Console, ou spécifiez la propriété location dans la section jobReference de la ressource de tâche lorsque vous utilisez l'API. Étant donné que les exemples de tables sont stockés aux États-Unis, vous ne pouvez pas écrire de résultats issus de requêtes des exemples de tables sur une table d'une autre région, et vous ne pouvez pas joindre d'exemples de tables aux tables d'une autre région.

Accéder aux ensembles de données publics dans Cloud Console

Vous pouvez accéder aux ensembles de données publics à l'aide de Cloud Console. Le projet bigquery-public-data est automatiquement épinglé à chaque projet. Vous pouvez le trouver dans la section Ressources du volet de navigation.

Pour ouvrir le projet bigquery-public-data manuellement à l'aide de Cloud Console, saisissez l'URL suivante dans votre navigateur :

https://console.cloud.google.com/bigquery?project=bigquery-public-data&page=project

Pour savoir quand une table de données a été mise à jour pour la dernière fois, accédez à la section Détails de la table, comme décrit dans la section Obtenir des informations sur la table et consultez le champ Dernière modification.

Autres ensembles de données publics

Vous pouvez interroger de nombreux autres ensembles de données publics. Certains sont hébergés par Google, mais bien d'autres sont hébergés par des tiers. Voici des exemples :

Partager un ensemble de données avec le public

Vous pouvez partager n'importe lequel de vos ensembles de données avec le public. Pour ce faire, modifiez les contrôles d'accès de l'ensemble de données afin d'autoriser l'accès par "Tous les utilisateurs authentifiés". Pour plus d'informations sur la définition des contrôles d'accès des ensembles de données, consultez la page Contrôler l'accès aux ensembles de données.

Lorsque vous partagez un ensemble de données avec le public :

  • Les frais de stockage sont supportés par le compte de facturation associé au projet qui contient l'ensemble de données partagé avec le public.
  • Les frais de requête sont supportés par le compte de facturation associé au projet dans lequel les tâches de requête sont exécutées.

Pour en savoir plus, consultez la page de présentation des tarifs BigQuery.

Exemples de tables

En plus des ensembles de données publics, BigQuery propose un nombre limité d'exemples de tables que vous pouvez interroger. Ces tables sont contenues dans l' ensemble de données bigquery-public-data:samples.

Les conditions requises pour interroger les exemples de tables BigQuery sont identiques à celles destinées à l'interrogation des ensembles de données publics.

L'ensemble de données bigquery-public-data:samples inclut les tables suivantes :

Nom Description
gsod Contient les informations météorologiques recueillies par l'agence américaine NOAA, telles que les quantités de précipitations et les vitesses du vent de la fin de 1929 au début de 2010.
github_nested Contient une chronologie des actions telles que les requêtes d'extraction et les commentaires sur les référentiels GitHub avec un schéma imbriqué. Créée en septembre 2012.
github_timeline Contient une chronologie des actions telles que les demandes d'extraction et les commentaires sur les dépôts GitHub avec un schéma plat. Créée en mai 2012.
natality Décrit toutes les naissances enregistrées aux États-Unis dans les 50 États, le District de Columbia et la ville de New York, de 1969 à 2008.
shakespeare Contient un index de mots des œuvres de Shakespeare, indiquant le nombre de fois où chaque mot apparaît dans chaque corpus.
trigrams Contient des trigrammes en anglais provenant d'un échantillon d'ouvrages publiés entre 1520 et 2008.
wikipedia Contient l'historique complet des révisions de tous les articles de Wikipédia jusqu'en avril 2010.

Nous contacter

Si vous avez des questions concernant le Programme d'ensembles de données publics de BigQuery, contactez-nous à l'adresse bq-public-data@google.com.

Étape suivante

Pour savoir comment interroger une table dans un ensemble de données public, consultez la page Guide de démarrage rapide sur l'utilisation de Cloud Console.