Conjuntos de dados públicos do BigQuery

O catálogo do Programa de conjuntos de dados públicos do Google Cloud está no GCP Marketplace. Encontre mais detalhes sobre cada conjunto de dados visualizando as páginas do Marketplace na seção Conjuntos de dados .

Acessar Conjuntos de dados no GCP Marketplace

Um conjunto de dados públicos é qualquer conjunto de dados armazenado no BigQuery e disponibilizado para o público em geral por meio do Programa de conjuntos de dados públicos do Google Cloud. Os conjuntos de dados públicos são hospedados no BigQuery e você pode acessá-los e integrá-los a seus aplicativos. O Google paga pelo armazenamento desses conjuntos de dados e oferece acesso público a eles por meio de um projeto. Você paga apenas pelas consultas realizadas nos dados. O primeiro terabyte (1 TB) por mês é gratuito, sujeito aos detalhes sobre o preço de consulta.

Antes de começar

Os conjuntos de dados públicos estão disponíveis para análise usando SQL legado ou consultas SQL padrão. É possível acessar os conjuntos de dados públicos do BigQuery usando a IU da Web do BigQuery no Console do Cloud, a IU da Web clássica do BigQuery e a ferramenta de linha de comando. Também é possível fazer chamadas para a API REST do BigQuery usando diversas bibliotecas de cliente, como Java, .NET ou Python.

Para começar a usar um conjunto de dados públicos do BigQuery, você precisa criar ou selecionar um projeto. O primeiro terabyte de dados processados por mês é gratuito. Assim, você pode começar a consultar conjuntos de dados públicos sem ativar o faturamento. Se você pretende ir além do nível gratuito, também será preciso ativar o faturamento.

  1. Faça login na sua Conta do Google.

    Se você ainda não tiver uma, inscreva-se.

  2. No Console do GCP, na página do seletor de projetos, selecione ou crie um projeto do GCP.

    Acesse a página do seletor de projetos

  3. Verifique se o faturamento foi ativado no projeto do Google Cloud Platform. Saiba como confirmar que o faturamento está ativado para seu projeto.

  4. O BigQuery é ativado automaticamente em novos projetos. Para ativar o BigQuery em um projeto preexistente, Ative a(s) BigQuery API necessária(s).

    Ativar a(s) API

Locais de conjuntos de dados públicos

Atualmente, as tabelas de amostra do BigQuery são armazenadas no local multirregional US. Ao consultar uma tabela de amostra, forneça a --location=USsinalização na linha de comando e escolha US como local de processamento no Console do Cloud ou na IU da Web clássica do BigQuery. Você também pode especificar a propriedade location na seção jobReference do recurso do job, se usar a API. Como as tabelas de amostra são armazenadas nos EUA, não é possível gravar resultados de consulta de tabela de amostra em tabelas armazenadas em outras regiões e não é possível mesclar tabelas de amostra com tabelas armazenadas em outras regiões.

Como acessar conjuntos de dados públicos na IU da Web do BigQuery

Duas interfaces de usuário podem ser usadas para acessar os conjuntos de dados públicos:

O projeto bigquery-public-data é fixado automaticamente em todos os projetos em ambas as IUs. Você pode encontrar o projeto no painel de navegação.

Para abrir o projeto bigquery-public-data manualmente, você pode:

  • Insira o seguinte URL no navegador para abrir os conjuntos de dados públicos na IU da Web clássica do BigQuery: https://bigquery.cloud.google.com/.
  • Insira o seguinte URL para abrir os conjuntos de dados públicos na IU da Web do BigQuery no Console do Cloud: https://console.cloud.google.com/bigquery?project=bigquery-public-data&page=project.

Para alternar do Console do Cloud para a IU da Web clássica, consulte Como alternar para a IU da Web clássica.

Outros conjuntos de dados públicos

Há muitos outros conjuntos de dados públicos disponíveis para consulta Alguns deles também são hospedados pelo Google, mas muitos são hospedados por terceiros.

Como compartilhar um conjunto de dados com o público

Você pode compartilhar qualquer um de seus conjuntos de dados com o público ao mudar os controles de acesso do conjunto de dados e permitir o acesso de "Todos os usuários autenticados". Para mais informações sobre como configurar os controles de acesso de um conjunto de dados, consulte Como controlar o acesso aos conjuntos de dados.

Quando você compartilha um conjunto de dados com o público:

  • Os custos de armazenamento são cobrados na conta de faturamento anexada ao projeto que contém o conjunto de dados compartilhado com o público.
  • As cobranças de consulta são feitas na conta de faturamento anexada ao projeto em que as tarefas de consulta são executadas.

Para mais informações, consulte Como as cobranças são faturadas.

Tabelas de amostra

Além dos conjuntos de dados públicos, o BigQuery fornece um número limitado de tabelas de amostra que você pode consultar. Essas tabelas ficam no conjunto de dados bigquery-public-data:samples.

Os requisitos para consultar as tabelas de amostra do BigQuery são iguais aos necessários para consultar os conjuntos de dados públicos.

O conjunto de dados bigquery-public-data:samples inclui as seguintes tabelas:

Nome Descrição
gsod Contém informações sobre clima coletadas pela NOAA (Administração Oceânica e Atmosférica Nacional - EUA), como volume de precipitação e velocidade do vento de 1929 até 2010.
github_nested Contém um cronograma de ações, como solicitações de pull e comentários nos repositórios GitHub com um esquema aninhado. Criado em setembro de 2012.
github_timeline Contém um cronograma de ações, como solicitações de pull e comentários nos repositórios GitHub com um esquema plano. Criado em maio de 2012.
Natalidade Descreve todos os nascimentos nos Estados Unidos registrados nos 50 estados, no Distrito de Colúmbia e na cidade de Nova York de 1969 a 2008.
Shakespeare Contém um índice de palavras das obras de Shakespeare, especificando o número de vezes que cada uma aparece em cada corpus.
Trigramas Contém trigramas do idioma inglês de uma amostra de obras publicadas entre 1520 e 2008.
Wikipedia Contém o histórico completo de revisões de todos os artigos da Wikipédia até abril de 2010.

Entrar em contato

Se você tiver alguma dúvida sobre o programa de conjunto de dados públicos do BigQuery, entre em contato conosco em bq-public-data@google.com.