Conjuntos de dados públicos do BigQuery
Um conjunto de dados públicos é qualquer conjunto de dados armazenado no BigQuery e disponibilizado para o público em geral por meio do Programa de conjuntos de dados públicos do Google Cloud. Os conjuntos de dados públicos são hospedados no BigQuery e você pode acessá-los e integrá-los a seus aplicativos. O Google paga pelo armazenamento desses conjuntos de dados e oferece acesso público a eles por meio de um projeto. Você paga apenas pelas consultas realizadas nos dados. O primeiro terabyte (1 TB) por mês é gratuito, sujeito aos detalhes sobre o preço de consulta.
Os conjuntos de dados públicos estão disponíveis para análise usando
consultas
do SQL legado ou do
GoogleSQL. Use um nome de tabela totalmente qualificado ao consultar conjuntos de dados públicos.
Por exemplo, bigquery-public-data.bbc_news.fulltext
. Se sua organização restringir
o acesso a dados, por exemplo, com perímetros de segurança, talvez seja necessário
entrar em contato com o administrador para receber permissão para acessar conjuntos de dados públicos.
É possível acessar os conjuntos de dados públicos do BigQuery pelo console do Google Cloud, pela ferramenta de linha de comando bq e fazendo chamadas para a API REST do BigQuery usando várias bibliotecas de cliente, como Java, .NET ou Python. Também é possível conferir e consultar conjuntos de dados públicos no Analytics Hub, uma plataforma de troca de dados que ajuda você a descobrir e acessar bibliotecas de dados.
Os conjuntos de dados públicos não são acessíveis por padrão dentro de um perímetro do VPC Service Controls. Não há contrato de nível de serviço (SLA) para o programa de conjunto de dados públicos.
Encontre mais detalhes sobre cada conjunto de dados individual clicando no nome dele na seção "Conjuntos de dados" do Cloud Marketplace.
Acessar Conjuntos de dados no Cloud Marketplace
Antes de começar
Para começar a usar um conjunto de dados públicos do BigQuery, você precisa criar ou selecionar um projeto. O primeiro terabyte de dados processados por mês é gratuito. Assim, você pode começar a consultar conjuntos de dados públicos sem ativar o faturamento. Se quiser ir além do Nível gratuito, também é necessário ativar o faturamento.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
- O BigQuery é ativado automaticamente em novos projetos.
Para ativar o BigQuery em um projeto preexistente,
Enable the BigQuery API.
Locais de conjuntos de dados públicos
Cada conjunto de dados público é armazenado em um local específico, como US
ou
EU
. Atualmente, as tabelas de amostra do BigQuery são armazenadas no
local multirregional US
.
Ao consultar uma tabela de amostra, forneça a sinalização --location=US
na
linha de comando, escolha US
como o local de processamento no
console do Cloud ou especifique a propriedade location
na
seção jobReference
do
recurso de job
ao usar a API. Como as tabelas de amostra são armazenadas nos EUA, não é possível gravar resultados de consulta de tabela de amostra em tabelas armazenadas em outras regiões e não é possível mesclar tabelas de amostra com tabelas armazenadas em outras regiões.
Acesse conjuntos de dados públicos no Console do Google Cloud
É possível acessar conjuntos de dados públicos no Console do Cloud usando os seguintes métodos:
No painel Explorer, veja o projeto
bigquery-public-data
. Para mais informações, consulte Abrir um conjunto de dados público.Use o Analytics Hub para visualizar e assinar conjuntos de dados públicos.
Para descobrir quando uma tabela de dados foi atualizada pela última vez, acesse a seção Detalhes da tabela, conforme descrito em Como receber informações da tabela, e veja o campo Última modificação. Para mais informações sobre como selecionar e e remover projetos, consulte Trabalhar com projetos.
Outros conjuntos de dados públicos
Há muitos outros conjuntos de dados públicos disponíveis para consulta Alguns deles também são hospedados pelo Google, mas muitos são hospedados por terceiros.
- Conjuntos de dados públicos do Cloud Life Sciences
- Conjunto de dados de radiografia de tórax do NIH
- Conjunto de dados do The Cancer Imaging Archive (TCIA)
- Conjunto de dados de notas de lançamento da maioria dos produtos do Google Cloud com disponibilidade geral.
Compartilhar um conjunto de dados com o público
Você pode compartilhar qualquer um de seus conjuntos de dados com o público ao mudar os controles de acesso do conjunto de dados e permitir o acesso de "Todos os usuários autenticados". Para mais informações sobre como configurar os controles de acesso de um conjunto de dados, consulte Como controlar o acesso aos conjuntos de dados.
Ao compartilhar um conjunto de dados com o público:
- as cobranças de armazenamento são feitas na conta de faturamento anexada ao projeto que contém o conjunto de dados compartilhado publicamente;
- as cobranças de consulta são feitas na conta de faturamento anexada ao projeto em que os jobs de consulta são executados.
Para mais informações, consulte Visão geral de análises do BigQuery.
Tabelas de amostra
Além dos conjuntos de dados públicos, o BigQuery fornece um número limitado de tabelas de amostra que você pode consultar. Essas tabelas ficam no
conjunto de dados
bigquery-public-data:samples
.
Os requisitos para consultar as tabelas de amostra do BigQuery são iguais aos necessários para consultar os conjuntos de dados públicos.
O conjunto de dados bigquery-public-data:samples
inclui as seguintes tabelas:
Nome | Descrição |
---|---|
gsod |
Contém informações sobre clima, coletadas pela NOAA, como volume de precipitação e velocidade do vento desde 1929 até 2010. |
github_nested |
Contém um cronograma de ações, como solicitações de pull e comentários nos repositórios GitHub com um esquema aninhado. Criado em setembro de 2012. |
github_timeline |
Contém um cronograma de ações, como solicitações de pull e comentários nos repositórios GitHub com um esquema plano. Criado em maio de 2012. |
natality |
Descreve todos os nascimentos nos Estados Unidos registrados nos 50 estados, no Distrito de Colúmbia e na cidade de Nova York de 1969 a 2008. |
shakespeare |
Contém um índice de palavras das obras de Shakespeare com o número de vezes que cada palavra aparece em cada acervo. |
trigrams |
Contém trigramas do idioma inglês de uma amostra de obras publicadas entre 1520 e 2008. |
wikipedia |
Contém o histórico completo de revisões de todos os artigos da Wikipédia até abril de 2010. |
Fale conosco
Se tiver alguma dúvida sobre o programa de conjunto de dados públicos do BigQuery, entre em contato conosco em bq-public-data@google.com
.
A seguir
Saiba como consultar uma tabela em um conjunto de dados público no Guia de início rápido sobre como usar o console do Cloud.