Conjuntos de dados públicos do BigQuery

Um conjunto de dados público é qualquer conjunto de dados armazenado no BigQuery e disponibilizado ao público em geral através do Programa de conjuntos de dados públicos da Google Cloud. Os conjuntos de dados públicos são conjuntos de dados alojados pelo BigQuery para que possa aceder aos mesmos e integrá-los nas suas aplicações. A Google paga o armazenamento destes conjuntos de dados e disponibiliza acesso público aos dados através de um projeto. Só paga pelas consultas que executa nos dados. O primeiro 1 TB por mês é gratuito, sujeito aos detalhes de preços das consultas.

Os conjuntos de dados públicos estão disponíveis para análise através de consultas de SQL antigo ou GoogleSQL. Use um nome de tabela totalmente qualificado quando consultar conjuntos de dados públicos, por exemplo, bigquery-public-data.bbc_news.fulltext. Se a sua organização restringir o acesso aos dados, por exemplo, com perímetros de segurança, pode ter de contactar o administrador para receber autorização para aceder a conjuntos de dados públicos.

Pode aceder aos conjuntos de dados públicos do BigQuery através da Google Cloud consola, da ferramenta de linha de comandos bq ou fazendo chamadas para a API REST do BigQuery com várias bibliotecas de cliente, como Java, .NET ou Python. Também pode ver e consultar conjuntos de dados públicos através da partilha do BigQuery (anteriormente Analytics Hub), uma plataforma de troca de dados que ajuda a descobrir e aceder a bibliotecas de dados.

Os conjuntos de dados públicos não são acessíveis por predefinição a partir de um perímetro dos VPC Service Controls. Não existe um contrato de nível de serviço (SLA) para o programa de conjuntos de dados públicos.

Aceda à partilha (Analytics Hub)

Pode encontrar mais detalhes sobre cada conjunto de dados individual clicando no nome do conjunto de dados na secção Conjuntos de dados do Cloud Marketplace.

Aceda a Conjuntos de dados no Cloud Marketplace

Antes de começar

Para começar a usar um conjunto de dados público do BigQuery, tem de criar ou selecionar um projeto. O primeiro terabyte de dados processados por mês é gratuito, pelo que pode começar a consultar conjuntos de dados públicos sem ativar a faturação. Se pretender ir além do nível gratuito, também tem de ativar a faturação.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. O BigQuery é ativado automaticamente em novos projetos. Para ativar o BigQuery num projeto pré-existente:

    Enable the BigQuery API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  7. Localizações de conjuntos de dados públicos

    Cada conjunto de dados público é armazenado numa localização específica, como US ou EU. Atualmente, as tabelas de exemplo do BigQuery estão armazenadas na localização US multirregião . Quando consulta uma tabela de amostra, forneça a flag --location=US na linha de comandos, escolha US como a localização de processamento na consolaGoogle Cloud ou especifique a propriedade location na secção jobReference do recurso de tarefa quando usa a API. Uma vez que as tabelas de exemplo estão armazenadas nos EUA, não pode escrever resultados de consultas de tabelas de exemplo numa tabela noutra região nem associar tabelas de exemplo a tabelas noutra região.

    Aceda a conjuntos de dados públicos na consola Google Cloud

    Pode aceder a conjuntos de dados públicos na Google Cloud consola através dos seguintes métodos:

    Para saber quando uma tabela de dados foi atualizada pela última vez, aceda à secção Detalhes da tabela, conforme descrito em Obtenha informações sobre tabelas, e consulte o campo Última modificação. Para mais informações sobre como selecionar e remover projetos, consulte o artigo Trabalhe com projetos.

    Outros conjuntos de dados públicos

    Existem muitos outros conjuntos de dados públicos disponíveis para consultar, alguns dos quais também são alojados pela Google, mas muitos mais são alojados por terceiros. Outros conjuntos de dados incluem:

    Partilhe um conjunto de dados com o público

    Pode partilhar qualquer um dos seus conjuntos de dados com o público alterando os controlos de acesso do conjunto de dados para permitir o acesso a "Todos os utilizadores autenticados". Para mais informações sobre como definir controlos de acesso ao conjunto de dados, consulte o artigo Controlar o acesso a conjuntos de dados.

    Quando partilha um conjunto de dados com o público:

    • Os encargos de armazenamento são suportados pela conta de faturação associada ao projeto que contém o conjunto de dados partilhado publicamente.
    • As cobranças de consultas são incorridas pela conta de faturação anexada ao projeto onde os trabalhos de consulta são executados.

    Para mais informações, consulte o artigo Vista geral dos preços do BigQuery.

    Tabelas de exemplo

    Além dos conjuntos de dados públicos, o BigQuery oferece um número limitado de tabelas de exemplo que pode consultar. Estas tabelas estão contidas no conjunto de dados bigquery-public-data:samples.

    Os requisitos para consultar as tabelas de exemplo do BigQuery são os mesmos que os requisitos para consultar os conjuntos de dados públicos.

    O conjunto de dados bigquery-public-data:samples inclui as seguintes tabelas:

    Nome Descrição
    gsod Contém informações meteorológicas recolhidas pela NOAA, como quantidades de precipitação e velocidades do vento desde o final de 1929 até ao início de 2010.
    github_nested Contém uma cronologia de ações, como pedidos de envio e comentários em repositórios do GitHub com um esquema aninhado. Criado em setembro de 2012.
    github_timeline Contém uma cronologia de ações, como pedidos de envio e comentários em repositórios do GitHub com um esquema simples. Criado em maio de 2012.
    natality Descreve todos os nascimentos nos Estados Unidos registados nos 50 estados, no Distrito de Columbia e na cidade de Nova Iorque de 1969 a 2008.
    shakespeare Contém um índice de palavras das obras de Shakespeare, indicando o número de vezes que cada palavra aparece em cada corpus.
    trigrams Contém trigramas em inglês de uma amostra de obras publicadas entre 1520 e 2008.
    wikipedia Contém o histórico de revisões completo de todos os artigos da Wikipédia até abril de 2010.

    Contacte-nos

    Se tiver alguma dúvida sobre o programa de conjuntos de dados públicos do BigQuery, contacte-nos através do endereço bq-public-data@google.com.

    O que se segue?

    Saiba como consultar uma tabela num conjunto de dados público no artigo Início rápido com a Google Cloud consola.