Conjuntos de dados públicos

Acessar e analisar vários conjuntos de dados públicos hospedados no Google Cloud Platform

Faça uma avaliação gratuita

Acessar e analisar dados

A disponibilização de conjuntos de dados públicos no Google Cloud Platform facilita o acesso e a análise de dados na nuvem pelos usuários. Esses conjuntos de dados são hospedados gratuitamente e podem ser acessados por softwares de data warehouse e análise, desde o Apache Spark de código aberto até as tecnologias de ponta utilizadas no Google como o Google BigQuery e o Google Cloud Dataflow. De dados genômicos ou enciclopédicos estruturados a dados não estruturados de clima, os conjuntos públicos oferecem inúmeras opções para iniciantes em Big Data e análise de dados, além de um impressionante repositório para pesquisadores especializados. Você também pode integrá-los ao aplicativo para introduzir ideias úteis para seus usuários. Qualquer que seja a utilização, esses conjuntos estarão disponíveis gratuitamente no GCP.

Acesse e analise dados

Conjuntos de dados públicos do Google BigQuery

O BigQuery hospeda diversos conjuntos de dados públicos que podem ser analisados com o SQL. Os usuários consultam esses dados diretamente na interface do usuário Web do BigQuery ou de modo programático usando a API REST do BigQuery. Esses conjuntos de dados são hospedados gratuitamente e todos podem acessá-los. A consulta é gratuita até o limite de 1TB/mês. Só serão cobradas as consultas que excederem a cota grátis, conforme apresentado nos detalhes do preço.

Vídeo sobre como executar um terabyte de consultas do Google BigQuery todos os meses sem usar o cartão de crédito
Consulta a conjuntos de dados públicos do Google BigQuery

Conjuntos de dados públicos do Google Genomics

O Google colabora com a comunidade genômica, hospedando importantes dados genômicos como o Projeto 1.000 Genomas sob a forma de recurso público. Acesse esses conjuntos de dados pela API do Google Genomics, pela interface Web do BigQuery e pelos exemplos de código aberto.

Conjuntos de dados públicos do Google Genomics

Conjuntos de dados de imagens geográficas

Os conjuntos de dados de imagens dos satélites Landsat e Sentinel, assim como do radar Doppler NEXRAD, estão disponíveis no Google Cloud Storage. Utilize o GCP para realizar análises e desenvolver novos produtos sem se preocupar com o custo de armazenamento dos dados ou o tempo e custo necessários para fazer o download de grandes conjuntos de dados.

Além desses conjuntos de dados hospedados no Google Cloud Storage, outros conjuntos padrão de varredura de ciências da Terra também estão disponíveis no Earth Engine. O Earth Engine oferece um editor de código baseado na Web que facilita e agiliza o desenvolvimento de fluxos de trabalho geoespaciais complexos.

Conjuntos de dados de imagens geográficas

Conjuntos de dados do BigQuery

Passeios da Bay Area Bike Share
Esse conjunto de dados, atualizado diariamente, contém todos os passeios da Bay Area Bike Share desde agosto de 2013. Saiba mais
Coletânea de livros do GDELT
Conjunto de dados com 3,5 milhões de livros digitalizados dos dois últimos séculos, incluindo as coleções completas de domínio público em língua inglesa do Internet Archive (1,3 milhão de volumes) e do HathiTrust (2,2 milhões de volumes). Saiba mais
Dados GitHub
Esse conjunto de dados público contém dados de atividade no GitHub de mais de 2,8 milhões de repositórios de código aberto, mais de 145 milhões de commits únicos, mais de 2 bilhões de caminhos de arquivos diferentes e conteúdo da revisão final de 163 milhões de arquivos. Saiba mais
Dados do formulário 990 do IRS
Um conjunto de dados que contém informações financeiras sobre organizações sem fins lucrativos/isentas nos Estados Unidos, reunidas pelo Internal Revenue Service (IRS) usando o formulário 990. Saiba mais
Dados do Stack Overflow
Esse conjunto de dados público contém um arquivo de conteúdos do Stack Overflow, incluindo postagens, votos, tags e selos. Saiba mais
Dados de árvores urbanas de San Francisco
Esse conjunto de dados inclui uma lista das árvores conservadas pelo San Francisco Department of Public Works, incluindo a data de plantio, a espécie e a localização. Saiba mais
Dados dos boletins de ocorrência da polícia de San Francisco
Esse conjunto de dados inclui incidentes registrados no sistema de informações sobre crimes do San Francisco Police Department (SFPD), de janeiro de 2003 até hoje. Saiba mais
Dados de chamadas do corpo de bombeiros de San Francisco
Esse conjunto de dados, atualizado diariamente, inclui as respostas da unidade de combate a incêndio a chamadas feitas desde abril de 2000 até hoje. Os dados contêm o número da chamada, o número do incidente, o endereço, o identificador da unidade, o tipo de chamada e a disposição. Saiba mais
Dados de solicitações de serviço do 311 de San Francisco
Esse conjunto de dados, atualizado diariamente, inclui todas as solicitações de serviço do 311 de San Francisco de julho de 2008 até hoje. Saiba mais
Nomes de cidadãos americanos
Conjunto de dados da Administração do Seguro Social dos Estados Unidos contendo todos os nomes das solicitações de cadastros feitas ao seguro social por cidadãos nascidos nos EUA depois de 1879. Saiba mais
Departamento de Vigilância de Saúde Pública dos EUA
Conjunto de dados publicado pelo Departamento de Saúde e Serviços Humanos dos Estados Unidos abrangendo todos os relatórios de vigilância semanais em que constam doenças identificadas em âmbito nacional, registradas em cidades e estados americanos entre 1888 e 2013. Saiba mais
Secretaria de Estatísticas Trabalhistas dos Estados Unidos
Esse conjunto de dados inclui estatísticas econômicas sobre inflação, preços, desemprego, pagamentos e benefícios fornecidos pela Secretaria de Estatísticas Trabalhistas dos Estados Unidos. Saiba mais
Hacker News
Conjunto de dados que contém todas as publicações e comentários do Hacker News desde seu lançamento em 2006. Saiba mais
Dados da Major League Baseball
Esses dados públicos incluem informações detalhadas dos jogos da Major League Baseball (MLB) realizados em 2016. Saiba mais
Dados da Medicare
Esse conjunto de dados público foi criado pelos centros de serviços da Medicare e Medicaid dos Estados Unidos. Esses dados resumem a utilização e os pagamentos feitos em procedimentos, serviços e remédios fornecidos sob prescrição para beneficiários da Medicare. Saiba mais
Dados meteorológicos GSOD da NOAA
Esse conjunto de dados público foi criado pela Administração Oceânica e Atmosférica Nacional (NOAA, na sigla em inglês) e inclui dados globais recebidos do Centro de Climatologia da USAF. Esse conjunto abrange os dados GSOD do período entre 1929 e 2016, coletados em mais de 9.000 estações. Saiba mais
Dados GHCN da NOAA
Esse conjunto de dados público foi criado pela Administração Oceânica e Atmosférica Nacional (NOAA, na sigla em inglês) e inclui resumos de clima registrados em estações terrestres de todo o mundo. Esses dados foram submetidos a rigorosas revisões para garantir a qualidade. Esse conjunto de dados extraídos de mais de 20 fontes inclui dados anuais de registros coletados a partir de 1763. Saiba mais
Viagens da NYC TLC
Dados coletados pela NYC Taxi and Limousine Commission (TLC), contendo registros de todas as viagens realizadas nos táxis amarelos e verdes de Nova York entre 2009 até hoje. Saiba mais
Solicitações de serviço do 311 de Nova York
Esses dados públicos, atualizados diariamente, incluem todas as solicitações de serviço do 311 de 2010 até hoje. O 311 é um número de telefone que oferece acesso a serviços municipais não emergenciais. Saiba mais
Viagens do Citi Bike de Nova York
Dados coletados do programa de compartilhamento de bicicletas NYC Citi Bike, que inclui registros de passeios de mais de 10.000 bicicletas e 600 estações espalhadas por Manhattan, Brooklyn, Queens e Cidade de Jersey desde o lançamento em setembro de 2013. Saiba mais
Censo de árvores da Cidade de Nova York
Dados de árvores urbanas da Cidade de Nova York extraídos dos censos de 1995, 2005 e 2015. Esses censos são realizados por voluntários organizados pelo NYC Department of Parks and Recreation. Saiba mais
Colisões de veículos motorizados do NYPD
Este conjunto de dados contém detalhes sobre colisões de veículos motorizados na cidade de Nova York fornecidos pelo Departamento de Polícia (NYPD, na sigla em inglês) de 2012 até hoje. Saiba mais
Dados do Open Images
Trata-se de um conjunto de dados com aproximadamente nove milhões de URLs para imagens identificadas em mais de 6.000 categorias. Saiba mais

Conjuntos de dados de imagens geográficas

Landsat
Conjunto de dados de imagens de satélite do Serviço Geológico dos Estados Unidos (USGS, na sigla em inglês), que contém milhões de imagens multiespectrais da superfície da Terra com resoluções entre 15 e 60 metros por pixel, de 1982 até os dias de hoje. Saiba mais
Conjuntos de dados do Earth Engine
Catálogo de dados público do Earth Engine que inclui uma série de conjuntos de dados de varredura de ciências da Terra. Saiba mais
Sentinel-2
Conjunto de dados de imagens de satélite da Agência Espacial Europeia (ESA, na sigla em inglês), que inclui imagens multiespectrais da superfície da Terra com resolução de 10 a 60 metros por pixel, de 2015 até os dias de hoje. Saiba mais
NEXRAD
Um conjunto de dados climáticos coletados da rede de 160 radares Doppler de alta resolução operados pelas agências do NOAA National Weather Service (NWS), da Federal Aviation Administration (FAA) e da U.S. Air Force (USAF). Saiba mais

Conjuntos de dados genômicos

1000 Genomas
Esse conjunto de dados abrange aproximadamente 2.500 genomas de 25 populações de todo o mundo. Saiba mais
Genomas de referência
Genomas de referência como GRCh37, GRCh37lite, GRCh38, hg19, hs37d5 e b37. Saiba mais
Illumina Platinum Genomes
Esse conjunto de dados abrange a descendência 1463 do CEPH dos 17 países membros do Projeto Genoma Humano. Saiba mais
Projeto da Diversidade do Genoma Humano da Simons Foundation
Esse conjunto de dados abrange 25 genomas de 13 populações diferentes. O conjunto serve de piloto para o Projeto da Diversidade do Genoma Humano da Simons Foundation. Saiba mais
Dados de genoma do câncer do TCGA na nuvem
Acesso livre aos dados do TCGA, incluindo chamados de mutação somática, dados clínicos, expressões mRNA e miRNA, metilação de DNA e expressão de proteína de 33 tipos de tumores diferentes. Saiba mais
Banco de dados MSSNG para pesquisadores de autismo
Este conjunto de dados contém uma coleção cada vez maior de genomas da Illumina e da Complete Genomics de famílias afetadas pelo autismo. Saiba mais

Preço dos conjuntos de dados públicos

Os conjuntos de dados públicos do Google Cloud podem ser acessados gratuitamente usando uma conta do Google. É possível que haja cobranças no caso de extensas pesquisas e em determinadas circunstâncias de uso.

  • BigQuery: os conjuntos de dados públicos hospedados no BigQuery fornecem acesso gratuito aos usuários para consultas de até 1 TB/mês. Consultas acima de 1 TB/mês estão sujeitas à cobrança de acordo com o sistema de preço de consultas.
  • Google Cloud Storage: conjuntos de dados públicos hospedados no Google Cloud Storage, como dados de varredura e do Genomics estão disponíveis gratuitamente. Você só paga pelos recursos do GCP usados em análise de dados, como recursos de computação ou armazenamento adicional utilizados para seus próprios aplicativos.