Introdução ao Analytics Hub

O Analytics Hub é uma plataforma de troca de dados que permite compartilhar dados e insights em escala entre limites organizacionais com uma estrutura robusta de segurança e privacidade. Com o Analytics Hub, é possível descobrir e acessar uma biblioteca de dados selecionada por vários provedores de dados. Essa biblioteca também inclui conjuntos de dados fornecidos pelo Google.

Por exemplo, é possível usar o Analytics Hub para expandir suas iniciativas de análise e ML com conjuntos de dados de terceiros e do Google.

Como usuário do Analytics Hub, você pode realizar as seguintes tarefas:

  • Como editor do Analytics Hub, você gera receita ao compartilhar dados com a rede de parceiros ou dentro da sua organização em tempo real. As listagens permitem compartilhar dados sem replicar os dados compartilhados. É possível criar um catálogo de fontes de dados prontas para análise com permissões granulares que permitem entregar dados aos públicos-alvo certos. Você também pode gerenciar assinaturas e visualizar as métricas de uso de listas.

  • Como assinante do Analytics Hub, você pode descobrir os dados que procura, combinar dados compartilhados com seus dados atuais e aproveitar os recursos integrados do BigQuery. Quando você faz a inscrição em uma listagem, um conjunto de dados vinculado é criado no seu projeto. É possível gerenciar suas assinaturas usando o recurso de assinatura, que armazena informações relevantes sobre o assinante e representa a conexão entre o editor e o assinante.

  • Como visualizador do Analytics Hub, você pode navegar pelos conjuntos de dados a que tem acesso no Analytics Hub e solicitar ao editor o acesso aos dados compartilhados.

  • Como administrador do Analytics Hub, você pode criar trocas de dados que permitem o compartilhamento de dados e, em seguida, conceder permissões aos editores de dados e assinantes para acessar essas trocas de dados.

Para mais informações sobre os papéis de usuário do Analytics Hub, consulte Configurar papéis do Analytics Hub.

Arquitetura

O Analytics Hub foi criado com base em um modelo de publicação e assinatura dos conjuntos de dados do BigQuery. A separação de computação e armazenamento na arquitetura do BigQuery permite que os editores de dados compartilhem dados com quantos assinantes quiserem, sem ter que fazer várias cópias dos dados. Os editores só são cobrados pelo armazenamento de dados, enquanto os assinantes só pagam pelas consultas executadas nos dados compartilhados. Os fluxos de trabalho do editor e do assinante no Analytics Hub são explicados em detalhes nas seções a seguir.

Fluxo de trabalho do editor

O diagrama a seguir descreve como os editores interagem com o Analytics Hub:

Interação entre editores do Analytics Hub e o Analytics Hub.
Figura 1. Fluxo de trabalho do editor do Analytics Hub.

Na figura 1, os seguintes recursos são rotulados: Conjunto de dados compartilhado, Troca de dados e Listagem.

Conjuntos de dados compartilhados
Um conjunto de dados compartilhado é um conjunto de dados do BigQuery que é a unidade de compartilhamento de dados no Analytics Hub. Como editor, você cria ou usa um conjunto de dados existente do BigQuery no seu projeto com os seguintes objetos compatíveis que você quer enviar aos assinantes: Os conjuntos de dados compartilhados são compatíveis com a segurança no nível de coluna e no nível de linha.
Trocas de dados
A troca de dados é um contêiner que ativa o compartilhamento de dados de autoatendimento. Ele contém listagens que referenciam conjuntos de dados compartilhados. Com o Analytics Hub, os editores e administradores podem conceder acesso aos assinantes nos níveis da troca e da listagem. Esse método ajuda a evitar a concessão explícita de acesso aos conjuntos de dados compartilhados. Um assinante do Analytics Hub pode navegar pelas trocas de dados, descobrir dados que podem acessar e se inscrever em conjuntos de dados compartilhados. Uma troca de dados pode ser dos seguintes tipos:
  • Troca de dados particulares. Por padrão, uma troca de dados é particular e somente usuários ou grupos que têm acesso a ela podem visualizar ou se inscrever nos dados.
  • Troca de dados públicos. Por padrão, uma troca de dados é particular e somente usuários ou grupos que têm acesso a essa troca podem visualizar ou se inscrever nas listagens. No entanto, você pode optar por tornar a troca de dados pública. As listagens em trocas de dados públicos podem ser descobertas e assinadas por usuários do Google Cloud (allAuthenticatedUsers). Para saber mais sobre trocas de dados públicos, consulte Tornar uma troca de dados pública.

Como administrador do Analytics Hub, você pode criar várias trocas de dados e gerenciar outros usuários do Analytics Hub.

Listagens
Uma listagem é uma referência a um conjunto de dados compartilhado que um editor lista em uma troca de dados. Como editor, você pode criar uma listagem e especificar a descrição do conjunto de dados, as consultas de amostra a serem executadas no conjunto de dados, os links para qualquer documentação relevante e qualquer informação adicional que possa ajudar os assinantes a usar seu conjunto de dados. Para mais informações, consulte Gerenciar listagens. Uma listagem pode ser dos dois tipos a seguir com base na política de gerenciamento de identidade e acesso (IAM) definida para a listagem e no tipo de troca de dados que contém a listagem:
  • Listagem pública. Ela é compartilhada com todos os usuários do Google Cloud (allAuthenticatedUsers). As listagens em uma troca de dados públicos são públicas. Essas listagens podem ser referências a um conjunto de dados público gratuito ou a um conjunto de dados comercial. Se a listagem for de um conjunto de dados comercial, os assinantes poderão solicitar acesso à listagem e o provedor de dados entrará em contato diretamente com eles.
  • Listagem particular. Ela é compartilhada diretamente com indivíduos ou grupos. Por exemplo, uma listagem particular pode fazer referência ao conjunto de dados de métricas de marketing que você compartilha com outras equipes internas da organização.

Saída de dados

Definir as opções de saída de dados (visualização) permite limitar a exportação de dados para fora do BigQuery. Somente assinantes com produtos sem edição ou Enterprise Plus podem consultar dados com restrições de saída. É possível ativar a restrição de saída de dados em uma lista, nos resultados de uma consulta ou em ambos. Quando a saída de dados é restrita, as seguintes restrições são aplicadas:

  • As APIs de cópia, clonagem, exportação e snapshot ficam desativadas.

  • As opções de copiar, clonar, exportar e de snapshot no console do Google Cloud ficam desativadas.

  • A conexão do conjunto de dados restrito ao explorador de tabelas fica desativada.

  • O serviço de transferência de dados do BigQuery fica desativado no conjunto de dados restrito.

  • As instruções CREATE TABLE AS SELECT e a gravação de uma tabela de destino ficam desativadas.

Ao criar uma lista, é possível definir as opções de saída de dados adequadas.

Fluxo de trabalho dos assinantes

O diagrama a seguir descreve como os assinantes interagem com o Analytics Hub:

Interação entre os assinantes do Analytics Hub e o Analytics Hub.
Figura 2. Fluxo de trabalho de assinantes do Analytics Hub.

Na Figura 2, os seguintes recursos do Analytics Hub são rotulados: Conjunto de dados compartilhado, Troca de dados, Listagem e Conjunto de dados vinculado.

Conjuntos de dados vinculados
Um conjunto de dados vinculado é um conjunto de dados somente leitura do BigQuery que serve como link simbólico para um conjunto de dados compartilhado. A assinatura de uma listagem cria um conjunto de dados vinculado no seu projeto, e não uma cópia do conjunto de dados, para que os assinantes possam ler os dados, mas não possam adicionar ou atualizar objetos nele. Quando você consulta objetos, como tabelas e visualizações, em um conjunto de dados vinculado, os dados do conjunto de dados compartilhado são retornados. Para mais informações sobre conjuntos de dados vinculados, consulte Ver e se inscrever em listagem. Os conjuntos de dados vinculados estão autorizados a acessar tabelas e visualizações de um conjunto de dados compartilhado. Os assinantes com conjuntos de dados vinculados acessam tabelas e visualizações de um conjunto de dados compartilhado sem nenhuma outra autorização do gerenciamento de identidade e acesso. Os conjuntos de dados vinculados aceitam os seguintes objetos:

Limitações

O Analytics Hub tem as seguintes limitações:

  • Um conjunto de dados compartilhado pode ter no máximo 1.000 conjuntos de dados vinculados.

  • Um conjunto de dados com recursos não compatíveis não pode ser selecionado como um conjunto de dados compartilhado quando você cria uma listagem. Para mais informações sobre os objetos do BigQuery compatíveis com o Analytics Hub, consulte Conjuntos de dados compartilhados neste documento.

  • Não é possível atualizar uma lista para restringir a saída de dados. Só é possível restringir a saída de dados em uma nova lista.

  • Os conjuntos de dados vinculados criados antes de 25 de julho de 2023 não são preenchidos pelo recurso de assinatura. Apenas assinaturas criadas após 25 de julho de 2023 vão funcionar com os métodos da API.

  • Se você é editor, as seguintes limitações de interoperabilidade do BigQuery são aplicáveis:

    • Os assinantes não podem consultar visualizações em conjuntos de dados vinculados que referenciam dados de outros projetos. É preciso criar visualizações autorizadas para conceder aos assinantes acesso aos dados da visualização, sem conceder a eles acesso aos dados de origem subjacentes.

    • O plano de consulta revela a consulta de visualização compartilhada e a consulta de rotina, incluindo IDs do projeto e outros conjuntos de dados envolvidos nas visualizações autorizadas. Nunca inclua nada, como chaves de criptografia que você considere confidencial, na visualização compartilhada ou na consulta de rotina.

    • Os conjuntos de dados compartilhados são indexados no Data Catalog. As atualizações em um conjunto de dados compartilhado, como a adição de tabelas ou visualizações, são disponibilizadas para os assinantes sem atrasos. No entanto, em algumas situações (por exemplo, quando há mais de cem assinantes ou tabelas em um conjunto de dados compartilhado), as atualizações podem levar até 18 horas para serem indexadas no Data Catalog. Devido ao atraso na indexação, os assinantes não podem pesquisar esses recursos atualizados no console do Google Cloud.

    • Se você tiver configurado políticas de segurança na linha ou máscara de dados nas tabelas listadas, os assinantes precisarão ser uma empresa ou clientes do Enterprise Plus para executar o job de consulta no conjunto de dados vinculado. Para informações sobre edições, consulte Introdução às edições do BigQuery.

  • Se você é assinante, as seguintes limitações de interoperabilidade do BigQuery são aplicáveis:

    • Não há compatibilidade com visualizações materializadas que se referem a tabelas no conjunto de dados vinculado.

    • Não é possível fazer captura de tela de tabelas de conjuntos de dados vinculados.

    • Se os conjuntos de dados vinculados não forem colocados com o conjunto de dados compartilhado, as operações de leitura nas tabelas do conjunto de dados vinculados com um tamanho de consulta superior a 1 TB poderão falhar. Você também pode entrar em contato com o suporte para resolver esse problema.

    • Não é possível usar qualificadores de região com visualizações INFORMATION_SCHEMA para ver os metadados da tabela do conjunto de dados vinculado.

    • Ao consultar rotinas em um conjunto de dados vinculado, só é possível consultar funções definidas pelo usuário (UDFs SQL e JavaScript) e tipos de rotina de Funções de tabela. A consulta de um tipo de rotina incompatível resulta na mensagem de erro: Querying routine type type is not yet supported on linked dataset dataset.

  • As seguintes limitações se aplicam às métricas de uso:

  • As seguintes limitações se aplicam ao assinar os dados do Salesforce Data Cloud:

    • Os dados da nuvem de dados são compartilhados como visualizações. Como assinante, não é possível acessar as tabelas subjacentes às quais as visualizações fazem referência.

Regiões compatíveis

O Analytics Hub é compatível com as seguintes regiões e multirregiões.

Regiões

A tabela a seguir lista as regiões nas Américas onde o Analytics Hub está disponível.
Descrição da região Nome da região Detalhes
Iowa us-central1 Ícone de folha CO2 baixo
Las Vegas us-west4
Los Angeles us-west2
Montreal northamerica-northeast1 Ícone de folha CO2 baixo
Norte da Virgínia us-east4
Oregon us-west1 Ícone de folha CO2 baixo
Salt Lake City us-west3
São Paulo southamerica-east1 Ícone de folha Baixo CO2
Santiago southamerica-west1
Carolina do Sul us-east1
Toronto northamerica-northeast2
A tabela a seguir lista as regiões da Ásia-Pacífico em que o Analytics Hub está disponível.
Descrição da região Nome da região Detalhes
Délhi asia-south2
Hong Kong asia-east2
Jacarta asia-southeast2
Melbourne australia-southeast2
Mumbai asia-south1
Osaka asia-northeast2
Seul asia-northeast3
Singapura asia-southeast1
Sydney australia-southeast1
Taiwan asia-east1
Tóquio asia-northeast1
A tabela a seguir lista as regiões da Europa em que o Analytics Hub está disponível.
Descrição da região Nome da região Detalhes
Bélgica europe-west1 Ícone de folha Baixo CO2
Finlândia europe-north1 Ícone de folha CO2 baixo
Frankfurt europe-west3 ícone de folha Baixo CO2
Londres europe-west2 ícone de folha Baixo CO2
Países Baixos europe-west4
Varsóvia europe-central2
Zurique europe-west6 Ícone de folha Baixo CO2

Multirregiões

A tabela a seguir lista as multirregiões em que o Analytics Hub está disponível.
Descrição multirregional Nome multirregional
Data centers dentro de estados membro da União Europeia1 EU
Data centers nos Estados Unidos US

1 Os dados localizados na multirregião EU não são armazenados nos data centers europe-west2 (Londres) ou europe-west6 (Zurique).

Regiões Omni

A tabela a seguir lista o Omni em que o Analytics Hub está disponível.
Descrição da região Omni Nome da região Omni
AWS
AWS - US East (N. Virginia) aws-us-east-1
Azure
Azure - East US 2 azure-eastus2

Exemplo de caso de uso:

Esta seção mostra um exemplo de como você pode usar o Analytics Hub.

Suponha que você seja um varejista e sua organização tenha dados de previsão de demanda em tempo real em um projeto do Google Cloud chamado Previsão. Você quer compartilhar esses dados de previsão de demanda com centenas de fornecedores no sistema da cadeia de suprimentos. Veja como compartilhar seus dados com fornecedores por meio do Analytics Hub:

Administradores do Analytics Hub

Como proprietário do projeto Previsão, primeiro você precisa ativar a API Analytics Hub e, em seguida, atribuir o papel de administrador do Analytics Hub a um usuário que administra a troca de dados no projeto. Os usuários com esse papel são chamados de administradores do Analytics Hub.

Um administrador do Analytics Hub pode realizar as seguintes tarefas:

  • Crie, atualize, exclua e compartilhe a troca de dados no projeto de Previsão da sua organização.

  • Gerenciar outros administradores do Analytics Hub.

  • Gerencie os editores ao conceder a função "Editor" do Analytics Hub aos funcionários da sua organização. Se você quiser que alguns funcionários só possam atualizar, excluir e compartilhar listagens, mas não criá-las, conceda a eles o papel de administrador de listagens da empresa do Analytics Hub.

  • Gerencie assinantes concedendo o papel de assinante do Analytics Hub a um grupo do Google que consiste em todos os fornecedores. Se você quiser que alguns fornecedores tenham acesso somente de visualização às trocas e listagens disponíveis, conceda a eles o papel de Leitor do Analytics Hub. Esses fornecedores não podem se inscrever em listagens.

Para mais informações, consulte Gerenciar trocas de dados.

Editores do Analytics Hub

Os editores criam as seguintes listagens para os conjuntos de dados no projeto Previsão ou em um projeto diferente:

  • Listagem A: conjunto de dados 1 da previsão de demanda
  • Listagem B: conjunto de dados 2 da previsão de demanda
  • Listagem C: conjunto de dados 3 da previsão de demanda

Como provedor de dados, é possível rastrear as métricas de uso do seu conjunto de dados compartilhado. As métricas de uso incluem os seguintes detalhes:

  • Jobs que são executados no conjunto de dados compartilhado.
  • Os detalhes de consumo do seu conjunto de dados compartilhado por organização e projetos dos assinantes.
  • O número de linhas e bytes processados pelo job.

Para mais informações, consulte Gerenciar listagens.

Assinantes do Analytics Hub

Os assinantes podem navegar pelas listagens às quais têm acesso em trocas de dados. Eles também podem se inscrever nessas listagens e adicionar esses conjuntos de dados aos projetos criando um conjunto de dados vinculado. Os fornecedores podem executar consultas nesses conjuntos de dados vinculados e recuperar os resultados em tempo real.

Para mais informações, consulte Visualizar e assinar listagens.

Preços

Não há custo adicional para gerenciar trocas ou listagens de dados. Os editores do Analytics Hub são cobrados pelo armazenamento de dados, enquanto os assinantes pagam pelas consultas que são executadas nos dados compartilhados com base em um modelo de preços sob demanda ou com base em capacidade. Para informações sobre preços, consulte Monitoramento de preços.

Cotas

Para informações sobre cotas do Analytics Hub, consulte Cotas e limites.

VPC Service Controls

É possível definir as regras de entrada e saída necessárias para permitir que editores e assinantes acessem dados de projetos que têm perímetros do VPC Service Controls. Para mais informações, consulte Regras do VPC Service Controls do Analytics Hub.

A seguir