Introdução ao Analytics Hub

O Analytics Hub é uma plataforma de troca de dados que permite compartilhar dados e insights em escala entre limites organizacionais com uma estrutura robusta de segurança e privacidade. Com o Analytics Hub, é possível descobrir e acessar uma biblioteca de dados selecionada por vários provedores de dados. Essa biblioteca também inclui conjuntos de dados fornecidos pelo Google.

Por exemplo, é possível usar o Analytics Hub para expandir suas iniciativas de análise e ML com conjuntos de dados de terceiros e do Google.

Como usuário do Analytics Hub, você pode realizar as seguintes tarefas:

  • Como editor do Analytics Hub, você gera receita ao compartilhar dados com a rede de parceiros ou dentro da sua organização em tempo real. As listagens permitem compartilhar dados sem replicar os dados compartilhados. É possível criar um catálogo de fontes de dados prontas para análise com permissões granulares que permitem entregar dados aos públicos-alvo certos. Você também pode gerenciar assinaturas e visualizar as métricas de uso de listas.

  • Como assinante do Analytics Hub, você pode descobrir os dados que procura, combinar dados compartilhados com seus dados atuais e aproveitar os recursos integrados do BigQuery. Quando você se inscreve em uma listagem, um conjunto de dados vinculado ou uma assinatura do Pub/Sub vinculada será criada no seu projeto. É possível gerenciar suas assinaturas usando o recurso de assinatura, que armazena informações relevantes sobre o assinante e representa a conexão entre o editor e o assinante.

  • Como visualizador do Analytics Hub, você pode navegar pelos conjuntos de dados a que tem acesso no Analytics Hub e solicitar ao editor o acesso aos dados compartilhados.

  • Como administrador do Analytics Hub, você pode criar trocas de dados que permitem o compartilhamento de dados e, em seguida, conceder permissões aos editores de dados e assinantes para acessar essas trocas de dados.

Para mais informações sobre os papéis de usuário do Analytics Hub, consulte Configurar papéis do Analytics Hub.

Arquitetura

O Analytics Hub foi criado com base no modelo de publicação e assinatura de recursos de dados do Google Cloud, permitindo o compartilhamento sem cópia. O Analytics Hub é compatível com os seguintes recursos do Google Cloud:

  • Conjuntos de dados do BigQuery
  • Tópicos do Pub/Sub

Os fluxos de trabalho do editor e do assinante no Analytics Hub são explicados em detalhes nas seções a seguir.

Fluxo de trabalho do editor

O diagrama a seguir descreve como os editores interagem com o Analytics Hub:

Interação entre editores do Analytics Hub e o Analytics Hub.
Figura 1. Fluxo de trabalho do editor do Analytics Hub.

Na figura 1, os seguintes recursos são rotulados: Recursos compartilhados, Troca de dados e Listagem.

Recursos compartilhados

Os recursos compartilhados são a unidade que um editor compartilha no Analytics Hub.

Conjuntos de dados compartilhados
Um conjunto de dados compartilhado é um conjunto de dados do BigQuery que é a unidade de compartilhamento de dados no Analytics Hub. A separação de computação e armazenamento na arquitetura do BigQuery permite que os editores de dados compartilhem conjuntos de dados com quantos assinantes quiserem, sem ter que fazer várias cópias dos dados. Como editor, você cria ou usa um conjunto de dados existente do BigQuery no seu projeto com os seguintes objetos compatíveis que você quer enviar aos assinantes: Os conjuntos de dados compartilhados são compatíveis com a segurança no nível de coluna e no nível de linha.
Tópicos compartilhados (prévia)
Um tópico compartilhado é um tópico do Pub/Sub que é a unidade do compartilhamento de dados de streaming no Analytics Hub. Como editor, você cria ou usa um Pub/Sub no seu projeto e o distribui para os assinantes.

Trocas de dados

Uma troca de dados é um contêiner que ativa o compartilhamento de dados de autoatendimento. Ela contém listagens que referenciam conjuntos de dados compartilhados. Com o Analytics Hub, os editores e administradores podem conceder acesso aos assinantes nos níveis da troca e da listagem. Esse método ajuda a evitar a concessão explícita de acesso aos recursos compartilhados. Um assinante do Analytics Hub pode navegar pelas trocas de dados, descobrir dados que podem acessar e se inscrever em recursos compartilhados. Uma troca de dados pode ser dos seguintes tipos:
  • Troca de dados particulares. Por padrão, uma troca de dados é particular e somente usuários ou grupos que têm acesso a essa troca podem visualizar ou se inscrever nas listagens.
  • Troca de dados públicos. Por padrão, uma troca de dados é particular e somente usuários ou grupos que têm acesso a essa troca podem visualizar ou se inscrever nas listagens. No entanto, você pode optar por tornar a troca de dados pública. As listagens em trocas de dados públicos podem ser descobertas e assinadas por usuários do Google Cloud (allAuthenticatedUsers). Para saber mais sobre trocas de dados públicos, consulte Tornar uma troca de dados pública.

Como administrador do Analytics Hub, você pode criar várias trocas de dados e gerenciar outros usuários do Analytics Hub.

Listagens

Uma listagem é uma referência a um recurso compartilhado que um editor lista em uma troca de dados. Como editor, você pode criar uma listagem e especificar descrição do recurso, exemplos de consultas para executar ou exemplos de dados de mensagens, links para qualquer documentação relevante e informações adicionais que possam ajudar os assinantes a usar seu recurso compartilhado. Para mais informações, consulte Gerenciar listagens. Uma listagem pode ser dos dois tipos a seguir com base na política de gerenciamento de identidade e acesso (IAM) definida para a listagem e no tipo de troca de dados que contém a listagem:
  • Listagem pública. Ela é compartilhada com todos os usuários do Google Cloud (allAuthenticatedUsers). As listagens em uma troca de dados públicos são públicas. Essas listagens podem ser referências de um recurso público gratuito ou um recurso comercial. Se a listagem for de um recurso comercial, os assinantes poderão solicitar acesso à listagem e o provedor de dados entrará em contato diretamente com eles.
  • Listagem particular. Ela é compartilhada diretamente com indivíduos ou grupos. Por exemplo, uma listagem particular pode fazer referência ao conjunto de dados de métricas de marketing que você compartilha com outras equipes internas da organização.

Fluxo de trabalho dos assinantes

O diagrama a seguir descreve como os assinantes interagem com o Analytics Hub:

Interação entre os assinantes do Analytics Hub e o Analytics Hub.
Figura 2. Fluxo de trabalho de assinantes do Analytics Hub.

Na Figura 2, os seguintes recursos do Analytics Hub são rotulados: Recursos compartilhados, Troca de dados, Listagem e Recursos vinculados.

Recursos vinculados

Os recursos vinculados são criados ao se inscrever em uma listagem do Analytics Hub, conectando um assinante ao recurso compartilhado.

Conjuntos de dados vinculados
Um conjunto de dados vinculado é um conjunto de dados somente leitura do BigQuery que serve como link simbólico para um conjunto de dados compartilhado. A assinatura de uma listagem cria um conjunto de dados vinculado no seu projeto, e não uma cópia do conjunto de dados, para que os assinantes possam ler os dados, mas não possam adicionar ou atualizar objetos nele. Quando você consulta objetos, como tabelas e visualizações, em um conjunto de dados vinculado, os dados do conjunto de dados compartilhado são retornados. Para mais informações sobre conjuntos de dados vinculados, consulte Ver e se inscrever em listagem. Os conjuntos de dados vinculados estão autorizados a acessar tabelas e visualizações de um conjunto de dados compartilhado. Os assinantes com conjuntos de dados vinculados acessam tabelas e visualizações de um conjunto de dados compartilhado sem nenhuma outra autorização do gerenciamento de identidade e acesso. Os conjuntos de dados vinculados aceitam os seguintes objetos:
Assinaturas do Pub/Sub vinculadas (prévia)
Inscrever-se em uma listagem com um tópico compartilhado cria uma assinatura do Pub/Sub vinculada no projeto do assinante. Nenhuma cópia do tópico ou dos dados da mensagem compartilhados é criada. Os assinantes da assinatura do Pub/Sub vinculada podem acessar as mensagens publicadas no tópico compartilhado. Os assinantes acessam os dados das mensagens de um tópico compartilhado sem qualquer autorização adicional do Identity and Access Management. Os editores podem gerenciar assinaturas diretamente no Pub/Sub ou pelo gerenciamento de assinaturas do Analytics Hub. Para mais informações sobre assinaturas vinculadas do Pub/Sub, consulte Compartilhamento de stream com o Pub/Sub.

Opções de saída de dados (somente conjuntos de dados compartilhados do BigQuery)

As opções de saída de dados (prévia) permitem que os publishers restrinjam a exportação por assinantes de dados de conjuntos de dados vinculados do BigQuery.

Os editores podem ativar a restrição de saída de dados em uma lista, nos resultados de uma consulta ou em ambos. Quando a saída de dados é restrita, as seguintes restrições são aplicadas:

  • As APIs de cópia, clonagem, exportação e snapshot ficam desativadas.

  • As opções de copiar, clonar, exportar e de snapshot no console do Google Cloud ficam desativadas.

  • A conexão do conjunto de dados restrito ao explorador de tabelas fica desativada.

  • O serviço de transferência de dados do BigQuery fica desativado no conjunto de dados restrito.

  • As instruções CREATE TABLE AS SELECT e a gravação de uma tabela de destino ficam desativadas.

Ao criar uma lista, é possível definir as opções de saída de dados adequadas.

Limitações

O Analytics Hub tem as seguintes limitações:

  • Um conjunto de dados compartilhado pode ter no máximo 1.000 conjuntos de dados vinculados.

  • Um tópico compartilhado pode ter um máximo de 10 mil assinaturas do Pub/Sub. Esse limite inclui assinaturas vinculadas do Pub/Sub e assinaturas do Pub/Sub criadas fora do Analytics Hub (por exemplo, diretamente do Pub/Sub).

  • Um conjunto de dados com recursos não compatíveis não pode ser selecionado como um conjunto de dados compartilhado quando você cria uma listagem. Para mais informações sobre os objetos do BigQuery compatíveis com o Analytics Hub, consulte Conjuntos de dados compartilhados neste documento.

  • Os conjuntos de dados vinculados criados antes de 25 de julho de 2023 não são preenchidos pelo recurso de assinatura. Apenas assinaturas criadas após 25 de julho de 2023 vão funcionar com os métodos da API.

  • Se você é publisher, as seguintes limitações de interoperabilidade do BigQuery são aplicáveis:

    • Os assinantes precisam receber permissões explícitas para ler o conjunto de dados de origem e poder consultar visualizações em conjuntos de dados vinculados. Para conceder acesso a visualizações, como prática recomendada, os editores precisam criar visualizações autorizadas. Com as visualizações autorizadas, os assinantes podem acessar os dados de visualização, mas não aos dados de origem.

    • O plano de consulta revela a consulta de visualização compartilhada e a consulta de rotina, incluindo IDs do projeto e outros conjuntos de dados envolvidos nas visualizações autorizadas. Nunca inclua nada, como chaves de criptografia que você considere confidencial, na visualização compartilhada ou na consulta de rotina.

    • Os conjuntos de dados compartilhados são indexados no Data Catalog. As atualizações em um conjunto de dados compartilhado, como a adição de tabelas ou visualizações, são disponibilizadas para os assinantes sem atrasos. No entanto, em algumas situações (por exemplo, quando há mais de cem assinantes ou tabelas em um conjunto de dados compartilhado), as atualizações podem levar até 18 horas para serem indexadas no Data Catalog. Devido ao atraso na indexação, os assinantes não podem pesquisar esses recursos atualizados no console do Google Cloud.

    • Os tópicos compartilhados são indexados no Data Catalog, mas não é possível filtrar especificamente pelo tipo de recurso.

    • Se você tiver configurado políticas de segurança na linha ou máscara de dados nas tabelas listadas, os assinantes precisarão ser uma empresa ou clientes do Enterprise Plus para executar o job de consulta no conjunto de dados vinculado. Para informações sobre edições, consulte Introdução às edições do BigQuery.

  • Se você é assinante, as seguintes limitações de interoperabilidade do BigQuery são aplicáveis:

    • Não há suporte a visualizações materializadas que se referem a tabelas no conjunto de dados vinculado.

    • Não é possível fazer snapshots de tabelas de conjuntos de dados vinculados.

    • Consultas com conjuntos de dados vinculados e instruções JOIN maiores que 1 TB (armazenamento físico) podem falhar. Também é possível entrar em contato com o suporte para resolver o problema.

    • Não é possível usar qualificadores de região com visualizações INFORMATION_SCHEMA para conferir os metadados da tabela do conjunto de dados vinculado.

    • Ao consultar rotinas em um conjunto de dados vinculado, só é possível consultar funções definidas pelo usuário (UDFs SQL e JavaScript) e tipos de rotina de Funções de tabela. A consulta de um tipo de rotina incompatível resulta na mensagem de erro: Querying routine type type is not yet supported on linked dataset dataset.

  • As seguintes limitações se aplicam às métricas de uso:

    • Não é possível conferir as métricas de uso de listas enviadas antes de 20 de julho de 2023.

    • As métricas de uso da tabela externa para os campos num_rows_processed e total_bytes_processed podem conter dados imprecisos.

    • As métricas de uso para consumo são compatíveis somente com jobs do BigQuery. Não há suporte para o consumo usando os seguintes recursos:

    • As métricas de uso para visualizações só são preenchidas para consultas após 22 de abril de 2024.

    • As métricas de uso não são capturadas para assinaturas do Pub/Sub vinculadas no Analytics Hub. É possível continuar a ver o uso diretamente no Pub/Sub.

  • As seguintes limitações se aplicam ao assinar os dados do Salesforce Data Cloud:

    • Os dados da nuvem de dados são compartilhados como visualizações. Como assinante, não é possível acessar as tabelas subjacentes às quais as visualizações fazem referência.

Regiões compatíveis

O Analytics Hub é compatível com as seguintes regiões e multirregiões.

Regiões

A tabela a seguir lista as regiões nas Américas onde o Analytics Hub está disponível.
Descrição da região Nome da região Detalhes
Columbus, Ohio us-east5
Dallas us-south1 Ícone de folha Baixo CO2
Iowa us-central1 Ícone de folha CO2 baixo
Las Vegas us-west4
Los Angeles us-west2
Montreal northamerica-northeast1 Ícone de folha CO2 baixo
Norte da Virgínia us-east4
Oregon us-west1 Ícone de folha CO2 baixo
Salt Lake City us-west3
São Paulo southamerica-east1 Ícone de folha Baixo CO2
Santiago southamerica-west1
Carolina do Sul us-east1
Toronto northamerica-northeast2
A tabela a seguir lista as regiões da Ásia-Pacífico em que o Analytics Hub está disponível.
Descrição da região Nome da região Detalhes
Délhi asia-south2
Hong Kong asia-east2
Jacarta asia-southeast2
Melbourne australia-southeast2
Mumbai asia-south1
Osaka asia-northeast2
Seul asia-northeast3
Singapura asia-southeast1
Sydney australia-southeast1
Taiwan asia-east1
Tóquio asia-northeast1
A tabela a seguir lista as regiões da Europa em que o Analytics Hub está disponível.
Descrição da região Nome da região Detalhes
Bélgica europe-west1 Ícone de folha Baixo CO2
Finlândia europe-north1 Ícone de folha CO2 baixo
Frankfurt europe-west3 ícone de folha Baixo CO2
Londres europe-west2 ícone de folha Baixo CO2
Países Baixos europe-west4 Ícone de folha Baixo CO2
Varsóvia europe-central2
Zurique europe-west6 Ícone de folha Baixo CO2
A tabela a seguir lista as regiões no Oriente Médio onde o Analytics Hub está disponível.
Descrição da região Nome da região Detalhes
Damã me-central2
Tel Aviv me-west1
A tabela a seguir lista as regiões da África em que o Analytics Hub está disponível.
Descrição da região Nome da região Detalhes
Johannesburgo africa-south1

Locais multirregionais

A tabela a seguir lista as multirregiões em que o Analytics Hub está disponível.
Descrição multirregional Nome multirregional
Data centers dentro de estados membro da União Europeia1 EU
Data centers nos Estados Unidos US

1 Os dados localizados na multirregião EU não são armazenados nos data centers europe-west2 (Londres) ou europe-west6 (Zurique).

Regiões Omni

A tabela a seguir lista o Omni em que o Analytics Hub está disponível.
Descrição da região Omni Nome da região Omni
AWS
AWS - US East (N. Virginia) aws-us-east-1
AWS - Oeste dos EUA (Oregon) aws-us-west-2
AWS – Ásia-Pacífico (Seul) aws-ap-northeast-2
AWS: Ásia-Pacífico (Sydney) aws-ap-southeast-2
AWS - Europa (Irlanda) aws-eu-west-1
AWS: Europa (Frankfurt) aws-eu-central-1
Azure
Azure - East US 2 azure-eastus2

Exemplo de caso de uso:

Esta seção mostra um exemplo de como você pode usar o Analytics Hub.

Suponha que você seja um varejista e sua organização tenha dados de previsão de demanda em tempo real em um projeto do Google Cloud chamado Previsão. Você quer compartilhar esses dados de previsão de demanda com centenas de fornecedores no sistema da cadeia de suprimentos. Veja como compartilhar seus dados com fornecedores por meio do Analytics Hub:

Administradores do Analytics Hub

Como proprietário do projeto Previsão, primeiro você precisa ativar a API Analytics Hub e, em seguida, atribuir o papel de administrador do Analytics Hub a um usuário que administra a troca de dados no projeto. Os usuários com esse papel são chamados de administradores do Analytics Hub.

Um administrador do Analytics Hub pode realizar as seguintes tarefas:

  • Crie, atualize, exclua e compartilhe a troca de dados no projeto de Previsão da sua organização.

  • Gerenciar outros administradores do Analytics Hub.

  • Gerencie os editores ao conceder a função "Editor" do Analytics Hub aos funcionários da sua organização. Se você quiser que alguns funcionários só possam atualizar, excluir e compartilhar listagens, mas não criá-las, conceda a eles o papel de administrador de listagens da empresa do Analytics Hub.

  • Gerencie assinantes concedendo o papel de assinante do Analytics Hub a um grupo do Google que consiste em todos os fornecedores. Se você quiser que alguns fornecedores tenham acesso somente de visualização às trocas e listagens disponíveis, conceda a eles o papel de Leitor do Analytics Hub. Esses fornecedores não podem se inscrever em listagens.

Para mais informações, consulte Gerenciar trocas de dados.

Editores do Analytics Hub

Os editores criam as seguintes listagens para os conjuntos de dados no projeto Previsão ou em um projeto diferente:

  • Listagem A: conjunto de dados 1 da previsão de demanda
  • Listagem B: conjunto de dados 2 da previsão de demanda
  • Listagem C: conjunto de dados 3 da previsão de demanda

Como provedor de dados, é possível rastrear as métricas de uso do seu conjunto de dados compartilhado. As métricas de uso incluem os seguintes detalhes:

  • Jobs que são executados no conjunto de dados compartilhado.
  • Os detalhes de consumo do seu conjunto de dados compartilhado por organização e projetos dos assinantes.
  • O número de linhas e bytes processados pelo job.

Para mais informações, consulte Gerenciar listagens.

Assinantes do Analytics Hub

Os assinantes podem navegar pelas listagens às quais têm acesso em trocas de dados. Eles também podem se inscrever nessas listagens e adicionar esses conjuntos de dados aos projetos criando um conjunto de dados vinculado. Os fornecedores podem executar consultas nesses conjuntos de dados vinculados e recuperar os resultados em tempo real.

Para mais informações, consulte Visualizar e assinar listagens.

Preços

Não há custo adicional para gerenciar trocas ou listagens de dados.

Para conjuntos de dados do BigQuery, os editores do Analytics Hub são cobrados pelo armazenamento de dados, enquanto os assinantes pagam pelas consultas que são executadas nos dados compartilhados com base em um modelo de preços sob demanda ou com base em capacidade. Para informações sobre preços, consulte Monitoramento de preços.

No Pub/Sub, os editores de tópicos são cobrados pelo número total de bytes gravados (capacidade de publicação) no tópico compartilhado e na saída da rede (se aplicável). Os assinantes são cobrados pelo número total de bytes lidos (capacidade de assinatura) da assinatura vinculada e da saída de rede (se aplicável). Consulte os preços do Pub/Sub para mais detalhes.

Cotas

Para informações sobre cotas do Analytics Hub, consulte Cotas e limites.

VPC Service Controls

É possível definir as regras de entrada e saída necessárias para permitir que editores e assinantes acessem dados de projetos que têm perímetros do VPC Service Controls. Para mais informações, consulte Regras do VPC Service Controls do Analytics Hub.

A seguir