Introdução ao Analytics Hub
O Analytics Hub é uma plataforma de troca de dados que permite compartilhar dados e insights em escala entre limites organizacionais com uma estrutura robusta de segurança e privacidade. Com o Analytics Hub, é possível descobrir e acessar uma biblioteca de dados selecionada por vários provedores de dados. Essa biblioteca também inclui conjuntos de dados fornecidos pelo Google.
Por exemplo, é possível usar o Analytics Hub para expandir suas iniciativas de análise e ML com conjuntos de dados de terceiros e do Google.
Como usuário do Analytics Hub, você pode realizar as seguintes tarefas:
Como editor do Analytics Hub, você gera receita ao compartilhar dados com a rede de parceiros ou dentro da sua organização em tempo real. As listagens permitem compartilhar dados sem replicar os dados compartilhados. É possível criar um catálogo de fontes de dados prontas para análise com permissões granulares que permitem entregar dados aos públicos-alvo certos. Você também pode gerenciar assinaturas e visualizar as métricas de uso de listas.
Como assinante do Analytics Hub, você pode descobrir os dados que procura, combinar dados compartilhados com seus dados atuais e aproveitar os recursos integrados do BigQuery. Quando você se inscreve em uma listagem, um conjunto de dados vinculado ou uma assinatura do Pub/Sub vinculada será criada no seu projeto. É possível gerenciar suas assinaturas usando o recurso de assinatura, que armazena informações relevantes sobre o assinante e representa a conexão entre o editor e o assinante.
Como visualizador do Analytics Hub, você pode navegar pelos conjuntos de dados a que tem acesso no Analytics Hub e solicitar ao editor o acesso aos dados compartilhados.
Como administrador do Analytics Hub, você pode criar trocas de dados que permitem o compartilhamento de dados e, em seguida, conceder permissões aos editores de dados e assinantes para acessar essas trocas de dados.
Para mais informações sobre os papéis de usuário do Analytics Hub, consulte Configurar papéis do Analytics Hub.
Arquitetura
O Analytics Hub foi criado com base no modelo de publicação e assinatura de recursos de dados do Google Cloud, permitindo o compartilhamento sem cópia. O Analytics Hub é compatível com os seguintes recursos do Google Cloud:
- Conjuntos de dados do BigQuery
- Tópicos do Pub/Sub
Os fluxos de trabalho do editor e do assinante no Analytics Hub são explicados em detalhes nas seções a seguir.
Fluxo de trabalho do editor
O diagrama a seguir descreve como os editores interagem com o Analytics Hub:
Na figura 1, os seguintes recursos são rotulados: Recursos compartilhados, Troca de dados e Listagem.
Recursos compartilhados
Os recursos compartilhados são a unidade que um editor compartilha no Analytics Hub.
Conjuntos de dados compartilhados
- Um conjunto de dados compartilhado é um conjunto de dados do BigQuery que é a unidade de compartilhamento de dados no Analytics Hub. A separação de computação e armazenamento na arquitetura do BigQuery permite que os editores de dados compartilhem conjuntos de dados com quantos assinantes quiserem, sem ter que fazer várias cópias dos dados. Como editor, você cria ou usa um conjunto de dados existente do BigQuery no seu projeto com os
seguintes objetos compatíveis que você quer enviar aos assinantes:
- Visualizações autorizadas
- Conjuntos de dados autorizados
- Modelos de BigQuery ML
- Tabelas externas
- visualizações materializadas
- Rotinas. Nem todas as rotinas são compatíveis com conjuntos de dados compartilhados. Saiba mais em Limitações.
- Tabelas
- Snapshots da tabela
- visualizações
Tópicos compartilhados (prévia)
- Um tópico compartilhado é um tópico do Pub/Sub que é a unidade do compartilhamento de dados de streaming no Analytics Hub. Como editor, você cria ou usa um Pub/Sub no seu projeto e o distribui para os assinantes.
Trocas de dados
- Uma troca de dados é um contêiner que ativa o compartilhamento de dados de autoatendimento. Ela
contém listagens que referenciam conjuntos de dados compartilhados. Com o Analytics Hub, os editores e administradores podem conceder acesso aos assinantes nos níveis da troca e da listagem. Esse método ajuda a evitar a concessão explícita de acesso aos recursos compartilhados. Um assinante do Analytics Hub pode navegar pelas trocas de dados, descobrir dados que podem acessar e se inscrever em recursos compartilhados. Ao criar uma troca de dados, você pode atribuir um e-mail de contato
principal a ela. O e-mail de contato principal é uma maneira de os usuários
entrarem em contato com o proprietário de uma troca de dados para tirar dúvidas ou
problemas. Uma troca de dados pode ser dos seguintes tipos:
- Troca de dados particulares. Por padrão, uma troca de dados é particular e somente usuários ou grupos que têm acesso a essa troca podem visualizar ou se inscrever nas listagens.
- Troca de dados públicos. Por padrão, uma troca de dados é particular e somente usuários ou grupos que têm acesso a essa troca podem visualizar ou se inscrever nas listagens. No entanto, você pode optar por tornar a troca de dados pública. As listagens em
trocas de dados públicas podem ser descobertas
e assinadas por
Usuários do Google Cloud (usuários
allAuthenticatedUsers
). Para saber mais sobre trocas de dados públicas, consulte Tornar uma troca de dados pública.
Como administrador do Analytics Hub, você pode criar várias trocas de dados e gerenciar outros usuários do Analytics Hub.
Listagens
- Uma listagem é uma referência a um recurso compartilhado que um editor lista em uma troca de dados. Como editor, você pode criar uma listagem e especificar a
descrição do recurso, exemplos de consultas para executar ou exemplos de dados de mensagens, links para qualquer
documentação relevante e qualquer informação adicional que possa ajudar os assinantes
a usar seu recurso compartilhado. Ao criar uma ficha, você pode atribuir um e-mail de contato
principal, um nome e contato do provedor e um nome e contato do editor.
O e-mail de contato principal é uma forma de os usuários entrarem em contato com o proprietário de uma
página para tirar dúvidas ou fazer perguntas sobre a troca de dados. O nome e o contato do provedor são as informações da agência que forneceu os dados para a listagem. Essas informações são opcionais. O nome e o contato do editor são
a agência que publicou os dados para uso no Analytics Hub. Essas
informações são opcionais. Para mais informações, consulte Gerenciar listagens. Uma
listagem pode ser dos dois tipos a seguir com base na
política do Identity and Access Management (IAM) definida para a listagem e o tipo de troca de dados
que contém a listagem:
- Listagem pública. Ela é compartilhada com todos os usuários do Google Cloud (
allAuthenticatedUsers
). As listagens em uma troca de dados públicos são públicas. Essas listagens podem ser referências de um recurso público gratuito ou um recurso comercial. Se a listagem for de um recurso comercial, os assinantes poderão solicitar acesso à listagem e o provedor de dados entrará em contato diretamente com eles. - Listagem particular. Ela é compartilhada diretamente com indivíduos ou grupos. Por exemplo, uma listagem particular pode fazer referência ao conjunto de dados de métricas de marketing que você compartilha com outras equipes internas da organização.
- Listagem pública. Ela é compartilhada com todos os usuários do Google Cloud (
Fluxo de trabalho dos assinantes
O diagrama a seguir descreve como os assinantes interagem com o Analytics Hub:
Na Figura 2, os seguintes recursos do Analytics Hub são rotulados: Recursos compartilhados, Troca de dados, Listagem e Recursos vinculados.
Recursos vinculados
Os recursos vinculados são criados ao se inscrever em uma listagem do Analytics Hub, conectando um assinante ao recurso compartilhado.
Conjuntos de dados vinculados
- Um conjunto de dados vinculado é um conjunto de dados somente leitura do BigQuery que serve como um ponteiro ou referência para um conjunto de dados compartilhado. A assinatura de uma listagem cria um conjunto de dados vinculado no seu projeto, e não uma cópia do conjunto de dados, para que os assinantes possam ler os dados, mas não possam adicionar ou atualizar objetos nele. Quando você consulta objetos, como tabelas e visualizações, em um conjunto de dados vinculado, os dados do conjunto de dados compartilhado são retornados. Para mais informações sobre conjuntos de dados vinculados, consulte Ver e se inscrever em listagem. Os conjuntos de dados vinculados estão autorizados a acessar tabelas e visualizações de um conjunto de dados compartilhado. Os assinantes com conjuntos de dados vinculados acessam tabelas e visualizações de um conjunto de dados compartilhado sem nenhuma outra autorização do gerenciamento de identidade e acesso. Os conjuntos de dados vinculados aceitam os seguintes objetos:
Assinaturas do Pub/Sub vinculadas (prévia)
- Inscrever-se em uma listagem com um tópico compartilhado cria uma assinatura do Pub/Sub vinculada no projeto do assinante. Nenhuma cópia do tópico ou dos dados da mensagem compartilhados é criada. Os assinantes da assinatura do Pub/Sub vinculada podem acessar as mensagens publicadas no tópico compartilhado. Os assinantes acessam os dados das mensagens de um tópico compartilhado sem qualquer autorização adicional do Identity and Access Management. Os editores podem gerenciar assinaturas diretamente no Pub/Sub ou pelo gerenciamento de assinaturas do Analytics Hub. Para mais informações sobre assinaturas vinculadas do Pub/Sub, consulte Compartilhamento de stream com o Pub/Sub.
Opções de saída de dados (somente conjuntos de dados compartilhados do BigQuery)
As opções de saída de dados (prévia) permitem que os publishers restrinjam a exportação por assinantes de dados de conjuntos de dados vinculados do BigQuery.
Os editores podem ativar a restrição de saída de dados em uma lista, nos resultados de uma consulta ou em ambos. Quando a saída de dados é restrita, as seguintes restrições são aplicadas:
As APIs de cópia, clonagem, exportação e snapshot ficam desativadas.
As opções de copiar, clonar, exportar e de snapshot no console do Google Cloud ficam desativadas.
A conexão do conjunto de dados restrito ao explorador de tabelas fica desativada.
O serviço de transferência de dados do BigQuery fica desativado no conjunto de dados restrito.
As instruções
CREATE TABLE AS SELECT
e a gravação de uma tabela de destino ficam desativadas.As instruções
CREATE VIEW AS SELECT
e a gravação em uma visualização de destino ficam desativadas.
Ao criar uma lista, é possível definir as opções de saída de dados adequadas.
Limitações
O Analytics Hub tem as seguintes limitações:
Um conjunto de dados compartilhado pode ter no máximo 1.000 conjuntos de dados vinculados.
Um tópico compartilhado pode ter um máximo de 10 mil assinaturas do Pub/Sub. Esse limite inclui assinaturas vinculadas do Pub/Sub e assinaturas do Pub/Sub criadas fora do Analytics Hub (por exemplo, diretamente do Pub/Sub).
Um conjunto de dados com recursos não compatíveis não pode ser selecionado como um conjunto de dados compartilhado quando você cria uma listagem. Para mais informações sobre os objetos do BigQuery compatíveis com o Analytics Hub, consulte Conjuntos de dados compartilhados neste documento.
Não é possível definir papéis do IAM ou políticas do IAM em tabelas individuais em um conjunto de dados vinculado. Em vez disso, aplique-as no nível do conjunto de dados vinculado.
Os conjuntos de dados vinculados criados antes de 25 de julho de 2023 não são preenchidos pelo recurso de assinatura. Apenas assinaturas criadas após 25 de julho de 2023 vão funcionar com os métodos da API.
Se você é publisher, as seguintes limitações de interoperabilidade do BigQuery são aplicáveis:
Os assinantes precisam receber permissões explícitas para ler o conjunto de dados de origem e poder consultar visualizações em conjuntos de dados vinculados. Para conceder acesso a visualizações, como prática recomendada, os editores precisam criar visualizações autorizadas. Com as visualizações autorizadas, os assinantes podem acessar os dados de visualização, mas não aos dados de origem.
O plano de consulta revela a consulta de visualização compartilhada e a consulta de rotina, incluindo IDs do projeto e outros conjuntos de dados envolvidos nas visualizações autorizadas. Nunca inclua nada, como chaves de criptografia que você considere confidencial, na visualização compartilhada ou na consulta de rotina.
Os conjuntos de dados compartilhados são indexados no Data Catalog. As atualizações em um conjunto de dados compartilhado, como a adição de tabelas ou visualizações, são disponibilizadas para os assinantes sem atrasos. No entanto, em algumas situações (por exemplo, quando há mais de cem assinantes ou tabelas em um conjunto de dados compartilhado), as atualizações podem levar até 18 horas para serem indexadas no Data Catalog. Devido ao atraso na indexação, os assinantes não podem pesquisar esses recursos atualizados no console do Google Cloud.
Os tópicos compartilhados são indexados no Data Catalog, mas não é possível filtrar especificamente pelo tipo de recurso.
Se você tiver configurado políticas de segurança na linha ou máscara de dados nas tabelas listadas, os assinantes precisarão ser uma empresa ou clientes do Enterprise Plus para executar o job de consulta no conjunto de dados vinculado. Para informações sobre edições, consulte Introdução às edições do BigQuery.
Se você é assinante, as seguintes limitações de interoperabilidade do BigQuery são aplicáveis:
Não há suporte a visualizações materializadas que se referem a tabelas no conjunto de dados vinculado.
Não é possível fazer snapshots de tabelas de conjuntos de dados vinculados.
Consultas com conjuntos de dados vinculados e instruções
JOIN
maiores que 1 TB (armazenamento físico) podem falhar. Também é possível entrar em contato com o suporte para resolver o problema.Não é possível usar qualificadores de região com visualizações
INFORMATION_SCHEMA
para conferir os metadados da tabela do conjunto de dados vinculado.Ao consultar rotinas em um conjunto de dados vinculado, só é possível consultar funções definidas pelo usuário (UDFs SQL e JavaScript) e tipos de rotina de Funções de tabela. A consulta de um tipo de rotina incompatível resulta na mensagem de erro:
Querying routine type type is not yet supported on linked dataset dataset.
As seguintes limitações se aplicam às métricas de uso:
Não é possível conferir as métricas de uso de listas enviadas antes de 20 de julho de 2023.
As métricas de uso da tabela externa para os campos
num_rows_processed
etotal_bytes_processed
podem conter dados imprecisos.As métricas de uso para consumo são compatíveis somente com jobs do BigQuery. Não há suporte para o consumo usando os seguintes recursos:
As métricas de uso para visualizações só são preenchidas para consultas após 22 de abril de 2024.
As métricas de uso não são capturadas para assinaturas do Pub/Sub vinculadas no Analytics Hub. É possível continuar a ver o uso diretamente no Pub/Sub.
As seguintes limitações se aplicam ao assinar os dados do Salesforce Data Cloud:
- Os dados da nuvem de dados são compartilhados como visualizações. Como assinante, não é possível acessar as tabelas subjacentes às quais as visualizações fazem referência.
Regiões compatíveis
O Analytics Hub é compatível com as seguintes regiões e multirregiões.
Regiões
A tabela a seguir lista as regiões nas Américas onde o Analytics Hub está disponível.Descrição da região | Nome da região | Detalhes |
---|---|---|
Columbus, Ohio | us-east5 |
|
Dallas | us-south1 |
Baixo CO2 |
Iowa | us-central1 |
CO2 baixo |
Las Vegas | us-west4 |
|
Los Angeles | us-west2 |
|
Montreal | northamerica-northeast1 |
CO2 baixo |
Norte da Virgínia | us-east4 |
|
Oregon | us-west1 |
CO2 baixo |
Salt Lake City | us-west3 |
|
São Paulo | southamerica-east1 |
Baixo CO2 |
Santiago | southamerica-west1 |
|
Carolina do Sul | us-east1 |
|
Toronto | northamerica-northeast2 |
|
Descrição da região | Nome da região | Detalhes |
---|---|---|
Délhi | asia-south2 |
|
Hong Kong | asia-east2 |
|
Jacarta | asia-southeast2 |
|
Melbourne | australia-southeast2 |
|
Mumbai | asia-south1 |
|
Osaka | asia-northeast2 |
|
Seul | asia-northeast3 |
|
Singapura | asia-southeast1 |
|
Sydney | australia-southeast1 |
|
Taiwan | asia-east1 |
|
Tóquio | asia-northeast1 |
Descrição da região | Nome da região | Detalhes |
---|---|---|
Bélgica | europe-west1 |
Baixo CO2 |
Finlândia | europe-north1 |
CO2 baixo |
Frankfurt | europe-west3 |
Baixo CO2 |
Londres | europe-west2 |
Baixo CO2 |
Países Baixos | europe-west4 |
Baixo CO2 |
Varsóvia | europe-central2 |
|
Zurique | europe-west6 |
Baixo CO2 |
Descrição da região | Nome da região | Detalhes |
---|---|---|
Damã | me-central2 |
|
Tel Aviv | me-west1 |
Descrição da região | Nome da região | Detalhes |
---|---|---|
Johannesburgo | africa-south1 |
Locais multirregionais
A tabela a seguir lista as multirregiões em que o Analytics Hub está disponível.Descrição multirregional | Nome multirregional |
---|---|
Data centers dentro de estados membro da União Europeia1 | EU |
Data centers nos Estados Unidos | US |
1 Os dados localizados na multirregião EU
não são armazenados nos data centers europe-west2
(Londres) ou europe-west6
(Zurique).
Regiões Omni
A tabela a seguir lista o Omni em que o Analytics Hub está disponível.Descrição da região Omni | Nome da região Omni | |
---|---|---|
AWS | ||
AWS - US East (N. Virginia) | aws-us-east-1 |
|
AWS - Oeste dos EUA (Oregon) | aws-us-west-2 |
|
AWS – Ásia-Pacífico (Seul) | aws-ap-northeast-2 |
|
AWS: Ásia-Pacífico (Sydney) | aws-ap-southeast-2 |
|
AWS - Europa (Irlanda) | aws-eu-west-1 |
|
AWS: Europa (Frankfurt) | aws-eu-central-1 |
|
Azure | ||
Azure - East US 2 | azure-eastus2 |
Exemplo de caso de uso:
Esta seção mostra um exemplo de como você pode usar o Analytics Hub.
Suponha que você seja um varejista e sua organização tenha dados de previsão de demanda em tempo real em um projeto do Google Cloud chamado Previsão. Você quer compartilhar esses dados de previsão de demanda com centenas de fornecedores no sistema da cadeia de suprimentos. Veja como compartilhar seus dados com fornecedores por meio do Analytics Hub:
Administradores do Analytics Hub
Como proprietário do projeto Previsão, primeiro você precisa ativar a API Analytics Hub e, em seguida, atribuir o papel de administrador do Analytics Hub a um usuário que administra a troca de dados no projeto. Os usuários com esse papel são chamados de administradores do Analytics Hub.
Um administrador do Analytics Hub pode realizar as seguintes tarefas:
Crie, atualize, exclua e compartilhe a troca de dados no projeto de Previsão da sua organização.
Gerenciar outros administradores do Analytics Hub.
Gerencie os editores ao conceder a função "Editor" do Analytics Hub aos funcionários da sua organização. Se você quiser que alguns funcionários só possam atualizar, excluir e compartilhar listagens, mas não criá-las, conceda a eles o papel de administrador de listagens da empresa do Analytics Hub.
Gerencie assinantes concedendo o papel de assinante do Analytics Hub a um grupo do Google que consiste em todos os fornecedores. Se você quiser que alguns fornecedores tenham acesso somente de visualização às trocas e listagens disponíveis, conceda a eles o papel de Leitor do Analytics Hub. Esses fornecedores não podem se inscrever em listagens.
Para mais informações, consulte Gerenciar trocas de dados.
Editores do Analytics Hub
Os editores criam as seguintes listagens para os conjuntos de dados no projeto Previsão ou em um projeto diferente:
- Listagem A: conjunto de dados 1 da previsão de demanda
- Listagem B: conjunto de dados 2 da previsão de demanda
- Listagem C: conjunto de dados 3 da previsão de demanda
Como provedor de dados, é possível rastrear as métricas de uso do seu conjunto de dados compartilhado. As métricas de uso incluem os seguintes detalhes:
- Jobs que são executados no conjunto de dados compartilhado.
- Os detalhes de consumo do seu conjunto de dados compartilhado por organização e projetos dos assinantes.
- O número de linhas e bytes processados pelo job.
Para mais informações, consulte Gerenciar listagens.
Assinantes do Analytics Hub
Os assinantes podem navegar pelas listagens às quais têm acesso em trocas de dados. Eles também podem se inscrever nessas listagens e adicionar esses conjuntos de dados aos projetos criando um conjunto de dados vinculado. Os fornecedores podem executar consultas nesses conjuntos de dados vinculados e recuperar os resultados em tempo real.
Para mais informações, consulte Visualizar e assinar listagens.
Preços
Não há custo adicional para gerenciar trocas ou listagens de dados.
Para conjuntos de dados do BigQuery, os editores do Analytics Hub são cobrados pelo armazenamento de dados, enquanto os assinantes pagam pelas consultas que são executadas nos dados compartilhados com base em um modelo de preços sob demanda ou com base em capacidade. Para informações sobre preços, consulte Monitoramento de preços.
No Pub/Sub, os editores de tópicos são cobrados pelo número total de bytes gravados (capacidade de publicação) no tópico compartilhado e na saída da rede (se aplicável). Os assinantes são cobrados pelo número total de bytes lidos (capacidade de assinatura) da assinatura vinculada e da saída de rede (se aplicável). Consulte os preços do Pub/Sub para mais detalhes.
Cotas
Para informações sobre cotas do Analytics Hub, consulte Cotas e limites.
Compliance
O Analytics Hub, como parte do BigQuery, está em conformidade com os seguintes programas de compliance:
VPC Service Controls
É possível definir as regras de entrada e saída necessárias para permitir que editores e assinantes acessem dados de projetos que têm perímetros do VPC Service Controls. Para mais informações, consulte Regras do VPC Service Controls do Analytics Hub.
A seguir
- Saiba como ver e assinar listagens.
- Saiba como atribuir papéis a usuários do Analytics Hub.