Introdução ao Analytics Hub

O Analytics Hub é uma plataforma de troca de dados que permite compartilhar dados e insights em escala entre limites organizacionais com uma estrutura robusta de segurança e privacidade. Com o Analytics Hub, é possível descobrir e acessar uma biblioteca de dados selecionada por vários provedores de dados. Essa biblioteca também inclui conjuntos de dados fornecidos pelo Google.

Por exemplo, é possível usar o Analytics Hub para expandir suas iniciativas de análise e ML com conjuntos de dados de terceiros e do Google.

Como usuário do Analytics Hub, você pode realizar as seguintes tarefas:

  • Como editor do Analytics Hub, você gera receita ao compartilhar dados com a rede de parceiros ou dentro da sua organização em tempo real. As listagens permitem compartilhar dados sem replicar os dados compartilhados. É possível criar um catálogo de fontes de dados prontas para análise com permissões granulares que permitem entregar dados aos públicos-alvo certos.

  • Como assinante do Analytics Hub, você pode descobrir os dados que procura, combinar dados compartilhados com seus dados atuais e aproveitar os recursos integrados do BigQuery. Quando você faz a inscrição em uma listagem, um conjunto de dados vinculado é criado no seu projeto.

  • Como visualizador do Analytics Hub, você pode navegar pelos conjuntos de dados a que tem acesso no Analytics Hub e solicitar ao editor o acesso aos dados compartilhados.

  • Como administrador do Analytics Hub, você pode criar trocas de dados que permitem o compartilhamento de dados e, em seguida, conceder permissões aos editores de dados e assinantes para acessar essas trocas de dados.

Para mais informações sobre os papéis de usuário do Analytics Hub, consulte Configurar papéis do Analytics Hub.

Arquitetura

O Analytics Hub foi criado com base em um modelo de publicação e assinatura dos conjuntos de dados do BigQuery. A separação de computação e armazenamento na arquitetura do BigQuery permite que os editores de dados compartilhem dados com quantos assinantes quiserem, sem ter que fazer várias cópias dos dados. Os editores só são cobrados pelo armazenamento de dados, enquanto os assinantes só pagam pelas consultas executadas nos dados compartilhados. Os fluxos de trabalho do editor e do assinante no Analytics Hub são explicados em detalhes nas seções a seguir.

Fluxo de trabalho do editor

O diagrama a seguir descreve como os editores interagem com o Analytics Hub:

Interação entre editores do Analytics Hub e o Analytics Hub.
Figura 1. Fluxo de trabalho do editor do Analytics Hub.

Na figura 1, os seguintes recursos são rotulados: Conjunto de dados compartilhado, Troca de dados e Listagem.

Conjuntos de dados compartilhados
Um conjunto de dados compartilhado é um conjunto de dados do BigQuery que é a unidade de compartilhamento de dados no Analytics Hub. Como editor, você cria ou usa um conjunto de dados do BigQuery no projeto com a coleção de objetos, como tabelas e visualizações, que quer entregar aos assinantes.
Trocas de dados
A troca de dados é um contêiner que ativa o compartilhamento de dados de autoatendimento. Ele contém listagens que referenciam conjuntos de dados compartilhados. Com o Analytics Hub, os editores e administradores podem conceder acesso aos assinantes nos níveis da troca e da listagem. Esse método ajuda a evitar a concessão explícita de acesso aos conjuntos de dados compartilhados. Um assinante do Analytics Hub pode navegar pelas trocas de dados, descobrir dados que podem acessar e se inscrever em conjuntos de dados compartilhados. Uma troca de dados pode ser dos seguintes tipos:
  • Troca de dados particulares. Por padrão, uma troca de dados é particular e somente usuários ou grupos que têm acesso a ela podem visualizar ou se inscrever nos dados.
  • Troca de dados públicos. Por padrão, uma troca de dados é particular e somente usuários ou grupos que têm acesso a essa troca podem visualizar ou se inscrever nas listagens. No entanto, você pode optar por tornar a troca de dados pública. As listagens em trocas de dados públicos podem ser descobertas e assinadas por Usuários do Google Cloud (usuários allauthenticated). Para mais informações sobre trocas de dados públicos, consulte Tornar uma troca de dados pública.

Como administrador do Analytics Hub, você pode criar várias trocas de dados e gerenciar outros usuários do Analytics Hub.

Listagens
Uma listagem é uma referência a um conjunto de dados compartilhado que um editor lista em uma troca de dados. Como editor, você pode criar uma listagem e especificar a descrição do conjunto de dados, as consultas de amostra a serem executadas no conjunto de dados, os links para qualquer documentação relevante e qualquer informação adicional que possa ajudar os assinantes a usar seu conjunto de dados. Para mais informações, consulte Gerenciar listagens. Uma listagem pode ser dos dois tipos a seguir com base na política de gerenciamento de identidade e acesso (IAM) definida para a listagem e no tipo de troca de dados que contém a listagem:
  • Listagem pública. Ela é compartilhada com todos os usuários do Google Cloud (usuários allauthenticated). As listagens em uma troca de dados públicos são listagens públicas. Essas listagens podem ser referências a um conjunto de dados público gratuito ou a um conjunto de dados comercial. Se a listagem for de um conjunto de dados comercial, os assinantes poderão solicitar acesso à listagem e o provedor de dados entrará em contato diretamente com eles.
  • Listagem particular. Ela é compartilhada diretamente com indivíduos ou grupos. Por exemplo, uma listagem particular pode fazer referência ao conjunto de dados de métricas de marketing que você compartilha com outras equipes internas da organização.

Fluxo de trabalho dos assinantes

O diagrama a seguir descreve como os assinantes interagem com o Analytics Hub:

Interação entre os assinantes do Analytics Hub e o Analytics Hub.
Figura 2. Fluxo de trabalho de assinantes do Analytics Hub.

Na Figura 2, os seguintes recursos do Analytics Hub são rotulados: Conjunto de dados compartilhado, Troca de dados, Listagem e Conjunto de dados vinculado.

Conjuntos de dados vinculados
Um conjunto de dados vinculado é um conjunto de dados somente leitura do BigQuery que serve como link simbólico para um conjunto de dados compartilhado. A assinatura de uma listagem cria um conjunto de dados vinculado no seu projeto, e não uma cópia do conjunto de dados, para que os assinantes possam ler os dados, mas não possam adicionar ou atualizar objetos nele. Quando você consulta objetos, como tabelas e visualizações, em um conjunto de dados vinculado, os dados do conjunto de dados compartilhado são retornados. Para mais informações sobre conjuntos de dados vinculados, consulte Ver e se inscrever em listagem. Os conjuntos de dados vinculados estão autorizados a acessar tabelas e visualizações de um conjunto de dados compartilhado. Os assinantes com conjuntos de dados vinculados acessam tabelas e visualizações de um conjunto de dados compartilhado sem nenhuma outra autorização do gerenciamento de identidade e acesso.

Limitações

O Analytics Hub tem as seguintes limitações:

  • O serviço do Analytics Hub é compatível apenas com multirregiões US e EU.

  • Os proprietários de conjuntos de dados e trocas de dados compartilhados não podem ver as métricas de assinatura.

  • Se um projeto for excluído, as trocas de dados dentro dele não serão excluídas. É necessário excluir essas trocas de dados manualmente antes de excluir o projeto.

  • Se você excluir um conjunto de dados compartilhado que tem inscritos, os conjuntos de dados vinculados não serão excluídos. Os assinantes precisam excluir manualmente esses conjuntos de dados vinculados dos projetos.

  • Um conjunto de dados compartilhado pode ter no máximo 1.000 conjuntos de dados vinculados. Todos os assinantes, combinados, podem ter no máximo 1.000 conjuntos de dados vinculados por conjunto de dados compartilhado.

  • Os seguintes objetos do BigQuery podem ser compartilhados usando o Analytics Hub:

    Um conjunto de dados com recursos incompatíveis não pode ser selecionado como um conjunto compartilhado quando você está criando uma listagem.

  • Se você é um editor, a interoperabilidade do BigQuery a seguir se aplica a você:

    • O uso de inserções de streaming ou da API BigQuery StorageWrite para fazer streaming de dados em um conjunto de dados compartilhado pode causar problemas nos conjuntos de dados vinculados.

    • Os conjuntos de dados compartilhados são compatíveis com as seguranças no nível da coluna e no nível da linha.

    • Se uma visualização no conjunto de dados compartilhado não tiver referências de URI totalmente qualificadas para os dados de origem, os assinantes não receberão o resultado correto ao consultar esse conjunto de dados. Para evitar esse problema, use uma referência totalmente qualificada, por exemplo, PROJECT_NAME.DATASET_NAME.TABLE_NAME.

    • Os conjuntos de dados compartilhados são indexados no Data Catalog. As atualizações em um conjunto de dados compartilhado, como a adição de tabelas ou visualizações, são disponibilizadas para os assinantes sem atrasos. No entanto, em algumas situações (por exemplo, quando há mais de cem assinantes ou tabelas em um conjunto de dados compartilhado), as atualizações podem levar até 18 horas para serem indexadas no Data Catalog. Devido ao atraso na indexação, os assinantes não podem pesquisar esses recursos atualizados no Console do Cloud.

  • Se você for um assinante, a interoperabilidade do BigQuery a seguir se aplica a você:

    • Não é possível usar a API BigQuery Storage Read em recursos de conjunto de dados vinculados.

    • Não é possível fazer viagens no tempo usando recursos de conjuntos de dados vinculados.

    • Não há compatibilidade com visualizações materializadas que se referem a tabelas no conjunto de dados vinculado.

    • Não é possível fazer captura de tela de tabelas de conjuntos de dados vinculados.

  • Se os conjuntos de dados vinculados não forem colocados em conjunto com o conjunto de dados compartilhado, as operações de leitura nas tabelas do conjunto de dados vinculados com um tamanho de consulta superior a 5 GiB poderão falhar. Este erro pode ser resolvido automaticamente. Você também pode entrar em contato com o suporte para resolver esse problema.

  • Não é possível usar qualificadores de região com visualizações INFORMATION_SCHEMA para ver os metadados da tabela do conjunto de dados vinculado.

Locais

O serviço do Analytics Hub é compatível apenas com locais multirregionais US e EU.

Exemplo de caso de uso:

Esta seção mostra um exemplo de como você pode usar o Analytics Hub.

Suponha que você seja um varejista e sua organização tenha dados de previsão de demanda em tempo real em um projeto do Google Cloud chamado Previsão. Você quer compartilhar esses dados de previsão de demanda com centenas de fornecedores no sistema da cadeia de suprimentos. Veja como compartilhar seus dados com fornecedores por meio do Analytics Hub:

Administradores do Analytics Hub

Como proprietário do projeto Previsão, primeiro você precisa ativar a API Analytics Hub e, em seguida, atribuir o papel de administrador do Analytics Hub a um usuário que administra a troca de dados no projeto. Os usuários com esse papel são chamados de administradores do Analytics Hub.

Um administrador do Analytics Hub pode realizar as seguintes tarefas:

  • Crie, atualize, exclua e compartilhe a troca de dados no projeto de Previsão da sua organização.

  • Gerenciar outros administradores do Analytics Hub.

  • Gerencie os editores ao conceder a função "Editor" do Analytics Hub aos funcionários da sua organização. Se você quiser que alguns funcionários só possam atualizar, excluir e compartilhar listagens, mas não criá-las, conceda a eles o papel de administrador de listagens da empresa do Analytics Hub.

  • Gerencie assinantes concedendo o papel de assinante do Analytics Hub a um grupo do Google que consiste em todos os fornecedores. Se você quiser que alguns fornecedores tenham acesso somente de visualização às trocas e listagens disponíveis, conceda a eles o papel de Leitor do Analytics Hub. Esses fornecedores não poderão assinar listagens.

Para mais informações, consulte Gerenciar trocas de dados.

Editores do Analytics Hub

Os editores criam as seguintes listagens para os conjuntos de dados no projeto Previsão ou em um projeto diferente:

  • Listagem A: conjunto de dados 1 da previsão de demanda
  • Listagem B: conjunto de dados 2 da previsão de demanda
  • Listagem C: conjunto de dados 3 da previsão de demanda

Para mais informações, consulte Gerenciar listagens.

Assinantes do Analytics Hub

Os assinantes podem navegar pelas listagens às quais têm acesso em trocas de dados. Eles também podem se inscrever nessas listagens e adicionar esses conjuntos de dados aos projetos criando um conjunto de dados vinculado. Os fornecedores podem executar consultas nesses conjuntos de dados vinculados e recuperar os resultados em tempo real.

Para mais informações, consulte Visualizar e assinar listagens.

Preços

Não há custo adicional para gerenciar trocas ou listagens de dados. Os editores do Analytics Hub são cobrados pelo armazenamento de dados, enquanto os assinantes pagam pelas consultas que são executadas nos dados compartilhados com base em um modelo de preços de taxa fixa ou sob demanda. Para informações sobre preços, consulte Monitoramento de preços.

Cotas

Para informações sobre cotas do Analytics Hub, consulte Cotas e limites.

A seguir