Criar uma visualização autorizada

O BigQuery é um data warehouse para análise em escala de petabyte. Ele é usado para executar consultas SQL em grandes volumes de dados, praticamente em tempo real.

A concessão de acesso de visualização a um conjunto de dados também é conhecida como criação de visualização autorizada no BigQuery. Uma visualização autorizada permite que você compartilhe resultados de consultas com usuários e grupos específicos sem conceder a eles acesso às tabelas subjacentes. Também é possível usar a consulta SQL da visualização para restringir as colunas (campos) que os usuários podem consultar. Neste tutorial, você criará uma visualização autorizada.

Objetivos

Nesta seção, mostramos como concluir as seguintes tarefas:

Criar conjuntos de dados e aplicar controles de acesso a eles.
Atribuir controles de acesso ao seu projeto.
Criar uma visualização autorizada que restrinja os dados que os usuários podem consultar.

Custos

O BigQuery é um produto pago. O uso dele neste tutorial gera cobranças. O BigQuery oferece alguns recursos gratuitamente até um limite específico. Para mais informações, consulte Operações gratuitas e nível gratuito do BigQuery.

Antes de começar

Antes de começar este tutorial, use o Console do Google Cloud para criar ou selecionar um projeto.

Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.

No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

Acessar o seletor de projetos

No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

Acessar o seletor de projetos

O BigQuery é ativado automaticamente em novos projetos. Para ativar o BigQuery em um projeto preexistente, acesse
Ative a API BigQuery.
Ative a API
Opcional: ative o faturamento do projeto. Se você não quiser ativar o faturamento ou informar um cartão de crédito, as etapas deste documento ainda funcionarão. O BigQuery fornece um sandbox para executar as etapas. Para mais informações, consulte Ativar o sandbox do BigQuery.
Observação: se o projeto tiver uma conta de faturamento e você quiser usar o sandbox do BigQuery, desative o faturamento no seu projeto.

Criar um conjunto de dados de origem

Comece criando um conjunto de dados para armazenar os dados de origem. Neste tutorial, você preencherá uma tabela no conjunto de dados de origem consultando o conjunto de dados público do GitHub. Os dados contidos no conjunto mostram informações que não devem ser visualizadas pelos seus analistas. Você restringe o acesso aos dados usando uma visualização autorizada.

Para criar um conjunto de dados de origem:

Console

No Console do Google Cloud, abra a página do BigQuery.

Ir para o BigQuery
No painel Explorador, selecione o projeto em que você quer criar o conjunto de dados.
Expanda a opção Ações e clique em Criar conjunto de dados.
Para o código do conjunto de dados, insira github_source_data.
Mantenha as outras configurações padrão e clique em Criar conjunto de dados.

SQL

Use a instrução DDL CREATE SCHEMA.

No Console do Google Cloud, acesse a página BigQuery.

Ir para o BigQuery
No editor de consultas, digite a seguinte instrução:
```
CREATE SCHEMA github_source_data;
```
Clique em Executar.

Para mais informações sobre como executar consultas, acesse Executar uma consulta interativa.

Java

Antes de testar esta amostra, siga as instruções de configuração do Java no Guia de início rápido do BigQuery: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API BigQuery em Java.

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, acesse Configurar a autenticação para bibliotecas de cliente.

// Create a source dataset to store your table.
Dataset sourceDataset = bigquery.create(DatasetInfo.of(sourceDatasetId));

Python

Antes de testar esta amostra, siga as instruções de configuração do Python no Guia de início rápido do BigQuery: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API BigQuery em Python.

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, acesse Configurar a autenticação para bibliotecas de cliente.

from google.cloud import bigquery

client = bigquery.Client()
source_dataset_id = "github_source_data"
source_dataset_id_full = "{}.{}".format(client.project, source_dataset_id)

source_dataset = bigquery.Dataset(source_dataset_id_full)
# Specify the geographic location where the dataset should reside.
source_dataset.location = "US"
source_dataset = client.create_dataset(source_dataset)  # API request

Depois de criar o conjunto de dados de origem, preencha uma tabela nele usando uma consulta SQL. Ela recupera dados do conjunto de dados públicos do GitHub.

Console

No Console do Google Cloud, abra a página do BigQuery.

Ir para o BigQuery

Copie e cole a seguinte consulta no painel Editor.

SELECT
  commit,
  author,
  committer,
  repo_name
FROM
  `bigquery-public-data.github_repos.commits`
LIMIT
  1000;

Clique em Mais e selecione Configurações de consulta.
Em Destino, selecione Definir uma tabela de destino para os resultados da consulta.
Em Conjunto de dados, insira PROJECT_ID.github_source_data. Substitua PROJECT_ID pelo ID do projeto.
Em ID da tabela, insira github_contributors.
Clique em Save.
Clique em Executar.
Quando a consulta for concluída, clique em github_contributors e em Visualizar para confirmar se os dados foram gravados na tabela.

Java

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, acesse Configurar a autenticação para bibliotecas de cliente.

// Populate a source table
String tableQuery =
    "SELECT commit, author, committer, repo_name"
        + " FROM `bigquery-public-data.github_repos.commits`"
        + " LIMIT 1000";
QueryJobConfiguration queryConfig =
    QueryJobConfiguration.newBuilder(tableQuery)
        .setDestinationTable(TableId.of(sourceDatasetId, sourceTableId))
        .build();
bigquery.query(queryConfig);

Python

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, acesse Configurar a autenticação para bibliotecas de cliente.

source_table_id = "github_contributors"
job_config = bigquery.QueryJobConfig()
job_config.destination = source_dataset.table(source_table_id)
sql = """
    SELECT commit, author, committer, repo_name
    FROM `bigquery-public-data.github_repos.commits`
    LIMIT 1000
"""
query_job = client.query(
    sql,
    # Location must match that of the dataset(s) referenced in the query
    # and of the destination table.
    location="US",
    job_config=job_config,
)  # API request - starts the query

query_job.result()  # Waits for the query to finish

Criar um conjunto de dados em que armazenar a visualização

Depois de criar o conjunto de dados de origem, crie um conjunto de dados novo e separado para armazenar a visualização autorizada que você compartilhará com seus analistas de dados. Em uma etapa posterior, você concederá à visualização autorizada acesso aos dados no conjunto de dados de origem. Os analistas de dados terão acesso à visualização autorizada, mas não terão acesso direto aos dados de origem.

As visualizações autorizadas precisam ser criadas em um conjunto de dados diferente dos dados de origem. Dessa forma, os proprietários dos dados podem conceder aos usuários acesso à visualização autorizada sem conceder acesso simultaneamente aos dados subjacentes. O conjunto de dados de dados de origem e o conjunto de dados de visualização autorizados precisam estar no mesmo local regional.

Para criar um conjunto de dados e armazenar sua visualização:

Console

No Console do Google Cloud, abra a página do BigQuery.

Ir para o BigQuery
No painel Explorador, selecione o projeto em que você quer criar o conjunto de dados.
Expanda a opção Ações e clique em Criar conjunto de dados.
Para o código do conjunto de dados, insira shared_views.
Mantenha as outras configurações padrão e clique em Criar conjunto de dados.

SQL

Use a instrução DDL CREATE SCHEMA.

No Console do Google Cloud, acesse a página BigQuery.

Ir para o BigQuery
No editor de consultas, digite a seguinte instrução:
```
CREATE SCHEMA shared_views;
```
Clique em Executar.

Para mais informações sobre como executar consultas, acesse Executar uma consulta interativa.

Java

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, acesse Configurar a autenticação para bibliotecas de cliente.

// Create a separate dataset to store your view
Dataset sharedDataset = bigquery.create(DatasetInfo.of(sharedDatasetId));

Python

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, acesse Configurar a autenticação para bibliotecas de cliente.

shared_dataset_id = "shared_views"
shared_dataset_id_full = "{}.{}".format(client.project, shared_dataset_id)

shared_dataset = bigquery.Dataset(shared_dataset_id_full)
shared_dataset.location = "US"
shared_dataset = client.create_dataset(shared_dataset)  # API request

Criar a visualização no novo conjunto de dados

No novo conjunto de dados, crie a visualização que pretende autorizar. É a visualização que você compartilha com seus analistas de dados. Ela é criada com uma consulta SQL que exclui as colunas que você não quer que os analistas de dados vejam.

Neste tutorial, sua visualização compartilhada exclui as informações do autor, exceto o nome dele, e exclui as informações do autor do commit, exceto o nome dele.

Para criar a visualização no novo conjunto de dados:

Console

No Console do Google Cloud, abra a página do BigQuery.

Ir para o BigQuery

Copie e cole a seguinte consulta no painel Editor. Substitua PROJECT_ID pelo ID do projeto.

SELECT
  commit,
  author.name AS author,
  committer.name AS committer,
  repo_name
FROM
  `PROJECT_ID.github_source_data.github_contributors`;

Clique em Salvar > Salvar visualização.
Na caixa de diálogo Salvar visualização, faça o seguinte:
1. Em Projeto, verifique se o projeto está selecionado.
2. Em Conjunto de dados, insira shared_views.
3. Em Tabela, insira github_analyst_view.
4. Clique em Save.

SQL

Use a instrução DDL CREATE VIEW.

No Console do Google Cloud, acesse a página BigQuery.

Ir para o BigQuery

No editor de consultas, digite a seguinte instrução:

CREATE VIEW shared_views.github_analyst_view
AS (
  SELECT
    commit,
    author.name AS author,
    committer.name AS committer,
    repo_name
  FROM
    `PROJECT_ID.github_source_data.github_contributors`
);

Substitua PROJECT_ID pela ID do seu projeto.

Clique em Executar.

Para mais informações sobre como executar consultas, acesse Executar uma consulta interativa.

Java

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, acesse Configurar a autenticação para bibliotecas de cliente.

// Create the view in the new dataset
String viewQuery =
    String.format(
        "SELECT commit, author.name as author, committer.name as committer, repo_name FROM %s.%s.%s",
        projectId, sourceDatasetId, sourceTableId);

ViewDefinition viewDefinition = ViewDefinition.of(viewQuery);

Table view =
    bigquery.create(TableInfo.of(TableId.of(sharedDatasetId, sharedViewId), viewDefinition));

Python

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, acesse Configurar a autenticação para bibliotecas de cliente.

shared_view_id = "github_analyst_view"
view = bigquery.Table(shared_dataset.table(shared_view_id))
sql_template = """
    SELECT
        commit, author.name as author,
        committer.name as committer, repo_name
    FROM
        `{}.{}.{}`
"""
view.view_query = sql_template.format(
    client.project, source_dataset_id, source_table_id
)
view = client.create_table(view)  # API request

Atribuir aos analistas de dados um papel de IAM para envolvidos no projeto

Para consultar a visualização, seus analistas de dados precisam de permissão para executar jobs de consulta. O papel bigquery.user inclui permissões para executar jobs no projeto, incluindo jobs de consulta. Se você concede a um usuário ou grupo o papel bigquery.user para envolvidos no projeto, o favorecido pode criar conjuntos de dados e executar jobs de consulta em tabelas nesses conjuntos de dados. O papel bigquery.user não dá permissão ao usuário para consultar dados, ver dados da tabela ou visualizar os detalhes do esquema da tabela para conjuntos de dados que não foram criados por esse usuário.

Atribuir aos seus analistas de dados o papel bigquery.user para envolvidos no projeto não permite que eles visualizem ou consultem dados da tabela no conjunto de dados que contém as tabelas consultadas pela visualização. O papel bigquery.user também não concede aos usuários a permissão de atualizar suas visualizações. A maioria das pessoas (cientistas de dados, analistas de business intelligence, analistas de dados) em uma empresa precisa ter o papel bigquery.user no nível do projeto.

Ao adicionar um grupo a um papel de IAM, o endereço de e-mail e o domínio têm que estar associados a uma Conta do Google ativa ou a uma conta do Google Apps.

Para atribuir o grupo de analistas de dados ao papel bigquery.user para envolvidos no projeto:

Console

Abra a página "IAM" no console do Google Cloud.
Abrir a página do IAM
Verifique se o projeto está selecionado no seletor na barra superior.
Clique em Conceder acesso.
Na caixa de diálogo Conceder acesso a, faça o seguinte:
1. Na caixa Participantes, insira o grupo que contém os analistas de dados. Por exemplo, data_analysts@example.com.
2. Na caixa Selecionar um papel, procure o papel Usuário do BigQuery e selecione-o.
3. Clique em Save.

Atribuir controles de acesso ao conjunto de dados que contém a visualização

Para que seus analistas de dados consultem a visualização, eles precisam receber o papel bigquery.dataViewer no conjunto de dados que contém a visualização. O papel bigquery.user concede aos analistas de dados as permissões necessárias para criar jobs de consulta. No entanto, eles não podem consultar a visualização a menos que também tenham acesso de bigquery.dataViewer ao conjunto de dados que contém a visualização.

Para conceder acesso bigquery.dataViewer ao conjunto de dados para os analistas de dados.

Console

No Console do Google Cloud, abra a página do BigQuery.

Ir para o BigQuery
No painel Explorador, selecione o conjunto de dados shared_views.
Clique em Compartilhamento > Permissões.
No painel Permissões do conjunto de dados, clique em Adicionar principal.
Na caixa Novos principais, insira o grupo que contém os analistas de dados. Por exemplo, data_analysts@example.com.
Clique em Selecionar um papel e selecione BigQuery > Visualizador de dados do BigQuery.
Clique em Save.
Clique em Fechar.

Java

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, acesse Configurar a autenticação para bibliotecas de cliente.

// Assign access controls to the dataset containing the view
List<Acl> viewAcl = new ArrayList<>(sharedDataset.getAcl());
viewAcl.add(Acl.of(new Acl.Group("example-analyst-group@google.com"), Acl.Role.READER));
sharedDataset.toBuilder().setAcl(viewAcl).build().update();

Python

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, acesse Configurar a autenticação para bibliotecas de cliente.

# analyst_group_email = 'data_analysts@example.com'
access_entries = shared_dataset.access_entries
access_entries.append(
    bigquery.AccessEntry("READER", "groupByEmail", analyst_group_email)
)
shared_dataset.access_entries = access_entries
shared_dataset = client.update_dataset(
    shared_dataset, ["access_entries"]
)  # API request

Autorizar a visualização a acessar o conjunto de dados de origem

Com os controles de acesso criados para o conjunto de dados que contém a visualização, você a adiciona como uma visualização autorizada no conjunto de dados de origem. Essa autorização concede à visualização acesso aos dados de origem, mas não concede ao grupo de analistas de dados acesso a esses dados.

Para autorizar que a visualização acesse os dados de origem:

Console

No Console do Google Cloud, abra a página do BigQuery.

Ir para o BigQuery
No painel Explorer, selecione o conjunto de dados github_source_data.
Clique em Compartilhamento e selecione Autorizar visualizações.
No painel Visualizações autorizadas que é aberta, insira a visualização github_analyst_view no campo Visualizações autorizadas.
Clique em Adicionar Autorização.

A visualização github_analyst_view agora tem autorização para acessar dados no conjunto de dados de origem.

Java

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, acesse Configurar a autenticação para bibliotecas de cliente.

// Authorize the view to access the source dataset
List<Acl> srcAcl = new ArrayList<>(sourceDataset.getAcl());
srcAcl.add(Acl.of(new Acl.View(view.getTableId())));
sourceDataset.toBuilder().setAcl(srcAcl).build().update();

Python

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, acesse Configurar a autenticação para bibliotecas de cliente.

access_entries = source_dataset.access_entries
access_entries.append(
    bigquery.AccessEntry(None, "view", view.reference.to_api_repr())
)
source_dataset.access_entries = access_entries
source_dataset = client.update_dataset(
    source_dataset, ["access_entries"]
)  # API request

Verificar a configuração

Quando a configuração estiver concluída, um membro do seu grupo de analistas de dados (por exemplo, data_analysts) poderá verificar a configuração consultando a visualização.

Para verificar a configuração:

SQL

Peça para um membro do seu grupo de analistas de dados fazer o seguinte:

No Console do Google Cloud, acesse a página BigQuery.

Ir para o BigQuery
No editor de consultas, digite a seguinte instrução:
```
SELECT
  *
FROM
  `PROJECT_ID.shared_views.github_analyst_view`;
```
Substitua PROJECT_ID pela ID do seu projeto.
Clique em Executar.

Para mais informações sobre como executar consultas, consulte Executar uma consulta interativa.

Código-fonte completo

Veja aqui o código-fonte completo do tutorial da sua referência.

Java

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, acesse Configurar a autenticação para bibliotecas de cliente.

// Create a source dataset to store your table.
Dataset sourceDataset = bigquery.create(DatasetInfo.of(sourceDatasetId));

// Populate a source table
String tableQuery =
    "SELECT commit, author, committer, repo_name"
        + " FROM `bigquery-public-data.github_repos.commits`"
        + " LIMIT 1000";
QueryJobConfiguration queryConfig =
    QueryJobConfiguration.newBuilder(tableQuery)
        .setDestinationTable(TableId.of(sourceDatasetId, sourceTableId))
        .build();
bigquery.query(queryConfig);

// Create a separate dataset to store your view
Dataset sharedDataset = bigquery.create(DatasetInfo.of(sharedDatasetId));

// Create the view in the new dataset
String viewQuery =
    String.format(
        "SELECT commit, author.name as author, committer.name as committer, repo_name FROM %s.%s.%s",
        projectId, sourceDatasetId, sourceTableId);

ViewDefinition viewDefinition = ViewDefinition.of(viewQuery);

Table view =
    bigquery.create(TableInfo.of(TableId.of(sharedDatasetId, sharedViewId), viewDefinition));

// Assign access controls to the dataset containing the view
List<Acl> viewAcl = new ArrayList<>(sharedDataset.getAcl());
viewAcl.add(Acl.of(new Acl.Group("example-analyst-group@google.com"), Acl.Role.READER));
sharedDataset.toBuilder().setAcl(viewAcl).build().update();

// Authorize the view to access the source dataset
List<Acl> srcAcl = new ArrayList<>(sourceDataset.getAcl());
srcAcl.add(Acl.of(new Acl.View(view.getTableId())));
sourceDataset.toBuilder().setAcl(srcAcl).build().update();

Python

Para autenticar no BigQuery, configure o Application Default Credentials. Para mais informações, acesse Configurar a autenticação para bibliotecas de cliente.

# Create a source dataset
from google.cloud import bigquery

client = bigquery.Client()
source_dataset_id = "github_source_data"
source_dataset_id_full = "{}.{}".format(client.project, source_dataset_id)

source_dataset = bigquery.Dataset(source_dataset_id_full)
# Specify the geographic location where the dataset should reside.
source_dataset.location = "US"
source_dataset = client.create_dataset(source_dataset)  # API request

# Populate a source table
source_table_id = "github_contributors"
job_config = bigquery.QueryJobConfig()
job_config.destination = source_dataset.table(source_table_id)
sql = """
    SELECT commit, author, committer, repo_name
    FROM `bigquery-public-data.github_repos.commits`
    LIMIT 1000
"""
query_job = client.query(
    sql,
    # Location must match that of the dataset(s) referenced in the query
    # and of the destination table.
    location="US",
    job_config=job_config,
)  # API request - starts the query

query_job.result()  # Waits for the query to finish

# Create a separate dataset to store your view
shared_dataset_id = "shared_views"
shared_dataset_id_full = "{}.{}".format(client.project, shared_dataset_id)

shared_dataset = bigquery.Dataset(shared_dataset_id_full)
shared_dataset.location = "US"
shared_dataset = client.create_dataset(shared_dataset)  # API request

# Create the view in the new dataset
shared_view_id = "github_analyst_view"
view = bigquery.Table(shared_dataset.table(shared_view_id))
sql_template = """
    SELECT
        commit, author.name as author,
        committer.name as committer, repo_name
    FROM
        `{}.{}.{}`
"""
view.view_query = sql_template.format(
    client.project, source_dataset_id, source_table_id
)
view = client.create_table(view)  # API request

# Assign access controls to the dataset containing the view
# analyst_group_email = 'data_analysts@example.com'
access_entries = shared_dataset.access_entries
access_entries.append(
    bigquery.AccessEntry("READER", "groupByEmail", analyst_group_email)
)
shared_dataset.access_entries = access_entries
shared_dataset = client.update_dataset(
    shared_dataset, ["access_entries"]
)  # API request

# Authorize the view to access the source dataset
access_entries = source_dataset.access_entries
access_entries.append(
    bigquery.AccessEntry(None, "view", view.reference.to_api_repr())
)
source_dataset.access_entries = access_entries
source_dataset = client.update_dataset(
    source_dataset, ["access_entries"]
)  # API request

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

Cuidado: excluir um projeto tem os seguintes efeitos:

Tudo no projeto é excluído. Se você tiver usado um projeto existente para as tarefas neste documento, a exclusão dele incluirá a exclusão de quaisquer outros trabalhos feitos no projeto.
Os IDs do projeto personalizados são perdidos. Ao criar o projeto, você pode ter criado um código do projeto personalizado para ser usado no futuro. Para preservar os URLs que usam o ID do projeto, como um URL appspot.com, exclua recursos específicos do projeto, em vez de excluir o projeto inteiro.

Se você planeja passar por várias arquiteturas, tutoriais ou guias de início rápido, a reutilização de projetos pode evitar que você exceda os limites da cota do projeto.

No Console do Google Cloud, acesse a página Gerenciar recursos.
Acessar "Gerenciar recursos"
Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

A seguir

Leia Permissões e papéis predefinidos para saber mais sobre os controles de acesso no BigQuery.
Leia Introdução às visualizações para saber mais sobre as visualizações do BigQuery.
Leia Como criar uma visualização autorizada para saber mais informações.
Leia Visão geral do IAM para saber mais sobre os conceitos básicos do IAM.
Leia Como gerenciar políticas para saber como gerenciar o controle de acesso.