Introdução à administração de dados no BigQuery
O BigQuery tem capacidades de governação incorporadas que simplificam a forma como descobre, gere, monitoriza, governa e usa os seus dados e recursos de IA.
Os administradores, os responsáveis pelos dados, os gestores de governação de dados e os responsáveis pela custódia dos dados podem usar as capacidades de governação no BigQuery para fazer o seguinte:
- Descubra dados.
- Organize os dados.
- Recolher e enriquecer metadados.
- Faça a gestão da qualidade de dados.
- Certifique-se de que os dados são usados de forma consistente e em conformidade com as políticas organizacionais.
- Partilhe dados em grande escala e de forma segura.
As capacidades de governação do BigQuery são baseadas no Catálogo universal do Dataplex, um inventário centralizado de todos os recursos de dados na sua organização. O catálogo universal do Dataplex contém metadados empresariais, técnicos e operacionais para todos os seus dados. Ajuda a descobrir relações e semântica nos metadados aplicando inteligência artificial e aprendizagem automática.
O metastore do BigLake permite-lhe usar vários motores de processamento de dados para consultar uma única cópia de dados com um único esquema, sem duplicação de dados. Os motores de processamento de dados que pode usar incluem o BigQuery, o Apache Spark, o Apache Flink e o Apache Hive. Os seus dados podem ser armazenados em localizações como tabelas de armazenamento do BigQuery, tabelas do BigLake para o Apache Iceberg no BigQuery ou tabelas externas do BigLake.
O BigQuery suporta um ciclo de vida de dados completo, desde a descoberta à utilização dos dados. As funcionalidades de governação também estão disponíveis no catálogo universal do Dataplex.
Descoberta de dados
O BigQuery descobre dados na organização, quer os dados estejam no BigQuery, no Spanner, no Cloud SQL, no Pub/Sub ou no Cloud Storage. Google CloudOs metadados são extraídos e armazenados automaticamente no catálogo universal do Dataplex. Por exemplo, pode extrair metadados de dados estruturados e não estruturados do Cloud Storage, e pode criar automaticamente tabelas do BigLake prontas para consultas em grande escala. Isto permite-lhe realizar análises com um motor de código aberto sem duplicação de dados.
Também pode extrair e catalogar metadados de origens de dados de terceiros através de conetores personalizados.
O BigQuery oferece as seguintes capacidades de deteção de dados:
- Pesquisar. Pesquise dados e recursos de IA em projetos e na organização. No BigQuery, na Google Cloud consola, use a pesquisa semântica (pré-visualização) para pesquisar recursos usando linguagem comum. Em alternativa, encontre recursos através da pesquisa de palavras-chave no catálogo universal do Dataplex.
- Descoberta automática de dados do Cloud Storage. Procure dados em contentores do Cloud Storage para extrair e, em seguida, catalogar metadados. A descoberta automática cria tabelas para dados estruturados e não estruturados.
- Importação de metadados. Importe metadados em grande escala de sistemas de terceiros para o catálogo universal do Dataplex. Pode criar conetores personalizados para extrair dados das suas origens de dados e, em seguida, executar pipelines de conetividade geridas que orquestram o fluxo de trabalho de importação de metadados.
- Exportação de metadados. Exporte metadados em grande escala do catálogo universal do Dataplex. Pode analisar os metadados exportados com o BigQuery ou integrar os metadados em aplicações personalizadas ou fluxos de trabalho de processamento programático.
Organização e gestão de dados
Para melhorar a capacidade de deteção e a usabilidade dos dados, os responsáveis pelos dados e os administradores podem usar o BigQuery para rever, atualizar e analisar metadados. As capacidades de gestão e organização dos dados do BigQuery ajudam a garantir que os seus dados são precisos, consistentes e estão alinhados com as políticas da sua organização.
O BigQuery oferece as seguintes capacidades de gestão e organização de dados:
- Glossário empresarial. Melhore o contexto, a colaboração e a pesquisa definindo a terminologia da sua organização num glossário. Identifique os responsáveis pelos dados para os termos e anexe termos aos campos de recursos de dados.
- Estatísticas de dados. O Gemini usa metadados para gerar perguntas em linguagem natural sobre a sua tabela e as consultas SQL para responder a essas perguntas. Estas estatísticas de dados ajudam a descobrir padrões, avaliar a qualidade dos dados e realizar análises estatísticas.
- Criação de perfis de dados. Identifique as características estatísticas comuns das colunas nas tabelas do BigQuery para compreender e analisar os seus dados de forma mais eficaz.
- Qualidade de dados. Defina e execute verificações de qualidade de dados em tabelas no BigQuery e no Cloud Storage, e aplique controlos de dados regulares e contínuos em ambientes do BigQuery.
- Linha de dados. Acompanhe a forma como os dados se movem nos seus sistemas: de onde vêm, para onde são transmitidos e que transformações lhes são aplicadas. O BigQuery suporta a linhagem de dados ao nível da tabela e da coluna.
Passos seguintes para a organização e a gestão de dados
A tabela seguinte descreve os passos seguintes que pode realizar para saber mais sobre as funcionalidades de gestão de dados e organização:
Nível de experiência | Percurso de aprendizagem |
---|---|
Novos utilizadores da nuvem |
|
Utilizadores experientes da nuvem |
|
Segurança e controlo de acesso
A gestão de acessos a dados é o processo de definição, aplicação e monitorização das regras e políticas que regem quem tem acesso aos dados. A gestão de acesso garante que os dados só estão acessíveis a quem tiver acesso autorizado aos mesmos.
O BigQuery oferece as seguintes capacidades de segurança e controlo de acesso:
- Identity and Access Management (IAM). O IAM permite-lhe controlar quem tem acesso aos seus recursos do BigQuery, como projetos, conjuntos de dados, tabelas e vistas. Pode conceder funções de IAM a utilizadores, grupos e contas de serviço. Estas funções definem o que os utilizadores podem fazer com os seus recursos.
- Controlos de acesso ao nível da coluna e controlos de acesso ao nível da linha. Os controlos de acesso ao nível da coluna e da linha permitem-lhe restringir o acesso a colunas e linhas específicas numa tabela, com base nos atributos do utilizador ou nos valores dos dados. Este controlo permite-lhe implementar acesso detalhado para ajudar a proteger os dados confidenciais contra o acesso não autorizado.
- Gestão de transferência de dados. O VPC Service Controls permite-lhe criar perímetros em torno dos Google Cloud recursos e controlar o acesso a esses recursos com base nas políticas da sua organização.
- Registos de auditoria. Os registos de auditoria fornecem um registo detalhado da atividade do utilizador e dos eventos do sistema na sua organização. Estes registos ajudam a aplicar políticas de administração de dados e a identificar potenciais riscos de segurança.
- Ocultação de dados. A ocultação de dados permite-lhe ocultar dados confidenciais numa tabela, ao mesmo tempo que permite que os utilizadores autorizados acedam aos dados circundantes. A ocultação de dados também pode ocultar dados que correspondam a padrões de dados confidenciais, protegendo contra a divulgação acidental de dados.
- Encriptação. O BigQuery encripta automaticamente todos os dados em repouso e em trânsito, ao mesmo tempo que lhe permite personalizar as definições de encriptação para satisfazer os seus requisitos específicos.
Passos seguintes para a segurança e o controlo de acesso
A tabela seguinte descreve os passos seguintes que pode realizar para saber mais acerca das funcionalidades de controlo de acesso:
Nível de experiência | Percurso de aprendizagem |
---|---|
Novos utilizadores da nuvem |
|
Utilizadores experientes da nuvem |
|
Dados e estatísticas partilhados
O BigQuery permite-lhe partilhar dados e estatísticas em grande escala dentro e entre limites organizacionais. Tem uma estrutura de segurança e privacidade robusta através de uma plataforma de troca de dados integrada. Através da partilha do BigQuery, pode descobrir, aceder e consumir uma biblioteca de dados organizada por uma vasta seleção de fornecedores de dados.
O BigQuery oferece as seguintes capacidades de partilha:
- Partilhe mais do que dados. Pode partilhar uma vasta gama de dados e recursos de IA, como conjuntos de dados, tabelas, vistas e streams em tempo real do BigQuery com tópicos do Pub/Sub, procedimentos armazenados de SQL e modelos do BigQuery ML.
- Aceda a conjuntos de dados da Google. Aumente as suas iniciativas de estatísticas e aprendizagem automática com conjuntos de dados Google das tendências de pesquisa, dos modelos DeepMind WeatherNext, da Google Maps Platform, do Google Earth Engine e muito mais.
- Integre-se com os princípios de governação de dados. Os proprietários dos dados mantêm o controlo sobre os respetivos dados e têm a capacidade de definir e configurar regras ou políticas para restringir o acesso e a utilização.
- Partilha de dados em direto e sem cópias. Os dados são partilhados no local sem necessidade de integração, movimento de dados ou replicação, o que garante que a análise se baseia nas informações mais recentes. Os conjuntos de dados associados criados são um ponteiro dinâmico para o recurso partilhado.
- Melhore a postura de segurança. Pode usar controlos de acesso para reduzir o acesso excessivo, incluindo o suporte integrado dos VPC Service Controls.
- Aumente a visibilidade com as métricas de utilização do fornecedor. Os publicadores de dados podem ver e monitorizar a utilização de recursos partilhados, como o número de tarefas executadas, o total de bytes analisados e os subscritores de cada organização.
- Colabore em dados confidenciais com salas limpas de dados. As salas limpas de dados oferecem um ambiente de segurança melhorada no qual várias partes podem partilhar, juntar e analisar os respetivos recursos de dados sem mover nem revelar os dados subjacentes.
- Criado no BigQuery. Pode tirar partido da escalabilidade e das capacidades de processamento massivo no BigQuery, o que permite colaborações em grande escala.
Passos seguintes para a partilha
A tabela seguinte descreve os passos seguintes que pode seguir para saber mais sobre as funcionalidades de partilha:
Nível de experiência | Percurso de aprendizagem |
---|---|
Novos utilizadores da nuvem | |
Utilizadores experientes da nuvem |
|
O que se segue?
- Saiba mais sobre a autenticação na Google.
- Saiba mais sobre a eliminação de dados no Google Cloud.
- Saiba mais acerca das práticas recomendadas de IAM.
- Conheça a hierarquia de recursos no Google Cloud.
- Saiba mais sobre a IAM no Google Cloud.