- Conjuntos de dados vinculados do Analytics Hub
- Conjuntos de dados, tabelas, visualizações e modelos do BigQuery
- Instâncias, clusters e tabelas do Bigtable (incluindo detalhes do grupo de colunas)
- Modelos de tags, grupos de entradas e entradas personalizadas do Data Catalog
- Lakes, zonas, tabelas e conjuntos de arquivos do Dataplex
- Serviços, bancos de dados e tabelas do Dataproc Metastore
- Fluxos de dados do Pub/Sub
- Instâncias, bancos de dados, tabelas e visualizações do Spanner
- Modelos, conjuntos de dados e recursos da Vertex AI Feature Store
- Recursos em silos de dados corporativos conectados ao Data Catalog
Escopo de pesquisa
Os resultados da pesquisa podem ser diferentes com base nas suas permissões. O escopo dos resultados de pesquisa do Data Catalog é definido de acordo com seu papel.
É possível analisar os diferentes tipos de papéis e permissões do IAM disponíveis para o Data Catalog.
Por exemplo, se você tiver acesso de leitura de metadados do BigQuery a um objeto, esse objeto aparecerá nos resultados de pesquisa do Data Catalog. A lista a seguir descreve as permissões mínimas necessárias:
Para pesquisar uma tabela, você precisa da permissão
bigquery.tables.get
para ela.Para pesquisar um conjunto de dados, você precisa da permissão
bigquery.datasets.get
.Para pesquisar metadados de um conjunto de dados ou uma tabela, você precisa do papel
roles/bigquery.metadataViewer
.Para pesquisar todos os recursos em um projeto ou organização, você precisa da permissão
datacatalog.catalogs.searchAll
. Funciona para todos os recursos, independentemente do sistema de origem.
Se você tiver acesso a uma tabela do BigQuery, mas não ao conjunto de dados que a contém, a tabela ainda será exibida conforme esperado na pesquisa do Data Catalog. A mesma lógica de acesso se aplica a todos os sistemas compatíveis, como o Pub/Sub e o Data Catalog.
Problemas de recall na pesquisa
As consultas de pesquisa do Data Catalog não garantem o recall completo. É possível que os resultados correspondentes à consulta não sejam retornados, mesmo em páginas de resultados subsequentes. Além disso, os resultados retornados (e não retornados) poderão variar se você repetir as consultas de pesquisa.
Se você tiver problemas de recuperação e não tiver que buscar os
resultados em uma ordem específica, defina o parâmetro orderBy
como
default
ao chamar o método
catalog.search.
O uso da flag admin_search
na solicitação de pesquisa garante o recall completo. A pesquisa de administrador requer a permissão datacatalog.catalogs.searchAll
para ser definida em todos os projetos e organizações no escopo da pesquisa. Ao usar admin_search
, apenas default
orderBy
é permitido.
Tabelas fragmentadas por data
O Data Catalog agrega tabelas fragmentadas por data em uma única entrada lógica. Essa entrada tem o mesmo esquema que o fragmento da tabela com a data mais recente e contém informações agregadas sobre o número total de fragmentos. A entrada deriva o nível de acesso dela usando o conjunto de dados a que ela pertence. A pesquisa do Data Catalog mostrará essas entradas lógicas somente se o usuário tiver acesso ao conjunto de dados que as contém. Tabelas individuais fragmentadas por data não são visíveis na pesquisa do Data Catalog, mesmo que estejam presentes no Data Catalog e possam ser marcadas.
Filtros
Os filtros permitem restringir os resultados da pesquisa. Todos os filtros são agrupados em seções:
- Escopo para limitar a pesquisa somente aos itens com estrela.
- Sistemas como BigQuery, Pub/Sub, Dataplex, Metastore do Dataproc, sistemas personalizados, Vertex AI e o próprio Data Catalog. O sistema Data Catalog contém conjuntos de arquivos e entradas personalizadas.
- Os lagos e zonas vêm do Dataplex.
- Tipos de dados, como fluxos de dados, conjuntos de dados, lakes, zonas, conjuntos de arquivos, modelos, tabelas, visualizações, serviços, bancos de dados e tipos personalizados.
- Projetos lista todos os projetos disponíveis para você.
- Tags: lista todos os modelos de tags (e os campos individuais deles) disponíveis para você.
- Os conjuntos de dados vêm do BigQuery e da Vertex AI.
- Conjuntos de dados públicos são informações disponíveis publicamente no BigQuery.
Você pode combinar filtros de várias seções para encontrar recursos que correspondam a pelo menos uma condição de cada seção selecionada. Vários filtros selecionados em uma única seção são avaliados com o uso do operador lógico "OR". Por exemplo, considerando a seguinte combinação de filtros:
O Data Catalog procura:
Conjuntos de dados do BigQuery marcados com o modelo MyTemplate1.
Conjuntos de dados do BigQuery marcados com o modelo MyTemplate2.
Tabelas do BigQuery marcadas com o modelo MyTemplate1.
Tabelas do BigQuery marcadas com o modelo MyTemplate2.
Filtrar por valor da tag
Com os filtros Tags, é possível consultar recursos marcados usando um modelo específico. Você pode usar o menu
Personalizar para refinar ainda mais os resultados e filtrar por valores de tag específicos. As condições de filtro do valor da tag dependem do tipo de dados desse campo. Por exemplo, nos campos "datetime" e "number", é possível especificar uma data ou um intervalo específicos.Visibilidade dos filtros
Os filtros exibidos em cada seção dependem da consulta atual na Caixa de pesquisa. Todo o conjunto de resultados da pesquisa pode incluir entradas que correspondem à consulta atual, mas os filtros que correspondem a essas entradas podem não ser mostrados no painel Filtros.
Como pesquisar recursos de dados
Console
Console
Para iniciar uma consulta de pesquisa do Dataplex no console do Google Cloud, acesse a página Pesquisa do Dataplex.
No campo de pesquisa, insira a consulta ou use o painel Filtros para refinar os parâmetros de pesquisa.
É possível adicionar manualmente os seguintes filtros:
- Em Projetos, filtre um projeto clicando no botão ADICIONAR PROJETO, procure um projeto específico, selecione-o e clique em ABRIR.
- Em Tags, para filtrar o modelo de tag, clique no menu suspenso Adicionar mais modelos de tag, pesquise um modelo específico, selecione-o e clique em OK.
Você também pode:
- Marque Incluir conjuntos de dados públicos para pesquisar recursos de dados disponíveis publicamente no Google Cloud, além dos recursos disponíveis para você.
Exemplo de pesquisa
Por exemplo, para pesquisar a tabela trips
que você configurou em Configurar modelos de tag, tags, visões gerais e administradores de dados:
- Digite
trips
no campo de pesquisa e clique em Pesquisar. - Selecione BigQuery na seção Sistemas para excluir recursos de dados com o mesmo nome que pertencem a outros sistemas.
- Selecione o ID do projeto na seção Projetos para excluir os recursos de dados de outros projetos. Caso seu projeto não apareça na seção, clique em ADICIONAR PROJETO e selecione-o na janela de diálogo.
- Selecione o Modelo de tag de demonstração na seção Modelos de tag para conferir se uma tag que usa esse modelo está anexada à tabela
trips
. Se esse modelo não aparecer na seção, clique no menu suspenso Adicionar mais tags, selecione-o e clique em OK.
Com todos os filtros selecionados, os resultados da pesquisa contêm apenas uma entrada: a tabela trips
do BigQuery no projeto com uma tag anexada que usa Demo Tag Template
.
Além disso, há outras possibilidades:
Filtre a pesquisa adicionando keyword:value aos termos no campo de pesquisa:
Palavra-chave Descrição name:
Corresponder a um nome de recurso de dados column:
Nome da coluna correspondente ou da coluna aninhada description:
Corresponder à descrição de uma tabela Faça uma pesquisa de tags adicionando um dos seguintes prefixos de palavra-chave aos seus termos de pesquisa no campo de pesquisa:
Tag Descrição tag:project-name.tag_template_name
Corresponde ao nome da tag. tag:project-name.tag_template_name.key
Corresponder a uma chave de tag tag:project-name.tag_template_name.key:value
Par de key:string value
tag de correspondência
Dicas de expressão de pesquisa
Coloque sua expressão de pesquisa entre aspas ("
search terms
") se ela contiver espaços.Você pode usar "NOT" (em letras maiúsculas) antes de uma palavra-chave para corresponder à negação lógica do filtro
keyword:term
. Também é possível usar os operadores booleanos "AND" e "OR", em letras maiúsculas, para combinar expressões de pesquisa.Por exemplo:
NOT column:term
lista todas as colunas, exceto aquelas que correspondem ao termo especificado. Para uma lista de palavras-chave e outros termos que podem ser usados em uma expressão de pesquisa do Data Catalog, consulte Sintaxe de pesquisa do Data Catalog.
Java
Antes de testar esta amostra, siga as instruções de configuração de Java no Guia de início rápido do Data Catalog usando bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Data Catalog Java.
Para autenticar no Data Catalog, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Antes de testar esta amostra, siga as instruções de configuração de Node.js no Guia de início rápido do Data Catalog usando bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Data Catalog Node.js.
Para autenticar no Data Catalog, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Antes de testar esta amostra, siga as instruções de configuração de Python no Guia de início rápido do Data Catalog usando bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Data Catalog Python.
Para autenticar no Data Catalog, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
REST e LINHA DE CMD
REST
Se você não tiver acesso às bibliotecas do Cloud Client para seu idioma ou desejar testar a API usando solicitações REST, consulte os exemplos a seguir e consulte a documentação da API REST.
1. Pesquisar no catálogo
Antes de usar os dados da solicitação, faça as substituições a seguir:
- organization-id: ID da organização do GCP
- project-id: ID de projeto do GCP.
Método HTTP e URL:
POST https://datacatalog.googleapis.com/v1/catalog:search
Corpo JSON da solicitação:
{ "query":"trips", "scope":{ "includeOrgIds":[ "organization-id" ] } }
Para enviar a solicitação, expanda uma destas opções:
Você receberá uma resposta JSON semelhante a esta:
{ "results":[ { "searchResultType":"ENTRY", "searchResultSubtype":"entry.table", "relativeResourceName":"projects/project-id/locations/US/entryGroups/@bigquery/entries/entry1-id", "linkedResource":"//bigquery.googleapis.com/projects/project-id/datasets/demo_dataset/tables/taxi_trips" }, { "searchResultType":"ENTRY", "searchResultSubtype":"entry.table", "relativeResourceName":"projects/project-id/locations/US/entryGroups/@bigquery/entries/entry2-id", "linkedResource":"//bigquery.googleapis.com/projects/project-id/datasets/demo_dataset/tables/tlc_yellow_trips_2018" } ] }
Ver detalhes da tabela
No console do Cloud, é possível usar o Data Catalog para visualizar os detalhes da tabela.
Acesse a página de pesquisa do Dataplex.
Na caixa de pesquisa, insira o nome de um conjunto de dados que tenha uma tabela.
Por exemplo, se você concluiu o guia de início rápido, pesquise
demo-dataset
e selecione a tabelatrips
.Clique na tabela.
A página Detalhes da tabela do BigQuery é aberta.
Os detalhes da tabela incluem as seguintes seções:
Detalhes da tabela do BigQuery. Inclui informações como hora da criação, hora da última modificação, hora de expiração, URLs do recurso, rótulos e assim por diante.
Tags. Lista as tags aplicadas.É possível editar as tags nesta página e ver o modelo de tag. Clique no ícone
Ações.Tags de esquema e colunas. Lista o esquema aplicado e os valores correspondentes.
Marque com uma estrela suas entradas favoritas e pesquise-as
Se você navega com frequência pelos mesmos recursos de dados, pode incluir as entradas deles em uma lista personalizada marcando-os com estrelas. Para fazer isso na interface do Dataplex:
Acesse a página de pesquisa do Dataplex e encontre seu recurso.
Marque a entrada com estrela de duas maneiras:
- Clique no ícone ao lado da entrada nos resultados da pesquisa.
- Clique no nome da entrada para abrir a página de detalhes e depois no botão ESTRELA na barra de ações na parte de cima.
Você pode marcar até 200 entradas com estrela.
Entradas com estrela aparecem na lista Entradas com estrela na página de pesquisa antes de você inserir uma consulta de pesquisa na barra de pesquisa. Essa lista só fica visível para você.
Para pesquisar apenas entradas com estrela, selecione a opção Escopo > Com estrela no painel Filtros.
Também é possível usar os métodos correspondentes da API Data Catalog para marcar e remover as estrelas das entradas. Ao pesquisar recursos, use o parâmetro starredOnly
no objeto scope
. Consulte o método catalog.search.