O Data Catalog pode importar e manter metadados atualizados de várias fontes de dados do Google Cloud, além de diversas fontes locais conhecidas.
Com os metadados ingeridos, o Data Catalog faz o seguinte:
- Facilita a descoberta dos metadados na pesquisa. Para mais informações, consulte Como pesquisar.
- Permite que os membros da sua organização aprimorem seus dados com metadados comerciais adicionais por meio de tags. Para mais informações, consulte Tags e modelos de tag.
Embora a integração com as fontes do Google Cloud seja automática, para fazer a integração com fontes locais personalizadas que sua organização usa, é possível:
- Configure e execute os connectors contribuídos pela comunidade.
- Ou use a API Data Catalog para entradas personalizadas.
Antes de começar
Se você já estiver usando o Data Catalog, precisará ter um projeto com a API Data Catalog ativada. Para mais informações sobre a maneira recomendada de usar vários projetos com o Data Catalog, consulte Como usar modelos de tag em vários projetos.
Se esta for a primeira vez que você interage com o Data Catalog, faça o seguinte:
- Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative a API Data Catalog.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative a API Data Catalog.
Integrar as fontes de dados do Google Cloud
Analytics Hub
Quando você se inscreve em uma ficha do Analytics Hub, um conjunto de dados vinculado é criado no seu projeto. O Data Catalog gera automaticamente entradas de metadados para esse conjunto de dados vinculado e todas as tabelas contidas nele. Para mais informações sobre conjuntos de dados vinculados e outros recursos do Analytics Hub, consulte Introdução ao Analytics Hub.
Na pesquisa do Data Catalog, os conjuntos de dados vinculados são exibidos como conjuntos de dados padrão do BigQuery, mas é possível filtrá-los usando o predicado type=dataset.linked
. Para mais detalhes, consulte Pesquisar recursos de dados.
BigQuery e Pub/Sub
Se sua organização já usa o BigQuery e o Pub/Sub, dependendo das suas permissões, é possível pesquisar os metadados dessas origens imediatamente. Se não for possível ver as entradas correspondentes nos resultados da pesquisa, procure os papéis do IAM que você e os usuários do seu projeto podem precisar no gerenciamento de identidade e acesso.
Proteção de dados sensíveis
Além disso, o Data Catalog se integra à proteção de dados sensíveis que permite verificar recursos específicos do Google Cloud em busca de dados confidenciais e enviar resultados de volta para o Data Catalog na forma de tags.
Para mais informações, consulte Como enviar resultados da verificação da Proteção de Dados Sensíveis ao Data Catalog.
Bigtable
Quando você armazena dados no Bigtable, os metadados são sincronizados automaticamente com o Data Catalog para os seguintes recursos do Bigtable:
- Instâncias
- Tabelas, incluindo detalhes do grupo de colunas
Para orientações sobre como usar o Data Catalog para descoberta e inclusão de dados, consulte Gerenciar recursos de dados usando o Data Catalog na documentação do Bigtable.
Spanner (pré-lançamento)
Quando você armazena dados no Spanner, os metadados dos seguintes recursos do Spanner são sincronizados com o Data Catalog:
- Instâncias
- Bancos de dados
- Tabelas e visualizações com esquema de colunas
Para orientações sobre como usar o Data Catalog para descoberta e inclusão de tags, consulte Gerenciar recursos de dados usando o Data Catalog.
Dataproc Metastore
Para integrar ao metastore do Dataproc, ative a sincronização com o Data Catalog para serviços novos ou atuais, conforme descrito em Como ativar a sincronização do Data Catalog.
Vertex AI
A Vertex AI sincroniza os metadados dos seguintes recursos com o Data Catalog:
Integrar fontes de dados locais
Para integrar fontes de dados locais, é possível usar os conectores Python correspondentes enviados pela comunidade:
- Encontre sua fonte de dados na tabela abaixo.
- Abra o repositório do GitHub dele.
- Siga as instruções de configuração no arquivo readme.
Categoria | Componente | Descrição | Repositório |
---|---|---|---|
RDBMS | mysql-connector | Exemplo de código para fonte de dados MySQL. | google-datacatalog-mysql-connector |
postgresql-connector | Exemplo de código da fonte de dados do PostgreSQL. | google-datacatalog-postgresql-connector | |
sqlserver-connector | Código de amostra da fonte de dados do SQLServer. | google-datacatalog-sqlserver-connector | |
redshift-connector | Código de amostra da fonte de dados do Redshift. | google-datacatalog-redshift-connector | |
oracle-connector | Código de amostra para fonte de dados Oracle. | google-datacatalog-oracle-connector | |
teradata-connector | Código de amostra da fonte de dados do Teradata. | google-datacatalog-teradata-connector | |
vertica-connector | Exemplo de código para a fonte de dados Vertica. | google-datacatalog-vertica-connector | |
greenplum-connector | Código de amostra para a fonte de dados do Greenplum. | google-datacatalog-greenplum-connector | |
rdbmscsv-connector | Código de amostra para ingestão de CSV genérica RDBMS. | google-datacatalog-rdbmscsv-connector | |
saphana-connector | Código de amostra da fonte de dados Sap Hana. | google-datacatalog-saphana-connector | |
BI | looker-connector | Exemplo de código para fonte de dados do Looker. | google-datacatalog-looker-connector |
qlik-connector | Exemplo de código da fonte de dados do Qlik Sense. | google-datacatalog-qlik-connector | |
tableau-connector | Exemplo de código da fonte de dados do Tableau. | google-datacatalog-tableau-connector | |
Hive | hive-connector | Exemplo de código para a fonte de dados do Hive. | google-datacatalog-hive-connector |
apache-atlas-connector | Exemplo de código para fonte de dados do Apache Atlas. | google-datacatalog-apache-atlas-connector |
Integrar fontes de dados não compatíveis
Se você não encontrar um conector para sua fonte de dados, ainda poderá integrá-lo manualmente criando grupos de entrada e entradas personalizadas. Para fazer isso, você pode:
- Use uma das bibliotecas de cliente do Data Catalog em uma das seguintes linguagens: C#, Go, Java, Node.js, PHP, Python ou Ruby.
- Ou crie manualmente na API Data Catalog.
Para integrar suas fontes, primeiro saiba mais sobre Entradas e grupos de entradas e siga as instruções emCriar entradas personalizadas do Data Catalog para suas fontes de dados de dados.
A seguir
- Saiba mais sobre o gerenciamento de identidade e acesso.
- Saiba como pesquisar.
- Consulte o guia de início rápido Como incluir tags de tabela.