O Data Catalog pode importar e manter metadados atualizados de várias fontes de dados do Google Cloud, bem como várias fontes locais conhecidas.
Com os metadados ingeridos, o Data Catalog faz o seguinte:
- Facilita a descoberta dos metadados na pesquisa. Para mais informações, consulte Como pesquisar.
- Permite que os membros da sua organização aprimorem seus dados com metadados comerciais adicionais por meio de tags. Para mais informações, consulte Tags e modelos de tag.
Embora a integração com as fontes do Google Cloud seja automática, para fazer a integração com fontes locais personalizadas que sua organização usa, é possível fazer o seguinte:
- Configure e execute os conectores contribuídos pela comunidade.
- Use a API Data Catalog para entradas personalizadas.
Antes de começar
Se você já estiver usando o Data Catalog, precisará ter um projeto com a API Data Catalog ativada. Para mais informações sobre a maneira recomendada de usar vários projetos com o Data Catalog, consulte Como usar modelos de tag em vários projetos.
Se esta for a primeira vez que você interage com o Data Catalog, faça o seguinte:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Data Catalog API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Data Catalog API.
Integrar as fontes de dados do Google Cloud
Analytics Hub
Quando você se inscreve em uma listagem no Analytics Hub, um conjunto de dados vinculado é criado no seu projeto. O Data Catalog gera automaticamente entradas de metadados para esse conjunto de dados vinculado e todas as tabelas contidas nele. Para mais informações sobre conjuntos de dados vinculados e outros recursos do Analytics Hub, consulte Introdução ao Analytics Hub.
Na pesquisa do Data Catalog, os conjuntos de dados vinculados são mostrados como
conjuntos de dados padrão do BigQuery, mas você pode filtrá-los usando
o predicado type=dataset.linked
. Para mais detalhes,
consulte Pesquisar recursos de dados.
BigQuery e Pub/Sub
Se sua organização já usa o BigQuery e o Pub/Sub, dependendo das suas permissões, é possível pesquisar os metadados dessas origens imediatamente. Se não for possível ver as entradas correspondentes nos resultados da pesquisa, procure os papéis do IAM que você e os usuários do seu projeto podem precisar no gerenciamento de identidade e acesso.
Bigtable
Quando você armazena dados no Bigtable, os metadados são sincronizados automaticamente com o Data Catalog para os seguintes recursos do Bigtable:
- Instâncias
- Tabelas, incluindo detalhes do grupo de colunas
Para orientações sobre como usar o Data Catalog para descoberta e inclusão de tags em dados, consulte Gerenciar recursos de dados usando o Data Catalog na documentação do Bigtable.
Cloud SQL
O Cloud SQL não se integra ao Data Catalog, mas se integra ao Dataplex Catalog. Para mais informações, consulte Integrar suas fontes de dados com o Dataplex Catalog.
Dataproc Metastore
Para integrar ao metastore do Dataproc, ative a sincronização com o Data Catalog para serviços novos ou atuais, conforme descrito em Como ativar a sincronização do Data Catalog.
Proteção de dados sensíveis
Além disso, o Data Catalog se integra à proteção de dados sensíveis, que permite verificar recursos específicos do Google Cloud em busca de dados sensíveis e enviar resultados ao Data Catalog na forma de tags.
Para mais informações, consulte Como enviar resultados de verificação da Proteção de dados sensíveis para o Data Catalog.
Spanner
Quando você armazena dados no Spanner, os metadados dos seguintes recursos do Spanner são sincronizados com o Data Catalog:
- Instâncias
- Bancos de dados
- Tabelas e visualizações com esquema de coluna
Para orientações sobre como usar o Data Catalog para descoberta e inclusão de tags em dados, consulte Gerenciar recursos de dados usando o Data Catalog.
Vertex AI
A Vertex AI sincroniza os metadados dos seguintes recursos com o Data Catalog:
- Model Registry Models
- Conjuntos de dados
- Instâncias de loja on-line
- Visualizações de recursos
- Grupos de recursos
Integrar fontes de dados locais
Para integrar fontes de dados locais, é possível usar os conectores Python correspondentes enviados pela comunidade:
- Encontre sua fonte de dados na tabela a seguir.
- Abra o repositório do GitHub dele.
- Siga as instruções de configuração no arquivo readme.
Categoria | Componente | Descrição | Repositório |
---|---|---|---|
RDBMS | mysql-connector | Exemplo de código para fonte de dados MySQL. | google-datacatalog-mysql-connector |
postgresql-connector | Exemplo de código da fonte de dados do PostgreSQL. | google-datacatalog-postgresql-connector | |
sqlserver-connector | Código de amostra da fonte de dados do SQLServer. | google-datacatalog-sqlserver-connector | |
redshift-connector | Código de amostra da fonte de dados do Redshift. | google-datacatalog-redshift-connector | |
oracle-connector | Código de amostra para fonte de dados Oracle. | google-datacatalog-oracle-connector | |
teradata-connector | Código de amostra da fonte de dados do Teradata. | google-datacatalog-teradata-connector | |
vertica-connector | Exemplo de código para a fonte de dados Vertica. | google-datacatalog-vertica-connector | |
greenplum-connector | Código de amostra para a fonte de dados do Greenplum. | google-datacatalog-greenplum-connector | |
rdbmscsv-connector | Código de amostra para ingestão de CSV genérica RDBMS. | google-datacatalog-rdbmscsv-connector | |
saphana-connector | Código de amostra da fonte de dados Sap Hana. | google-datacatalog-saphana-connector | |
BI | looker-connector | Exemplo de código para fonte de dados do Looker. | google-datacatalog-looker-connector |
qlik-connector | Exemplo de código para a fonte de dados do Qlik Sense. | google-datacatalog-qlik-connector | |
tableau-connector | Exemplo de código da fonte de dados do Tableau. | google-datacatalog-tableau-connector | |
Hive | hive-connector | Exemplo de código para a fonte de dados do Hive. | google-datacatalog-hive-connector |
apache-atlas-connector | Exemplo de código para fonte de dados do Apache Atlas. | google-datacatalog-apache-atlas-connector |
Integrar fontes de dados não compatíveis
Se você não encontrar um conector para sua fonte de dados, ainda poderá integrá-lo manualmente criando grupos de entrada e entradas personalizadas. Para fazer isso, você pode:
- Use uma das bibliotecas de cliente do Data Catalog em uma das seguintes linguagens: C#, Go, Java, Node.js, PHP, Python ou Ruby.
- Ou crie manualmente na API Data Catalog.
Para integrar suas fontes, primeiro saiba mais sobre Entradas e grupos de entradas e siga as instruções emCriar entradas personalizadas do Data Catalog para suas fontes de dados de dados.
A seguir
- Saiba mais sobre o gerenciamento de identidade e acesso.
- Saiba como pesquisar.
- Consulte o guia de início rápido Como incluir tags de tabela.