Integrar suas fontes de dados ao Data Catalog

O Data Catalog pode ingerir e manter metadados atualizados de várias fontes de dados do Google Cloud, bem como várias fontes locais conhecidas.

Com os metadados ingeridos, o Data Catalog faz o seguinte:

  • Facilita a descoberta dos metadados na pesquisa. Para mais informações, consulte Como pesquisar.
  • Permite que os membros da sua organização aprimorem seus dados com metadados comerciais adicionais por meio de tags. Para mais informações, consulte Tags e modelos de tag.

Embora a integração com as fontes do Google Cloud seja automática, para fazer a integração com fontes locais personalizadas que sua organização usa, é possível:

Antes de começar

Se você já estiver usando o Data Catalog, precisará ter um projeto com a API Data Catalog ativada. Para mais informações sobre a maneira recomendada de usar vários projetos com o Data Catalog, consulte Como usar modelos de tag em vários projetos.

Se esta for a primeira vez que você interage com o Data Catalog, faça o seguinte:

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No Console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como confirmar se o faturamento está ativado para o projeto.

  4. Ative a API Data Catalog.

    Ative a API

Integrar as fontes de dados do Google Cloud

BigQuery e Pub/Sub

Se sua organização já usa o BigQuery e o Pub/Sub, dependendo das suas permissões, é possível pesquisar os metadados dessas origens imediatamente. Se não for possível ver as entradas correspondentes nos resultados da pesquisa, procure os papéis do IAM que você e os usuários do seu projeto podem precisar no gerenciamento de identidade e acesso.

Metastore do Dataproc (visualização)

Para fazer a integração com o metastore do Dataproc, ative a sincronização com o Data Catalog para serviços novos ou atuais, conforme descrito em Como ativar a sincronização do Data Catalog.

Cloud Data Loss Prevention (Cloud DLP)

Além disso, o Data Catalog se integra ao Cloud Data Loss Prevention, o que permite verificar recursos confidenciais do Google Cloud em busca de dados confidenciais e enviar resultados ao Data Catalog na forma de tags.

Para mais informações, consulte Como enviar resultados de verificação do Cloud DLP para o Data Catalog.

Integrar fontes de dados locais

Para integrar fontes de dados locais, é possível usar os conectores Python correspondentes fornecidos pela comunidade:

  1. Encontre sua fonte de dados na tabela abaixo.
  2. Abra o repositório do GitHub dele.
  3. Siga as instruções de configuração no arquivo readme.

Categoria Componente Descrição Repositório
RDBMS mysql-conector Exemplo de código para fonte de dados MySQL. google-datacatalog-mysql-connector (em inglês)
postgresql-conector Exemplo de código da fonte de dados do PostgreSQL. google-datacatalog-postgresql-connector (em inglês)
sqlserver-connector Código de amostra da fonte de dados do SQLServer. google-datacatalog-sqlserver-connector (em inglês)
conector redshift Código de amostra da fonte de dados do Redshift. google-datacatalog-redshift-connector
conector oracle Código de amostra para fonte de dados Oracle. google-datacatalog-oracle-connector (em inglês)
teradata-connector Código de amostra da fonte de dados do Teradata. google-datacatalog-teradata-connector (em inglês)
conector vertica Exemplo de código para a fonte de dados Vertica. google-datacatalog-vertica-connector (em inglês)
conector greenplum Código de amostra para a fonte de dados do Greenplum. google-datacatalog-greenplum-connector (em inglês)
rdbmscsv-conector Código de amostra para ingestão de CSV genérica RDBMS. google-datacatalog-rdbmscsv-connector (em inglês)
conector saphana Código de amostra da fonte de dados Sap Hana. google-datacatalog-saphana-connector (em inglês)
BI conector do Looker Exemplo de código para fonte de dados do Looker. google-datacatalog-looker-connector (em inglês)
qlik-connector Amostra de código para a fonte de dados do Qlik Sense. google-datacatalog-qlik-connector (em inglês)
conector de tabela Exemplo de código da fonte de dados do Tableau. google-datacatalog-tableau-connector (em inglês)
Hive conector do Hive Exemplo de código para a fonte de dados do Hive. google-datacatalog-hive-connector (em inglês)
apache-atlas-connector Exemplo de código para fonte de dados do Apache Atlas. google-datacatalog-apache-atlas-connector (em inglês)

Integrar fontes de dados não compatíveis

Se você não encontrar um conector para sua fonte de dados, ainda poderá integrá-lo manualmente criando grupos de entrada e entradas personalizadas. Para fazer isso, você pode:

Para integrar suas fontes, primeiro saiba mais sobre Entradas e grupos de entradas e siga as instruções emCriar entradas personalizadas do Data Catalog para suas fontes de dados de dados.

A seguir