Integrar fontes de dados ao Data Catalog

O Data Catalog pode importar e manter metadados atualizados de várias fontes de dados do Google Cloud e de várias fontes locais conhecidas.

Com os metadados ingeridos, o Data Catalog faz o seguinte:

  • Facilita a descoberta dos metadados na pesquisa. Para mais informações, consulte Como pesquisar.
  • Permite que os membros da sua organização aprimorem seus dados com metadados comerciais adicionais por meio de tags. Para mais informações, consulte Tags e modelos de tag.

Embora a integração com as fontes do Google Cloud seja automática, para fazer a integração com fontes locais personalizadas que sua organização usa, é possível:

Antes de começar

Se você já estiver usando o Data Catalog, precisará ter um projeto com a API Data Catalog ativada. Para mais informações sobre a maneira recomendada de usar vários projetos com o Data Catalog, consulte Como usar modelos de tag em vários projetos.

Se esta for a primeira vez que você interage com o Data Catalog, faça o seguinte:

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  4. Ative a API Data Catalog.

    Ative a API

  5. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  6. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  7. Ative a API Data Catalog.

    Ative a API

Integrar as fontes de dados do Google Cloud

Analytics Hub

Quando você faz a inscrição em uma ficha no Analytics Hub, um conjunto de dados vinculado é criado no seu projeto. O Data Catalog gera automaticamente entradas de metadados para esse conjunto de dados vinculado e todas as tabelas contidas nele. Para mais informações sobre conjuntos de dados vinculados e outros recursos do Analytics Hub, consulte Introdução ao Analytics Hub.

Na pesquisa do Data Catalog, os conjuntos de dados vinculados são exibidos como conjuntos padrão do BigQuery, mas é possível filtrá-los usando o predicado type=dataset.linked. Para mais detalhes, consulte Pesquisar recursos de dados.

BigQuery e Pub/Sub

Se sua organização já usa o BigQuery e o Pub/Sub, dependendo das suas permissões, é possível pesquisar os metadados dessas origens imediatamente. Se não for possível ver as entradas correspondentes nos resultados da pesquisa, procure os papéis do IAM que você e os usuários do seu projeto podem precisar no gerenciamento de identidade e acesso.

Bigtable

Quando você armazena dados no Bigtable, os metadados são sincronizados automaticamente com o Data Catalog para os seguintes recursos do Bigtable:

  • Instâncias
  • Tabelas, incluindo detalhes do grupo de colunas

Para orientações sobre como usar o Data Catalog para descoberta e inclusão de tags de dados, consulte Gerenciar ativos de dados usando o Data Catalog na documentação do Bigtable.

Dataproc Metastore

Para integrar ao metastore do Dataproc, ative a sincronização com o Data Catalog para serviços novos ou atuais, conforme descrito em Como ativar a sincronização do Data Catalog.

Proteção de Dados Sensíveis

Além disso, o Data Catalog se integra à Proteção de Dados Sensíveis que permite verificar recursos específicos do Google Cloud em busca de dados confidenciais e enviar resultados de volta ao Data Catalog na forma de tags.

Para mais informações, consulte Como enviar resultados da verificação da Proteção de Dados Sensíveis para o Data Catalog.

Spanner (pré-lançamento)

Quando você armazena dados no Spanner, os metadados dos seguintes recursos do Spanner são sincronizados com o Data Catalog:

  • Instâncias
  • Bancos de dados
  • Tabelas e visualizações com esquema de colunas

Para orientações sobre como usar o Data Catalog para descoberta e inclusão de tags de dados, consulte Gerenciar recursos de dados usando o Data Catalog.

Vertex AI

A Vertex AI sincroniza os metadados dos seguintes recursos com o Data Catalog:

Integrar fontes de dados locais

Para integrar fontes de dados locais, é possível usar os conectores Python correspondentes enviados pela comunidade:

  1. Encontre sua fonte de dados na tabela abaixo.
  2. Abra o repositório do GitHub dele.
  3. Siga as instruções de configuração no arquivo readme.
Categoria Componente Descrição Repositório
RDBMS mysql-connector Exemplo de código para fonte de dados MySQL. google-datacatalog-mysql-connector
postgresql-connector Exemplo de código da fonte de dados do PostgreSQL. google-datacatalog-postgresql-connector
sqlserver-connector Código de amostra da fonte de dados do SQLServer. google-datacatalog-sqlserver-connector
redshift-connector Código de amostra da fonte de dados do Redshift. google-datacatalog-redshift-connector
oracle-connector Código de amostra para fonte de dados Oracle. google-datacatalog-oracle-connector
teradata-connector Código de amostra da fonte de dados do Teradata. google-datacatalog-teradata-connector
vertica-connector Exemplo de código para a fonte de dados Vertica. google-datacatalog-vertica-connector
greenplum-connector Código de amostra para a fonte de dados do Greenplum. google-datacatalog-greenplum-connector
rdbmscsv-connector Código de amostra para ingestão de CSV genérica RDBMS. google-datacatalog-rdbmscsv-connector
saphana-connector Código de amostra da fonte de dados Sap Hana. google-datacatalog-saphana-connector
BI looker-connector Exemplo de código para fonte de dados do Looker. google-datacatalog-looker-connector
qlik-connector Exemplo de código para a fonte de dados Qlik Sense. google-datacatalog-qlik-connector
tableau-connector Exemplo de código da fonte de dados do Tableau. google-datacatalog-tableau-connector
Hive hive-connector Exemplo de código para a fonte de dados do Hive. google-datacatalog-hive-connector
apache-atlas-connector Exemplo de código para fonte de dados do Apache Atlas. google-datacatalog-apache-atlas-connector

Integrar fontes de dados não compatíveis

Se você não encontrar um conector para sua fonte de dados, ainda poderá integrá-lo manualmente criando grupos de entrada e entradas personalizadas. Para fazer isso, você pode:

Para integrar suas fontes, primeiro saiba mais sobre Entradas e grupos de entradas e siga as instruções emCriar entradas personalizadas do Data Catalog para suas fontes de dados de dados.

A seguir