Integrar fontes de dados ao Data Catalog

O Data Catalog pode importar e manter metadados atualizados de várias fontes de dados do Google Cloud, além de diversas fontes locais conhecidas.

Com os metadados ingeridos, o Data Catalog faz o seguinte:

  • Facilita a descoberta dos metadados na pesquisa. Para mais informações, consulte Como pesquisar.
  • Permite que os membros da sua organização aprimorem seus dados com metadados comerciais adicionais por meio de tags. Para mais informações, consulte Tags e modelos de tag.

Embora a integração com as fontes do Google Cloud seja automática, para fazer a integração com fontes locais personalizadas que sua organização usa, é possível:

Antes de começar

Se você já estiver usando o Data Catalog, precisará ter um projeto com a API Data Catalog ativada. Para mais informações sobre a maneira recomendada de usar vários projetos com o Data Catalog, consulte Como usar modelos de tag em vários projetos.

Se esta for a primeira vez que você interage com o Data Catalog, faça o seguinte:

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  4. Ative a API Data Catalog.

    Ative a API

  5. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  6. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  7. Ative a API Data Catalog.

    Ative a API

Integrar as fontes de dados do Google Cloud

Analytics Hub

Quando você se inscreve em uma ficha do Analytics Hub, um conjunto de dados vinculado é criado no seu projeto. O Data Catalog gera automaticamente entradas de metadados para esse conjunto de dados vinculado e todas as tabelas contidas nele. Para mais informações sobre conjuntos de dados vinculados e outros recursos do Analytics Hub, consulte Introdução ao Analytics Hub.

Na pesquisa do Data Catalog, os conjuntos de dados vinculados são exibidos como conjuntos de dados padrão do BigQuery, mas é possível filtrá-los usando o predicado type=dataset.linked. Para mais detalhes, consulte Pesquisar recursos de dados.

BigQuery e Pub/Sub

Se sua organização já usa o BigQuery e o Pub/Sub, dependendo das suas permissões, é possível pesquisar os metadados dessas origens imediatamente. Se não for possível ver as entradas correspondentes nos resultados da pesquisa, procure os papéis do IAM que você e os usuários do seu projeto podem precisar no gerenciamento de identidade e acesso.

Proteção de dados sensíveis

Além disso, o Data Catalog se integra à proteção de dados sensíveis que permite verificar recursos específicos do Google Cloud em busca de dados confidenciais e enviar resultados de volta para o Data Catalog na forma de tags.

Para mais informações, consulte Como enviar resultados da verificação da Proteção de Dados Sensíveis ao Data Catalog.

Bigtable

Quando você armazena dados no Bigtable, os metadados são sincronizados automaticamente com o Data Catalog para os seguintes recursos do Bigtable:

  • Instâncias
  • Tabelas, incluindo detalhes do grupo de colunas

Para orientações sobre como usar o Data Catalog para descoberta e inclusão de dados, consulte Gerenciar recursos de dados usando o Data Catalog na documentação do Bigtable.

Spanner (pré-lançamento)

Quando você armazena dados no Spanner, os metadados dos seguintes recursos do Spanner são sincronizados com o Data Catalog:

  • Instâncias
  • Bancos de dados
  • Tabelas e visualizações com esquema de colunas

Para orientações sobre como usar o Data Catalog para descoberta e inclusão de tags, consulte Gerenciar recursos de dados usando o Data Catalog.

Dataproc Metastore

Para integrar ao metastore do Dataproc, ative a sincronização com o Data Catalog para serviços novos ou atuais, conforme descrito em Como ativar a sincronização do Data Catalog.

Vertex AI

A Vertex AI sincroniza os metadados dos seguintes recursos com o Data Catalog:

Integrar fontes de dados locais

Para integrar fontes de dados locais, é possível usar os conectores Python correspondentes enviados pela comunidade:

  1. Encontre sua fonte de dados na tabela abaixo.
  2. Abra o repositório do GitHub dele.
  3. Siga as instruções de configuração no arquivo readme.
Categoria Componente Descrição Repositório
RDBMS mysql-connector Exemplo de código para fonte de dados MySQL. google-datacatalog-mysql-connector
postgresql-connector Exemplo de código da fonte de dados do PostgreSQL. google-datacatalog-postgresql-connector
sqlserver-connector Código de amostra da fonte de dados do SQLServer. google-datacatalog-sqlserver-connector
redshift-connector Código de amostra da fonte de dados do Redshift. google-datacatalog-redshift-connector
oracle-connector Código de amostra para fonte de dados Oracle. google-datacatalog-oracle-connector
teradata-connector Código de amostra da fonte de dados do Teradata. google-datacatalog-teradata-connector
vertica-connector Exemplo de código para a fonte de dados Vertica. google-datacatalog-vertica-connector
greenplum-connector Código de amostra para a fonte de dados do Greenplum. google-datacatalog-greenplum-connector
rdbmscsv-connector Código de amostra para ingestão de CSV genérica RDBMS. google-datacatalog-rdbmscsv-connector
saphana-connector Código de amostra da fonte de dados Sap Hana. google-datacatalog-saphana-connector
BI looker-connector Exemplo de código para fonte de dados do Looker. google-datacatalog-looker-connector
qlik-connector Exemplo de código da fonte de dados do Qlik Sense. google-datacatalog-qlik-connector
tableau-connector Exemplo de código da fonte de dados do Tableau. google-datacatalog-tableau-connector
Hive hive-connector Exemplo de código para a fonte de dados do Hive. google-datacatalog-hive-connector
apache-atlas-connector Exemplo de código para fonte de dados do Apache Atlas. google-datacatalog-apache-atlas-connector

Integrar fontes de dados não compatíveis

Se você não encontrar um conector para sua fonte de dados, ainda poderá integrá-lo manualmente criando grupos de entrada e entradas personalizadas. Para fazer isso, você pode:

Para integrar suas fontes, primeiro saiba mais sobre Entradas e grupos de entradas e siga as instruções emCriar entradas personalizadas do Data Catalog para suas fontes de dados de dados.

A seguir