Integrar fontes de dados ao Data Catalog

O Data Catalog pode importar e manter metadados atualizados de várias fontes de dados do Google Cloud, bem como várias fontes locais conhecidas.

Com os metadados ingeridos, o Data Catalog faz o seguinte:

  • Facilita a descoberta dos metadados na pesquisa. Para mais informações, consulte Como pesquisar.
  • Permite que os membros da sua organização aprimorem seus dados com metadados comerciais adicionais por meio de tags. Para mais informações, consulte Tags e modelos de tag.

Embora a integração com as fontes do Google Cloud seja automática, para fazer a integração com fontes locais personalizadas que sua organização usa, é possível fazer o seguinte:

Antes de começar

Se você já estiver usando o Data Catalog, precisará ter um projeto com a API Data Catalog ativada. Para mais informações sobre a maneira recomendada de usar vários projetos com o Data Catalog, consulte Como usar modelos de tag em vários projetos.

Se esta for a primeira vez que você interage com o Data Catalog, faça o seguinte:

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Data Catalog API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Data Catalog API.

    Enable the API

Integrar as fontes de dados do Google Cloud

Analytics Hub

Quando você se inscreve em uma listagem no Analytics Hub, um conjunto de dados vinculado é criado no seu projeto. O Data Catalog gera automaticamente entradas de metadados para esse conjunto de dados vinculado e todas as tabelas contidas nele. Para mais informações sobre conjuntos de dados vinculados e outros recursos do Analytics Hub, consulte Introdução ao Analytics Hub.

Na pesquisa do Data Catalog, os conjuntos de dados vinculados são mostrados como conjuntos de dados padrão do BigQuery, mas você pode filtrá-los usando o predicado type=dataset.linked. Para mais detalhes, consulte Pesquisar recursos de dados.

BigQuery e Pub/Sub

Se sua organização já usa o BigQuery e o Pub/Sub, dependendo das suas permissões, é possível pesquisar os metadados dessas origens imediatamente. Se não for possível ver as entradas correspondentes nos resultados da pesquisa, procure os papéis do IAM que você e os usuários do seu projeto podem precisar no gerenciamento de identidade e acesso.

Bigtable

Quando você armazena dados no Bigtable, os metadados são sincronizados automaticamente com o Data Catalog para os seguintes recursos do Bigtable:

  • Instâncias
  • Tabelas, incluindo detalhes do grupo de colunas

Para orientações sobre como usar o Data Catalog para descoberta e inclusão de tags em dados, consulte Gerenciar recursos de dados usando o Data Catalog na documentação do Bigtable.

Cloud SQL

O Cloud SQL não se integra ao Data Catalog, mas se integra ao Dataplex Catalog. Para mais informações, consulte Integrar suas fontes de dados com o Dataplex Catalog.

Dataproc Metastore

Para integrar ao metastore do Dataproc, ative a sincronização com o Data Catalog para serviços novos ou atuais, conforme descrito em Como ativar a sincronização do Data Catalog.

Proteção de dados sensíveis

Além disso, o Data Catalog se integra à proteção de dados sensíveis, que permite verificar recursos específicos do Google Cloud em busca de dados sensíveis e enviar resultados ao Data Catalog na forma de tags.

Para mais informações, consulte Como enviar resultados de verificação da Proteção de dados sensíveis para o Data Catalog.

Spanner

Quando você armazena dados no Spanner, os metadados dos seguintes recursos do Spanner são sincronizados com o Data Catalog:

  • Instâncias
  • Bancos de dados
  • Tabelas e visualizações com esquema de coluna

Para orientações sobre como usar o Data Catalog para descoberta e inclusão de tags em dados, consulte Gerenciar recursos de dados usando o Data Catalog.

Vertex AI

A Vertex AI sincroniza os metadados dos seguintes recursos com o Data Catalog:

Integrar fontes de dados locais

Para integrar fontes de dados locais, é possível usar os conectores Python correspondentes enviados pela comunidade:

  1. Encontre sua fonte de dados na tabela a seguir.
  2. Abra o repositório do GitHub dele.
  3. Siga as instruções de configuração no arquivo readme.
Categoria Componente Descrição Repositório
RDBMS mysql-connector Exemplo de código para fonte de dados MySQL. google-datacatalog-mysql-connector
postgresql-connector Exemplo de código da fonte de dados do PostgreSQL. google-datacatalog-postgresql-connector
sqlserver-connector Código de amostra da fonte de dados do SQLServer. google-datacatalog-sqlserver-connector
redshift-connector Código de amostra da fonte de dados do Redshift. google-datacatalog-redshift-connector
oracle-connector Código de amostra para fonte de dados Oracle. google-datacatalog-oracle-connector
teradata-connector Código de amostra da fonte de dados do Teradata. google-datacatalog-teradata-connector
vertica-connector Exemplo de código para a fonte de dados Vertica. google-datacatalog-vertica-connector
greenplum-connector Código de amostra para a fonte de dados do Greenplum. google-datacatalog-greenplum-connector
rdbmscsv-connector Código de amostra para ingestão de CSV genérica RDBMS. google-datacatalog-rdbmscsv-connector
saphana-connector Código de amostra da fonte de dados Sap Hana. google-datacatalog-saphana-connector
BI looker-connector Exemplo de código para fonte de dados do Looker. google-datacatalog-looker-connector
qlik-connector Exemplo de código para a fonte de dados do Qlik Sense. google-datacatalog-qlik-connector
tableau-connector Exemplo de código da fonte de dados do Tableau. google-datacatalog-tableau-connector
Hive hive-connector Exemplo de código para a fonte de dados do Hive. google-datacatalog-hive-connector
apache-atlas-connector Exemplo de código para fonte de dados do Apache Atlas. google-datacatalog-apache-atlas-connector

Integrar fontes de dados não compatíveis

Se você não encontrar um conector para sua fonte de dados, ainda poderá integrá-lo manualmente criando grupos de entrada e entradas personalizadas. Para fazer isso, você pode:

Para integrar suas fontes, primeiro saiba mais sobre Entradas e grupos de entradas e siga as instruções emCriar entradas personalizadas do Data Catalog para suas fontes de dados de dados.

A seguir