Integrar fontes de dados ao Data Catalog

Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

O Data Catalog pode ingerir e manter metadados atualizados de várias fontes de dados do Google Cloud, bem como várias fontes locais conhecidas.

Com os metadados ingeridos, o Data Catalog faz o seguinte:

  • Facilita a descoberta dos metadados na pesquisa. Para mais informações, consulte Como pesquisar.
  • Permite que os membros da sua organização aprimorem seus dados com metadados comerciais adicionais por meio de tags. Para mais informações, consulte Tags e modelos de tag.

Embora a integração com as fontes do Google Cloud seja automática, para fazer a integração com fontes locais personalizadas que sua organização usa, é possível:

Antes de começar

Se você já estiver usando o Data Catalog, precisará ter um projeto com a API Data Catalog ativada. Para mais informações sobre a maneira recomendada de usar vários projetos com o Data Catalog, consulte Como usar modelos de tag em vários projetos.

Se esta for a primeira vez que você interage com o Data Catalog, faça o seguinte:

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como verificar se o faturamento está ativado em um projeto.

  4. Ative a API Data Catalog.

    Ative a API

  5. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  6. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como verificar se o faturamento está ativado em um projeto.

  7. Ative a API Data Catalog.

    Ative a API

Integrar as fontes de dados do Google Cloud

BigQuery e Pub/Sub

Se sua organização já usa o BigQuery e o Pub/Sub, dependendo das suas permissões, é possível pesquisar os metadados dessas origens imediatamente. Se não for possível ver as entradas correspondentes nos resultados da pesquisa, procure os papéis do IAM que você e os usuários do seu projeto podem precisar no gerenciamento de identidade e acesso.

Analytics Hub (pré-lançamento)

Quando você se inscreve em uma ficha da empresa no Analytics Hub, um conjunto de dados vinculado é criado no seu projeto. O Data Catalog gera automaticamente entradas de metadados para esse conjunto de dados vinculado e todas as tabelas contidas nele. Para mais informações sobre conjuntos de dados vinculados e outros recursos do Analytics Hub, consulte Introdução ao Analytics Hub.

Na pesquisa do Data Catalog, os conjuntos de dados vinculados são exibidos como conjuntos de dados padrão do BigQuery. No entanto, é possível filtrá-los usando o predicado type=dataset.linked. Para mais detalhes, consulte Pesquisar recursos de dados.

Metastore do Dataproc (Pré-lançamento)

Para integrar ao metastore do Dataproc, ative a sincronização com o Data Catalog para serviços novos ou atuais, conforme descrito em Como ativar a sincronização do Data Catalog.

Cloud Data Loss Prevention (Cloud DLP)

Além disso, o Data Catalog se integra ao Cloud Data Loss Prevention, o que permite verificar recursos confidenciais do Google Cloud em busca de dados confidenciais e enviar resultados ao Data Catalog na forma de tags.

Para mais informações, consulte Como enviar resultados de verificação do Cloud DLP para o Data Catalog.

Integrar fontes de dados locais

Para integrar fontes de dados locais, é possível usar os conectores Python correspondentes enviados pela comunidade:

  1. Encontre sua fonte de dados na tabela abaixo.
  2. Abra o repositório do GitHub dele.
  3. Siga as instruções de configuração no arquivo readme.

Categoria Componente Descrição Repositório
RDBMS mysql-connector Exemplo de código para fonte de dados MySQL. google-datacatalog-mysql-connector
postgresql-connector Exemplo de código da fonte de dados do PostgreSQL. google-datacatalog-postgresql-connector
sqlserver-connector Código de amostra da fonte de dados do SQLServer. google-datacatalog-sqlserver-connector
redshift-connector Código de amostra da fonte de dados do Redshift. google-datacatalog-redshift-connector
oracle-connector Código de amostra para fonte de dados Oracle. google-datacatalog-oracle-connector
teradata-connector Código de amostra da fonte de dados do Teradata. google-datacatalog-teradata-connector
vertica-connector Exemplo de código para a fonte de dados Vertica. google-datacatalog-vertica-connector
greenplum-connector Código de amostra para a fonte de dados do Greenplum. google-datacatalog-greenplum-connector
rdbmscsv-connector Código de amostra para ingestão de CSV genérica RDBMS. google-datacatalog-rdbmscsv-connector
saphana-connector Código de amostra da fonte de dados Sap Hana. google-datacatalog-saphana-connector
BI looker-connector Exemplo de código para fonte de dados do Looker. google-datacatalog-looker-connector
qlik-connector Exemplo de código para a fonte de dados do Qlik Sense. google-datacatalog-qlik-connector
tableau-connector Exemplo de código da fonte de dados do Tableau. google-datacatalog-tableau-connector
Hive hive-connector Exemplo de código para a fonte de dados do Hive. google-datacatalog-hive-connector
apache-atlas-connector Exemplo de código para fonte de dados do Apache Atlas. google-datacatalog-apache-atlas-connector

Integrar fontes de dados não compatíveis

Se você não encontrar um conector para sua fonte de dados, ainda poderá integrá-lo manualmente criando grupos de entrada e entradas personalizadas. Para fazer isso, você pode:

Para integrar suas fontes, primeiro saiba mais sobre Entradas e grupos de entradas e siga as instruções emCriar entradas personalizadas do Data Catalog para suas fontes de dados de dados.

A seguir