Integra le origini dati con Data Catalog

Data Catalog può importare e mantenere aggiornati i metadati da diverse origini dati Google Cloud e da alcune di quelle on-premise più utilizzate.

Con i metadati importati, Data Catalog fa quanto segue:

  • Rende i metadati esistenti rilevabili attraverso la ricerca. Per maggiori informazioni, vedi Come eseguire ricerche.
  • Consente ai membri della tua organizzazione di arricchire i tuoi dati con metadati aziendali aggiuntivi tramite tag. Per ulteriori informazioni, consulta la sezione Tag e modelli di tag.

Sebbene l'integrazione con le origini Google Cloud sia automatica, per l'integrazione con origini on-premise personalizzate utilizzate dalla tua organizzazione, puoi:

Prima di iniziare

Se stai già utilizzando Data Catalog, devi già disporre di un progetto con l'API Data Catalog abilitata. Per ulteriori informazioni sul modo consigliato per l'utilizzo di più progetti con Data Catalog, consulta Utilizzo di modelli di tag in più progetti.

Se è la prima volta che interagisci con Data Catalog:

  1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  4. Attiva l'API Data Catalog.

    Abilita l'API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  7. Attiva l'API Data Catalog.

    Abilita l'API

Integrare le origini dati di Google Cloud

Analytics Hub

Quando ti abboni a una scheda in Analytics Hub, nel progetto viene creato un set di dati collegato. Data Catalog genera automaticamente le voci di metadati per il set di dati collegato e per tutte le tabelle che contiene. Per ulteriori informazioni sui set di dati collegati e su altre funzionalità di Analytics Hub, consulta Introduzione ad Analytics Hub.

Nella ricerca di Data Catalog, i set di dati collegati vengono visualizzati come set di dati BigQuery standard, ma è possibile filtrarli utilizzando il predicato type=dataset.linked. Per maggiori dettagli, consulta Cercare asset di dati.

BigQuery e Pub/Sub

Se la tua organizzazione utilizza già BigQuery e Pub/Sub, a seconda delle tue autorizzazioni puoi cercare i metadati da queste origini immediatamente. Se non vedi le voci corrispondenti nei risultati di ricerca, cerca i ruoli IAM di cui tu e gli utenti del tuo progetto potreste avere bisogno in Identity and Access Management.

Bigtable

Quando archivi dati in Bigtable, i metadati vengono sincronizzati automaticamente con Data Catalog per le seguenti risorse Bigtable:

  • Istanze
  • Tabelle, inclusi i dettagli famiglia di colonne

Per indicazioni sull'utilizzo di Data Catalog per il rilevamento e il tagging dei dati, consulta Gestire gli asset di dati utilizzando Data Catalog nella documentazione di Bigtable.

Dataproc Metastore

Per l'integrazione con Dataproc Metastore, abilita la sincronizzazione con Data Catalog per servizi nuovi o esistenti, come descritto in Attivazione della sincronizzazione di Data Catalog.

Protezione dei dati sensibili

Inoltre, Data Catalog si integra con Sensitive Data Protection che ti consente di analizzare specifiche risorse Google Cloud per individuare dati sensibili e inviare i risultati a Data Catalog sotto forma di tag.

Per maggiori informazioni, consulta Invio dei risultati dell'analisi di Sensitive Data Protection a Data Catalog.

Spanner (anteprima)

Quando archivi i dati in Spanner, i metadati per le seguenti risorse Spanner vengono sincronizzati con Data Catalog:

  • Istanze
  • Database
  • Tabelle e viste con schema a colonne

Per indicazioni sull'utilizzo di Data Catalog per il rilevamento e il tagging dei dati, consulta Gestire gli asset di dati utilizzando Data Catalog.

Vertex AI

Vertex AI sincronizza i metadati per le seguenti risorse in Data Catalog:

Integra origini dati on-premise

Per integrare origini dati on-premise, puoi utilizzare i connettori Python corrispondenti forniti dalla community:

  1. Individua l'origine dati nella tabella seguente.
  2. Apri il relativo repository GitHub.
  3. Segui le istruzioni di configurazione nel file readme.
Categoria Componente Descrizione Repository
RDBMS mysql-connector Codice campione per l'origine dati MySQL. google-datacatalog-mysql-connector
postgresql-connector Codice campione per l'origine dati PostgreSQL. google-datacatalog-postgresql-connector
sqlserver-connector Codice campione per l'origine dati SQLServer. google-datacatalog-sqlserver-connector
redshift-connector Codice campione per l'origine dati Redshift. google-datacatalog-redshift-connector
connettore-oracle Codice campione per l'origine dati Oracle. google-datacatalog-oracle-connector
teradata-connector Codice campione per l'origine dati Teradata. google-datacatalog-teradata-connector
connettore-vertica Codice campione per l'origine dati Vertica. google-datacatalog-vertica-connector
connettore-greenplum Codice campione per l'origine dati Greenplum. google-datacatalog-greenplum-connector
connettore-rdbmscsv Codice campione per l'importazione generica di file CSV RDBMS. google-datacatalog-rdbmscsv-connector
connettore-saphana Codice campione per l'origine dati SAP HANA. google-datacatalog-saphana-connector
BI looker-connector Codice campione per l'origine dati di Looker. google-datacatalog-looker-connector
connettore-Qlik Codice campione per l'origine dati Qlik Sense. google-datacatalog-qlik-connector
connettore-tableau Codice campione per l'origine dati Tableau. google-datacatalog-tableau-connector
Hive hive-connector Codice campione per l'origine dati Hive. google-datacatalog-hive-connector
apache-atlas-connector Codice campione per l'origine dati Apache Atlas. google-datacatalog-apache-atlas-connector

Integrare origini dati non supportate

Se non riesci a trovare un connettore per l'origine dati, puoi comunque integrarlo manualmente creando gruppi di voci e voci personalizzate. Per farlo, puoi:

Per integrare le origini, scopri prima di tutto su Voci e gruppi di voci, poi segui le istruzioni riportate in Creare voci di Data Catalog personalizzate per le origini dati.

Passaggi successivi