Integrare le origini dati con Data Catalog

Data Catalog può importare e mantenere aggiornati i metadati di diverse origini dati Google Cloud, nonché di una serie di origini dati on-premise di uso comune.

Una volta importati i metadati, Data Catalog esegue le seguenti operazioni:

  • Rende rilevabili i metadati esistenti tramite la ricerca. Per ulteriori informazioni, consulta la sezione Come eseguire ricerche.
  • Consente ai membri della tua organizzazione di arricchire i dati con metadati aziendali aggiuntivi tramite i tag. Per saperne di più, consulta Tag e modelli di tag.

Sebbene l'integrazione con le origini Google Cloud sia automatica, per integrarti con le origini on-premise personalizzate utilizzate dalla tua organizzazione puoi scegliere una delle seguenti opzioni:

Prima di iniziare

Se utilizzi già Data Catalog, devi già avere un progetto con l'API Data Catalog abilitata. Per ulteriori informazioni sul metodo consigliato per utilizzare più progetti con Data Catalog, consulta Utilizzare i modelli di tag in più progetti.

Se è la prima volta che interagisci con Data Catalog, procedi nel seguente modo:

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Data Catalog API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Data Catalog API.

    Enable the API

Integrare le origini dati Google Cloud

Analytics Hub

Quando ti abboni a una scheda in Analytics Hub, nel tuo progetto viene creato un set di dati collegato. Data Catalog genera automaticamente voci di metadati per il set di dati collegato e per tutte le tabelle al suo interno. Per saperne di più sui set di dati collegati e su altre funzionalità di Analytics Hub, consulta Introduzione ad Analytics Hub.

Nella ricerca di Data Catalog, i set di dati collegati vengono visualizzati come set di dati BigQuery standard, ma puoi filtrarli utilizzando il predicato type=dataset.linked. Per ulteriori dettagli, consulta Cercare asset di dati.

BigQuery e Pub/Sub

Se la tua organizzazione utilizza già BigQuery e Pub/Sub, a seconda delle tue autorizzazioni, puoi cercare i metadati da queste origini immediatamente. Se non riesci a vedere le voci corrispondenti nei risultati di ricerca, cerca i ruoli IAM di cui tu e gli utenti del tuo progetto potreste aver bisogno in Identity and Access Management.

Bigtable

Quando archivi i dati in Bigtable, i metadati vengono sincronizzati automaticamente con Data Catalog per le seguenti risorse Bigtable:

  • Istanze
  • Tabelle, inclusi i dettagli della famiglia di colonne

Per indicazioni sull'utilizzo di Data Catalog per il tagging e il rilevamento dei dati, consulta Gestire gli asset di dati utilizzando Data Catalog nella documentazione di Bigtable.

Cloud SQL

Cloud SQL non si integra con Data Catalog, ma si integra con Dataplex Catalog. Per saperne di più, consulta Integrare le origini dati con Dataplex Catalog.

Dataproc Metastore

Per l'integrazione con Dataproc Metastore, attiva la sincronizzazione con Data Catalog per i servizi nuovi o esistenti come descritto in Attivare la sincronizzazione di Data Catalog.

Sensitive Data Protection

Inoltre, Data Catalog si integra con Sensitive Data Protection, che consente di eseguire la scansione di risorse Google Cloud specifiche per rilevare i dati sensibili e inviare i risultati a Data Catalog sotto forma di tag.

Per ulteriori informazioni, consulta la sezione Invio dei risultati della scansione di Sensitive Data Protection al Catalogo dati.

Spanner

Quando archivi i dati in Spanner, i metadati per le seguenti risorse Spanner vengono sincronizzati con Data Catalog:

  • Istanze
  • Database
  • Tabelle e viste con schema delle colonne

Per indicazioni sull'utilizzo di Data Catalog per il tagging e l'individuazione dei dati, consulta Gestire gli asset di dati utilizzando Data Catalog.

Vertex AI

Vertex AI sincronizza i metadati delle seguenti risorse con Data Catalog:

Integrare le origini dati on-premise

Per integrare le origini dati on-premise, puoi utilizzare i connettori Python corrispondenti forniti dalla community:

  1. Individua l'origine dati nella tabella seguente.
  2. Apri il relativo repository GitHub.
  3. Segui le istruzioni di configurazione nel file readme.
Categoria Componente Descrizione Repository
RDBMS mysql-connector Codice di esempio per l'origine dati MySQL. google-datacatalog-mysql-connector
postgresql-connector Codice di esempio per l'origine dati PostgreSQL. google-datacatalog-postgresql-connector
sqlserver-connector Codice di esempio per l'origine dati SQL Server. google-datacatalog-sqlserver-connector
redshift-connector Codice di esempio per l'origine dati Redshift. google-datacatalog-redshift-connector
oracle-connector Codice di esempio per l'origine dati Oracle. google-datacatalog-oracle-connector
teradata-connector Codice di esempio per l'origine dati Teradata. google-datacatalog-teradata-connector
vertica-connector Codice di esempio per l'origine dati Vertica. google-datacatalog-vertica-connector
greenplum-connector Codice di esempio per l'origine dati Greenplum. google-datacatalog-greenplum-connector
rdbmscsv-connector Codice di esempio per l'importazione di file CSV RDBMS generici. google-datacatalog-rdbmscsv-connector
saphana-connector Codice di esempio per l'origine dati SAP Hana. google-datacatalog-saphana-connector
BI looker-connector Codice di esempio per l'origine dati di Looker. google-datacatalog-looker-connector
qlik-connector Codice di esempio per l'origine dati Qlik Sense. google-datacatalog-qlik-connector
tableau-connector Codice di esempio per l'origine dati Tableau. google-datacatalog-tableau-connector
Hive hive-connector Codice campione per l'origine dati Hive. google-datacatalog-hive-connector
apache-atlas-connector Codice di esempio per l'origine dati Apache Atlas. google-datacatalog-apache-atlas-connector

Integrare origini dati non supportate

Se non riesci a trovare un connettore per la tua origine dati, puoi comunque integrarla manualmente creando gruppi di voci e voci personalizzate. Per farlo, puoi:

Per integrare le origini, innanzitutto scopri di più su Voci e gruppi di voci, poi segui le istruzioni riportate in Creare voci di Data Catalog personalizzate per le origini dati.

Passaggi successivi