Integra le origini dati con Data Catalog

Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Data Catalog può importare e conservare i metadati aggiornati di diverse origini dati Google Cloud e di numerosi on-premise.

Una volta importati i metadati, Data Catalog svolge le seguenti operazioni:

  • Consente di individuare i metadati esistenti tramite la ricerca. Per saperne di più, consulta la pagina Come cercare.
  • Consente ai membri della tua organizzazione di arricchire i dati con metadati aziendali aggiuntivi tramite i tag. Per ulteriori informazioni, consulta la sezione Tag e modelli di tag.

Mentre l'integrazione con le origini Google Cloud è automatica, per l'integrazione con origini on-premise personalizzate utilizzate dalla tua organizzazione puoi:

Prima di iniziare

Se stai già utilizzando Data Catalog, devi già avere un progetto con l'API Data Catalog abilitata. Per ulteriori informazioni sul modo consigliato per utilizzare più progetti con Data Catalog, consulta la sezione Utilizzare i modelli di tag in più progetti.

Se è la prima volta che interagisci con Data Catalog, procedi nel seguente modo:

  1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. Nella pagina del selettore dei progetti in Google Cloud Console, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  3. Assicurati che la fatturazione sia attivata per il tuo progetto Cloud. Scopri come verificare se la fatturazione è abilitata su un progetto.

  4. Attiva l'API Data Catalog.

    Abilita l'API

  5. Nella pagina del selettore dei progetti in Google Cloud Console, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  6. Assicurati che la fatturazione sia attivata per il tuo progetto Cloud. Scopri come verificare se la fatturazione è abilitata su un progetto.

  7. Attiva l'API Data Catalog.

    Abilita l'API

Integra le origini dati Google Cloud

BigQuery e Pub/Sub

Se la tua organizzazione utilizza già BigQuery e Pub/Sub, a seconda delle tue autorizzazioni, puoi cercare subito i metadati da queste origini. Se non riesci a visualizzare le voci corrispondenti nei risultati di ricerca, cerca i ruoli IAM di cui tu e gli utenti del progetto potreste aver bisogno in Identity and Access Management.

Analytics Hub (anteprima)

Quando ti abboni a una scheda in Analytics Hub, nel progetto viene creato un set di dati collegato. Data Catalog genera automaticamente voci di metadati per il set di dati collegato e per tutte le tabelle che contiene. Per scoprire di più sui set di dati collegati e su altre funzionalità di Analytics Hub, consulta Introduzione ad Analytics Hub.

Nella ricerca di Data Catalog, i set di dati collegati vengono visualizzati come set di dati BigQuery standard, ma puoi filtrarli utilizzando il predicato type=dataset.linked. Per maggiori dettagli, vedi Cercare asset di dati.

Dataproc Metastore (anteprima)

Per l'integrazione con Dataproc Metastore, abilita la sincronizzazione con Data Catalog per i servizi nuovi o esistenti, come descritto nella sezione Abilitare la sincronizzazione di Data Catalog.

Prevenzione della perdita di dati cloud (Cloud DLP)

Inoltre, Data Catalog si integra con Cloud Data Loss Prevention, che consente di eseguire la scansione di risorse Google Cloud specifiche per dati sensibili e inviare i risultati a Data Catalog sotto forma di tag.

Per ulteriori informazioni, vedi Invio dei risultati della scansione di Cloud DLP a Data Catalog.

Integra le origini dati on-premise

Per integrare le origini dati on-premise, puoi utilizzare i connettori Python corrispondenti forniti dalla community:

  1. Individua l'origine dati nella tabella riportata di seguito.
  2. Apri il relativo repository GitHub.
  3. Segui le istruzioni di configurazione nel file readme.

Categoria Componente Descrizione Repository
RDBMS connettore mysql Codice di esempio per l'origine dati MySQL. google-datacatalog-mysql-connector
postgresql-connettore Codice di esempio per l'origine dati PostgreSQL. google-datacatalog-postgresql-connector
sqlserver-connettore Codice di esempio per l'origine dati SQLServer. google-datacatalog-sqlserver-connector
connettore-spostamentorosso Codice di esempio per l'origine dati Redshift. google-datacatalog-redshift-connector
connettore-Oracle Codice di esempio per l'origine dati Oracle. google-datacatalog-oracle-connector
connettore-teradata Codice di esempio per l'origine dati Teradata. google-datacatalog-teradata-connector
connettore-vertica Codice di esempio per l'origine dati Vertica. google-datacatalog-vertica-connector
connettore-prugna Codice di esempio per l'origine dati Greenplum. google-datacatalog-greenplum-connector
connettore-rdbmscsv Codice di esempio per l'importazione generica di file CSV RDBMS. google-datacatalog-rdbmscsv-connector
connettore saphana Codice di esempio per l'origine dati Sap Hana. google-datacatalog-saphana-connector
BI connettore Codice di esempio per l'origine dati Looker. google-datacatalog-looker-connector
connettore Qlik Codice di esempio per l'origine dati Qlik Sense. google-datacatalog-qlik-connector
connettore-auau Codice di esempio per l'origine dati Tableau. google-datacatalog-tableau-connector
Hive connettore hive Codice di esempio per l'origine dati Hive. google-datacatalog-hive-connector
connettore-apache-atlas Codice di esempio per l'origine dati Apache Atlas. google-datacatalog-apache-atlas-connector

Integrare le origini dati non supportate

Se non riesci a trovare un connettore per la tua origine dati, puoi comunque integrarlo manualmente creando gruppi di voci e voci personalizzate. A tale scopo, puoi:

Per integrare le origini, consulta innanzitutto la pagina Voci e gruppi di voci, quindi segui le istruzioni riportate nella sezione Creare voci di Data Catalog personalizzate per le origini dati.

Passaggi successivi