Data Catalog può importare e mantenere aggiornati i metadati da diverse origini dati Google Cloud e da una serie di origini dati on-premise più diffuse.
Quando vengono importati i metadati, Data Catalog effettua le seguenti operazioni:
- Rende i metadati esistenti rilevabili tramite la ricerca. Per ulteriori informazioni, consulta la sezione Come eseguire ricerche.
- Consente ai membri della tua organizzazione di arricchire i tuoi dati con ulteriori metadati aziendali tramite i tag. Per ulteriori informazioni, consulta Tag e modelli di tag.
Sebbene l'integrazione con le origini Google Cloud sia automatica, per l'integrazione con le origini on-premise personalizzate utilizzate dalla tua organizzazione, puoi:
- Configura ed esegui i connectors corrispondenti contribuiti dalla community.
- In alternativa, utilizza l'API Data Catalog per voci personalizzate.
Prima di iniziare
Se utilizzi già Data Catalog, devi avere già un progetto con l'API Data Catalog abilitata. Per ulteriori informazioni sul modo consigliato per utilizzare più progetti con Data Catalog, consulta Utilizzo di modelli di tag in più progetti.
Se è la prima volta che interagisci con Data Catalog, segui questi passaggi:
- Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
-
Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Attiva l'API Data Catalog.
-
Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Attiva l'API Data Catalog.
Integra le origini dati Google Cloud
Analytics Hub
Quando ti abboni a una scheda in Analytics Hub, nel tuo progetto viene creato un set di dati collegato. Data Catalog genera automaticamente voci di metadati per il set di dati collegato e per tutte le tabelle contenute al suo interno. Per ulteriori informazioni sui set di dati collegati e su altre funzionalità di Analytics Hub, consulta Introduzione ad Analytics Hub.
Nella ricerca di Data Catalog, i set di dati collegati vengono visualizzati come set di dati BigQuery standard, ma puoi filtrarli utilizzando il predicato type=dataset.linked
. Per ulteriori dettagli, consulta Cercare asset di dati.
BigQuery e Pub/Sub
Se la tua organizzazione utilizza già BigQuery e Pub/Sub, a seconda delle autorizzazioni puoi cercare i metadati da queste origini immediatamente. Se non riesci a visualizzare le voci corrispondenti nei risultati di ricerca, cerca i ruoli IAM di cui tu e gli utenti del progetto potreste avere bisogno in Identity and Access Management.
Sensitive Data Protection
Inoltre, Data Catalog si integra con Sensitive Data Protection, che ti consente di analizzare risorse Google Cloud specifiche alla ricerca di dati sensibili e inviare i risultati a Data Catalog sotto forma di tag.
Per maggiori informazioni, consulta Inviare i risultati dell'analisi di Sensitive Data Protection a Data Catalog.
Bigtable
Quando archivi i dati in Bigtable, i metadati vengono automaticamente sincronizzati con Data Catalog per le seguenti risorse Bigtable:
- Istanze
- Tabelle, inclusi i dettagli famiglia di colonne
Per indicazioni sull'utilizzo di Data Catalog per il rilevamento e il tagging dei dati, consulta Gestire gli asset di dati utilizzando Data Catalog nella documentazione di Bigtable.
Spanner (anteprima)
Quando archivi i dati in Spanner, i metadati per le seguenti risorse Spanner vengono sincronizzati con Data Catalog:
- Istanze
- Database
- Tabelle e visualizzazioni con schema a colonne
Per indicazioni sull'utilizzo di Data Catalog per il rilevamento e il tagging dei dati, consulta Gestire gli asset di dati utilizzando Data Catalog.
Dataproc Metastore
Per l'integrazione con Dataproc Metastore, abilita la sincronizzazione con Data Catalog per servizi nuovi o esistenti come descritto in Abilitazione della sincronizzazione di Data Catalog.
Vertex AI
Vertex AI sincronizza i metadati per le seguenti risorse in Data Catalog:
Integra le origini dati on-premise
Per integrare le origini dati on-premise, puoi utilizzare i connettori Python corrispondenti forniti dalla community:
- Individua l'origine dati nella tabella riportata di seguito.
- Apri il repository GitHub.
- Segui le istruzioni di configurazione nel file Leggimi.
Categoria | Componente | Descrizione | Repository |
---|---|---|---|
RDBMS | mysql-connector | Codice di esempio per l'origine dati MySQL. | google-datacatalog-mysql-connector |
postgresql-connector | Codice di esempio per l'origine dati PostgreSQL. | google-datacatalog-postgresql-connector | |
sqlserver-connector | Codice campione per l'origine dati SQLServer. | google-datacatalog-sqlserver-connector | |
redshift-connector | Codice di esempio per l'origine dati Redshift. | google-datacatalog-redshift-connector | |
connettore Oracle | Codice di esempio per l'origine dati Oracle. | google-datacatalog-oracle-connector | |
teradata-connector | Codice campione per l'origine dati Teradata. | google-datacatalog-teradata-connector | |
connettore-vertica | Codice campione per l'origine dati Vertica. | google-datacatalog-vertica-connector | |
Greenplum Connector | Codice campione per l'origine dati Greenplum. | google-datacatalog-greenplum-connector | |
connettore-csv rdbms | Codice campione per l'importazione di file CSV RDBMS generica. | google-datacatalog-rdbmscsv-connector | |
connettore-saphana | Codice campione per l'origine dati Sap Hana. | google-datacatalog-saphana-connector | |
BI | looker-connector | Codice di esempio per l'origine dati di Looker. | google-datacatalog-looker-connector |
connettore-qlik | Codice campione per origine dati Qlik Sense. | google-datacatalog-qlik-connector | |
connettore-tableau | Codice campione per l'origine dati Tableau. | google-datacatalog-tableau-connector | |
Hive | hive-connector | Codice di esempio per l'origine dati Hive. | google-datacatalog-hive-connector |
apache-atlas-connector | Codice campione per l'origine dati Apache Atlas. | google-datacatalog-apache-atlas-connector |
Integra origini dati non supportate
Se non riesci a trovare un connettore per l'origine dati, puoi comunque integrarlo manualmente creando gruppi di voci e voci personalizzate. A questo scopo, puoi:
- Utilizza una delle librerie client di Data Catalog in uno dei seguenti linguaggi: C#, Go, Java, Node.js, PHP, Python o Ruby.
- In alternativa, crea manualmente l'API Data Catalog.
Per integrare le origini, consulta prima le informazioni su Voci e gruppi di voci, poi segui le istruzioni in Creare voci di Data Catalog personalizzate per le tue origini dati.
Passaggi successivi
- Scopri di più su Identity and Access Management.
- Scopri come eseguire ricerche.
- Consulta la guida rapida sulla codifica delle tabelle.