Data Catalog può importare e mantenere aggiornati i metadati da diverse origini dati Google Cloud, oltre a alcune on-premise.
Con i metadati importati, Data Catalog fa quanto segue:
- Rende i metadati esistenti rilevabili attraverso la ricerca. Per maggiori informazioni informazioni, vedi Come eseguire una ricerca.
- Consente ai membri della tua organizzazione di arricchire i tuoi dati con tramite tag. Per ulteriori informazioni, vedi Tag e modelli di tag.
Sebbene l'integrazione con le origini Google Cloud sia automatica, per integrare origini on-premise personalizzate utilizzate dalla tua organizzazione, puoi esegui una delle seguenti operazioni:
- Configura ed esegui i connettori corrispondenti forniti dalla community.
- Utilizza l'API Data Catalog per voci personalizzate.
Prima di iniziare
Se stai già utilizzando Data Catalog, devi già disporre con l'API Data Catalog abilitata. Per ulteriori informazioni consigliato di usare più progetti Data Catalog, consulta Utilizzo di modelli di tag in più progetti.
Se è la prima volta che interagisci con Data Catalog, segui questi passaggi:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Data Catalog API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Data Catalog API.
Integrare le origini dati di Google Cloud
Analytics Hub
Quando ti abboni a una scheda in Analytics Hub, un set di dati collegato viene creato nel progetto. Data Catalog genera automaticamente le voci di metadati per il set di dati collegato e per tutte le tabelle che contiene. Per ulteriori informazioni sui set di dati collegati e su altri funzionalità di Analytics Hub, consulta Introduzione ad Analytics Hub.
Nella ricerca di Data Catalog, i set di dati collegati vengono visualizzati come
set di dati BigQuery standard, ma puoi filtrarli utilizzando
il predicato type=dataset.linked
. Per ulteriori dettagli,
consulta Cercare asset di dati.
BigQuery e Pub/Sub
Se la tua organizzazione utilizza già BigQuery Pub/Sub, a seconda delle tue autorizzazioni, puoi cercare il token metadati da quelle origini. Se se non riesci a vedere le voci corrispondenti nei risultati di ricerca, cerca i ruoli che tu e gli utenti del tuo progetto potreste aver bisogno Identity and Access Management.
Bigtable
Quando archivi i dati in Bigtable, i metadati vengono sincronizzati automaticamente Data Catalog per i seguenti Bigtable di risorse:
- Istanze
- Tabelle, inclusi i dettagli famiglia di colonne
Per indicazioni sull'utilizzo di Data Catalog per il rilevamento e dei tag, consulta Gestire gli asset di dati utilizzando Data Catalog nel documentazione di Bigtable.
Cloud SQL
Cloud SQL non si integra con Data Catalog, si integrano con Dataplex Catalog. Per ulteriori informazioni, vedi Integra le origini dati con Dataplex Catalog.
Dataproc Metastore
Per l'integrazione con Dataproc Metastore, abilita la sincronizzazione per Data Catalog per servizi nuovi o esistenti, come descritto in Attivazione della sincronizzazione di Data Catalog
Protezione dei dati sensibili
Inoltre, Data Catalog si integra con Sensitive Data Protection che consente di eseguire la scansione di specifiche risorse Google Cloud alla ricerca di dati sensibili e inviare i risultati a Data Catalog sotto forma di tag.
Per ulteriori informazioni, vedi Invio dei risultati dell'analisi di Sensitive Data Protection a Data Catalog.
Spanner
Quando archivi i dati in Spanner, i metadati per il seguente Spanner le risorse sono sincronizzate con Data Catalog:
- Istanze
- Database
- Tabelle e viste con schema a colonne
Per indicazioni sull'utilizzo di Data Catalog per il rilevamento e dei tag, consulta Gestire gli asset di dati utilizzando Data Catalog.
Vertex AI
Vertex AI sincronizza i metadati per le seguenti risorse in Data Catalog:
- Modelli di registro dei modelli
- Set di dati
- Istanze di negozi online
- Visualizzazioni delle caratteristiche
- Gruppi di caratteristiche
Integra origini dati on-premise
Per integrare origini dati on-premise, puoi utilizzare il modello Connettori Python forniti dalla community:
- Individua l'origine dati nella tabella seguente.
- Apri il relativo repository GitHub.
- Segui le istruzioni di configurazione nel file readme.
Categoria | Componente | Descrizione | Repository |
---|---|---|---|
RDBMS | mysql-connector | Codice campione per l'origine dati MySQL. | google-datacatalog-mysql-connector |
postgresql-connector | Codice campione per l'origine dati PostgreSQL. | google-datacatalog-postgresql-connector | |
sqlserver-connector | Codice campione per l'origine dati SQLServer. | google-datacatalog-sqlserver-connector | |
redshift-connector | Codice campione per l'origine dati Redshift. | google-datacatalog-redshift-connector | |
oracle-connector | Codice campione per l'origine dati Oracle. | google-datacatalog-oracle-connector | |
teradata-connector | Codice campione per l'origine dati Teradata. | google-datacatalog-teradata-connector | |
connettore-vertica | Codice campione per l'origine dati Vertica. | google-datacatalog-vertica-connector | |
greenplum-connector | Codice campione per l'origine dati Greenplum. | google-datacatalog-greenplum-connector | |
rdbmscsv-connector | Codice campione per l'importazione generica di file CSV RDBMS. | google-datacatalog-rdbmscsv-connector | |
connettore-saphana | Codice campione per l'origine dati SAP HANA. | google-datacatalog-saphana-connector | |
BI | looker-connector | Codice campione per l'origine dati di Looker. | google-datacatalog-looker-connector |
qlik-connector | Codice campione per l'origine dati Qlik Sense. | google-datacatalog-qlik-connector | |
connettore-tableau | Codice campione per l'origine dati Tableau. | google-datacatalog-tableau-connector | |
Hive | connettore-hive | Codice campione per l'origine dati Hive. | google-datacatalog-hive-connector |
apache-atlas-connector | Codice campione per l'origine dati Apache Atlas. | google-datacatalog-apache-atlas-connector |
Integra origini dati non supportate
Se non riesci a trovare un connettore per l'origine dati, puoi comunque farlo manualmente integrarle creando gruppi di voci e voci personalizzate. Per farlo, puoi:
- Utilizza uno dei seguenti Librerie client di Data Catalog in uno dei seguenti linguaggi: C#, Go, Java, Node.js, PHP, Python o Ruby.
- Oppure, crea manualmente API Data Catalog.
Per integrare le fonti, innanzitutto scopri di più Voci e gruppi di voci, poi segui le istruzioni in Crea voci di Data Catalog personalizzate per le tue origini dati.
Passaggi successivi
- Scopri di più su Identity and Access Management.
- Scopri come eseguire ricerche.
- Consulta la guida rapida Tagging delle tabelle.