Metadati Dataplex

Questa guida descrive i metadati Dataplex e come puoi e usare le API Dataplex per gestirlo.

Panoramica

Dataplex esegue la scansione di quanto segue:

  • Asset di dati strutturati e semistrutturati all'interno di data lake, per estrarre i metadati delle tabelle in entità di tabella
  • Dati non strutturati, come immagini e testi, per estrarre i metadati del set di file in entità del set di file

Puoi utilizzare l'API Dataplex Metadata per eseguire una delle seguenti operazioni:

  • Visualizza, modifica ed elimina i metadati delle entità di tabelle e set di file
  • Creare i propri metadati di entità per tabelle o set di file

Puoi anche analizzare i metadati Dataplex tramite uno dei seguenti metodi:

  • Data Catalog per la ricerca e il tagging
  • Dataproc Metastore e BigQuery per tabelle elaborazione analitica e di query sui metadati

API Dataplex

Questa sezione riassume le API Dataplex e le risorse chiave associate.

API Control plane

L'API del piano di controllo Dataplex consente di creare e gestire la gestione delle risorse di lake, zone e asset.

  • Lago: Un'istanza di servizio Dataplex che consente di gestire le risorse di archiviazione dei progetti all'interno di un'organizzazione.

  • Zona: Un raggruppamento logico di asset all'interno di un lake. Usa più zone all'interno di un lake per organizzare i dati in base all'idoneità, al carico di lavoro o alla struttura organizzativa.

  • Asset: Risorse di archiviazione, con dati archiviati in bucket Cloud Storage Set di dati BigQuery collegati a una zona all'interno di un lake.

API Metadata

Usa l'API Dataplex Metadata per creare e gestire i metadati all'interno entità e partizioni di tabelle e set di file. Dataplex analizza i dati asset, in un lake o forniti da te, per creare entità e partizioni. Le entità e le partizioni mantengono i riferimenti e posizioni di archiviazione fisica.

Concetti fondamentali

Entità tabella:

Metadati per dati strutturati con schemi ben definiti. Le entità tabella sono identificati in modo univoco dall'ID entità e dalla località dei dati. I metadati dell'entità della tabella sono interrogabile in BigQuery e Dataproc Metastore:

  • Oggetti Cloud Storage: metadati per oggetti Cloud Storage, a cui si accede tramite le API Cloud Storage.
  • Tabelle BigQuery: metadati per le tabelle BigQuery, a cui si accede tramite le API BigQuery.
Entità set di file:

Metadati sui dati non strutturati, generalmente senza schema. I set di file sono identificati in modo univoco dall'ID entità e dalla posizione dei dati. Ogni set di file ha un formato dei dati.

Partizioni:

Metadati identificati per un sottoinsieme di dati all'interno di un'entità tabella o set di file da un insieme di coppie chiave-valore e una posizione dei dati.

Prova l'API

usa Dataplex lakes.zones.entities e lakes.zones.partitions Pagine della documentazione di riferimento delle API per visualizzare i parametri e i campi associati con ciascuna API. Utilizza il riquadro Prova questa API associato alla documentazione di riferimento. per ogni metodo API per effettuare richieste API utilizzando parametri e campi diversi. Puoi creare, visualizzare e inviare le tue richieste senza dover generare le credenziali e visualizzare le risposte restituite dal servizio.

Le sezioni seguenti forniscono informazioni per aiutarti a comprendere e usano le API Dataplex Metadata.

Entità

Elenco entità

Per limitare l'elenco di entità restituite dal servizio, aggiungi filtro parametri di ricerca all'URL della richiesta list entities.

Recupera entità

Per impostazione predefinita, la risposta Get Entity contiene i metadati di base delle entità. Per recuperare altri metadati dello schema, aggiungi il metodo visualizza all'URL della richiesta.

Dettagli sulla compatibilità: mentre i metadati Dataplex è registrato a livello centrale nell'API dei metadati, solo i metadati della tabella delle entità che compatibile con BigQuery e Apache Hive Metastore. in BigQuery e Dataproc Metastore. L'API Get Entity restituisce un CompatibilityStatus, che indica se i metadati della tabella sono compatibili con BigQuery e Hive Metastore, e, in caso contrario, il motivo dell'incompatibilità.

Aggiorna entità

Utilizza questa API per modificare i metadati delle entità, ad esempio se tu o Dataplex gestirà i metadati delle entità.

  • Questa API esegue una sostituzione completa di tutti gli elementi modificabili Campi Entità. I seguenti campi Entity sono immutabili e, se li specifichi in un aggiornamento richiesta, verranno ignorate:
  • Specifica un valore per tutti i campi Entità modificabili, compresi tutti schema, anche se i valori non vengono modificati.
  • Fornisci il campo etag. Puoi ottenere l'etag inviando prima un entities.get, che restituisce etag dell'entità nella risposta.
  • Aggiornamento dei campi dello schema: puoi aggiornare lo schema della tabella rilevato dal Dataplex per migliorarne l'accuratezza:
    • Se lo schema è un set di file, lascia tutti campi dello schema vuoti.
    • Per definire un campo ripetuto, imposta il valore modalità a REPEATED. Per definire un campo struct, imposta il parametro tipo a RECORD.
    • Puoi impostare userManaged campo dello schema per specificare se tu o Dataplex gestisce i metadati della tabella. L'impostazione predefinita è Dataplex gestito. Se il criterio userManaged viene impostato su true, questa impostazione è incluse nelle informazioni restituite da un entities.get richiedi se EntityView è impostato su SCHEMA o FULL.
  • Aggiornare i campi di partizione:
    • Per i dati partizionati in stile non Hive, la funzionalità di rilevamento di Dataplex genera automaticamente le chiavi di partizione. Ad esempio, per il percorso dei dati gs://root/2020/12/31, vengono generate le chiavi di partizione p0, p1 e p2. Per rendere le query più intuitive, puoi aggiornare p0, p1 e p2 per rispettivamente year, month e day.
    • Se aggiorni lo stile di partizione in Stile HIVE, il campo di partizione è immutabile.
  • Aggiornamento di altri campi di metadati: puoi aggiornare i campi generati automaticamente. mimeType, CompressionFormat, CsvOptions e JsonOptions per facilitare il rilevamento di Dataplex. Dataplex utilizzerà nuovi valori durante la successiva esecuzione.

Crea entità

Utilizza l'API entities.create per creare entità di metadati per tabelle o set di file. Compila i campi facoltativi obbligatori e pertinenti o lascia che Dataplex servizio di rilevamento, e compila i campi facoltativi.

Elimina entità

  • Fornisci le etichetta . Puoi ottenere l'etag inviando prima un entities.get, che restituisce etag dell'entità nella risposta.

Se i dati sottostanti di una tabella o di un set di file in una zona non elaborata vengono eliminati, la tabella o i metadati del set di file vengono eliminati automaticamente al successivo Ricerca del rilevamento. Se i dati sottostanti di una tabella in una zona organizzata sono eliminati, i metadati della tabella non vengono eliminati di conseguenza, ma viene restituito viene segnalata l'azione sui dati. Per risolvere il problema, elimina la tabella in modo esplicito tramite l'API metadata.

Partizioni

Elenca partizioni

Per limitare l'elenco di partizioni restituite dal servizio, aggiungi filtro parametri di ricerca all'URL della richiesta list partitions.

Esempi:

  • ?filter="Country=US AND State=CA AND City=Sunnyvale"
  • ?filter="year < 2000 AND month > 12 AND Date > 10"

Ottieni partizione

Per ottenere una partizione, devi completare l'URL della richiesta aggiungendo il token le coppie chiave-valore di partizione alla fine dell'URL, formattate per essere letti partitions/value1/value2/…./value10.

Esempio: se una partizione ha valori, {Country=US, State=CA, City=Sunnyvale}, l'URL della richiesta get deve terminare con /partitions/US/CA/Sunnyvale.

Importante: i valori URL aggiunti devono essere sottoposti a doppia codifica. Ad esempio, url_encode(url_encode(value)) può essere utilizzato per codificare "US:CA/CA#Sunnyvale" in modo che l'URL della richiesta termini con /partitions/US%253ACA/CA%2523Sunnyvale. Il campo del nome nella risposta conserva il formato codificato.

Crea partizione

Per creare una partizione personalizzata per l'origine dati, utilizza il metodo API partitions.create. Specifica i campi obbligatori località campo con un percorso Cloud Storage.

Eliminare la partizione

Completa l'URL della richiesta aggiungendo alla fine i valori della chiave di partizione, formattati in modo da essere visualizzati come partitions/value1/value2/…./value10.

Esempio: se una partizione ha valori, {Country=US, State=CA, City=Sunnyvale}, l'URL della richiesta deve terminare con /partitions/US/CA/Sunnyvale.

Importante: i valori degli URL aggiunti devono essere conformi a RFC-1034 oppure devono essere codificate due volte, ad esempio US:/CA#/Sunnyvale come US%3A/CA%3A/Sunnyvale.

Passaggi successivi