Glossario di Vertex AI

  • set di annotazioni
    • Un set di annotazioni contiene le etichette associate ai file di origine caricati all'interno di un set di dati. Un set di annotazioni è associato sia a un tipo di dati sia a un obiettivo (ad esempio video/classificazione).
  • Endpoint API
    • Gli endpoint API sono un aspetto della configurazione dei servizi che specifica gli indirizzi di rete, noti anche come endpoint di servizio. (ad esempio, aiplatform.googleapis.com).
  • Vicino approssimato più vicino (ANN)
  • artefatto
    • Un artefatto è un'entità o un frammento di dati discreti prodotto e consumato da un flusso di lavoro di machine learning. Alcuni esempi di artefatti includono set di dati, modelli, file di input e log di addestramento.
  • Artifact Registry
    • Artifact Registry è un servizio universale di gestione degli artefatti. È il servizio consigliato per la gestione di container e altri elementi su Google Cloud. Per ulteriori informazioni, vedi Artifact Registry.
  • autenticazione
    • La procedura di verifica dell'identità di un client (che può essere un utente o un altro processo) allo scopo di ottenere l'accesso a un sistema protetto. Un cliente che ha dimostrato la propria identità è considerato autenticato. Per ulteriori informazioni, consulta la sezione Metodi di autenticazione di Google.
  • base di riferimento
    • Un modello utilizzato come punto di riferimento per confrontare il rendimento di un altro modello (in genere più complesso). Ad esempio, un modello di regressione logistica potrebbe essere un buon punto di riferimento per un modello di deep learning. Per un problema specifico, la base aiuta gli sviluppatori di modelli a quantificare le prestazioni minime previste che un nuovo modello deve raggiungere affinché il nuovo modello sia utile. Per ulteriori informazioni, consulta Set di dati di riferimento e target.
  • previsione batch
    • La previsione batch accetta un gruppo di richieste di previsione e restituisce i risultati in un file. Per ulteriori informazioni, consulta la sezione Ottenere previsioni batch.
  • riquadro di delimitazione
    • Un riquadro di delimitazione di un oggetto nel frame video può essere specificato in due modi (i) utilizzando due vertici costituiti da un insieme di coordinate x e y se sono diagonalmente opposti al punto del rettangolo. Ad esempio: x_relative_min, y_relative_min,,,x_relative_max,y_relative_max,, (ii) Utilizza tutti e quattro i vertici. Per saperne di più, consulta Preparare i dati dei video.
  • bucket
    • Cartella di primo livello per Cloud Storage. I nomi dei bucket devono essere univoci per tutti gli utenti di Cloud Storage. I bucket contengono file. Per ulteriori informazioni, vedi Panoramica del prodotto di Cloud Storage.
  • metriche di classificazione
    • Le metriche di classificazione supportate nell'SDK Vertex AI per Python sono la matrice di confusione e la curva ROC.
  • immagine container
    • Un'immagine container è un pacchetto che include il codice eseguibile del componente e una definizione dell'ambiente in cui viene eseguito il codice. Per ulteriori informazioni, consulta la Panoramica dell'addestramento personalizzato.
  • contesto
    • Un contesto viene utilizzato per raggruppare elementi e esecuzioni in un'unica categoria interrogabile e con tipo. I contesti possono essere utilizzati per rappresentare insiemi di metadati. Un esempio di contesto è l'esecuzione di una pipeline di machine learning.
  • Chiavi di crittografia gestite dal cliente (CMEK)
    • Le chiavi di crittografia gestite dal cliente (CMEK) sono integrazioni che consentono ai clienti di criptare i dati nei servizi Google esistenti utilizzando una chiave che gestiscono in Cloud KMS (nota anche come Storky). La chiave in Cloud KMS è la chiave di crittografia della chiave che protegge i dati. Per saperne di più, vedi Chiavi di crittografia gestite dal cliente (CMEK).
  • CustomJob
    • Un CustomJob è una delle tre risorse Vertex AI che un utente può creare per addestrare modelli personalizzati su Vertex AI. I job di addestramento personalizzato sono la soluzione base per eseguire codice di addestramento personalizzato di machine learning (ML) in Vertex AI. Per ulteriori informazioni, consulta Creare job di addestramento personalizzati.
  • Dask
    • Dask è una piattaforma di computing distribuita spesso utilizzata con TensorFlow, Pytorch e altri framework di ML per gestire job di addestramento distribuito. Per ulteriori informazioni, visita Wikipedia.
  • dataset
    • Un set di dati è definito in generale come una raccolta di record di dati strutturati o non strutturati. Per ulteriori informazioni, vedi Creare un set di dati.
  • Incorporamento
    • Un'evidenziazione è un tipo di vettore utilizzato per rappresentare i dati in modo da coglierne il significato semantico. Gli incorporamenti sono in genere creati utilizzando tecniche di machine learning e sono spesso utilizzati nell'elaborazione del linguaggio naturale (NLP) e in altre applicazioni di machine learning.
  • evento
    • Un evento descrive la relazione tra gli elementi e le esecuzioni. Ogni elemento può essere prodotto da un'esecuzione e utilizzato da altre esecuzioni. Gli eventi ti aiutano a determinare la provenienza degli artefatti nei flussi di lavoro di ML collegando tra loro artefatti ed esecuzioni.
  • esecuzione
    • Un'esecuzione è un record di un singolo passaggio del flusso di lavoro di machine learning, in genere annotato con i relativi parametri di runtime. Alcuni esempi di esecuzioni sono l'importazione dei dati, la convalida dei dati, l'addestramento del modello, la valutazione del modello e il deployment del modello.
  • esperimento
    • Un esperimento è un contesto che può contenere un insieme di n esecuzioni dell'esperimento, oltre alle esecuzioni della pipeline, in cui un utente può esaminare, come gruppo, diverse configurazioni come gli elementi di input o gli iperparametri.
  • Esecuzione dell'esperimento
    • Un'esecuzione dell'esperimento può contenere metriche, parametri, esecuzioni, artefatti e risorse Vertex (ad esempio PipelineJob) definiti dall'utente.
  • analisi esplorativa dei dati
    • In statistica, l'analisi esplorativa dei dati (o EDA) è un approccio per analizzare i set di dati al fine di riassumerne le loro caratteristiche principali, spesso con metodi visivi. Si può utilizzare o meno un modello statistico, ma principalmente l'EDA serve a vedere cosa possono dirci i dati al di là della modellazione formale o della verifica delle ipotesi.
  • funzionalità
    • Nel machine learning (ML), una funzionalità è una caratteristica o un attributo di un'istanza o entità che viene utilizzata come input per addestrare un modello di ML o fare previsioni.
  • il feature engineering
    • Il feature engineering è il processo di trasformazione dei dati non elaborati di machine learning (ML) in caratteristiche che possono essere utilizzate per addestrare modelli ML o per fare previsioni.
  • valore delle caratteristiche
    • Un valore della funzionalità corrisponde al valore effettivo e misurabile di una funzionalità (attributo) di un'istanza o entità. Una raccolta di valori delle caratteristiche per l'entità univoca rappresenta il record di caratteristiche corrispondente all'entità.
  • funzionalità
    • La distribuzione delle caratteristiche è il processo di esportazione o recupero dei valori delle caratteristiche per l'addestramento o l'inferenza. In Vertex AI esistono due tipi di distribuzione delle caratteristiche: pubblicazione online e pubblicazione offline. La pubblicazione online recupera gli ultimi valori delle caratteristiche di un sottoinsieme dell'origine dati delle caratteristiche per le previsioni online. L'erogazione offline o in batch esporta grandi volumi di dati sulle funzionalità per l'elaborazione offline, ad esempio l'addestramento di modelli ML.
  • feature timestamp
    • Un timestamp della caratteristica indica quando è stato generato l'insieme di valori della caratteristica in un record della caratteristica specifico per un'entità.
  • record di caratteristiche
    • Un record di caratteristiche è un'aggregazione di tutti i valori di caratteristiche che descrivono gli attributi di un'entità unica in un momento specifico.
  • registro di caratteristiche
    • Un registro di caratteristiche è un'interfaccia centrale per la registrazione delle origini dati delle caratteristiche da utilizzare per le previsioni online. Per ulteriori informazioni, consulta Configurazione del Registro di caratteristiche.
  • gruppo di caratteristiche
    • Un gruppo di caratteristiche è una risorsa del registro di caratteristiche che corrisponde a una tabella o vista di origine BigQuery contenente dati delle caratteristiche. Una visualizzazione delle caratteristiche può contenere caratteristiche e può essere considerata un raggruppamento logico delle colonne delle caratteristiche nell'origine dati.
  • visualizzazione delle caratteristiche
    • Una visualizzazione delle caratteristiche è una raccolta logica di funzionalità materializzate da un'origine dati BigQuery a un'istanza del negozio online. Una visualizzazione caratteristiche archivia e aggiorna periodicamente i dati delle caratteristiche del cliente, che vengono aggiornati periodicamente dall'origine BigQuery. Una visualizzazione delle caratteristiche è associata all'archiviazione dei dati delle caratteristiche direttamente o tramite associazioni alle risorse del registro delle caratteristiche.
  • SDK per i componenti della pipeline di Google Cloud
    • L'SDK Google Cloud Pipeline Components (GCPC) fornisce un insieme di componenti Kubeflow Pipelines predefiniti di qualità di produzione, performanti e facili da usare. Puoi utilizzare i componenti della pipeline di Google Cloud per definire ed eseguire pipeline di ML in Vertex AI Pipelines e in altri backend di esecuzione di pipeline di ML conformi a Kubeflow Pipelines. Per ulteriori informazioni, consulta Introduzione a Google Cloud Pipeline Components.
  • istogramma
    • Una visualizzazione grafica della variazione in un insieme di dati mediante barre. Un istogramma mostra schemi difficili da individuare in una semplice tabella di numeri.
  • indice
    • Una raccolta di vettori distribuiti insieme per la ricerca di analogie. I vettori possono essere aggiunti a un indice o rimossi da un indice. Le query di ricerca di similitudine vengono inviate a un indice specifico e cercheranno nei vettori presenti in quell'indice.
  • dati empirici reali
    • Termine che si riferisce alla verifica dell'accuratezza del machine learning rispetto al mondo reale, come un set di dati di dati empirici reali.
  • Metadati del machine learning
    • ML Metadata (MLMD) è una libreria per la registrazione e il recupero di metadati associati ai flussi di lavoro di sviluppatori ML e data scientist. MLMD è parte integrante di TensorFlow Extended (TFX), ma è progettato in modo da poter essere utilizzato in modo indipendente. Poiché fa parte della più ampia piattaforma TFX, la maggior parte degli utenti interagisce con MLMD solo quando esamina i risultati dei componenti della pipeline, ad esempio nei blocchi note o in TensorBoard.
  • set di dati gestito
    • Un oggetto set di dati creato e ospitato da Vertex AI.
  • risorse di metadati
    • Vertex ML Metadata espone un modello di dati simile a un grafo per rappresentare i metadati prodotti e consumati dai flussi di lavoro di ML. I concetti principali sono artefatti, esecuzioni, eventi e contesti.
  • MetadataSchema
    • Un MetadataSchema descrive lo schema per determinati tipi di elementi, esecuzioni o contesti. Gli schemi dei metadati vengono utilizzati per convalidare le coppie chiave-valore durante la creazione delle risorse di metadati corrispondenti. La convalida dello schema viene eseguita solo sui campi corrispondenti tra la risorsa e MetadataSchema. Gli schemi di tipo sono rappresentati utilizzando oggetti schema OpenAPI, che devono essere descritti utilizzando YAML.
  • MetadataStore
    • Un MetadataStore è il contenitore di primo livello per le risorse di metadati. MetadataStore è regionalizzato e associato a un progetto Google Cloud specifico. In genere, un'organizzazione utilizza un MetadataStore condiviso per le risorse di metadati all'interno di ciascun progetto.
  • Pipeline di ML
    • Le pipeline ML sono flussi di lavoro ML portatili e scalabili basati su container.
  • model
    • Qualsiasi modello preaddestrato o meno.
  • nome risorsa modello
    • Il nome della risorsa per un model è il seguente: projects/<PROJECT_ID>/locations/<LOCATION_ID>/models/<MODEL_ID>. Puoi trovare l'ID del modello nella console Cloud nella pagina "Model Registry" (Registro modelli).
  • negozio offline
    • Il negozio offline è una struttura di archiviazione in cui sono archiviati dati recenti e storici delle caratteristiche, che in genere vengono utilizzati per l'addestramento dei modelli ML. Un archivio offline contiene anche i valori delle caratteristiche più recenti, che puoi pubblicare per le previsioni online.
  • negozio online
    • Nella gestione delle caratteristiche, un negozio online è una struttura di archiviazione per i valori più recenti delle caratteristiche da fornire per le previsioni online.
  • parametri
    • I parametri sono valori di input con chiave che configurano un'esecuzione, regolano il suo comportamento e ne influenzano i risultati. Alcuni esempi sono il tasso di apprendimento, il tasso di abbandono e il numero di passaggi di addestramento.
  • pipeline
    • Le pipeline ML sono flussi di lavoro ML portatili e scalabili basati su container.
  • Componente pipeline
    • Un insieme di codice autonomo che esegue un passaggio nel flusso di lavoro di una pipeline, ad esempio il pretrattamento dei dati, la trasformazione dei dati e l'addestramento di un modello.
  • job di pipeline
    • Una risorsa nell'API Vertex AI corrispondente ai job di pipeline Vertex. Gli utenti creano un PipelineJob quando vogliono eseguire una pipeline ML su Vertex AI.
  • pipeline run
    • È possibile associare uno o più Vertex PipelineJob a un esperimento in cui ogni PipelineJob è rappresentato come una singola esecuzione. In questo contesto, i parametri dell'esecuzione vengono dedotti dai parametri del PipelineJob. Le metriche vengono dedotte dagli elementi system.Metric prodotti da PipelineJob. Gli artefatti dell'esecuzione vengono dedotti dagli artefatti prodotti da quel job PipelineJob.
  • modello di pipeline
    • Definizione di un flusso di lavoro ML che uno o più utenti possono riutilizzare per creare più esecuzioni della pipeline.
  • Ray cluster su Vertex AI
    • I cluster Ray su Vertex AI sono integrati per garantire la disponibilità della capacità per i carichi di lavoro ML critici o durante le stagioni di picco. A differenza dei job personalizzati, in cui il servizio di addestramento rilascia la risorsa dopo il completamento del job, i cluster Ray rimangono disponibili finché non vengono eliminati. Per ulteriori informazioni, consulta la panoramica di Ray on Vertex AI.
  • Ray on Vertex AI (RoV)
    • Ray on Vertex AI è progettato per consentirti di utilizzare lo stesso codice Ray open source per scrivere programmi e sviluppare applicazioni su Vertex AI con modifiche minime. Per ulteriori informazioni, consulta la panoramica di Ray su Vertex AI.
  • SDK Ray on Vertex AI per Python
    • L'SDK Ray on Vertex AI per Python è una versione dell'SDK Vertex AI per Python che include le funzionalità di Ray Client, del connettore Ray BigQuery, della gestione del cluster Ray su Vertex AI e delle previsioni su Vertex AI. Per ulteriori informazioni, consulta Introduzione all'SDK Vertex AI per Python.
  • richiamo
    • La percentuale di veri vicini più prossimi restituiti dall'indice. Ad esempio, se una query sul vicino più prossimo per 20 vicini più prossimi ha restituito 19 dei vicini più prossimi "del vero e proprio", il valore di recupero è 19/20 x 100 = 95%.
  • limita
    • Funzionalità per "limitare" le ricerche a un sottoinsieme dell'indice utilizzando regole booleane. La limitazione è indicata anche come "filtro". Con la ricerca vettoriale, puoi utilizzare i filtri numerici e di attributi di testo.
  • account di servizio
    • In Google Cloud, un account di servizio è un particolare tipo di account utilizzato da un'applicazione o da un'istanza di macchina virtuale (VM), non da una persona. Le applicazioni utilizzano account di servizio per effettuare chiamate API autorizzate.
  • metriche di riepilogo
    • Le metriche di riepilogo sono un singolo valore per ogni chiave di metrica nell'esecuzione di un esperimento. Ad esempio, l'accuratezza del test di un esperimento è l'accuratezza calcolata in base a un set di dati di test al termine dell'addestramento e può essere acquisita come metrica di riepilogo di un singolo valore.
  • TensorBoard
    • TensorBoard è una suite di applicazioni web per la visualizzazione e la comprensione delle esecuzioni e dei modelli TensorFlow. Per ulteriori informazioni, consulta TensorBoard.
  • Nome risorsa TensorBoard
    • Un nome della risorsa TensorBoard viene utilizzato per identificare completamente un'istanza Vertex AI TensorBoard. Il formato è il seguente: projects/PROJECT_ID_OR_NUMBER/locations/REGION/tensorboards/TENSORBOARD_INSTANCE_ID.
  • Istanza TensorFlow
    • Un'istanza di TensorBoard è una risorsa regionalizzata che archivia gli esperimenti Vertex AI TensorBoard associati a un progetto. Puoi creare più istanze TensorBoard in un progetto se, ad esempio, vuoi che siano abilitate più istanze CMEK. Equivale alla risorsa TensorBoard nell'API.
  • TensorFlow Extended (TFX)
    • TensorFlow Extended (tfx), una piattaforma end-to-end per il deployment di pipeline di machine learning di produzione basata sulla piattaforma TensorFlow.
  • sconto temporale
    • La differenza temporale è relativa all'inizio di un video.
  • segmento di tempo
    • Un segmento di tempo è identificato dagli offset di inizio e di fine.
  • Metriche delle serie temporali
    • Le metriche delle serie temporali sono valori delle metriche longitudinali in cui ogni valore rappresenta un passaggio nella parte della routine di addestramento di un'esecuzione. Le metriche delle serie temporali vengono archiviate in Vertex AI TensorBoard. Vertex AI Experiments memorizza un riferimento alla risorsa Vertex TensorBoard.
  • token
    • Un token in un modello linguistico è l'unità atomica su cui il modello viene addestrato e fa previsioni, ovvero parole, morfemi e caratteri. In domini diversi dai modelli linguistici, i token possono rappresentare altri tipi di unità atomiche. Ad esempio, nella visione artificiale, un token potrebbe essere un sottoinsieme di un'immagine.
  • Elementi non gestiti
    • Un artefatto esistente al di fuori del contesto di Vertex AI.
  • vettore
    • Un vettore è un elenco di valori in virgola mobile con magnitudo e direzione. Può essere utilizzato per rappresentare qualsiasi tipo di dati, come numeri, punti nello spazio o direzioni.
  • Vertex AI Experiments
    • Vertex AI Experiments consente agli utenti di monitorare (i) i passaggi di un esperimento, ad esempio la preelaborazione, l'addestramento, (ii) gli input, ad esempio l'algoritmo, i parametri, i set di dati, (iii) gli output di questi passaggi, ad esempio modelli, checkpoint, metriche.
  • Esperimento Vertex AI TensorBoard
    • I dati associati a un esperimento possono essere visualizzati nell'applicazione web TensorBoard (scalari, istogrammi, distribuzioni e così via). Gli scalari delle serie temporali possono essere visualizzati nella console Google Cloud. Per saperne di più, consulta Confrontare e analizzare le esecuzioni.
  • SDK Vertex AI per Python
    • L'SDK Vertex AI per Python offre funzionalità simili a quelle della libreria client Python di Vertex AI, tranne per il fatto che l'SDK è di livello superiore e meno granulare.
  • Tipo di dati Vertex
    • I tipi di dati di Vertex AI sono "immagine", "testo", "tabulari" e "video".
  • segmento video
    • Un segmento video è identificato dall'offset temporale di inizio e fine di un video.
  • virtual private cloud (VPC)
    • Il virtual private cloud è un pool configurabile e on demand di risorse di calcolo condivise che viene allocato in un ambiente cloud pubblico e fornisce un livello di isolamento tra le diverse organizzazioni che utilizzano queste risorse.