Glossario di Vertex AI

  • insieme di annotazioni
    • Un set di annotazioni contiene le etichette associate ai file di origine caricati all'interno di un set di dati. Un set di annotazioni è associato sia a un tipo di dati che a un obiettivo (ad esempio video/classificazione)
  • Endpoint API
    • Gli endpoint API sono un aspetto della configurazione dei servizi che specifica gli indirizzi di rete, noti anche come endpoint di servizio. (ad es. aiplatform.googleapis.com).
  • Approssimativa del vicino più vicino (ANN)
    • Il servizio Approssimativo vicino al vicino (ANN) è una soluzione su larga scala e a bassa latenza per trovare vettori simili (o più specificamente, "incorporamenti") per un corpus di grandi dimensioni.
  • artefatto
    • Un artefatto è un'entità discreta o un dato prodotto e utilizzato da un flusso di lavoro di machine learning. Esempi di artefatti includono set di dati, modelli, file di input e log di addestramento.
  • Artifact Registry
    • Artifact Registry è un servizio universale di gestione degli artefatti. È il servizio consigliato per la gestione di container e altri artefatti su Google Cloud. Per saperne di più, consulta Artifact Registry.
  • previsione batch
    • La previsione batch accetta un gruppo di richieste di previsione e restituisce i risultati in un unico file. Per ulteriori informazioni, consulta la sezione Ottenere previsioni batch.
  • riquadro di delimitazione
    • Un riquadro di delimitazione per un oggetto nel frame video può essere specificato in due modi: (i) utilizzando 2 vertici costituiti da un insieme di coordinate x,y se i punti sono diagonalmente opposti del rettangolo. Ad esempio: x_relative_min, y_relative_min,,,x_relative_max,y_relative_max, (ii) utilizza tutti e quattro i vertici. Per ulteriori informazioni, consulta l'articolo Preparare i dati dei video.
  • di classificazione
    • Le metriche di classificazione supportate nell'SDK Vertex AI per Python sono matrice di confusione e curva ROC.
  • contesto
    • Un contesto viene utilizzato per raggruppare artefatti ed esecuzioni in un'unica categoria interrogabile e digitata. È possibile utilizzare il contesto per rappresentare insiemi di metadati. Un esempio di contesto è l'esecuzione di una pipeline di machine learning.
  • Chiavi di crittografia gestite dal cliente (CMK)
    • Le chiavi di crittografia gestite dal cliente (CMEK) sono integrazioni che consentono ai clienti di criptare i dati nei servizi Google esistenti utilizzando una chiave che gestiscono in Cloud KMS (nota anche come Storky). La chiave in Cloud KMS è la chiave di crittografia della chiave che protegge i dati.
  • set di dati
    • Per set di dati si intende una raccolta di record di dati strutturati o non strutturati. Per saperne di più, consulta Creare un set di dati.
  • incorporamento
    • Un incorporamento è un tipo di vettore utilizzato per rappresentare i dati in modo da acquisirne il significato semantico. Gli incorporamenti, in genere, vengono creati utilizzando tecniche di machine learning e spesso utilizzati nell'elaborazione del linguaggio naturale (NLP) e in altre applicazioni di machine learning.
  • evento
    • Un evento descrive la relazione tra artefatti ed esecuzioni. Ogni artefatto può essere generato da un'esecuzione e utilizzato da altre esecuzioni. Gli eventi consentono di determinare la provenienza degli artefatti nei loro flussi di lavoro ML concatenando artefatti ed esecuzioni.
  • l'esecuzione
    • Un'esecuzione è un record di un singolo passaggio del flusso di lavoro di machine learning, in genere annotato con i relativi parametri di runtime. Esempi di esecuzioni includono importazione dati, convalida dei dati, addestramento del modello, valutazione del modello e deployment del modello.
  • esperimento
    • Un esperimento è un contesto che può contenere un insieme di n esecuzioni di esperimenti oltre alle esecuzioni della pipeline in cui un utente può esaminare, come gruppo, diverse configurazioni come artefatti di input o iperparametri.
  • esecuzione dell'esperimento
    • L'esecuzione di un esperimento può contenere metriche, parametri, esecuzioni, artefatti e risorse Vertex definiti dall'utente (ad esempio PipelineJob).
  • analisi esplorativa dei dati
    • In ambito statistica, l'analisi esplorativa dei dati (EDA) è un approccio all'analisi di set di dati per riepilogare le loro caratteristiche principali, spesso con metodi visivi. Si può utilizzare o meno un modello statistico, ma principalmente l'EDA serve a vedere cosa possono dirci i dati al di là della modellazione formale o della verifica delle ipotesi.
    • Nel machine learning (ML), una caratteristica è una caratteristica o un attributo di un'istanza o entità che viene utilizzato come input per addestrare un modello ML o per fare previsioni.
  • feature engineering
    • Il feature engineering è il processo di trasformazione dei dati non elaborati di machine learning (ML) in caratteristiche da utilizzare per addestrare modelli ML o per fare previsioni.
  • valore della caratteristica
    • Il valore di una caratteristica corrisponde al valore effettivo e misurabile di una caratteristica (attributo) di un'istanza o entità. Una raccolta di valori delle caratteristiche per l'entità univoca rappresenta il record delle caratteristiche corrispondente all'entità.
  • la pubblicazione di funzionalità
    • La pubblicazione delle caratteristiche è il processo di esportazione o recupero dei valori delle caratteristiche per l'addestramento o l'inferenza. In Vertex AI esistono due tipi di pubblicazione di caratteristiche: online e offline. La pubblicazione online recupera i valori delle funzionalità più recenti di un sottoinsieme dell'origine dati delle caratteristiche per le previsioni online. La pubblicazione offline o batch esporta elevati volumi di dati delle funzionalità per l'elaborazione offline, come l'addestramento di modelli ML.
  • timestamp della funzionalità
    • Il timestamp delle funzionalità indica quando è stato generato l'insieme di valori delle funzionalità in un record di funzionalità specifico per un'entità.
  • registrazione delle funzionalità
    • Un record di caratteristiche è un'aggregazione di tutti i valori delle caratteristiche che descrivono gli attributi di un'entità unica in un momento specifico.
  • registro delle caratteristiche
    • Un registro di caratteristiche è un'interfaccia centrale per la registrazione delle origini dati delle caratteristiche che vuoi pubblicare per le previsioni online.
  • gruppo di funzionalità
    • Un gruppo di caratteristiche è una risorsa del registro di caratteristiche che corrisponde a una tabella o vista di origine BigQuery contenente dati delle caratteristiche. Una visualizzazione delle caratteristiche può contenere caratteristiche ed essere considerata come un raggruppamento logico di colonne di caratteristiche nell'origine dati.
  • visualizzazione delle funzionalità
    • Una visualizzazione caratteristiche è una raccolta logica di caratteristiche materializzate da un'origine dati BigQuery a un'istanza di un negozio online. Una visualizzazione delle caratteristiche archivia e aggiorna periodicamente i dati delle funzionalità del cliente, che vengono aggiornati periodicamente dall'origine BigQuery. Una visualizzazione delle caratteristiche viene associata all'archiviazione dei dati delle caratteristiche direttamente o tramite associazioni alle risorse del registro delle caratteristiche.
  • SDK dei componenti della pipeline di Google Cloud
    • L'SDK Google Cloud Pipelines (GCPC) fornisce un insieme di componenti predefiniti di Kubeflow Pipelines, che offrono prestazioni elevate e sono facili da usare. Puoi utilizzare i componenti di pipeline di Google Cloud per definire ed eseguire pipeline ML in Vertex AI Pipelines e altri backend di esecuzione di pipeline ML conformi a Kubeflow Pipelines. Per ulteriori informazioni, vedi .
  • istogramma
    • Rappresentazione grafica della variazione in un insieme di dati mediante barre. Un istogramma mostra i modelli difficili da rilevare in una semplice tabella dei numeri.
  • indice
    • Una raccolta di vettori distribuiti contemporaneamente per la ricerca di somiglianze. I vettori possono essere aggiunti a un indice o rimossi da un indice. Le query di ricerca somiglianza vengono inviate a un indice specifico e cercano i vettori dell'indice in questione.
  • dati empirici reali
    • Termine che fa riferimento alla verifica dell'accuratezza del machine learning rispetto al mondo reale, come un set di dati basato su dati empirici reali.
  • Metadati del machine learning
    • ML Metadata (MLMD) è una libreria per la registrazione e il recupero dei metadati associati ai flussi di lavoro di sviluppatori ML e data scientist. MLMD è parte integrante di TensorFlow Extended (TFX), ma è progettato in modo da poter essere utilizzato in modo indipendente. Poiché fa parte della più ampia piattaforma TFX, la maggior parte degli utenti interagisce con MLMD solo quando esamina i risultati dei componenti della pipeline, ad esempio nei blocchi note o in TensorBoard.
  • set di dati gestito
    • Un oggetto del set di dati creato e ospitato da Vertex AI.
  • risorse dei metadati
    • Vertex ML Metadata espone un modello dei dati simile a un grafico per la rappresentazione dei metadati prodotti e consumati dai flussi di lavoro ML. I concetti principali sono artefatti, esecuzioni, eventi e contesti.
  • MetadataSchema
    • Uno schema MetadataSchema descrive lo schema per particolari tipi di artefatti, esecuzioni o contesti. I metadatiSchemas vengono utilizzati per convalidare le coppie chiave-valore durante la creazione delle risorse metadati corrispondenti. La convalida dello schema viene eseguita solo sui campi corrispondenti tra la risorsa e MetadataSchema. Gli schemi dei tipi sono rappresentati utilizzando oggetti schema OpenAPI, che dovrebbero essere descritti utilizzando YAML.
  • MetadataStore
    • Un MetadataStore è il contenitore di primo livello per le risorse dei metadati. MetadataStore è regionalizzato e associato a un progetto Google Cloud specifico. In genere, un'organizzazione utilizza un MetadataStore condiviso per le risorse di metadati all'interno di ogni progetto.
  • Pipeline ML
    • Le pipeline ML sono flussi di lavoro ML portabili e scalabili che si basano sui container.
  • modello
    • Qualsiasi modello preaddestrato o meno.
  • nome risorsa del modello
    • Il nome della risorsa per una model come segue: projects/<PROJECT_ID>/locations/<LOCATION_ID>/models/<MODEL_ID>. Puoi trovare l'ID del modello nella console Cloud nella pagina "Model Registry".
  • negozio offline
    • L'archivio offline è una struttura di archiviazione che archivia dati delle caratteristiche recenti e storici, che viene generalmente utilizzato per l'addestramento di modelli ML. Un negozio offline contiene anche i valori delle funzionalità più recenti, che puoi pubblicare per le previsioni online.
  • negozio online
    • Nella gestione delle funzionalità, un negozio online è una struttura di archiviazione per i valori delle caratteristiche più recenti da pubblicare per le previsioni online.
    • I parametri sono valori di input basati su chiave che configurano un'esecuzione, ne regolano il comportamento e influiscono sui risultati dell'esecuzione. Gli esempi includono il tasso di apprendimento, il tasso di abbandono e il numero di passaggi di formazione.
  • pipeline
    • Le pipeline ML sono flussi di lavoro ML portabili e scalabili che si basano sui container.
  • componente pipeline
    • Un insieme autonomo di codice che esegue un passaggio nel flusso di lavoro di una pipeline, come la pre-elaborazione dei dati, la trasformazione dei dati e l'addestramento di un modello.
  • job della pipeline
    • Una risorsa dell'API Vertex AI corrispondente ai job Vertex Pipeline. Gli utenti creano un PipelineJob quando vogliono eseguire una pipeline ML su Vertex AI.
  • esecuzione della pipeline
    • È possibile associare uno o più Vertex PipelineJob a un esperimento in cui ogni PipelineJob è rappresentato come una singola esecuzione. In questo contesto, i parametri dell'esecuzione vengono dedotti dai parametri del PipelineJob. Le metriche vengono dedotte dagli artefatti system.Metric prodotti da quel PipelineJob. Gli artefatti dell'esecuzione vengono dedotti dagli artefatti prodotti da tale PipelineJob.
  • modello di pipeline
    • Una definizione del flusso di lavoro ML che uno o più utenti possono riutilizzare per creare più esecuzioni di pipeline.
  • richiamo
    • La percentuale di vicini più prossimi restituiti dall'indice. Ad esempio, se una query del vicino più prossimo per 20 vicini più prossimi ha restituito 19 dei vicini più prossimi "dati empirici reali", il richiamo è 19/20x100 = 95%.
  • limitazioni
    • Funzionalità per "limitare" le ricerche a un sottoinsieme dell'indice utilizzando le regole booleane. La limitazione è anche nota come "filtro". Con la ricerca vettoriale, puoi utilizzare filtri numerici e filtri per attributi di testo.
  • account di servizio
    • In Google Cloud, un account di servizio è un tipo speciale di account utilizzato da un'applicazione o da un'istanza di macchina virtuale (VM), non da una persona. Le applicazioni utilizzano gli account di servizio per effettuare chiamate API autorizzate.
  • metriche di riepilogo
    • Le metriche di riepilogo sono un singolo valore per ogni chiave di metrica in un esperimento. Ad esempio, l'accuratezza del test di un esperimento è l'accuratezza calcolata in base a un set di dati di test al termine dell'addestramento che può essere acquisito come metrica di riepilogo del valore singolo.
  • TensorBoard
    • TensorBoard è una suite di applicazioni web per visualizzare e comprendere le esecuzioni e i modelli di TensorFlow. Per ulteriori informazioni, vedi TensorBoard.
  • Nome risorsa TensorBoard
    • Il nome di una risorsa TensorBoard viene utilizzato per identificare completamente un'istanza di Vertex AI TensorBoard. Il formato è il seguente: projects/PROJECT_ID_OR_NUMBER/locations/REGION/tensorboards/TENSORBOARD_INSTANCE_ID.
  • Istanza TensorBoard
    • Un'istanza TensorBoard è una risorsa regionalizzata che archivia gli esperimenti Vertex AI TensorBoard associati a un progetto. Puoi creare più istanze TensorBoard in un progetto se, ad esempio, vuoi più istanze abilitate per CMEK. È uguale alla risorsa TensorBoard nell'API.
  • TensorFlow Extended (TFX)
    • Tensorflow esteso (tfx), una piattaforma end-to-end per il deployment di pipeline di machine learning di produzione basate sulla piattaforma TensorFlow.
  • disallineamento
    • Lo scarto temporale si riferisce all'inizio di un video.
  • segmento di tempo
    • Un segmento di tempo è identificato da compensazioni dell'ora di inizio e di fine.
  • metriche delle serie temporali
    • Le metriche delle serie temporali sono valori delle metriche longitudinali in cui ogni valore rappresenta un passaggio nella parte di una corsa relativa alla routine di allenamento. Le metriche delle serie temporali vengono archiviate in Vertex AI TensorBoard. Vertex AI Experiments archivia un riferimento alla risorsa Vertex TensorBoard.
  • token
    • Un token in un modello linguistico è l'unità atomica su cui il modello sta addestrando e su cui esegue previsioni, ovvero parole, morfemi e caratteri. Nei domini esterni ai modelli linguistici, i token possono rappresentare altri tipi di unità atomiche. Ad esempio, in visione artificiale, un token potrebbe essere un sottoinsieme di un'immagine.
  • artefatti non gestiti
    • Un artefatto che esiste al di fuori del contesto di Vertex AI.
  • vettore
    • Un vettore è un elenco di valori mobili con magnitudine e direzione. Può essere utilizzata per rappresentare qualsiasi tipo di dati, come numeri, punti nello spazio o direzioni.
  • Esperimenti Vertex AI
    • Vertex AI Experiments consente agli utenti di monitorare (i) i passaggi dell'esecuzione di un esperimento, ad esempio pre-elaborazione, addestramento, (ii) input, ad esempio algoritmo, parametri, set di dati, (iii) output di questi passaggi, ad esempio modelli, punti di controllo, metriche.
  • Esperimento Vertex AI TensorBoard
    • I dati associati a un esperimento possono essere visualizzati nell'applicazione web TensorBoard (scalari, istogrammi, distribuzioni e così via). È possibile visualizzare i valori scalari della serie temporale nella Google Cloud Console. Per saperne di più, consulta Confrontare e analizzare le esecuzioni.
  • SDK Vertex AI per Python
    • L'SDK Vertex AI per Python fornisce funzionalità simili alla libreria client Python di Vertex AI, con la differenza che l'SDK è di livello superiore e meno granulare.
  • Tipo di dati Vertex
    • I tipi di dati Vertex AI sono "image", "text", "tabular" e "video".
  • segmento video
    • Un segmento video è identificato da offset temporale di inizio e di fine di un video.
  • virtual private cloud (VPC)
    • Il VPC è un pool configurabile on demand di risorse di calcolo condivise allocate in un ambiente cloud pubblico e fornisce un livello di isolamento tra le diverse organizzazioni che utilizzano queste risorse.