Vertex AI-Glossar | Google Cloud

Annotationssatz

Ein Annotationssatz enthält die Labels, die den hochgeladenen Quelldateien in einem Dataset zugeordnet sind. Ein Annotationssatz ist sowohl mit einem Datentyp als auch mit einem Ziel verknüpft (z. B. Video/Klassifizierung).

API-Endpunkte

API-Endpunkte sind ein Dienstkonfigurationsaspekt, mit dem die Netzwerkadressen, auch Dienstendpunkte, angegeben werden. (z. B. aiplatform.googleapis.com).

Annäherung an den nächsten Nachbarn (ANN)

Der ANN-Dienst (Approximate Nearest Neighbor) ist eine Lösung mit hoher Skalierung und niedriger Latenz, um ähnliche Vektoren (oder genauer gesagt "Einbettungen") für einen großen Korpus zu finden.

artifact

Ein Artefakt ist eine einzelne Entität oder ein Datenelement, das von einem ML-Workflow erzeugt und genutzt wird. Beispiele für Artefakte sind Datasets, Modelle, Eingabedateien und Trainingslogs.

Artifact Registry

Artifact Registry ist ein universeller Artefaktverwaltungsdienst. Dies ist der empfohlene Dienst zum Verwalten von Containern und anderen Artefakten in Google Cloud. Weitere Informationen finden Sie unter Artifact Registry.

Batchvorhersage

Die Batchvorhersage gibt für eine Gruppe von Vorhersageanfragen und -ausgaben die Ergebnisse in einer einzelnen Datei aus. Weitere Informationen finden Sie unter Batchvorhersagen abrufen.

Begrenzungsrahmen

Ein Begrenzungsrahmen für ein Objekt im Videoframe kann auf zwei Arten angegeben werden (i) Mithilfe von zwei Eckpunkten, die aus einer Reihe von x- und y-Koordinaten bestehen, wenn sie diagonale gegenüberliegende Punkte des Rechtecks sind. Beispiel: x_relative_min, y_relative_min,,,x_relative_max,y_relative_max,, (ii) Mithilfe aller vier Eckpunkte. Weitere Informationen finden Sie unter Videodaten vorbereiten.

Klassifizierungsmesswerte

Unterstützte Klassifizierungsmesswerte im Vertex AI SDK für Python sind Wahrheitsmatrix und ROC-Kurve.

context

Mit einem Kontext werden Artefakte und Ausführungen in einer einzigen, abfragbaren und typisierten Kategorie zusammengefasst. Kontexte können zur Darstellung von Metadaten verwendet werden. Ein Beispiel für einen Kontext wäre die Ausführung einer Pipeline für maschinelles Lernen.

Vom Kunden verwaltete Verschlüsselungsschlüssel (Customer Managed Encryption Keys, CMEK)

Vom Kunden verwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEK) sind Integrationen, mit denen Kunden Daten in vorhandenen Google-Diensten mit einem Schlüssel verschlüsseln können, den sie in Cloud KMS (alias Storky) verwalten. Der Schlüssel in Cloud KMS ist der Schlüsselverschlüsselungsschlüssel, der seine Daten schützt.

Dataset

Ein Dataset ist allgemein als eine Sammlung strukturierter oder unstrukturierter Datensätze definiert. Weitere Informationen finden Sie unter Dataset erstellen.

Einbettung

Eine Einbettung ist ein Vektortyp, der zur Darstellung von Daten verwendet wird, um ihre semantische Bedeutung zu erfassen. Einbettungen werden meist mithilfe von Techniken des maschinellen Lernens erstellt und häufig in Natural Language Processing (NLP) und anderen ML-Anwendungen verwendet.

Ereignis

Ein Ereignis beschreibt die Beziehung zwischen Artefakten und Ausführungen. Jedes Artefakt kann von einer Ausführung erstellt und von anderen Ausführungen genutzt werden. Anhand von Ereignissen können Sie die Herkunft von Artefakten in ihren ML-Workflows ermitteln, indem Artefakte und Ausführungen verkettet werden.

Ausführung

Eine Ausführung ist ein Datensatz eines einzelnen Workflows für maschinelles Lernen, der normalerweise mit seinen Laufzeitparametern annotiert ist. Beispiele für Ausführungen sind Datenaufnahme, Datenvalidierung, Modelltraining, Modellbewertung und Modellbereitstellung.

Test

Ein Test ist ein Kontext, der eine Reihe von n Testausführungen zusätzlich zu Pipeline-Ausführungen enthalten kann, in denen ein Nutzer als Gruppe verschiedene Konfigurationen wie Eingabeartefakte oder Hyperparameter untersuchen kann.

Testausführung

Eine Testausführung kann benutzerdefinierte Messwerte, Parameter, Ausführungen, Artefakte und Vertex-Ressourcen enthalten (z. B. PipelineJob).

Explorative Datenanalyse

In der Statistik ist die explorative Datenanalyse (EDA) ein Ansatz zur Analyse von Datasets, um ihre Hauptmerkmale zusammenzufassen, oft mit visuellen Methoden. Optional kann ein statistisches Modell verwendet werden. EDA dient aber hauptsächlich dazu, zu sehen, was uns die Daten über die formalen Modellierungs- oder Hypothesentestaufgaben hinaus sagen können.

Feature

Beim maschinellen Lernen (ML) ist ein Feature ein Merkmal oder Attribut einer Instanz oder Entität, das als Eingabe zum Trainieren eines ML-Modells oder für Vorhersagen verwendet wird.

Feature Engineering

Feature Engineering ist der Prozess der Umwandlung von Rohdaten des maschinellen Lernens (ML) in Features, die zum Trainieren von ML-Modellen oder für Vorhersagen verwendet werden können.

Featurewert

Ein Featurewert entspricht dem tatsächlichen und messbaren Wert eines Features (Attributs) einer Instanz oder Entität. Eine Sammlung von Featurewerten für die eindeutige Entität stellt den Featureeintrag dar, der der Entität entspricht.

Bereitstellung von Features

Das Bereitstellen von Features ist der Export oder Abruf von Featurewerten für das Training oder die Inferenz. In Vertex AI gibt es zwei Arten der Featurebereitstellung: Onlinebereitstellung und Offlinebereitstellung. Bei der Onlinebereitstellung werden die neuesten Featurewerte einer Teilmenge der Featuredatenquelle für Onlinevorhersagen abgerufen. Bei der Offline- oder Batchbereitstellung werden große Mengen von Featuredaten für die Offlineverarbeitung exportiert, z. B. für das ML-Modelltraining.

Feature-Zeitstempel

Ein Feature-Zeitstempel gibt an, wann die Gruppe von Featurewerten in einem bestimmten Featureeintrag für eine Entität generiert wurden.

Feature-Datensatz

Ein Feature-Datensatz ist eine Aggregation aller Featurewerte, die die Attribute einer eindeutigen Entität zu einem bestimmten Zeitpunkt beschreiben.

Feature-Registry

Eine Feature-Registry ist eine zentrale Schnittstelle zur Aufzeichnung von Feature-Datenquellen, die Sie für Onlinevorhersagen bereitstellen möchten.

Featuregruppe

Eine Featuregruppe ist eine Feature-Registry-Ressource, die einer BigQuery-Quelltabelle oder -Ansicht entspricht, die Featuredaten enthält. Eine Featureansicht kann Features enthalten und kann als logische Gruppierung der Featurespalten in der Datenquelle betrachtet werden.

Featureansicht

Eine Featureansicht ist eine logische Sammlung von Features, die aus einer BigQuery-Datenquelle in einer Onlinespeicherinstanz materialisiert werden. In einer Featureansicht werden die Featuredaten des Kunden gespeichert und regelmäßig aktualisiert, die regelmäßig aus der BigQuery-Quelle aktualisiert werden. Eine Featureansicht ist dem Featuredatenspeicher entweder direkt oder über Verknüpfungen mit Feature-Registry-Ressourcen zugeordnet.

SDK für Google Cloud Pipeline-Komponenten

Das Google Cloud Pipeline Components (GCPC) SDK bietet eine Reihe vordefinierter Kubeflow Pipelines-Komponenten, die produktionsbereit, leistungsfähig und einfach zu verwenden sind. Sie können Google Cloud-Pipeline-Komponenten verwenden, um ML-Pipelines in Vertex AI Pipelines und anderen Ausführungs-Back-Ends der ML-Pipeline zu definieren und auszuführen, die mit Kubeflow Pipelines kompatibel sind. Weitere Informationen finden Sie unter .

histogram

Eine grafische Darstellung der Variation in einem Satz von Daten mithilfe von Balken. Ein Histogramm visualisiert Muster, die in einer einfachen Zahlentabelle schwer zu erkennen sind.

index

Eine Sammlung von Vektoren, die gemeinsam für die Ähnlichkeitssuche bereitgestellt werden. Vektoren können einem Index hinzugefügt oder aus einem Index entfernt werden. Ähnlichkeitssuchanfragen werden für einen bestimmten Index ausgegeben und suchen über die Vektoren in diesem Index.

Ground Truth

Ein Begriff, bei dem das maschinelle Lernen auf Genauigkeit im echten Leben geprüft wird, z. B. ein Ground Truth-Dataset.

Machine Learning Metadata

ML Metadata (MLMD) ist eine Bibliothek zum Aufzeichnen und Abrufen von Metadaten, die mit ML-Entwickler- und Data-Scientist-Workflows verknüpft sind. MLMD ist ein integraler Bestandteil von TensorFlow Extended (TFX), der jedoch so konzipiert ist, dass er unabhängig verwendet werden kann. Als Teil der größeren TFX-Plattform interagieren die meisten Nutzer nur mit MLMD, wenn sie die Ergebnisse von Pipelinekomponenten untersuchen, z. B. in Notebooks oder in TensorBoard.

Verwaltetes Dataset

Ein Dataset-Objekt, das von Vertex AI erstellt und gehostet wird.

Metadaten-Ressourcen

Vertex ML Metadata enthält ein diagrammähnliches Datenmodell zur Darstellung von Metadaten, die aus ML-Workflows erstellt und genutzt werden. Die Hauptkonzepte sind Artefakte, Ausführungen, Ereignisse und Kontexte.

MetadataSchema

Ein MetadataSchema beschreibt das Schema für bestimmte Arten von Artefakten, Ausführungen oder Kontexten. MetadataSchemas werden verwendet, um die Schlüssel/Wert-Paare während der Erstellung der entsprechenden Metadata-Ressourcen zu validieren. Die Schemavalidierung wird nur für übereinstimmende Felder zwischen der Ressource und dem MetadataSchema durchgeführt. Typschemas werden mit OpenAPI-Schemaobjekten dargestellt, die mit YAML beschrieben werden sollten.

MetadataStore

Ein MetadataStore ist der Container der obersten Ebene für Metadatenressourcen. MetadataStore ist regional und einem bestimmten Google Cloud-Projekt zugeordnet. In der Regel verwendet eine Organisation einen gemeinsam genutzten MetadataStore für Metadatenressourcen in jedem Projekt.

ML-Pipelines

ML-Pipelines sind portable und skalierbare ML-Workflows, die auf Containern basieren.

model

Alle Modelle, vortrainiert oder nicht.

Modellressourcenname

Der Ressourcenname für eine model ist: projects/<PROJECT_ID>/locations/<LOCATION_ID>/models/<MODEL_ID>. Sie finden die Modell-ID in der Cloud Console auf der Seite „Modell-Registry“.

Offlinespeicher

Der Offlinespeicher ist eine Speichereinrichtung, in der aktuelle Featuredaten und Feature-Verlaufsdaten gespeichert werden, die normalerweise zum Trainieren von ML-Modellen verwendet werden. Ein Offlinespeicher enthält auch die neuesten Featurewerte, die Sie für Onlinevorhersagen bereitstellen können.

Onlinespeicher

Bei der Featureverwaltung ist ein Onlinespeicher eine Speichereinrichtung für die neuesten Featurewerte, die für Onlinevorhersagen bereitgestellt werden.

Parameter

Parameter sind Schlüsseleingabewerte, die eine Ausführung konfigurieren, das Verhalten der Ausführung steuern und die Ergebnisse der Ausführung beeinflussen. Beispiele sind die Lernrate, die Abbruchrate und die Anzahl der Trainingsschritte.

Pipeline

ML-Pipelines sind portable und skalierbare ML-Workflows, die auf Containern basieren.

Pipeline-Komponente

Ein eigenständiger Codesatz, der einen Schritt im Arbeitsablauf einer Pipeline ausführt, z. B. Datenvorverarbeitung, Datentransformation und Modelltraining.

Pipelinejob

Eine Ressource in der Vertex AI API, die den Vertex-Pipelinejobs entspricht. Nutzer erstellen einen PipelineJob, wenn sie eine ML-Pipeline in Vertex AI ausführen möchten.

Pipelineausführung

Ein oder mehrere Vertex PipelineJobs können mit einem Test verknüpft werden, wobei jeder PipelineJob als einzelne Ausführung dargestellt wird. In diesem Kontext werden die Parameter der Ausführung von den Parametern des PipelineJobs abgeleitet. Die Messwerte werden aus den von diesem PipelineJob generierten system.Metric-Artefakten abgeleitet. Die Artefakte der Ausführung werden aus Artefakten abgeleitet, die von diesem PipelineJob erstellt werden.

Pipelinevorlage

Eine ML-Workflow-Definition, die ein einzelner Nutzer oder mehrere Nutzer wiederverwenden können, um mehrere Pipelineausführungen zu erstellen.

Recall

Der Prozentsatz der echten nächsten Nachbarn, die vom Index zurückgegeben werden. Wenn z. B. eine Abfrage nach 20 nächsten Nachbarn 19 der „grundlegend echten“ nächsten Nachbarn zurückgibt, beträgt der Recall 19/20x100 = 95 %.

Einschränkungen

Funktionen zum "Einschränken" von Suchanfragen auf eine Teilmenge des Index mithilfe von booleschen Regeln. „Einschränken“ wird auch als „Filter“ bezeichnet. In der Vektorsuche können Sie die numerische Filterung und die Textattributfilterung verwenden.

Dienstkonto

In der Google Cloud ist ein Dienstkonto ein spezieller Kontotyp, der nicht von einer Person, sondern von einer Anwendung oder einer VM-Instanz verwendet wird. Anwendungen verwenden Dienstkonten für autorisierte API-Aufrufe.

Zusammenfassende Messwerte

Zusammenfassende Messwerte sind ein einzelner Wert für jeden Messwertschlüssel in einer Testausführung. Beispiel: Die Testgenauigkeit eines Tests ist die Genauigkeit, die anhand eines Test-Datasets am Ende des Trainings berechnet wird und als einzelner zusammenfassender Messwert erfasst werden kann.

TensorBoard

TensorBoard ist eine Suite von Webanwendungen zum Visualisieren und Verstehen von TensorFlow-Ausführungen und -Modellen. Weitere Informationen finden Sie unter TensorBoard.

TensorBoard-Ressourcenname

Ein TensorBoard-Ressourcenname wird verwendet, um eine Vertex AI TensorBoard-Instanz vollständig zu identifizieren. Das Format ist: projects/PROJECT_ID_OR_NUMBER/locations/REGION/tensorboard/TENSORBOARD_INSTANCE_ID.

TensorBoard-Instanz

Eine TensorBoard-Instanz ist eine regionalisierte Ressource, die Vertex AI TensorBoard-Experimente speichert, die mit einem Projekt verknüpft sind. Sie können mehrere TensorBoard-Instanzen in einem Projekt erstellen, wenn Sie beispielsweise mehrere CMEK-fähige Instanzen benötigen. Dies ist mit der TensorBoard-Ressource in der API identisch.

TensorFlow Extended (TFX)

TensorFlow Extended (TFX), eine End-to-End-Plattform zum Bereitstellen von ML-Pipelines für die Produktion basierend auf der TensorFlow-Plattform.

zeitlicher Versatz, Zeitstempel

Der zeitliche Versatz bezieht sich auf den Beginn eines Videos.

Zeitsegment

Ein Zeitsegment wird durch den zeitlichen Versatz am Beginn und Ende identifiziert.

Zeitachsenmesswerte

Zeitachsenmesswerte sind Längengradmesswerte, wobei jeder Wert einen Schritt im Teil der Trainingsroutine einer Ausführung darstellt. Zeitachsenmesswerte werden in Vertex AI TensorBoard gespeichert. Vertex AI Experiments speichert einen Verweis auf die Vertex TensorBoard-Ressource.

Token

Ein Token in einem Sprachmodell ist die atomare Einheit, die das Modell trainiert und Vorhersagen für Wörter, Morpheme und Zeichen trifft. In Domains außerhalb von Sprachmodellen können Tokens andere Arten von atomaren Einheiten darstellen. Beim maschinellen Sehen kann ein Token beispielsweise eine Teilmenge eines Bildes sein.

nicht verwaltete Artefakte

Ein Artefakt außerhalb des Kontexts von Vertex AI.

vector

Ein Vektor ist eine Liste von Gleitkommawerten mit Größe und Richtung. Sie können damit alle Arten von Daten darstellen, z. B. Zahlen, Punkte im Raum oder Richtungen.

Vertex AI Experiments

Mit Vertex AI Experiments können Nutzer Folgendes verfolgen: (i) Schritte einer Testausführung, z. B. Vorverarbeitung, Training, (ii) Eingaben wie Algorithmus, Parameter, Datasets, (iii) Ausgaben dieser Schritte, z. B. Modelle, Prüfpunkte, Messwerte.

Vertex AI TensorBoard-Test

Die mit einem Test verknüpften Daten können in der TensorBoard-Webanwendung (Skalar, Histogramme, Verteilungen usw.) angezeigt werden. Zeitachsen-Skalar können in der Google Cloud Console angezeigt werden. Weitere Informationen finden Sie unter Ausführungen vergleichen und analysieren.

Vertex AI SDK für Python

Das Vertex AI SDK für Python bietet ähnliche Funktionen wie die Vertex AI Python-Clientbibliothek, mit der Ausnahme, dass das SDK auf höherer Ebene arbeitet und weniger detailliert ist.

Vertex-Datentyp

Vertex AI-Datentypen sind "Bild", "Text", "Tabelle" und "Video".

Videosegment

Ein Videosegment wird durch den zeitlichen Versatz am Beginn und Ende eines Videos identifiziert.

Virtual Private Cloud (VPC)

Die Virtual Private Cloud ist ein konfigurierbarer On-Demand-Pool von gemeinsam genutzten Computing-Ressourcen, der in einer öffentlichen Cloud-Umgebung zugewiesen ist und eine Isolationsebene zwischen verschiedenen Organisationen bietet, die diese Ressourcen verwenden.