Vertex AI-Glossar

  • Annotationssatz
    • Ein Annotationssatz enthält die Labels, die den hochgeladenen Quelldateien in einem Dataset zugeordnet sind. Ein Annotationssatz ist sowohl mit einem Datentyp als auch mit einem Ziel verknüpft (z. B. Video/Klassifizierung).
  • API-Endpunkte
    • API-Endpunkte sind ein Dienstkonfigurationsaspekt, mit dem die Netzwerkadressen, auch Dienstendpunkte, angegeben werden. (z. B. aiplatform.googleapis.com).
  • Annäherung an den nächsten Nachbarn (ANN)
    • Der ANN-Dienst (Approximate Nearest Neighbor) ist eine Lösung mit hoher Skalierung und niedriger Latenz, um ähnliche Vektoren (oder genauer gesagt "Einbettungen") für einen großen Korpus zu finden.
  • artifact
    • Ein Artefakt ist eine einzelne Entität oder ein Datenelement, das von einem ML-Workflow erzeugt und genutzt wird. Beispiele für Artefakte sind Datasets, Modelle, Eingabedateien und Trainingslogs.
  • Artifact Registry
    • Artifact Registry ist ein universeller Artefaktverwaltungsdienst. Dies ist der empfohlene Dienst zum Verwalten von Containern und anderen Artefakten in Google Cloud. Weitere Informationen finden Sie unter Artifact Registry.
  • Batchvorhersage
    • Die Batchvorhersage gibt für eine Gruppe von Vorhersageanfragen und -ausgaben die Ergebnisse in einer einzelnen Datei aus. Weitere Informationen finden Sie unter Batchvorhersagen abrufen.
  • Begrenzungsrahmen
    • Ein Begrenzungsrahmen für ein Objekt im Videoframe kann auf zwei Arten angegeben werden (i) Mithilfe von zwei Eckpunkten, die aus einer Reihe von x- und y-Koordinaten bestehen, wenn sie diagonale gegenüberliegende Punkte des Rechtecks sind. Beispiel: x_relative_min, y_relative_min,,,x_relative_max,y_relative_max,, (ii) Mithilfe aller vier Eckpunkte. Weitere Informationen finden Sie unter Videodaten vorbereiten.
  • Klassifizierungsmesswerte
    • Unterstützte Klassifizierungsmesswerte im Vertex AI SDK für Python sind Wahrheitsmatrix und ROC-Kurve.
  • context
    • Mit einem Kontext werden Artefakte und Ausführungen in einer einzigen, abfragbaren und typisierten Kategorie zusammengefasst. Kontexte können zur Darstellung von Metadaten verwendet werden. Ein Beispiel für einen Kontext wäre die Ausführung einer Pipeline für maschinelles Lernen.
  • Vom Kunden verwaltete Verschlüsselungsschlüssel (Customer Managed Encryption Keys, CMEK)
    • Vom Kunden verwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEK) sind Integrationen, mit denen Kunden Daten in vorhandenen Google-Diensten mit einem Schlüssel verschlüsseln können, den sie in Cloud KMS (alias Storky) verwalten. Der Schlüssel in Cloud KMS ist der Schlüsselverschlüsselungsschlüssel, der seine Daten schützt.
  • Dataset
    • Ein Dataset ist allgemein als eine Sammlung strukturierter oder unstrukturierter Datensätze definiert. Weitere Informationen finden Sie unter Dataset erstellen.
  • Einbettung
    • Eine Einbettung ist ein Vektortyp, der zur Darstellung von Daten verwendet wird, um ihre semantische Bedeutung zu erfassen. Einbettungen werden meist mithilfe von Techniken des maschinellen Lernens erstellt und häufig in Natural Language Processing (NLP) und anderen ML-Anwendungen verwendet.
  • Ereignis
    • Ein Ereignis beschreibt die Beziehung zwischen Artefakten und Ausführungen. Jedes Artefakt kann von einer Ausführung erstellt und von anderen Ausführungen genutzt werden. Anhand von Ereignissen können Sie die Herkunft von Artefakten in ihren ML-Workflows ermitteln, indem Artefakte und Ausführungen verkettet werden.
  • Ausführung
    • Eine Ausführung ist ein Datensatz eines einzelnen Workflows für maschinelles Lernen, der normalerweise mit seinen Laufzeitparametern annotiert ist. Beispiele für Ausführungen sind Datenaufnahme, Datenvalidierung, Modelltraining, Modellbewertung und Modellbereitstellung.
  • Test
    • Ein Test ist ein Kontext, der eine Reihe von n Testausführungen zusätzlich zu Pipeline-Ausführungen enthalten kann, in denen ein Nutzer als Gruppe verschiedene Konfigurationen wie Eingabeartefakte oder Hyperparameter untersuchen kann.
  • Testausführung
    • Eine Testausführung kann benutzerdefinierte Messwerte, Parameter, Ausführungen, Artefakte und Vertex-Ressourcen enthalten (z. B. PipelineJob).
  • Explorative Datenanalyse
    • In der Statistik ist die explorative Datenanalyse (EDA) ein Ansatz zur Analyse von Datasets, um ihre Hauptmerkmale zusammenzufassen, oft mit visuellen Methoden. Optional kann ein statistisches Modell verwendet werden. EDA dient aber hauptsächlich dazu, zu sehen, was uns die Daten über die formalen Modellierungs- oder Hypothesentestaufgaben hinaus sagen können.
  • Feature
    • Beim maschinellen Lernen (ML) ist ein Feature ein Merkmal oder Attribut einer Instanz oder Entität, das als Eingabe zum Trainieren eines ML-Modells oder für Vorhersagen verwendet wird.
  • Feature Engineering
    • Feature Engineering ist der Prozess der Umwandlung von Rohdaten des maschinellen Lernens (ML) in Features, die zum Trainieren von ML-Modellen oder für Vorhersagen verwendet werden können.
  • Featurewert
    • Ein Featurewert entspricht dem tatsächlichen und messbaren Wert eines Features (Attributs) einer Instanz oder Entität. Eine Sammlung von Featurewerten für die eindeutige Entität stellt den Featureeintrag dar, der der Entität entspricht.
  • Bereitstellung von Features
    • Das Bereitstellen von Features ist der Export oder Abruf von Featurewerten für das Training oder die Inferenz. In Vertex AI gibt es zwei Arten der Featurebereitstellung: Onlinebereitstellung und Offlinebereitstellung. Bei der Onlinebereitstellung werden die neuesten Featurewerte einer Teilmenge der Featuredatenquelle für Onlinevorhersagen abgerufen. Bei der Offline- oder Batchbereitstellung werden große Mengen von Featuredaten für die Offlineverarbeitung exportiert, z. B. für das ML-Modelltraining.
  • Feature-Zeitstempel
    • Ein Feature-Zeitstempel gibt an, wann die Gruppe von Featurewerten in einem bestimmten Featureeintrag für eine Entität generiert wurden.
  • Feature-Datensatz
    • Ein Feature-Datensatz ist eine Aggregation aller Featurewerte, die die Attribute einer eindeutigen Entität zu einem bestimmten Zeitpunkt beschreiben.
  • Feature-Registry
    • Eine Feature-Registry ist eine zentrale Schnittstelle zur Aufzeichnung von Feature-Datenquellen, die Sie für Onlinevorhersagen bereitstellen möchten.
  • Featuregruppe
    • Eine Featuregruppe ist eine Feature-Registry-Ressource, die einer BigQuery-Quelltabelle oder -Ansicht entspricht, die Featuredaten enthält. Eine Featureansicht kann Features enthalten und kann als logische Gruppierung der Featurespalten in der Datenquelle betrachtet werden.
  • Featureansicht
    • Eine Featureansicht ist eine logische Sammlung von Features, die aus einer BigQuery-Datenquelle in einer Onlinespeicherinstanz materialisiert werden. In einer Featureansicht werden die Featuredaten des Kunden gespeichert und regelmäßig aktualisiert, die regelmäßig aus der BigQuery-Quelle aktualisiert werden. Eine Featureansicht ist dem Featuredatenspeicher entweder direkt oder über Verknüpfungen mit Feature-Registry-Ressourcen zugeordnet.
  • SDK für Google Cloud Pipeline-Komponenten
    • Das Google Cloud Pipeline Components (GCPC) SDK bietet eine Reihe vordefinierter Kubeflow Pipelines-Komponenten, die produktionsbereit, leistungsfähig und einfach zu verwenden sind. Sie können Google Cloud-Pipeline-Komponenten verwenden, um ML-Pipelines in Vertex AI Pipelines und anderen Ausführungs-Back-Ends der ML-Pipeline zu definieren und auszuführen, die mit Kubeflow Pipelines kompatibel sind. Weitere Informationen finden Sie unter .
  • histogram
    • Eine grafische Darstellung der Variation in einem Satz von Daten mithilfe von Balken. Ein Histogramm visualisiert Muster, die in einer einfachen Zahlentabelle schwer zu erkennen sind.
  • index
    • Eine Sammlung von Vektoren, die gemeinsam für die Ähnlichkeitssuche bereitgestellt werden. Vektoren können einem Index hinzugefügt oder aus einem Index entfernt werden. Ähnlichkeitssuchanfragen werden für einen bestimmten Index ausgegeben und suchen über die Vektoren in diesem Index.
  • Ground Truth
    • Ein Begriff, bei dem das maschinelle Lernen auf Genauigkeit im echten Leben geprüft wird, z. B. ein Ground Truth-Dataset.
  • Machine Learning Metadata
    • ML Metadata (MLMD) ist eine Bibliothek zum Aufzeichnen und Abrufen von Metadaten, die mit ML-Entwickler- und Data-Scientist-Workflows verknüpft sind. MLMD ist ein integraler Bestandteil von TensorFlow Extended (TFX), der jedoch so konzipiert ist, dass er unabhängig verwendet werden kann. Als Teil der größeren TFX-Plattform interagieren die meisten Nutzer nur mit MLMD, wenn sie die Ergebnisse von Pipelinekomponenten untersuchen, z. B. in Notebooks oder in TensorBoard.
  • Verwaltetes Dataset
    • Ein Dataset-Objekt, das von Vertex AI erstellt und gehostet wird.
  • Metadaten-Ressourcen
    • Vertex ML Metadata enthält ein diagrammähnliches Datenmodell zur Darstellung von Metadaten, die aus ML-Workflows erstellt und genutzt werden. Die Hauptkonzepte sind Artefakte, Ausführungen, Ereignisse und Kontexte.
  • MetadataSchema
    • Ein MetadataSchema beschreibt das Schema für bestimmte Arten von Artefakten, Ausführungen oder Kontexten. MetadataSchemas werden verwendet, um die Schlüssel/Wert-Paare während der Erstellung der entsprechenden Metadata-Ressourcen zu validieren. Die Schemavalidierung wird nur für übereinstimmende Felder zwischen der Ressource und dem MetadataSchema durchgeführt. Typschemas werden mit OpenAPI-Schemaobjekten dargestellt, die mit YAML beschrieben werden sollten.
  • MetadataStore
    • Ein MetadataStore ist der Container der obersten Ebene für Metadatenressourcen. MetadataStore ist regional und einem bestimmten Google Cloud-Projekt zugeordnet. In der Regel verwendet eine Organisation einen gemeinsam genutzten MetadataStore für Metadatenressourcen in jedem Projekt.
  • ML-Pipelines
    • ML-Pipelines sind portable und skalierbare ML-Workflows, die auf Containern basieren.
  • model
    • Alle Modelle, vortrainiert oder nicht.
  • Modellressourcenname
    • Der Ressourcenname für eine model ist: projects/<PROJECT_ID>/locations/<LOCATION_ID>/models/<MODEL_ID>. Sie finden die Modell-ID in der Cloud Console auf der Seite „Modell-Registry“.
  • Offlinespeicher
    • Der Offlinespeicher ist eine Speichereinrichtung, in der aktuelle Featuredaten und Feature-Verlaufsdaten gespeichert werden, die normalerweise zum Trainieren von ML-Modellen verwendet werden. Ein Offlinespeicher enthält auch die neuesten Featurewerte, die Sie für Onlinevorhersagen bereitstellen können.
  • Onlinespeicher
    • Bei der Featureverwaltung ist ein Onlinespeicher eine Speichereinrichtung für die neuesten Featurewerte, die für Onlinevorhersagen bereitgestellt werden.
  • Parameter
    • Parameter sind Schlüsseleingabewerte, die eine Ausführung konfigurieren, das Verhalten der Ausführung steuern und die Ergebnisse der Ausführung beeinflussen. Beispiele sind die Lernrate, die Abbruchrate und die Anzahl der Trainingsschritte.
  • Pipeline
    • ML-Pipelines sind portable und skalierbare ML-Workflows, die auf Containern basieren.
  • Pipeline-Komponente
    • Ein eigenständiger Codesatz, der einen Schritt im Arbeitsablauf einer Pipeline ausführt, z. B. Datenvorverarbeitung, Datentransformation und Modelltraining.
  • Pipelinejob
    • Eine Ressource in der Vertex AI API, die den Vertex-Pipelinejobs entspricht. Nutzer erstellen einen PipelineJob, wenn sie eine ML-Pipeline in Vertex AI ausführen möchten.
  • Pipelineausführung
    • Ein oder mehrere Vertex PipelineJobs können mit einem Test verknüpft werden, wobei jeder PipelineJob als einzelne Ausführung dargestellt wird. In diesem Kontext werden die Parameter der Ausführung von den Parametern des PipelineJobs abgeleitet. Die Messwerte werden aus den von diesem PipelineJob generierten system.Metric-Artefakten abgeleitet. Die Artefakte der Ausführung werden aus Artefakten abgeleitet, die von diesem PipelineJob erstellt werden.
  • Pipelinevorlage
    • Eine ML-Workflow-Definition, die ein einzelner Nutzer oder mehrere Nutzer wiederverwenden können, um mehrere Pipelineausführungen zu erstellen.
  • Recall
    • Der Prozentsatz der echten nächsten Nachbarn, die vom Index zurückgegeben werden. Wenn z. B. eine Abfrage nach 20 nächsten Nachbarn 19 der „grundlegend echten“ nächsten Nachbarn zurückgibt, beträgt der Recall 19/20x100 = 95 %.
  • Einschränkungen
    • Funktionen zum "Einschränken" von Suchanfragen auf eine Teilmenge des Index mithilfe von booleschen Regeln. „Einschränken“ wird auch als „Filter“ bezeichnet. In der Vektorsuche können Sie die numerische Filterung und die Textattributfilterung verwenden.
  • Dienstkonto
    • In der Google Cloud ist ein Dienstkonto ein spezieller Kontotyp, der nicht von einer Person, sondern von einer Anwendung oder einer VM-Instanz verwendet wird. Anwendungen verwenden Dienstkonten für autorisierte API-Aufrufe.
  • Zusammenfassende Messwerte
    • Zusammenfassende Messwerte sind ein einzelner Wert für jeden Messwertschlüssel in einer Testausführung. Beispiel: Die Testgenauigkeit eines Tests ist die Genauigkeit, die anhand eines Test-Datasets am Ende des Trainings berechnet wird und als einzelner zusammenfassender Messwert erfasst werden kann.
  • TensorBoard
    • TensorBoard ist eine Suite von Webanwendungen zum Visualisieren und Verstehen von TensorFlow-Ausführungen und -Modellen. Weitere Informationen finden Sie unter TensorBoard.
  • TensorBoard-Ressourcenname
    • Ein TensorBoard-Ressourcenname wird verwendet, um eine Vertex AI TensorBoard-Instanz vollständig zu identifizieren. Das Format ist: projects/PROJECT_ID_OR_NUMBER/locations/REGION/tensorboard/TENSORBOARD_INSTANCE_ID.
  • TensorBoard-Instanz
    • Eine TensorBoard-Instanz ist eine regionalisierte Ressource, die Vertex AI TensorBoard-Experimente speichert, die mit einem Projekt verknüpft sind. Sie können mehrere TensorBoard-Instanzen in einem Projekt erstellen, wenn Sie beispielsweise mehrere CMEK-fähige Instanzen benötigen. Dies ist mit der TensorBoard-Ressource in der API identisch.
  • TensorFlow Extended (TFX)
    • TensorFlow Extended (TFX), eine End-to-End-Plattform zum Bereitstellen von ML-Pipelines für die Produktion basierend auf der TensorFlow-Plattform.
  • zeitlicher Versatz, Zeitstempel
    • Der zeitliche Versatz bezieht sich auf den Beginn eines Videos.
  • Zeitsegment
    • Ein Zeitsegment wird durch den zeitlichen Versatz am Beginn und Ende identifiziert.
  • Zeitachsenmesswerte
    • Zeitachsenmesswerte sind Längengradmesswerte, wobei jeder Wert einen Schritt im Teil der Trainingsroutine einer Ausführung darstellt. Zeitachsenmesswerte werden in Vertex AI TensorBoard gespeichert. Vertex AI Experiments speichert einen Verweis auf die Vertex TensorBoard-Ressource.
  • Token
    • Ein Token in einem Sprachmodell ist die atomare Einheit, die das Modell trainiert und Vorhersagen für Wörter, Morpheme und Zeichen trifft. In Domains außerhalb von Sprachmodellen können Tokens andere Arten von atomaren Einheiten darstellen. Beim maschinellen Sehen kann ein Token beispielsweise eine Teilmenge eines Bildes sein.
  • nicht verwaltete Artefakte
    • Ein Artefakt außerhalb des Kontexts von Vertex AI.
  • vector
    • Ein Vektor ist eine Liste von Gleitkommawerten mit Größe und Richtung. Sie können damit alle Arten von Daten darstellen, z. B. Zahlen, Punkte im Raum oder Richtungen.
  • Vertex AI Experiments
    • Mit Vertex AI Experiments können Nutzer Folgendes verfolgen: (i) Schritte einer Testausführung, z. B. Vorverarbeitung, Training, (ii) Eingaben wie Algorithmus, Parameter, Datasets, (iii) Ausgaben dieser Schritte, z. B. Modelle, Prüfpunkte, Messwerte.
  • Vertex AI TensorBoard-Test
    • Die mit einem Test verknüpften Daten können in der TensorBoard-Webanwendung (Skalar, Histogramme, Verteilungen usw.) angezeigt werden. Zeitachsen-Skalar können in der Google Cloud Console angezeigt werden. Weitere Informationen finden Sie unter Ausführungen vergleichen und analysieren.
  • Vertex-Datentyp
    • Vertex AI-Datentypen sind "Bild", "Text", "Tabelle" und "Video".
  • Videosegment
    • Ein Videosegment wird durch den zeitlichen Versatz am Beginn und Ende eines Videos identifiziert.
  • Virtual Private Cloud (VPC)
    • Die Virtual Private Cloud ist ein konfigurierbarer On-Demand-Pool von gemeinsam genutzten Computing-Ressourcen, der in einer öffentlichen Cloud-Umgebung zugewiesen ist und eine Isolationsebene zwischen verschiedenen Organisationen bietet, die diese Ressourcen verwenden.