Glossar zu Vertex AI

  • Annotationssatz
    • Ein Annotationssatz enthält die Labels, die den hochgeladenen Quelldateien in einem Dataset zugeordnet sind. Ein Annotationssatz ist sowohl mit einem Datentyp als auch mit einem Ziel verknüpft (z. B. Video/Klassifizierung).
  • API-Endpunkte
    • API-Endpunkte sind ein Dienstkonfigurationsaspekt, mit dem die Netzwerkadressen, auch Dienstendpunkte, angegeben werden. (z. B. aiplatform.googleapis.com).
  • Annäherung an den nächsten Nachbarn (ANN)
    • Der ANN-Dienst (Approximate Nearest Neighbor) ist eine hochskalierbare Lösung mit niedriger Latenz, mit der ähnliche Vektoren (oder genauer gesagt „Embeddings“) für einen großen Korpus gefunden werden können. Weitere Informationen finden Sie unter Vektorsuche für semantisches Matching verwenden.
  • artifact
    • Ein Artefakt ist eine einzelne Entität oder ein Datenelement, das von einem ML-Workflow erzeugt und genutzt wird. Beispiele für Artefakte sind Datasets, Modelle, Eingabedateien und Trainingslogs.
  • Artifact Registry
    • Artifact Registry ist ein universeller Artefaktverwaltungsdienst. Dies ist der empfohlene Dienst zum Verwalten von Containern und anderen Artefakten in Google Cloud. Weitere Informationen finden Sie unter Artifact Registry.
  • authentication
    • Überprüfung der Identität eines Clients (z. B. eines Nutzers oder eines anderen Prozesses), um auf ein gesichertes System zuzugreifen. Ein Client, der seine Identität nachgewiesen hat, wird als authentifiziert bezeichnet. Weitere Informationen finden Sie unter Authentifizierungsmethoden bei Google.
  • Batchvorhersage
    • Die Batchvorhersage gibt für eine Gruppe von Vorhersageanfragen und -ausgaben die Ergebnisse in einer einzelnen Datei aus. Weitere Informationen finden Sie unter Batchvorhersagen abrufen.
  • Begrenzungsrahmen
    • Ein Begrenzungsrahmen für ein Objekt im Videoframe kann auf zwei Arten angegeben werden (i) Mithilfe von zwei Eckpunkten, die aus einer Reihe von x- und y-Koordinaten bestehen, wenn sie diagonale gegenüberliegende Punkte des Rechtecks sind. Beispiel: x_relative_min, y_relative_min,,,x_relative_max,y_relative_max,, (ii) Mithilfe aller vier Eckpunkte. Weitere Informationen finden Sie unter Videodaten vorbereiten.
  • Klassifizierungsmesswerte
    • Unterstützte Klassifizierungsmesswerte im Vertex AI SDK für Python sind Wahrheitsmatrix und ROC-Kurve.
  • context
    • Mit einem Kontext werden Artefakte und Ausführungen in einer einzigen, abfragbaren und typisierten Kategorie zusammengefasst. Kontexte können zur Darstellung von Metadaten verwendet werden. Ein Beispiel für einen Kontext wäre die Ausführung einer Pipeline für maschinelles Lernen.
  • Vom Kunden verwaltete Verschlüsselungsschlüssel (Customer Managed Encryption Keys, CMEK)
    • Vom Kunden verwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEK) sind Integrationen, mit denen Kunden Daten in vorhandenen Google-Diensten mit einem Schlüssel verschlüsseln können, den sie in Cloud KMS (alias Storky) verwalten. Der Schlüssel in Cloud KMS ist der Schlüsselverschlüsselungsschlüssel, der seine Daten schützt. Weitere Informationen finden Sie unter Vom Kunden verwaltete Verschlüsselungsschlüssel (CMEK).
  • Dataset
    • Ein Dataset ist allgemein als eine Sammlung strukturierter oder unstrukturierter Datensätze definiert. Weitere Informationen finden Sie unter Dataset erstellen.
  • Einbettung
    • Eine Einbettung ist ein Vektortyp, der zur Darstellung von Daten verwendet wird, um ihre semantische Bedeutung zu erfassen. Einbettungen werden meist mithilfe von Techniken des maschinellen Lernens erstellt und häufig in Natural Language Processing (NLP) und anderen ML-Anwendungen verwendet.
  • Ereignis
    • Ein Ereignis beschreibt die Beziehung zwischen Artefakten und Ausführungen. Jedes Artefakt kann von einer Ausführung erstellt und von anderen Ausführungen genutzt werden. Anhand von Ereignissen können Sie die Herkunft von Artefakten in ihren ML-Workflows ermitteln, indem Artefakte und Ausführungen verkettet werden.
  • Ausführung
    • Eine Ausführung ist ein Datensatz eines einzelnen Workflows für maschinelles Lernen, der normalerweise mit seinen Laufzeitparametern annotiert ist. Beispiele für Ausführungen sind Datenaufnahme, Datenvalidierung, Modelltraining, Modellbewertung und Modellbereitstellung.
  • Test
    • Ein Test ist ein Kontext, der eine Reihe von n Testausführungen zusätzlich zu Pipeline-Ausführungen enthalten kann, in denen ein Nutzer als Gruppe verschiedene Konfigurationen wie Eingabeartefakte oder Hyperparameter untersuchen kann.
  • Testausführung
    • Eine Testausführung kann benutzerdefinierte Messwerte, Parameter, Ausführungen, Artefakte und Vertex-Ressourcen enthalten (z. B. PipelineJob).
  • Explorative Datenanalyse
    • In der Statistik ist die explorative Datenanalyse (EDA) ein Ansatz zur Analyse von Datasets, um ihre Hauptmerkmale zusammenzufassen, oft mit visuellen Methoden. Optional kann ein statistisches Modell verwendet werden. EDA dient aber hauptsächlich dazu, zu sehen, was uns die Daten über die formalen Modellierungs- oder Hypothesentestaufgaben hinaus sagen können.
  • Feature
    • Beim maschinellen Lernen (ML) ist ein Feature ein Merkmal oder Attribut einer Instanz oder Entität, das als Eingabe zum Trainieren eines ML-Modells oder für Vorhersagen verwendet wird.
  • Feature Engineering
    • Feature Engineering ist der Prozess der Umwandlung von Rohdaten des maschinellen Lernens (ML) in Features, die zum Trainieren von ML-Modellen oder für Vorhersagen verwendet werden können.
  • Featurewert
    • Ein Featurewert entspricht dem tatsächlichen und messbaren Wert eines Features (Attributs) einer Instanz oder Entität. Eine Sammlung von Featurewerten für die eindeutige Entität stellt den Feature-Datensatz dar, der der Entität entspricht.
  • Bereitstellung von Features
    • Das Bereitstellen von Features ist der Export oder Abruf von Featurewerten für Training oder Inferenz. In Vertex AI gibt es zwei Arten der Bereitstellung von Features: Onlinebereitstellung und Offlinebereitstellung. Bei der Onlinebereitstellung werden die neuesten Featurewerte einer Teilmenge der Feature-Datenquelle für Onlinevorhersagen abgerufen. Bei der Offline- oder Batchbereitstellung werden große Mengen von Featuredaten für die Offlineverarbeitung exportiert, z. B. für das ML-Modelltraining.
  • Feature-Zeitstempel
    • Ein Feature-Zeitstempel gibt an, wann die Featurewerte in einem bestimmten Feature-Datensatz für eine Entität generiert wurden.
  • Feature-Datensatz
    • Ein Feature-Datensatz ist eine Aggregation aller Featurewerte, die die Attribute einer eindeutigen Entität zu einem bestimmten Zeitpunkt beschreiben.
  • Feature Registry
    • Ein Feature Registry ist eine zentrale Schnittstelle zum Erfassen von Feature-Datenquellen, die Sie für Onlinevorhersagen bereitstellen möchten. Weitere Informationen finden Sie unter Feature Registry einrichten.
  • Featuregruppe
    • Eine Featuregruppe ist eine Ressource der Feature-Registry, die einer BigQuery-Quelltabelle oder ‑ansicht mit Featuredaten entspricht. Eine Feature-Ansicht kann Features enthalten und als logische Gruppierung von Featurespalten in der Datenquelle betrachtet werden.
  • Featureansicht
    • Eine Featureansicht ist eine logische Sammlung von Features, die aus einer BigQuery-Datenquelle in eine Onlinespeicher-Instanz materialisiert werden. In einer Featureansicht werden die Feature-Daten des Kunden gespeichert und regelmäßig aus der BigQuery-Quelle aktualisiert. Eine Featureansicht ist dem Featuredatenspeicher entweder direkt oder über Verknüpfungen zu Feature Registry-Ressourcen zugeordnet.
  • SDK für Google Cloud Pipeline-Komponenten
    • Das Google Cloud Pipeline Components (GCPC) SDK bietet eine Reihe vordefinierter Kubeflow Pipelines-Komponenten, die produktionsbereit, leistungsfähig und einfach zu verwenden sind. Mit Google Cloud-Pipeline-Komponenten können Sie ML-Pipelines in Vertex AI Pipelines und anderen mit Kubeflow Pipelines konformen Backends zur ML-Pipeline-Ausführung definieren und ausführen. Weitere Informationen finden Sie unter Einführung in Google Cloud-Pipeline-Komponenten.
  • histogram
    • Eine grafische Darstellung der Variation in einem Satz von Daten mithilfe von Balken. Ein Histogramm visualisiert Muster, die in einer einfachen Zahlentabelle schwer zu erkennen sind.
  • index
    • Eine Sammlung von Vektoren, die gemeinsam für die Ähnlichkeitssuche bereitgestellt werden. Vektoren können einem Index hinzugefügt oder aus einem Index entfernt werden. Ähnlichkeitssuchanfragen werden für einen bestimmten Index ausgegeben und suchen über die Vektoren in diesem Index.
  • Ground Truth
    • Ein Begriff, bei dem das maschinelle Lernen auf Genauigkeit im echten Leben geprüft wird, z. B. ein Ground Truth-Dataset.
  • Machine Learning Metadata
    • ML Metadata (MLMD) ist eine Bibliothek zum Aufzeichnen und Abrufen von Metadaten, die mit ML-Entwickler- und Data-Scientist-Workflows verknüpft sind. MLMD ist ein integraler Bestandteil von TensorFlow Extended (TFX), der jedoch so konzipiert ist, dass er unabhängig verwendet werden kann. Als Teil der größeren TFX-Plattform interagieren die meisten Nutzer nur mit MLMD, wenn sie die Ergebnisse von Pipelinekomponenten untersuchen, z. B. in Notebooks oder in TensorBoard.
  • Verwaltetes Dataset
    • Ein Dataset-Objekt, das von Vertex AI erstellt und gehostet wird.
  • Metadaten-Ressourcen
    • Vertex ML Metadata enthält ein diagrammähnliches Datenmodell zur Darstellung von Metadaten, die aus ML-Workflows erstellt und genutzt werden. Die Hauptkonzepte sind Artefakte, Ausführungen, Ereignisse und Kontexte.
  • MetadataSchema
    • Ein MetadataSchema beschreibt das Schema für bestimmte Arten von Artefakten, Ausführungen oder Kontexten. MetadataSchemas werden verwendet, um die Schlüssel/Wert-Paare während der Erstellung der entsprechenden Metadata-Ressourcen zu validieren. Die Schemavalidierung wird nur für übereinstimmende Felder zwischen der Ressource und dem MetadataSchema durchgeführt. Typschemas werden mit OpenAPI-Schemaobjekten dargestellt, die mit YAML beschrieben werden sollten.
  • MetadataStore
    • Ein MetadataStore ist der Container der obersten Ebene für Metadatenressourcen. MetadataStore ist regional und einem bestimmten Google Cloud-Projekt zugeordnet. In der Regel verwendet eine Organisation einen gemeinsam genutzten MetadataStore für Metadatenressourcen in jedem Projekt.
  • ML-Pipelines
    • ML-Pipelines sind portable und skalierbare ML-Workflows, die auf Containern basieren.
  • model
    • Alle Modelle, vortrainiert oder nicht.
  • Modellressourcenname
    • Der Ressourcenname für eine model ist: projects/<PROJECT_ID>/locations/<LOCATION_ID>/models/<MODEL_ID>. Sie finden die Modell-ID in der Cloud Console auf der Seite „Modell-Registry“.
  • Offlinespeicher
    • Der Offlinespeicher ist eine Speichereinrichtung, in der aktuelle Featuredaten und Feature-Verlaufsdaten gespeichert werden, die normalerweise zum Trainieren von ML-Modellen verwendet werden. Ein Offlinespeicher enthält auch die neuesten Featurewerte, die Sie für Onlinevorhersagen bereitstellen können.
  • Onlinespeicher
    • Bei der Featureverwaltung ist ein Onlinespeicher eine Speichereinrichtung für die neuesten Featurewerte, die für Onlinevorhersagen bereitgestellt werden.
  • Parameter
    • Parameter sind Schlüsseleingabewerte, die eine Ausführung konfigurieren, das Verhalten der Ausführung steuern und die Ergebnisse der Ausführung beeinflussen. Beispiele sind die Lernrate, die Abbruchrate und die Anzahl der Trainingsschritte.
  • Pipeline
    • ML-Pipelines sind portable und skalierbare ML-Workflows, die auf Containern basieren.
  • Pipeline-Komponente
    • Ein eigenständiger Codesatz, der einen Schritt im Arbeitsablauf einer Pipeline ausführt, z. B. Datenvorverarbeitung, Datentransformation und Modelltraining.
  • Pipelinejob
    • Eine Ressource in der Vertex AI API, die den Vertex-Pipelinejobs entspricht. Nutzer erstellen einen PipelineJob, wenn sie eine ML-Pipeline in Vertex AI ausführen möchten.
  • Pipelineausführung
    • Ein oder mehrere Vertex PipelineJobs können mit einem Test verknüpft werden, wobei jeder PipelineJob als einzelne Ausführung dargestellt wird. In diesem Kontext werden die Parameter der Ausführung von den Parametern des PipelineJobs abgeleitet. Die Messwerte werden aus den von diesem PipelineJob generierten system.Metric-Artefakten abgeleitet. Die Artefakte der Ausführung werden aus Artefakten abgeleitet, die von diesem PipelineJob erstellt werden.
  • Pipelinevorlage
    • Eine ML-Workflow-Definition, die ein einzelner Nutzer oder mehrere Nutzer wiederverwenden können, um mehrere Pipelineausführungen zu erstellen.
  • Recall
    • Der Prozentsatz der echten nächsten Nachbarn, die vom Index zurückgegeben werden. Wenn z. B. eine Abfrage nach 20 nächsten Nachbarn 19 der „grundlegend echten“ nächsten Nachbarn zurückgibt, beträgt der Recall 19/20x100 = 95 %.
  • Einschränkungen
    • Funktionen zum "Einschränken" von Suchanfragen auf eine Teilmenge des Index mithilfe von booleschen Regeln. „Einschränken“ wird auch als „Filter“ bezeichnet. Mit der Vektorsuche können Sie numerische Filter und Textattributfilter verwenden.
  • Dienstkonto
    • In der Google Cloud ist ein Dienstkonto ein spezieller Kontotyp, der nicht von einer Person, sondern von einer Anwendung oder einer VM-Instanz verwendet wird. Anwendungen verwenden Dienstkonten für autorisierte API-Aufrufe.
  • Zusammenfassende Messwerte
    • Zusammenfassende Messwerte sind ein einzelner Wert für jeden Messwertschlüssel in einer Testausführung. Beispiel: Die Testgenauigkeit eines Tests ist die Genauigkeit, die anhand eines Test-Datasets am Ende des Trainings berechnet wird und als einzelner zusammenfassender Messwert erfasst werden kann.
  • TensorBoard
    • TensorBoard ist eine Suite von Webanwendungen zum Visualisieren und Verstehen von TensorFlow-Ausführungen und ‑Modellen. Weitere Informationen finden Sie unter TensorBoard.
  • TensorBoard-Ressourcenname
    • Mit einem TensorBoard-Ressourcennamen wird eine Vertex AI TensorBoard-Instanz vollständig identifiziert. Das Format lautet: projects/PROJECT_ID_OR_NUMBER/locations/REGION/tensorboards/TENSORBOARD_INSTANCE_ID.
  • TensorBoard-Instanz
    • Eine TensorBoard-Instanz ist eine regionalisierte Ressource, in der Vertex AI TensorBoard-Tests gespeichert werden, die mit einem Projekt verknüpft sind. Sie können in einem Projekt mehrere TensorBoard-Instanzen erstellen, wenn Sie beispielsweise mehrere CMEK-fähige Instanzen benötigen. Dieser Wert entspricht der TensorBoard-Ressource in der API.
  • TensorFlow Extended (TFX)
    • TensorFlow Extended (TFX), eine End-to-End-Plattform zum Bereitstellen von ML-Pipelines für die Produktion basierend auf der TensorFlow-Plattform.
  • zeitlicher Versatz, Zeitstempel
    • Der zeitliche Versatz bezieht sich auf den Beginn eines Videos.
  • Zeitsegment
    • Ein Zeitsegment wird durch den zeitlichen Versatz am Beginn und Ende identifiziert.
  • Zeitachsenmesswerte
    • Zeitachsenmesswerte sind Längengradmesswerte, wobei jeder Wert einen Schritt im Teil der Trainingsroutine einer Ausführung darstellt. Zeitachsenmesswerte werden in Vertex AI TensorBoard gespeichert. Vertex AI Experiments speichert einen Verweis auf die Vertex TensorBoard-Ressource.
  • Token
    • Ein Token in einem Sprachmodell ist die atomare Einheit, die das Modell trainiert und Vorhersagen für Wörter, Morpheme und Zeichen trifft. In anderen Bereichen als Sprachmodellen können Tokens auch andere Arten von atomaren Einheiten darstellen. Bei der Computer Vision kann ein Token beispielsweise ein Teil eines Bildes sein.
  • nicht verwaltete Artefakte
    • Ein Artefakt außerhalb des Kontexts von Vertex AI.
  • vector
    • Ein Vektor ist eine Liste von Gleitkommawerten mit Betrag und Richtung. Sie können damit alle Arten von Daten darstellen, z. B. Zahlen, Punkte im Raum oder Richtungen.
  • Vertex AI Experiments
    • Mit Vertex AI Experiments können Nutzer Folgendes verfolgen: (i) Schritte einer Testausführung, z. B. Vorverarbeitung, Training, (ii) Eingaben wie Algorithmus, Parameter, Datasets, (iii) Ausgaben dieser Schritte, z. B. Modelle, Prüfpunkte, Messwerte.
  • Vertex AI TensorBoard-Test
    • Die mit einem Test verknüpften Daten (Skalare, Histogramme, Verteilungen usw.) können in der TensorBoard-Webanwendung angezeigt werden. Zeitreihenskalare können in der Google Cloud Console aufgerufen werden. Weitere Informationen finden Sie unter Ausführungen vergleichen und analysieren.
  • Vertex AI SDK für Python
    • Das Vertex AI SDK für Python bietet ähnliche Funktionen wie die Vertex AI Python-Clientbibliothek, mit der Ausnahme, dass das SDK auf höherer Ebene arbeitet und weniger detailliert ist.
  • Vertex-Datentyp
    • Vertex AI-Datentypen sind "Bild", "Text", "Tabelle" und "Video".
  • Videosegment
    • Ein Videosegment wird durch den zeitlichen Versatz am Beginn und Ende eines Videos identifiziert.
  • Virtual Private Cloud (VPC)
    • Eine Virtual Private Cloud ist ein on-demand verfügbarer, konfigurierbarer Pool gemeinsam genutzter Computing-Ressourcen, der in einer öffentlichen Cloud-Umgebung zugewiesen wird und eine gewisse Isolation zwischen verschiedenen Organisationen bietet, die diese Ressourcen nutzen.