Glosario de Vertex AI

  • conjunto de anotaciones
    • Un conjunto de anotaciones contiene las etiquetas asociadas con los archivos fuente que se suben en un conjunto de datos. Un conjunto de anotaciones está asociado con un tipo de datos y un objetivo (por ejemplo, video/clasificación)
  • extremos de API
    • Los extremos de API son un aspecto de la configuración del servicio que especifica las direcciones de la red, también conocidas como extremos de servicio. (por ejemplo, aiplatform.googleapis.com).
  • Vecino más cercano aproximado (ANN)
    • El servicio de vecino más cercano aproximado (ANN) es una solución de escala masiva y baja latencia para encontrar vectores similares (o, más específicamente, “incorporaciones”) para un corpus grande.
  • artefacto
    • Un artefacto es una entidad discreta o un dato producido y consumido por un flujo de trabajo del aprendizaje automático. Algunos ejemplos de artefactos son los conjuntos de datos, modelos, archivos de entrada y registros de entrenamiento.
  • Artifact Registry
    • Artifact Registry es un servicio universal de administración de artefactos. Es el servicio recomendado para administrar contenedores y otros artefactos en Google Cloud. Para obtener más información, consulta Artifact Registry.
  • predicción por lotes
    • La predicción por lotes toma un grupo de solicitudes de predicción y genera resultados en un solo archivo. Para obtener más información, consulta Obtén predicciones por lotes.
  • cuadro de límite
    • Un cuadro de límite para un objeto en el marco de video se puede especificar de una de dos maneras (i) Mediante 2 vértices que consisten en un conjunto de coordenadas x,y si son puntos diagonalmente opuestos del rectángulo. Por ejemplo: x_relative_min, y_relative_min,,,x_relative_max,y_relative_max,, (ii) Usar los 4 vértices. Para obtener más información, consulta Prepara datos de video.
  • métricas de clasificación
    • Las métricas de clasificación admitidas en el SDK de Vertex AI para Python son la matriz de confusión y la curva ROC.
  • context
    • Un contexto se usa para agrupar artefactos y ejecuciones en una sola categoría consultable y escrita. Los contextos se pueden usar para representar conjuntos de metadatos. Un ejemplo de un contexto sería una ejecución de una canalización de aprendizaje automático.
  • claves de encriptación administradas por el cliente (CMEK)
    • Las claves de encriptación administradas por el cliente (CMEK) son integraciones que permiten a los clientes encriptar datos en servicios de Google existentes mediante una clave que administran en Cloud KMS (también conocido como Storky). La clave de Cloud KMS es la clave de encriptación de claves que protege sus datos.
  • dataset
    • En términos generales, un conjunto de datos se define como una colección de registros de datos estructurados o no estructurados. Para obtener más información, consulta Crea un conjunto de datos.
  • Incorporación
    • Una incorporación es un tipo de vector que se usa para representar datos de una manera que captura su significado semántico. Por lo general, las incorporaciones se crean con técnicas de aprendizaje automático y, a menudo, se usan en el procesamiento de lenguaje natural (PLN) y otras aplicaciones de aprendizaje automático.
  • event
    • Un evento describe la relación entre los artefactos y las ejecuciones. Cada artefacto puede ser generado por una ejecución y consumido por otras ejecuciones. Los eventos te ayudan a determinar la procedencia de los artefactos en sus flujos de trabajo del AA mediante el encadenamiento de artefactos y ejecuciones.
  • ejecución
    • Una ejecución es un registro de un paso de flujo de trabajo de aprendizaje automático individual, que, por lo general, se anota con sus parámetros de entorno de ejecución. Algunos ejemplos de las ejecuciones son la transferencia de datos, la validación de datos, el entrenamiento de modelos, la evaluación de modelos y la implementación de modelos.
  • Experimento
    • Un experimento es un contexto que puede contener un conjunto de n ejecuciones de experimentos además de ejecuciones de canalizaciones en las que un usuario puede investigar, como un grupo, diferentes configuraciones como artefactos de entrada o hiperparámetros.
  • ejecución de experimento
    • Una ejecución de experimento puede contener métricas definidas por el usuario, parámetros, ejecuciones, artefactos y recursos de Vertex (por ejemplo, PipelineJob).
  • análisis de datos exploratorio
    • En estadística, el análisis de datos exploratorio (EDA) es un enfoque para analizar los conjuntos de datos a fin de resumir sus principales características, a menudo con métodos visuales. Un modelo estadístico puede o no usarse, pero, sobre todo, EDA sirve para ver lo que los datos pueden decirnos, más allá del modelado formal o de la tarea de prueba de hipótesis.
  • feature
    • En el aprendizaje automático (AA), un atributo es una característica o un atributo de una instancia o entidad que se usa como entrada para entrenar un modelo de AA o realizar predicciones.
  • ingeniería de atributos
    • La ingeniería de atributos es el proceso de transformar datos de aprendizaje automático (AA) sin procesar en atributos que se pueden usar para entrenar modelos de AA o hacer predicciones.
  • valor del atributo
    • Un valor de atributo corresponde al valor real y medible de un atributo (atributo) de una instancia o entidad. Una colección de valores de atributos para la entidad única representa el registro de atributos correspondiente a la entidad.
  • entrega de atributos
    • La entrega de atributos es el proceso de exportar o recuperar valores de atributos para el entrenamiento o la inferencia. En Vertex AI, hay dos tipos de entrega de atributos: entrega en línea y entrega sin conexión. La entrega en línea recupera los valores de atributo más recientes de un subconjunto de la fuente de datos de atributos para las predicciones en línea. La entrega sin conexión o por lotes exporta grandes volúmenes de datos de atributos para el procesamiento sin conexión, como el entrenamiento de modelos de AA.
  • marca de tiempo del atributo
    • Una marca de tiempo de atributo indica cuándo se generó el conjunto de valores de atributo en un registro de atributo específico para una entidad.
  • entrada de atributos
    • Una entrada de atributos es una agregación de todos los valores de atributos que describen los atributos de una entidad única en un momento específico.
  • registro de atributos
    • Un registro de atributos es una interfaz central para registrar fuentes de datos de atributos que deseas entregar para predicciones en línea.
  • grupo de atributos
    • Un grupo de atributos es un recurso de registro de atributos que corresponde a una tabla de origen o a una vista de BigQuery que contiene datos de atributos. Una vista de atributos puede contener atributos y se puede considerar una agrupación lógica de columnas de atributos en la fuente de datos.
  • vista de funciones
    • Una vista de atributos es una colección lógica de atributos materializados de una fuente de datos de BigQuery a una instancia de tienda en línea. Una vista de atributos almacena y actualiza de forma periódica los datos de los atributos del cliente, que se actualizan de manera periódica desde la fuente de BigQuery. Una vista de atributos se asocia con el almacenamiento de datos de atributos directamente o mediante asociaciones a recursos de registro de atributos.
  • SDK de componentes de canalización de Google Cloud
    • El SDK de los componentes de canalización de Google Cloud (GCPC) proporciona un conjunto de componentes precompilados de Kubeflow Pipelines que son de calidad de producción, eficaces y fáciles de usar. Puedes usar los componentes de canalización de Google Cloud para definir y ejecutar canalizaciones de AA en Vertex AI Pipelines y otros backends de ejecución de canalizaciones de AA de acuerdo con Kubeflow Pipelines. Para obtener más información, consulta .
  • histogram
    • Una presentación gráfica de la variación en un conjunto de datos mediante barras. En un histograma, se visualizan los patrones que son difíciles de detectar en una tabla simple de números.
  • index
    • Es una colección de vectores implementados juntos para la búsqueda de similitud. Los vectores pueden agregarse a un índice o quitarse de este. Las consultas de búsqueda de similitud se emiten a un índice específico y buscarán en los vectores de ese índice.
  • Verdad fundamental
    • Un término que se refiere a la verificación del aprendizaje automático para la exactitud en el mundo real, como un conjunto de datos de verdad fundamental.
  • Machine Learning Metadata
    • ML Metadata (MLMD) es una biblioteca para registrar y recuperar metadatos asociados con flujos de trabajo de desarrolladores de AA y científicos de datos. MLMD es una parte integral de TensorFlow Extended (TFX), pero está diseñada para que pueda usarse de forma independiente. Como parte de la plataforma TFX más amplia, la mayoría de los usuarios solo interactúa con MLMD cuando examina los resultados de los componentes de la canalización, por ejemplo, en notebooks o en TensorBoard.
  • conjunto de datos administrado
    • Un objeto de conjunto de datos creado y alojado por Vertex AI.
  • Recursos de metadatos
    • Vertex ML Metadata expone un modelo de datos similar a un grafo para representar metadatos que se producen y consumen de los flujos de trabajo del AA. Los conceptos principales son los artefactos, las ejecuciones, los eventos y los contextos.
  • MetadataSchema
    • Un MetadataSchema describe el esquema para tipos específicos de artefactos, ejecuciones o contextos. Los MetadataSchemas se usan para validar los pares clave-valor durante la creación de los recursos de metadatos correspondientes. La validación del esquema solo se realiza en los campos que coinciden entre el recurso y el MetadataSchema. Los esquemas de tipo se representan con objetos de esquema de OpenAPI, que deben describirse mediante YAML.
  • MetadataStore
    • Un MetadataStore es el contenedor de nivel superior para los recursos de metadatos. MetadataStore está regionalizado y se asocia con un proyecto específico de Google Cloud. Por lo general, una organización usa un MetadataStore compartido para los recursos de metadatos dentro de cada proyecto.
  • Canalizaciones de AA
    • Las canalizaciones del AA son flujos de trabajo del AA portátiles y escalables que se basan en contenedores.
  • model
    • Cualquier modelo previamente entrenado o no.
  • nombre del recurso de modelo
    • El nombre de recurso de un model de la siguiente manera: projects/<PROJECT_ID>/locations/<LOCATION_ID>/models/<MODEL_ID>. Puedes encontrar el ID del modelo en la consola de Cloud, en la página “Registro de modelos”.
  • almacén sin conexión
    • El almacén sin conexión es una instalación de almacenamiento que almacena datos históricos y recientes de atributos, que se suelen usar para entrenar modelos de AA. Un almacén sin conexión también contiene los valores de atributo más recientes, que puedes entregar para las predicciones en línea.
  • almacén en línea
    • En la administración de atributos, una tienda en línea es una instalación de almacenamiento para que se entreguen los valores de atributos más recientes para las predicciones en línea.
  • parámetros
    • Los parámetros son valores de entrada con clave que configuran una ejecución, regulan su comportamiento y afectan sus resultados. Algunos ejemplos son la tasa de aprendizaje, la tasa de abandono y la cantidad de pasos de entrenamiento.
  • pipeline
    • Las canalizaciones del AA son flujos de trabajo del AA portátiles y escalables que se basan en contenedores.
  • componente de canalización
    • Un conjunto de código autónomo que realiza un paso en el flujo de trabajo de una canalización, como el procesamiento previo de los datos, la transformación de datos y el entrenamiento de un modelo.
  • trabajo de canalización
    • Un recurso en la API de Vertex AI que corresponde a los trabajos de Vertex Pipelines. Los usuarios crean un PipelineJob cuando quieren ejecutar una canalización de AA en Vertex AI.
  • ejecución de canalización
    • Uno o más PipelineJobs de Vertex se pueden asociar con un experimento en el que cada PipelineJob se represente como una sola ejecución. En este contexto, los parámetros de la ejecución se infieren mediante los parámetros del PipelineJob. Las métricas se infieren a partir de los artefactos system.Metric que produce ese PipelineJob. Los artefactos de la ejecución se infieren de los artefactos que produce ese PipelineJob.
  • plantilla de canalización
    • Una definición de flujo de trabajo del AA que un solo usuario o varios pueden volver a usar para crear varias ejecuciones de canalizaciones.
  • recall
    • Es el porcentaje de vecinos más cercanos que muestra el índice. Por ejemplo, si una consulta de vecino más cercano para 20 vecinos más cercanos mostró 19 de los vecinos más cercanos de “verdad fundamental”, la recuperación será 19/20*100 = 95%.
  • restricciones
    • La funcionalidad para “restringir” búsquedas a un subconjunto del índice mediante reglas booleanas. La restricción también se conoce como “filtrado”. Con la búsqueda de vectores, puedes usar el filtrado numérico y el filtrado de atributos de texto.
  • cuenta de servicio
    • En Google Cloud, una cuenta de servicio es un tipo especial de cuenta que usa una aplicación o una instancia de máquina virtual (VM), no una persona. Las aplicaciones usan cuentas de servicio para realizar llamadas autorizadas a la API.
  • métricas resumidas
    • Las métricas resumidas son un solo valor para cada clave de métrica en una ejecución de experimento. Por ejemplo, la precisión de la prueba de un experimento es la exactitud calculada en un conjunto de datos de prueba al final del entrenamiento, que puede capturarse como una métrica resumida de valor único.
  • TensorBoard
    • TensorBoard es un conjunto de aplicaciones web para visualizar y comprender las ejecuciones y modelos de TensorFlow. Para obtener más información, consulta TensorBoard.
  • Nombre del recurso de TensorBoard
    • Un nombre de recurso de TensorBoard se usa para identificar por completo una instancia de Vertex AI TensorBoard. El formato es el siguiente: projects/PROJECT_ID_OR_NUMBER/locations/REGION/tensorboards/TENSORBOARD_INSTANCE_ID.
  • Instancia de TensorBoard
    • Una instancia de TensorBoard es un recurso regionalizado que almacena los experimentos de Vertex AI TensorBoard asociados a un proyecto. Puedes crear varias instancias de Vertex TensorBoard en un proyecto si, por ejemplo, deseas usar varias instancias habilitadas con CMEK. Esto es lo mismo que el recurso TensorBoard en la API.
  • TensorFlow Extended (TFX)
    • Tensorflow extendido (tfx), una plataforma de extremo a extremo para implementar canalizaciones de aprendizaje automático de producción basada en la plataforma tensorflow.
  • compensación de tiempo
    • La compensación horaria está relacionada con el comienzo de un video.
  • segmento de tiempo
    • Un segmento de tiempo se identifica mediante compensaciones horarias iniciales y finales.
  • métricas de series temporales
    • Las métricas de series temporales son valores de métricas longitudinales, en los que cada valor representa un paso en la parte de la rutina de entrenamiento de una ejecución. Las métricas de series temporales se almacenan en Vertex AI TensorBoard. Vertex AI Experiments almacena una referencia al recurso de Vertex TensorBoard.
  • token
    • Un token en un modelo de lenguaje es la unidad atómica con la que el modelo entrena y realiza predicciones, es decir, palabras, morfemas y caracteres. En los dominios fuera de modelos de lenguaje, los tokens pueden representar otros tipos de unidades atómicas. Por ejemplo, en visión artificial, un token puede ser un subconjunto de una imagen.
  • artefactos no administrados
    • Un artefacto que existe fuera del contexto de Vertex AI.
  • vector
    • Un vector es una lista de valores de números de punto flotante que tienen magnitud y dirección. Se puede usar para representar cualquier tipo de datos, como números, puntos en el espacio o direcciones.
  • Vertex AI Experiments
    • Vertex AI Experiments permite a los usuarios hacer un seguimiento de (i) los pasos de una ejecución de experimento, por ejemplo, el procesamiento previo y el entrenamiento, (ii) las entradas, por ejemplo, el algoritmo, los parámetros y los conjuntos de datos, (iii) los resultados de esos pasos, por ejemplo, los modelos, los puntos de control, las métricas.
  • Experimento de Vertex AI TensorBoard
    • Los datos asociados con un experimento se pueden ver en la aplicación web de TensorBoard (escalares, histogramas, distribuciones, etc.). Los escalares de serie temporal se pueden ver en la consola de Google Cloud. Para obtener más información, consulta Compara y analiza ejecuciones.
  • tipo de datos de Vertex
    • Los tipos de datos de Vertex AI son “image”, “text”, “tabular” y “video”.
  • segmento de video
    • Un segmento de video se identifica mediante la compensación de tiempo inicial y final de un video.
  • Nube privada virtual (VPC)
    • La nube privada virtual es un grupo configurable a pedido de recursos de procesamiento compartidos que se asigna en un entorno de nube pública y proporciona un nivel de aislamiento entre diferentes organizaciones que usan esos recursos.