Glosario de Vertex AI

  • conjunto de anotaciones
    • Un conjunto de anotaciones contiene las etiquetas asociadas con los archivos fuente que se suben en un conjunto de datos. Un conjunto de anotaciones está asociado con un tipo de datos y un objetivo (por ejemplo, video/clasificación)
  • extremos de API
    • Los extremos de API son un aspecto de la configuración del servicio que especifica las direcciones de la red, también conocidas como extremos de servicio (por ejemplo, aiplatform.googleapis.com).
  • Credenciales predeterminadas de la aplicación (ADC)
    • Las credenciales predeterminadas de la aplicación (ADC) proporcionan una forma sencilla de obtener credenciales de autorización para usarlas en llamadas a las APIs de Google. Son más adecuadas para los casos en los que la llamada debe tener la misma identidad y nivel de autorización para la aplicación, independientemente del usuario. Este es el enfoque recomendado para autorizar llamadas a las APIs de Google Cloud, en especial cuando compilas una aplicación que se implementará en las máquinas virtuales de Google App Engine (GAE) o Compute Engine. Para obtener más información, consulta Cómo funcionan las credenciales predeterminadas de la aplicación.
  • Vecino más cercano aproximado (ANN)
  • artefacto
    • Un artefacto es una entidad discreta o un dato producido y consumido por un flujo de trabajo del aprendizaje automático. Algunos ejemplos de artefactos son los conjuntos de datos, modelos, archivos de entrada y registros de entrenamiento.
  • Artifact Registry
    • Artifact Registry es un servicio universal de administración de artefactos. Es el servicio recomendado para administrar contenedores y otros artefactos en Google Cloud. Para obtener más información, consulta Artifact Registry.
  • Inteligencia artificial (IA)
    • La inteligencia artificial (IA) es el estudio y el diseño de máquinas que parecen ser inteligentes, es decir, que imitan funciones humanas o intelectuales, como el movimiento mecánico, el razonamiento o la resolución de problemas. Uno de los subcampos más populares de la IA es el aprendizaje automático, que utiliza un enfoque estadístico y basado en datos para crear IA. Sin embargo, algunas personas usan estos dos términos de forma indistinta.
  • autenticación
    • El proceso de verificar la identidad de un cliente (que puede ser un usuario o algún otro proceso) con el fin de obtener acceso a un sistema seguro. Se dice que un cliente que ha probado su identidad está autenticado. Para obtener más información, consulta Métodos de autenticación en Google.
  • AutoML
    • Algoritmos de aprendizaje automático que "aprenden a aprender" mediante la optimización de caja negra. Para obtener más información, consulta el Glosario de AA.
  • grupo de referencia
    • Es un modelo que se usa como punto de referencia para comparar el rendimiento de otro modelo (por lo general, uno más complejo). Por ejemplo, un modelo de regresión logística podría servir como un buen modelo de referencia para un modelo profundo. En el caso de un problema en particular, el modelo de referencia ayuda a los desarrolladores de modelos a cuantificar el rendimiento mínimo esperado que debe alcanzar un modelo nuevo para que sea útil. Para obtener más información, consulta Conjuntos de datos de referencia y de destino.
  • batch
    • Es el conjunto de ejemplos que se usan en una iteración de entrenamiento. El tamaño del lote determina la cantidad de ejemplos que hay en un lote.
  • tamaño del lote
    • Es la cantidad de ejemplos que hay en un lote. Por ejemplo, el tamaño del lote de SGD es 1, mientras que el tamaño del lote de un minilote suele estar entre 10 y 1,000. Por lo general, se fija el tamaño del lote durante el entrenamiento y la inferencia; sin embargo, TensorFlow permite tamaños de lotes dinámicos.
  • predicción por lotes
    • La predicción por lotes toma un grupo de solicitudes de predicción y genera resultados en un solo archivo. Para obtener más información, consulta Obtén predicciones por lotes.
  • sesgo
    • 1. Estereotipo, prejuicio o preferencia de objetos, personas o grupos por sobre otros. Estos sesgos pueden afectar la recolección y la interpretación de datos, el diseño de un sistema y cómo los usuarios interactúan con él. 2. Error sistemático debido a un procedimiento de muestreo o de elaboración de informes.
  • bidireccional
    • Es un término que se usa para describir un sistema que evalúa el texto que precede y sigue a una sección de texto objetivo. Por el contrario, un sistema unidireccional solo evalúa el texto que precede a una sección de texto objetivo.
  • Representaciones de codificador bidireccional de transformadores (BERT)
    • BERT es un método para realizar un entrenamiento previo de representaciones lingüísticas, lo que significa que entrenamos un modelo de comprensión del lenguaje de uso general en un gran corpus de texto (como Wikipedia) y, luego, usamos ese modelo para las tareas de PLN descendentes que nos interesan (como responder preguntas). BERT supera a los métodos anteriores porque es el primer sistema no supervisado y profundamente bidireccional para el entrenamiento previo del PLN.
  • Bilingual Evaluation Understudy (BLEU)
    • Es una medida popular para evaluar la calidad de un algoritmo de traducción automática comparando su resultado con el de una o más traducciones humanas.
  • cuadro de límite
    • Un cuadro de límite para un objeto en el marco de video se puede especificar de una de dos maneras (i) Mediante 2 vértices que consisten en un conjunto de coordenadas x,y si son puntos diagonalmente opuestos del rectángulo. Por ejemplo: x_relative_min, y_relative_min,,,x_relative_max,y_relative_max,, (ii) Usar los 4 vértices. Para obtener más información, consulta Prepara datos de video.
  • bucket
    • Es la carpeta de nivel superior de Cloud Storage. Los nombres de los buckets deben ser únicos para todos los usuarios de Cloud Storage. Los buckets contienen archivos. Para obtener más información, consulta la descripción general del producto Cloud Storage.
  • chat
    • El contenido de un diálogo de ida y vuelta con un sistema de AA, por lo general, un modelo de lenguaje grande. La interacción anterior en un chat (lo que escribiste y cómo respondió el modelo de lenguaje extenso) se convierte en el contexto para las partes posteriores del chat. Un chatbot es una aplicación de un modelo de lenguaje extenso.
  • Punto de control
    • Datos que capturan el estado de los parámetros de un modelo, ya sea durante el entrenamiento o después de que este se completa. Por ejemplo, durante el entrenamiento, puedes hacer lo siguiente: 1. Detener el entrenamiento, ya sea de forma intencional o como resultado de ciertos errores 2. Captura el punto de control. 3. Más tarde, vuelve a cargar el punto de control, posiblemente en hardware diferente. 4. Reinicia el entrenamiento. En Gemini, un punto de control hace referencia a una versión específica de un modelo de Gemini entrenado en un conjunto de datos específico.
  • modelo de clasificación
    • Un modelo cuya predicción es una clase. Por ejemplo, los siguientes son todos modelos de clasificación: Un modelo que predice el idioma de una oración de entrada (¿francés? ¿Español? ¿Italiano?). Un modelo que predice especies de árboles (¿arce? ¿Roble? Baobab?). Un modelo que predice la clase positiva o negativa para una afección médica en particular.
  • métricas de clasificación
    • Las métricas de clasificación admitidas en el SDK de Vertex AI para Python son la matriz de confusión y la curva ROC.
  • Cloud TPU
    • Un acelerador de hardware especializado diseñado para acelerar las cargas de trabajo de aprendizaje automático en Google Cloud.
  • imagen de contenedor
  • context
    • Un contexto se usa para agrupar artefactos y ejecuciones en una sola categoría consultable y escrita. Los contextos se pueden usar para representar conjuntos de metadatos. Un ejemplo de un contexto sería una ejecución de una canalización de aprendizaje automático.
  • ventana de contexto
    • Es la cantidad de tokens que un modelo puede procesar en una instrucción determinada. Cuanto más grande sea la ventana de contexto, más información podrá usar el modelo para proporcionar respuestas coherentes y consistentes a la instrucción.
  • claves de encriptación administradas por el cliente (CMEK)
    • Las claves de encriptación administradas por el cliente (CMEK) son integraciones que permiten a los clientes encriptar datos en servicios de Google existentes mediante una clave que administran en Cloud KMS (también conocido como Storky). La clave de Cloud KMS es la clave de encriptación de claves que protege sus datos. Para obtener más información, consulta Claves de encriptación administradas por el cliente (CMEK).
  • CustomJob
    • Un CustomJob es uno de los tres recursos de Vertex AI que un usuario puede crear para entrenar modelos personalizados en Vertex AI. Los trabajos de entrenamiento personalizados son la forma básica de ejecutar el código de entrenamiento personalizado de aprendizaje automático (AA) en Vertex AI. Para obtener más información, consulta Crea trabajos de entrenamiento personalizados.
  • Dask
    • Dask es una plataforma de procesamiento distribuido que se usa a menudo con TensorFlow, Pytorch y otros frameworks de AA para administrar trabajos de entrenamiento distribuidos. Para obtener más información, consulta Wikipedia.
  • análisis de datos
    • El proceso de obtener una comprensión de los datos mediante la consideración de muestras, mediciones y visualizaciones. El análisis de datos puede ser particularmente útil cuando se recibe por primera vez un conjunto de datos, antes de crear el primer modelo. También es crucial para comprender los experimentos y problemas de depuración del sistema.
  • magnificación de datos
    • Se incrementa de forma artificial el rango y cantidad de ejemplos de entrenamiento a través de transformaciones sobre los ejemplos existentes para crear ejemplos nuevos. Por ejemplo, supongamos que uno de los atributos es "imágenes", pero el conjunto de datos no tiene suficientes ejemplos de imágenes para que el modelo aprenda asociaciones útiles. Lo ideal sería agregar suficientes imágenes etiquetadas al conjunto de datos para permitir que el modelo se entrene adecuadamente. Si eso no es posible, la magnificación de datos puede rotar, estirar y reflejar cada imagen para producir variantes de la imagen original, lo que producirá, posiblemente, suficientes datos etiquetados para permitir un excelente entrenamiento.
  • DataFrame
    • Es un tipo de datos de pandas popular para representar conjuntos de datos en la memoria. Un DataFrame es similar a una tabla o una hoja de cálculo. Cada columna de un DataFrame tiene un nombre (un encabezado) y cada fila se identifica con un número único.Cada columna de un DataFrame está estructurada como un array 2D, excepto que a cada columna se le puede asignar su propio tipo de datos.
  • conjunto de datos
    • En términos generales, un conjunto de datos se define como una colección de registros de datos estructurados o no estructurados. Es una colección de datos sin procesar, que suelen (pero no exclusivamente) organizarse en uno de los siguientes formatos: una hoja de cálculo o un archivo en formato CSV (valores separados por comas). Para obtener más información, consulta Crea un conjunto de datos.
  • Incorporación
    • Una incorporación es un tipo de vector que se usa para representar datos de una manera que captura su significado semántico. Por lo general, las incorporaciones se crean con técnicas de aprendizaje automático y, a menudo, se usan en el procesamiento de lenguaje natural (PLN) y otras aplicaciones de aprendizaje automático.
  • event
    • Un evento describe la relación entre los artefactos y las ejecuciones. Cada artefacto puede ser generado por una ejecución y consumido por otras ejecuciones. Los eventos te ayudan a determinar la procedencia de los artefactos en sus flujos de trabajo del AA mediante el encadenamiento de artefactos y ejecuciones.
  • ejecución
    • Una ejecución es un registro de un paso de flujo de trabajo de aprendizaje automático individual, que, por lo general, se anota con sus parámetros de entorno de ejecución. Algunos ejemplos de las ejecuciones son la transferencia de datos, la validación de datos, el entrenamiento de modelos, la evaluación de modelos y la implementación de modelos.
  • Experimento
    • Un experimento es un contexto que puede contener un conjunto de n ejecuciones de experimentos además de ejecuciones de canalizaciones en las que un usuario puede investigar, como un grupo, diferentes configuraciones como artefactos de entrada o hiperparámetros.
  • ejecución de experimento
    • Una ejecución de experimento puede contener métricas definidas por el usuario, parámetros, ejecuciones, artefactos y recursos de Vertex (por ejemplo, PipelineJob).
  • análisis de datos exploratorio
    • En estadística, el análisis de datos exploratorio (EDA) es un enfoque para analizar los conjuntos de datos a fin de resumir sus principales características, a menudo con métodos visuales. Un modelo estadístico puede o no usarse, pero, sobre todo, EDA sirve para ver lo que los datos pueden decirnos, más allá del modelado formal o de la tarea de prueba de hipótesis.
  • feature
    • En el aprendizaje automático (AA), un atributo es una característica o un atributo de una instancia o entidad que se usa como entrada para entrenar un modelo de AA o hacer predicciones.
  • ingeniería de atributos
    • La ingeniería de atributos es el proceso de transformar datos sin procesar de aprendizaje automático (AA) en atributos que pueden usarse para entrenar modelos de AA o hacer predicciones.
  • valor del atributo
    • El valor de atributo corresponde al valor real y medible de un atributo de una instancia o entidad. Una colección de valores de atributos de la entidad única representa el registro de atributos correspondiente a la entidad.
  • entrega de atributos
    • La entrega de atributos es el proceso de exportar o recuperar valores de atributos para el entrenamiento o la inferencia. En Vertex AI hay dos tipos de entrega de atributos: entrega en línea y entrega sin conexión. La entrega en línea recupera los valores de atributos más recientes de un subconjunto de la fuente de datos de atributos para realizar predicciones en línea. La entrega sin conexión o por lotes exporta grandes volúmenes de datos de atributos para el procesamiento sin conexión, como el entrenamiento de modelos de AA.
  • marca de tiempo del atributo
    • La marca de tiempo de un atributo indica cuándo se generó el conjunto de valores de atributos en un registro de atributos específico de una entidad.
  • entrada de atributos
    • Una entrada de atributos es una agregación de todos los valores de atributos que describen los atributos de una entidad única en un momento específico.
  • registro de atributos
    • Un registro de atributos es una interfaz central que sirve para registrar fuentes de datos de atributos que deseas entregar para predicciones en línea. Para obtener más información, consulta Configuración del registro de funciones.
  • grupo de funciones
    • Un grupo de atributos es un recurso de registro de atributos que corresponde a una tabla de origen de BigQuery o una vista que contiene datos de atributos. Una vista de atributos puede contener atributos y puede considerarse una agrupación lógica de columnas de atributos en la fuente de datos.
  • vista de funciones
    • Una vista de atributos es una colección lógica de atributos materializados de una fuente de datos de BigQuery en una instancia de tienda en línea. Una vista de atributos almacena y actualiza de forma periódica los datos de los atributos del cliente, que se actualizan de manera periódica desde la fuente de BigQuery. Una vista de atributos se asocia con el almacenamiento de datos de atributos, ya sea directamente o a través de asociaciones a recursos de registro de atributos.
  • Verdad fundamental
    • Un término que se refiere a la verificación del aprendizaje automático para la exactitud en el mundo real, como un conjunto de datos de verdad fundamental.
  • pérdida (costo)
    • Durante el entrenamiento de un modelo supervisado, es una medida de qué tan lejos está la predicción de un modelo de su etiqueta. Una función de pérdida calcula la pérdida.
  • Canalizaciones de AA
    • Las canalizaciones del AA son flujos de trabajo del AA portátiles y escalables que se basan en contenedores.
  • model
    • Cualquier modelo previamente entrenado o no. En general, cualquier construcción matemática que procese datos de entrada y muestre resultados. Dicho de otra manera, un modelo es el conjunto de parámetros y estructura necesarios para que un sistema realice predicciones.
  • nombre del recurso de modelo
    • El nombre de recurso de un model de la siguiente manera: projects/<PROJECT_ID>/locations/<LOCATION_ID>/models/<MODEL_ID>. Puedes encontrar el ID del modelo en la consola de Cloud, en la página “Registro de modelos”.
  • Sistema de archivos de red (NFS)
    • Un sistema cliente-servidor que permite a los usuarios acceder a archivos a través de una red y tratarlos como si residieran en un directorio de archivos local.
  • almacén sin conexión
    • El almacenamiento sin conexión es una instalación de almacenamiento que almacena datos de atributos históricos y recientes, que por lo general se usan para entrenar modelos de AA. Un almacén sin conexión también contiene los valores de atributos más recientes, que puedes entregar para predicciones en línea.
  • almacén en línea
    • En la administración de atributos, un almacén en línea es un centro de almacenamiento de los valores de atributos más recientes que se entregarán para predicciones en línea.
  • Parámetros
    • Los parámetros son valores de entrada con clave que configuran una ejecución, regulan su comportamiento y afectan sus resultados. Algunos ejemplos son la tasa de aprendizaje, la tasa de abandono y la cantidad de pasos de entrenamiento.
  • componente de canalización
    • Un conjunto de código autónomo que realiza un paso en el flujo de trabajo de una canalización, como el procesamiento previo de los datos, la transformación de datos y el entrenamiento de un modelo.
  • trabajo de canalización
    • Un trabajo o una ejecución de canalización corresponde al recurso PipelineJob en la API de Vertex AI. Es una instancia de ejecución de la definición de tu canalización de AA, que se define como un conjunto de tareas de AA interconectadas por dependencias de entrada y salida.
  • ejecución de canalización
    • Uno o más PipelineJobs de Vertex se pueden asociar con un experimento en el que cada PipelineJob se represente como una sola ejecución. En este contexto, los parámetros de la ejecución se infieren mediante los parámetros del PipelineJob. Las métricas se infieren a partir de los artefactos system.Metric que produce ese PipelineJob. Los artefactos de la ejecución se infieren de los artefactos que produce ese PipelineJob.
  • plantilla de canalización
    • Una definición de flujo de trabajo del AA que un solo usuario o varios pueden volver a usar para crear varias ejecuciones de canalizaciones.
  • Private Service Connect (PSC)
    • Private Service Connect es una tecnología que permite a los clientes de Compute Engine asignar IPs privadas en su red a otra red de VPC o a las APIs de Google.
  • Interfaz de Private Service Connect (PSC-I)
    • La interfaz de Private Service Connect proporciona una forma para que los productores inicien conexiones a cualquier recurso de red en la VPC del consumidor de forma privada.
  • Clúster de Ray en Vertex AI
    • Los clústeres de Ray en Vertex AI están integrados para garantizar la disponibilidad de capacidad para las cargas de trabajo de AA críticas o durante las temporadas de mayor demanda. A diferencia de los trabajos personalizados, en los que el servicio de entrenamiento libera el recurso después de que se completa el trabajo, los clústeres de Ray permanecen disponibles hasta que se borran. Para obtener más información, consulta la descripción general de Ray en Vertex AI.
  • Ray on Vertex AI (RoV)
    • Ray en Vertex AI está diseñado para que puedas usar el mismo código de Ray de código abierto para escribir programas y desarrollar aplicaciones en Vertex AI con cambios mínimos. Para obtener más información, consulta la descripción general de Ray en Vertex AI.
  • SDK de Ray en Vertex AI para Python
    • El SDK de Ray en Vertex AI para Python es una versión del SDK de Vertex AI para Python que incluye la funcionalidad del cliente de Ray, el conector Ray BigQuery, la administración de clústeres de Ray en Vertex AI y las predicciones en Vertex AI. Para obtener más información, consulta Introducción al SDK de Vertex AI para Python.
  • recall
    • Es el porcentaje de vecinos más cercanos que muestra el índice. Por ejemplo, si una consulta de vecino más cercano para 20 vecinos más cercanos mostró 19 de los vecinos más cercanos de “verdad fundamental”, la recuperación será 19/20*100 = 95%.
  • restricciones
    • La funcionalidad para “restringir” búsquedas a un subconjunto del índice mediante reglas booleanas. La restricción también se conoce como “filtrado”. Con Vector Search, puedes usar el filtrado numérico y el filtrado de atributos de texto.
  • cuenta de servicio
    • En Google Cloud, una cuenta de servicio es un tipo especial de cuenta que usa una aplicación o una instancia de máquina virtual (VM), no una persona. Las aplicaciones usan cuentas de servicio para realizar llamadas autorizadas a la API.
  • métricas resumidas
    • Las métricas resumidas son un solo valor para cada clave de métrica en una ejecución de experimento. Por ejemplo, la precisión de la prueba de un experimento es la exactitud calculada en un conjunto de datos de prueba al final del entrenamiento, que puede capturarse como una métrica resumida de valor único.
  • TensorBoard
    • TensorBoard es un conjunto de aplicaciones web para visualizar y comprender las ejecuciones y modelos de TensorFlow. Para obtener más información, consulta TensorBoard.
  • Nombre del recurso de TensorBoard
    • Un nombre de recurso de TensorBoard se usa para identificar por completo una instancia de Vertex AI TensorBoard. El formato es el siguiente: projects/PROJECT_ID_OR_NUMBER/locations/REGION/tensorboards/TENSORBOARD_INSTANCE_ID.
  • Instancia de TensorBoard
    • Una instancia de TensorBoard es un recurso regionalizado que almacena los experimentos de Vertex AI TensorBoard asociados a un proyecto. Puedes crear varias instancias de Vertex TensorBoard en un proyecto si, por ejemplo, deseas usar varias instancias habilitadas con CMEK. Esto es lo mismo que el recurso TensorBoard en la API.
  • TensorFlow Extended (TFX)
    • TensorFlow Extended (TFX) es una plataforma de extremo a extremo para implementar canalizaciones de aprendizaje automático de producción basada en la plataforma de TensorFlow.
  • compensación de tiempo
    • La compensación horaria está relacionada con el comienzo de un video.
  • segmento de tiempo
    • Un segmento de tiempo se identifica mediante compensaciones horarias iniciales y finales.
  • métricas de series temporales
    • Las métricas de series temporales son valores de métricas longitudinales, en los que cada valor representa un paso en la parte de la rutina de entrenamiento de una ejecución. Las métricas de series temporales se almacenan en Vertex AI TensorBoard. Vertex AI Experiments almacena una referencia al recurso de Vertex TensorBoard.
  • token
    • Un token en un modelo de lenguaje es la unidad atómica con la que el modelo entrena para realizar predicciones, es decir, palabras, morfemas y caracteres. En dominios fuera de los modelos de lenguaje, los tokens pueden representar otros tipos de unidades atómicas. Por ejemplo, en la visión artificial, un token puede ser un subconjunto de una imagen.
  • artefactos no administrados
    • Un artefacto que existe fuera del contexto de Vertex AI.
  • vector
    • Un vector es una lista de valores de números de punto flotante que tienen magnitud y dirección. Se puede usar para representar cualquier tipo de datos, como números, puntos en el espacio o direcciones.
  • Vertex AI Experiments
    • Vertex AI Experiments permite a los usuarios hacer un seguimiento de lo siguiente: 1. Pasos de una ejecución de experimento (por ejemplo, procesamiento previo y entrenamiento) 2. Entradas (por ejemplo, algoritmo, parámetros y conjuntos de datos) 3. Los resultados de esos pasos (por ejemplo, modelos, puntos de control y métricas)
  • Experimento de Vertex AI TensorBoard
    • Los datos asociados con un experimento se pueden ver en la aplicación web de TensorBoard (escalares, histogramas, distribuciones, etc.). Los escalares de serie temporal se pueden ver en la consola de Google Cloud. Para obtener más información, consulta Compara y analiza ejecuciones.
  • SDK de Vertex AI para Python
    • El SDK de Vertex AI para Python proporciona una funcionalidad similar a la biblioteca cliente de Python de Vertex AI, excepto que el SDK es de mayor nivel y menos detallado.
  • tipo de datos de Vertex
    • Los tipos de datos de Vertex AI son “image”, “text”, “tabular” y “video”.
  • segmento de video
    • Un segmento de video se identifica mediante la compensación de tiempo inicial y final de un video.
  • Nube privada virtual (VPC)
    • La nube privada virtual es un grupo configurable de recursos de procesamiento compartidos según demanda que se asigna en un entorno de nube pública y proporciona un nivel de aislamiento entre las diferentes organizaciones que usan esos recursos.