En esta página, se explican los conceptos clave que debes conocer antes de registrar un extremo de modelo de IA y de invocar predicciones con la administración de extremos de modelos.
Para registrar extremos de modelos remotos con AlloyDB, consulta Registra y llama a modelos de IA remotos en AlloyDB.
Descripción general
La administración de extremos de modelos te permite registrar un extremo de modelo, administrar los metadatos del extremo de modelo en tu clúster de bases de datos y realizar llamadas a los extremos de modelos remotos con consultas SQL. Proporciona la extensión google_ml_integration
que incluye funciones que te permiten registrar los metadatos relacionados con los modelos de IA con AlloyDB. Estos metadatos registrados se usan para generar incorporaciones vectoriales o invocar predicciones.
Estos son algunos de los tipos de modelos de ejemplo que puedes registrar con la administración de extremos de modelos:
- Incorporación de texto y modelos genéricos de Vertex AI
- Modelos de incorporación proporcionados por proveedores externos, como Hugging Face o OpenAI
- Modelos de incorporación de texto alojados de forma personalizada, incluidos los modelos alojados por el cliente o los modelos disponibles a través de extremos privados
- Modelos genéricos con una API basada en JSON, por ejemplo, el modelo
facebook/bart-large-mnli
alojado en Hugging Face, el modelogemini-pro
de Model Garden de Vertex AI o los modelosclaude
de Anthropic
Cómo funciona
Puedes usar la administración de extremos de modelos para registrar un extremo de modelo que cumpla con lo siguiente:
- La entrada y salida del modelo admiten el formato JSON.
- Se puede llamar al modelo con el protocolo REST.
Cuando registras un extremo de modelo con la administración de extremos de modelos, se registra cada extremo con un ID de modelo único que proporcionaste como referencia para el modelo.
Puedes usar el ID del extremo del modelo para consultar los modelos y hacer lo siguiente:
Genera incorporaciones para traducir instrucciones de texto en vectores numéricos. Puedes almacenar las incorporaciones generadas como datos vectoriales cuando la extensión
vector
está habilitada en la base de datos. Para obtener más información, consulta Consulta y indexa embeddings con pgvector.Invoca predicciones con SQL.
Tus aplicaciones pueden acceder a la administración de extremos de modelos con la extensión google_ml_integration
. Esta extensión proporciona las siguientes funciones:
- La función de SQL
google_ml.create_model()
, que se usa para registrar el extremo del modelo que se usa en la función de predicción o incorporación - La función SQL
google_ml.create_sm_secret()
, que usa secretos en el Secret Manager de Google Cloud, donde se almacenan las claves de API - La función SQL
google_ml.embedding()
, que es una función de predicción que genera embeddings de texto El tipo de datos que se muestra de la función de incorporación esREAL[]
. - La función SQL
google_ml.predict_row()
que genera predicciones cuando llamas a modelos genéricos que admiten el formato de entrada y salida JSON. - Otras funciones auxiliares que controlan la generación de URLs personalizadas, la generación de encabezados HTTP o el paso de funciones de transformación.
- Funciones para administrar los secretos y los extremos del modelo registrados
Conceptos clave
Antes de comenzar a usar la administración de extremos de modelos, comprende los conceptos necesarios para conectarte a los modelos y usarlos.
Proveedor de modelos
Proveedor de modelos: Indica los proveedores de hosting de modelos compatibles. Es opcional configurar el proveedor de modelos, pero ayuda a la administración de extremos de modelos a identificar el proveedor y a dar formato automáticamente a los encabezados de los modelos compatibles. En la siguiente tabla, se muestra el valor del proveedor de modelos que puedes configurar según el proveedor de modelos que uses:
Proveedor de modelos | Establecer en la función como… |
---|---|
Vertex AI | google |
Modelos de Hugging Face | hugging_face |
Modelos de Anthropic | anthropic |
OpenAI | open_ai |
Otros modelos | custom |
El proveedor de modelos predeterminado es custom
.
Según el tipo de proveedor, el método de autenticación admitido difiere. Los modelos de Vertex AI usan la cuenta de servicio que se usa para instalar AlloyDB Omni para autenticarse, mientras que otros proveedores pueden usar Secret Manager o pasar detalles de autenticación a través de encabezados. Para obtener más información, consulta Configura la autenticación.
Tipo de modelo
Tipo de modelo indica el tipo de modelo de IA. La extensión admite la incorporación de texto, así como cualquier tipo de modelo genérico. Los tipos de modelos compatibles que puedes configurar cuando registras un extremo de modelo son text-embedding
y generic
.
Es opcional configurar el tipo de modelo cuando se registran extremos de modelos genéricos, ya que generic
es el tipo de modelo predeterminado.
- Modelos de Vertex AI registrados previamente
- La administración de extremos de modelos admite algunos modelos genéricos de Vertex AI y de incorporación de texto como IDs de modelos registrados previamente. Puedes usar directamente el ID del modelo para generar incorporaciones o invocar predicciones, según el tipo de modelo.
Para obtener más información sobre los modelos registrados previamente admitidos, consulta Modelos de Vertex AI registrados previamente.
Por ejemplo, para llamar al modelotextembedding-gecko
registrado previamente, puedes llamar directamente al modelo con la función de incorporación:SELECT google_ml.embedding( model_id => 'textembedding-gecko', content => 'AlloyDB is a managed, cloud-hosted SQL database service');
- Modelos con compatibilidad integrada
- La administración de extremos de modelos proporciona compatibilidad integrada para algunos modelos de Vertex AI, Anthropic y OpenAI. En el caso de los modelos de incorporación de texto con compatibilidad integrada, AlloyDB configura automáticamente las funciones de transformación predeterminadas.
- Cuando registres estos extremos de modelos, establece el nombre calificado de forma explícita. Para obtener más información sobre una lista de modelos con compatibilidad integrada, consulta Modelos con compatibilidad integrada.
- El tipo de modelo para estos modelos puede ser
text-embedding
ogeneric
. - Otros modelos de incorporación de texto
- Para registrar un extremo de modelo de incorporación de texto sin compatibilidad integrada, te recomendamos que crees funciones de transformación para controlar los formatos de entrada y salida que admite el modelo. De manera opcional, según los requisitos del modelo, es posible que también necesites crear una función de encabezado personalizado para especificarlo.
- El tipo de modelo para estos modelos es
text-embedding
. - Modelos genéricos
- La administración de extremos de modelos también admite el registro de todos los demás tipos de modelos, excepto los modelos de incorporación de texto. Para invocarlas en modelos genéricos, usa la función
google_ml.predict_row()
. Puedes configurar metadatos de extremos de modelos, como un extremo de solicitud y encabezados HTTP específicos de tu modelo. - No puedes pasar funciones de transformación cuando registras un extremo de modelo genérico. Asegúrate de que, cuando invoques las predicciones, la entrada a la función esté en formato JSON y de que analices el resultado JSON para obtener el resultado final.
- El tipo de modelo para estos modelos es
generic
.
Autenticación
Los tipos de autenticación indican el tipo de autenticación que puedes usar para conectarte a la administración de extremos de modelos con la extensión google_ml_integration
. La configuración de la autenticación es opcional y solo se requiere si necesitas autenticarte para acceder a tu modelo.
En el caso de los modelos de Vertex AI, se usa la cuenta de servicio de AlloyDB para la autenticación. En el caso de otros modelos, la clave de API o el token portador que se almacena como secreto en Secret Manager se puede usar con la función SQL google_ml.create_sm_secret()
. Si pasas la autenticación a través de encabezados, puedes omitir la configuración del método de autenticación.
En la siguiente tabla, se muestran los tipos de autenticación que puedes establecer:
Método de autenticación | Establecer en la función como… | Proveedor de modelos |
---|---|---|
Agente de servicio de AlloyDB | alloydb_service_agent_iam |
Proveedor de Vertex AI |
Secret Manager | secret_manager |
proveedores externos, como Anthropic, Hugging Face o OpenAI |
Funciones de predicción
La extensión google_ml_integration
incluye las siguientes funciones de predicción:
google_ml.embedding()
- Se usa para llamar a un extremo de modelo de incorporación de texto registrado para generar incorporaciones.
- En el caso de los modelos de incorporación de texto sin compatibilidad integrada, los parámetros de entrada y salida son únicos para un modelo y deben transformarse para que la función llame al modelo. Debes crear una función de entrada de transformación para transformar la entrada de la función de predicción en la entrada específica del modelo y una función de salida de transformación para transformar el resultado específico del modelo en el resultado de la función de predicción.
google_ml.predict_row()
- Se usa para llamar a un extremo de modelo genérico registrado, siempre que el modelo admita una API basada en JSON, para invocar predicciones.
Funciones de transformación
Las funciones de transformación modifican la entrada a un formato que el modelo comprende y convierten la respuesta del modelo al formato que espera la función de predicción. Las funciones de transformación se usan cuando se registra el extremo del modelo text-embedding
sin compatibilidad integrada. La firma de las funciones de transformación depende de la entrada que espera el modelo.
No puedes usar funciones de transformación cuando registras un extremo de modelo generic
.
A continuación, se muestran las firmas de la función de predicción para los modelos de incorporación de texto:
// define custom model specific input/output transform functions.
CREATE OR REPLACE FUNCTION input_transform_function(model_id VARCHAR(100), input_text TEXT) RETURNS JSON;
CREATE OR REPLACE FUNCTION output_transform_function(model_id VARCHAR(100), response_json JSON) RETURNS real[];
Para obtener más información sobre cómo crear funciones de transformación, consulta el ejemplo de funciones de transformación.
Función de generación de encabezados HTTP
La función de generación de encabezados HTTP genera el resultado en pares clave-valor JSON que se usan como encabezados HTTP. La firma de la función de predicción define las firmas de la función de generación de encabezados.
En el siguiente ejemplo, se muestra la firma de la función de predicción google_ml.embedding()
.
CREATE OR REPLACE FUNCTION generate_headers(model_id VARCHAR(100), input TEXT) RETURNS JSON;
Para la función de predicción google_ml.predict_row()
, la firma es la siguiente:
CREATE OR REPLACE FUNCTION generate_headers(model_id VARCHAR(100), input JSON) RETURNS JSON;
Para obtener más información sobre cómo crear una función de generación de encabezados, consulta Ejemplo de función de generación de encabezados.
¿Qué sigue?
- Configura la autenticación para los proveedores de modelos.
- Registra un extremo de modelo con la administración de extremos de modelos.
- Obtén información sobre la referencia de administración de extremos de modelos.