Classe MultiModalEmbeddingModel (1.50.0)

MultiModalEmbeddingModel(model_id: str, endpoint_name: typing.Optional[str] = None)

Genera vettori di incorporamento da immagini e video.

Esempi:

model = MultiModalEmbeddingModel.from_pretrained("multimodalembedding@001")
image = Image.load_from_file("image.png")
video = Video.load_from_file("video.mp4")

embeddings = model.get_embeddings(
    image=image,
    video=video,
    contextual_text="Hello world",
)
image_embedding = embeddings.image_embedding
video_embeddings = embeddings.video_embeddings
text_embedding = embeddings.text_embedding

Metodi

MultiModalEmbeddingModel

MultiModalEmbeddingModel(model_id: str, endpoint_name: typing.Optional[str] = None)

Crea un oggetto _ModelGardenModel.

Questo costruttore non deve essere chiamato direttamente. Usa invece il criterio {model_class}.from_pretrained(model_name=...).

Parametri
Nome Description
model_id str

Identificatore di un modello Model Garden. Esempio: "text-bison@001"

endpoint_name typing.Optional[str]

Nome della risorsa Vertex Endpoint per il modello

from_pretrained

from_pretrained(model_name: str) -> vertexai._model_garden._model_garden_models.T

Carica un oggetto _ModelGardenModel.

Parametro
Nome Description
model_name str

Nome del modello.

Eccezioni
Tipo Description
ValueError Se model_name è sconosciuto.
ValueError Se il modello non supporta questa classe.

get_embeddings

get_embeddings(
    image: typing.Optional[vertexai.vision_models.Image] = None,
    video: typing.Optional[vertexai.vision_models.Video] = None,
    contextual_text: typing.Optional[str] = None,
    dimension: typing.Optional[int] = None,
    video_segment_config: typing.Optional[
        vertexai.vision_models.VideoSegmentConfig
    ] = None,
) -> vertexai.vision_models.MultiModalEmbeddingResponse

Recupera i vettori di incorporamento dall'immagine fornita.

Parametri
Nome Description
image Image

Facoltativo. L'immagine per cui generare incorporamenti. Uno dei valori image, video o contextual_text è obbligatorio.

video Video

Facoltativo. Il video per cui generare gli incorporamenti. Uno dei valori image, video o contextual_text è obbligatorio.

contextual_text str

Facoltativo. Testo contestuale per l'immagine o il video di input. Se fornito, il modello genererà anche un vettore di incorporamento per il testo contestuale fornito. L'immagine e i vettori di incorporamento del testo restituiti si trovano nello stesso spazio semantico con la stessa dimensionalità e i vettori possono essere utilizzati in modo intercambiabile per casi d'uso come la ricerca di immagini per testo o la ricerca di testo per immagine. Uno dei valori image, video o contextual_text è obbligatorio.

dimension int

Facoltativo. Il numero di dimensioni di incorporamento. Valori più bassi offrono una minore latenza quando si utilizzano questi incorporamenti per attività successive, mentre valori più alti offrono una maggiore precisione. Valori disponibili: 128, 256, 512 e 1408 (valore predefinito).

video_segment_config VideoSegmentConfig

Facoltativo. I segmenti video specifici (in secondi) per i quali vengono generati gli incorporamenti.

Restituisce
Tipo Description
MultiModalEmbeddingResponse I vettori di incorporamento di immagini e testo.