Questa pagina è stata tradotta dall'API Cloud Translation.

Classe MultiModalEmbeddingModel (1.50.0)

MultiModalEmbeddingModel(model_id: str, endpoint_name: typing.Optional[str] = None)

Genera vettori di incorporamento da immagini e video.

Esempi:

model = MultiModalEmbeddingModel.from_pretrained("multimodalembedding@001")
image = Image.load_from_file("image.png")
video = Video.load_from_file("video.mp4")

embeddings = model.get_embeddings(
    image=image,
    video=video,
    contextual_text="Hello world",
)
image_embedding = embeddings.image_embedding
video_embeddings = embeddings.video_embeddings
text_embedding = embeddings.text_embedding

Metodi

MultiModalEmbeddingModel

MultiModalEmbeddingModel(model_id: str, endpoint_name: typing.Optional[str] = None)

Crea un oggetto _ModelGardenModel.

Questo costruttore non deve essere chiamato direttamente. Usa invece il criterio {model_class}.from_pretrained(model_name=...).

Parametri
Nome	Description
`model_id`	`str` Identificatore di un modello Model Garden. Esempio: "text-bison@001"
`endpoint_name`	`typing.Optional[str]` Nome della risorsa Vertex Endpoint per il modello

from_pretrained

from_pretrained(model_name: str) -> vertexai._model_garden._model_garden_models.T

Carica un oggetto _ModelGardenModel.

Parametro
Nome	Description
`model_name`	`str` Nome del modello.

Eccezioni
Tipo	Description
`ValueError`	Se model_name è sconosciuto.
`ValueError`	Se il modello non supporta questa classe.

get_embeddings

get_embeddings(
    image: typing.Optional[vertexai.vision_models.Image] = None,
    video: typing.Optional[vertexai.vision_models.Video] = None,
    contextual_text: typing.Optional[str] = None,
    dimension: typing.Optional[int] = None,
    video_segment_config: typing.Optional[
        vertexai.vision_models.VideoSegmentConfig
    ] = None,
) -> vertexai.vision_models.MultiModalEmbeddingResponse

Recupera i vettori di incorporamento dall'immagine fornita.

Parametri
Nome	Description
`image`	`Image` Facoltativo. L'immagine per cui generare incorporamenti. Uno dei valori `image`, `video` o `contextual_text` è obbligatorio.
`video`	`Video` Facoltativo. Il video per cui generare gli incorporamenti. Uno dei valori `image`, `video` o `contextual_text` è obbligatorio.
`contextual_text`	`str` Facoltativo. Testo contestuale per l'immagine o il video di input. Se fornito, il modello genererà anche un vettore di incorporamento per il testo contestuale fornito. L'immagine e i vettori di incorporamento del testo restituiti si trovano nello stesso spazio semantico con la stessa dimensionalità e i vettori possono essere utilizzati in modo intercambiabile per casi d'uso come la ricerca di immagini per testo o la ricerca di testo per immagine. Uno dei valori `image`, `video` o `contextual_text` è obbligatorio.
`dimension`	`int` Facoltativo. Il numero di dimensioni di incorporamento. Valori più bassi offrono una minore latenza quando si utilizzano questi incorporamenti per attività successive, mentre valori più alti offrono una maggiore precisione. Valori disponibili: `128`, `256`, `512` e `1408` (valore predefinito).
`video_segment_config`	`VideoSegmentConfig` Facoltativo. I segmenti video specifici (in secondi) per i quali vengono generati gli incorporamenti.

Restituisce
Tipo	Description
`MultiModalEmbeddingResponse`	I vettori di incorporamento di immagini e testo.