MultiModalEmbeddingModel(model_id: str, endpoint_name: typing.Optional[str] = None)
Genera vettori di incorporamento da immagini e video.
Esempi:
model = MultiModalEmbeddingModel.from_pretrained("multimodalembedding@001")
image = Image.load_from_file("image.png")
video = Video.load_from_file("video.mp4")
embeddings = model.get_embeddings(
image=image,
video=video,
contextual_text="Hello world",
)
image_embedding = embeddings.image_embedding
video_embeddings = embeddings.video_embeddings
text_embedding = embeddings.text_embedding
Metodi
MultiModalEmbeddingModel
MultiModalEmbeddingModel(model_id: str, endpoint_name: typing.Optional[str] = None)
Crea un oggetto _ModelGardenModel.
Questo costruttore non deve essere chiamato direttamente.
Usa invece il criterio {model_class}.from_pretrained(model_name=...)
.
Parametri | |
---|---|
Nome | Description |
model_id |
str
Identificatore di un modello Model Garden. Esempio: "text-bison@001" |
endpoint_name |
typing.Optional[str]
Nome della risorsa Vertex Endpoint per il modello |
from_pretrained
from_pretrained(model_name: str) -> vertexai._model_garden._model_garden_models.T
Carica un oggetto _ModelGardenModel.
Parametro | |
---|---|
Nome | Description |
model_name |
str
Nome del modello. |
Eccezioni | |
---|---|
Tipo | Description |
ValueError |
Se model_name è sconosciuto. |
ValueError |
Se il modello non supporta questa classe. |
get_embeddings
get_embeddings(
image: typing.Optional[vertexai.vision_models.Image] = None,
video: typing.Optional[vertexai.vision_models.Video] = None,
contextual_text: typing.Optional[str] = None,
dimension: typing.Optional[int] = None,
video_segment_config: typing.Optional[
vertexai.vision_models.VideoSegmentConfig
] = None,
) -> vertexai.vision_models.MultiModalEmbeddingResponse
Recupera i vettori di incorporamento dall'immagine fornita.
Parametri | |
---|---|
Nome | Description |
image |
Image
Facoltativo. L'immagine per cui generare incorporamenti. Uno dei valori |
video |
Video
Facoltativo. Il video per cui generare gli incorporamenti. Uno dei valori |
contextual_text |
str
Facoltativo. Testo contestuale per l'immagine o il video di input. Se fornito, il modello genererà anche un vettore di incorporamento per il testo contestuale fornito. L'immagine e i vettori di incorporamento del testo restituiti si trovano nello stesso spazio semantico con la stessa dimensionalità e i vettori possono essere utilizzati in modo intercambiabile per casi d'uso come la ricerca di immagini per testo o la ricerca di testo per immagine. Uno dei valori |
dimension |
int
Facoltativo. Il numero di dimensioni di incorporamento. Valori più bassi offrono una minore latenza quando si utilizzano questi incorporamenti per attività successive, mentre valori più alti offrono una maggiore precisione. Valori disponibili: |
video_segment_config |
VideoSegmentConfig
Facoltativo. I segmenti video specifici (in secondi) per i quali vengono generati gli incorporamenti. |
Restituisce | |
---|---|
Tipo | Description |
MultiModalEmbeddingResponse |
I vettori di incorporamento di immagini e testo. |