Documentazione dell'API per il pacchetto vision_models
.
Corsi
Image
Immagine.
ImageCaptioningModel
Genera didascalie dall'immagine.
Esempi:
model = ImageCaptioningModel.from_pretrained("imagetext@001")
image = Image.load_from_file("image.png")
captions = model.get_captions(
image=image,
# Optional:
number_of_results=1,
language="en",
)
ImageQnAModel
Consente di rispondere a domande su un'immagine.
Esempi:
model = ImageQnAModel.from_pretrained("imagetext@001")
image = Image.load_from_file("image.png")
answers = model.ask_question(
image=image,
question="What color is the car in this image?",
# Optional:
number_of_results=1,
)
ImageTextModel
Genera testo dalle immagini.
Esempi:
model = ImageTextModel.from_pretrained("imagetext@001")
image = Image.load_from_file("image.png")
captions = model.get_captions(
image=image,
# Optional:
number_of_results=1,
language="en",
)
answers = model.ask_question(
image=image,
question="What color is the car in this image?",
# Optional:
number_of_results=1,
)
MultiModalEmbeddingModel
Genera vettori di incorporamento da immagini e video.
Esempi:
model = MultiModalEmbeddingModel.from_pretrained("multimodalembedding@001")
image = Image.load_from_file("image.png")
video = Video.load_from_file("video.mp4")
embeddings = model.get_embeddings(
image=image,
video=video,
contextual_text="Hello world",
)
image_embedding = embeddings.image_embedding
video_embeddings = embeddings.video_embeddings
text_embedding = embeddings.text_embedding
MultiModalEmbeddingResponse
La risposta di incorporamento multimodale.
Video
Video.
VideoEmbedding
Incorporamenti generati dal video con tempi di offset.
VideoSegmentConfig
I segmenti video specifici (in secondi) per i quali vengono generati gli incorporamenti.