Pacchetto visione_models (1.50.0)

Documentazione dell'API per il pacchetto vision_models.

Corsi

Image

Immagine.

ImageCaptioningModel

Genera didascalie dall'immagine.

Esempi:

model = ImageCaptioningModel.from_pretrained("imagetext@001")
image = Image.load_from_file("image.png")
captions = model.get_captions(
    image=image,
    # Optional:
    number_of_results=1,
    language="en",
)

ImageQnAModel

Consente di rispondere a domande su un'immagine.

Esempi:

model = ImageQnAModel.from_pretrained("imagetext@001")
image = Image.load_from_file("image.png")
answers = model.ask_question(
    image=image,
    question="What color is the car in this image?",
    # Optional:
    number_of_results=1,
)

ImageTextModel

Genera testo dalle immagini.

Esempi:

model = ImageTextModel.from_pretrained("imagetext@001")
image = Image.load_from_file("image.png")

captions = model.get_captions(
    image=image,
    # Optional:
    number_of_results=1,
    language="en",
)

answers = model.ask_question(
    image=image,
    question="What color is the car in this image?",
    # Optional:
    number_of_results=1,
)

MultiModalEmbeddingModel

Genera vettori di incorporamento da immagini e video.

Esempi:

model = MultiModalEmbeddingModel.from_pretrained("multimodalembedding@001")
image = Image.load_from_file("image.png")
video = Video.load_from_file("video.mp4")

embeddings = model.get_embeddings(
    image=image,
    video=video,
    contextual_text="Hello world",
)
image_embedding = embeddings.image_embedding
video_embeddings = embeddings.video_embeddings
text_embedding = embeddings.text_embedding

MultiModalEmbeddingResponse

La risposta di incorporamento multimodale.

Video

Video.

VideoEmbedding

Incorporamenti generati dal video con tempi di offset.

VideoSegmentConfig

I segmenti video specifici (in secondi) per i quali vengono generati gli incorporamenti.