A partire dal 29 aprile 2025, i modelli Gemini 1.5 Pro e Gemini 1.5 Flash non sono disponibili nei progetti che non li hanno mai utilizzati, inclusi i nuovi progetti. Per maggiori dettagli, vedi Versioni e ciclo di vita dei modelli.

Questa pagina è stata tradotta dall'API Cloud Translation.

Modelli supportati da Model Garden

Elenco dei modelli proprietari di Google

La tabella seguente elenca i modelli proprietari di Google disponibili in Model Garden:

Nome modello	Modalità	Descrizione	Guide rapide
Gemini 2.5 Flash (anteprima)	Lingua, audio, visione	Modello di pensiero progettato per bilanciare prezzo e prestazioni.	Scheda del modello
Gemini 2.5 Pro (anteprima)	Lingua, audio, visione	Modello pensante con funzionalità di nuova generazione e capacità migliorate.	Scheda del modello
Gemini 2.0 Flash	Lingua, audio, visione	Il modello di riferimento per tutte le attività e le funzionalità quotidiane, con prestazioni migliorate e supporto dell'API Live in tempo reale.	Scheda del modello
Gemini 2.0 Flash-Lite	Lingua, audio, visione	Il modello Flash più veloce ed economico. Offre una qualità migliore rispetto a 1.5 allo stesso prezzo e alla stessa velocità.	Scheda del modello
Imagen per la generazione di immagini	Vision	Crea immagini di qualità professionale su larga scala utilizzando prompt di testo. Puoi anche utilizzare questo modello per aumentare la risoluzione delle immagini.	Scheda del modello
Imagen per la modifica e la personalizzazione	Vision	Modifica o utilizza l'apprendimento few-shot per creare immagini di qualità professionale su larga scala utilizzando immagini di base e prompt di testo oppure immagini di riferimento e prompt di testo.	Scheda del modello
Segmentazione immagine Vertex (anteprima)	Vision	Utilizza prompt di testo o disegna scarabocchi per segmentare un'immagine. La segmentazione delle immagini ti consente, ad esempio, di rilevare oggetti, rimuovere lo sfondo di un'immagine o segmentare il primo piano di un'immagine.	Scheda del modello
Imagen per la generazione di didascalie e VQA	Lingua	Genera una descrizione pertinente per una determinata immagine.	Scheda del modello
Embeddings per il testo	Lingua	Genera vettori basati sul testo, che possono essere utilizzati per attività downstream come la ricerca semantica, la classificazione del testo e l'analisi del sentiment.	Scheda del modello
Incorporamenti per multimodale	Vision	Genera vettori basati su immagini, che possono essere utilizzati per attività downstream come la classificazione e la ricerca di immagini.	Scheda del modello
Chirp 2	Voce	Chirp 2 è un modello di riconoscimento vocale automatico (ASR) multilingue sviluppato da Google che trascrive il parlato (speech-to-text). Rispetto alla prima generazione di modelli Chirp, Chirp 2 offre una maggiore precisione e velocità, oltre a nuove funzionalità come timestamp a livello di parola, adattamento del modello e traduzione vocale.	Scheda del modello

Elenco dei modelli gestiti disponibili in Model Garden

I modelli sono offerti come API gestite su Vertex AI Model Garden (noto anche come model as a service).

Modelli partner disponibili in Model Garden

La tabella seguente elenca i modelli dei partner disponibili in Model Garden:

Nome modello	Modalità	Descrizione	Guida rapida
Claude Opus 4.1	Lingua, Visione	Un leader del settore per la programmazione. Offre prestazioni costanti per attività di lunga durata che richiedono impegno e migliaia di passaggi, ampliando in modo significativo ciò che gli agenti AI possono risolvere. Ideale per alimentare prodotti e funzionalità di agenti all'avanguardia.	Scheda del modello
Claude Opus 4	Lingua, Visione	Claude Opus 4 offre prestazioni costanti per attività di lunga durata che richiedono impegno mirato e migliaia di passaggi, ampliando notevolmente ciò che gli agenti AI possono risolvere.	Scheda del modello
Claude Sonnet 4	Lingua, Visione	Il modello di medie dimensioni di Anthropic con intelligenza superiore per utilizzi ad alto volume, come programmazione, ricerca approfondita e agenti.	Scheda del modello
Claude 3.7 Sonnet di Anthropic	Lingua, Visione	Modello leader del settore per la programmazione e l'alimentazione di agenti AI e il primo modello Claude a offrire il ragionamento esteso.	Scheda del modello
Claude 3.5 Sonnet v2 di Anthropic	Lingua, Visione	Claude 3.5 Sonnet aggiornato è un modello all'avanguardia per attività di ingegneria del software nel mondo reale e capacità agentiche. Claude 3.5 Sonnet offre questi miglioramenti allo stesso prezzo e alla stessa velocità del suo predecessore.	Scheda del modello
Claude 3.5 Haiku di Anthropic	Lingua, Visione	Claude 3.5 Haiku, la nuova generazione del modello più veloce ed economico di Anthropic, è ottimale per i casi d'uso in cui velocità e convenienza sono importanti.	Scheda del modello
Claude 3 Haiku di Anthropic	Lingua	Il modello di visione e testo più rapido di Anthropic per risposte quasi immediate a query di base, pensato per esperienze di AI senza interruzioni che imitano le interazioni umane.	Scheda del modello
Claude 3.5 Sonnet di Anthropic	Lingua	Claude 3.5 Sonnet offre prestazioni migliori rispetto a Claude 3 Opus di Anthropic su un'ampia gamma di valutazioni di Anthropic con la velocità e il costo del modello di livello intermedio di Anthropic, Claude 3 Sonnet.	Scheda del modello
Jamba 1.5 Large (anteprima)	Lingua	Jamba 1.5 Large di AI21 Labs è progettato per risposte di qualità superiore, throughput elevato e prezzi competitivi rispetto ad altri modelli della stessa classe di dimensioni.	Scheda del modello
Jamba 1.5 Mini (anteprima)	Lingua	Jamba 1.5 Mini di AI21 Labs è ben bilanciato in termini di qualità, velocità effettiva e costi ridotti.	Scheda del modello
OCR Mistral (25/05)	Lingua, Visione	Mistral OCR (25.05) è un'API di riconoscimento ottico dei caratteri per la comprensione dei documenti. Il modello comprende ogni elemento dei documenti, come contenuti multimediali, testo, tabelle ed equazioni.	Scheda del modello
Mistral Small 3.1 (25/03)	Lingua	Mistral Small 3.1 (25/03) è l'ultima versione del modello Small di Mistral, con funzionalità multimodali e lunghezza del contesto estesa.	Scheda del modello
Mistral Large (24.11)	Lingua	Mistral Large (24.11) è la prossima versione del modello Mistral Large (24.07), ora con funzionalità di ragionamento e chiamate di funzione migliorate.	Scheda del modello
Codestral (25.01)	Codice	Un modello all'avanguardia progettato per la generazione di codice, incluso il completamento del codice e il riempimento del testo a metà.	Scheda del modello

Modelli open disponibili in Model Garden

La tabella seguente elenca i modelli open disponibili in Model Garden:

Nome modello	Modalità	Descrizione	Guida rapida
gpt-oss 120B	Lingua	Un modello da 120 miliardi di parametri che offre prestazioni elevate per le attività di ragionamento.	Scheda del modello
gpt-oss 20B	Lingua	Un modello da 20 miliardi di parametri ottimizzato per l'efficienza e l'implementazione su hardware di consumo e edge.	Scheda del modello
Qwen3 Coder	Lingua, codice	Un modello open-weight sviluppato per attività di sviluppo software avanzate.	Scheda del modello
Qwen3 235B	Lingua	Un modello open-weight con una capacità di "pensiero ibrido" per passare dal ragionamento metodico alla conversazione rapida.	Scheda del modello
DeepSeek-V3.1	Lingua	Il modello ibrido di DeepSeek che supporta sia la modalità di pensiero che quella non di pensiero.	Scheda del modello
DeepSeek R1 (0528)	Lingua	L'ultima versione del modello DeepSeek R1 di DeepSeek.	Scheda del modello
Llama 4 Maverick 17B-128E	Lingua, Visione	Il modello Llama 4 più grande e potente, con capacità di programmazione, ragionamento e generazione di immagini. Llama 4 Maverick 17B-128E è un modello multimodale che utilizza l'architettura Mixture-of-Experts (MoE) e la fusione anticipata.	Scheda del modello
Llama 4 Scout 17B-16E	Lingua, Visione	Llama 4 Scout 17B-16E offre risultati all'avanguardia per la sua classe di dimensioni, superando le generazioni precedenti di Llama e altri modelli open source e proprietari in diversi benchmark. Llama 4 Scout 17B-16E è un modello multimodale che utilizza l'architettura Mixture-of-Experts (MoE) e la fusione anticipata.	Scheda del modello
Llama 3.3	Lingua	Llama 3.3 è un modello di 70 miliardi di parametri ottimizzato per le istruzioni solo testuali che offre prestazioni migliorate rispetto a Llama 3.1 70B e Llama 3.2 90B se utilizzato per applicazioni solo testuali. Inoltre, per alcune applicazioni, Llama 3.3 70B si avvicina alle prestazioni di Llama 3.1 405B.	Scheda del modello
Llama 3.2 (anteprima)	Lingua, Visione	Un modello multimodale di medie dimensioni da 90 miliardi di parametri in grado di supportare il ragionamento sulle immagini, come l'analisi di grafici e diagrammi, nonché l'assegnazione di didascalie alle immagini.	Scheda del modello
Llama 3.1	Lingua	Una raccolta di LLM multilingue ottimizzati per casi d'uso di dialoghi multilingue e che superano molti dei modelli di chat open source e chiusi disponibili nei benchmark comuni del settore. Llama 3.1 405B è disponibile pubblicamente (GA). Llama 3.1 8B e Llama 3.1 70B sono in anteprima.	Scheda del modello

Elenco dei modelli con ricette di ottimizzazione o serving open source in Model Garden

La seguente tabella elenca i modelli OSS che supportano le ricette di ottimizzazione o di pubblicazione open source in Model Garden:

Nome modello	Modalità	Descrizione	Guida rapida
Llama 4	Lingua, Visione	Una famiglia di modelli multimodali che utilizzano l'architettura Mixture-of-Experts (MoE) e la fusione anticipata.	Colab Scheda del modello
Llama 3.3	Lingua	Il modello linguistico di grandi dimensioni (LLM) multilingue Meta Llama 3.3 è un modello generativo preaddestrato e ottimizzato per le istruzioni in 70 miliardi (testo in entrata/testo in uscita).	Scheda del modello
Flux	Vision	Un modello Transformer di flusso rettificato con 12 miliardi di parametri che genera immagini di alta qualità a partire da descrizioni di testo.	Scheda del modello
Protezione prompt	Lingua	Proteggi gli input LLM dalle tecniche di jailbreaking e dagli attacchi indiretti.	Scheda del modello
Llama 3.2	Lingua	Una raccolta di modelli linguistici di grandi dimensioni multilingue che sono modelli generativi preaddestrati e ottimizzati per le istruzioni nelle dimensioni di 1 miliardo e 3 miliardi.	Scheda del modello
Llama 3.2-Vision	Lingua, Visione	Una raccolta di modelli linguistici di grandi dimensioni multimodali che sono modelli generativi di ragionamento sulle immagini preaddestrati e ottimizzati per le istruzioni nelle dimensioni di 11 miliardi e 90 miliardi. Questi modelli sono ottimizzati per il riconoscimento visivo, il ragionamento sulle immagini, la generazione di sottotitoli codificati e la risposta a domande generali su un'immagine.	Scheda del modello
Llama Guard 3	Lingua	Un modello preaddestrato Llama-3.1-8B ottimizzato per la classificazione della sicurezza dei contenuti.	Scheda del modello
Qwen2	Lingua	Esegui il deployment di Qwen2, una serie di modelli linguistici di grandi dimensioni (LLM) di base.	Colab Scheda del modello
Phi-3	Lingua	Implementa Phi-3, una serie di modelli linguistici di grandi dimensioni (LLM) di base.	Colab Scheda del modello
E5	Lingua	Esegui il deployment di E5, una serie di modelli di text embedding.	Colab Scheda del modello
Instant ID	Lingua, Visione	Esegui il deployment di Instant ID, un modello di generazione di immagini da testo che preserva l'identità.	Colab Scheda del modello
Llama 3	Lingua	Esplora e crea con i modelli Llama 3 (8B, 70B, 405B) di Meta su Vertex AI.	Scheda del modello
Gemma 3n	Lingua, visione artificiale, audio	Modelli con pesi aperti (E2B, E4B) creati sulla base della stessa ricerca e tecnologia utilizzata per creare i modelli Gemini di Google.	Scheda del modello
Gemma 3	Lingua, Visione	Modelli open weight (1B solo testo, 4B, 12B, 27B) creati sulla base della stessa ricerca e tecnologia utilizzata per creare i modelli Gemini di Google.	Scheda del modello
Gemma 2	Lingua	Modelli open weight (9B, 27B) creati sulla base della stessa ricerca e tecnologia utilizzata per creare i modelli Gemini di Google.	Scheda del modello
Gemma	Lingua	Modelli open weight (2B, 7B) creati sulla base della stessa ricerca e tecnologia utilizzata per creare i modelli Gemini di Google.	Scheda del modello
CodeGemma	Lingua	Modelli open weight (2B, 7B) progettati per la generazione e il completamento del codice, creati sulla base della stessa ricerca e tecnologia utilizzata per creare i modelli Gemini di Google.	Scheda del modello
PaliGemma 2	Lingua, Visione	Modelli open weight 3B, 10B e 28B progettati per attività di generazione di didascalie per immagini e attività di domande e risposte visive, creati sulla base della stessa ricerca e tecnologia utilizzata per creare i modelli Gemini di Google.	Scheda del modello
PaliGemma	Lingua, Visione	Modello open weight 3B progettato per attività di generazione di didascalie per immagini e attività di domande e risposte visive, creato sulla base della stessa ricerca e tecnologia utilizzata per creare i modelli Gemini di Google.	Scheda del modello
ShieldGemma 2	Lingua, Visione	Modello Open Weight 4B addestrato sul checkpoint IT 4B di Gemma 3 per la classificazione della sicurezza delle immagini in categorie chiave che acquisiscono immagini e restituiscono etichette di sicurezza per norma.	Scheda del modello
TxGemma	Lingua	Modelli con pesi aperti (2B, 9B, 27B) progettati per lo sviluppo terapeutico e basati su Gemma 2.	Scheda del modello
MedGemma	Lingua, Visione	Modelli open weight (4 miliardi, 27 miliardi) progettati per le prestazioni di comprensione di testi e immagini mediche.	Scheda del modello
MedSigLIP	Lingua, Visione	Modello con pesi aperti (codificatore di visione con 400 milioni di parametri e codificatore di testo con 400 milioni di parametri) progettato per codificare immagini e testo medici in uno spazio di incorporamento comune.	Scheda del modello
T5Gemma	Lingua	Modelli encoder-decoder con pesi aperti (2B-2B, 9B-9B, 9B-2B, S-S, B-B, L-L, M-L, XL-XL) creati sulla base della stessa ricerca e tecnologia utilizzata per creare i modelli Gemini di Google.	Scheda del modello
Vicuna v1.5	Lingua	Esegui il deployment dei modelli della serie Vicuna v1.5, che sono modelli di base ottimizzati da LLama2 per la generazione di testo.	Scheda del modello
NLLB	Lingua	Esegui il deployment dei modelli della serie nllb per la traduzione multilingue.	Scheda del modello Colab
Mistral-7B	Lingua	Esegui il deployment di Mistral-7B, un modello di base per la generazione di testo.	Scheda del modello
BioGPT	Lingua	Esegui il deployment di BioGPT, un modello generativo di testo per il settore biomedico.	Scheda del modello Colab
BiomedCLIP	Lingua, Visione	Esegui il deployment di BiomedCLIP, un modello di base multimodale per il dominio biomedico.	Scheda del modello Colab
ImageBind	Lingua, vista, audio	Esegui il deployment di ImageBind, un modello di base per l'incorporamento multimodale.	Scheda del modello Colab
DITO	Lingua, Visione	Ottimizza ed esegui il deployment di DITO, un modello di base multimodale per attività di rilevamento di oggetti con vocabolario aperto.	Scheda del modello Colab
OWL-ViT v2	Lingua, Visione	Esegui il deployment di OWL-ViT v2, un modello di base multimodale per attività di rilevamento di oggetti con vocabolario aperto.	Scheda del modello Colab
FaceStylizer (Mediapipe)	Vision	Una pipeline generativa per trasformare le immagini di volti umani in un nuovo stile.	Scheda del modello Colab
Llama 2	Lingua	Ottimizza ed esegui il deployment dei foundation model Llama 2 di Meta (7B, 13B, 70B) su Vertex AI.	Scheda del modello
Code Llama	Lingua	Esegui il deployment dei foundation model Code Llama di Meta (7B, 13B, 34B) su Vertex AI.	Scheda del modello
Falcon-instruct	Lingua	Perfeziona ed esegui il deployment dei modelli Falcon-instruct (7B, 40B) utilizzando PEFT.	Colab Scheda del modello
OpenLLaMA	Lingua	Perfeziona ed esegui il deployment dei modelli OpenLLaMA (3B, 7B, 13B) utilizzando PEFT.	Colab Scheda del modello
T5-FLAN	Lingua	Ottimizza ed esegui il deployment di T5-FLAN (base, small, large).	Scheda del modello (pipeline di perfezionamento inclusa)
BERT	Lingua	Perfeziona ed esegui il deployment di BERT utilizzando PEFT.	Colab Scheda del modello
BART-large-cnn	Lingua	Esegui il deployment di BART, un modello di codifica-codifica (seq2seq) di Transformer con un codificatore bidirezionale (simile a BERT) e un decodificatore autoregressivo (simile a GPT).	Colab Scheda del modello
RoBERTa-large	Lingua	Perfeziona ed esegui il deployment di RoBERTa-large utilizzando PEFT.	Colab Scheda del modello
XLM-RoBERTa-large	Lingua	Perfeziona ed esegui il deployment di XLM-RoBERTa-large (una versione multilingue di RoBERTa) utilizzando PEFT.	Colab Scheda del modello
Stable Diffusion XL v1.0	Lingua, Visione	Esegui il deployment di Stable Diffusion XL v1.0, che supporta la generazione di immagini da testo.	Colab Scheda del modello
Stable Diffusion XL Lightning	Lingua, Visione	Esegui il deployment di Stable Diffusion XL Lightning, un modello di generazione di immagini da testo.	Colab Scheda del modello
Stable Diffusion v2.1	Lingua, Visione	Perfeziona ed esegui il deployment di Stable Diffusion v2.1 (supporta la generazione di testo in immagine) utilizzando Dreambooth.	Colab Scheda del modello
Upscaler 4x di Stable Diffusion	Lingua, Visione	Implementa lo strumento di upscaling 4x di Stable Diffusion, che supporta la super risoluzione delle immagini con testo condizionato.	Colab Scheda del modello
InstructPix2Pix	Lingua, Visione	Implementa InstructPix2Pix, che supporta la modifica delle immagini utilizzando un prompt di testo.	Colab Scheda del modello
Inpainting di Stable Diffusion	Lingua, Visione	Perfeziona e implementa Stable Diffusion Inpainting, che supporta l'inpainting di un'immagine mascherata utilizzando un prompt di testo.	Colab Scheda del modello
SAM	Lingua, Visione	Esegui il deployment di Segment Anything, che supporta la segmentazione delle immagini zero-shot.	Colab Scheda del modello
Recupero di immagini composte con Pic2Word	Lingua, Visione	Esegui il deployment di Pic2Word, che supporta il recupero di immagini composte multimodali.	Colab Scheda del modello
BLIP2	Lingua, Visione	Implementa BLIP2, che supporta la generazione di didascalie per immagini e il question answering per immagini.	Colab Scheda del modello
Open-CLIP	Lingua, Visione	Ottimizza e implementa Open-CLIP, che supporta la classificazione zero-shot.	Colab Scheda del modello
F-VLM	Lingua, Visione	Esegui il deployment di F-VLM, che supporta il rilevamento di oggetti immagine con vocabolario aperto.	Colab Scheda del modello
tfhub/EfficientNetV2	Vision	Ottimizza e implementa l'implementazione TensorFlow Vision del modello di classificazione delle immagini EfficientNetV2.	Colab Scheda del modello
EfficientNetV2 (TIMM)	Vision	Perfeziona e implementa l'implementazione PyTorch del modello di classificazione di immagini EfficientNetV2.	Colab Scheda del modello
Proprietario/EfficientNetV2	Vision	Ottimizza e implementa il checkpoint proprietario di Google del modello di classificazione di immagini EfficientNetV2.	Colab Scheda del modello
EfficientNetLite (MediaPipe)	Vision	Ottimizza il modello di classificazione delle immagini EfficientNetLite tramite MediaPipe Model Maker.	Colab Scheda del modello
tfvision/vit	Vision	Ottimizza e implementa l'implementazione TensorFlow Vision del modello di classificazione di immagini ViT.	Colab Scheda del modello
ViT (TIMM)	Vision	Ottimizza e implementa l'implementazione PyTorch del modello di classificazione delle immagini ViT.	Colab Scheda del modello
Proprietario/ViT	Vision	Perfeziona ed esegui il deployment del checkpoint proprietario di Google del modello di classificazione delle immagini ViT.	Colab Scheda del modello
Proprietario/MaxViT	Vision	Ottimizza e implementa il checkpoint proprietario di Google del modello di classificazione delle immagini ibrido (CNN + ViT) MaxViT.	Colab Scheda del modello
ViT (JAX)	Vision	Perfeziona ed esegui il deployment dell'implementazione JAX del modello di classificazione delle immagini ViT.	Colab Scheda del modello
tfvision/SpineNet	Vision	Ottimizza e implementa l'implementazione TensorFlow Vision del modello di rilevamento degli oggetti SpineNet.	Colab Scheda del modello
Proprietario/Spinenet	Vision	Ottimizza e implementa il checkpoint proprietario di Google del modello di rilevamento degli oggetti SpineNet.	Colab Scheda del modello
tfvision/YOLO	Vision	Ottimizza ed esegui il deployment dell'implementazione TensorFlow Vision del modello di rilevamento degli oggetti YOLO in una sola fase.	Colab Scheda del modello
Proprietario/YOLO	Vision	Ottimizza e implementa il checkpoint proprietario di Google del modello di rilevamento degli oggetti YOLO in una sola fase.	Colab Scheda del modello
YOLOv8 (Keras)	Vision	Ottimizza e implementa l'implementazione Keras del modello YOLOv8 per il rilevamento di oggetti.	Colab Scheda del modello
tfvision/YOLOv7	Vision	Ottimizza e implementa il modello YOLOv7 per il rilevamento degli oggetti.	Colab Scheda del modello
ByteTrack Video Object Tracking	Vision	Esegui la previsione batch per il monitoraggio di oggetti video utilizzando il tracker ByteTrack.	Colab Scheda del modello
ResNeSt (TIMM)	Vision	Ottimizza e implementa l'implementazione PyTorch del modello di classificazione delle immagini ResNeSt.	Colab Scheda del modello
ConvNeXt (TIMM)	Vision	Perfeziona e implementa ConvNeXt, un modello puramente convoluzionale per la classificazione delle immagini ispirato al design dei Vision Transformer.	Colab Scheda del modello
CspNet (TIMM)	Vision	Perfeziona ed esegui il deployment del modello di classificazione delle immagini CSPNet (Cross Stage Partial Network).	Colab Scheda del modello
Inception (TIMM)	Vision	Perfeziona ed esegui il deployment del modello di classificazione delle immagini Inception.	Colab Scheda del modello
DeepLabv3+ (con checkpoint)	Vision	Ottimizza e implementa il modello DeepLab-v3 Plus per la segmentazione semantica delle immagini.	Colab Scheda del modello
Faster R-CNN (Detectron2)	Vision	Perfeziona ed esegui il deployment dell'implementazione Detectron2 del modello Faster R-CNN per il rilevamento di oggetti immagine.	Colab Scheda del modello
RetinaNet (Detectron2)	Vision	Ottimizza e implementa l'implementazione Detectron2 del modello RetinaNet per il rilevamento di oggetti immagine.	Colab Scheda del modello
Mask R-CNN (Detectron2)	Vision	Ottimizza e implementa l'implementazione di Detectron2 del modello Mask R-CNN per il rilevamento e la segmentazione di oggetti immagine.	Colab Scheda del modello
ControlNet	Vision	Ottimizza e implementa il modello di generazione di immagini da testo ControlNet.	Colab Scheda del modello
MobileNet (TIMM)	Vision	Ottimizza e implementa l'implementazione PyTorch del modello di classificazione di immagini MobileNet.	Colab Scheda del modello
Classificazione delle immagini MobileNetV2 (MediaPipe)	Vision	Perfeziona il modello di classificazione di immagini MobileNetV2 utilizzando MediaPipe Model Maker.	Colab Scheda del modello
Rilevamento di oggetti MobileNetV2 (MediaPipe)	Vision	Ottimizza il modello di rilevamento degli oggetti MobileNetV2 utilizzando MediaPipe Model Maker.	Colab Scheda del modello
MobileNet-MultiHW-AVG (MediaPipe)	Vision	Ottimizza il modello di rilevamento degli oggetti MobileNet-MultiHW-AVG utilizzando MediaPipe Model Maker.	Colab Scheda del modello
DeiT	Vision	Ottimizza e implementa il modello DeiT (Data-efficient Image Transformers) per la classificazione delle immagini.	Colab Scheda del modello
BEiT	Vision	Perfeziona e implementa il modello BEiT (Bidirectional Encoder representation from Image Transformers) per la classificazione delle immagini.	Colab Scheda del modello
Riconoscimento dei gesti della mano (MediaPipe)	Vision	Perfeziona ed esegui il deployment on-device dei modelli di riconoscimento dei gesti della mano utilizzando MediaPipe.	Colab Scheda del modello
Classificatore di word embedding medio (MediaPipe)	Vision	Perfeziona ed esegui il deployment on-device dei modelli di classificazione dell'incorporamento medio delle parole utilizzando MediaPipe.	Colab Scheda del modello
Classificatore MobileBERT (MediaPipe)	Vision	Perfeziona ed esegui il deployment sul dispositivo dei modelli di classificazione MobileBERT utilizzando MediaPipe.	Colab Scheda del modello
Classificazione dei clip video MoViNet	Video	Ottimizza ed esegui il deployment dei modelli di classificazione dei clip video MoViNet.	Colab Scheda del modello
MoViNet Video Action Recognition	Video	Ottimizza ed esegui il deployment dei modelli MoViNet per l'inferenza del riconoscimento delle azioni.	Colab Scheda del modello
Stable Diffusion XL LCM	Vision	Esegui il deployment di questo modello che utilizza il modello di coerenza latente (LCM) per migliorare la generazione di immagini da testo nei modelli di diffusione latente, consentendo la creazione di immagini più rapide e di alta qualità con meno passaggi.	Colab Scheda del modello
LLaVA 1.5	Visione, lingua	Esegui il deployment dei modelli LLaVA 1.5.	Colab Scheda del modello
pytorch-zipnerf	Visione artificiale, video	Addestra il modello Pytorch-ZipNeRF, che è un'implementazione all'avanguardia dell'algoritmo ZipNeRF nel framework Pytorch, progettato per la ricostruzione 3D efficiente e accurata a partire da immagini 2D.	Colab Scheda del modello
Mixtral	Lingua	Esegui il deployment del modello Mixtral, un modello linguistico di grandi dimensioni (LLM) Mixture of Experts (MoE) sviluppato da Mistral AI.	Scheda del modello
Llama 2 (quantizzato)	Lingua	Ottimizza e implementa una versione quantizzata dei modelli Llama 2 di Meta.	Colab Scheda del modello
LaMa (Large Mask Inpainting)	Vision	Esegui il deployment di LaMa, che utilizza convoluzioni di Fourier veloci (FFC), una perdita percettiva del campo ricettivo elevata e maschere di addestramento di grandi dimensioni consente il riempimento di immagini robuste alla risoluzione.	Colab Scheda del modello
AutoGluon	Tabulare	Con AutoGluon puoi addestrare ed eseguire il deployment di modelli di machine learning e deep learning ad alta precisione per dati tabellari.	Colab Scheda del modello
MaMMUT	Lingua, Visione	Un'architettura di encoder visivo e decoder di testo per attività multimodali come risposta a domande visive, recupero di immagini e testo, recupero di testo e immagini e generazione di incorporamenti multimodali.	Colab Scheda del modello
Sussurro grande	Voce	Esegui il deployment di Whisper Large, il modello all'avanguardia di OpenAI per il riconoscimento vocale automatico (ASR).	Colab Scheda del modello