Elenco dei modelli proprietari di Google
La tabella seguente elenca i modelli proprietari di Google disponibili in Model Garden:
Nome modello | Modalità | Descrizione | Guide rapide |
---|---|---|---|
Gemini 2.5 Flash (anteprima) | Lingua, audio, visione | Modello di pensiero progettato per bilanciare prezzo e prestazioni. | Scheda del modello |
Gemini 2.5 Pro (anteprima) | Lingua, audio, visione | Modello pensante con funzionalità di nuova generazione e capacità migliorate. | Scheda del modello |
Gemini 2.0 Flash | Lingua, audio, visione | Il modello di riferimento per tutte le attività e le funzionalità quotidiane, con prestazioni migliorate e supporto dell'API Live in tempo reale. | Scheda del modello |
Gemini 2.0 Flash-Lite | Lingua, audio, visione | Il modello Flash più veloce ed economico. Offre una qualità migliore rispetto a 1.5 allo stesso prezzo e alla stessa velocità. | Scheda del modello |
Imagen per la generazione di immagini | Vision | Crea immagini di qualità professionale su larga scala utilizzando prompt di testo. Puoi anche utilizzare questo modello per aumentare la risoluzione delle immagini. | Scheda del modello |
Imagen per la modifica e la personalizzazione | Vision | Modifica o utilizza l'apprendimento few-shot per creare immagini di qualità professionale su larga scala utilizzando immagini di base e prompt di testo oppure immagini di riferimento e prompt di testo. | Scheda del modello |
Segmentazione immagine Vertex (anteprima) | Vision | Utilizza prompt di testo o disegna scarabocchi per segmentare un'immagine. La segmentazione delle immagini ti consente, ad esempio, di rilevare oggetti, rimuovere lo sfondo di un'immagine o segmentare il primo piano di un'immagine. | Scheda del modello |
Imagen per la generazione di didascalie e VQA | Lingua | Genera una descrizione pertinente per una determinata immagine. | Scheda del modello |
Embeddings per il testo | Lingua | Genera vettori basati sul testo, che possono essere utilizzati per attività downstream come la ricerca semantica, la classificazione del testo e l'analisi del sentiment. | Scheda del modello |
Incorporamenti per multimodale | Vision | Genera vettori basati su immagini, che possono essere utilizzati per attività downstream come la classificazione e la ricerca di immagini. | Scheda del modello |
Chirp 2 | Voce | Chirp 2 è un modello di riconoscimento vocale automatico (ASR) multilingue sviluppato da Google che trascrive il parlato (speech-to-text). Rispetto alla prima generazione di modelli Chirp, Chirp 2 offre una maggiore precisione e velocità, oltre a nuove funzionalità come timestamp a livello di parola, adattamento del modello e traduzione vocale. | Scheda del modello |
Elenco dei modelli gestiti disponibili in Model Garden
I modelli sono offerti come API gestite su Vertex AI Model Garden (noto anche come model as a service).
Modelli partner disponibili in Model Garden
La tabella seguente elenca i modelli dei partner disponibili in Model Garden:
Nome modello | Modalità | Descrizione | Guida rapida |
---|---|---|---|
Claude Opus 4.1 | Lingua, Visione | Un leader del settore per la programmazione. Offre prestazioni costanti per attività di lunga durata che richiedono impegno e migliaia di passaggi, ampliando in modo significativo ciò che gli agenti AI possono risolvere. Ideale per alimentare prodotti e funzionalità di agenti all'avanguardia. | Scheda del modello |
Claude Opus 4 | Lingua, Visione | Claude Opus 4 offre prestazioni costanti per attività di lunga durata che richiedono impegno mirato e migliaia di passaggi, ampliando notevolmente ciò che gli agenti AI possono risolvere. | Scheda del modello |
Claude Sonnet 4 | Lingua, Visione | Il modello di medie dimensioni di Anthropic con intelligenza superiore per utilizzi ad alto volume, come programmazione, ricerca approfondita e agenti. | Scheda del modello |
Claude 3.7 Sonnet di Anthropic | Lingua, Visione | Modello leader del settore per la programmazione e l'alimentazione di agenti AI e il primo modello Claude a offrire il ragionamento esteso. | Scheda del modello |
Claude 3.5 Sonnet v2 di Anthropic | Lingua, Visione | Claude 3.5 Sonnet aggiornato è un modello all'avanguardia per attività di ingegneria del software nel mondo reale e capacità agentiche. Claude 3.5 Sonnet offre questi miglioramenti allo stesso prezzo e alla stessa velocità del suo predecessore. | Scheda del modello |
Claude 3.5 Haiku di Anthropic | Lingua, Visione | Claude 3.5 Haiku, la nuova generazione del modello più veloce ed economico di Anthropic, è ottimale per i casi d'uso in cui velocità e convenienza sono importanti. | Scheda del modello |
Claude 3 Haiku di Anthropic | Lingua | Il modello di visione e testo più rapido di Anthropic per risposte quasi immediate a query di base, pensato per esperienze di AI senza interruzioni che imitano le interazioni umane. | Scheda del modello |
Claude 3.5 Sonnet di Anthropic | Lingua | Claude 3.5 Sonnet offre prestazioni migliori rispetto a Claude 3 Opus di Anthropic su un'ampia gamma di valutazioni di Anthropic con la velocità e il costo del modello di livello intermedio di Anthropic, Claude 3 Sonnet. | Scheda del modello |
Jamba 1.5 Large (anteprima) | Lingua | Jamba 1.5 Large di AI21 Labs è progettato per risposte di qualità superiore, throughput elevato e prezzi competitivi rispetto ad altri modelli della stessa classe di dimensioni. | Scheda del modello |
Jamba 1.5 Mini (anteprima) | Lingua | Jamba 1.5 Mini di AI21 Labs è ben bilanciato in termini di qualità, velocità effettiva e costi ridotti. | Scheda del modello |
OCR Mistral (25/05) | Lingua, Visione | Mistral OCR (25.05) è un'API di riconoscimento ottico dei caratteri per la comprensione dei documenti. Il modello comprende ogni elemento dei documenti, come contenuti multimediali, testo, tabelle ed equazioni. | Scheda del modello |
Mistral Small 3.1 (25/03) | Lingua | Mistral Small 3.1 (25/03) è l'ultima versione del modello Small di Mistral, con funzionalità multimodali e lunghezza del contesto estesa. | Scheda del modello |
Mistral Large (24.11) | Lingua | Mistral Large (24.11) è la prossima versione del modello Mistral Large (24.07), ora con funzionalità di ragionamento e chiamate di funzione migliorate. | Scheda del modello |
Codestral (25.01) | Codice | Un modello all'avanguardia progettato per la generazione di codice, incluso il completamento del codice e il riempimento del testo a metà. | Scheda del modello |
Modelli open disponibili in Model Garden
La tabella seguente elenca i modelli open disponibili in Model Garden:
Nome modello | Modalità | Descrizione | Guida rapida |
---|---|---|---|
gpt-oss 120B | Lingua | Un modello da 120 miliardi di parametri che offre prestazioni elevate per le attività di ragionamento. | Scheda del modello |
gpt-oss 20B | Lingua | Un modello da 20 miliardi di parametri ottimizzato per l'efficienza e l'implementazione su hardware di consumo e edge. | Scheda del modello |
Qwen3 Coder | Lingua, codice | Un modello open-weight sviluppato per attività di sviluppo software avanzate. | Scheda del modello |
Qwen3 235B | Lingua | Un modello open-weight con una capacità di "pensiero ibrido" per passare dal ragionamento metodico alla conversazione rapida. | Scheda del modello |
DeepSeek-V3.1 | Lingua | Il modello ibrido di DeepSeek che supporta sia la modalità di pensiero che quella non di pensiero. | Scheda del modello |
DeepSeek R1 (0528) | Lingua | L'ultima versione del modello DeepSeek R1 di DeepSeek. | Scheda del modello |
Llama 4 Maverick 17B-128E | Lingua, Visione | Il modello Llama 4 più grande e potente, con capacità di programmazione, ragionamento e generazione di immagini. Llama 4 Maverick 17B-128E è un modello multimodale che utilizza l'architettura Mixture-of-Experts (MoE) e la fusione anticipata. | Scheda del modello |
Llama 4 Scout 17B-16E | Lingua, Visione | Llama 4 Scout 17B-16E offre risultati all'avanguardia per la sua classe di dimensioni, superando le generazioni precedenti di Llama e altri modelli open source e proprietari in diversi benchmark. Llama 4 Scout 17B-16E è un modello multimodale che utilizza l'architettura Mixture-of-Experts (MoE) e la fusione anticipata. | Scheda del modello |
Llama 3.3 | Lingua | Llama 3.3 è un modello di 70 miliardi di parametri ottimizzato per le istruzioni solo testuali che offre prestazioni migliorate rispetto a Llama 3.1 70B e Llama 3.2 90B se utilizzato per applicazioni solo testuali. Inoltre, per alcune applicazioni, Llama 3.3 70B si avvicina alle prestazioni di Llama 3.1 405B. | Scheda del modello |
Llama 3.2 (anteprima) | Lingua, Visione | Un modello multimodale di medie dimensioni da 90 miliardi di parametri in grado di supportare il ragionamento sulle immagini, come l'analisi di grafici e diagrammi, nonché l'assegnazione di didascalie alle immagini. | Scheda del modello |
Llama 3.1 | Lingua |
Una raccolta di LLM multilingue ottimizzati per casi d'uso di dialoghi multilingue e che superano molti dei modelli di chat open source e chiusi disponibili nei benchmark comuni del settore. Llama 3.1 405B è disponibile pubblicamente (GA). Llama 3.1 8B e Llama 3.1 70B sono in anteprima. |
Scheda del modello |
Elenco dei modelli con ricette di ottimizzazione o serving open source in Model Garden
La seguente tabella elenca i modelli OSS che supportano le ricette di ottimizzazione o di pubblicazione open source in Model Garden:
Nome modello | Modalità | Descrizione | Guida rapida |
---|---|---|---|
Llama 4 | Lingua, Visione | Una famiglia di modelli multimodali che utilizzano l'architettura Mixture-of-Experts (MoE) e la fusione anticipata. | Colab Scheda del modello |
Llama 3.3 | Lingua | Il modello linguistico di grandi dimensioni (LLM) multilingue Meta Llama 3.3 è un modello generativo preaddestrato e ottimizzato per le istruzioni in 70 miliardi (testo in entrata/testo in uscita). | Scheda del modello |
Flux | Vision | Un modello Transformer di flusso rettificato con 12 miliardi di parametri che genera immagini di alta qualità a partire da descrizioni di testo. | Scheda del modello |
Protezione prompt | Lingua | Proteggi gli input LLM dalle tecniche di jailbreaking e dagli attacchi indiretti. | Scheda del modello |
Llama 3.2 | Lingua | Una raccolta di modelli linguistici di grandi dimensioni multilingue che sono modelli generativi preaddestrati e ottimizzati per le istruzioni nelle dimensioni di 1 miliardo e 3 miliardi. | Scheda del modello |
Llama 3.2-Vision | Lingua, Visione | Una raccolta di modelli linguistici di grandi dimensioni multimodali che sono modelli generativi di ragionamento sulle immagini preaddestrati e ottimizzati per le istruzioni nelle dimensioni di 11 miliardi e 90 miliardi. Questi modelli sono ottimizzati per il riconoscimento visivo, il ragionamento sulle immagini, la generazione di sottotitoli codificati e la risposta a domande generali su un'immagine. | Scheda del modello |
Llama Guard 3 | Lingua | Un modello preaddestrato Llama-3.1-8B ottimizzato per la classificazione della sicurezza dei contenuti. | Scheda del modello |
Qwen2 | Lingua | Esegui il deployment di Qwen2, una serie di modelli linguistici di grandi dimensioni (LLM) di base. | Colab Scheda del modello |
Phi-3 | Lingua | Implementa Phi-3, una serie di modelli linguistici di grandi dimensioni (LLM) di base. | Colab Scheda del modello |
E5 | Lingua | Esegui il deployment di E5, una serie di modelli di text embedding. | Colab Scheda del modello |
Instant ID | Lingua, Visione | Esegui il deployment di Instant ID, un modello di generazione di immagini da testo che preserva l'identità. | Colab Scheda del modello |
Llama 3 | Lingua | Esplora e crea con i modelli Llama 3 (8B, 70B, 405B) di Meta su Vertex AI. | Scheda del modello |
Gemma 3n | Lingua, visione artificiale, audio | Modelli con pesi aperti (E2B, E4B) creati sulla base della stessa ricerca e tecnologia utilizzata per creare i modelli Gemini di Google. | Scheda del modello |
Gemma 3 | Lingua, Visione | Modelli open weight (1B solo testo, 4B, 12B, 27B) creati sulla base della stessa ricerca e tecnologia utilizzata per creare i modelli Gemini di Google. | Scheda del modello |
Gemma 2 | Lingua | Modelli open weight (9B, 27B) creati sulla base della stessa ricerca e tecnologia utilizzata per creare i modelli Gemini di Google. | Scheda del modello |
Gemma | Lingua | Modelli open weight (2B, 7B) creati sulla base della stessa ricerca e tecnologia utilizzata per creare i modelli Gemini di Google. | Scheda del modello |
CodeGemma | Lingua | Modelli open weight (2B, 7B) progettati per la generazione e il completamento del codice, creati sulla base della stessa ricerca e tecnologia utilizzata per creare i modelli Gemini di Google. | Scheda del modello |
PaliGemma 2 | Lingua, Visione | Modelli open weight 3B, 10B e 28B progettati per attività di generazione di didascalie per immagini e attività di domande e risposte visive, creati sulla base della stessa ricerca e tecnologia utilizzata per creare i modelli Gemini di Google. | Scheda del modello |
PaliGemma | Lingua, Visione | Modello open weight 3B progettato per attività di generazione di didascalie per immagini e attività di domande e risposte visive, creato sulla base della stessa ricerca e tecnologia utilizzata per creare i modelli Gemini di Google. | Scheda del modello |
ShieldGemma 2 | Lingua, Visione | Modello Open Weight 4B addestrato sul checkpoint IT 4B di Gemma 3 per la classificazione della sicurezza delle immagini in categorie chiave che acquisiscono immagini e restituiscono etichette di sicurezza per norma. | Scheda del modello |
TxGemma | Lingua | Modelli con pesi aperti (2B, 9B, 27B) progettati per lo sviluppo terapeutico e basati su Gemma 2. | Scheda del modello |
MedGemma | Lingua, Visione | Modelli open weight (4 miliardi, 27 miliardi) progettati per le prestazioni di comprensione di testi e immagini mediche. | Scheda del modello |
MedSigLIP | Lingua, Visione | Modello con pesi aperti (codificatore di visione con 400 milioni di parametri e codificatore di testo con 400 milioni di parametri) progettato per codificare immagini e testo medici in uno spazio di incorporamento comune. | Scheda del modello |
T5Gemma | Lingua | Modelli encoder-decoder con pesi aperti (2B-2B, 9B-9B, 9B-2B, S-S, B-B, L-L, M-L, XL-XL) creati sulla base della stessa ricerca e tecnologia utilizzata per creare i modelli Gemini di Google. | Scheda del modello |
Vicuna v1.5 | Lingua | Esegui il deployment dei modelli della serie Vicuna v1.5, che sono modelli di base ottimizzati da LLama2 per la generazione di testo. | Scheda del modello |
NLLB | Lingua | Esegui il deployment dei modelli della serie nllb per la traduzione multilingue. | Scheda del modello Colab |
Mistral-7B | Lingua | Esegui il deployment di Mistral-7B, un modello di base per la generazione di testo. | Scheda del modello |
BioGPT | Lingua | Esegui il deployment di BioGPT, un modello generativo di testo per il settore biomedico. | Scheda del modello Colab |
BiomedCLIP | Lingua, Visione | Esegui il deployment di BiomedCLIP, un modello di base multimodale per il dominio biomedico. | Scheda del modello Colab |
ImageBind | Lingua, vista, audio |
Esegui il deployment di ImageBind, un modello di base per l'incorporamento multimodale. | Scheda del modello Colab |
DITO | Lingua, Visione | Ottimizza ed esegui il deployment di DITO, un modello di base multimodale per attività di rilevamento di oggetti con vocabolario aperto. | Scheda del modello Colab |
OWL-ViT v2 | Lingua, Visione | Esegui il deployment di OWL-ViT v2, un modello di base multimodale per attività di rilevamento di oggetti con vocabolario aperto. | Scheda del modello Colab |
FaceStylizer (Mediapipe) | Vision | Una pipeline generativa per trasformare le immagini di volti umani in un nuovo stile. | Scheda del modello Colab |
Llama 2 | Lingua | Ottimizza ed esegui il deployment dei foundation model Llama 2 di Meta (7B, 13B, 70B) su Vertex AI. | Scheda del modello |
Code Llama | Lingua | Esegui il deployment dei foundation model Code Llama di Meta (7B, 13B, 34B) su Vertex AI. | Scheda del modello |
Falcon-instruct | Lingua | Perfeziona ed esegui il deployment dei modelli Falcon-instruct (7B, 40B) utilizzando PEFT. | Colab Scheda del modello |
OpenLLaMA | Lingua | Perfeziona ed esegui il deployment dei modelli OpenLLaMA (3B, 7B, 13B) utilizzando PEFT. | Colab Scheda del modello |
T5-FLAN | Lingua | Ottimizza ed esegui il deployment di T5-FLAN (base, small, large). | Scheda del modello (pipeline di perfezionamento inclusa) |
BERT | Lingua | Perfeziona ed esegui il deployment di BERT utilizzando PEFT. | Colab Scheda del modello |
BART-large-cnn | Lingua | Esegui il deployment di BART, un modello di codifica-codifica (seq2seq) di Transformer con un codificatore bidirezionale (simile a BERT) e un decodificatore autoregressivo (simile a GPT). | Colab Scheda del modello |
RoBERTa-large | Lingua | Perfeziona ed esegui il deployment di RoBERTa-large utilizzando PEFT. | Colab Scheda del modello |
XLM-RoBERTa-large | Lingua | Perfeziona ed esegui il deployment di XLM-RoBERTa-large (una versione multilingue di RoBERTa) utilizzando PEFT. | Colab Scheda del modello |
Stable Diffusion XL v1.0 | Lingua, Visione | Esegui il deployment di Stable Diffusion XL v1.0, che supporta la generazione di immagini da testo. | Colab Scheda del modello |
Stable Diffusion XL Lightning | Lingua, Visione | Esegui il deployment di Stable Diffusion XL Lightning, un modello di generazione di immagini da testo. | Colab Scheda del modello |
Stable Diffusion v2.1 | Lingua, Visione | Perfeziona ed esegui il deployment di Stable Diffusion v2.1 (supporta la generazione di testo in immagine) utilizzando Dreambooth. | Colab Scheda del modello |
Upscaler 4x di Stable Diffusion | Lingua, Visione | Implementa lo strumento di upscaling 4x di Stable Diffusion, che supporta la super risoluzione delle immagini con testo condizionato. | Colab Scheda del modello |
InstructPix2Pix | Lingua, Visione | Implementa InstructPix2Pix, che supporta la modifica delle immagini utilizzando un prompt di testo. | Colab Scheda del modello |
Inpainting di Stable Diffusion | Lingua, Visione | Perfeziona e implementa Stable Diffusion Inpainting, che supporta l'inpainting di un'immagine mascherata utilizzando un prompt di testo. | Colab Scheda del modello |
SAM | Lingua, Visione | Esegui il deployment di Segment Anything, che supporta la segmentazione delle immagini zero-shot. | Colab Scheda del modello |
Recupero di immagini composte con Pic2Word | Lingua, Visione | Esegui il deployment di Pic2Word, che supporta il recupero di immagini composte multimodali. | Colab Scheda del modello |
BLIP2 | Lingua, Visione | Implementa BLIP2, che supporta la generazione di didascalie per immagini e il question answering per immagini. | Colab Scheda del modello |
Open-CLIP | Lingua, Visione | Ottimizza e implementa Open-CLIP, che supporta la classificazione zero-shot. | Colab Scheda del modello |
F-VLM | Lingua, Visione | Esegui il deployment di F-VLM, che supporta il rilevamento di oggetti immagine con vocabolario aperto. | Colab Scheda del modello |
tfhub/EfficientNetV2 | Vision | Ottimizza e implementa l'implementazione TensorFlow Vision del modello di classificazione delle immagini EfficientNetV2. | Colab Scheda del modello |
EfficientNetV2 (TIMM) | Vision | Perfeziona e implementa l'implementazione PyTorch del modello di classificazione di immagini EfficientNetV2. | Colab Scheda del modello |
Proprietario/EfficientNetV2 | Vision | Ottimizza e implementa il checkpoint proprietario di Google del modello di classificazione di immagini EfficientNetV2. | Colab Scheda del modello |
EfficientNetLite (MediaPipe) | Vision | Ottimizza il modello di classificazione delle immagini EfficientNetLite tramite MediaPipe Model Maker. | Colab Scheda del modello |
tfvision/vit | Vision | Ottimizza e implementa l'implementazione TensorFlow Vision del modello di classificazione di immagini ViT. | Colab Scheda del modello |
ViT (TIMM) | Vision | Ottimizza e implementa l'implementazione PyTorch del modello di classificazione delle immagini ViT. | Colab Scheda del modello |
Proprietario/ViT | Vision | Perfeziona ed esegui il deployment del checkpoint proprietario di Google del modello di classificazione delle immagini ViT. | Colab Scheda del modello |
Proprietario/MaxViT | Vision | Ottimizza e implementa il checkpoint proprietario di Google del modello di classificazione delle immagini ibrido (CNN + ViT) MaxViT. | Colab Scheda del modello |
ViT (JAX) | Vision | Perfeziona ed esegui il deployment dell'implementazione JAX del modello di classificazione delle immagini ViT. | Colab Scheda del modello |
tfvision/SpineNet | Vision | Ottimizza e implementa l'implementazione TensorFlow Vision del modello di rilevamento degli oggetti SpineNet. | Colab Scheda del modello |
Proprietario/Spinenet | Vision | Ottimizza e implementa il checkpoint proprietario di Google del modello di rilevamento degli oggetti SpineNet. | Colab Scheda del modello |
tfvision/YOLO | Vision | Ottimizza ed esegui il deployment dell'implementazione TensorFlow Vision del modello di rilevamento degli oggetti YOLO in una sola fase. | Colab Scheda del modello |
Proprietario/YOLO | Vision | Ottimizza e implementa il checkpoint proprietario di Google del modello di rilevamento degli oggetti YOLO in una sola fase. | Colab Scheda del modello |
YOLOv8 (Keras) | Vision | Ottimizza e implementa l'implementazione Keras del modello YOLOv8 per il rilevamento di oggetti. | Colab Scheda del modello |
tfvision/YOLOv7 | Vision | Ottimizza e implementa il modello YOLOv7 per il rilevamento degli oggetti. | Colab Scheda del modello |
ByteTrack Video Object Tracking | Vision | Esegui la previsione batch per il monitoraggio di oggetti video utilizzando il tracker ByteTrack. | Colab Scheda del modello |
ResNeSt (TIMM) | Vision | Ottimizza e implementa l'implementazione PyTorch del modello di classificazione delle immagini ResNeSt. | Colab Scheda del modello |
ConvNeXt (TIMM) | Vision | Perfeziona e implementa ConvNeXt, un modello puramente convoluzionale per la classificazione delle immagini ispirato al design dei Vision Transformer. | Colab Scheda del modello |
CspNet (TIMM) | Vision | Perfeziona ed esegui il deployment del modello di classificazione delle immagini CSPNet (Cross Stage Partial Network). | Colab Scheda del modello |
Inception (TIMM) | Vision | Perfeziona ed esegui il deployment del modello di classificazione delle immagini Inception. | Colab Scheda del modello |
DeepLabv3+ (con checkpoint) | Vision | Ottimizza e implementa il modello DeepLab-v3 Plus per la segmentazione semantica delle immagini. | Colab Scheda del modello |
Faster R-CNN (Detectron2) | Vision | Perfeziona ed esegui il deployment dell'implementazione Detectron2 del modello Faster R-CNN per il rilevamento di oggetti immagine. | Colab Scheda del modello |
RetinaNet (Detectron2) | Vision | Ottimizza e implementa l'implementazione Detectron2 del modello RetinaNet per il rilevamento di oggetti immagine. | Colab Scheda del modello |
Mask R-CNN (Detectron2) | Vision | Ottimizza e implementa l'implementazione di Detectron2 del modello Mask R-CNN per il rilevamento e la segmentazione di oggetti immagine. | Colab Scheda del modello |
ControlNet | Vision | Ottimizza e implementa il modello di generazione di immagini da testo ControlNet. | Colab Scheda del modello |
MobileNet (TIMM) | Vision | Ottimizza e implementa l'implementazione PyTorch del modello di classificazione di immagini MobileNet. | Colab Scheda del modello |
Classificazione delle immagini MobileNetV2 (MediaPipe) | Vision | Perfeziona il modello di classificazione di immagini MobileNetV2 utilizzando MediaPipe Model Maker. | Colab Scheda del modello |
Rilevamento di oggetti MobileNetV2 (MediaPipe) | Vision | Ottimizza il modello di rilevamento degli oggetti MobileNetV2 utilizzando MediaPipe Model Maker. | Colab Scheda del modello |
MobileNet-MultiHW-AVG (MediaPipe) | Vision | Ottimizza il modello di rilevamento degli oggetti MobileNet-MultiHW-AVG utilizzando MediaPipe Model Maker. | Colab Scheda del modello |
DeiT | Vision | Ottimizza e implementa il modello DeiT (Data-efficient Image Transformers) per la classificazione delle immagini. | Colab Scheda del modello |
BEiT | Vision | Perfeziona e implementa il modello BEiT (Bidirectional Encoder representation from Image Transformers) per la classificazione delle immagini. | Colab Scheda del modello |
Riconoscimento dei gesti della mano (MediaPipe) | Vision | Perfeziona ed esegui il deployment on-device dei modelli di riconoscimento dei gesti della mano utilizzando MediaPipe. | Colab Scheda del modello |
Classificatore di word embedding medio (MediaPipe) | Vision | Perfeziona ed esegui il deployment on-device dei modelli di classificazione dell'incorporamento medio delle parole utilizzando MediaPipe. | Colab Scheda del modello |
Classificatore MobileBERT (MediaPipe) | Vision | Perfeziona ed esegui il deployment sul dispositivo dei modelli di classificazione MobileBERT utilizzando MediaPipe. | Colab Scheda del modello |
Classificazione dei clip video MoViNet | Video | Ottimizza ed esegui il deployment dei modelli di classificazione dei clip video MoViNet. | Colab Scheda del modello |
MoViNet Video Action Recognition | Video | Ottimizza ed esegui il deployment dei modelli MoViNet per l'inferenza del riconoscimento delle azioni. | Colab Scheda del modello |
Stable Diffusion XL LCM | Vision | Esegui il deployment di questo modello che utilizza il modello di coerenza latente (LCM) per migliorare la generazione di immagini da testo nei modelli di diffusione latente, consentendo la creazione di immagini più rapide e di alta qualità con meno passaggi. | Colab Scheda del modello |
LLaVA 1.5 | Visione, lingua | Esegui il deployment dei modelli LLaVA 1.5. | Colab Scheda del modello |
pytorch-zipnerf | Visione artificiale, video | Addestra il modello Pytorch-ZipNeRF, che è un'implementazione all'avanguardia dell'algoritmo ZipNeRF nel framework Pytorch, progettato per la ricostruzione 3D efficiente e accurata a partire da immagini 2D. | Colab Scheda del modello |
Mixtral | Lingua | Esegui il deployment del modello Mixtral, un modello linguistico di grandi dimensioni (LLM) Mixture of Experts (MoE) sviluppato da Mistral AI. | Scheda del modello |
Llama 2 (quantizzato) | Lingua | Ottimizza e implementa una versione quantizzata dei modelli Llama 2 di Meta. | Colab Scheda del modello |
LaMa (Large Mask Inpainting) | Vision | Esegui il deployment di LaMa, che utilizza convoluzioni di Fourier veloci (FFC), una perdita percettiva del campo ricettivo elevata e maschere di addestramento di grandi dimensioni consente il riempimento di immagini robuste alla risoluzione. | Colab Scheda del modello |
AutoGluon | Tabulare | Con AutoGluon puoi addestrare ed eseguire il deployment di modelli di machine learning e deep learning ad alta precisione per dati tabellari. | Colab Scheda del modello |
MaMMUT | Lingua, Visione | Un'architettura di encoder visivo e decoder di testo per attività multimodali come risposta a domande visive, recupero di immagini e testo, recupero di testo e immagini e generazione di incorporamenti multimodali. | Colab Scheda del modello |
Sussurro grande | Voce | Esegui il deployment di Whisper Large, il modello all'avanguardia di OpenAI per il riconoscimento vocale automatico (ASR). | Colab Scheda del modello |