Cosa sono i foundation model?

I foundation model, a volte noti come modelli di base, sono potenti modelli di intelligenza artificiale (AI) addestrati su un'enorme quantità di dati e possono essere adattati a un'ampia gamma di attività. Il termine "foundation model" è stato coniato dallo Stanford Institute for Human-Centered Artificial Intelligence (HAI) nel 2021.

Questa tecnologia offre nuove possibilità in tutti i settori, dalla semplificazione dello sviluppo software al miglioramento delle interazioni con l'assistenza clienti.

Introduzione ai modelli di base su Google Cloud

Definizione dei foundation model

I foundation model sono una forma di modello di AI che viene preaddestrato su una grande quantità di dati per svolgere una serie di attività. Questo processo di addestramento, che spesso utilizza l'apprendimento auto-supervisionato, consente loro di apprendere pattern e relazioni complesse all'interno dei dati, aiutandoli a svolgere varie attività con una maggiore precisione. Ancora più importante, questa enorme scala può portare a capacità emergenti, in cui il modello può completare attività per le quali non è stato esplicitamente addestrato. Questo passaggio da strumenti specializzati a modelli adattabili per uso generico è il segno distintivo del paradigma del foundation model. 

Qual è la differenza tra un foundation model e un LLM?

I termini "foundation model" e "modello linguistico di grandi dimensioni" (LLM) vengono spesso usati in modo intercambiabile, ma c'è una distinzione fondamentale. Gli LLM sono un tipo importante di foundation model, ma non sono l'unico. Pensa a una relazione padre-figlio: tutti gli LLM sono foundation model, ma non tutti i foundation model sono LLM.

La differenza principale è il tipo di dati su cui sono basati. Gli LLM, come suggerisce il nome, vengono addestrati specificamente su enormi quantità di testo e codice. La categoria più ampia dei "foundation model" include anche modelli addestrati su altri tipi di dati, come immagini, audio e video, o una combinazione di questi (multimodali).

Qual è la differenza tra AI generativa e foundation model?

L'AI generativa e i foundation model sono distinti ma strettamente correlati. Il modo più utile per comprendere la differenza è pensare a loro come a: "motore" vs "funzione":

  • Un foundation model è il motore potente e preaddestrato; è la tecnologia sottostante basata su enormi quantità di dati, progettata per l'adattamento
  • L'AI generativa è una delle funzioni principali che questo motore può svolgere: la capacità di creare nuovi contenuti come testo, immagini o codice

Sebbene la maggior parte dei foundation model più popolari venga utilizzata per attività generative, un foundation model potrebbe essere adattato per scopi non generativi come la classificazione o l'analisi complesse. Pertanto, non tutti i foundation model sono intrinsecamente generativi, ma sono la tecnologia chiave che alimenta l'attuale ondata di applicazioni di AI generativa.

Quali sono i tipi di foundation model?

I foundation model comprendono varie architetture, ognuna progettata con punti di forza e applicazioni unici. Ecco alcuni tipi importanti:

  • Modelli linguistici di grandi dimensioni (LLM): questi modelli sono specializzati nella comprensione e nella generazione del linguaggio umano, eccellendo in attività come la traduzione, il riassunto di testi e le interazioni con i chatbot.
  • Modelli multimodali: addestrati su diversi tipi di dati, tra cui testo, immagini e audio, questi modelli possono analizzare e generare contenuti in più modalità.
  • Reti generative avversarie (GAN, Generative adversarial networks): le GAN sono un tipo di foundation model che coinvolge due reti neurali in competizione tra loro in un gioco a somma zero. Una rete, il generatore, crea nuove istanze di dati, mentre l'altra, il discriminatore, ne valuta l'autenticità. Questo processo contraddittorio porta alla generazione di contenuti sempre più realistici e complessi.
  • Modelli di visione artificiale: questi modelli vengono addestrati su set di dati di immagini per eseguire attività come la classificazione delle immagini, il rilevamento degli oggetti e la generazione di immagini. Possono essere ottimizzati per applicazioni specifiche, come l'analisi di immagini mediche o il riconoscimento di oggetti nei veicoli autonomi.

Come funzionano i foundation model?

I foundation model vengono addestrati su vasti set di dati utilizzando l'apprendimento auto-supervisionato, un approccio nel machine learning che sfrutta tecniche di apprendimento non supervisionato per attività che tradizionalmente richiedono l'apprendimento supervisionato (ad esempio, l'etichettatura dei dati con input umano). Ciò aiuta ad addestrare il modello a prevedere le parti mascherate o mancanti dei dati di input. Man mano che il modello fa previsioni, impara a identificare pattern, relazioni e strutture sottostanti all'interno dei dati.

Il processo di addestramento per un foundation model è simile a quello di addestramento di un modello di machine learning e in genere prevede diversi passaggi chiave:

Raccolta e preparazione dei dati

  • Viene raccolto un set di dati ampio e diversificato che sia rappresentativo della distribuzione reale dei dati che il modello incontrerà durante il deployment
  • I dati vengono pre-elaborati per rimuovere rumore, outlier e incongruenze; ciò può includere tecniche come la pulizia dei dati, la normalizzazione e la progettazione delle caratteristiche

Selezione dell'architettura del modello

  • Viene scelta un'architettura del modello appropriata in base a diversi fattori, tra cui la complessità dell'attività, il tipo e il volume dei dati e le risorse di calcolo disponibili
  • Le architetture di modello comuni utilizzate per l'apprendimento auto-supervisionato includono reti neurali convoluzionali (CNN, convolutional neural networks), reti neurali ricorrenti (RNN, recurrent neural networks) e transformer (trasformatori).

Addestramento auto-supervisionato

  • Il modello viene addestrato utilizzando tecniche di apprendimento auto-supervisionato, che prevedono la creazione di pseudo-etichette per i dati e l'addestramento del modello per prevedere queste etichette
  • Questo può essere fatto utilizzando vari metodi, come l'apprendimento contrastivo, la modellazione del linguaggio mascherato e i puzzle
  • L'addestramento auto-supervisionato consente al modello di apprendere rappresentazioni utili dei dati senza fare affidamento su etichette annotate manualmente, che possono essere costose e richiedere molto tempo per essere ottenute

Ottimizzazione

  • Dopo che il modello è stato preaddestrato utilizzando l'apprendimento autonomo, può essere ottimizzato su una raccolta di dati più di nicchia e specifica per l'attività
  • Ciò comporta l'adattamento dei parametri del modello per ottimizzare le prestazioni sull'attività di destinazione
  • L'ottimizzazione aiuta il modello ad adattarsi ai requisiti specifici dell'attività e a migliorare le sue prestazioni complessive

Addestramento su allineamento e sicurezza

  • Dopo il pre-addestramento e l'ottimizzazione, la maggior parte dei modelli all'avanguardia viene sottoposta a una fase di allineamento per garantire che i loro output siano utili, innocui e allineati all'intento umano
  • Questo passaggio fondamentale spesso utilizza tecniche come l'apprendimento per rinforzo con feedback umano (RLHF, Reinforcement Learning from Human Feedback) e l'ottimizzazione diretta delle preferenze (DPO, Direct Preference Optimization), in cui i revisori umani valutano le risposte del modello per guidarlo verso comportamenti più desiderabili.

Valutazione e deployment

  • Una volta addestrato e ottimizzato, il modello viene valutato su un set di test messo da parte per valutarne le prestazioni
  • Se il modello soddisfa i criteri di prestazioni desiderati, può essere distribuito in produzione, dove può essere utilizzato per risolvere problemi reali

Vantaggi dell'utilizzo dei foundation model

I foundation model offrono diversi potenziali vantaggi per le aziende e gli sviluppatori:

Versatilità

I foundation model possono essere adattati a un'ampia gamma di attività, eliminando la necessità di addestrare modelli separati per ogni applicazione specifica. Questa adattabilità li rende preziosi in vari settori e casi d'uso.

Efficienza

L'utilizzo di foundation model pre-addestrati può ridurre significativamente il tempo e le risorse necessarie per sviluppare nuove applicazioni di AI. L'ottimizzazione di un modello pre-addestrato è spesso più rapida ed efficiente rispetto all'addestramento di un modello da zero.

Accuratezza

Grazie all'addestramento estensivo su set di dati di grandi dimensioni, i foundation model possono raggiungere un'elevata accuratezza in varie attività, superando i modelli addestrati su set di dati più piccoli.

Convenienza

Riducendo la necessità di grandi quantità di dati di addestramento e risorse di computing, i foundation model possono offrire una soluzione conveniente per lo sviluppo di applicazioni di AI.

Innovazione

I foundation model stanno contribuendo a promuovere l'innovazione nel campo dell'AI, consentendo lo sviluppo di applicazioni di AI nuove e più sofisticate.

Scalabilità

I foundation model possono essere scalati per gestire set di dati di grandi dimensioni e attività complesse, il che li rende adatti ad applicazioni impegnative.

Quali sono le sfide e i rischi dei foundation model?

Nonostante i vantaggi riconosciuti, i foundation model presentano sfide significative che utenti e sviluppatori devono affrontare:

  • Bias ed equità: i foundation model possono ereditare e amplificare i bias sociali presenti nei loro vasti dati di addestramento, portando a risultati iniqui o pregiudiziali
  • Allucinazioni: i modelli possono generare informazioni che sembrano affidabili ma che sono fattualmente errate o prive di senso, un fenomeno noto come "allucinazione".
  • Costo di calcolo elevato: l'addestramento di questi modelli richiede un'enorme potenza di calcolo ed energia, sollevando preoccupazioni ambientali e finanziarie

Esempi di foundation model

L'ecosistema dei foundation model è vivace e competitivo. Ecco alcuni degli esempi più influenti di attori chiave del settore:

  • Google: nota per la famiglia Gemini, una serie di potenti modelli multimodali (Gemini 2.5 Pro è un esempio di punta) e Gemma, una famiglia di modelli leggeri a peso aperto per sviluppatori; Google ha anche sviluppato modelli specializzati come Imagen per la generazione di immagini da testo e Veo per la generazione di video
  • OpenAI: sviluppatore della serie GPT (Generative Pre-trained Transformer) di grande influenza, tra cui il diffusissimo GPT-4
  • Anthropic: si concentra sulla sicurezza dell'AI e ha sviluppato la famiglia di modelli Claude; la serie Claude 3 (che include Opus, Sonnet e Haiku) è nota per le sue ampie finestre contestuali e le solide capacità di ragionamento
  • Meta: grande sostenitrice dell'AI open source, Meta ha sviluppato la serie Llama; Llama 3 è un modello aperto che ha accelerato l'innovazione in tutta la community
  • Mistral AI: azienda europea che ha ottenuto un notevole successo con modelli aperti e commerciali ad alte prestazioni, come Mistral Large e i modelli open source Mixtral che utilizzano un'architettura Mixture-of-Experts (MoE) per una maggiore efficienza

In che modo Google Cloud utilizza i foundation model?

Google Cloud fornisce una piattaforma aziendale end-to-end, Vertex AI, progettata per aiutare le organizzazioni ad accedere, personalizzare ed eseguire il deployment di foundation model per applicazioni reali. La strategia si basa sulla fornitura di scelta, strumenti potenti e infrastruttura integrata.

Ecco come Google Cloud utilizza i foundation model:

  • Un ecosistema di modelli diversificato e aperto: tramite Vertex AI Model Garden, Google Cloud offre l'accesso a una libreria completa di oltre 130 modelli di base. Ciò include i modelli all'avanguardia di Google, come la famiglia Gemini (per attività multimodali) e Gemma (per lo sviluppo aperto e leggero), oltre a modelli open source e di terze parti popolari di partner come Anthropic (Claude), Meta (Llama) e Mistral. Ciò consente agli sviluppatori di scegliere il modello migliore per le loro esigenze specifiche in termini di costi e prestazioni.
  • Strumenti per la personalizzazione e il grounding: Vertex AI fornisce una suite completa di strumenti per andare oltre i semplici prompt. Con Generative AI Studio, i team possono testare e ottimizzare i modelli. Una caratteristica fondamentale è la capacità di basare i modelli sui dati aziendali di un'organizzazione. In questo modo, le capacità di ragionamento del modello vengono collegate a fonti di dati specifiche di un'azienda, riducendo in modo significativo le allucinazioni e rendendo le risposte coerenti e pertinenti dal punto di vista dei fatti.
  • Creazione di agenti e applicazioni di AI: Google Cloud si concentra sull'aiutare gli sviluppatori a creare applicazioni di AI sofisticate, non solo chatbot. Con Vertex AI Agent Builder, le organizzazioni possono creare ed eseguire il deployment di agenti di AI conversazionale per l'assistenza clienti, gli helpdesk interni e altri processi aziendali.
  • Incorporare l'AI generativa nei workflow: i modelli di base vengono integrati direttamente nei servizi Google Cloud che le aziende già utilizzano. Ad esempio, Gemini Code Assist funge da assistente basato sull'AI per gli sviluppatori per scrivere, spiegare e testare il codice più velocemente, mentre le funzionalità di BigQuery consentono l'analisi dei dati basata sull'AI direttamente all'interno del data warehouse.

Fai il prossimo passo

Inizia a creare su Google Cloud con 300 $ di crediti gratuiti e oltre 20 prodotti Always Free.

Google Cloud