Best practice per i modelli linguistici di grandi dimensioni (LLM)

Prompt multimodali

Per informazioni sulle best practice per i prompt multimodali, consulta quanto segue. pagine in base alla modalità utilizzata:

Riduci la latenza

Quando crei applicazioni interattive, il tempo di risposta, chiamato anche latenza, gioca un ruolo cruciale nell'esperienza utente. Questa sezione illustra il concetto di latenza nel contesto delle API LLM di Vertex AI e fornisce strategie attuabili per ridurla al minimo e migliorare il tempo di risposta delle applicazioni basate sull'IA.

Informazioni sulle metriche di latenza per gli LLM

La latenza si riferisce al tempo necessario a un modello per elaborare il prompt di input e generare una risposta di output corrispondente.

Quando esamini la latenza con un modello, considera quanto segue:

Time to first token (TTFT) è il tempo impiegato dal modello per generare il primo token della risposta dopo aver ricevuto il prompt. Il TTFT è particolarmente pertinenti per le applicazioni che utilizzano i flussi di dati, in cui fornire informazioni è fondamentale.

Durata dell'ultimo token (TTLT) misura il tempo complessivo impiegato dal modello per l'elaborazione del prompt e genera la risposta.

Strategie per ridurre la latenza

Con Vertex AI puoi utilizzare diverse strategie per ridurre al minimo la latenza e migliorare la reattività delle tue applicazioni:

Scegli il modello giusto per il tuo caso d'uso

Vertex AI offre una vasta gamma di modelli con funzionalità e caratteristiche di prestazioni diverse. Seleziona il modello più adatto alle tue esigenze specifiche.

  • Gemini 1.5 Flash: un modello multimodale progettato per applicazioni a volume elevato e convenienti. Gemini 1.5 Flash offre velocità ed efficienza per creare applicazioni rapide e a basso costo che non compromettono la qualità. Supporta le seguenti modalità: testo, codice, immagini, audio, video con e senza audio, PDF o una combinazione di questi questi elementi.

  • Gemini 1.5 Pro: un modello multimodale più capace con supporta un contesto più ampio. Supporta le seguenti modalità: testo, codice, immagini, audio, video con e senza audio, PDF o una combinazione di questi questi elementi.

  • Gemini 1.0 Pro: se la velocità è una priorità assoluta e contengono solo testo, quindi valuta la possibilità di utilizzare questo modello. Questo modello offre tempi di risposta rapidi, garantendo al contempo risultati impressionanti.

Valuta attentamente i requisiti relativi a velocità e qualità dell'output per scegli il modello che meglio si adatta al tuo caso d'uso. Per un elenco dei modelli disponibili, consulta Esplorare tutti i modelli.

Ottimizza la lunghezza del prompt e dell'output

Il numero di token sia nel prompt di input che nell'output previsto direttamente influisce sui tempi di elaborazione. Riduci al minimo il conteggio dei token per ridurre una latenza di pochi millisecondi.

  • Crea prompt chiari e concisi che trasmettano efficacemente le tue intenzioni senza dettagli o ridondanze non necessari. I prompt più brevi riducono il tempo necessario per generare il primo token.

  • Utilizza le istruzioni di sistema per controllare la lunghezza della risposta. Indica ai per fornire risposte concise o limitare l'output a un numero specifico frasi o paragrafi. Questa strategia può ridurre il tempo necessario per l'ultimo token.

  • Regola il temperature. Sperimenta con il parametro temperature per controllare la casualità dell'output. Valori temperature più bassi possono portare a risposte più brevi e mirate, mentre valori più elevati possono generare output più diversi, ma potenzialmente più lunghi. Per ulteriori informazioni, consulta temperature nel riferimento ai parametri del modello.

  • Limita l'output impostando un limite. Usa il parametro max_output_tokens per un limite massimo per la lunghezza della risposta generata, impedendo un output troppo lungo. Tuttavia, fai attenzione perché questo potrebbe interrompere le risposte a metà frase.

Risposte dinamiche

Con i flussi di dati, il modello inizia a inviare la sua risposta prima di generare un output completo. Ciò consente l'elaborazione in tempo reale dell'output aggiornare immediatamente l'interfaccia utente ed eseguire altre attività in parallelo.

Lo streaming migliora la reattività percepita e crea un'esperienza utente più interattiva.

Passaggi successivi