Best practice per i modelli linguistici di grandi dimensioni (LLM)

Prompt multimodali

Per informazioni sulle best practice per i prompt multimodali, consulta le seguenti pagine in base alla modalità che stai utilizzando:

Ridurre la latenza

Quando crei applicazioni interattive, il tempo di risposta, noto anche come latenza, svolge un ruolo fondamentale nell'esperienza utente. Questa sezione esplora il concetto di latenza nel contesto delle API LLM di Vertex AI e fornisce strategie attuabili per ridurla al minimo e migliorare il tempo di risposta delle tue applicazioni basate sull'AI.

Informazioni sulle metriche di latenza per gli LLM

La latenza si riferisce al tempo necessario a un modello per elaborare il prompt di input e generare una risposta di output corrispondente.

Quando esamini la latenza con un modello, tieni presente quanto segue:

Il tempo al primo token (TTFT) è il tempo necessario al modello per produrre il primo token della risposta dopo aver ricevuto il prompt. TTFT è particolarmente importante per le applicazioni che utilizzano lo streaming, in cui fornire un feedback immediato è fondamentale.

Il tempo all'ultimo token (TTLT) misura il tempo complessivo impiegato dal modello per elaborare il prompt e generare la risposta.

Strategie per ridurre la latenza

Puoi utilizzare diverse strategie con Vertex AI per ridurre al minimo la latenza e migliorare la reattività delle tue applicazioni:

Scegliere il modello giusto per il tuo caso d'uso

Vertex AI offre una gamma diversificata di modelli con caratteristiche di prestazioni e funzionalità variabili. Valuta attentamente i tuoi requisiti in termini di velocità e qualità dell'output per scegliere il modello più adatto al tuo caso d'uso. Per un elenco dei modelli disponibili, consulta Esplora tutti i modelli.

Ottimizzare la lunghezza del prompt e dell'output

Il numero di token nel prompt di input e nell'output previsto influisce direttamente sul tempo di elaborazione. Riduci al minimo il numero di token per ridurre la latenza.

  • Crea prompt chiari e concisi che trasmettano efficacemente il tuo intento senza dettagli o ridondanze inutili. Prompt più brevi riducono il tempo necessario per generare il primo token.

  • Utilizza le istruzioni di sistema per controllare la lunghezza della risposta. Chiedi al modello di fornire risposte concise o di limitare l'output a un numero specifico di frasi o paragrafi. Questa strategia può ridurre il tempo necessario per ottenere l'ultimo token.

  • Regola il temperature. Sperimenta con il parametro temperature per controllare la casualità dell'output. Valori di temperature più bassi possono portare a risposte più brevi e mirate, mentre valori più alti possono generare risultati più diversificati, ma potenzialmente più lunghi. Per ulteriori informazioni, vedi temperature nel riferimento ai parametri del modello.

  • Limita l'output impostando un limite. Utilizza il parametro max_output_tokens per impostare un limite massimo alla lunghezza della risposta generata, evitando output eccessivamente lunghi. Tuttavia, fai attenzione perché questo potrebbe interrompere le risposte a metà frase.

Risposte dinamiche

Con lo streaming, il modello inizia a inviare la risposta prima di generare l'output completo. In questo modo è possibile elaborare l'output in tempo reale e aggiornare immediatamente l'interfaccia utente ed eseguire altre attività simultanee.

Lo streaming migliora la reattività percepita e crea un'esperienza utente più interattiva.

Passaggi successivi