Prompt multimodali
Per informazioni sulle best practice per i prompt multimodali, consulta le seguenti pagine in base alla modalità che stai utilizzando:
Ridurre la latenza
Quando crei applicazioni interattive, il tempo di risposta, noto anche come latenza, svolge un ruolo fondamentale nell'esperienza utente. Questa sezione esplora il concetto di latenza nel contesto delle API LLM di Vertex AI e fornisce strategie attuabili per ridurla al minimo e migliorare il tempo di risposta delle tue applicazioni basate sull'AI.
Informazioni sulle metriche di latenza per gli LLM
La latenza si riferisce al tempo necessario a un modello per elaborare il prompt di input e generare una risposta di output corrispondente.
Quando esamini la latenza con un modello, tieni presente quanto segue:
Il tempo al primo token (TTFT) è il tempo necessario al modello per produrre il primo token della risposta dopo aver ricevuto il prompt. TTFT è particolarmente importante per le applicazioni che utilizzano lo streaming, in cui fornire un feedback immediato è fondamentale.
Il tempo all'ultimo token (TTLT) misura il tempo complessivo impiegato dal modello per elaborare il prompt e generare la risposta.
Strategie per ridurre la latenza
Puoi utilizzare diverse strategie con Vertex AI per ridurre al minimo la latenza e migliorare la reattività delle tue applicazioni:
Scegliere il modello giusto per il tuo caso d'uso
Vertex AI offre una gamma diversificata di modelli con caratteristiche di prestazioni e funzionalità variabili. Valuta attentamente i tuoi requisiti in termini di velocità e qualità dell'output per scegliere il modello più adatto al tuo caso d'uso. Per un elenco dei modelli disponibili, consulta Esplora tutti i modelli.
Ottimizzare la lunghezza del prompt e dell'output
Il numero di token nel prompt di input e nell'output previsto influisce direttamente sul tempo di elaborazione. Riduci al minimo il numero di token per ridurre la latenza.
Crea prompt chiari e concisi che trasmettano efficacemente il tuo intento senza dettagli o ridondanze inutili. Prompt più brevi riducono il tempo necessario per generare il primo token.
Utilizza le istruzioni di sistema per controllare la lunghezza della risposta. Chiedi al modello di fornire risposte concise o di limitare l'output a un numero specifico di frasi o paragrafi. Questa strategia può ridurre il tempo necessario per ottenere l'ultimo token.
Regola il
temperature
. Sperimenta con il parametrotemperature
per controllare la casualità dell'output. Valori ditemperature
più bassi possono portare a risposte più brevi e mirate, mentre valori più alti possono generare risultati più diversificati, ma potenzialmente più lunghi. Per ulteriori informazioni, veditemperature
nel riferimento ai parametri del modello.Limita l'output impostando un limite. Utilizza il parametro
max_output_tokens
per impostare un limite massimo alla lunghezza della risposta generata, evitando output eccessivamente lunghi. Tuttavia, fai attenzione perché questo potrebbe interrompere le risposte a metà frase.
Risposte dinamiche
Con lo streaming, il modello inizia a inviare la risposta prima di generare l'output completo. In questo modo è possibile elaborare l'output in tempo reale e aggiornare immediatamente l'interfaccia utente ed eseguire altre attività simultanee.
Lo streaming migliora la reattività percepita e crea un'esperienza utente più interattiva.
Passaggi successivi
- Scopri le strategie generali di progettazione dei prompt.
- Vedi alcuni prompt di esempio.
- Scopri come inviare prompt di chat.
- Scopri di più sulle best practice per l'AI responsabile e sui filtri di sicurezza di Vertex AI.
- Scopri come ottimizzare un modello.
- Scopri di più sul throughput riservato per garantire i carichi di lavoro di produzione.