Prompt multimodali
Per informazioni sulle best practice per i prompt multimodali, consulta quanto segue. pagine in base alla modalità utilizzata:
Riduci la latenza
Quando crei applicazioni interattive, il tempo di risposta, chiamato anche latenza, gioca un ruolo cruciale nell'esperienza utente. Questa sezione illustra il concetto di latenza nel contesto delle API LLM di Vertex AI e fornisce strategie attuabili per ridurla al minimo e migliorare il tempo di risposta delle applicazioni basate sull'IA.
Informazioni sulle metriche di latenza per gli LLM
La latenza si riferisce al tempo necessario a un modello per elaborare il prompt di input e generare una risposta di output corrispondente.
Quando esamini la latenza con un modello, considera quanto segue:
Time to first token (TTFT) è il tempo impiegato dal modello per generare il primo token della risposta dopo aver ricevuto il prompt. Il TTFT è particolarmente pertinenti per le applicazioni che utilizzano i flussi di dati, in cui fornire informazioni è fondamentale.
Durata dell'ultimo token (TTLT) misura il tempo complessivo impiegato dal modello per l'elaborazione del prompt e genera la risposta.
Strategie per ridurre la latenza
Con Vertex AI puoi utilizzare diverse strategie per ridurre al minimo la latenza e migliorare la reattività delle tue applicazioni:
Scegli il modello giusto per il tuo caso d'uso
Vertex AI offre una vasta gamma di modelli con funzionalità e caratteristiche di prestazioni diverse. Seleziona il modello più adatto alle tue esigenze specifiche.
Gemini 1.5 Flash: un modello multimodale progettato per applicazioni a volume elevato e convenienti. Gemini 1.5 Flash offre velocità ed efficienza per creare applicazioni rapide e a basso costo che non compromettono la qualità. Supporta le seguenti modalità: testo, codice, immagini, audio, video con e senza audio, PDF o una combinazione di questi questi elementi.
Gemini 1.5 Pro: un modello multimodale più capace con supporta un contesto più ampio. Supporta le seguenti modalità: testo, codice, immagini, audio, video con e senza audio, PDF o una combinazione di questi questi elementi.
Gemini 1.0 Pro: se la velocità è una priorità assoluta e contengono solo testo, quindi valuta la possibilità di utilizzare questo modello. Questo modello offre tempi di risposta rapidi, garantendo al contempo risultati impressionanti.
Valuta attentamente i requisiti relativi a velocità e qualità dell'output per scegli il modello che meglio si adatta al tuo caso d'uso. Per un elenco dei modelli disponibili, consulta Esplorare tutti i modelli.
Ottimizza la lunghezza del prompt e dell'output
Il numero di token sia nel prompt di input che nell'output previsto direttamente influisce sui tempi di elaborazione. Riduci al minimo il conteggio dei token per ridurre una latenza di pochi millisecondi.
Crea prompt chiari e concisi che trasmettano efficacemente le tue intenzioni senza dettagli o ridondanze non necessari. I prompt più brevi riducono il tempo necessario per generare il primo token.
Utilizza le istruzioni di sistema per controllare la lunghezza della risposta. Indica ai per fornire risposte concise o limitare l'output a un numero specifico frasi o paragrafi. Questa strategia può ridurre il tempo necessario per l'ultimo token.
Regola il
temperature
. Sperimenta con il parametrotemperature
per controllare la casualità dell'output. Valoritemperature
più bassi possono portare a risposte più brevi e mirate, mentre valori più elevati possono generare output più diversi, ma potenzialmente più lunghi. Per ulteriori informazioni, consultatemperature
nel riferimento ai parametri del modello.Limita l'output impostando un limite. Usa il parametro
max_output_tokens
per un limite massimo per la lunghezza della risposta generata, impedendo un output troppo lungo. Tuttavia, fai attenzione perché questo potrebbe interrompere le risposte a metà frase.
Risposte dinamiche
Con i flussi di dati, il modello inizia a inviare la sua risposta prima di generare un output completo. Ciò consente l'elaborazione in tempo reale dell'output aggiornare immediatamente l'interfaccia utente ed eseguire altre attività in parallelo.
Lo streaming migliora la reattività percepita e crea un'esperienza utente più interattiva.
Passaggi successivi
- Scopri le strategie generali di progettazione dei prompt.
- Guarda alcuni prompt di esempio.
- Scopri come inviare prompt di chat.
- Scopri di più sulle best practice per l'IA responsabile e sui filtri di sicurezza di Vertex AI.
- Scopri come ottimizzare un modello.