Prompt multimodali
Per informazioni sulle best practice per i prompt multimodali, consulta le seguenti pagine in base alla modalità con cui stai lavorando:
Riduci la latenza
Quando crei applicazioni interattive, il tempo di risposta, noto anche come latenza, svolge un ruolo fondamentale nell'esperienza utente. Questa sezione illustra il concetto di latenza nel contesto delle API LLM di Vertex AI e fornisce strategie attuabili per ridurla al minimo e migliorare il tempo di risposta delle applicazioni basate sull'IA.
Informazioni sulle metriche di latenza per gli LLM
La latenza si riferisce al tempo necessario a un modello per elaborare il prompt di input e generare una risposta di output corrispondente.
Quando esamini la latenza con un modello, tieni presente quanto segue:
Il tempo di generazione del primo token (TTFT) è il tempo necessario al modello per produrre il primo token della risposta dopo aver ricevuto il prompt. TTFT è particolarmente pertinente per le applicazioni che utilizzano lo streaming, in cui è fondamentale fornire un feedback immediato.
Il tempo fino all'ultimo token (TTLT) misura il tempo complessivo impiegato dal modello per elaborare il prompt e generare la risposta.
Strategie per ridurre la latenza
Con Vertex AI puoi utilizzare diverse strategie per ridurre al minimo la latenza e migliorare la reattività delle tue applicazioni:
Scegli il modello giusto per il tuo caso d'uso
Vertex AI offre una vasta gamma di modelli con funzionalità e caratteristiche di prestazioni diverse. Seleziona il modello più adatto alle tue esigenze specifiche.
Gemini 1.5 Flash: un modello multimodale progettato per applicazioni a volume elevato e convenienti. Gemini 1.5 Flash offre velocità ed efficienza per creare applicazioni rapide e a basso costo che non compromettono la qualità. Supporta le seguenti modalità: testo, codice, immagini, audio, video con e senza audio, PDF o una combinazione di qualsiasi di questi.
Gemini 1.5 Pro: un modello multimodale più efficace con supporto per un contesto più ampio. Supporta le seguenti modalità: testo, codice, immagini, audio, video con e senza audio, PDF o una combinazione di qualsiasi di questi.
Gemini 1.0 Pro: se la velocità è una priorità assoluta e i prompt contengono solo testo, ti consigliamo di utilizzare questo modello. Questo modello offre tempi di risposta rapidi, garantendo al contempo risultati impressionanti.
Valuta attentamente i requisiti relativi a velocità e qualità dell'output per scegliere il modello più adatto al tuo caso d'uso. Per un elenco dei modelli disponibili, vedi Esplorare tutti i modelli.
Ottimizza la lunghezza del prompt e dell'output
Il numero di token sia nel prompt di input sia nell'output previsto influisce direttamente sul tempo di elaborazione. Riduci al minimo il numero di token per ridurre la latenza.
Crea prompt chiari e concisi che trasmettano efficacemente le tue intenzioni senza dettagli o ridondanze non necessari. I prompt più brevi riducono il tempo necessario per generare il primo token.
Utilizza le istruzioni di sistema per controllare la lunghezza della risposta. Indica al modello di fornire risposte concise o limita l'output a un numero specifico di frazioni o paragrafi. Questa strategia può ridurre il tempo fino all'ultimo token.
Regola il
temperature
. Sperimenta con il parametrotemperature
per controllare la casualità dell'output. Valoritemperature
più bassi possono portare a risposte più brevi e mirate, mentre valori più alti possono generare output più diversi, ma potenzialmente più lunghi. Per ulteriori informazioni, consultatemperature
nella sezione di riferimento dei parametri del modello.Limita l'output impostando un limite. Utilizza il parametro
max_output_tokens
per impostare un limite massimo alla lunghezza della risposta generata, in modo da evitare un output eccessivamente lungo. Tuttavia, fai attenzione perché le risposte potrebbero essere interrotte mid-sentence.
Risposte dinamiche
Con lo streaming, il modello inizia a inviare la risposta prima di generare l'output completo. In questo modo, puoi eseguire l'elaborazione dell'output in tempo reale, aggiornare immediatamente l'interfaccia utente ed eseguire altre attività in contemporanea.
Lo streaming migliora la reattività percepita e crea un'esperienza utente più interattiva.
Passaggi successivi
- Scopri le strategie generali di progettazione dei prompt.
- Guarda alcuni prompt di esempio.
- Scopri come inviare prompt di chat.
- Scopri le best practice per l'AI responsabile e i filtri di sicurezza di Vertex AI.
- Scopri come ottimizzare un modello.
- Scopri di più sul throughput riservato per garantire i carichi di lavoro di produzione.