Best practice per i modelli linguistici di grandi dimensioni (LLM)

Prompt multimodali

Per informazioni sulle best practice per i prompt multimodali, consulta le seguenti pagine in base alla modalità con cui stai lavorando:

Riduci la latenza

Quando crei applicazioni interattive, il tempo di risposta, noto anche come latenza, svolge un ruolo fondamentale nell'esperienza utente. Questa sezione illustra il concetto di latenza nel contesto delle API LLM di Vertex AI e fornisce strategie attuabili per ridurla al minimo e migliorare il tempo di risposta delle applicazioni basate sull'IA.

Informazioni sulle metriche di latenza per gli LLM

La latenza si riferisce al tempo necessario a un modello per elaborare il prompt di input e generare una risposta di output corrispondente.

Quando esamini la latenza con un modello, tieni presente quanto segue:

Il tempo di generazione del primo token (TTFT) è il tempo necessario al modello per produrre il primo token della risposta dopo aver ricevuto il prompt. TTFT è particolarmente pertinente per le applicazioni che utilizzano lo streaming, in cui è fondamentale fornire un feedback immediato.

Il tempo fino all'ultimo token (TTLT) misura il tempo complessivo impiegato dal modello per elaborare il prompt e generare la risposta.

Strategie per ridurre la latenza

Con Vertex AI puoi utilizzare diverse strategie per ridurre al minimo la latenza e migliorare la reattività delle tue applicazioni:

Scegli il modello giusto per il tuo caso d'uso

Vertex AI offre una vasta gamma di modelli con funzionalità e caratteristiche di prestazioni diverse. Seleziona il modello più adatto alle tue esigenze specifiche.

  • Gemini 1.5 Flash: un modello multimodale progettato per applicazioni a volume elevato e convenienti. Gemini 1.5 Flash offre velocità ed efficienza per creare applicazioni rapide e a basso costo che non compromettono la qualità. Supporta le seguenti modalità: testo, codice, immagini, audio, video con e senza audio, PDF o una combinazione di qualsiasi di questi.

  • Gemini 1.5 Pro: un modello multimodale più efficace con supporto per un contesto più ampio. Supporta le seguenti modalità: testo, codice, immagini, audio, video con e senza audio, PDF o una combinazione di qualsiasi di questi.

  • Gemini 1.0 Pro: se la velocità è una priorità assoluta e i prompt contengono solo testo, ti consigliamo di utilizzare questo modello. Questo modello offre tempi di risposta rapidi, garantendo al contempo risultati impressionanti.

Valuta attentamente i requisiti relativi a velocità e qualità dell'output per scegliere il modello più adatto al tuo caso d'uso. Per un elenco dei modelli disponibili, vedi Esplorare tutti i modelli.

Ottimizza la lunghezza del prompt e dell'output

Il numero di token sia nel prompt di input sia nell'output previsto influisce direttamente sul tempo di elaborazione. Riduci al minimo il numero di token per ridurre la latenza.

  • Crea prompt chiari e concisi che trasmettano efficacemente le tue intenzioni senza dettagli o ridondanze non necessari. I prompt più brevi riducono il tempo necessario per generare il primo token.

  • Utilizza le istruzioni di sistema per controllare la lunghezza della risposta. Indica al modello di fornire risposte concise o limita l'output a un numero specifico di frazioni o paragrafi. Questa strategia può ridurre il tempo fino all'ultimo token.

  • Regola il temperature. Sperimenta con il parametro temperature per controllare la casualità dell'output. Valori temperature più bassi possono portare a risposte più brevi e mirate, mentre valori più alti possono generare output più diversi, ma potenzialmente più lunghi. Per ulteriori informazioni, consulta temperature nella sezione di riferimento dei parametri del modello.

  • Limita l'output impostando un limite. Utilizza il parametro max_output_tokens per impostare un limite massimo alla lunghezza della risposta generata, in modo da evitare un output eccessivamente lungo. Tuttavia, fai attenzione perché le risposte potrebbero essere interrotte mid-sentence.

Risposte dinamiche

Con lo streaming, il modello inizia a inviare la risposta prima di generare l'output completo. In questo modo, puoi eseguire l'elaborazione dell'output in tempo reale, aggiornare immediatamente l'interfaccia utente ed eseguire altre attività in contemporanea.

Lo streaming migliora la reattività percepita e crea un'esperienza utente più interattiva.

Passaggi successivi