Parametri di generazione dei contenuti

Questa pagina mostra i parametri di campionamento facoltativi che puoi impostare in una richiesta a un un modello di machine learning. I parametri disponibili per ogni modello possono variare. Per saperne di più, consulta la documentazione di riferimento.

Parametri di campionamento dei token

Top-P

Top-P cambia il modo in cui il modello seleziona i token per l'output. I token vengono selezionati dal più probabile (vedi Top-K) al meno probabile finché la somma delle loro probabilità non corrisponde al valore di Top-P. Ad esempio, se i token A, B e C hanno una probabilità di 0,3, 0,2 e 0,1 e il valore di top-P è 0.5, il modello seleziona A o B come token successivo utilizzando la temperatura ed esclude C come candidato.

Specifica un valore più basso per risposte meno casuali e un valore più alto per risposte più casuali.

Per ulteriori informazioni, vedi topP.

Top-K

Top-K cambia il modo in cui il modello seleziona i token per l'output. Un top-K pari a 1 indica che il token successivo selezionato è il più probabile tra tutti i token nel vocabolario del modello (chiamato anche decodifica greedy). Un top-K pari a 3 indica invece che il token successivo viene selezionato tra i tre token più probabili utilizzando la temperatura.

Per ogni fase di selezione dei token, vengono campionati i token Top-K con le probabilità più elevate. Quindi i token vengono ulteriormente filtrati in base a Top-P e il token finale viene selezionato utilizzando il campionamento con temperatura.

Specifica un valore più basso per risposte meno casuali e un valore più alto per più risposte risposte casuali.

Per ulteriori informazioni, vedi topK.

Temperatura

La temperatura viene utilizzata per il campionamento durante la generazione della risposta, che si verifica quando vengono applicati topP e topK. La temperatura controlla il grado di casualità nella selezione dei token. Le temperature basse sono ideali per prompt che richiedono risposte meno aperte o creative, mentre le temperature più alte possono portare a risultati più diversificati o creativi. Una temperatura pari a 0 significa che vengono sempre selezionati i token con la probabilità più alta. In questo caso, le risposte per un determinato sono per lo più deterministici, ma è ancora possibile una piccola variazione.

Se il modello restituisce una risposta troppo generica, troppo breve, oppure fornisce una risposta di riserva di risposta, prova ad aumentare la temperatura.

Le temperature più basse portano a risultati prevedibili (ma non completamente deterministici) che consentono di analizzare i dati e visualizzare i risultati. Per ulteriori informazioni, vedi temperature.

Parametri di arresto

Token di output massimi

Imposta maxOutputTokens per limitare il numero di token generati nella risposta. Un token equivale a circa quattro caratteri, quindi 100 token corrispondono a circa 60-80 parole. Imposta un valore basso per limitare la lunghezza della risposta.

Sequenze di interruzioni

Definisci le stringhe in stopSequences per indicare al modello di interrompere la generazione di testo se viene rilevata una delle stringhe nella risposta. Se una stringa compare più volte nella risposta, la risposta viene troncata nel punto in cui viene incontrata per la prima volta. Le stringhe sono sensibili alle maiuscole.