Paramètres de génération de contenu

Cette page présente les paramètres d'échantillonnage facultatifs que vous pouvez définir dans une requête envoyée à un modèle. Les paramètres disponibles pour chaque modèle peuvent différer. Pour en savoir plus, consultez la documentation de référence.

Paramètres d'échantillonnage des jetons

Top-P

Top P modifie la façon dont le modèle sélectionne les jetons pour la sortie. Les jetons sont sélectionnés de la valeur la plus élevée (voir top-K) à la moins probable jusqu'à ce que la somme de leurs probabilités soit égale à la valeur top-P. Par exemple, si les jetons A, B et C ont une probabilité de 0,3, 0,2 et 0,1 et que la valeur de top-P est supérieure à 0.5, le modèle sélectionne A ou B comme jeton suivant en utilisant la température et exclut C comme candidat.

Spécifiez une valeur inférieure pour les réponses moins aléatoires et une valeur plus élevée pour les réponses plus aléatoires.

Pour en savoir plus, consultez la page topP.

Top-K

Top K modifie la façon dont le modèle sélectionne les jetons pour la sortie. Une valeur top-K de 1 signifie que le prochain jeton sélectionné est le plus probable parmi tous les jetons du vocabulaire du modèle (également appelé décodage glouton), tandis qu'une valeur top-K de 3 signifie que le jeton suivant est sélectionné parmi les trois jetons les plus probables en utilisant la température.

Pour chaque étape de sélection du jeton, les jetons top-K avec les probabilités les plus élevées sont échantillonnés. Les jetons sont ensuite filtrés en fonction du top-P avec le jeton final sélectionné à l'aide de l'échantillonnage de température.

Spécifiez une valeur inférieure pour les réponses moins aléatoires et une valeur plus élevée pour les réponses plus aléatoires.

Pour en savoir plus, consultez la page topK.

Température

La température est utilisée pour l'échantillonnage pendant la génération des réponses, qui se produit lorsque topP et topK sont appliqués. La température permet de contrôler le degré de hasard dans la sélection des jetons. Les températures inférieures sont idéales pour les requêtes qui nécessitent une réponse moins ouverte ou créative, tandis que des températures plus élevées peuvent conduire à des résultats plus diversifiés ou créatifs. Une température de 0 signifie que les jetons de probabilité les plus élevés sont toujours sélectionnés. Dans ce cas, les réponses pour une requête donnée sont principalement déterministes, mais une petite quantité de variation est toujours possible.

Si le modèle renvoie une réponse trop générique ou trop courte, ou s'il renvoie une réponse de remplacement, essayez d'augmenter la température.

Des températures plus basses génèrent des résultats prévisibles (mais pas complètement déterministes). Pour en savoir plus, consultez temperature.

Paramètres d'arrêt

Nombre maximal de jetons de sortie

Définissez maxOutputTokens pour limiter le nombre de jetons générés dans la réponse. Un jeton correspond à environ quatre caractères. Par conséquent, 100 jetons correspondent à environ 60-80 mots. Définissez une valeur faible pour limiter la longueur de la réponse.

Séquences d'arrêt

Définissez des chaînes dans stopSequences pour indiquer au modèle d'arrêter de générer du texte si l'une des chaînes est détectée dans la réponse. Si une chaîne apparaît plusieurs fois dans la réponse, celle-ci effectue une troncation lors de la première rencontre. Les chaînes sont sensibles à la casse.

Paramètres de pénalisation des jetons

Pénalité de fréquence

Les valeurs positives pénalisent les jetons qui apparaissent de manière répétée dans le texte généré, ce qui réduit la probabilité de répétition du contenu. La valeur minimale est -2.0. La valeur maximale est inférieure à 2.0. Pour en savoir plus, consultez la section consacrée à frequencyPenalty.

Pénalité de présence

Les valeurs positives pénalisent les jetons qui apparaissent déjà dans le texte généré, ce qui augmente la probabilité de générer un contenu plus diversifié. La valeur minimale est -2.0. La valeur maximale est inférieure à 2.0. Pour en savoir plus, consultez la section consacrée à presencePenalty.

Paramètres avancés

Utilisez ces paramètres pour renvoyer plus d'informations sur les jetons dans la réponse ou pour contrôler la variabilité de la réponse.

Probabilités logarithmiques des jetons de sortie

Renvoie les probabilités logarithmiques des principaux jetons candidats à chaque étape de génération. Le jeton choisi par le modèle peut ne pas être le même que le jeton candidat le plus probable à chaque étape. Spécifiez le nombre de candidats à renvoyer à l'aide d'une valeur entière comprise entre 1 et 5. Pour en savoir plus, consultez logprobs. Vous devez également définir le paramètre responseLogprobs sur true pour utiliser cette fonctionnalité.

Le paramètre responseLogprobs renvoie les probabilités logarithmiques des jetons choisis par le modèle à chaque étape.

Graine

Lorsque la graine est fixée à une valeur spécifique, le modèle s'efforce de fournir la même réponse pour les requêtes répétées. La sortie déterministe n'est pas garantie. De plus, la modification du modèle ou des paramètres, comme la température, peut entraîner des variations dans la réponse, même si vous utilisez la même valeur de graine. Par défaut, une valeur de graine aléatoire est utilisée. Pour en savoir plus, consultez la page seed.