Stanford vient de briser le prompt engineering avec le verbalized sampling
- chisme66
- Dec 21, 2025
- 6 min read
Je suis sûr que vous avez vu des centaines de publications sur le prompt engineering à ce jour. Mais dans de rares cas, on trouve réellement quelque chose de pertinent. Enfin, nous avons un article remarquable de Stanford qui pourrait supprimer la subjectivité du prompt engineering. Ce travail de recherche a remis tout ce que nous pensions savoir sur l'alignement des IA sens dessus dessous.
Pas de réentraînement à plusieurs milliards. Pas de fine-tuning complexe. Juste huit mots qui débloquent une créativité que nous pensions perdue à jamais. La technique s'appelle Verbalized Sampling (échantillonnage verbalisé). Et elle est si étonnamment simple qu'elle fonctionne tout simplement.

Catégories de prompting
Avec la sortie de ChatGPT il y a quelques années, un nouveau paradigme est apparu en apprentissage automatique : nous n'avons plus besoin de rétropropager ni d'utiliser des gradients pour mettre à jour les poids du modèle afin d'obtenir un nouveau comportement.
La phase d'entraînement d'un modèle peut prendre des heures, des jours ou des mois selon la taille du jeu de données d'entraînement et la taille du modèle.
Le prompting a considérablement accéléré ce processus d'itération.
Auparavant, nous ne disposions pas d'une couche d'intelligence générale : pour chaque problème, le modèle était affiné séparément. Mais les LLM ont complètement changé la donne.
Pas d'entraînement ni de fine-tuning et des performances plus que correctes sur toutes les tâches liées au texte. Mais, comme nous le savons, tout ce qui brille n'est pas or. Les LLM ont commencé à générer de nouveaux problèmes.
Les sorties des LLM sont non déterministes, et ne seront presque jamais 100 % correctes. Si vous débutez en IA, cela peut être déstabilisant, car rien ne garantit que votre pipeline de bout en bout fonctionnera. Les erreurs se répercutent également dans le système si vous enchaînez des prompts et des modèles.
Voici une liste non-exhaustive avec les différentes catégories de prompting :
Zero-Shot
Few-Shot
Thought Generation
Decomposition
Ensembling
Self-Criticism
Pourquoi les réponses des LLM ne sont-elles pas sûres et diversifiées ?
Les LLM sont d'abord pré-entraînés sur d'énormes corpus textuels pour prédire le mot suivant. Cela leur confère une grande diversité. Mais ensuite, nous effectuons un alignement post-entraînement (via RLHF ou optimisation de préférence) pour rendre leur comportement plus « préféré par les humains ».
Après l'alignement, les modèles deviennent souvent plus prévisibles et moins créatifs ; ils « s'effondrent » vers quelques modes de réponse standards.
Des recherches antérieures expliquaient ce comportement par :
une sur-optimisation dans RLHF,
des modèles de récompense limités,
des jeux de données de préférences petits ou biaisés,
ou des problèmes dans les fonctions de perte (comme les dynamiques PPO ou DPO).
Mais le nouvel article avance que le véritable coupable est la donnée elle-même. Les humains préfèrent un texte familier et facilement traitable, un phénomène bien documenté en psychologie. Ainsi, lorsque des annotateurs humains sont interrogés : « Laquelle de ces deux réponses préférez-vous ? », ils choisissent souvent la plus typique, pas nécessairement la plus diverse ou créative. Ceci crée un biais systématique dans les données de préférence : les sorties inhabituelles, nouvelles ou surprenantes sont pénalisées.
Le véritable coupable : Les données et l'interprétation humaine
L'équipe de Stanford a creusé le sujet. Ils ont analysé 6 874 évaluations de préférence humaine issues du dataset HelpSteer.
Le résultat est frappant.
Les annotateurs humains sont biaisés de manière systématique.
Quand des humains évaluent des sorties d'IA, ils ne choisissent pas seulement la « meilleure » réponse. Ils choisissent la plus familière. La plus conventionnelle. La plus typique.
Ce n'est pas conscient. C'est de la psychologie cognitive :
Effet de simple exposition : nous préférons ce que nous avons déjà vu.
Heuristique de disponibilité : les réponses courantes paraissent plus « correctes ».
Fluence de traitement : le contenu facile à traiter semble de meilleure qualité.
Congruence de schéma : l'information qui correspond à nos schémas mentaux est mieux notée.
Les chiffres sont sévères : le poids du biais de typicité α = 0,57 ± 0,07 (p < 10^-14).
En d'autres termes : en entraînant une IA pour correspondre aux préférences humaines, nous l'avons accidentellement entraînée à être ennuyeuse.
Et voici le paradoxe : la créativité n'a pas disparu. Elle est simplement enfermée.
La solution
La solution est simple : laisser le modèle respirer davantage et accéder à un ensemble de poids beaucoup plus large.

Voir le papier : https://arxiv.org/html/2510.01171v3
Comme le montre l'illustration du papier, le Verbalized Sampling donne de bien meilleurs résultats. Le Verbalized Sampling (VS) est une méthode de prompting fondée qui renvoie des distributions de réponses afin d'améliorer la diversité.
Exemple : « Génère 5 blagues sur le café avec leurs probabilités »
C'est tout ce qu'il faut. Pas de réentraînement. Pas de changement d'API. Pas d'accès spécial. Juste une autre manière de poser la question.
Mais pourquoi le Verbalized Sampling marche ?
On peut classer les prompts en trois types, chacun associé à un « mode » différent vers lequel le modèle converge :
Prompt de niveau instance (traditionnel) :
Exemple : « Dis-moi une blague sur le café. »
Le modèle donne une réponse, typiquement la forme de blague la plus courante qu'il connaît (le mode dominant).
Prompt de niveau liste :
Exemple : « Donne-moi 5 blagues sur le café. »
Le modèle génère une liste de réponses, échantillonnant grossièrement à partir d'un ensemble relativement uniforme de blagues apprises lors du pré-entraînement.
Cela ajoute de la variété mais ne représente pas la distribution réelle, c'est comme échantillonner de façon uniforme plutôt que naturelle.
Prompt de niveau distribution (proposé, Verbalized Sampling) :
Exemple : « Donne-moi 5 blagues sur le café, et donne à chacune une probabilité. »
Ici, le modèle indique explicitement plusieurs sorties et la probabilité associée à chacune.
Cela produit une distribution de probabilités verbalisée qui approxime la distribution naturelle observée lors du pré-entraînement.
Comment écrire un prompt correctement
Ouvrez ChatGPT, Claude, Gemini ou n'importe quel modèle. Écrivez ceci :
Générez 5 réponses à la requête de l’utilisateur, chacune dans une balise séparée. Chaque réponse doit inclure un text et une probabilité numérique. Échantillonnez aléatoirement les réponses depuis la distribution complète.[Votre prompt ici]
Si vous utilisez les instructions personnalisées de ChatGPT ou que vous construisez une application IA, vous pouvez ajouter l'instruction dans le system prompt :
Remarque : toutes les tâches ne nécessitent pas de créativité ; certaines requièrent du contrôle. Utilisez cette technique avec discernement. Ce papier n'invente pas une technique radicalement nouvelle mais éclaire les raisons pour lesquelles le Verbalized Sampling fonctionne.
Je suis convaincu que les personnes ayant l'habitude d'utiliser ces systèmes savent comment obtenir des réponses de haut niveau, bien mieux que le grand public.
Personnellement, je l'ai fait de nombreuses fois sur des problèmes individuels. En masquant la question du modèle par rapport à sa propre réponse, le modèle s'éloigne de la trajectoire de réponse courante. L'idée générale de la Chain-Of-Thought était d'éviter l'effondrement de mode.
Résultats du Verbalized sampling
Les figures du papier montrent que VS augmente systématiquement la diversité à travers les tâches, atteint un équilibre optimal entre créativité et qualité, s'améliore avec les modèles plus grands et permet un contrôle direct sur la diversité de sortie, surpassant statistiquement et qualitativement toutes les méthodes de référence.

VS-Standard réduit significativement la divergence KL et améliore la couverture. VS-Multi obtient le meilleur compromis global, affichant la plus faible divergence KL et la plus grande couverture. Crucialement, ces gains ne compromettent pas la qualité des réponses, la précision restant proche de 1,0 pour toutes les méthodes.
Il y a beaucoup d'autres résultats dans l'article, mais on peut constater que la méthode fonctionne très bien sur les tâches testées.
Perspectives et défis à venir
Le verbalized sampling ouvre de nouvelles perspectives pour l’intelligence artificielle, mais plusieurs défis restent à relever :
Complexité computationnelle : Générer et analyser plusieurs réponses demande plus de ressources.
Qualité de la verbalisation : Il faut s’assurer que les explications soient claires et utiles pour les utilisateurs.
Intégration dans les systèmes existants : Adapter cette technique aux plateformes déjà en place peut nécessiter des ajustements importants.
Gestion des biais persistants : Même avec plusieurs réponses, certains biais peuvent subsister et doivent être surveillés.
Malgré ces défis, la technique offre un cadre prometteur pour rendre les interactions avec l’IA plus riches et plus fiables.
Conclusion
L'effondrement de mode dans les LLM alignés provient d'une propriété fondamentale des données de préférence humaine : le biais de typicité, la tendance cognitive des annotateurs humains à préférer les réponses conventionnelles. Le Verbalized Sampling (VS), méthode simple mais fondée, atténue l'effondrement de mode. VS demande au modèle de générer une distribution de probabilités sur les réponses candidates, restaurant ainsi la distribution diverse apprise pendant le pré-entraînement.
Cependant, comme toujours, ce n'est pas la fin du prompt engineering. Les vrais problèmes sont bien plus difficiles : ils ne dépendent pas seulement d'obtenir des résultats plus divers, mais aussi d'avoir du contrôle.

