La théorie de l’information appliquée au Pendu : choisir la lettre optimale
Quand vous jouez au Pendu en ligne, chaque lettre proposée est un pari. Faut-il commencer par le E, la lettre la plus fréquente en français ? Ou existe-t-il une approche plus rigoureuse ? La théorie de l’information, formalisée par Claude Shannon en 1948, offre un cadre mathématique élégant pour répondre à cette question. Découvrez comment l’entropie et le gain d’information transforment le Pendu en un problème d’optimisation fascinant.
Le Pendu comme problème d’information
Au début d’une partie, vous connaissez uniquement la longueur du mot. Supposons que le dictionnaire contient 5 000 mots de sept lettres : l’incertitude est maximale. Chaque lettre que vous proposez révèle de l’information - soit la lettre est présente (et vous découvrez où elle se place), soit elle est absente (et vous éliminez tous les mots qui la contiennent).
Dans les deux cas, l’espace des mots possibles se réduit. La question centrale devient : quelle lettre réduit le plus cet espace ? C’est exactement ce que mesure l’entropie de Shannon.
L’entropie de Shannon : mesurer l’incertitude
L’entropie, notée H, quantifie l’incertitude associée à un ensemble de possibilités. Pour un dictionnaire de mots candidats, elle se calcule ainsi : chaque mot a une certaine probabilité d’être la réponse, et l’entropie correspond à la somme des contributions de chaque mot, pondérées par le logarithme de leur probabilité.
En pratique, si l’on considère que tous les mots d’une longueur donnée sont équiprobables, l’entropie initiale est simplement le logarithme en base 2 du nombre de mots candidats. Pour 5 000 mots, cela représente environ 12,3 bits d’information à découvrir. Chaque lettre proposée réduit cette entropie - et la lettre optimale est celle qui la réduit le plus.
Gain d’information : la clé du choix optimal
Le gain d’information d’une lettre mesure la différence entre l’entropie avant et après la proposition. Concrètement, lorsque vous proposez une lettre, plusieurs scénarios sont possibles :
- La lettre est absente - Tous les mots contenant cette lettre sont éliminés.
- La lettre est en position 1 - Seuls les mots avec cette lettre en première position restent.
- La lettre est en positions 2 et 5 - Seuls les mots avec cette lettre exactement en deuxième et cinquième positions restent.
- Et ainsi de suite pour chaque combinaison de positions.
La lettre optimale est celle dont les différents scénarios partitionnent l’ensemble des mots le plus uniformément possible. Une partition équilibrée maximise le gain d’information, car chaque résultat élimine une proportion importante de candidats.
Pourquoi la lettre la plus fréquente n’est pas toujours optimale
L’intuition pousse souvent les joueurs à proposer les lettres les plus fréquentes. Pour connaître ces fréquences en détail, consultez notre article sur la fréquence des lettres en français. Cependant, la fréquence brute ne tient pas compte de la distribution positionnelle.
Prenons un exemple concret. Imaginons qu’il reste 100 mots candidats de six lettres. La lettre E apparaît dans 85 d’entre eux - elle est très fréquente. Mais si 80 de ces 85 mots ont le E en dernière position, proposer le E ne crée que deux groupes très déséquilibrés : un énorme groupe (80 mots avec E en position 6) et plusieurs petits groupes. Le gain d’information est faible.
À l’inverse, une lettre présente dans seulement 50 mots, mais répartie sur plusieurs positions différentes, pourrait créer une partition beaucoup plus équilibrée et apporter davantage d’information. C’est le paradoxe que la théorie de l’information révèle : la pertinence d’une lettre dépend du contexte, pas seulement de sa fréquence globale.
L’approche algorithmique en action
Un algorithme optimal pour le Pendu fonctionne en trois étapes à chaque tour :
- Filtrer - Éliminer du dictionnaire tous les mots incompatibles avec les informations déjà obtenues (lettres révélées et positions connues, lettres absentes).
- Évaluer - Pour chaque lettre non encore proposée, calculer le gain d’information en simulant tous les scénarios possibles.
- Choisir - Proposer la lettre qui maximise le gain d’information.
Les résultats sont impressionnants. Sur un dictionnaire français standard, un tel algorithme résout la grande majorité des mots en moins de six tentatives, là où un joueur utilisant uniquement l’ordre de fréquence échoue régulièrement. L’écart se creuse particulièrement sur les mots rares ou les mots avec des structures inhabituelles.
Adapter la théorie à votre pratique
Bien sûr, personne ne calcule l’entropie de tête pendant une partie. Mais comprendre ces principes améliore concrètement votre jeu. Voici les leçons pratiques à retenir :
- Privilégiez les lettres discriminantes - Une lettre qui coupe l’espace des mots en deux groupes égaux est plus utile qu’une lettre présente partout.
- Adaptez-vous au fur et à mesure - Après les premières lettres, la distribution change. La lettre optimale au troisième coup dépend entièrement des résultats précédents.
- Pensez en termes de positions - Si vous savez qu’un mot de huit lettres se termine par « -TION », concentrez vos efforts sur les lettres qui discriminent le début du mot.
- N’ignorez pas les consonnes rares - Dans certains cas, proposer un K ou un W peut être très informatif, car leur présence ou absence élimine des catégories entières de mots.
Pour approfondir les stratégies pratiques et les combiner avec cette approche théorique, découvrez nos stratégies pour gagner au Pendu.
L’intuition humaine face à l’algorithme
Les joueurs expérimentés développent une forme d’intuition qui rejoint partiellement l’approche algorithmique. Ils reconnaissent les schémas courants de la langue française - les terminaisons fréquentes, les associations de consonnes, les structures syllabiques - et ajustent leurs choix en conséquence. Cette gymnastique mentale, que nous explorons dans notre article sur les anagrammes et le Pendu, s’apparente à un calcul d’entropie intuitif.
La différence clé réside dans la capacité de l’algorithme à évaluer exhaustivement toutes les possibilités. Là où le joueur humain se fie à quelques dizaines de mots qui lui viennent à l’esprit, l’algorithme analyse des milliers de candidats simultanément. Mais l’humain possède un avantage que l’algorithme naïf ignore : la connaissance du contexte culturel. Si le mot est lié à un thème spécifique, un joueur averti peut restreindre les candidats bien plus efficacement qu’un calcul purement statistique.
En définitive, la théorie de l’information ne remplace pas le plaisir du jeu - elle l’éclaire. Comprendre que chaque lettre est une question posée au mot mystère, et que certaines questions sont objectivement meilleures que d’autres, donne une dimension nouvelle à chaque partie sur Pendu en ligne. La prochaine fois que vous hésiterez entre deux lettres, pensez à Shannon : laquelle divise le mieux l’espace des possibles ?