L’inférence bayésienne

En 1763, était publiée à titre posthume une lettre intitulée An Essay towards solving a Problem in the Doctrine of Chances [1]. Son auteur, le révérend et mathématicien anglais Thomas Bayes (1702-1761), y démontrait un théorème fondamental en théorie des probabilités. Aujourd’hui, ce théorème est devenu une norme de la pensée inférentielle.

D’UNE FORMULE MATHÉMATIQUE…

La formule de Bayes porte sur la notion de probabilité conditionnelle. Petit rappel (je reprends ici un exemple posté sur l’excellent blog sciencetonnante).

Une urne est composée de 60 carrés (dont 51 bleus et 9 rouges) et 40 triangles (dont 4 bleus et 36 rouges). On tire au hasard un objet dans l’urne.

Une probabilité simple est par exemple celle d’obtenir un carré :

CodeCogsEqn(1)

Une probabilité conditionnelle est par exemple celle d’obtenir un carré sachant que l’objet est de couleur rouge. Il y a 45 objets rouges dont 9 sont des carrés, donc :

CodeCogsEqn(2)

On voit que la probabilité « l’objet est un carré sachant qu’il est rouge » (20%) est très inférieure à la probabilité « l’objet est un carré » (60%). La notion de probabilité conditionnelle exprime le fait que la probabilité simple d’un événement est susceptible d’être modifiée par l’ajout d’une information.

Considérons maintenant la probabilité conditionnelle d’obtenir un objet de couleur rouge sachant que c’est un carré. Il y a 60 carrés dans l’urne dont 9 sont rouges, donc :

CodeCogsEqn(3)

Si l’on compare les deux probabilités P(Carré | Rouge) et P(Rouge | Carré), on voit qu’elles ont en commun l’élément P(Rouge ⋂ Carré). On peut ainsi les mettre en relation dans une même formule. En observant que :
CodeCogsEqn(4)

on a :

CodeCogsEqn(5)

Il s’agit de la formule de Bayes. Son intérêt est de montrer comment on passe d’une probabilité conditionnelle à la probabilité conditionnelle symétrique. Sa formulation générale est la suivante :

CodeCogsEqn(6)

Prenez le temps de contempler cette formule mathématique légendaire…

Source: wikipedia.

Source: wikipedia.

Dans le cas particulier de deux événements exhaustifs et mutuellement exclusifs A1, A2, on note que :
CodeCogsEqn(7)

donc la formule de Bayes peut se réécrire :

CodeCogsEqn(8)

Dans notre exemple :

A: l’objet est un carré
A2 : l’objet est un triangle
B : l’objet est rouge

CodeCogsEqn(10)

Plus généralement, pour un ensemble A1, A2, …, d’événements exhaustifs et mutuellement exclusifs (l’un d’eux, et un seul, se produira nécessairement), la formule de Bayes s’écrit :

CodeCogsEqn(9)

Cette formule est mathématiquement simple, mais ses implications au plan conceptuel sont considérables.

… A UN MODE DE RAISONNEMENT

La formule de Bayes permet d’actualiser la probabilité a priori d’un événement A, en fonction d’une nouvelle information B et d’obtenir ainsi la probabilité a posteriori de A. D’une façon générale, ce schéma conceptuel caractérise une façon particulière de faire des inférences, l’inférence bayésienne. Dans ce type d’inférence, on actualise la probabilité d’une hypothèse P(H) en fonction d’une nouvelle information D, ce qui donne lieu à la probabilité P(H|D). Dans cette perspective, la formule de Bayes décrit comment on révise la plausibilité d’une hypothèse ou d’une croyance en fonction de nouvelles informations. Ce mode d’inférence caractérise de nombreuses situations pratiques : le diagnostic médical, la décision juridique, la recherche scientifique, etc.

Dans le cadre inférentiel, on note la formule de Bayes :

CodeCogsEqn(11)

P(H) est le degré de croyance initial dans l’hypothèse H (cette information est le prior)
P(H|D) est la plausibilité de l’hypothèse H suivant les données D
P(D|H) est la vraisemblance des données D dans l’hypothèse H

Par exemple, on sait que la prévalence de telle maladie héréditaire dans la population est 1%. Cette information correspond au prior, c’est-à-dire la probabilité qu’une personne soit malade si on tire quelqu’un au hasard dans la population. Maintenant, si on prend connaissance d’une nouvelle information selon laquelle un parent de cette personne présente la maladie, on va réviser la plausibilité de l’hypothèse « la personne est malade » dans le sens d’une augmentation. Ainsi va la logique inductive bayésienne.

SOMMES-NOUS BAYÉSIENS ?

A partir des années 1960, de nombreuses études portant sur le raisonnement et la prise de décision ont examiné si les individus raisonnement de manière bayésienne lorsqu’ils sont confrontés à des problèmes simples. Cette question est toujours d’actualité, comme le montre la publication récente de cet article.

Dans ce cadre, les travaux célèbres de Kahneman et Tversky [2] ont suggéré que le raisonnement humain viole les principes de l’inférence bayésienne en n’accordant pas suffisamment de poids à l’information correspondant aux priors. Ce biais cognitif est appelé la négligence des taux de base (base rate fallacy) et il est notamment mis en évidence dans trois situations.

Problème n°1 : le diagnostic médical

Jean a passé un test de dépistage d’un cancer qui touche 0.1% de la population. Le test est fiable : si vous avez le cancer, le test sera positif dans 90% des cas ; si vous ne l’avez pas, il sera négatif dans 97% des cas. Le médecin annonce à Jean que le résultat à son test est positif. Quelle est la probabilité que celui-ci ait le cancer ?

La majorité des gens – y compris des médecins – estiment que cette probabilité est très élevée (aux alentours de 90%). Or elle n’est que de 2.9%. Pour s’en rendre compte, il suffit de faire le raisonnement suivant. Sur 10000 personnes, 10 sont atteintes par ce cancer (la prévalence de 0.1%) et 9990 sont saines. « Si vous avez le cancer, le test sera positif dans 90% des cas », donc sur les 10 personnes malades, 9 seront positives et 1 sera négative (ce qu’on appelle un faux négatif). « Si vous ne l’avez pas, il sera négatif dans 97% des cas », donc sur les 9990 personnes saines, 9690 seront négatives et 300 seront positives (ce qu’on appelle des faux positifs). Au total, il y a donc 9 + 300 = 309 personnes positives et seulement 9 d’entre elles sont atteintes du cancer, soit 97.1%. Si vous êtes positif, vous n’avez donc que 2.9% de chances d’avoir le cancer.

Ce problème consiste à calculer la probabilité P(Cancer | Positif). Du point de vue bayésien :

CodeCogsEqn(12)

La première erreur faite par la majorité des gens consiste à confondre les probabilités conditionnelles P(Positif | Cancer) et P(Cancer | Positif). La seconde et principale erreur consiste à négliger la probabilité P(Cancer), l’information correspondant au prior, ici la prévalence ou le taux de base de la maladie. Or cette probabilité est infime (0.1%) et le fait de la négliger amène les gens à surestimer P(Cancer | Positif).

Problème n°2 : le problème des taxis

Un taxi est impliqué dans un accident avec délit de fuite dans une ville ne comptant que deux compagnies, les taxis verts et les taxis bleus. Les premiers représentent 85 % de l’effectif total des taxis, les seconds 15 %. Un témoin de l’accident déclare que le taxi en question était bleu. Son aptitude à identifier correctement la couleur d’un taxi vert ou bleu est ensuite testée dans les mêmes conditions de visibilité qu’au moment de l’accident. Il apparaît qu’il identifie correctement la couleur du taxi dans 80 % des cas, et se trompe dans 20 % des cas. Quelle est la probabilité que le taxi impliqué dans l’accident soit effectivement bleu ?

La majorité des gens estiment à 80% cette probabilité, alors que celle-ci est en fait deux fois moindre (41%). La résolution bayésienne de ce problème est directe :

CodeCogsEqn(13)

Là aussi, l’erreur des gens consiste à négliger le prior, ici le fait que seulement 15% des taxis de la ville sont bleus. Le fait de savoir qu’un témoin a vu le taxi en question comme étant bleu augmente substantiellement cette probabilité, mais celle-ci reste bien en deçà de 80%.

Problème n°3 : le jeu Monty Hall

Vous êtes candidat à un jeu TV et trois portes sont face à vous. Il y a une voiture derrière l’une d’elles et rien derrière les deux autres. Le présentateur du jeu sait ce qu’il y a derrière chaque porte. Il vous invite dans un premier temps à choisir une porte, au hasard. Puis il ouvre une porte vide parmi les deux portes restantes. Là, vous pouvez choisir entre ouvrir la porte que vous avez initialement choisie ou ouvrir la porte restante.

La majorité des gens conservent leur choix de départ en avançant que « c’est 50/50 ». Or la réalité est que vous avez plus de chances de gagner la voiture si vous changez votre choix initial (2/3). L’analyse bayésienne du problème Monty Hall est la suivante. Admettons que vous ayez d’abord choisi la porte 3 et que le présentateur ait ensuite ouvert la porte 1. Pour savoir s’il faut changer votre choix initial ou pas, il faut calculer la probabilité que la voiture soit derrière la porte 2 sachant que le présentateur a ouvert la porte 1, soit :
CodeCogsEqn(14)

On sait que :
CodeCogsEqn(15)

Pour la probabilité que le présentateur ouvre la porte 1 sachant que la voiture est derrière la porte 1, on a :
CodeCogsEqn(16)

Pour la probabilité que le présentateur ouvre la porte 1 sachant que la voiture est derrière la porte 2, on a :
CodeCogsEqn(17)

Et pour la probabilité que le présentateur ouvre la porte 1 sachant que la voiture est derrière la porte 3, on a :
CodeCogsEqn(18)

(si vous avez choisi la porte 3 et que la voiture est derrière cette porte, le présentateur choisit de façon équiprobable entre les portes 1 et 2)

La formule de Bayes s’applique ainsi :

CodeCogsEqn(19)

Le problème Monty Hall illustre lui aussi l’absence de raisonnement bayésien chez les individus par le biais de négligence des taux de base : les gens négligent qu’ils ont, à la base, plus de chances de choisir une porte vide.

Les trois problèmes présentés suggèrent que les humains échouent à raisonner de façon bayésienne. Cependant, des chercheurs tels que Gigerenzer [3] ont souligné que cet échec relève davantage de la formulation des problèmes en termes probabilistes que d’une incapacité cognitive à respecter la logique bayésienne. En effet, lorsque les mêmes problèmes sont formulés en termes fréquentistes (avec des effectifs plutôt qu’avec des probabilités), la performance des individus s’améliore nettement.

Si nous échouons à respecter la logique bayésienne lorsque nous raisonnons consciemment, nos mécanismes perceptifs inconscients semblent eux parfaitement obéir à cette logique. C’est ce que révèlent les illusions perceptives. Toute perception est la résultante de deux processus : un processus bottum-up qui traite l’information en provenance de l’environnement (la stimulation physique) et un processus top-down qui correspond aux hypothèses que notre cerveau fait en permanence sur la structure du monde extérieur (par exemple, l’hypothèse que la lumière vient d’en haut). En intégrant ces deux sources d’informations, le cerveau « décide » de la perception.

Cette illusion visuelle est l’une des plus spectaculaires :


Au lieu de voir un masque en creux qui tourne à l’endroit (la réalité), on voit de façon illusoire un visage qui tourne à l’envers ! L’explication bayésienne de cette incroyable illusion est que la probabilité a priori de voir un visage en relief est tellement plus élevée que celle de voir un masque en creux qu’au final, la probabilité a posteriori de voir un visage demeure toujours la plus élevée après la prise en compte des données.

ÊTRE OU NE PAS ÊTRE BAYÉSIEN, TELLE EST LA QUESTION

Réviser ses croyances en fonction de nouvelles données est un mode de fonctionnement rationnel, et en ce sens souhaitable. En effet, la pensée bayésienne oblige d’un côté à actualiser ses croyances au lieu de les maintenir figées en les rendant imperméables à toute nouvelle information. D’un autre côté, ce mode de pensée implique de ne pas croire aveuglément dans les données et empêche ainsi de se laisser porter au gré des nouveaux résultats. Toute prise de décision basée sur des croyances et des données devrait être modelée suivant l’approche bayésienne.

Cette approche est notamment souhaitable dans le domaine de la recherche scientifique où la pratique standard des statistiques, le test de l’hypothèse nulle, amène les chercheurs à accorder trop de poids aux données et pas suffisamment à leurs priors. La logique du test de l’hypothèse nulle, définie par Ronald Fisher en 1925, consiste à déterminer la plausibilité d’une hypothèse (l’hypothèse nulle H0) en examinant la probabilité d’observer les données obtenues si cette hypothèse est vraie (la vraisemblance). Cette probabilité est notée p-value, et une convention sociale veut que si elle est inférieure à 5% alors l’hypothèse nulle est considérée comme trop peu plausible et rejetée au bénéfice de l’hypothèse alternative H1.

Le problème de cette approche statistique est que la plausibilité d’une hypothèse est déterminée uniquement sur la base des données sans considérer ce que l’on pensait de cette hypothèse avant de les obtenir. Autrement dit, décider de la plausibilité d’une hypothèse uniquement sur la base de la p-value, c’est se laisser porter au gré des données. Au contraire, dans une logique bayésienne, la p-value résultant du test statistique d’une hypothèse ne devrait être considérée que comme une donnée permettant de réviser la plausibilité de celle-ci. Par exemple, si une hypothèse était considérée comme très peu plausible a priori (c.a.d avant de tester celle-ci), le fait d’obtenir une p-value < 5% à la suite d’une expérience la rendra légèrement plus plausible a posteriori.

La mise en œuvre de la logique bayésienne dans la pratique des statistiques est résumée dans la figure ci-dessous extraite d’un article paru dans Nature :

Source : Nature (2014).

Source : Nature (2014).

Notre pensée n’est probablement pas bayésienne, mais nous devrions faire en sorte qu’elle le soit. Le révérend Bayes a prêché la bonne formule.

RÉFÉRENCES

[1] Bayes, T. (1763). An Essay towards solving a Problem in the Doctrine of Chances. Philosophical Transactions of the Royal Society of London, 53, 370-418.

[2] Tversky, A., & Kahneman, D. (1974). Judgment under Uncertainty: Heuristics and Biases. Science, 185, 1124-1131.

[3] Gigerenzer, G., & Hoffrage, U. (1995). How to improve Bayesian reasoning without instruction: Frequency formats. Psychological Review, 102, 684-704.

Share on FacebookTweet about this on TwitterEmail this to someone