Décider dans l’incertitude : moins c’est mieux

Un individu peut utiliser trois méthodes pour prendre une décision : 1) la logique, 2) les statistiques, 3) les heuristiques (Gigerenzer & Gaissmaier, 2011). Une heuristique est une règle générale, c’est-à-dire un principe simple qui fonctionne dans certaines situations sans être systématiquement vrai ou précis. C’est une approximation globalement valable.

En anglais, l’expression pour désigner une règle générale est « rule of thumb » (littéralement « règle du pouce »). Certains suggèrent que cette expression fait référence à une règle générale célèbre, le doigt mouillé, qui permet d’évaluer approximativement le sens du vent en mouillant son index dans sa bouche et en le levant à la verticale.

Quelle méthode permet de prendre les meilleures décisions ? Les travaux réalisés par Tversky et Kahneman (1974) dans le cadre du programme « heuristiques et biais » ont fortement joué en défaveur des heuristiques. En effet, même s’ils affirmaient que celles-ci pouvaient être parfois bonnes et parfois mauvaises, chacune de leurs expériences montrait que a) les gens utilisent des heuristiques pour former leur jugement, b) ce faisant ils violent les lois de la logique et des probabilités, bref de la rationalité.

Ainsi, ces travaux ont véhiculé une conclusion générale largement répandue aujourd’hui : les heuristiques correspondent à un mode intuitif de décision en proie à de larges erreurs de jugement tandis que la logique et les statistiques incarnent un mode rationnel de décision permettant de déterminer le choix optimal.

RISQUE VS. INCERTITUDE

En fait, il faut élargir la problématique : la question n’est pas de savoir laquelle des trois méthodes de décision (logique, statistiques, heuristiques) est la meilleure dans l’absolu mais laquelle est la meilleure dans quelles conditions. Ces conditions renvoient à la structure de l’environnement, et on distingue deux grands types d’environnement.

Dans un environnement étroit (« small world »), toutes les informations pertinentes sont disponibles : les alternatives, leurs conséquences, et les probabilités sont connues. Dans ce genre d’environnement, on peut donc calculer des risques mais il n’y a pas d’incertitude. Le fait que toute l’information soit connue permet l’optimisation : on peut appliquer un modèle théorique qui détermine la meilleure solution ou le meilleur choix. L’un de ces modèles est la théorie de la décision qui consiste à : 1) déterminer toutes les alternatives possibles et toutes les conséquences possibles, 2) calculer l’utilité espérée de chaque alternative : estimer l’utilité de chaque conséquence et faire la somme des utilités pondérées par leurs probabilités respectives, 3) choisir l’alternative ayant l’utilité espérée la plus élevée. Le jeu Monty Hall est un exemple typique d’environnement étroit, dans lequel la théorie des probabilités (la formule de Bayes) permet de calculer le meilleur choix.

Au contraire, dans un environnement large (« large world »), certaines informations pertinentes (alternatives, conséquences, probabilités) sont inconnues et doivent être estimées. Ce genre d’environnement est caractérisé par l’incertitude et ne permet pas de calculer les risques : des modèles théoriques comme la théorie de la décision ne sont plus valables.

Dans cette perspective, le psychologue Gerd Gigerenzer (2008) défend l’idée que dans un environnement étroit, l’absence d’incertitude fait que l’on peut déterminer le choix optimal en appliquant des modèles analytiques (principe d’optimisation), alors que dans un environnement large, l’incertitude fait que l’on ne peut que faire un choix suffisamment bon sur la base d’heuristiques (principe de satisficing).

On peut noter au passage que, comme les gens n’aiment pas l’incertitude, la tentation de ramener une situation d’incertitude à une situation à risque est grande : cela permet de calculer et par là-même d’avoir le sentiment de mieux appréhender la situation. Ramener une situation d’incertitude à une situation à risque est ce que Nassim Taleb (2007) appelle l’illusion de la dinde. Imaginez que vous êtes une dinde. Le premier jour de votre vie, un fermier ouvre votre cage. Il pourrait vous tuer ou vous nourrir. Il se trouve qu’il vous nourrit. Le lendemain, le fermier revient. Va t’il vous nourrir à nouveau ?

Dans ce genre de situation séquentielle, la théorie des probabilités permet de calculer les chances que cela arrive : la probabilité qu’un événement se produise à nouveau s’il s’est produit n fois auparavant est (n+1)/(n+2). Si le fermier vous a nourri le premier jour, la probabilité qu’il vous nourrisse le deuxième jour est 2/3, le troisième jour 3/4, le quatrième jour 4/5, et ainsi de suite. Autrement dit, si le fermier vous a nourri tous les jours, la probabilité qu’il vous nourrisse à nouveau augmente jour après jour et la probabilité qu’il vous tue diminue. Arrive le 100e jour. A ce stade, il est quasiment certain que le fermier va vous nourrir. Or il se trouve que c’est la veille de Thanksgiving. Le fermier vous tue. Au moment où vous réalisez que vous allez mourir, votre désarroi est maximal car vous ne vous y attendiez pas. En effet, vous n’aviez pas conscience de l’alternative « Thanksgiving » : vous pensiez être dans une situation de risque alors que vous étiez dans une situation d’incertitude, dans laquelle le modèle probabiliste que vous utilisiez n’est pas valable.

L’illusion de la dinde affecte notamment les économistes dont les modèles mathématiques – réduisant l’incertitude au risque – permettent de réaliser des calculs complexes mais sont au final incapables de prévoir les crises économiques majeures.

MOINS C’EST MIEUX

A la fin des années 1990, sous l’influence des travaux de Kahneman et Tversky, trois idées sur les heuristiques étaient répandues :

  • les heuristiques constituent un second choix
  • nous utilisons des heuristiques en raison de nos limitations cognitives
  • plus de temps, plus d’informations, et plus de calculs sont toujours mieux

Ces trois idées sont sous-tendues par une loi générale, le compromis précision-effort selon lequel plus d’effort (plus d’informations, plus de calculs, plus de temps) entraîne plus de précision, et inversement. Parce qu’elles impliquent peu d’effort, les heuristiques seraient peu précises. Or ceci n’est pas toujours le cas car la relation entre la précision et l’effort n’est pas linéaire, sa forme est en « U » inversé.

Dans les environnements étroits (risque), il y a bien une relation positive entre précision et effort : plus d’effort est synonyme de plus de précision. Dans ces conditions, des modèles complexes battent les heuristiques. Mais à partir d’un certain point, dans les environnements larges (incertitude), la relation entre précision et effort devient négative : plus d’effort entraîne moins de précision. Cela correspond à un effet moins c’est mieux (« less is more ») : moins d’informations, moins de calculs, et moins de temps donneront lieu à de meilleures décisions. Dans ces conditions, les heuristiques, en dépit de leur simplicité, peuvent battre des modèles complexes (basés sur plus d’informations et de calculs).

Voici un exemple frappant d’effet « moins c’est mieux », ou comment une heuristique peut battre un modèle complexe. En 1952, l’économiste Harry Markowitz a développé une théorie financière, la théorie moderne du portefeuille, qui décrit comment des investisseurs rationnels utilisent la diversification dans le but d’optimiser leur portefeuille. L’idée centrale de cette théorie est qu’un portefeuille est une combinaison linéaire pondérée d’actifs, le rendement d’un actif est une variable aléatoire, et le rendement d’un portefeuille est donc également une variable aléatoire avec une moyenne et une variance. La théorie moderne du portefeuille décrit comment maximiser le rendement (la moyenne) pour un niveau donné de risque (variance) ou comment minimiser le risque pour un niveau donné de rendement. Markowitz a obtenu le prix Nobel d’économie en 1990 pour ces travaux. Mais la légende dit que pour gérer ses propres investissements, Markowitz utilise une règle bien plus simple que sa théorie : il répartit ses actifs de façon égale entre N fonds d’investissement. C’est l’heuristique 1/N qui stipule d’une façon générale :

Allouer ses ressources de façon égale entre N alternatives.

Une étude de 2009 suggère que la règle 1/N produit bien de meilleurs résultats que des modèles financiers complexes (DeMiguel, Garlappi, et Uppal), mais ces résultats sont débattus (Kritzman, Page, et Turkington, 2010). Quoi qu’il en soit, voyant midi à sa porte, Gigerenzer voit dans cet exemple une illustration du fait que dans un monde fortement incertain comme celui du marché boursier, une règle simple est plus performante que des modèles complexes : ce qui fonctionne en situation de risque ne fonctionne pas nécessairement en situation d’incertitude, et inversement.

Il y a une raison mathématique au fait que des modèles statistiques complexes comme celui de Markowitz puissent être dominés par des règles simples : le compromis biais-variance.

Toute décision porte sur un critère (ex : la météo de demain) et s’appuie sur des indices (ex : la température, la pression, l’humidité, et le vent d’aujourd’hui). Les méthodes de décision consistent fondamentalement à mettre en relation un critère et un (ou plusieurs) indice(s). Comment cette relation est-elle déterminée ? Les modèles statistiques de décision estiment la relation critère-indices en s’appuyant sur des bases de données historiques qui comportent un ensemble d’occurrences du critère et des indices à la fois (ex : la température, la pression, l’humidité, et le vent du jour n et la météo du jour n+1 sur un mois). Pour une même relation critère-indices, il existe le plus souvent plusieurs bases de données historiques : chacune correspond à un échantillon de données.

Lorsque l’on dispose d’un échantillon de données, des méthodes statistiques telles que la régression linéaire permettent de définir un modèle qui ajuste (« fit ») les données. Un modèle statistique n’ajuste jamais parfaitement les données : on évalue la qualité d’un modèle par la quantité d’erreur qu’il comporte. Cette erreur se décompose en deux parties : une partie irréductible due à la variabilité naturelle de la relation modélisée (le bruit) et une partie réductible que l’on cherche à minimiser. L’erreur réductible se décompose elle-même en deux parties, l’erreur due au biais et l’erreur due à la variance. L’erreur due au biais correspond à l’écart entre les valeurs prédites par le modèle et les valeurs réelles du critère. L’erreur due à la variance renvoie à l’instabilité du modèle d’un échantillon de données à l’autre.

Bien évidemment, on souhaiterait minimiser ces deux types d’erreurs simultanément mais il s‘avère que ce n’est pas possible : diminuer l’erreur due au biais augmente l’erreur due à la variance et inversement, c’est le compromis biais-variance. La position d’un modèle statistique sur le continuum du compromis biais-variance est déterminée par sa complexité, soit le nombre de paramètres libres qu’il comporte. Plus un modèle comporte de paramètres libres, moins il est contraint a priori, et plus il peut s’ajuster aux particularités du jeu de données. Prenons l’exemple ci-dessous, où l’on cherche à modéliser la relation entre la taille (“size”) et le prix (“price”) d’une voiture :

Image [8]

Le modèle à gauche est le plus simple, il ne comporte que deux paramètres libres (c’est un modèle linéaire, les deux paramètres étant la pente de la droite et l’ordonnée à l’origine). La simplicité de ce modèle fait que a) sa variance est faible : il est stable d’un échantillon de données à l’autre car il est peu sensible aux particularités d’un échantillon, b) son biais est élevé car il sous-ajuste (« underfit ») les données (écart important entre les valeurs prédites par le modèle et les valeurs réelles).

Le modèle à droite est le plus complexe, il comporte cinq paramètres libres. La complexité de ce modèle fait que a) son biais est faible car il sur-ajuste (« overfit ») les données (très peu d’écart entre les valeurs prédites et les valeurs réelles), b) sa variance est élevée : il est instable d’un échantillon de données à l’autre car il est très sensible aux particularités d’un échantillon (il assimile le bruit à du signal).

Le modèle au centre comporte trois paramètres et c’est le meilleur compromis : son biais est moyen car il ajuste ni trop ni trop peu les données et sa variance est moyenne car il est relativement stable d’un échantillon à l’autre.

Les modèles statistiques simples (peu de paramètres) ne sont donc pas forcément inférieurs aux modèles plus complexes (beaucoup de paramètres) : les premiers ont plus de biais mais moins de variance que les seconds. Or les heuristiques comme la règle 1/N sont encore plus simples que les modèles statistiques simples. Elles ne sont pas dérivées de l’analyse de bases de données historiques et ne comporte aucun paramètre libre : leur biais peut être important mais elles n’ont aucune variance.

Admettons que l’on dispose d’un échantillon de données d’une relation critère-indices. Le compromis biais-variance fait que si l’on définit un modèle statistique qui ajuste très bien ces données (biais faible), le coût est que ce modèle sera instable (variance élevée). Cela signifie que si l’on applique le modèle sur un autre échantillon, l’ajustement sera alors moins bon que pour l’échantillon d’origine. Autrement dit, le modèle statistique est donc bon en situation d’ajustement mais moins bon en situation de prédiction. Au contraire, comme elle a un biais élevé mais une variance nulle, une heuristique devrait être meilleure en situation de prédiction qu’en situation d’ajustement.

C’est exactement ce qu’a montré une recherche réalisée par Czerlinski, Gigerenzer, et Goldstein (1999). Ils ont comparé la performance de trois méthodes de décision dans une situation d’ajustement (« Fitting ») et une situation de prédiction, au travers de 20 études impliquant des décisions en psychologie, biologie, sociologie, et économie. L’une de ces méthodes était complexe, la régression mutliple (« Multiple regression ») et une autre était une heuristique appelée « Take-the-best ». La figure ci-dessous montre les résultats obtenus :

Source : Czerlinski, Gigerenzer, et Goldstein (1999).

Source : Czerlinski, Gigerenzer, et Goldstein (1999).

Dans la situation d’ajustement où toutes les informations sont connues, la méthode complexe de régression multiple est plus performante que l’heuristique : plus d’effort (informations et calculs) entraîne plus de précision. La régression multiple est effectivement une méthode très efficace pour déterminer la combinaison des indices qui rend compte au mieux du critère : c’est une excellente méthode d’ajustement des données.

En revanche, dans la situation de prédiction où prévaut l’incertitude, l’heuristique est plus performante que la régression multiple : moins d’effort mène à plus de précision. En outre, l’heuristique n’utilise en moyenne que 2.4 indices pour produire sa décision sur le critère alors que la régression multiple utilise en moyenne 7.7 indices. Autrement dit, l’heuristique constitue une méthode de décision “rapide et frugale”.

En résumé, le compromis biais-variance explique donc pourquoi des méthodes simples de décision comme les heuristiques peuvent être plus performantes que des méthodes complexes telles que les modèles statistiques, mais surtout, il permet de définir les conditions dans lesquelles ceci est vrai. Quand on ne dispose pas assez de données historiques et que la relation critère-indices est difficilement modélisable, les heuristiques et la simplicité l’emportent.

Le marché boursier est le prototype de ce cas de figure : il est largement imprédictible et les données historiques sont insuffisantes pour que les nombreux paramètres des modèles statistiques comme celui de Markowitz puissent être estimés de façon fiable. Une règle simple comme l’heuristique 1/N est alors susceptible d’être plus performante. En revanche, quand beaucoup de données historiques sont disponibles, on peut définir des modèles statistiques robustes capables de capter le signal (la vraie relation critère-indices) et d’ignorer le bruit. Dans ces conditions, des formules battent à coup sûr le jugement humain.

RÉFÉRENCES

Czerlinski, J., Gigerenzer, G., and Goldstein, D. G. (1999). How good are simple heuristics? In G. Gigerenzer, P. M. Todd, and the ABC Research Group, Simple heuristics that make us smart (pp. 97-118). New York: Oxford University Press.

DeMiguel, V., Garlappi, L., and Uppal, R. (2009). Optimal versus naive diversification: How inefficient is the 1/N portfolio strategy? Review of Financial Studies, 22, 1915-53.

Gigerenzer, G. (2008). Why Heuristics Work. Perspectives on Psychological Science, 3, 20-29.

Gigerenzer, G. & Gaissmaier, W. (2011). Heuristic decision making. Annual Review of Psychology, 62, 451-482.

Kritzman, M., Page, S., and Turkington, D. (2010). In defense of optimization: The myth of 1/N. Financial Analysis Journal, 66, 31-39.

Taleb, N. N. (2007). The black swan: The impact of the highly improbable. New York: Random House.

Tversky, A., & Kahneman, D. (1974). Judgement under uncertainty: heuristics and biases. Science, vol. 185, no 4157,‎ 1124-113.

Share on FacebookTweet about this on TwitterEmail this to someone