01 février 2005

Les confusions entre corrélation et causalité

« …Très souvent, un coefficient de corrélation élevé s'explique par une troisième variable non mesurée, et dont dépendent les deux autres. Ainsi, la corrélation entre l'augmentation des recettes publiques en Allemagne et l'augmentation de la consommation en Espagne peut s'expliquer par l'augmentation du niveau de vie de la population dans ces deux pays européens. »
http://fr.wikipedia.org/wiki/Corrélation_(mathématiques)

« …Pour illustrer que toute corrélation n'induit pas nécessairement une relation causale on peut évoquer l'exemple d’un article de Science et Avenir qui s'appuyait sur une étude statistique montrant une corrélation positive entre utilisation de crème solaire et cancer de la peau. Des journalistes pressés en avaient conclu un peu vite à la nocivité de la crème solaire alors que "utilisation de crème solaire" et "cancer de la peau" n'étaient que la conséquence d'une même cause: l'exposition au soleil (la variable explicative). »
http://www.ac-versailles.fr/PEDAGOGI/ses/reserve/dico-methodo/metho-correlation.htm

La notion de cause est intuitivement comprise par tous, du moins à l’échelle macroscopique. Lorsque nous appuyons sur un interrupteur et que la lumière s’allume, nous comprenons bien qu’il y a entre ces deux événements une relation de causalité. Mais malheureusement, la plupart des événements sont bien plus complexes. Pour les étudier, nous ne disposons alors que d’une relation plus faible que la causalité : la corrélation. Elle s’exprime par une valeur entre -1 et 1. Les valeurs proches de 0 (« faibles ») correspondent à une indépendance des deux variables étudiées, tandis que les valeurs proches de -1 ou 1 (« fortes ») correspondront à une dépendance de type linéaire entre ces deux variables. Mais même dans ce dernier cas, ceci n’indique pas nécessairement une relation de cause à effet. Les valeurs négatives indiquent que la deuxième variable croit ou décroit en sens inverse de la première.
Comme pour l’exemple cité dans Wikipédia, quelle relation de causalité y a-t-il entre l’augmentation des recettes publiques en Allemagne et la consommation en Espagne ? Aucune : rien n’empêche les recettes publiques allemandes d’augmenter alors que la consommation baisserait en Espagne dans le même temps. Dans ce cas, l’augmentation du niveau de vie dans le temps est la variable explicative qui ‘synchronise’ les deux autres. L’exemple de l’article de Science et Avenir est encore plus frappant, si l’on confond corrélation et causalité : la crème solaire est censée protéger des cancers de la peau. Pourtant l’augmentation de son utilisation va de pair avec une augmentation des mélanomes. La variable cachée est ici l’augmentation de l’exposition au soleil. De même, rien n’empêche le nombre de cas d’autisme (ou le nombre de diagnostics d’autisme) d’augmenter en même temps que la couverture vaccinale du ROR. Mais il n’existe pas de relation causale entre ces deux événements, comme l’ont démontré de nombreuses études sérieuses.

Références :
http://fr.wikipedia.org/wiki/Corrélation_(mathématiques)
http://www.douance.org/complements/stat.htm
http://www.ac-versailles.fr/PEDAGOGI/ses/reserve/dico-methodo/metho-correlation.htm
http://www.sceptiques.qc.ca/QS/qs27p24.html