comment éviter l'erreur induite par la moyenne ?

Lorsqu’on compare plusieurs séries d’observations chiffrées, le calcul de la moyenne peut être un moyen de résumer l’information. Mais il ne faut pas en cacher les dangers lorsque l’on s’intéresse aux relations entre les variables.

Un exemple simple

Données d'enquête brutes

On a interrogé quatre personnes à Mexico, et quatre personnes à Toronto, sur leur âge et le nombre de pizzas achetées dans le mois. Les données brutes de l’enquête sont rassemblées dans le tableau 1.

Le coefficient de corrélation entre l’âge et le nombre de pizzas pour les 8 mesures est négatif (-0.61). Il est également négatif séparément pour Mexico (-0.863) et pour Toronto (-0.905)

Conclusion : les « jeunes » achètent plus de pizza que les « vieux ».

Calculons maintenant les moyennes pour chacune des deux villes (Tableau 2).

Données d'enquête moyennes

Cette fois, il semble que les « jeunes » achètent moins de pizza : la corrélation entre l’âge et le nombre de pizzas est devenue positive (+1) !

Bien entendu, la corrélation calculée sur les données brutes est la plus sûre, car la moyenne mélange tout. Elle efface beaucoup d’informations. Ici, elle a inversé la relation.

Que se passe-t-il si l'on augmente la taille de l'échantillon de population?

On dira peut-être que l’échantillon est trop faible. Qu’aurait-on obtenu, si l’échantillon avait été un million de personnes dans chaque ville ?

Si l'on admet que :

  • les gens achètent plus de pizza à Toronto qu'à Mexico (où la tortilla est une sérieuse concurrente),
  • la population de Mexico est plus jeune qu’à Toronto,
  • les jeunes achètent plus souvent des pizzas.
  • Alors, nous aurions obtenu le même tableau moyen sur un échantillon d’un million de personnes dans chaque ville, donc une corrélation positive entre l’âge et le nombre de pizzas. C’est-à-dire l’inverse de la réalité.

    Conclusion préliminaire

    Il est dangereux de calculer des corrélations à partir de moyennes, et c’est d’autant plus inutile ici que nous disposons des données brutes.

    La relation est la seule réalité. La mesure est un intermédiaire pour découvrir les relations. La moyenne des mesures induit souvent une erreur d’analyse des données, dont les conséquences peuvent être fâcheuses en termes de décision.

    Un autre exemple d’erreur de jugement

    Croissance des plantes

    Pour éviter le recours à la moyenne, et coller de plus près à la réalité des mesures, traçons l’ensemble des valeurs brutes des trois variables, rangées, par exemple, par parcelles (figure 1) :

    Croissance des plantes selon les parcelles

    Et voici les mêmes données rangées dans un autre ordre (figure 2) :

    Croissance des plantes selon l'engrais

    Selon l’ordre de représentation des trois variables, le « ressenti » visuel est différent. L’ordre adopté dans la figure 1 n’est pas plus légitime que l’ordre adopté dans la figure 2. Or il y a encore bien d’autres façons de ranger les 20 observations, tout en conservant la simultanéité des trois variables. "On doit savoir que pour découvrir l'ordre, il faut y travailler avec beaucoup d'application" (Descartes, Regulae XIV).

    D’où la nécessité d’une représentation objective :

    Une représentation sans ordre préfiguré

    L’ordre dans lequel sont rangées les observations n’intervient pas dans le calcul du coefficient de corrélation. Il n’y a donc pas d’axe de coordonnées en Iconographie des Corrélations (quel que soit le nombre de variables considérées).

    Appliquons l’iconographie des corrélations à notre tableau de données (figure 3) :

    Croissance des plantes

    L’iconographie des corrélations met en évidence, sur un schéma global, unique et cohérent, les influences (indépendantes entre-elles) de l’engrais et de la parcelle sur la croissance de la plante.

    Objection

    On dira peut-être que l’ensemble des figures 1 et 2 contient toute l’information, et qu’on peut se passer de la figure 3.

    Cependant, la démarche consistant à tracer les variables en parallèle selon divers ordres (ici, celui des parcelles, puis celui des engrais croissants) est difficilement généralisable, car

  • tout ordre adopté a priori est une vue partielle et subjective de la réalité ;
  • les figures 1 et 2 seraient peut-être moins lisibles s’il y avait 100 observations au lieu de 20 ;
  • les figures 1 et 2 seraient certainement moins lisibles si d’autres variables que la parcelle et l’engrais influaient aussi sur la croissance de la plante ;
  • les figures 1 et 2 sont fortement redondantes. A plus forte raison, pour 9 variables, dont la variable à expliquer, il faudrait considérer 8 ordres différents, donc au moins 8 figures (exemple ici).
  • Conclusion générale

    Pour éviter l’erreur induite par la moyenne, mieux vaut, dans la mesure du possible, s’appuyer sur les données brutes. Mais comment faire parler ces chiffres sans introduire un biais d’interprétation ? Un bon moyen est l’iconographie des corrélations.

    L’iconographie des corrélations (figure 3), condense l’essentiel sans recourir à la moyenne et sans privilégier un ordre préétabli, conformément à la troisième règle du Discours de la méthode qui "suppose même de l'ordre entre ceux qui ne se précèdent point naturellement les uns les autres." (Descartes).

    La méthode revient à dégager délicatement l’évidence de sa gangue de redondances. Nul besoin d’organiser ce qui s’organise tout seul.

    Ce schéma visuel et intuitif, non passé par le prisme des souvenirs parasites et des idées préconçues, ne suppose pas une fonction linéaire du temps, ou d’une quelconque variable. Il épouse la réalité des données disponibles, et nous permet de prendre du recul.

    Indépendant de nos attentes, il favorise l’attention à toutes les interdépendances. Nous retrouvons cette capacité d’étonnement, qui seule permet les découvertes.

    D’où vient l’incertitude ? Du nombre de causes de variations possibles (facteurs de confusion).

    L’iconographie des corrélations est un outil d’autant plus sûr qu’on travaille directement sur les données brutes, et qu’on dispose de plus de variables en rapport avec la question. C’est aussi un moyen d’éliminer les « fausses bonnes corrélations ».

    Voir aussi :


    Vous êtes enseignant : contactez-nous pour connaître les conditions spéciales qui vous permettront d'équiper votre classe, votre laboratoire, votre école ou votre université.

    Economisez des années en Recherche et Développement :

    INDUSTRIE - RECHERCHE - QUALITÉ - ÉPIDÉMIOLOGIE - ENQUÊTES - ECONOMETRIE ...

    TUTORIEL

    • Importer les données
    • Iconographie
    • Générer un plan
    • Régression

    Voir les tutoriels

    FORMATION

    • Découvrir et maîtriser
    • l'Analyse de Donnéees
    • le Plan d'expériences
    • les Séries Temporelles

    • Voir les formations