Accueil
 
Analyse des données
 
Plan d'expériences
 
Formation
 
Références
 
Services
 
Logiciel CORICO
 
Contact



Une comparaison entre la Classification Hiérarchique et l'Iconographie des Corrélations.

La classification hiérarchique est une méthode intéressante, à condition que la structure des données soit effectivement hiérarchique. Voici un exemple où l’iconographie des corrélations apporte un supplément d’informations.

Z. Cienikovà a procédé à une classification des langues européennes en fonction du nombre d’occurrence des 26 lettres de l’alphabet. Le graphe suivant et les données sont tirés du site http://pbil.univ-lyon1.fr/R/enseignement.html):

Figure A : Classification hiérarchique des langues selon l’occurrence des lettres de l’alphabet.

Cette représentation arborescente, propre à la Classification Ascendante Hiérarchique (CAH) permet de dégager des groupes emboîtés.

Mais elle se prète mal à la description de liens formant des "boucles", par exemple : A lié à B lié à C lié à D lié à A.

Le résultat de la classification dépend de la définition de la "distance" choisie. A chaque étape, le critère de partition dépend des classes déjà obtenues ; deux individus dans des classes différentes ne sont plus comparés.

Voici l’analyse des mêmes données en Iconographie des Corrélations :

TRAITS PLEINS: corrélations positives; TRAITS POINTILLÉS: corrélations négatives.  

Figure B (au seuil 0.3) : Liens entre langues européeennes selon l’occurrence des lettres de l’alphabet

On note la forte occurrence des lettres :

  • A en gaélique,
  • E en néerlandais,
  • S en lituanien.

    La figure B montre, plus nettement que sur la figure A, les ressemblances (du point de vue de l’occurrence des lettres) :

  • du maltais à l’italien,
  • du gaélique au letton,
  • du finnois au hongrois,
  • etc.

    On observe des boucles. Par exemple: Italien, slovène, tchèque, espagnol, italien.

  • Pour pousser plus loin l’analyse, nous pouvons baisser le seuil de tracé, et faire aussi apparaître les lettres de l'alphabet en tant que « propriétés ». De la figure complète, extrayons les liens à l’anglais, d’une part, et au français, d’autre part :

    Figure C (au seuil 0.2) :

    TRAITS PLEINS: corrélations positives; TRAITS POINTILLÉS: corrélations négatives.

  • L’anglais se distingue par de faibles occurrences (traits pointillés) des lettres J, Z et K.Un lien au gaélique apparaît.
  • Le français ne se distingue pas par des lettres remarquables, mais par une position équilibrée parmi les langues européennes

    Conclusion de la comparaison pour ce cas d’école simple

    L’iconographie des corrélations évite les inconvénients inhérents à la représentation hiérarchique de structures non hiérarchiques. Ici le tracé de structures bouclées est possible.

    Croulant sous l’information, nous ressentons un besoin de mise en ordre ; mais quand nous l’aurons bien rangée en une multitude de listes emboîtées et sous emboîtées, nous aurons reculé pour mieux sauter. Avec CORICO, c’est l’élimination des redondances qui produit, « comme par miracle », la mise en ordre.

    Voir aussi : Questions fréquentes.

    D'autres exemples d'analyse de données avec CORICO :

  • Comparaison entre ACP et Iconographie des corrélations.
  • La répartition des dirigeants de PME selon leur formation en fonction du secteur.
  • L'analyse des élections Européennes 2009.
  • L'analyse des élections présidentielles 2007.
  • L'analyse des élections législatives 2007 à PARIS.
  • Références, exemples.