Logiciel R et iconographie des corrélations

En analyse de données, avec le logiciel CORICO, vous n'avez rien à programmer. Une version "étudiant" gratuite est disponible ici. Son apprentissage et son usage sont donc plus faciles que des outils comme R ou Python. D'autre part les calculs sont très rapides dans CORICO.

Toutefois une passerelle existe entre CORICO et R, qui permet d'obtenir sous R les diagrames d'Iconographie des corrélations.

iconographie des corrélations avec logicielr.

La visualisation des matrices de corrélation sous CORICO

L'iconographie des corrélations est une méthode de visualisation des matrices de corrélations qui tient compte du contexte. Son principe est le suivant:

Un lien de corrélation est tracé entre deux variables A et B (le lien est dit "remarquable") seulement si la corrélation subsiste quand n'importe quelle des autres variables disponibles est constante.

En pratique, il faut que la corrélation entre A et B soit supérieure à un seuil (par exemple 0.3) et que les corrélations partielles entre A et B par rapport à n'importe quelle autre variable mesurée soient aussi supérieures au seuil. Ce critère est d'autant plus sévère, et donc d'autant plus sûr, que l'on dispose de plus de variables mesurées en rapport avec le problème considéré.

Il est facile de programmer les "liens remarquables" dans n'importe quel langage. La difficulté réside dans la position des points: éviter le croisement de trop de liens, pour garder une figure lisible.

Avec le logiciel CORICO, les points sont disposés sur une sphère (traits pleins: corrélations positives "remarquables", traits pointillés: corrélations négatives "remarquables"):

iconographie des corrélations avec corico.

Figure 1 : visualisation des corrélations avec CORICO

L'interprétation très simple repose sur les liens, non sur les positions.

Les mêmes liens avec le logiciel R :

iconographie des corrélations avec corico.

Figure 2 : visualisation des corrélations avec le logiciel R

Avec la roulette de la souris, grossissez ou diminuez le dessin. En cliquant sur un noeud du schéma, déplacez-le. Cliquez hors des noeuds pour déplacer l'ensemble.

Les chiffres indiquent au delà de quel seuil le lien disparaît.

Pour obtenir ce résultat sous R, même si vous ne savez pas programmer en langage R, les 7 instructions suivantes suffisent:

require(visNetwork, quietly = TRUE)
require(dplyr, quietly =TRUE)
# Iconographie des corrélations
nodes = read.csv("c:/Corico/coriconodes.csv") # read csv file
edges = read.csv("c:/Corico/coricoedges.csv") # read csv file
visNetwork(nodes, edges, width = "100%")%>%
visLayout(randomSeed =12) # Pour toujours avoir le même réseau

Le logiciel R ne dispose pas les points sur une sphère. Le package "VisNetwork" est utilisé. Il repose sur un algorithme de force qui simule un système de ressorts sur les arêtes du graphe. Cet algorithme est assez lent, donc moins pratique lorsque le nombre de variables est grand.

Les liens et les noeuds sont tirés de deux fichiers de type .csv émis par le logiciel Corico; mais ils auraient pu être créés par l'utilisateur s'il connaît la programmation.

Utiliser les fichiers créés par Corico donne une plus grande rapidité quand le nombre de variables ou d'observations est grand. Il vous permet de créér rapidement, sans programmation, un fichier .csv contenant les seuls liens à une variable d'intérêt, tout en ayant effectué l'analyse sur l'ensemble des variables (pour éviter de laisser passer un effet important).

D'autres façons de visualiser la matrice de corrélation sous R.

D'abord le corrélogramme :

Figure 3

Et puis la carte de chaleur (heatmap) :

Figure 4

L’iconographie des corrélations (fig.1 ou 2) est une visualisation des matrices de corrélations plus parlante que le corrélogramme (fig.3) ou la heatmap (fig.4) : Les redondances sont éliminées, l'essentiel est conservé.

En effet, tenant compte compte de l’information issue de l’ensemble des variables et des observations, le critère des corrélations « remarquables » est à la fois mieux ajusté aux données analysées, et plus sévère que les niveaux de significativité des corrélations de Pearson et de Spearman, et que les p-values associées. Ceux-ci en effet sont calculés pour chaque couple de variables, indépendamment de l'information apportée par les autres couples de variables.

Ainsi, contrairement au corrélogramme ou à la heatmap, l'iconographie des corrélations rend compte du contexte : une corrélation "significative" n'est pas forcément "remarquable" si elle est causée par une tierce variable. Inversement, une corrélation "remarquable" n'est pas forcément "significative".

Par exemple si Y = A+B+C+D+E+F, où A, B, C, D, E, F sont des variables indépendantes, alors la corrélation de Y avec chacune d'entre-elles sera faible donc "non significative" (sauf si l'on maintient constantes toutes les variables sauf une). Et pourtant l'iconographie des corrélations donnera un lien de Y avec chacune des variables A, B, C, D, E, F.

Contrairement aux méthodes d’analyse factorielle (telle que ACP, PLS, etc.) cette méthode multivariée robuste et stable est peu affectée par l’introduction d’une variable erronée ou fantaisiste.

Que nous apporte de plus le logiciel CORICO ?

L’algorithme de l’iconographie des corrélations est facile à programmer en n’importe quel langage. Que nous apporte de plus le logiciel CORICO ? De la maniabilité : vous pouvez vous concentrer sur vos métiers.

Outre les variables, il convient aussi de prendre en compte

les « instants d’observation » (représentés chacun par une variable indicatrice),

les « interactions logiques », très fréquentes en pratiques,

des « propriétés » des variables, parfois riches en informations.

Cela complique la programmation. Avec CORICO, il n’y a rien à programmer. Le logiciel a été validé dans toutes sortes de domaines, de la recherche à l'industrie.

CORICO vous donne la certitude de ne rien oublier, mais, pour ne pas alourdir la visualisation des corrélations, il n’affiche ces informations complémentaires que si elles ont un lien avec les variables de départ.

Avec le package visNetwork de R, la longueur des liens ne dépend ni de la valeur ni du signe de la corrélation. En effet, l’interprétation de la figure repose essentiellement sur les liens et non sur les positions.

Il n’empêche que des distances accordées aux corrélations facilitent la compréhension.

Autant que faire se peut, sur les figures de CORICO, les points seront d’autant plus proches que la corrélation est forte positivement (il est aussi possible de bâtir le schéma à partir de la valeur absolue de la corrélation).

Une multitude de fonctionnalités, ajoutées au fil des ans, vous dispensent de programmer pour préparer les données, clarifier un schéma, extraire les liens au seules variables d’intérêt, retirer une variable du tableau de données ou retirer l’influence linéaire de cette variable sur les autres (ce qui n’est pas la même chose), ajouter des couleurs, etc.

Car il ne suffit pas de trouver les liens, encore faut-il les démêler dans un réseau inextricable, pour prendre mieux conscience de leur intérêt ; à quoi peut aider une disposition claire des liens dans leur contexte.

Que se passe-t-il si l’on baisse le seuil ?

Lorsqu’on baisse le seuil de tracé, de nouveaux liens paraissent, informations utiles si, comme il est fréquent, certaines variables dépendent de plusieurs autres.

La figure suivante, obtenue avec CORICO, peut être comparée facilement à la figure 1 car la position des points est restée la même. Des variables qui auparavant n’étaient liées à rien sont apparues.

Baisser le seuil de tracé des corrélations avec CORICO.

Figure 5 : seuil abaissé sous CORICO

Cependant, pour clarifier la figure, il est possible de ne tracer que les points liés à une variable d'intérêt.

Il est possible aussi de déplacer certains points pour lever des doutes. Par exemple en haut de la figure, le Vent se trouve par hasard sur le trajet du lien négatif (pointillé) Rn – Lune. Il est possible de déplacer le Vent un peu à droite de ce lien pour lever l’ambiguïté. Cela ne dérange pas le reste du schéma.

A l’inverse la représentation des liens obtenue avec le package visNetwork de R est difficile à manipuler lorsque les liens sont nombreux : le déplacement d’un point entraine celui de tous les autres :

Baisser le seuil de tracé des corrélations avec le logiciel R.

Figure 6 : les mêmes liens sous R

CORICO : un outil de découverte !

Il ne suffit pas d’avoir des yeux pour voir. Encore faut-il regarder au bon endroit. Vous ne soupçonnez pas la richesse de vos données. CORICO attire votre attention sur l'essentiel.

Un exemple complètement traité.

Bibliographie...

MON PANIER

L'iconographie des corrélations avec le logiciel R

La visualisation des matrices de corrélation sous CORICO

Les mêmes liens avec le logiciel R :

D'autres façons de visualiser la matrice de corrélation sous R.

Que nous apporte de plus le logiciel CORICO ?

Que se passe-t-il si l’on baisse le seuil ?

CORICO : un outil de découverte !

Economisez des années en Recherche et Développement :

INDUSTRIE - RECHERCHE - QUALITÉ - ÉPIDÉMIOLOGIE - ENQUÊTES - ECONOMETRIE ...

TUTORIEL

FORMATION