Réponses à des questions fréquentes sur l'analyse des données avec CORICO


Visualisation globale de la structure des données. TRAITS PLEINS: corrélations positives; TRAITS POINTILLÉS: corrélations négatives.

Sommaire de cette page :
Qu'est-ce que "CORICO" ? ...
Plus il y a de paramètres, plus l'interprétation est facile ? ...
Une avancée majeure par rapport à l'analyse factorielle ? ...
Fait-on appel aux réseaux bayésiens ? ...
CORICO est-il plus rigoureux ? ...
Les liens de CORICO sont-il plus lisibles ? ...
Les schémas de CORICO sont-il plus fouillés ? ...
CORICO est-il plus rapide ? ...
CORICO est-il objectif ? ...
CORICO est-il universel ? ...
Est-ce un outil presse-bouton ? ...
CORICO est-il une boite noire ? ...
Des exemples ? ...
Régression multiple : où est le plus de CORICO ? ...
Les règles de segmentation avec CORICO ? ...
Suite des questions...Bibliographie ? ...




Plus il y a de paramètres, plus l'interprétation est facile ? (retour au sommaire)

Oui ! Si plusieurs variables interviennent, n'en regarder qu'une est une erreur !

Les élèves de toutes les classes du collège font le même exercice. La note de chacun est la première "variable". Comment l'interpréter ? Calculer la moyenne du collège? Si la répartition n'est pas normale (courbe "gaussienne" en cloche), la moyenne ne correspond à aucun élève particulier.

Mais vous connaissez le poids de chacun. Plus un élève est lourd, meilleure est sa note! Comment l'interpréter?

Vous connaissez aussi leur âge. Les élèves les plus lourds sont les plus âgés. Et les plus âgés ont les meilleures notes. Tout s'explique : la corrélation poids-note est une "fausse bonne corrélation". Elle découle de la corrélation poids-âge et de la corrélation âge-note. C'est par l'introduction de l'âge que tout s'éclaire.

Quelquefois, beaucoup plus de paramètres seront nécessaires pour élucider votre problème. Mais ce n'est pas plus compliqué. Bien au contraire ! Car c'est en recoupant des informations d'origines diverses que l'on arrive à progresser.

Une avancée majeure par rapport à l'analyse factorielle ? (retour au sommaire)

Oui ! Le tracé schématique des liens pertinents sur une sphère unique ouvre à l'analyse de données des domaines dont elle était bannie jusqu'ici. L'intégration en standard dans CORICO de l'Analyse en Composante Principale (ACP), et en option de la bibliothèque Addad, permet aux habitués de ces méthodes de le constater de visu.

En effet l'analyse factorielle (ACP, AFC, AFCM,...) suppose que le grand nombre n de variables étudiées peut être expliqué; par un petit nombre de facteurs cachés. Les variables (points dans l'espace à n dimensions), sont projetées sur les plans définis par les axes factoriels. Ce procédé soulève plusieurs difficultés:

Avec CORICO, ces difficultés sont court-circuitées : il n'y a pas d'axe factoriel ! Quelle que soit la dimension n, vous n'êtes pas soumis à l'obligation d'expliquer des axes avant d'interpréter les données. L'introduction d'une variable fantaisiste, ou erronée, ne biaise pas l'interprétation des autres variables.

Alors que l'analyse factorielle réduit la dimension sans forcément réduire les redondances, CORICO supprime les redondances sans réduire la dimension (c'est à dire sans perdre d'information).

Vous pouvez mélanger des variables qualitatives et quantitatives, qui de surcroît n'ont pas besoin d'être homogènes. Par exemple: la satisfaction clientèle dépend à la fois de considérations techniques et de considérations socio-démographiques. Les aborder séparément, c'est manquer la solution.

Le schéma de CORICO constitue aussi une classification, qui n'est pas forcément hiérarchique mais peut être bouclée, ou uniformément répartie, etc...

Fait-on appel aux réseaux bayésiens ? (retour au sommaire)

Non ! CORICO repose sur les corrélations partielles. La puissance de la méthode vient de son caractère non probabiliste.

L’absence d’hypothèse sur la distribution de probabilité assure la généralité de la méthode, et en facilite l'accès au non statisticien.

L’étude simultanée des variables qualitatives et quantitatives n’exige aucun recodage des variables continues sous forme discrète. Aucune information n'est perdue, et l'on gagne en précision.

CORICO est-il plus rigoureux ? (retour au sommaire)

Oui ! Une corrélation, même statistiquement significative, n'est pas forcément pertinente si elle a lieu par l'intermédiaire d'une tierce variable. Prise pour argent comptant, elle peut conduire à de grossières erreurs de décision. Inversement, une variable qui dépend de plusieurs autres sera faiblement corrélée avec chacune.

Grâce aux corrélations partielles, CORICO vérifie chaque corrélation et ne trace un lien que s'il ne peut être expliqué par aucune des autres variables disponibles. Inversement, il peut trouver digne d'attention une relation d'abord considérée statistiquement comme non significative. Seules les redondances sont éliminées. L'agencement d'ensemble de tous ces liens remarquables se traduit par un schéma synthétique.

CORICO exploite tous les indices en votre possession sans recourir à des moyennes. Ainsi assuré d'une plus grande rigueur et débarassés du casse tête des tests d'hypothèses, vous accédez aux événements rares (points atypiques) comme aux lois générales

CORICO innove aussi dans sa stratégie face à l'erreur : elle n'est pas fondée sur la répétition mais sur le recoupement. On évite ainsi beaucoup de fausses interprétations.

Les liens de CORICO sont-il plus lisibles ? (retour au sommaire)

Oui ! Trouver les liens ne suffit pas. Si les variables d'un espace à n dimensions sont simplement projetées, même sur le meilleur plan possible, la figure est innextricable.

Le principe de représentation des liens sur une sphère, rodé au fil des ans, a atteint une qualité proche de la perfection. Pour vous l'opération est totalement transparente.

CORICO simplifie sans caricaturer : des conventions simples, facilement retenues
(trait plein = corrélation positive, trait pointillé = corrélation négative),
assurent au schéma une lisibilité sans équivalent.

CORICO ne se restreint pas à un cadre stéréotypé. Rien ne ressemble plus à un camembert qu'un autre camembert, à un histogramme qu'un autre histogramme, à un nuage de points qu'un autre nuage de points, à une arborescence qu'une autre arborescence.

CORICO est plus lisible car il se plie à la réalité; il accepte des figures infiniment variées, et se prête aux classifications arborescentes, aussi bien que bouclées ou continûment réparties.

Fonctionnel et intuitif, CORICO vous ouvre le vaste domaine des variables qui ne sont pas liées par une formule mathémathique mais par une organisation.

Les schémas de CORICO sont-il plus fouillés ? (retour au sommaire)

Oui ! CORICO ne sert pas seulement à vous conforter dans ce que vous saviez déjà :

CORICO est un outil de découverte. Le retrait des composantes évidentes dévoile les aspects secondaires, souvent essentiels pour l'interprétation.

CORICO dessine les articulations naturelles et détecte également les conjonctions de phénomènes (ET, OU, OU-EXCLUSIF, SI, NI...), les modulations et les résonances. Votre attention est attirée sur les lois générales et sur les événement rares.

CORICO est-il plus rapide ? (retour au sommaire)

Oui ! Car il vous simplifie la vie :

CORICO est réellement multidimensionnel et synthétique: Vous n'avez pas à consulter une multitude de plans ou de tableaux bidimensionnels, au risque d'oublier le premier quand vous arrivez au dernier.

Cette rapidité d’analyse autorise une représentation animée quand la structure de corrélations évolue au cours du temps.

Econome en temps et en essais, CORICO peut signaler, sur la même figure, des effets croisés et des conjonctions remarquables.

Mais CORICO n'offre pas seulement un gain de temps et une sécurité accrue dans l'analyse des résultats, il révèle souvent des particularités essentielles des données qui auraient échappé sans lui.

CORICO est-il objectif ? (retour au sommaire)

Oui ! Car il ne fait pas d'hypothèse sur la nature des données, gaussiennes ou non, quantitatives ou qualitatives, stationnaires ou non, aléatoires ou contrôlées, homogènes ou pas. Ainsi, vous n'aurez pas recours à un vocabulaire mathématique étranger aux données qui, parfois, nous fait perdre de vue l'objet même de l'analyse.

CORICO est-il universel ? (retour au sommaire)

Oui ! Car il peut mélanger des variables de tous types (voir plus haut), que vous ayez peu ou beaucoup de données, que vous soyez industriel ou universitaire, statisticien ou non.

CORICO s'applique entre autres aux dépouillement d'essais et au réglage des chaînes de fabrication. Il se prête particulièrement à leur analyse sous des conditions variées, le plus souvent subies. La compréhension rapide des effets respectifs des multiples facteurs en fait un atout pour la réduction des coûts.

C'est un moyen d'expertise pluridisciplinaire (industrie, géologie, géophysique, planétologie, système solaire, microgravité, spectrométrie, mécanique des sols, archéologie, économétrie, gestion, biologie, agroalimentaire...). Informations de terrain et données indirectes, éventuellement qualitatives, peuvent être combinées et étayer votre décision (enquêtes, qualité, marketing, plan d'expérience, études d'impact, essais non destructifs, analyse sensorielle, sondages, états des lieux, analyse critique des risques, analyse de l'échec, analyse des erreurs, écotoxycologie, prévention, épidémiologie, recherche médicale...).

Est-ce un outil presse-bouton ? (retour au sommaire)

Non !

CORICO n'est pas fait pour réduire la force de votre attention. Au contraire, il attire l'attention sur les particularités des données, et vous pousse à réfléchir sur la manière de mieux les aborder.

CORICO est-il une boite noire ? (retour au sommaire)

Non !

Un module pédagogique, ANNA, vous permet de retrouver vous même, de façon interactive, les résultats de CORICO qui vous semble par trop surprenants. Vous vérifiez sans peine pourquoi le logiciel a (ou n'a pas) tracé un lien. C'est le moyen de détecter très vite des erreurs de saisies dans les données, et , bien sûr, de reprendre confiance en vous lorsqu'une découverte inattendue vous paraît d'abord trop belle pour être vraie !

Des exemples ? (retour au sommaire)

Visualisation globale de l'organisation des données.  

1 - Ces 24 variables ne sont pas gaussiennes. Aucune n'est liée à une autre par une relation linéaire. Leurs moyennes, toutes égales, ne permettent pas de les distinguer. Nous ne connaissons pas la formule mathématique qui les lie. Pourtant, elles forment, ensemble, la structure de relations organisées de la figure ci-contre. Rien d'artificiel (axe ou projection) ne vient obscurcir ou embrouiller ce schéma entièrement "dirigé par les données".



L'ensemble des liens, vu d'un seul coup d'oeil.  

2 - On recherche, parmi 5 variables, ce qui influence le plus le gain de poids des animaux :

Les résultats de l'expérience sur 30 animaux sont rassemblés dans un tableau comportant 30 lignes et 6 colonnes (dose, poids initial, boeuf, porc, céréales et gain de poids). Les trois types d'aliments qui sont proposées (boeuf, porc et céréales), peuvent différer selon l'animal. Mutuellement exclusifs, ils sont négativement corrélés (traits pointillé sur le schéma). Les liens positifs du schéma (traits pleins) révèlent l'incidence du poids initial de l'animal, de la dose de nourriture et des protéines de boeuf. Mais la variable " dose &- céréales " fabriquée par le programme, souligne l'importance de la conjonction d'une forte dose d'aliment et de protéines sans céréales (à savoir boeuf ou porc). La figure met en jeu des variables qualitatives (boeuf, porc et céréales) et des variables quantitatives (dose et poids); elle demeure cependant très claire.

Le gain de poids n'est pas forcément un critère de qualité. Mais le principe d'analyse est le même si vous ajoutez des variables indicatrices de la qualité.

Régression multiple : où est le plus de CORICO ? (retour au sommaire)

Le modèle polynomial classique à 10 variables explicatives (appelées encore "régresseurs" ou "prédicteurs") donne, pour les données ci-dessus (R2=0.987, F=154):

GAINpoids = 5.154 + 0.6850 Dose + 3.078 Dos.Cér + 0.5292 PoidsInitial + 9.653 Dos.Boe + 11.86 Dos.Por - 3.028 Porc - 0.3126 Dos.Poi + 0.6863 Boeuf + 0.1511 Poi.Por + 0.1556E-01 Poi.Boe

Ce modèle, postulé a priori et purement analytique, est difficile à interpréter directement.

Le modèle CORICO, "dirigé par les données", donne un meilleur F de Fisher pour 5 variables explicatives seulement (R2=0.987, F=370.4) :

GAINpoids = 11.10 + 21.74 Dose&-Céréales + 8.780 Poid-Porc + 4.914 Dose]-Boeuf + 2.578 Dose*PoidsInitial + 1.992 Poid&Porc

Dans ce modèle (qui n'avait pas été postulé a priori), les variables explicatives sont rangées par ordre d'importance décroissante. Il s'interprète directement, une fois connues les conventions des symboles "d'interactions logiques" (qui ont presque toujours un sens physique):
  • 1 - "Dose&-Céréales" => une forte dose et pas de céréale (c'est à dire des protéines animales) ont une forte influence sur le gain de poids.
  • 2 - "Poids-Porc" => un fort poids + pas de porc explique le gain non expliqué par le 1er régresseur.
  • 3 - "Dose]-Boeuf" => une forte dose si pas de boeuf explique le résidu non expliqué par les régresseurs 1 et 2. etc...

Si l'on ne conserve que les deux premiers prédicteurs, le coefficient F= 219,4 est encore supérieur à celui du modèle polynomial.

Le solveur de CORICO, outil puissant d'optimisation, vous permet aussi d'introduire dans le modèle des valeurs à votre choix de Dose, Poids, etc. pour connaître la valeurs correspondante du GAIN de poids.

La méthode CORICO est un moyen d’éviter les modèles qui n’ont aucun pouvoir de prédiction, même s’ils expliquent très bien les résultats de l’étude. Son principe de sélection des termes du modèle est peu sensible à une éventuelle colinéarité entre les variables explicatives, et fonctionne encore si le nombre d'observations est inférieur au nombre de variables explicatives (cas fréquent). Elle vous permet enfin de travailler sur de multiples réponses (chacune ayant un modèle différent), pour trouver le meilleur compromis.

Les règles de segmentation avec CORICO ? (retour au sommaire)

En outre, l'outil de segmentation de CORICO vous donne, pour les données précédentes, les groupes d'animaux de comportement similaire, le groupe de ceux qui ont le plus fort gain de poids, et de ceux qui ont le plus faible gain; et il vous dit pourquoi, en tenant compte des interactions. Enfin il peut vous fournir des "règles" de décision du type

SI Dose ENTRE tant et tant,
ET Poids ENTRE tant et tant,
ET Boeuf ENTRE tant et tant,
ALORS Gain de poids ENTRE tant et tant.

La détermination automatique de règles issues des données réelles, et la compréhension des "couplages" de paramètres influents, permet la mise en oeuvre de bonnes pratiques opérationnelles aprés validation par les experts.

Exercice (cliquez ici)

(retour au sommaire)

Suite des questions ...Bibliographie...



           

terminologie: analyse de donnée, logiciels, sphériques, analyse des données, sphères, analyses de donnée, sphère, analyses des données, représentation sphérique, régression non linéaire, sélection de variables, spline, B-splines, apprentissage supervisé, choix de modèle