Afc pour les nuls

Afc pour les nuls

L’AFC pour les nuls Mise a jour du 8 aout 2010 Remi Bachelet La version a jour de ce cours d’analyse factorielle des composantes est disponible http://rb. ec-lille. fr Cette formation est egalement enregistree en video Source des images indiquees au-dessous Cours distribue sous licence Creative Commons, selon les conditions suivantes : Comment utiliser ce cours : 1. Mettre les diapos en format plein ecran en cliquant sur 2. Faire defiler l’animation en cliquant sur les diapositives (attention : cliquer sur une image ou un lien ouvre la page web correspondante) Remi BACHELET – Ecole Centrale de Lille aout 10

Utilisation ou copie interdites sans citation 2 Objectifs du cours d’Analyse Factorielle des Correspondances Methode developpee notamment par Jean-Paul Benzecri (1970+) 1. Comprendre les fondements de l’Analyse Factorielle des Correspondances 2. Savoir quel est le processus de calcul et ses logiques 3. Pouvoir expliquer le mapping produit par une AFC 4. Egalement : • Connaitre quelques logiciels d’administration d’enquetes et de traitement de donnees • Avoir des elements de comparaison AFC – ACP (ACP = Analyse en Composantes Principales). aout 10 Utilisation ou copie interdites sans citation Chapitre 1/4

Principes de l’AFC et donnees d’entrees 1. Principe general de l’AFC 2. Exemples :

Désolé, mais les essais complets ne sont disponibles que pour les utilisateurs enregistrés

Choisissez un plan d'adhésion
– Les limites des representations graphiques intuitives – Comment donner du sens aux informations aout 10 Utilisation ou copie interdites sans citation Principe general de l’analyse factorielle des correspondances (AFC) « L’analyse factorielle traite des tableaux de nombres. Elle remplace un tableau de nombres difficile a analyser par une serie de tableaux plus simples qui sont une bonne approximation de celui-ci » Ces tableaux sont « simples », car ils sont exprimables sous forme de graphiques Pourquoi « des correspondances » ? ariables numeriques variables nominales Correlation Correspondance Pourquoi « factorielle » ? Il s’agit de decomposer le tableau original en une somme de tableaux/matrices qui sont chacun le produit de facteurs simples. Autrement dit, on les « met en facteurs » aout 10 Principale source d’informations, et de l’exemple utilise pour ce cours : Que sais-je ? « L’ analyse factorielle » – N°2095, Philippe CIBOIS, ed. PUF, epuise, Utilisation ou copie interdites sans citation extrait disponible en ligne Exemple : que deviennent les bacheliers ? destination classes prepa 2 2 5 1 10

A BDD’ CE FGH total universite 13 20 10 7 50 autres total 5 20 8 30 5 20 22 30 40 100 100 Stats MEN 1975 – 1975 204 489 lyceens aout 10 Utilisation ou copie interdites sans citation Une representation graphique intuitive 20 A 30 BDD’ 20 CE 30 FGH Univ ersite Clas ses Prepa Autr es aout 10 Utilisation ou copie interdites sans citation Exemple : quels souhaits d’orientation ? Entrepreneuriat Amenagement, Construction, Environnement Gestion – Audit Conception de Produits et Systemes Innovants Logistique Commerciale et Industrielle Premiers v? ux 2003 de Genie / filiere.

Mecanique Avancee Genie Civil Matiere,Energie et Vivant Ondes, NanoElectronique, Telecoms Systemes Electriques et Electroniques Systemes Automatises Genie des systemes de production Genie Informatique Informatique de Gestion Services et Systemes Socio-Economiques Systemes de Transport et Logistiques 0 1 0 0 2 1 2 24 2 7 0 0 Production Industrielle 5 0 5 1 1 1 2 0 0 0 0 2 1 1 0 0 5 0 11 6 0 3 1 0 0 0 3 1 2 1 0 3 0 0 0 0 0 4 1 0 0 1 1 2 4 5 2 2 10 0 2 1 1 0 2 0 0 1 8 aout 10 Utilisation ou copie interdites sans citation Recherche 6 0 1 6 1 0 .. Pas toujours suffisante : 1 Mec anique A vancee 28 Genie Civil 10 Matiere,Energie et V ivant 11 Ondes, Nano-Electr onique, Telecoms 7 Sys temes Electriques et Electroniques 14 Sys temes A utomatises 10 Genie des s ystemes de production 11 Genie Informatique 14 Infor matique de Ges tion 11 Serv ices et Systemes Socio-Economiques 10 Sys temes de Trans port et Logistiques Entr epreneuriat Amenagement, Construction, Envir onnement Production Industrielle Rec herche Ges tion – Audit Conception de Produits et Systemes Innov ants Logistique Commerc iale et Industrielle aout 10 Utilisation ou copie interdites sans citation

Comment donner du sens a ces donnees Idee : ce qui est interessant, c’est de mettre en evidence ce qui est inattendu dans ces repartitions Inattendu = en quoi on devie d’une repartition uniforme On va donc : 1. Evaluer ce que serait une situation d’uniformite, d’independance 2. Calculer en quoi la situation constatee en differe 3. Exprimer cette difference graphiquement pour pouvoir l’analyser 4. Interpreter le mapping obtenu … 5. et en optimiser la lisibilite aout 10 Utilisation ou copie interdites sans citation Chapitre 2/4 Premiere operations sur les matrices 1. Matrice « T » des donnees d’entree Matrice R des ecarts a l’independance 2. Mise en facteur d’une matrice – Exprimer « simplement » R aout 10 Utilisation ou copie interdites sans citation Matrice « T » des donnees d’entree universite 13 20 10 7 50 destination classes prepa 2 2 5 1 10 autres total 5 20 8 30 5 20 22 30 40 100 100 A BDD’ CE FGH total Ce tableau est aussi une matrice, appellons-la « T » Quelle matrice aurait-on si la repartition dans les filieres post-Bac ne dependait pas du type de Bac ? aout 10 Utilisation ou copie interdites sans citation 1/ S’il y avait situation d’independance… 10 15 10 15 2 3 2 3 8 12 8 12 0 = 50 * 20% (produit matriciel /100 puisqu’on raisonne en %) 20 30 20 30 On reconstitue la matrice a partir de ses marges Utilisation ou copie interdites sans citation 50 10 40 Appellons cette matrice « T0 » aout 10 2/ La matrice des ecarts a l’independance est T – T0 = R 13 2 5 10 2 8 3 0 -3 20 2 8 15 3 12 5 -1 -4 10 5 5 10 2 8 = 0 3 -3 7 1 22 15 3 12 -8 -2 10 Quelle est la particularite de R ? aout 10 Utilisation ou copie interdites sans citation 3/ Comment exprimer simplement R ? On decompose la matrice des ecarts a l’independance en une somme de matrices.. R = T1 + T2 ..

Chacune de ces matrices etant mise en facteur (le produit d’un vecteur ligne et d’un vecteur colonne). T1 = C1L1 (une matrice dont la plus petite dimension est N « rang N » est decomposable au maximum en N matrices pouvant se mettre en facteurs … ici T = T0 + T1 + T2). T est de rang 3, mais R est de rang 2…. aout 10 Utilisation ou copie interdites sans citation Produit matriciel : exemple aout 10 Utilisation ou copie interdites sans citation Mise en facteur d’une matrice: exemple 1 3 1 3 1 2 6 2 T = CL On met en facteur T comme le produit d’une matrice colonne C par une matrice ligne L – T (2X2) – C (1X2) – L (2X1) out 10 Attention les regles de presentation du produit matriciel ne sont pas bien respectees dans nos diapos De plus, la multiplication des matrices n’est pas commutative (LC CL) Utilisation ou copie interdites sans citation R = T1 + T2 = C1L1 + C2L2 3 0 -3 1 1 -2 1 2 -1 -1 1 5 -1 -4 1 1 -2 1 4 -2 -2 2 = 0 3 -3 2 2 -4 2 + -2 1 1 -1 -8 -2 10 -4 -4 8 -4 -4 2 2 -2 1 Attention le sens de multiplication ecrit ici est LC au lieu de CL 1 -2 2 -1 -1 aout 10 Utilisation ou copie interdites sans citation Chapitre 3/4 D’une matrice a une presentation graphique Production et interpretation du mapping Vecteurs colonne et vecteurs ligne – Produit scalaire aout 10 Utilisation ou copie interdites sans citation 3/ bis Comment representer graphiquement la decomposition ? Un vecteur colonne (resp. ligne) correspond a une modalite des donnees en colonnes (resp. lignes) Un axe unidimensionnel + un axe unidimensionnel = un repere aout 10 Utilisation ou copie interdites sans citation Un vecteur colonne correspond a une modalite des donnees en colonnes 3 0 -3 1 1 -2 1 2 -1 -1 1 5 -1 -4 1 1 -2 1 4 -2 -2 2 = 0 3 -3 2 2 -4 2 + -2 1 1 -1 -8 -2 10 -4 -4 8 -4 -4 2 2 -2 1 1 -2 2 -1 -1 aout 10 Utilisation ou copie interdites sans citation

Un vecteur colonne correspond a une modalite des donnees en colonnes A 1 BDD’ 2 CE -1 FGH -2 Univ CPGE Autres 2 -1 -1 aout 10 Utilisation ou copie interdites sans citation Un axe unidimensionnel + un axe unidimensionnel = un repere A 1 1 CE BDD’ 2 -1 1 CPGE Univ. BDD’ CE 2 A FGH -2 2 -4 1 Aut. Univ CPGE -1 -1 1 -2 Autres FGH aout 10 Utilisation ou copie interdites sans citation 4/ Que veut dire ce mapping ? 1. Conjonction : Produit scalaire positif Les Bac CE ont une affinite pour la prepa CE A Prepa 2. Opposition Produit scalaire negatif Les Bacs A ne vont pas vers les « autres » (IUT, BTS) . Quadrature Produit scalaire nul Les bacs A ne vont ni plus ni moins vers les prepas que la moyenne des bacheliers Autres aout 10 Utilisation ou copie interdites sans citation Chapitre 4/4 Optimisation de la factorisation 1. Le Chi-2 ( 2) comme metrique – Degres de liberte 2. Retour aux applications – Analyse de mappings aout 10 Utilisation ou copie interdites sans citation 5/ Mais ….. Quelle est la meilleure decomposition possible pour R ? En effet R = T1 + T2… mais il existe aussi R = T’1 + T’2 = T’’1 + T’’2 … Quel est le critere (la metrique) qui permet de definir les meilleurs T1 et T2?

Pour une matrice de rang n, on cherche d’abord a trouver la meilleure T1,, puis la meilleure T2 de telle maniere a ce que le premier axe soit celui qui exprime le plus de sens.. aout 10 Utilisation ou copie interdites sans citation La metrique que nous cherchons, c’est le Chi-2 ( 2) Le 2 represente l’ecart a l’independance • or cette independance, est exprimee par T0 • … l’ecart a l’independance peut donc se mesurer comme l’ecart a T0 A partir de la matrice des donnees pour chaque cellule de T1 et T2, on calcule 1. L’ecart avec la cellule correspondante de T0 au carre (d’ou le « 2 » du 2 ) 2.

On divise par l’effectif theorique de cette cellule (on parle de 2 pondere) 3. Le 2 de la matrice est la somme de toutes les « contributions au 2 » de ses cellules 4. Le pourcentage des contributions de T1 et T2 par rapport au 2 de R donne les contributions relatives de T1 et T2 au 2 de T aout 10 Utilisation ou copie interdites sans citation Note sur le 2 2 : ses degres de liberte (R) = 2 (T1) + 2 (T2) 2491 = 1998 + 493 Attention a considerer le 2 en proportion de la richesse en information le la matrice = de son nombre de ddl.

A partir des distributions marginales on peut obtenir plusieurs matrices Tn, mais pour chaque ligne et chaque colonne, la derniere “case” est imposee par la contrainte du total marginal Definition : • On appelle degre de liberte par ligne (ddll) le nombre de colonnes (de modalites) diminue de 1. • On appelle degre de liberte par colonne (ddlc) le nombre de lignes (de modalites) diminue de 1. • Le degre de liberte du khi-deux de la matrice est le produit ddll x ddlc = ddl. • Pour une matrice donnee, le 2 a prendre en compte est en fait 2 / ddl http://brassens. upmf-grenoble. fr/IMSS/MathSHS/SHS1/Stat1/Diapo/COURS9_fichiers/frame. htm out 10 Utilisation ou copie interdites sans citation Matrice T1 maximisant le 2 dans notre cas 2 (R) = 2 (T1) + 2 (T2) 2491 = 1998 + 493 100% = 80. 2% + 19. 8% Cette ‘concentration’ de ce que l’on appelle le pourcentage de la variance expliquee par un axe est particulierement interessante lorsque la taille du tableau de donnees augmente… 2 (R) = 2 (T ) 1 + 2 (T ) 2 + 2 (T 3) + 2 (T ) 4 .. Pourquoi ? ? On ne peut que representer que deux axes a la fois sur un mapping … autant representer les plus significatifs. aout 10 Utilisation ou copie interdites sans citation On obtient alors ce nouveau mapping Axe 2 (19. 8%) CE Clas ses Prepa . De plus, la taille des points est proportionnelle a l’effectif qu’ils representent FGH Axe 1 (80. 2%) A Autr es Univ ersite BDD’ Pour relativiser leur importance, les axes sont dilates proportionnellement au 2 qu’ils expriment … aout 10 Utilisation ou copie interdites sans citation Application : quels souhaits d’options? Entrepreneuriat Amenagement, Construction, Environnement Gestion – Audit Conception de Produits et Systemes Innovants Logistique Commerciale et Industrielle Premiers v? ux 2003 de Genie / filiere. Mecanique Avancee Genie Civil Matiere,Energie et Vivant Ondes, NanoElectronique, Telecoms Systemes

Electriques et Electroniques Systemes Automatises Genie des systemes de production Genie Informatique Informatique de Gestion Services et Systemes Socio-Economiques Systemes de Transport et Logistiques 0 1 0 0 2 1 2 24 2 7 0 0 Production Industrielle 5 0 5 1 1 1 2 0 0 0 0 2 1 1 0 0 5 0 11 6 0 3 1 0 0 0 3 1 2 1 0 3 0 0 0 0 0 4 1 0 0 1 1 2 4 5 2 2 10 0 2 1 1 0 2 0 0 1 8 aout 10 Utilisation ou copie interdites sans citation Recherche 6 0 1 6 1 0 Mapping des choix de filiere / genie Axe 2 (26. 9%) Gest ion – Audit Infor matique de Gestion Services et Systemes Socio-Economiques Systemes de Tr ansport et Logistiques

En treprenariat Genie des systemes de production Lo gistique Commerciale et Indust rielle Matiere,Energie et Vivant Axe 1 (34. 4%) Genie Civil Product ion Indu st rielle Ondes, Nano-Electronique, Telecoms Genie Infor matique Rech erche Systemes Electriq ues et Electr oniques Systemes Automatises Amen ag em en t, Construction, Enviro nnement Mecaniq ue Avancee Concept io n de Pro duit s et Systemes Innov an ts Premiers choix de genie / filiere des 147 G2 en 2003 aout 10 Utilisation ou copie interdites sans citation C’etait les deux premiers axes = 62% de la variance expliquee On peut aussi regarder l’axe 3.. 18% Ax 3 (18. 0%) e Entrepreneuriat Ondes, Nano-Electronique, Telecoms Sy stemes Automatises Informatique de Gestion Recherche Gestion – Audit Genie Civil Amenagement, Construction, Environnement Services et Systemes Socio-Economiques Ax 2 (28. 6%) e Sy stemes Electriques et Electroniques Conception de Produits et Systemes Innovants Logistique Commerciale et Industrielle Genie Informatique Sy stemes de Transport et Logistiques Genie des systemes de production Matiere,Energie et Vivant Mecanique Avancee Production Industrielle aout 10 Utilisation ou copie interdites sans citation Conclusion 1.

Mise en ? uvre logicielle – Sphinx, SPSS, SAS 2. Generalisation de l’AFC – Comparaison avec l’Analyse en Composantes Principales (ACP) – Generalisation de l’AFC – Pour approfondir aout 10 Utilisation ou copie interdites sans citation Mise en ? uvre logicielle de l’AFC : Sphinx aout 10 Utilisation ou copie interdites sans citation Mise en ? uvre logicielle : SPSS aout 10 Utilisation ou copie interdites sans citation Mise en ? uvre logicielle : SAS aout 10 Utilisation ou copie interdites sans citation Generalisations de l’AFC • Les ‘categories’ des questionnaires sont souvent mutuellement exclusives : Sexe : H ou F – Politique : gauche, centre, droite ? Tableau disjonctif • Aux croisements de plus de deux caracteristiques : Analyse des Composantes Multiples (ACM) – Bac X Orientation X sexe ? Tableau de Burt aout 10 Utilisation ou copie interdites sans citation Autre methode d’analyse de donnees proche : l’Analyse en Composantes Principales AFC Donnees Categorielles ACP Metriques Decomposition T – T0 = T1 + T2 T = T1 + T2 + T3 Metrique 2 pondere 2 Attention, le poids des cellules a faible effectif10 renforce aout est Utilisation ou copie interdites sans citation Rapports entre ACP et AFC Si on a des donnees permettant de faire une AFC, peut-on y appliquer une ACP ? – Non • Si on a des donnees permettant de faire une ACP, peut-on y appliquer un AFC ? – Oui ! • .. Mais alors ? – .. Alors on traite les donnees numeriques, les nombres comme des categories – Si par exemple on travaille sur des notes, 18/20 n’est plus « superieur a » 10/20, il n’est pas non plus « plus proche » de 16/20 que de 10/20. aout 10 Utilisation ou copie interdites sans citation Effet particulier lorsque l’on traite des Likert • Que voit-on sur une AFC s’il existe une relation lineaire entre deux Likert correlees, comme par exemple Q1 Aimez-vous les mathematiques (beaucoup/assez/un peu/pas du tout) – Q2 Avez-vous de bonnes notes en mathematiques (tres bonnes/bonnes/moyennes/mauvaises) > Les points du mapping suivent une parabole (c’est l’effet Guttman) aout 10 Utilisation ou copie interdites sans citation Pour en savoir plus – Approches simples : rares • Site web de Philippe Cibois, professeur emerite de sociologie – texte d’ou est tire l’exemple developpe dans ce cours – Trideux : logiciel libre de depouillement d’enquete • Analyse factorielle des correspondances dans Wikipedia • Lecon Analyse factorielle des correspondances du CNAM Plus complexe : de nombreuses references • « Statistique textuelle » de Lebart et Salem, Chapitre 3 • … aout 10 Utilisation ou copie interdites sans citation Autres cours de methodologie: 1. 2. 3. 4. 5. 6. Explorer ou verifier ? Deux categories d’approches Eventails des demarches de recueil de donnees Conception de questionnaires Techniques d’entretien et reformulation Validite et Fiabilite des donnees Mesurer, tester des hypotheses aout 10 Utilisation ou copie interdites sans citation Merci de votre attention ! aout 10 Utilisation ou copie interdites sans citation

Remi BACHELET Enseignant-chercheur, Ecole Centrale de Lille Mon CV est disponible http://rb. ec-lille. fr Mes principaux cours a Centrale Gestion de projet, sociologie des organisations, recueil, analyse et traitement de donnees, prevention du plagiat, module de marches financiers, cours de qualite et methodes de resolution de problemes, etablir des cartes conceptuelles, utiliser Wikipedia et CentraleWiki, formation au coaching pedagogique et a l’encadrement aout 10 Utilisation ou copie interdites sans citation aout 10 Utilisation ou copie interdites sans citation