Statistique descriptive cours aes

Statistique descriptive cours aes

Statistique Descriptive Fabrice MAZEROLLE Notes de cours 2008 Derniere mise a jour le mercredi 2 avril 2008 1ere annee de Licence AES – Marseille & Aix 2 Resume du cours Ce cours d’introduction a la statistique descriptive de niveau L1 a pour objet de donner les outils de bases permettant de decrire une population statistique. Une premiere section est consacree a la definition des termes habituellement utilises en statistique descriptive.

Le chapitre 2 introduit l’outil de base d’analyse des chiffres : le tableau. Le chapitre 3 est consacre a la presentation des principales statistiques permettant de resumer une masse de chiffres. Le chapitre 4 traite des formules de base utilisees dans l’analyse des evolutions temporelles impliquant des grandeurs quantitatives. Le chapitre 5 couronne les quatre chapitres precedents en decrivant une partie de la grande palette des graphiques statistiques.

Le chapitre 6 peut etre concu comme une premiere etape vers la statistique mathematique, bien que restant rattache au « dernier etage » de la « statistique descriptive » : il s’agit de l’analyse des tendances et des correlations. Enfin le chapitre 7 est essentiellement utile a l‘etudiant en economie : il traite de la courbe de LORENZ et du coefficient de GINI, deux outils

Désolé, mais les essais complets ne sont disponibles que pour les utilisateurs enregistrés

Choisissez un plan d'adhésion
complementaires dont les principales applications sont l’analyse de la plus ou moins grande egalite de la repartition d’une masse (de revenu, de richesse, de ressources, ec. ) au sein d’une population. Pour toute question relative a ce cours, merci de m’adresser un mail a [email protected] fr . 3 Sommaire Chapitre 1 : Vocabulaire de la statistique descriptive Chapitre 2 : Les tableaux statistiques Chapitre 3 : Statistiques permettant de resumer une serie Chapitre 4 : Indices et progressions Chapitre 5 : Diagrammes et graphiques Chapitre 6 : Tendances et correlations Chapitre 7 : Courbe de LORENZ et coefficient de GINI Bibliographie 4

Chapitre 1 Vocabulaire de la statistique descriptive 1 – Utilite de la statistique descriptive en economie A – Definition B – Exemples d’utilisation 2 – Terminologie A – Population et unites statistiques B – Echantillons et sous-ensembles d’une population C – Criteres de classification 1) Criteres quantitatifs 2) Criteres qualitatifs 3 – Modes de regroupement des donnees A – Serie simple B – Distribution par valeurs ou par modalites 1) Distribution par valeurs 2) Distribution par modalites C – Regroupement par categories 1) Categories de valeurs 2) Categories de modalites 1 – Utilite de la statistique descriptive en economie A – Definition On divise generalement l’etude de la statistique generale en deux parties : La statistique descriptive, qui est un ensemble de methodes permettant de decrire les unites statistiques (voir la section 2 pour une definition plus precise du terme « unites statistiques ») qui composent une population (voir la section 2 pour une definition plus precise du terme « population »).

La statistique mathematique dont l’objet est de formuler des lois a partir de l’observation d’echantillons, c’est-a-dire de sous-ensemble d’une population statistique (voir la section 2 pour une definition plus precise du terme « population »). La statistique mathematique intervient dans les enquetes et les sondages. Elle s’appuie sur la statistique descriptive, mais aussi sur le calcul des probabilites. 5 Enfin, l’econometrie est l’application de la statistique (descriptive et mathematique) a la mesure et a l’etude chiffree des grandeurs economiques. B – Exemples d’utilisation Soit le tableau ci-apres qui donnent quelques statistiques macroeconomiques des pays de l’UE a 27 ainsi que de certains de leurs partenaires commerciaux. Les chiffres contenus dans ce tableau permettent de repondre a de multiples questions.

Certaines des reponses sont immediates, d’autres necessitent de faire certains calculs ou bien de representer les chiffres sous formes visuelles (graphique par exemple). Supposons que l’on souhaite savoir quel est le pays de l’UE a 27 qui a la superficie la plus elevee ? La reponse est immediate. Il suffit de regarder le tableau et de voir qu’il s’agit de la France avec une superficie egale a 643 427 km2 (sachant que la France metropolitaine ne compte que 547 030 km2, mais meme dans ce cas, elle reste le plus grand pays de l’UE). Bien qu’il suffise de regarder le tableau pour repondre a cette question, l’esprit est immediatement attire par la possibilite faire des comparaisons plus precises.

De nombreuses autres questions peuvent alors etre posees, mais qui vont necessiter soit des calculs supplementaires, soit un reagencement des donnees, soit une combinaisons de ces donnees avec d’autres donnees du tableau, etc. Ainsi, on peut par exemple classer les pays du tableau (ou seulement ceux de l’UE a 27 par ordre de superficie croissante ou decroissante, ce qui permet alors d’un seul coup d’? il de se representer l’ordre de grandeur des surfaces. On peut egalement calculer la surface totale des pays de l’UE a 27 et ensuite diviser la surface de chaque pays par ce total et multiplier par cent. On obtient alors le pourcentage de la surface de chaque pays dans la surface de l’UE.

On peut aussi comparer la surface de l’UE a 27 avec la surface des Etats-Unis ou de la Chine, etc. On peut encore, de facon tres habituelle, comparer la superficie de chaque pays avec sa population. Par exemple, si on divise la population francaise totale en 2007 (metropolitaine et non metropolitaine) par la superficie totale de la France (metropolitaine et non metropolitaine), on obtient la densite de population ou nombre d’habitants par km2, soit : On devra calculer ce chiffre pour tous les pays du tableau, ou seulement pour ceux de l’UE a 27 et faire une la moyenne des resultats obtenus. Ce qui permettra alors de savoir quel est l’ecart de chaque ays par rapport a cette moyenne, etc. 6 Tableau 1 : Quelques statistiques macroeconomiques des pays de l’UE a 27 ainsi que de certains de leurs partenaires commerciaux Bien souvent, pour repondre a certaines questions, les calculs precedents ne suffiront pas, ou bien, s’ils suffisent, il faudra aussi creer un autre tableau, pour faire apparaitre plus precisement certaines informations. Supposons par exemple que l’on souhaite avoir une idee synthetique sur la question suivante : Combien y-a-t-il de pays qui sont membres de la zone Euro au premier janvier 2008, quels sont ces pays, combien representent-ils en pourcentage du total des pays, et quels sont les autres pays.

Pour repondre a toutes ces questions, il faudra faire quelques calculs et ensuite recapituler ces resultats dans un tableau (pour plus de details sur les tableaux, voir la section 3 de ce chapitre, ainsi que le chapitre 2 du cours) ou dans un graphique, ou encore sur une carte. Supposons ici, que pour simplifier, on se contente du tableau suivant : Repartition des pays de l’UE a 27 entre membres et non-membres de la zone Euro au premier janvier 2008 Ce tableau a donc necessite quelques calculs statistiques simples : Reperage des pays membres et non-membres Comptage des pays appartenant a chaque categorie Calcul des pourcentages Des calculs plus complexes (mais aussi plus interessants) peuvent etre faits. Par exemple, plutot que de calculer combien les pays membres et on-membres representent en pourcentage des 27 de l’UE, on peut, sans doute de facon plus pertinente, se demander combien chaque groupe represente en pourcentage du Produit Interieur Brut total de l’UE27. Pour obtenir un tel tableau (voir tableau ciapres), il faudra : 1) additionner les PIB des 15 pays membres de la zone euro au 1er janvier 2008 2) Additionner les PIB des 12 pays non membres de la zone euro au 1er janvier 2008. 3) calculer les pourcentages respectifs. On obtient alors le tableau ci-apres : Plutot que de representer le resultat sous forme d’un tableau on peut choisir une representation visuelle, par exemple une representation en secteurs, dite aussi parfois en « camembert » : – Terminologie A – Population et unites statistiques En statistique, la population designe un ensemble d’unites statistiques. Les unites statistiques sont les entites abstraites qui representent des personnes, des populations d’animaux ou des objets. Les premieres populations ayant fait l’objet d’un recensement ayant ete des populations humaines (d’ou le lien etroit entre statistique et demographie) on emploie frequemment le terme « individus » comme synonyme de « unites statistiques ». La statistique sert a decrire l’ensemble des unites statistiques qui composent la population. On commence par compter ces unites. La premiere information statistique que l’on tire d’une population est en effet le nombre de ses unites. Exemple 1 : La opulation de la France, de ses regions, de ses departements, de ces communes de moins de 10 000 habitants et des communes de plus de 10 000 habitants (« grandes villes ») est estimee annuellement par l’INSEE. Les resultats sont disponibles sur son site internet1. On sait ainsi que les populations des 3 plus grandes villes de France sont, selon la derniere estimation publiee en janvier 2007 (qui porte sur l’annee 2005) : Source : http://www. insee. fr/fr/recensement/nouv_recens/resultats/grandes-villes. htm#L Exemple 2 : Le tableau 1 statistiques. 1 contient une population de 35 pays, donc 35 unites Voir le lien suivant : http://www. insee. fr/fr/recensement/nouv_recens/resultats/premiers-resultatsrecensement. htm 10

B – Echantillons et sous-ensembles d’une population Il est frequent que l’on preleve un echantillon dans une population statistique et/ou que l’on decoupe la population selon certains criteres (ou dimensions ou encore caracteristiques) Pour comprendre le lien entre population et l’echantillon, prenons l’exemple du recensement de la population francaise. Chaque annee, la population est reevaluee a partir des resultats d’une enquete qui porte sur le choix d’un echantillon. Ainsi, dans les 900 communes de 10 000 habitants ou plus, une partie de la population est recensee chaque annee par tirage au sort (8%). Il y a donc un sondage annuel qui aboutit a recenser 40% de la population de ces villes en 5 ans. Cette operation est en fait un sondage a grande echelle.

Concretement, une ville de plus de 10 000 habitants est divisee en cinq groupes d’adresses reparties sur tout le territoire de la commune. Chaque annee, l’INSEE preleve un echantillon de 8% d’adresses dans un des cinq groupes et on le recense. La determination des echantillons de personnes interrogees est effectuee en utilisant les fichiers de taxe d’habitation et les registres d’assurance-maladie, ce qui permet l’extrapolation avec une grande fiabilite des donnees des sondages. Ainsi, tous les habitants d’une meme rue ne seront pas recenses la meme annee2. Pour notre propos, la relation de la population a l’echantillon est facile a decrire a partir d’un diagramme d’EULER suivant. Le lien entre l’echantillon et la population 2

Pour plus de details, voir le document de l’INSEE, Le plan de sondage dans les communes de 10 000 habitants ou plus, INSEE Methodes, Pour comprendre le recensement de la population, numero hors serie. 11 En general, on parle d’echantillon d’une population statistique quand les unites statistiques sont tirees au sort ou alors choisies par une methode qui permet d’assurer la representativite de l’echantillon par rapport a la population totale. Cependant, ces definitions ne concernent plus directement la statistique descriptive mais plutot la statistique mathematique. Ce qui nous interesse ici, c’est la possibilite de « decouper » une population en souspopulations en utilisant certains criteres. Prenons pour exemple la population des 35 pays du tableau 1. Ces 35 pays sont les unites statistiques du tableau.

Nous souhaitons par exemple « decouper » cette population entre trois sous ensembles, suivant les criteres de la monnaie utilisee et l’appartenance a l’UE 27. On aura donc : 15 pays membres de l’UE 27 qui font partie de la zone Euro. 12 pays membres de l’UE a 27 qui ne font pas (encore) partie de la zone Euro 8 pays partenaires de l’UE 27 et qui utilisent d’autres monnaies. Pour concretiser ce decoupage en 3 sous populations, on peut par exemple construire un rectangle contenant 35 petits carres, chaque carre representant un pays. Puis « decouper » les trois zones comme dans le graphique ci-dessous. Decoupage d’une population statistique (les 35 pays du tableau) en trois souspopulations, suivant deux criteres (appartenance a l’UE27 et monnaie officielle). 12

C – Criteres de classification Nous avons vu dans l’exemple precedent que les unites statistiques d’une population pouvaient etre regroupees suivant des criteres ou dimensions. Ces criteres sont choisis en fonction de ce qui nous interesse. On parle de critere, mais aussi parfois de dimension. On distingue deux sortes de criteres : • Les criteres quantitatifs • Les criteres qualitatifs 1) Criteres quantitatifs Les criteres quantitatifs sont les criteres qui sont representes par des chiffres. C’est la raison pour laquelle on les appelle aussi parfois des variables. Les variables prennent des valeurs. Par exemple, dans le tableau 1 , on peut voir que la superficie est un critere de classification quantitatif. C’est une variable qui dont les differentes occurrences sont appelees valeurs.

Chacune des 35 unites statistiques de notre population est ainsi caracterisee par une valeur. La superficie est donc ici une variable qui prend 35 valeurs differentes. C’est un cas particulier dans lequel le nombre de valeurs de la variable est egal au nombre des unites statistiques de la population. Nous verrons que dans des cas de ce type, ou bien lorsque le nombre de valeurs possibles, bien qu’inferieur au nombre d’unites statistiques, est grand, un regroupement par classes de valeurs peut etre utile. Les criteres quantitatifs ou « variables » permettent de faire des calculs. On peut par exemple additionner les superficies, calculer des moyennes, etc. 13 Dans le tableau 1, la plupart des criteres sont quantitatifs.

On peut donc effectuer des calculs sur les valeurs. Il n’y a guere que la monnaie et le nom des pays qui ne sont pas des criteres quantitatifs. Ce sont des criteres qualitatifs. 2) Criteres qualitatifs Les criteres qualitatifs sont tous les criteres qui ne sont pas representes de facon numerique. On les appelle des « caracteres ». Les caracteres prennent des modalites. Par exemple, dans le tableau 1, on peut voir que la monnaie utilisee dans chaque pays est un critere qualitatif qui possede 21 modalites. Ces modalites sont les differentes monnaies. Il y a en effet 15 pays qui ont la modalite « euro » et les 20 autres qui ont chacun pour modalite une monnaie differente.

On voit donc dans cette exemple que le nombre de modalites (21) est inferieur a celui de la population (35). 14 3 – Modes de regroupement des donnees A – Serie simple Le tableau 1 est un tableau dans lequel les donnees n’ont pas ete regroupees. C’est un tableau de donnees brutes. Nous pouvons lire pour chaque ligne les differentes valeurs ou modalites des variables ou des caracteres associes a chacune des 35 unites statistiques de la population. Chaque colonne correspond a une serie simple de valeurs ou de modalites. Par exemple, dans le cas de la variable « superficie », il y a 35 valeurs differentes. Dans le cas du caractere « monnaie », il y a 21 modalites.

Dans le cas de la variable « nombre de frontieres terrestres avec d’autres pays de l’UE a 27 », les 35 pays se repartissent seulement sur 8 valeurs. Mais on comprend facilement qu’une presentation exhaustive, dans laquelle aucun regroupement n’est effectue, n’est pas toujours pratique, meme si l’on dispose d’un ordinateur, comme c’est le cas aujourd’hui, pour effectuer les calculs. En realite, le plus souvent, les donnees sont collectees et entrees dans l’ordinateur sous forme d’un tableau brut de ce type (ou sous une autre forme), mais ensuite, elles sont regroupees. B – Distribution par valeurs ou par modalites Suivant que le critere est une variable ou un caractere, on peut effectuer un regroupement par valeurs ou un regroupement par modalites. Dans ce cas, on parle de distribution.

En effet, la serie initiale des 35 donnees va etre distribuee sur un nombre generalement inferieur (ou au maximum egal), de valeurs ou de modalites. 1) Distribution par valeurs Prenons l’exemple de la variable « nombre de frontieres terrestres avec d’autres pays de l’UE a 27 » dans le tableau 1. Un regroupement des 35 unites statistiques pour chacune des valeurs possibles de la variable donnera alors le tableau suivant : Distribution des pays des pays du tableau 1 selon leur nombre de frontieres terrestres avec les pays de l’UE a 27 15 2) Distribution par modalites Dans le tableau 1, nous allons choisir le seul critere qualitatif disponible pour effectuer un regroupement par modalites : la monnaie officielle utilisee dans chaque pays.

On sait evidemment le resultat d’avance : En 2008, 15 pays sont dans la zone euro et les 20 autres utilisent toujours leur monnaie nationale. Dans ces conditions, un regroupement par modalites, quoique peu utile, donnerait le resultat suivant : C – Regroupement par categories Lorsqu’il y a trop de valeurs ou trop de modalites, on peut proceder regroupement par categories de valeurs ou de modalites. 1) Categories de valeurs Prenons l’exemple de la variable « superficie » dans le tableau 1. Un regroupement des 35 unites statistiques pour chacune des valeurs possibles de la variable donnerait un tableau avec 35 valeurs, ce qui n’aurait aucun interet. En revanche, on peut creer des classes de valeurs pour les superficies et repartir les 35 pays a l’interieur de ces classes.

Comment proceder sachant que le plus petit (Malte) n’a qu’une superficie de 316 km2 et le plus grand pays (La Russie) a une superficie de 17 075 200 km2 ? Si l’on regarde les superficies des differents pays, on voit qu’un tres grand nombre de pays ont des superficies inferieures a 600 000 km2. Pour le faire apparaitre, classons les pays par ordre croissant de superficies (voir le tableau ci-apres) a un 16 Regroupement des pays par categories de superficies Decoupage du monde en zones selon les categories de l’OMC Source : OMC, http://www. wto. org/english/res_e/statis_e/its2007_e/its07_world_maps_e. pdf 2) Categories de modalites Prenons l’exemple du caractere « pays » dans le tableau 1.

Un regroupement des 35 unites statistiques pour chacune des modalites possibles du caractere donnerait un tableau avec 35 modalites, ce qui n’aurait aucun interet. En revanche, on peut creer des classes de modalites pour les pays. On peut par exemple repartir les 35 pays selon categories proposee par l’Organisation Mondiale du Commerce (voir carte precedente). Si l’on regroupe nos 35 pays selon ces 6 categories on obtient le tableau suivant : Regroupement des pays selon des categories geographiques A noter qu’il s’agit bien d’un regroupement par categories de modalites car chaque pays est en lui-meme une modalite. Chapitre 2 Les tableaux statistiques – Series brutes ou vecteurs A – series classees et non classees B – Series identifiees et non identifiees 2 – Tableaux unidimensionnels A – Tableaux avec chiffres bruts B – Tableaux avec pourcentages C – Tableaux avec cumuls 1) Cumuls des donnees brutes 2) Cumuls des pourcentages 3 – Tableaux avec statistiques resumees 4 – Tableaux croises A – Definition et exemple 1) Definition 2) Exemple a) Effectifs b) Pourcentages B – Distributions marginales 1) Definition 2) Exemple a) Effectifs b) Pourcentages C – Distributions conditionnelles 1) Colonnes a) Effectifs b) Pourcentages 2) Lignes a) Effectifs b) Pourcentages 1 – Series brutes ou vecteurs Avant meme d’etre presentees sous forme de tableau, les donnees sont parfois presentees sous formes de series brutes. Prenons l’exemple de la variable « nombre de frontieres terrestres avec d’autres pays de l’UE a 27 » dans le tableau 1.

On peut la representer sous la forme d’un vecteur de donnees, egalement appele serie. Serie « nombre de frontieres terrestres avec d’autres pays de l’UE a 27 » : S1 = {8, 4, 5, 3, 3, 2,1, 1, 1, 1, 2, 1 ,6, 1, 1, 0, 1, 4, 2, 2, 0, 4, 4, 4, 3, 2, 2, 4, 0, 0, 0, 0, 5, 0,0} 20 A – series classees et non classees S1 est une serie non classee. Considerons maintenant la serie S2, qui elle, est une serie classee par ordre croissant S2 : {0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4, 4, 5, 5, 6, 8} B – Series identifiees et non identifiees En revanche, ni S1, ni S2 ne sont des series identifiees. Pour qu’elles soient identifiees, il faudrait creer des couples de valeurs.

Ainsi, la serie S3 ci-dessous est une serie identifiee, non classee : S3 = {{Allemagne, 8}, {Belgique, 4}, {France, 5}, {Italie, 3}, {Luxembourg, 3}, {PaysBas, 2}, {Danemark, 1}, {Irlande, 1}, {Royaume-Uni, 1}, {Grece, 1}, {Espagne, 2}, {Portugal, 1}, {Autriche, 6}, {Finlande, 1}, {Suede, 1}, {Chypre, 0}, {Estonie, 1}, {Hongrie, 4}, {Lettonie, 2}, {Lituanie, 2}, {Malte, 0}, {Pologne, 4}, {Republique tcheque, 4}, {Slovaquie, 4}, {Slovenie, 3}, {Bulgarie, 2}, {Roumanie, 2}, {Suisse, 4}, {Etats-Unis, 0}, {Chine, 0}, {Inde, 0}, {Japon, 0}, {Russie, 5}, {Taiwan, 0}, {Hong Kong, 0}} Enfin, la serie S4 ci-dessous est une serie identifiee et classee par ordre croissant du nombre de frontieres terrestres avec d’autres pays de l’UE a 27 : S4 = {{Chypre, 0}, {Malte,0}, {Etats-Unis,0}, {Chine,0},{Inde,0}, {Japon,0}, {Taiwan,0}, {Hong Kong, 0}, {Danemark,1}, {Irlande,1}, {Royaume-Uni,1}, {Grece,1}, {Portugal, 1}, {Finlande,1}, {Suede,1}, {Estonie,1}, {Pays-Bas, 2}, {Espagne, 2}, {Lettonie, 2}, {Lituanie, 2}, {Bulgarie, 2}, {Roumanie,2}, {Italie ,3}, {Luxembourg, 3}, {Slovenie, 3}, {Belgique,4}, {Hongrie, 4}, {Pologne,4}, {Republique tcheque,4}, {Slovaquie, 4}, {Suisse,4}, {France, 5 }, {Russie, 5}, {Autriche,6}, {Allemagne, 8}} 2 – Tableaux unidimensionnels La presentation sous forme de serie est utile pour certains calculs, mais on utilise bien plus frequemment les tableaux pour presenter les caracteristiques des unites d’une population statistique. Le tableau est un outil statistique rebarbatif. La meilleure preuve est que l’on voit beaucoup moins de tableaux dans les medias que l’on ne voit de graphiques. Neanmoins, pour des etudes precises, les tableaux sont souvent necessaires et meme plus utiles que les graphiques.

Une remarque simple s’impose en effet ici : si l’on dispose d’un tableau, on peut faire un graphique. Inversement, si l’on dispose seulement d’un graphique, on ne peut pas revenir au tableau initial (ou tres rarement). Le tableau est donc une sorte de prealable au graphique. 21 En outre : • • il est souvent possible de produire plusieurs graphiques a partir d’un meme tableau. Il est aussi souvent possible de calculer plusieurs statistiques resumees a partir d’un tableau. Ainsi, si le tableau est rebarbatif, il est cependant tres utile. A – Tableaux avec chiffres bruts Le tableau 1 est un tableau de chiffres bruts qui contient plusieurs series de chiffres caracterisant une population de 35 unites statistiques.

Le tableau ci-apres, quant a lui, est egalement un tableau qui presente des chiffres bruts extraits du tableau 1 et regroupes par classes : Distribution des 35 pays par classes de superficie Chiffres bruts B – Tableaux avec pourcentages Souvent, on ajoute une colonne dans laquelle les donnees sont presentees en pourcentages comme ci-dessous : Distribution des 35 pays par classes de superficie Pourcentages 22 C – Tableaux avec cumuls On peut aussi ajouter des colonnes avec les cumuls. Une colonne ou les chiffres bruts sont cumules et une autre ou ce sont les pourcentages qui sont cumules. 1) Cumuls des donnees brutes Distribution des 35 pays par classes de superficie Chiffres bruts et cumuls 2) Cumuls des pourcentages Distribution des 35 pays par classes de superficie Chiffres bruts et cumules, pourcentages et pourcentages cumules – Tableaux avec statistiques resumees Parfois, on prefere resumer une serie de chiffres par son total, par sa moyenne, par ses valeurs extremes, ou par differentes autres statistiques que nous etudierons dans le chapitre 3. Le tableau ci-apres indique les moyennes simples (voir le chapitre 5 pour une definition plus precise de la moyenne simple) de certaines des variables du tableau 1, ainsi que les valeurs minimales et maximales pour les series correspondantes. 23 Tableau de statistiques resumees pour certaines des variables du tableau 1 Note : Certaines moyennes ne sont pas reportees (superficie, population) car la dispersion est trop grande pour que la moyenne ait un sens. 4 -Tableaux croises A – Definition et exemple 1) Definition Les tableaux croises sont appeles ainsi car ils « croisent » deux istributions au sein d’un meme tableau. Les possibilites de croisement sont multiples. En fait, comme l’illustre le tableau synoptique ci-apres, il y a 16 possibilites. Differentes possibilites de croisement de 2 distributions 2) Exemple a) Effectifs Le tableau croise ci-apres illustre le cas numero 6. Les variables « Age median » et « Indice de fecondite » du tableau 1 ont en effet ete regroupees par categories de valeurs puis croisees dans le tableau. On a choisi de mettre les categories d’ages medians en lignes et les categories d’indices de fecondite en colonne, mais l’inverse aurait egalement ete possible sans que cela ne change la signification du tableau. 24

Avant de construire le tableau croise, on regarde les valeurs minimales et maximales des deux series. On voit alors que l’age median varie de 24,8 ans (Inde) a 43,5 ans (Japon) et que l’indice de fecondite varie de 0,98 enfants par femme (Hong Kong) a 2,81 enfants par femme (Inde). Il reste alors a former les categories. Il s’agit d’un choix arbitraire. Pour simplifier, nous allons former les categories suivantes : Age median (3 categories) : [20-30 ans [ ; [30-40 ans [ ;[40-50] Indice de fecondite (3 categories) : [0-1,4 enfants/femme [; [1,4-2 enfants/femme [ ; [2-3 enfants/femme]. Ensuite on choisit une des 2 series, par exemple la serie des indices de fecondite en on la classe par ordre croissant.

On forme les 3 groupes de fecondite, en utilisant par exemple des couleurs differentes pour chaque groupe. Ensuite, il suffit de compter pour chaque groupe, combien de pays ont un age median compris dans les trois categories d’age median que nous avons defini : [20-30 ans [ ; [30-40 ans [ ; [40-50] 25 On obtient alors le tableau suivant : Tableau croise « indice de fecondite/age median » – Effectifs Notons bien que ce tableau croise contient l’effectif des 35 pays. Autrement dit, si on fait la somme des 9 chiffres contenus dans le tableau, on trouve l’effectif total de la population, soit 35. b) Pourcentages Ce tableau peut etre mis sous forme de pourcentages en divisant chacun des 9 chiffres par 35 et en multipliant par 100.

On obtient alors une distribution croisee des 35 pays en fonction de l’age median et de l’indice de fecondite, mais contrairement au cas precedent, cette distribution croisee est exprimee en en pourcentages Tableau croise « indice de fecondite/age median » – Pourcentages On peut facilement verifier qu’il s’agit d’un tableau en pourcentages en additionnant les 9 chiffres pour obtenir 100 (en tenant compte des arrondis). B – Distributions marginales 1) Definition Lorsqu’on ajoute au tableau croise une colonne pour la somme des valeurs en ligne et une ligne pour la somme des valeurs en colonnes, on appelle cette colonne et cette ligne les distributions marginales. 26 2) Exemple a) Effectifs Reprenons le tableau croise « indice de fecondite/age median », mais ajoutons une ligne et une colonne. •

Chaque chiffre de la derniere ligne ajoutee (en caractere gras) represente le total des effectifs de la colonne correspondante. C’est la distribution marginale en lignes ou distribution de la population des 35 pays sur 3 categories d’age median. En effet 1+20+14 = 35. Chaque chiffre de la derniere colonne ajoutee represente le total des effectifs de la ligne correspondante. C’est la distribution marginale en colonnes ou distribution de la population des 35 pays sur 3 categories d’indices de fecondite. En effet 17 +16 +2 = 35. Les deux distributions marginales des effectifs • 27 b) Pourcentages La derniere ligne et la derniere colonne du tableau precedent peuvent s’exprimer en pourcentage de la facon suivante :

C – Distributions conditionnelles 1) Colonnes a) Effectifs Reprenons le tableau croise « indice de fecondite/age median », mais concentronsnous sur les differentes colonnes. Considerons par exemple la colonne des ages medians compris dans l’intervalle [30-40[ : Exemple de distribution conditionnelle en colonne (effectifs) 28 La distribution par categories d’age de fecondite des 20 pays dont l’age median est dans l’intervalle [30-40 ans [est appelee distribution conditionnelle en colonne. L’expression conditionnelle provient du fait que les 20 pays concernes sont une sous-population de la population totale et que cette sous-population correspond a tous les pays qui repondent a la condition « etre dans l’intervalle [30-40[des ages medians ».

On voit qu’il y a 3 distributions conditionnelles possibles puisqu’il y a 3 categories d’ages medians. b) Pourcentages L’effectif de la distribution conditionnelle precedente est de 20. Il est distribue selon les 3 categories d’indices de fecondite. Si l’on fait abstraction du reste du tableau, on peut diviser chacun des chiffres de cette colonne par 20 et le multiplier par 100 de facon a exprimer la distribution conditionnelle en pourcentages. On aura alors : Si maintenant on effectue la meme operation pour les trois colonnes on obtient le tableau des tableaux des distributions conditionnelles en colonnes en pourcentages. Les 3 distributions conditionnelles en colonnes (pourcentages)

Dans chaque colonne, l’effectif initial a ete divise par le chiffre correspondant de la sous population de pays associes a la categorie d’age median correspondante. 2) Lignes a) Effectifs De la meme facon qu’il y a des distributions conditionnelles en colonnes, il y a aussi des distributions conditionnelles en ligne. Cette fois, on isole 3 sous populations qui correspondent aux categories d’indices. A titre d’exemple, dans le tableau ci-apres, la categorie d’indice de fecondite [1,4 – 2 enfants/femme [a ete isolee, ce qui correspond a une sous population de pays egale a 16. La distribution de ces pays par categories d’ages de fecondite est ensuite donnee par la ligne encadree. 29

Naturellement, puisqu’il y a 3 categories d’indice de fecondite, il y a 3 sous populations et trois distributions conditionnelles. Exemple de distribution conditionnelle en ligne (effectifs) b) Pourcentages Suivant le meme principe que pour les distributions conditionnelles en colonne, on peut transformer les distributions d’effectifs en distribution de pourcentages en divisant les chiffres de chaque ligne par le total de la ligne. On obtient alors le tableau suivant des distributions conditionnelles en colonnes en pourcentages. Les 3 distributions conditionnelles en ligne (pourcentages) 30 Chapitre 3 : Statistiques permettant de resumer une serie – Tendance centrale et dispersion des valeurs d’une variable 2 – Les statistiques de tendance centrale A – Le mode 1) Definition 2) Remarques a propos du mode a) Une serie peut avoir plusieurs modes b) Le mode n’existe pas forcement c) Le mode n’est pas forcement la valeur la plus elevee d) Variables et caracteres peuvent avoir un mode e) Mettre la serie sous forme de distribution pour reperer le mode B – La moyenne arithmetique 1) La moyenne arithmetique simple 2) La moyenne arithmetique ponderee 3) Calcul de la moyenne sur des donnees categorielles C – La mediane 1) Origine du mot, sens geometrique 2) Sens du mot en statistique descriptive 3) Methode de calcul a) n est pair b) n est impair 3 – Les statistiques de dispersion A – Minimum, maximum, intervalle de variation et rapport de variation 1) Minimum et maximum d’une serie 2) Intervalle de variation ou tendue 3) Rapport de variation B – Intervalle interquartile C – Variance, ecart-type et coefficient de variation 1) La variance a) Definition b) Exemple c) Utilite de la variance 2) L’ecart-type a) Definition b) Methode de calcul c) Utilite de l’ecart-type 3) Le coefficient de variation Annexe : Methode alternative pour le calcul des quartiles 31 1 – Tendance centrale et dispersion des valeurs d’une variable Nous avons deja vu dans le chapitre precedent, un exemple de tableau contenant des statistiques resumees, tableau qui est reproduit ci-dessous pour memoire: Tableau de statistiques resumees pour certaines des variables du tableau 1 Ce tableau ne contient que trois statistiques resumant les differentes series du tableau 1 : Il s’agit de la moyenne simple, ainsi que des valeurs minimales et maximales de chaque serie.

Nous allons maintenant etudier systematiquement les principales autres statistiques permettant de resumer une serie. A chaque fois, on insistera sur la methode de calcul (plutot que sur la formule) et on s’appuiera sur des exemples extraits du tableau 1. Il est habituel de distinguer deux types de statistiques resumees, quitte ensuite a les reunir dans des statistiques resumees plus elaborees : • Les statistiques qui resument la tendance « centrale » d’une serie ou d’une distribution : o mode, o moyenne o mediane. • Les statistiques qui resument la dispersion d’une serie : o intervalle de variation (aussi appelee « etendue ») o intervalle interquartile.

Certaines de ces statistiques, tout en resumant la dispersion de la serie, tiennent aussi compte de sa valeur centrale. C’est le cas de : o l’ecart-type, o de la variance o du coefficient de variation3. Une derniere remarque : bien qu’il soit possible d’effectuer des calculs de statistiques resumees sur les donnees groupees en categories, c’est deconseille de 3 Il existe aussi des statistiques qui resument la « forme » d’une distribution, mais celles-ci ne sont plus guere utilisees aujourd’hui dans la mesure ou il est plus facile d’observer directement le graphique d’une distribution pour en apprecier la forme. 32 le faire quand on dispose des donnees brutes ou regroupees par valeurs ou modalites. C’est une question de bon sens.

Si l’on effectue les calculs sur des donnees regroupees par categories, on obtient des resultats approximatifs et meme carrement faux quand on les compare aux calculs effectues sur les donnees brutes (sans parler des formules abstruses et abscondes qu’il faut employer pour effectuer les calculs de moyennes, medianes, quartiles ou variance sur des donnees categorielles). 2 – Les statistiques de tendance centrale A – Le mode 1) definition Le mode d’une serie est la valeur la plus frequente d’une serie. Exemple : Soit la serie {8,4,4,3,4,3,8,2,5} La valeur la plus frequente de cette serie est 4. Le mode est donc egal a 4. L’effectif associe a ce mode est 3. 2) Remarques a propos du mode a)

Une serie peut avoir plusieurs modes Soit la serie S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}, les « 2 » sont mis en gras et les « 3 » sont soulignes, car ce sont les valeurs qui reviennent le plus souvent : 5 fois chacune. Cette serie a 2 modes, elle est bimodale. Ses deux modes sont : 2 et 3. L’effectif associe a chacun de ces modes est : 5. Bien entendu, on peut avoir des series avec 3, 4, 5, etc. modes. Ce sont alors des series multimodales. b) Le mode n’existe pas forcement C’est le cas lorsque toutes les valeurs ont le meme effectif comme dans l’exemple suivant : {8,6,5,7,3,1}. Dans ce cas, on peut aussi dire que toutes les valeurs sont modales. ) Le mode n’est pas la valeur la plus elevee Il ne faut pas confondre le mode, qui est la valeur la plus frequente, avec la valeur la plus elevee de la serie. Dans la serie {8,6,5,7,3,1}, il n’y a pas de mode, mais la valeur la plus elevee est 8. Il peut arriver que le mode soit aussi la valeur la plus elevee, mais ce n’est alors qu’une coincidence. d) Variables et caracteres peuvent avoir un mode La notion de mode existe aussi bien dans le cas d’une serie qui se rapporte a une variable que dans le cas d’une serie qui se rapporte a un caractere. 33 e) Mettre la serie sous forme d’une distribution pour reperer le mode Pour detecter le mode, il est souvent plus facile de distribuer les elements de la serie par valeurs (ou par modalites). Soit la serie « nombre de rontieres terrestres avec d’autres pays de l’UE a 27 » extraite du tableau 1 : S1 = {8, 4, 5, 3, 3, 2,1, 1, 1, 1, 2, 1 ,6, 1, 1, 0, 1, 4, 2, 2, 0, 4, 4, 4, 3, 2, 2, 4, 0, 0, 0, 0, 5, 0,0} Nous savons que cette serie peut etre mise sous forme d’une distribution par valeurs de la facon suivante : Distribution des pays du tableau 1 selon leur nombre de frontieres terrestres avec les pays de l’UE a 27 Nous voyons alors plus facilement quels sont les deux modes de la serie. B – La moyenne arithmetique Le mot moyenne a pour origine le latin « medius», mot signifiant « qui est au milieu ». « Medius » est aussi l’origine du mot « mediane ». Pourtant, en statistique, les deux mots conduisent a des definitions differentes. Ceci nous laisse supposer que la notion de milieu n’est pas toujours facile a definir. ) La moyenne arithmetique simple La moyenne arithmetique d’une serie ou moyenne arithmetique simple se calcule par une formule qui est donnee par l’expression : (1) 34 Le « x » surmonte d’un trait designe classiquement la moyenne. On remarque que la somme va de 1 a n ou n designe le nombre d’unites statistiques de la population. Appliquons cette definition au calcul de la moyenne de la serie suivante = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}. On a donc : 2) La moyenne arithmetique ponderee La moyenne arithmetique d’une distribution ou moyenne arithmetique ponderee se calcule par une formule qui est donnee par l’expression : (2) La somme varie cette fois de 1 a k, avec k qui represente le nombre de valeurs de la serie.

Dans le cas ou aucune valeur n’est repetee k=n. Sinon k 5. Conclusion : puisque -1 ;0 et que 7;5, n’y a pas de valeurs atypiques15. Par consequent, puisque la valeur immediatement superieure a Q1 – 1,5 (Q3 – Q1) est 0 et que la valeur immediatement inferieure a Q3 + 1,5 (Q3 – Q1) est 5, les deux moustaches ont respectivement pour extremite gauche le minimum de la serie (soit 0) et pour extremite droite le maximum de la serie (soit 5). On a donc le graphique boite a moustaches ci-apres. La boite est delimitee par Q1 et Q3. A l’interieur de la boite un premier trait noir indique la mediane (et un second trait rouge [en pointille et facultatif] indique la moyenne).

Les valeurs minimale et maximale constituent ici les moustaches, car elles sont comprises dans l’intervalle defini par Q1 – 1,5 (Q3 – Q1) et Q3 + 1,5 (Q3 – Q1). Boite a moustaches de TUKEY pour la serie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5} Voir le fichier EXCEL 15 Selon Monique LE GUENN, « La valeur 1. 5 est selon TUKEY une valeur pragmatique (rule of thumb), qui a une raison probabiliste. Si une variable suit une distribution normale, alors la zone delimitee par la boite et les moustaches devrait contenir 99,3 % des observations. On ne devrait donc trouver que 0. 7% d’observations atypiques (outliers). Si le coefficient vaut 1, la probabilite serait de 0. 57, et elle vaudrait 0. 999 si le coefficient est egal a 2. Pour TUKEY la valeur 1. 5 est donc un compromis pour retenir comme atypiques assez d’observations mais pas trop d’observations ». http://www. sfds. asso. fr/groupes/statvotre/Boite-a-moustaches. pdf 126 E – Graphiques panaches Il existe une infinite de facons de panacher les differents graphiques. Voyons quelques exemples. 1) Secteur complete par une barre tronconnee Soient les donnees deja utilisees du chiffre d’affaires par ville et par vendeur d’une entreprise XXX en 2007. On souhaite : • • utiliser un secteur a 360° pour faire apparaitre la repartition du chiffre d’affaires entre les trois villes.

Decomposer le chiffre d’affaires realise sur Paris entre les quatre vendeurs et le faire apparaitre au moyen d’une barre verticale tronconnee a 100%. 127 Un autre exemple de graphique, symetrique, consiste a faire une barre tronconnee dont une des « troncons » est lui-meme decompose en en secteur. Voici un exemple realise avec PowerPoint 2007. Un autre exemple de graphique panache D’apres Kathy VILLELA, « Graphic elements that connect two objects” http://www. powerframeworks. com/makeyourpoint/? p=73 . Telecharger le graphique au format PowerPoint 2007. 2) Graphique de PARETO Le graphique de PARETO est un cas particulier du graphique a echelle verticale double. Avant de voir comment il se construit, il convient de rappeler la « loi de PARETO » dont il sert a verifier la validite.

Le graphique a en fait ete invente par Joseph Moser DURAN (1904 – ), fondateur de la demarche qualite. Le graphique de PARETO est en effet l’un des sept graphiques de base utilise dans les controles de qualite. S’il est appele graphique de PARETO et non graphique de DURAN (ou graphique de Kaoru ISHIKAWA (1915-1989), autre fondateur du management de la qualite), c’est en raison de la « loi de PARETO » que nous allons donc exposer pour commencer. a) De la loi de PARETO au graphique de PARETO Vilfredo PARETO, economiste et sociologue de la fin du 19eme siecle et du debut du 20eme siecle (1848-1923) a notamment etudie la repartition des revenus dans differents pays.

Une des principaux constats qui ressort de cette etude est une « loi », dite « Loi de PARETO »: dans presque tous les pays, 80% de la richesse sociale 128 etait possedee par 20% des individus. Par la suite, on s’apercut qu’un grand nombre de phenomenes etaient gouvernes par la loi du 80/20 : 20 % des clients representent 80 % du chiffre d’affaires 20% des pieces stockees dans une entreprise representent 80% de la valeur du stock 20% des fournisseurs representent 80% du volume d’achat total 20% du personnel effectue 80% du travail 20% des salaries d’une entreprise empoche 80% de la masse salariale 20% des automobilistes causent 80% des accidents 20% des vetements d’une garde-robe sont portes 80% du temps 20% des produits representent 0% du chiffre d’affaires 20% des ventes representent environ 80% de la marge beneficiaire 20% du personnel total est concerne par 80% des accidents du travail 20% des causes peuvent etre a l’origine de 80% des defauts 20% des clients sont a l’origine de 80% des reclamations 20% de la population paie 80% des impots 20% des delinquants generent 80% des delits 20% des joueurs de foot marquent 80% des buts 20% des problemes representent 80% des preoccupations 20% des pays emettent 80% des gaz a effet de serre, etc. 20% des acteurs jouent dans 80% des films. Source : http://www. ed-productions. com/leszed/index. php? 80-20-pareto Ces exemples illustrent la loi de PARETO. Quelques causes majeures, une fois isolees, permettent de resoudre la plus grande partie d’un probleme de qualite. Une fois ces causes majeures identifiees, on peut concentrer les efforts et les ressources a les eliminer. Le graphique de PARETO est une facon de visualiser la loi des 80/20.

Mais, comme on va le voir dans l’exemple etudie plus loin, cette loi n’est pas systematique, il arrive tres souvent aussi que 20% des causes expliquent beaucoup moins que 80% des resultats. b) Definition, construction, exemple et interpretation Un diagramme de PARETO est un graphique qui combine un graphique en barre et une courbe cumulative. Il sert principalement a l’etude des donnees qualitatives, mais rien n’empeche de l’utiliser pour des donnees quantitatives. Procedure pour construire le graphique : i) Si les donnees sont sous forme d’une serie, les regrouper par modalites (donnees) ou par valeurs (donnees quantitatives), de facon a obtenir une distribution par modalites ou par valeurs (eventuellement, une distribution par classes de modalites ou par classes de valeurs). i) Classer les valeurs ou les modalites par ordre decroissant des effectifs iii) Ajouter une colonne pour la distribution en pourcentages 129 iv) Ajouter ensuite une colonne de pourcentages cumules v) Faire un graphique pour representer simultanement : – La distribution des pourcentages par un graphique en barre, en mettant l’axe des y a gauche – Les pourcentages cumules par une courbe des pourcentages cumules, en mettant l’axe des y a droite Exemple : Supposons que l’on veuille etudier les raisons de la resiliation d’un abonnement en ligne. Le probleme ici est de comprendre pourquoi les abonnes resilient leur abonnement (afin de reduire le nombre de resiliation). On recherche donc les causes.

Pour ce faire, lorsque les clients resilient leur abonnement, on leur propose un questionnaire (volontairement simplifie dans cet exemple) ou il sont invite a cocher la case qui correspond a la raison de la resiliation de leur abonnement. Supposons que les 5 choix suivants leurs soient proposes (Remarque : nous sommes en presence de donnees qualitatives non hierarchisables, les choix sont donc des modalites nominales : le contenu du site ne correspondait pas a mes attentes (reponse codifiee par « A »), le contenu n’est pas bon (reponse codifiee par « B »), le contenu n’est pas renouvele assez souvent (reponse codifiee par « C »), difficultes techniques pour acceder au contenu (reponse codifiee par « D »), Autres (reponse codifiee par « E »).

On a obtenu les resultats suivants en etudiant 15 cas de resiliations : {E, B,D, E, D, E, A, B, B,C, D, A, B,B, E}. Evidemment, en realite, on etudierait un nombre de cas beaucoup plus grand, mais le principe de construction resterait identique. 130 Construction du graphique : i) Si les donnees sont sous forme d’une serie, les regrouper par modalites (donnees qualitatives) ou par valeurs (donnees quantitatives), de facon a obtenir une distribution : Modalites Le contenu ne correspond pas a mes attentes (A) Le contenu n’est pas bon (B) Le contenu n’est pas renouvele assez souvent (C) Difficultes techniques pour acceder au contenu (D) Autres (E) Total Nombre de reponses 2 5 1 3 4 15 i) Classer les valeurs ou les modalites par ordre decroissant des effectifs : Modalites Le contenu n’est pas bon Autres Difficultes techniques pour acceder au contenu Le contenu ne correspond pas a mes attentes Le contenu n’est pas renouvele assez souvent Total Nombre de reponses 5 4 3 2 1 15 iii) Ajouter une colonne pour la distribution en pourcentages Modalites Le contenu n’est pas bon Autres Difficultes techniques pour acceder au contenu Le contenu ne correspond pas a mes attentes Le contenu n’est pas renouvele assez souvent Total Nombre de reponses 5 4 3 2 1 15 Pourcentages 33,3 26,7 20,0 13,3 6,7 100,0 iv) Ajouter ensuite une colonne de pourcentages cumules

Modalites Le contenu n’est pas bon Autres Difficultes techniques pour acceder au contenu Le contenu ne correspond pas a mes attentes Le contenu n’est pas renouvele assez souvent Total Nombre de reponses 5 4 3 2 1 15 Pourcentages 33,3 26,7 20,0 13,3 6,7 100,0 Pourcentages cumules 33,3 60,0 80,0 93,3 100,0 131 v) Faire un graphique pour representer simultanement : – La distribution des pourcentages par un graphique en barre, en mettant l’axe des y a gauche – Les pourcentages cumules par une courbe des pourcentages cumules, en mettant l’axe des y a droite Fichier EXCEL c) Interpretation Dans notre exemple, on voit que la loi de PARETO n’est pas verifiee. En effet, la loi de PARETO veut que 20% des causes expliquent 80 % des resultats. Or ici, il y a 5 causes. Donc une cause represente a elle seule 20% des resultats.

Pour que la loi de PARETO soit verifiee, il faudrait qu’une seule cause (20% des causes) explique 80% des resultats (80% des resiliations). Or, ici, la premiere cause n’explique que 35% des resiliations et il faut 3 causes, soit 60% des causes, pour parvenir a expliquer 80% des resultats. On peut se reporter aux sites internet suivants qui donnent des exemples interessants : http://membres. lycos. fr/jflipes/pareto. htm (securite routiere) http://www. azaquar. com/outils/pareto. html (amelioration de la qualite dans une usine qui fabrique des conserves) 132 F – Histogramme L’histogramme peut parfois etre assimile a un graphique en barre verticales.

C’est le cas lorsque le graphique en barres verticales a pour echelle horizontale des categories numeriques d’amplitudes egales. Mais l’histogramme se distingue du graphique en barres verticales lorsque les categories numeriques de l’axe horizontal sont d’amplitudes inegales. Le diagramme de VENN ci-apres permet d’illustrer ce point et les exemples qui suivent de le preciser. Barres verticales et histogrammes : pas toujours la meme chose ! 133 S’agissant des histogrammes, il convient en outre de distinguer les histogrammes d’effectifs et les histogrammes de frequences. Nous allons donc etre amenes a etudier 4 types d’histogrammes comme indique dans le tableau ci-dessous. Les 4 types d’histogrammes

Nous allons construire chacun de ces 4 types d’histogrammes ci-apres en les identifiant par leur numero dans le tableau (de 1 a 4). 1) Amplitude de classes identiques Soir le tableau ci-dessous qui donne a population mondiale en 2007 par groupes d’ages quinquennaux (hommes et femmes confondus). La derniere colonne, intitulees « frequences » est simplement calculee en divisant l’effectif de chaque classe d’age par la population mondiale totale. Par exemple, pour obtenir le premier chiffre de la colonne des frequences, on a effectue le calcul suivant : Soit, en arrondissant : 0,094. On remarque que toutes les classes d’ages sont identiques (5 ans)16. Les classes ont la meme amplitude. A chaque classe d’age est associe un effectif (colonne des 16

La derniere classe va en fait de 80 a plus de 110 ans, mais pour simplifier, nos la supposons egale a 5 ans, en nous basant sur le fait que le nombre des 85 ans et plus reste encore minime compare a l’ensemble de la population mondiale, meme s’il est appele a augmenter. 134 effectifs) ou une frequence (colonne des frequences). La somme des effectifs donne la population mondiale en 2007, tandis que la somme des frequences est egale a 1. Nous allons d’abord voir comment se presente l’histogramme des effectifs, puis ensuite l’histogramme des frequences. a) Histogramme des effectifs Sur l’histogramme des effectifs ci-apres, on peut voir que : • • L’axe horizontal a pour echelle des categories numeriques d’amplitude egales (5 ans) L’axe vertical correspond a l’effectif de population associe a la classe d’age correspondante. 135

Exemple d’histogramme d’effectifs quand les categories numeriques sont d’amplitudes egales Correspond a l’histogramme numerote 1 dans le tableau « Les 4 types d’histogrammes » Exemple d’histogramme de frequences quand les categories numeriques sont d’amplitudes egales Correspond a l’histogramme numerote 2 dans le tableau « Les 4 types d’histogrammes » 137 b) Histogramme des frequences Sur l’histogramme des frequences ci-avant, on peut voir que : • • L’axe horizontal a pour echelle des categories numeriques d’amplitude egales (5 ans) L’axe vertical correspond a la frequence associee a la classe d’age correspondante. Les deux histogrammes (celui des effectifs et celui des frequences) ont la meme forme, mais different par l’echelle de l’axe vertical. ) Amplitude de classes differentes Pour bien comprendre ce qu’est un histogramme (d’effectifs ou de frequences) lorsque que les categories numeriques de l’axe horizontal sont d’amplitudes differentes, prenons l’exemple d’un echantillon de 110 menages dont le revenu mensuel en euros est donne par la serie classee ci-apres : Revenu = {1100, 1130, 1150, 1200, 1220, 1300, 1300, 1310, 1400, 1400, 1450, 1460, 1480, 1490, 1490, 1495,1495, 1500, 1600, 1630, 1640, 1700, 1900, 2000, 2020, 2050, 2070, 2090, 2400, 2500, 2540, 2560, 2600, 2710, 2730, 2750, 2800, 2810, 2850, 2850, 2850, 2870, 2890, 2900, 2920, 2960, 2980, 2990, 3000, 3000, 3030, 3050, 3070, 3080, 3090, 3090, 3090, 3095, 3250, 3280, 3300, 3350, 3400, 3400, 3400, 3400, 3420, 3450, 3570,3575, 3600, 3610, 3800, 4000, 4100, 4250, 4300, 4310, 4580, 4590, 4590, 5000, 6000, 7500, 9000, 9800}. 1350, 1500, 2100, 2810, 3000, 3100, 3500, 4380, 1400, 1550, 2200, 2820, 3000, 3200, 3550, 4500, 1400, 1600, 2220, 2840, 3000, 3210, 3560, 4560, Supposons que l’on souhaite repartir ces menages dans les categories de revenu suivantes : [0 – 1500[ ; [1500 – 3000[ ;[3000 – 5000[ ; [5000 – 10000[. On va alors obtenir le tableau d’effectifs suivant : Repartition des 110 menages par classe de revenu L’amplitude de chaque classe n’est pas la meme. Les 2 premieres classes ont une amplitude de 1500 euros, la troisieme a une amplitude de 2000 euros et la derniere classe a une amplitude de 5000 euros.

Par consequent, si l’on veut representer ces donnees sous forme d’un histogramme d’effectifs, nous ne pouvons pas proceder de la meme facon que lorsque les amplitudes de classes sont identiques. En effet, sur l’axe vertical, les « barres » n’auront plus la meme longueur. L’echelle de l’axe horizontal est le suivant : On voit que dans ces conditions, la hauteur des barres verticales ne peut plus etre proportionnelle aux effectifs, car cela aboutirait a donner une image fausse de l’importance des effectifs inclus dans chaque classe. a) Histogramme d’effectifs Pour tracer l’histogramme des effectifs, il faut donc modifier l’echelle de l’axe vertical en divisant les effectifs de chaque classe par l’amplitude de classe correspondante.

On ajoute pour cela deux colonnes au tableau precedent : Calcul des effectifs corriges (effectifs sur amplitudes) La colonne « amplitude de classe » donne l’ecart en euros entre les deux extremites de chaque classe. La colonne « effectifs corriges » se calcule en divisant chaque effectif par l’amplitude de classe qui lui correspond ; Ainsi, l’effectif corrige de la classe de revenu [0 – 1500[ s’obtient par l’operation suivante : C’est-a-dire 0,013 en ne conservant que les 3 premieres decimales. Les autres chiffres de la colonne s’obtiennent de la meme facon. Nous pouvons maintenant tracer l’histogramme des effectifs (voir graphique ciapres). Dans cet histogramme, ce n’est plus la hauteur de chaque barre qui indique l’effectif, mais sa surface.

C’est la raison pour laquelle l’effectif est reporte directement sur chaque barre, tandis que l’axe vertical mesure l’effectif corrige, ou plus precisement l’effectif divise par l’amplitude de classe. Sur cet histogramme, ce n’est plus la hauteur qui correspond a l’effectif, mais la surface. On peut voir 139 facilement que la barre qui correspond a 40 a une surface double de celle qui correspond a 20. Et, bien que cela ne soit pas evident visuellement, la barre qui correspond a 45 a une surface qui est 45/40=1,125 plus grande que celle qui correspond a 40 et une surface 45/5 = 9 fois plus grande que celle qui correspond a 5. Histogramme d’effectifs avec categories numeriques d’amplitudes differentes Correspond a l’histogramme numerote 3 dans le tableau « Les 4 types d’histogrammes » ) Histogramme de frequences Pour tracer l’histogramme des frequences, il faut donc modifier l’echelle de l’axe vertical en divisant les frequences de chaque classe par l’amplitude de classe correspondante. 140 On construit pour cela le tableau suivant : Calcul des frequences corrigees (frequences sur amplitudes) Dans ce tableau, la colonne des frequences correspond aux effectifs de chaque classe divises par l’effectif total et la colonne des « frequences corrigees » est egale au rapport de chaque frequence a l’amplitude de classe correspondante. On obtient un histogramme de frequence qui a exactement la meme forme que l’histogramme des effectifs, mais l’echelle verticale est graduee differemment (c’est l’echelle des amplitudes corrigees).

Et dans chaque barre figure maintenant la frequence qu’elle represente. Histogramme de frequences avec categories numeriques d’amplitudes differentes Correspond a l’histogramme numerote 4 dans le tableau « Les 4 types d’histogrammes » 141 G – Pyramide des ages La pyramide des ages est un outil de l’analyse demographique plus celebre encore que le diagramme de LEXIS (et surtout plus populaire ! ). Ce graphique a ete invente en 1870 par le General WALKER, alors directeur du Bureau of Census, organisme americain charge du recensement de la population et des etudes demographiques. C’est en fait un double histogramme qui indique la composition d’une population par classes d’ages et par sexe, a un moment donne.

Faire une pyramide, c’est faire graphique du nombre d’hommes et de femmes de differents ages. Pour cela on place dos a dos, deux histogrammes decrivant la structure par classe d’age d’une population masculine pour le premier et d’une population feminine pour le second. Le tableau ci-dessous repertorie la population mondiale par groupe d’ages quinquennaux et par age en 2007. Nous allons l’utiliser a titre d’exemple pour construire la pyramide des ages17. 17 Cet exemple est disponible sous forme video sur You Tube : http://fr. youtube. com/watch? v=ubAKKG2Bxsg L’histogramme A ci-dessous represente la repartition de la population masculine mondiale en 2007 suivant les donnees du tableau precedent.

Il s’agit d’un histogramme dont les amplitudes de classe sont identiques (5 ans) et qui peut donc etre assimile a un graphique en barres (voir le diagramme de VENN qui explique les differences et les similitudes entre barres verticales et histogramme). Histogramme A Nous pouvons ensuite faire effectuer une rotation a ce graphique de facon a obtenir l’histogramme B. Histogramme B 143 L’histogramme C ci-dessus represente la repartition de la population feminine mondiale en 2007. Histogramme C Nous pouvons ensuite faire effectuer une rotation a ce graphique de facon a obtenir l’histogramme D. Histogramme D 144 Et finalement, en mettant cote a cote les histogrammes B et D, nous obtenons la pyramide classique des ages de la population mondiale en 2007 : Il s’agit en fait d’un graphique qui represente TROIS dimension : l’age, le sexe et les effectifs associes a ces deux categories.

H – Graphique en cascade Le graphique en cascade (waterfall graphic) est une variante du graphique en barres. Il sert a faire apparaitre : – les contributions positives et negatives a une grandeur – les variations successives d’une grandeur. Exemple : Le tableau ci-dessous indique l’evolution du chiffre d’affaire d’une entreprise de 2001 a 2006. La troisieme colonne du tableau met en evidence les augmentations et la quatrieme les diminutions. On voit ainsi que le CA a augmente en 2002, 2003 et 2005, et qu’il a baisse en 2004 et 2006. Annees 2001 2002 2003 2004 2005 2006 CA (euros) 210000 280000 330000 300000 360000 320000 Plus 70000 50000 -30000 60000 -40000 Moins 145

Le graphique en cascade va permettre de faire apparaitre ces variations (en milliers d’euros sur le graphique): Voir le fichier Excel 2003 (il faut d’abord installer la macro : telechargeable ici) On voit ainsi immediatement la contribution de chaque annee et on peut visualiser : • • • l’importance de la contribution Si la contribution est positive ou negative. comment on est passe de 210 a 320 par variations successives. I – Graphique en trois dimensions Grace aux ordinateurs et aux logiciels il est devenu tres facile aujourd’hui de realiser de beaux graphiques en 3D. EXCEL 2007 offre diverses possibilites, tout comme d’autres logiciels, tels que Mathematica.

En revanche, a moins d’etre tres bon dessinateur, il est impossible de realiser ce type de graphique avec la regle, le rapporteur, le compas et les crayons de couleur (a l’inverse de tous les autres graphiques vu jusqu’a present). On peut distinguer 3 categories de graphique en 3D : • • • Les « faux » graphiques en 3D qui ne sont que des graphiques en 2D auxquels on ajoute une profondeur a des fins visuelles. Les graphiques en barres a 3 dimensions Les graphiques dits de surface 146 1) Graphiques en 2D avec ajout de profondeur Pour illustrer ce type de graphique, reprenons les donnees du chiffre d’affaires hypothetique qu’une entreprise a realise en 2007 249 327 045 euros) repartis par ses 4 vendeurs et dans les trois villes ou se trouvent ses clients.

Lorsque l’on ajoute de la « profondeur » ou de la « perspective » au graphique en barres verticales ou aux secteurs classiques, on obtient ce genre de resultats (voir graphiques ci-apres). Bien entendu, le nombre de dimensions n’a pas change par rapport a l’equivalent 2D de ces deux graphiques qui n’ont que l’inconvenient de paraitre « plats » par comparaison. Il semble que les graphiques 2D avec ajout de profondeur ou de perspective attirent davantage les regards. Il ne faut donc pas se gener pour les utiliser surtout etant donne la facilite avec laquelle on peut les realiser grace aux logiciels. 147 A gauche, graphiques en 2D avec ajout de « profondeur » ; a droite : leurs equivalents 2D ) Graphique en barres avec 3 dimensions « reelles » Par comparaison avec les graphiques en 2D avec ajout de profondeur, les graphiques en barres avec 3 dimensions ajoute reellement une dimension supplementaire. Cette fois, nous allons utiliser un seul graphique en barres verticales pour montrer a la fois la repartition du CA par villes et par vendeur en 2007. Chapitre 6 Tendances et correlations 1 – Introduction 2 – La determination de la tendance d’une serie chronologique A – Determination graphique B – Determination par la methode des points extremes C – Determination par la methode des moindres carres (MCO) 3 – L’etude de la correlation entre deux variables A – L’exemple d’une fonction de demande B – L’equation de regression lineaire C – Le coefficient de determination 4 – Le test du Khi-carre A – Introduction B – Exemple d’utilisation – Introduction Ce chapitre est consacre a l’utilisation d’un meme outil statistique, l‘ajustement lineaire, a deux cas de figure differents. L’ajustement lineaire, aussi appele « methode des Moindres Carres Ordinaires (MCO)». Il est applique successivement : • • A l’etude de la tendance d’une serie chronologique A la mise en evidence d’une correlation entre deux variables. La methode des moindres carres est egalement utilisee pour etudier l’existence d’une correlation entre deux variables. Ci-apres, deux graphiques : • l’un illustre le trace d’un trend ( « tendance ») lineaire a partir de l’etude d’une serie chronologique • l’autre illustrant le trace d’une droite lineaire pour apprecier l’existence d’une relation entre deux variables.

Dans les deux cas, ces droites ont ete obtenues a l’aide de la methode des moindres carres ordinaires : • pour les series chronologiques, on la qualifie de « trend lineaire », • pour l’etude de la relation statistique entre deux variables, on parle plus volontiers de droite de regression. Pour l’etude de la correlation entre deux dimensions non quantitatives, c’est le test du Khi-carre qui remplace l’ajustement lineaire. 150 Trend lineaire d’une serie chronologique Ajustement lineaire de la relation entre prix et quantite d’un bien 151 2 – La determination de la tendance d’une serie chronologique A – Determination graphique Soit le tableau suivant qui donne l’evolution du taux de chomage en France de 1993 a 2007.

Annees 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 Taux de chomage (%) – France 11,1 11,7 11,2 11,6 11,5 11,1 10,5 9,1 8,4 8,9 9,5 9,6 9,5 9 8,5 Source : FMI Pour etudier l’evolution de cette serie chronologique, le plus simple est de la representer a l’aide d’un graphique en ligne : Taux de chomage en France de 1993 a 2007 (selon donnees FMI) 152 On constate alors que la « tendance » du taux de chomage sur les 15 dernieres annees est a la baisse. Il s’agit la d’une simple constatation visuelle, suffisante dans bien des cas. On constate aussi qu’apres avoir baisse jusqu’en 2001, le taux de chomage a connu une legere remontee avec un pic en 2004 et a ensuite encore baisse pour atteindre 8,5 % en 2007.

Bien souvent, cette analyse grap