ZABOLOTNA MANDRYCHENKO Rapport

ZABOLOTNA MANDRYCHENKO Rapport

1. Description des données Le tableau reflet l’ensemble des produits de vin qui vont être présentés aux marché et foires russes à 2014 par un groupe. Le vin provient des domaines et régions viticoles différentes, ayant divers couleurs, types, cépages, taux d’alcool, certlfication de provenance et prix. Le but est d’analyse général d’ensemble de produits et la popularité selon la couleur, type, provenance, taux dialcool et gamme de prix.

La clé à déchiffrer tous les caractéristiques est citée au-dessous de tableau: les aractéristiques sont posé soit d’une extrémité jusqu’à autre (par exemple: de plus basse qualité – vin de France, jusqu’à plus haute Grand Cru) soit, pour les régions viticole, contre le sens horaire Sni* to View de leur position en Fr et vin du monde. pour chaque vin nou va. Couleur (blanc, rose, Type (tranquil, mous ore jusqu’à Alsace or 5 Niveau de sucre (Sec, Demi sec, Moelleux) Indication géographique (Vin de France, IGP, AOP, Grand Cru) Région viticole (Vallée de la Loire, Bordeaux, Pays d’Ocr Provence,

Vallée du Rhône/Jura, Bourgone/Beaujolais, Alsace, Etranger) Taux d’aclool (selon pourcentage d’alcool) Prix (moins de 3 eur, 3-9 eur, 10-15 eur) 2. Analyse des données Pour importer des données das un R on doit utiliser vins<-

Désolé, mais les essais complets ne sont disponibles que pour les utilisateurs enregistrés

Choisissez un plan d'adhésion
commande: vins<-read. table("fof. txt") commande Puis on peux fair un histogramme de chacune des variables quantitative hist(vins). Cette histogramme peux montrer de distribution de chaque variable. Pour calculer les caractéristiques des variables globalement et par la fonction boxplot Opour montrer la médiane, la distribution.

Cette graphique indique une relation entre variables, la première étantla variable à expliquer et la seconde la variable explicative: boxplot(data) pour étudier l’intensité de la liaison qui peut exister entre Taux d’alcool, Prix, Niveau qualité on calcule les corrélations entre variables: cor(data[-c(l Histogramme La fréquence des facteurs peut être calculée avec la table puis tracé comme une pie tableau avec une pie() ou un graphique ? barres avec barplot ba plot () pie() A scatter plot affiche la corrélation entre une paire de variables.

Scatter plot D scatter plots sont utilisées pour tracer les points de données sur trois axes dans le but de montrer la relation entre les trois variables. Chaque ligne de la table de données est représenté par un marqueur dont la position dépend de ses valeurs dans les colonnes définies sur le X, Y et Z axes: 3D scatter plots L’Analyse en composantes princi ales (ACP) est une méthode de la famille de l’analyse d t plus généralement de PAG » OF s lesquelles chaque observation appartient à la partition avec la moyenne la plus proche.

Les nuées dynamiques sont une énéralisation de ce principe, pour laquelle chaque partition est représentée par un noyau pouvant être plus complexe qu’une moyenne: K-means clustering With 3 clusters of sizes g, 17, 21 Cluster means: n. iTaux d. alcool Prix Niveau_qualit. Marque Couleur Type 1244444 7. 555556 1 . 777778 2 12. 58824 3. oooooo 1 *764706 12 42857 10. 476190 1 . 809524 46. 66667 6. 555556 1 . 666667 28. 23529 7. 764706 1 . 823529 67. 61905 6. 714286 1 . 523810 Taux_de_sucre Indication_g. ographique R. gion_viticole 1. 11 111 2 1. 176471 1 . 571429 Clustering vector: . 333333 1 . 882353 2. 095238 2. 777778 2. 588235 2. 619048 [111222222133313333333311133333312222 2223 [391322221133 Within cluster sum of squares by cluster: [1] 442. 6667 790. 1176 1706. oooo (between_SS / total_SS = 83. 8 %) Available components: [1] « cluster’ « centers » [6] « betweenss » « size » « totss » l’iter » *AGF 3 rif s « withinss » « ifaulti’ « tot. withinss » chaque point: idx – sample(1:dim(data)[1],20) > idx [1] 71834 194720 1443 926 5444030 236 821 37 41 n. iTaux_d. alcool Prix Niveau_qualit.

Marque Couleur Type 18 34 19 47 20 14 26 30 36 21 37 12 3 11 15 7 8 4 10 35 60 25 80 65 75 70 40 55 50 5 3 Indication_g. ographique R. gion_viticole PAGF Nom 43 41 Sauvignon Beaujolais 4 Viala Sweet Rosato 3 Beaujolais_Villages Haut-Medoc 3 Bourgogne_Chardonnay 2 Cabernet_Sauvignon 6 MINERVOIS BRUT SLEEVE Bordeaux reserve Merlot SANCERRE CORBIERES FIJT_chene sec Cruse blanc SLEEVE 3 Bourgogne-Pinot_Noir Cruse Rose FITOU = dist(dsample), method = « ave ») Call: hclust(d = dist(dsample), method – « ave ») Cluster method : average Distance . euclidean Number of objects: 20 plot(bc, hang=-l k=2) groups = s groups =