Projet r gression logistique

Projet r gression logistique

INTRODUCTION : Après cette introduction, nous examinons d’abord le modèle de régression binaire, puis le modèle polychotomique nominal. Nous passons ensuite en revue trois modèles pour la régression polychotomique ordinale. Nous clôturons par une discussion relative aux modèles polychromiques. Dans la pratique, il arrive fréquemment que l’appartenance aux classes soit décrite par des codes numériques. Ainsi, au lieu de noter les degrés d’attaque par A, B, C ou D, on peut les identifier par les codes O, 1, 2 au 3. Ce codage est purement arbitraire et les méthodes logis numériques en tant oms de modalités. l est d’ailleurs possib corresponde pas ? or 21 mais les valeurs ent comme des e ordinale codée, s classes ne bres utilisés comme codes. Une telle situation est cependant d conseiller car elle est de nature à perturber inutilement l’interprétation des résultats. Dans un but de simplification, les différents modèles sont présentés dans le cas de la régression sur un seul prédicteur, noté x. La généralisation au cas de plusieurs prédicteurs est immédiate : il suffit, dans les notations des modèles, de remplacer le coefficient de régresslon et la variable explicative par es vecteurs de coefficients et de variables.

Elle consiste à mettre en relation

Désolé, mais les essais complets ne sont disponibles que pour les utilisateurs enregistrés

Choisissez un plan d'adhésion
une variable à expliquer y avec une ou plusieurs variables explicatives XI, x2, XP, appelées prédicteurs. La méthode est cependant limitée aux situations où la variable à expliquer est une variable q Swlpe to vlew next page quantitative dont la distribution, pour une valeur fixée des prédicteurs, est normale. Elle ne devrait notamment pas être utilisée lorsque la variable y est une variable qualitative. Pour de telles situations, la méthode indiquée est la régression logistlque qui offre plusieurs variantes en fonction du nombre et de la ature des classes de la variable à expliquer.

Enfin, la troisième méthode, appelée régression polychotomique ordinale (polytomaus ordinal regression), concerne les situations où la variable y présente plus de deux modalités qui peuvent être ordonnées et dont on souhaite tenir compte de l’ordre. Un exemple typique est la description de l’intensité de l’attaque d’individus par un parasite, cette description étant réalisée par exemple sur la base d’une échelle à quatre niveaux notés A, B, C et D, le niveau A représentant l’absence d’attaque, le niveau B une attaque faible, le niveau C une attaque modérée et le iveau d’une attaque forte.

La deuxième méthode, appelée régression logistique polychotomique nominale (polytomous nominal logistic regression), permet de traiter les cas où la variable à expliquer possède plus de deux classes si celles-ci ne peuvent pas être ordonnées ou si on ne souhaite pas tenir compte de l’ordre dans le cas où elles seraient ordonnées. ne telle sltuation se présente par exemple si des individus sont caractérisés par l’appartenance à une espèce donnée, par une couleur ou par le choix d’une réponse à une question posée parmi trois propositions telles que ? oui « non « ne sait pas La première méthode, appelée régression logistique binaire (binary logistic regression), correspond au cas où la variable y comporte uniqu PAGF 91 logistique binaire (binary logistic regression), correspond au cas où la variable y comporte uniquement deux classes, les individus étant décrits par la présence ou l’absence d’un caractère donné. ar exemple, des individus (parcelles, plantes, animaux, etc. ) peuvent être attaqués ou non par un parasite, être fertiles ou non, être porteurs ou non dune tare, etc. La régression linéaire, simple ou multiple, est une méthode tatistique très couramment utilisée dans le traitement des données, en particulier dans une démarche de modélisation. L’objectif de cette publication est de présenter ces méthodes, de manière succincte, en insistant sur l’interprétation des modèles.

Nous illustrons les différents modèles par un exemple traité antérieurement par Gillet (2005 ; 2007) et relatif au dépérissement de chênes dans le Condroz et l’Ardenne belge. Les données utilisées concernent le niveau de dépérissement de 230 chênes et l’altitude des stations dans lesquelles ces chênes ont été obseNés. Le dépérissement a été évalué par ‘aspect du houppier sur une échelle à quatre niveaux. Le niveau 1 correspond à un dépérissement tres faible, le niveau 2 à un dépérissement faible, le niveau 3 à un dépérissement fort et le niveau 4 à un dépérissement très fort.

La variable ? expliquer y est donc une varlable qualitative ordinale à quatre classes et la variable explicative x est l’altitude. Des modifications dans ces variables sont cependant apportées afin de permettre l’illustration des différentes situations. Les modèles qui sont ajustés aux données servent uniquement d’exemples et ne représentent pas nécessairement des modèles adéquats pour la odélisation du dépérissement, celui 3 1 représentent pas nécessairement des modèles adéquats pour la modélisation du dépérissement, celui-ci étant lié à d’autres facteurs que la seule altitude.

On notera que la régression logistlque soulève bien d’autres problèmes que la définition du modèle : problèmes d’inférence statistique, de critères de qualité de l’ajustement et de choix de variables explicatives, notamment. Ces aspects ne sont pas abordés dans cette note. Des informations complémentaires ? ce sujet sont données dans les ouvrages consacrés, totalement ou partiellement, à la régression logistique. Parmi ceux-ci, nous citerons les livres d’Agresti (2002) et Hosmer et al. (2000).

Pour la régression binaire, des informations sont également données dans le document de Duyme et al. (2006). Pour les trois méthodes citées ci-dessus, le but est de modéliser une ou plusieurs probabilités liées à l’appartenance aux classes, en fonction d’un ou de plusieurs prédicteurs, qui peuvent eux-mêmes être des variables quantitatives ou des variables qualitatives, supposées parfaitement connues. 1 logistique De variables prédites. Elle est similaire à la régression linéaire mais elle convient aux modèles Données : Les variables dépendantes et indépendantes doivent être dichotomiques.

Les variables Exemple : Quelles sont les caractéristiques du mode de vie qui constituent des facteurs de Exemple, que les fumeurs sont plus susceptibles de développer des déficiences coronariennes Groupe théorique, résidu, résidu standard. Hypothèses : La régression logistique ne s’appuie pas sur des hypothèses de distribution au même Indépendantes peuvent être de niveaux d’intervalles ou des variables qualitatives. Dans ce dernier L’absence d’une caractéristique ou dun résultat en fonction de certaines valeurs ou d’un groupe L’analyse discriminante.

La régression logistique est utile lorsque vous souhaitez être capable de prévoir la présence ou La régression logistique s’applique à une plus large gamme de situations de recherche que Leur régime allmentaire, leur consommation dalcool et leur historique cardiaque, vous pouvez log-vraisemblance si un terme a été supprimé du modèle. pour chaque variable hors de l’équation Méthodes : Vous pouvez estimer des modèles à l’aide des entrées en bloc de variables ou de N’importe laquelle des méthodes par étapes suivantes : ascendante conditionnelle, ascendante

Ou l’absence de déficiences coronariennes sur Péchantillon de patients. Le modèle peut alors Peuvent servir à estimer des Odds ratios pour chacune des variables indépendantes d’un modèle. Pour recoder les variables qualitatives automatiquement). Prédites suivent une distribution multi variée gaussienne. De surcroit, comme avec les PAGF s 1 gaussienne. De surcroît, comme avec les autres Prévues, Khi-deux résiduel. Pour chaque variable de Féquation : coefficient (B), erreur Qualité d’ajustement de Hosmer-l_emeshow, Khi-deux. Khi-deux d’amélioration, tableau de Que les non-fumeurs.

Rapport de vraisemblance, ascendante Wald, descendante conditionnelle, descendante rapport de Risques coronariens ? Sur un échantillon de patients choisis en fonction de leur statut de fumeur, Saisie(s) ou supprimée(s), historique d’itération, -2 log- vraisemblance, qualité de l’ajustement, Sens que l’analyse discriminante. Cependant, votre solution peut être plus stable si vos variables Servir à dériver les prévisions des Odds ratios pour chaque facteur afin de vous indiquer, par (Directed Acyclic Graphics) peuvent être utiles pour (Distribution des variables, recodage, et/ou regroupement… Pour représenter chaque item de variables Antérieures du problème traité, En particulier sur les Appariées (voir paragraphe cas particuliers). Car elles peuvent être alors des facteurs de confusion ou ce choix est primordial. Il doit être basé sur les connaissances De vos données. Si les hypothèses de normalité multi variées et d’égalité des matrices de Des estimations et l’augmentation de l’erreur standard. La procédure est plus efficace lorsque Également utiliser la procédure log-linéaire.

Si votre variable dépendante est continue, utilisez-la Fondée sur des valeurs d’une variable continue (par exemple « QI ?levé » opposé à « QI faible »), Formes de régression, la multi colinéarité parmi les variables prédites peut entraîner une altération L’appartenance au groupe est une variable purement qualitative, si l’appartenance au eroup PAGF 1 si l’appartenance au groupe est Offertes par la variable continue elle-même. procédure d’analyse discriminante. Si toutes vos variables prédites sont qualitatives, vous pouvez Procédure de régression lineaire.

Vous pouvez utiliser la procédure Courbe ROC pour représenter Standard B, statistique de Wald, odds ratio estimé (exp(B)), intervalle de confiance pour exp(B), Procédures apparentées : Utilisez le diagramme de dispersion pour étudier la multi colinéarité Sous forme diagramme les probabilités enregistrées avec la procédure Régression logistique Statistiques : Pour chaque analyse : observations totales, observations sélectionnées, observations Valide. Pour chaque variable qualitative : codage du paramètre.

Pour chaque pas : variable(s) variance/covariance sont satisfaites, vous devez obtenir une solution plus rapide à l’aide de la Vous devez envisager d’utiliser la régression linéaire pour profiter de la richesse des informations Vraisemblance, descendante Wald. Certains cas les facteurs d’appariement des enquêtes cas témoins Choix des variables Xi Conduite pratique : Des variables d’intérêt clinique connu, des Dont le degré de significativité est inférieur à 0,20 en uni variable Du « réseau de causalité » qui se tisse autour d’une Épidémiologique » de la maladie étudiée.

Des méthodes graphiques Estimés. On parle dans ce cas de colinéarité entre variables. Et devenir alors significatives. On inclura aussi éventuellement Et Pitiphat Il faut en préalable à l’analyse multi variable Être influencées par d’autres variables dans un modèle multi ariable Facteurs de confusion ma ‘anal PAGF 7 1 par d’autres variables dans un modèle multi variable Facteurs de confusion manifestes dont l’analyse uni variable Facteurs de confusion possibles.

Le modèle logistique utilisé Inclura ensuite dans le modele initial de fanalyse multi variable Les coefficients du modèle ne peuvent alors parfois pas être Les variables qui sont liées de façon suffisamment forte à la Maladie. On pourrait aussi appeler ce réseau « modèle N’aurait pourtant pas abouti à un p inférieur à 0,20, ou dans odds-ratio calculés par cette analyse sont dits « bruts ». On On tolère d’inclure dans ce modèle initial des variables Peut être utile de créer plusieurs variables binaires fictives Polytomiques.

Enfin, dans certains cas, la liaison entre deux pour l’analyse doit être basé sur des hypothèses et les connaissances pour l’éviter, il est donc particulièrement important de bien Puis une analyse univariable par régression logistique. Les Que statistique. Réaliser une analyse descriptive précise et complète Sélectionner les variables initiales tant d’un point de vue clinique Théoriques de ces graphiques peuvent être trouvés dans Merchant Très forte (elles apportent toutes deux la même informatlon). Variable dépendante que l’on cherche à expliquer.

Variables qui devraient être entrées dans le modèle initial est visualiser ce réseau de causalité. Un exemple et des références. 91 d’interopérabilité du modèle. On définit par odds le rapport odds(x) = rt(x) 1 – TT(x) qui représente combien de fois on a plus de chance d’avoir Y 1 au lieu d’avoir Y = O lorsque X = x. On définit de même les Odds-ratio par le rapport Odds-ratio (xi, xi) = Odds (xi) Odds (xi) qui représente combien de fois on a plus de hance d’avoir Y = 1 au lieu d’avoir Y = 0 lorsque X = xi au lieu de X Remarque.

Bien que l’on ait défini les odds et odds-ratio pour une variable explicative X multidimensionnelle, on ne fait généralement varier qu’une seule dimension entre le s deux valeurs xi et xj, et on définit donc autant d’odds et odds-ratio qu’il y a de dimensions. Exemple On considère comme variable à prédire Y la présence ou l’absence d’un cancer des poumons, et comme variable explicative (qualitative) le fait d’être fumeur ou non fumeur. Les données sont fictives bien que pas si éloignées que cela de la réalité :

La probabilité d’avoir un cancer du poumon chez un fumeur est P(Y- 1 IX – fumeur) = 0. 01, d’où P (Y = = fumeur) = 0,99. on a alors odds(X fumeur) 1/99. On dit que l’on a une chance sur 99 d’avoir un cancer des poumons lorsque l’on est fumeur. – Chez les non fumeurs, la prévalence du cancer du poumon n’est que de p (Y = 1 IX = non fumeur) – 10—4. On a donc odds-ratio (fumeur, non-fume r) u = 1/99 119999 101, d’où 101 fois plus de chance d’avoir un cancer des poumons pour un fumeur que pour un non fumeur.

L’odds ratio est toujours supérieur ou égal à zéro. Si l’odds ratio est : proche de 1, la maladie est indépendante du groupe ; upérieur à 1, la maladie est plus fréquente dans le groupe A que dans le groupe B bien supérieur à 1 fréquente dans le groupe A que dans le groupe B , bien supérieur à 1, la maladie est beaucoup plus fréquente dans le groupe A que dans le groupe B ; inférieur à 1, la maladie est moins fréquente dans le groupe A que proche de zéro, la maladie est beaucoup moins fréquente dans le groupe A que dans le groupe 3.

Considérant l’exemple factice suivant : dans un échantillon de 100 individus de sexe masculin ayant bu au moins un verre de vin la semaine en cours, 90 en ont bu également la semaine récédente, tandis que dans un échantillon de 100 individus de sexe féminin dans le même cas, 20 en ont bu également la semaine précédente. L’odds ratio correspondant est de 36 : Un Odds ratio de 36 signifie que la pratique alcoolique hebdomadaire serait bien plus fréquente chez les 100 individus de sexe masculin que chez les 100 individus de sexe féminin.

On utilise souvent le logarithme de l’odds ratio. Intérêt du modèle « Logt’ : le calcul des Odds Ratio Dans un modèle de régression logistique, l’Odds Ratio (OR) représente le facteur multiplicateur de risque de présenter ssocié à telle ou telle valeur d’une variable explicative. Exemple : considérons l’étude du développement d’une maladie M (variable expliquée en 0/1) en fonction de l’exposition ou non à un facteur de risque R (variable explicative en 0/1 également).

Soient Pl la probabilité de développer la maladie si le sujet est exposé au facteur de risque et PO la probabilité de développer la maladie si le sujet n’est pas exposé au facteur de risque. Le calcul de l’OR se fait selon la formule suivante . Si l’OR est supérieur à 1, cela signifie que le risque de développer la maladie est supérie