top of page
Rechercher
Photo du rédacteurLinda Matsing

Construction d'un modèle de score: sélection des variables du modèle

Dernière mise à jour : 28 déc. 2023



La construction d'un modèle de score robuste repose sur la sélection judicieuse des facteurs de risque, assurant ainsi une pertinence maximale par rapport à la variable cible. Cette phase cruciale vise à réduire le nombre de variables dans le modèle pour garantir sa durabilité, éviter la multicolinéarité et prévenir le surapprentissage.


Pourquoi sélectionner les variables?

La sélection des variables revêt une importance majeure pour plusieurs raisons. Tout d'abord, elle permet de restreindre le nombre de variables dans le modèle, garantissant ainsi sa durabilité. La capacité de suivre ces variables dans le temps est essentielle pour assurer la validité du modèle sur une période prolongée. De plus, la sélection des variables évite l'inclusion de facteurs redondants, prévenant ainsi la multicolinéarité, où des variables apportant la même information peuvent compromettre la qualité du modèle. Enfin, la limitation du nombre de variables explicatives contribue à prévenir le surapprentissage, qui se manifeste par une mauvaise adaptation du modèle à de nouvelles données.


Comment sélectionner les variables?

Il s'agit de sélectionner les variables qui sont le plus liées à la variables cible (le défaut), mais ne sont pas liées entre elles en utilisant les outils statistiques adéquats pour analyser les liaisons. En cas de forte liaison entre deux variables, la décision de conserver celle ayant le lien le plus fort avec la variable cible est la plus logique.


Indicateurs statistiques d'analyse de la liaison entre variables

L'analyse de la liaison entre les variables dépend de leur nature quantitative ou qualitative. Pour les variables qualitatives, des outils tels que le test du Khi-deux ou le coefficient du T de Tschuprow sont employés. Lorsqu'il s'agit d'étudier la liaison entre une variable qualitative et une variable quantitative, le test de Kruskal-Wallis est privilégié. Enfin, les coefficients de Pearson et de Spearman sont utilisés pour étudier la liaison entre deux variables quantitatives.


La construction d'un modèle statistique robuste commence par une sélection judicieuse des variables, assurant ainsi sa pertinence et sa durabilité. En évitant la multicolinéarité, en réduisant le nombre de variables, et en prévenant le surapprentissage, cette approche méthodologique contribue à la création de modèles fiables et adaptables, capables de fournir des résultats précis dans le temps.

681 vues0 commentaire

Commentaires


Post: Blog2 Post
bottom of page