top of page

LE RISQUE DE CRÉDIT POUR LES NULS

Rechercher

Score de défaillance : traitement de la base de données (doublons, valeurs extrêmes et aberrantes)

Linda Matsing
8 nov. 2023
2 min de lecture

Dans mon précédent post, je vous ai partagé des méthodes de traitement des valeurs manquantes. Une fois les valeurs manquantes traitées, l'étape suivante consiste à aborder d'autres aspects essentiels du nettoyage des données, notamment la gestion des doublons, des valeurs extrêmes et aberrantes.

Doublons : Éviter la redondance

La présence de doublons dans une base de données peut avoir un impact significatif sur la qualité de vos analyses. En effet, elle peut biaiser les résultats en accordant une importance excessive aux valeurs répétées. Il est donc essentiel de les détecter et de les supprimer. L'élimination des doublons garantit l'intégrité de vos données et contribue à des résultats d'analyse plus précis.

Valeurs aberrantes : Identifier l'anomalie

Les valeurs aberrantes, ou outliers en anglais, sont des données erronées résultant d'erreurs de mesure, de calcul, de saisie ou de déclaration. Elles sont souvent inexactes et peuvent considérablement affecter la qualité de votre modèle de score de défaillance. Si dans votre base de données il y a un âge négatif, c'est une valeur aberrante car il n'existe pas d'âge négatif.

La détection des valeurs aberrantes se fait à l'aide de statistiques univariées et de boîtes à moustache (box plots). Une règle couramment utilisée consiste à considérer une valeur comme aberrante si elle se situe en dehors de l'intervalle de 1,5 fois l'étendue interquartile. Leur identification et leur traitement sont cruciaux pour des analyses fiables.

Valeurs Extrêmes : Maîtriser l'écart

Contrairement aux valeurs aberrantes, les valeurs extrêmes ne sont pas nécessairement erronées, mais elles peuvent influencer certaines méthodes statistiques. Si dans votre base de données vous avez un âge de 120 ans, cela peut être une valeur extrême, mais pas une valeurs aberrante car il existe bien des personnes de 110 ans.

La méthode de winsorisation est couramment utilisée pour traiter les valeurs extrêmes. Elle consiste à définir des bornes, telles que les 1er et 99e centiles, et à remplacer les valeurs qui se trouvent en dehors de ces bornes par les bornes elles-mêmes. Cette approche permet de maîtriser l'impact des valeurs extrêmes sur l'analyse.

Il est important de noter que la discrétisation des variables quantitatives, réalisée ultérieurement dans la suite de la construction du modèle de score de défaillance, peut également contribuer à atténuer l'impact des valeurs aberrantes et extrêmes en regroupant des valeurs dans des catégories appropriées.

En conclusion, le traitement des valeurs manquantes, des doublons, des valeurs aberrantes et extrêmes est une étape cruciale dans l'analyse de données. En éliminant ou en imputant correctement ces valeurs, on s'assure que les résultats de l'analyse sont fiables et représentatifs de la réalité. Cela permet aux décideurs de prendre des mesures éclairées et de construire des modèles de score de défaillance précis, renforçant ainsi la prise de décision dans le secteur financier. La gestion des données est une étape incontournable pour bâtir un modèle solide et fiable, offrant ainsi un outil précieux pour évaluer le risque de défaillance et prendre des décisions éclairées.

Posts récents

Construction d'un modèle de score: sélection des variables du modèle

Construction d'un modèle de score: sélection des variables du modèle

Construction d'un score de défaillance: analyses univariées et partition de la base de données

Construction d'un score de défaillance: analyses univariées et partition de la base de données

Construction d'un score de défaillance : traitement de la base de données (valeurs manquantes)

Construction d'un score de défaillance : traitement de la base de données (valeurs manquantes)

Comments

Post: Blog2 Post

bottom of page