48 1 795KB
´lisation de la dure ´e de vie Mode ˆt des clients du pre
le 7 Avril 2017
Rapport projet statistique R´ealis´e par : Salma AIT ELHADJ OMAR Sarah AKHMOUCH Rajae AZENNOUD Najla LAAZIZI
Encadr´e par : Fouad MARRI Saad BENJELOUN
Rapport projet statistique
Projet 4
Contents 1 Nettoyage de la base de donn´ ees : 1.1 Conversion des variables en format date : . . . . . . . . . . . . . . . . 1.2 Valeurs manquantes : . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 4 5
2 Analyse Exploratoire de donn´ ees : 7 2.1 Fr´equence de la dur´ee de vie du prˆet : . . . . . . . . . . . . . . . . . . 7 2.2 Effet des variables sur la dur´ee de vie du prˆet: . . . . . . . . . . . . . 9 2.3 Corr´elation : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3 Analyse Kaplan-Meier : 21 3.1 Ajustement de la base de donn´ees : . . . . . . . . . . . . . . . . . . . 21 3.2 Courbes de survie : . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1
Rapport projet statistique
Projet 4
Introduction Dans le cursus de formation d’ing´enieurs, plus pr´ecis´ement durant la deuxi`eme ann´ee, les ´el`eves sont cens´es r´ealiser un projet statistique par groupe. Ce projet peut ˆetre un plus pour note avenir professionnel. Nous avons le projet de mod´elisation de la pr´ediction de la dur´ee d’un prˆet. Notre ´equipe se compose de quatre membres, se constitue donc de Sarah AKHMOUCH, Salma AIT EL HADJ OMAR, Rajae AZENNOUD et de Najla LAAZIZI. Globalement le travail ´etait plutˆot collectif. La mod´elisation statistique se fait g´en´eralement par des logiciels tels SAS et R. Nous avons choisi de travailler avec le logiciel SAS pour sa capacit´e de traitement de bases de donn´ees plus volumineuses. Nous allons donc voir `a travers ce rapport dans une premi`ere partie la proc´edure de nettoyage de la base de donn´ees, ensuite nous allons d´etailler notre analyse exploratoire de donn´ees ainsi que l’analyse de la mod´elisation faite par la m´ethode Kaplan-Meier, et finalement une conclusion r´ecapitulative des r´esultats obtenus.
Prob´ ematique Avant acceptation de toutes demandes de prˆets, tout institut de prˆet proc`ede tout d’abord par une ´evaluation du risque du cr´edit, qui s’´evalue par une pr´ediction de la dur´ee de remboursement en prenant en consid´eration plusieurs facteurs qui sont : le montant et le coˆ ut du prˆet... Il est donc important de savoir si la dur´ee de son prˆet est trop longue ou trop courte pour n´egocier de meilleures conditions. Notre projet consiste a` mod´eliser cette dur´ee. Il soul`eve donc un facteur critique dans le secteur des prˆets.
2
Rapport projet statistique
1
Projet 4
Nettoyage de la base de donn´ ees :
Notre base de donn´ees contient 34 715 observations, et se compose initialement de 15 variables qui sont: ID CLIENT : L’dentifiant du client. DATE DEBU T PRET : La date de d´ebut du prˆet. DATE F IN PRET : La date de fin du prˆet. ST AT U T PRET : Sp´ecifie si le remboursement est `a terme ou bien anticip´e. DU REE THEORIQUE : La dur´ee au bout de laquelle le client est suppos´e renbourser le prˆet. M ON T AN T PRET : Le montant du prˆet du client. T AU X PRET : Le taux fix´e par l’institue de prˆet. M ARQU E : La marque de la voiture que le client souhaite acheter. M ON T AN T VEHICULE : Le montant du v´ehicule choisi par le client. P U ISSAN CE FISCALE : la puissance du moteur du v´ehicule souhait´e. AN NAISSANCE : L’ann´ee de naissance du client. DEPARTEMENT :La r´egion `a laquelle appartient le client. PROFESSION : La profession du client. SIT FAMILIALE : La situation familiale du client : mari´e , c´elibataire, veuf, s´epar´e, divorc´e ou inconnu. SIT IMMOB : La situation immobiliare du client : prori´etaire, locataire ou autre. Il est indispensable de nettoyer la base de donn´ees avant d’entamer le travail. Les valeurs manquantes, les doublons et les variables avec un type inad´equat peuvent causer un blocage lors de la mod´elisation ou bien fausser les r´esultats. Il faut noter que la base de donn´ees de notre projet ne contient pas de doublons. N.B : • Montant v´ehicule en euros. • Nous avons d´ecid´e de travailler avec la Dur´ee de prˆet en jours, vu que le fait de la convertir en mois ne permettra pas de bien visualiser la diff´erence de la dur´ee de prˆet par clients.
3
Rapport projet statistique
1.1
Projet 4
Conversion des variables en format date :
Nous avons commenc´e par unifier les formats sous lesquels les dates sont ´ecrites dans la base de donn´ees initiale:
Pour cela, nous avons eu recours au Bloc-notes afin de les modifier au format ddmmYYYY. Ensuite, sous SAS, nous avons pu convertir les dates au format voulu (date9.1) `a l’aide du code suivant : Data projetV2DATE; infile ’/folders/myfolders/Najla/P4V2.csv’ firstobs=2 delimiter=";"; length DATE_DEBUT_PRET $12.; input ID_CLIENT$ DATE_DEBUT_PRET$ DATE_FIN_PRET$ STATUT_PRET$ DUREE_THEORIQUE_PRET MONTANT_PRET TAUX_PRET MARQUE$ MONTANT_VEHICULE PUISSANCE_FISCALE AN_NAISSANCE $ DEPARTEMENT$ PROFESSION$ SIT_FAMILIALE$ SIT_IMMOB$; run; Ce bout de code nous a permis de charger la base de donn´ees modifi´ee tout en pr´ecisant le type des variables DATE DEBUT PRET et DATE FIN PRET (Chaˆıne de caract`eres). Cette ´etape est importante puisque nous allons par la suite utiliser la fonction ”substr” qui ne prend en argument que des chaˆınes de caract`eres : Data DataFinal; SET projetV2DATE; format DateDebut date9.1; format DateFin date9.1; a=substr(trim(left(DATE_DEBUT_PRET)),1,2);
4
Rapport projet statistique
Projet 4
b=substr(trim(left(DATE_DEBUT_PRET)),3,2); c=substr(trim(left(DATE_DEBUT_PRET)),5,4); DateDebut=mdy(input(b,2.),input(a,2.),input(c,4.)); a2=substr(trim(left(DATE_FIN_PRET)),1,2); b2=substr(trim(left(DATE_FIN_PRET)),3,2); c2=substr(trim(left(DATE_FIN_PRET)),5,4); DateFin=mdy(input(b2,2.),input(a2,2.),input(c2,4.)); RUN;
1.2
Valeurs manquantes :
D’une part, les colonnes MARQUE, PROFESSION et PUISSANCE FISCALE ont un nombre total de 1210 des valeurs manquantes (Nous leur avons affect´e les valeurs ’VIDE’, ’VIDE’ et 0, respectivement). Ce dernier repr´esente un pourcentage inf´erieur a` 10%, donc les prˆets correspondants a` ces valeurs peuvent ˆetre supprim´es. proc sql; select count(*) from DataFinal where MARQUE=’VIDE’ OR PROFESSION=’VIDE’ OR PUISSANCE_FISCALE=0; quit; /* DELETING MISSING VALUES > DataFinal */ proc sql; Delete from DataFinal where PROFESSION = ’VIDE’ OR MARQUE = ’VIDE’ OR PUISSANCE_FISCALE = 0; quit; D’autre part, les valeurs manquantes de la colonne STATUT P RET constituent plus de 30% du nombre total des observations comme le montre la capture ci-dessous:
5
Rapport projet statistique
Projet 4
Il est vrai que le pourcentage de ces valeurs est important, cependant, nous avons choisi `a ne pas les remplacer par la valeur la plus fr´equente (ici: Remboursement a` terme) puisque la fr´equence du statut ”Rembt A Terme” est proche a` celle du statut ”Rembt Anticipe”. Nous observons aussi que des observations ont des dates de d´ebut de prˆet sup´erieures a` celles du fin de prˆet, ce qui engendreda des dur´ees de prˆet n´egatives, ces cas seront trait´es ult´erieurement dans la partie 3.1 .
6
Rapport projet statistique
2
Projet 4
Analyse Exploratoire de donn´ ees :
Avant d’entamer la partie mod´elisation, il nous a fallu de bien comprendre la base de donn´ees de notre projet. Il s’agit d’´etudier l’effet de chaque variable sur l’output dur´ ee et la corr´elation entre eux.
2.1
Fr´ equence de la dur´ ee de vie du prˆ et :
Nous avons commenc´e par calculer la fr´equence de chacune des valeurs de l’output, en utilisant la m´ethode PROC FREQ et PROC UNIVARIATE. En dessous, un script du code SAS utilis´e pour ce faire :
7
Rapport projet statistique
Projet 4
R´esultats :
8
Rapport projet statistique
Projet 4
Int´erpretation : On constate une grande diff´erence entre les fr´equences des diverses valeurs. La plage [1084 :1113] jours contient les dur´ees de prˆets les plus fr´equentes, qui atteignent une valeur de 3,38 enregistr´ee pour une dur´ee de 1097. Quant aux valeurs comprises entre une dur´ee de 1450 et 1497, elles ont des fr´equences plus ou moins moyennes qui varient entre 0.06 et 0.24. Pour toutes les autres valeurs de l’output, il s’av`ere que leurs fr´equences sont pratiquement faibles.
2.2
Effet des variables sur la dur´ ee de vie du prˆ et:
Dans un deuxi`eme temps, nous avons essay´e de d´ecortiquer l’effet des autres variables sur l’output. Pour ceci, nous avons eu recours a` la m´ethode PROCPLOT qui affiche
9
Rapport projet statistique
Projet 4
en r´esultat un plot de la dur´ee en fonction de la variable `a laquelle on veut ´etudier l’effet. Le code utilis´e pour obtenir ces plots est le suivant :
-Relation Dur´ee-Age :
10
Rapport projet statistique
Projet 4
Interpr´etation - On remarque qu’aucune personne ayant un aˆge compris entre 18 ans et 30 ans dans la base de donn´ees ´etudi´ee n’a eu recours a` un prˆet. - les dur´ees comprises entre 60 jours et 1180 jours, un prˆet de 1400 jours ainsi qu’un prˆet de 1970 jours sont g´en´eralement enregistr´es pour des clients de diff´erentes cat´egories d’ˆage. - Un prˆet qui dure un jour et les dur´ees comprises entre 1170 jours et 1350 jours sont presque demand´es par des clients de diff´erents ˆages sauf une petite discontinuit´e qui varie selon la dur´ee. - Pour les dur´ees qui varient entre 1500 jours et 1820 jours sont dispatch´ees sur des cat´egories particuli`eres et enregistrent des discontinuit´es remarquables.
-Relation Dur´ee-Dur´ee th´eorique prˆet :
11
Rapport projet statistique
Projet 4
Interpr´etation : - On remarque que les dur´ees th´eoriques du prˆet sont principalement : 36,48 et 60 jours. - Th´eoriquement, il y a des clients qui ont voulu un prˆet de 36 jours mais on constate que, pour des raisons donn´ees, ils ont soit prolong´e soit r´eduit la dur´ee pour que la dur´ee pratique s’´etale de 0jours `a 1180 jours. - Pour une dur´ee th´eorique de 48 jours, pratiquement les dur´ees sont comprises entre 0jours et 1450 jours. - Les clients qui ont pr´evu une dur´ee de prˆet de 60 jours, ils ont enregistr´e des dur´ees r´eelles allant de 60 jours a` 1820jours.
-Relation Dur´ee-Situation immobili`ere :
12
Rapport projet statistique
Projet 4
Interpr´etation : - On constate que les prˆets avec une dur´ee comprise entre 0 et 1850 jours sont pr´evus pour les clients qui ont une situation immobili`ere : propri´etaire, locataire ou autre. - On remarque qu’il y a une discontinuit´e au niveau des dur´ees comprises entre [0 :200]; [1175 :1300] et [1500 :1800] pour les clients qui ont une situation immobili`ere : Non r´eponse. - Les dur´ees de prˆet allant de 10 `a 1240 jours sont enregistr´ees pour les clients avec une situation immobili`ere accedant-propri´et´e.
-Relation Dur´ee-Situation familiale :
13
Rapport projet statistique
Projet 4
Interpr´etation : On remarque que les clients c´elibataires, financ´es ou encore mari´es ont principalement eu recours `a des prˆets de dur´ees divers et vari´ees. Pour les inconnus et les s´epar´es, on constate une discontinuit´e pour les dur´ees comprises entre 1200 jours et 1800 jours. Quant aux clients veufs, ils sont plutˆot int´eress´es a` des prˆets qui appartiennent a` [1 :1500] jours.
-Relation Dur´ee-Marque :
Interpr´etation :
14
Rapport projet statistique
Projet 4
Il s’av`ere que les clients ont int´erˆet `a prˆeter les marques :X, Y, W et Z pour presque toutes les dur´ees ´etudi´ees mais pour la marque V, ils ne d´epassent pas 1440 jours.
-Relation Dur´ee-Statut Prˆet :
Interpr´etation : On remarque que pour presque toutes les dur´ees, les clients favorisent un remboursement anticip´e. Rares sont les dur´ees pour lesquelles les clients qui on choisi un remboursement a` terme.
15
Rapport projet statistique
Projet 4
-Relation Dur´ee-Montant V´ehicule :
Interpr´etation : Pour un montant v´ehicule compris entre 10000 et 60000 les clients choisissent des prˆets de dur´ees allant de 0 `a 1800 jours. Quant aux montants inf´erieurs a` 10000 et sup´erieurs a` 12000 aucun prˆet n’a ´et´e enregistr´e et pour ceux qui sont compris entre 60000 et 12000 rares sont les prˆets enregistr´es.
16
Rapport projet statistique
Projet 4
-Relation Dur´ee-Puissance fiscale :
Interpr´etation : On remarque que les clients ne choisissent pour aucune dur´ee les v´ehicules qui ont une puissance fiscale sup´erieure a` 0 est inf´erieure `a 4, alors qu’ils choisissent pour des dur´ees vari´ees les v´ehicules qui ont des puissances fiscales comprises entre 4 et 20. Et rarement o` u ils optent pour des v´ehicules de puissances sup´erieures `a 20.
17
Rapport projet statistique
Projet 4
-Relation Dur´ee-Profession :
Interpr´etation : On remarque que g´en´eralement, il n’y a pas un effet remarquable de la profession sur l’output.
18
Rapport projet statistique
2.3
Projet 4
Corr´ elation :
Afin d’´etudier l’intensit´e de la liaison qui peut exister entre la dur´ee de vie du prˆet et les variables num´eriques existantes, nous avons calcul´e la corr´elation en utilisant la m´ethode PROC CORR . En dessous, un script du code SAS utilis´e pour ce faire :
R´esultats :
19
Rapport projet statistique
Projet 4
Interpr´etation : • La dur´ee et l’ˆage ont une corr´elation l´eg´erement positive. • La dur´ee et la dur´ee th´eorique prˆet ont une corr´elation l´eg´erement n´egative. • La dur´ee et le mantant prˆet ont une corr´elation faiblement n´egative. • La dur´ee et le montant v´ehicule ont une corr´elation faiblement n´egative. • La dur´ee et le montant prˆet ont une corr´elation l´eg´erement n´egative. • La dur´ee et la puissance fiscale ont une corr´elation faiblement n´egative. • La dur´ee et le taux prˆet ont une corr´elation faiblement n´egative. De ce fait, on peut conclure que la variable dur´ee de vie du prˆet n’est pas trop li´ee aux variables num´eriques ´etudi´ees.
20
Rapport projet statistique
3
Projet 4
Analyse Kaplan-Meier :
La m´ethode de Kaplan-Meier permet d’analyser l’´evolution de l’effectif d’une population donn´ee avec le temps ou bien dans notre cas permet d’avoir une courbe de survie de la dur´ee de prˆet en fonction de nombreux param`etres qu’on d´etaillera par la suite. Plus pr´ecis´ement cette m´ethode permet d’avoir rapidement, sans n´ecessiter que les intervalles de temps soient r´eguliers, la courbe de survie, ainsi que les statistiques essentielles comme le temps m´edian r´esiduel de survie. La fonction de survie est une estimation statistique du temps restant avant la mort, l’´echec ou la panne. Cette fonction est not´ee S(t) et est d´efinie par: S(t)= P(T > t) qui repr´esente la probabilit´e de survie jusqu’au temps t, c’est-`a-dire la probabilit´e que ”l’´echec” survienne apr`es le temps t (T est une variable al´eatoire symbolisant le moment du d´ec`es). Estimateur de Kaplan-Meier Il estime la probabilit´e de survie jusqu’`a chaque temps d’´ev´enement dans la base de donn´ees depuis le d´ebut du suivi. Apr`es fragmentation de la probabilit´e de survie en des probabilit´es conditionnelles, nous obtenons la forme suivante de l’estimateur de Kaplan-Meier: ni −di ˆ =Q S(t) ti = 63276 est sup´erieure a` celles des autres. Nous remarquons aussi que pour une dur´ee inf´erieure `a 36 mois, les clients ayant un montant de prˆet entre 25205 et 49171 ont la plus faible probabilit´e de survie et les clients ayant un montant de prˆet < 9999 ont la plus faible probabilit´e de survie. N´eanmoins, apr`es le mois 36, l’ordre s’inverse. Intuitivement, ce r´esultat est correct, car avoir un prˆet avec un montant faible veut dire une dur´ee de remboursement plus rapide, donc une probabilit´e qui s’affaiblie au fil du temps. Contrairement aux autres clients ayant un montant de prˆet ´el´ev´e, la dur´ee de remboursement sera plus grande que celle d’avant, ce qui entraˆıne une probabilit´e de survie plus grande.
30
Rapport projet statistique
Projet 4
R´ esum´ e de l’analyse Kaplan-Meier • Le prˆet anticip´e est mieux que celui a` terme. • La variable profession donne une id´ee sur si le client aura besoin d’une dur´ee de prˆet plus large ou pas. • Les propri´etaires ont une probabilit´e de survie plus grande que les locataires. • Les clients avec des v´ehicules qui d´epassent 25 en puissance fiscale pr´ef`erent des prˆets de 48 moins. Tandis que ceux avec des puissances fiscales entre 20 et 25, et entre 0 et 5 pr´ef`erent des prˆets de 36 mois. • Les prˆets avec des taux entre 2% et 4% correspondent aux prˆets de dur´ee th´eorique de 36 mois. D’autre part les prˆets avec un taux sup´erieur `a 8% sont rembours´es de mani`ere plus ou moins uniforme sur toute la dur´ee de l’´etude. • Les v´ehicules ayant un montant qui d´epasse 75000 ont une probabilit´e de survie ´elev´ee en comparaison avec les autres types de v´ehicules. • Pour une dur´ee inf´erieure a` 36 mois, les clients ayant les montants de prˆets les plus faible ont la plus faible probabilit´e de survie. Apr`es le mois 36, l’ordre s’inverse.
31
Rapport projet statistique
Projet 4
Conclusion A terme de ce rapport, et apr`es avoir calcul´e l’effet des variables de notre base de donn´ees sur la dur´ee ainsi que la correlation entre eux, nous avons trouv´e que ces variables n’influencent pas trop la dur´ee de prˆet . En outre, nous avons constat´e qu’il y a une faible corr´elation entre les variables num´eriques ´etudi´ees et la dur´ee. G´en´eralement, elles varient dans deux sens oppos´es (corr´elation n´egative). D’autre part, la m´ethode de Kaplan-Meier nous a permis d’avoir une vision plus claire et plus sp´ecifique sur la compr´ehension et l’estimation de la dur´ee de vie d’un prˆet ce qui nous a amen´e `a des interpr´etations qui pourront aider a` am´eliorer les d´ecisions futures de l’institut de prˆet. En se basant sur les r´esultats auxquels nous avons abouti, quelques actions s’av`erent tr`es astucieuses pour am´eliorer et rendre plus b´en´efique le service de prˆet que propose certaines soci´et´es, on cite: - Proposer des offres ou des r´eductions qui pourraient attirer les clients qui ont int´erˆet a` emprunter pour des dur´ees courtes - S’int´eresser plutˆot a` des marques de v´ehicules, que les clients empruntent pour des dur´ees assez longues, en variant la gamme propos´ee - Essayer d’encourager les jeunes aˆg´es de 18 ans a` 30 ans, et qui ont une profession, a` faire des emprunts en essayant de r´eduire un peu les taux au d´ebut.
32