23 0 303KB
Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit
Adil Belhouari HEC - Montréal - Journées de l’Optimisation 2005 09 Mai 2005
PLAN DE LA PRÉSENTATION
Â
Introduction
Â
Revue de littérature et principaux travaux
Â
Positionnement de la recherche
Â
Méthodologie et traitements
Â
Résultats résumés de la recherche
Â
Conclusion
Â
Discussion et recommandations
© Adil Belhouari - Journées de l'Optimisation 2005
2
MISE EN CONTEXTE
Le risque de crédit est présent dans tous les contrats financiers et constitue la principale source de pertes pour les institutions financières
Les défauts et les faillites ont atteint des niveaux sans précédent durant les cinq dernières années touchant les plus grandes entreprises au monde (Enron corp. & Worldcom corp.), dépassant $63 milliards durant le premier semestre de l’année 2002
la mesure et la gestion du risque de crédit ont pris de plus en plus d'importance dans l'industrie bancaire, suscitant le développement de nouveaux outils et moyens permettant de minimiser les pertes
© Adil Belhouari - Journées de l'Optimisation 2005
3
QUELQUES DÉFINITIONS
Défaillance des entreprises : Un concept difficile à cerner car il n’y a pas de consensus en la matière : défaut, faillite, détresse, vulnérabilité financière, liquidation Deux définitions sont généralement retenues :
La liquidation judiciaire (code 02 – chapitre 11), concept purement juridique
La vulnérabilité financière (code 03 – chapitre 7), notion plus large Le risque de défaillance est le risque de cessation de paiement des dettes
Le Credit scoring :
Une méthode statistique de détection précoce de la défaillance des entreprises en les classant en firmes défaillantes et autres saines ou survivantes Le scoring est utilisée également dans différents domaines liés au Marketing, au recouvrement financier, au GRH……. © Adil Belhouari - Journées de l'Optimisation 2005
4
APERÇU JURIDIQUE
Augmentation du nombre d’entreprises qui se mettent sous la protection de la loi 268 sur la faillite La multiplicité croissante des outils financiers : Produits dérivés, Contrats à terme et Options
Merton et Perold (1993) ont développé le concept de Capital-risque (espérance maximale de perte)
Accord de Bâle I (1988) : Standards de réglementation
Accord de Bâle II (2004) : trois piliers pour la solidité du système financier 1. Ajout de l’évaluation du risque opérationnel 2. Supervision et contrôle par les autorités de surveillance 3. Cellules internes de gestion de risque © Adil Belhouari - Journées de l'Optimisation 2005
5
REVUE DE LITTÉRATURE ET PRINCIPAUX TRAVAUX
Les trois principales méthodes utilisées sont : ¾ Analyse Discriminante Multivariée (MDA) et modèle logit ¾ Arbres de décision et algorithmes de Partitionnement Récursif (PR) ¾ Réseaux de Neurones (NN) © Adil Belhouari - Journées de l'Optimisation 2005
6
APERÇU HISTORIQUE Dès les années trente, volonté de comprendre le phénomène de la défaillance à postériorité 9 Fitzpatrick (1932) 9 Ficher, Smith et Winakor (1935) : Analyse de ratios financiers liés à la liquidité, la solvabilité et la rentabilité des entreprises Fin des années soixante, volonté de mettre en œuvre un outil opérationnel de détection des entreprises en situation difficile 9 Beaver (1966 & 1968) : Analyse dichotomique 9 Altman (1968) : Analyse discriminante multivariée D’autres travaux ont suivi : 9 Altman, Halderman & Narayanan (1977) : Analyse discriminante multivariée et modèle Logit 9 Frydman, Altman & KAO (1985) : Arbres de décision et partitionnement récursif 9 Coats & Fant (1993) : Réseaux de Neurones
© Adil Belhouari - Journées de l'Optimisation 2005
7
ANALYSE DISCRIMINANTE MULTIVARIÉE (MDA) Les principaux travaux utilisant cette méthode ont commencé par : ¾ Le modèle initial de Altman (1968) : ‘‘Financial ratios, Discriminant Analysis and predicting of corporate Bankruptcy’’ 66 entreprises industrielles (33 entreprises saines, 33 entreprises ayant été soumises à la procédure de mise en faillite durant la période 1946-1965)
Z = 0.012 X1 + 0.014 X2 + 0.033 X3 + 0.006 X4 + 0.999 X5 Avec X1 = Fonds de Roulement / Actif total X2 = Réserves / Passif total X3 = Résultat avant intérêts et impôts / Actif total X4 = Capitalisation boursière / Ensemble des dettes X5 = Chiffre d'affaires / Actif total © Adil Belhouari - Journées de l'Optimisation 2005
8
ANALYSE DISCRIMINANTE MULTIVARIÉE (MDA) ¾ le modèle Zêta de Altman, Halderman & Narayanan (1977) : ‘‘Analyse discriminante multivariée et modèle Logit’’ sur un échantillon de 111 entreprises industrielles et commerciales (58 entreprises saines, 53 entreprises ayant été soumises à la procédure de mise en faillite durant la période 1969-1975) Avec X1 = Résultat avant intérêts et impôts / Actif total X2 = 1 / écart-type(résultats avant intérêts & impôts / Actif total) X3 = Résultat avant intérêts et impôts / Charges financières X4 = Réserves / Passif total X5 = Ratio de Liquidité générale (ou ratio de Fonds de Roulement) X6 = Total de la capitalisation boursière / Capitaux permanents X7 = log (Actifs totaux)
© Adil Belhouari - Journées de l'Optimisation 2005
9
ANALYSE DISCRIMINANTE MULTIVARIÉE (MDA) ¾ le modèle de scoring pour la banque de France de Mireille Bardos (1998) : ‘‘Detecting the risk of company failure at the Banque de France’’ sur un échantillon d’entreprises de taille supérieure à 5 millions de FF. La fonction - Score établie f ( X n ) = (µ s − µ d ) * T
−1
* (X
n
−
µs − µd 2
)
Où X n = ( X n , X n ,............., X n ) est le vecteur représentant les valeurs des p ratios de l’entreprise n µ s est le vecteur moyen des p ratios pour le groupe des entreprises survivantes µ d est le vecteur moyen des p ratios pour le groupe des entreprises défaillantes T est la matrice de variance – covariance totale pour l’ensemble des p ratios 1
2
p
Alors, le critère de décision était donc : Si f ( X n ) > 0 Î l’entreprise survivra Si f ( X n ) ≤ 0 Î l’entreprise fera faillite © Adil Belhouari - Journées de l'Optimisation 2005
10
ARBRES DE DÉCISION (PR) Les principaux travaux utilisant cette méthode ont commencé par : ¾ Le travail de présentation de Breiman, Friedman, Olshen et Stone (1984) ‘‘Introduction to Tree Classification ’’ ¾ Altman et deux de ses collaborateurs, Frydman et Duen-Li (1985) : ‘‘Introducing Recursive Partitioning for financial Classification : The case of financial Distress’’ Un échantillon de 200 entreprises différentes dont 142 survivantes et 58 défaillantes, une sélection des variables les plus discriminantes sur l’ensemble des 20 variables calculées pour la période (1971 – 1981)
© Adil Belhouari - Journées de l'Optimisation 2005
11
RÉSEAUX DE NEURONES (NN) Les principaux travaux utilisant cette méthode ont commencé par : ¾ le modèle de présentation de la technique de Medsker, Turban et Trippi (1993) : ‘‘Artificial neural networks in bankruptcy prediction: General framework and crossvalidation analysis ’’
¾ Le modèle Cascor de Pamela Coats et Franklin Fant (1993) : ‘‘Recognizing Financial Distress Patterns Using a Neural Network Tool ’’ 141 entreprises dont 47 faillites et 94 saines, tirées de la base de donnée COMPUSTAT pour la période (1970 – 1989)
© Adil Belhouari - Journées de l'Optimisation 2005
12
Méthodes d’ensemble (ME) Un ensemble de classificateurs individuels permettant d’assurer la combinaison de leurs prédictions : Dietterich (1997) et Maclin & Opitz (1999) Méthodes se basant sur la perturbation du processus d’apprentissage
2 types de méthodes ensemblistes : 9 Bagging : ‘Bootstrap Aggregating’ développé par Breiman (1996) Moyenne de différentes versions du modèle se basant sur des échantillons aléatoires avec remise est utilisant le maximum de votes Cas particulier : Méthode des Forêts aléatoires développée par Breiman (2001) 3 Boosting : développé par Schapire (1990) Règles de prédiction extrêmement précises grâce à la combinaison des résultats de modèles faibles se basant sur la notion du vote pondéré © Adil Belhouari - Journées de l'Optimisation 2005
13
POSITIONNEMENT DE LA RECHERCHE
Objectifs de la recherche : 9 Analyse comparative entre différentes méthodes de prédiction : AMD, modèle Logit, arbres de décision, combinaison d’arbres de classification 9 Méthodes non paramétriques performeront-elles mieux que les méthodes paramétriques & linéaires ? 9 Utilisation des méthodes d’ensemble ( Bagging & Boosting )
© Adil Belhouari - Journées de l'Optimisation 2005
14
MÉTHODOLOGIE ET TRAITEMENTS ¾ La source de données est représentée par les rapports financiers des entreprises américaines contenus dans COMPUSTAT sur une période entre 1992 et 2002 ¾ Présentation des données :
Année
Taux de faillite – COMPUS TAT
1992
Échantillon retenu Survivantes
Faillites
Taux de faillite
0,74%
1808
11
0,60%
1993
1,08%
1972
56
2,80%
1994
0,71%
2093
47
2,20%
1995
0,64%
2035
33
1,60%
Population de COMPUSTAT
Après épuration
Années entreprises
835
445
1332
Survivantes
10348
6124
40144
1996
0,54%
2246
33
1,40%
Total
11183
6569
41476
1997
0,52%
2564
30
1,20%
1998
0,65%
2860
41
1,40%
1999
0,79%
3324
45
1,30%
2000
1,24%
3806
92
2,40%
2001
0,76%
3822
42
1,10%
2002
0,43%
3525
15
0,40%
Moyenne
0,74%
Faillites
Année
N-1
N-2
N-3
N-4
N-5
Nombre d’entreprises
7
125
300
242
187
© Adil Belhouari - Journées de l'Optimisation 2005
1,49%
15
Échantillonnage Deux échantillons : Apprentissage et validation basés sur un échantillonnage stratifié selon la variable cible
Apprentissage
Validation
Année
Faillites
Survivantes
Total
Faillites
Survivantes
Total
Horizon 3 ans
259
24627
24886
172
16418
16590
Horizon 4 ans
404
24482
24886
270
16320
16590
Horizon 5 ans
517
24369
24886
344
16246
16590
© Adil Belhouari - Journées de l'Optimisation 2005
16
MÉTHODOLOGIE ¾ Méthodes utilisées : Analyse Discriminante Multivariée Régression Logistique Arbres de décision Combinaison d’arbres de classification ( Bagging & Boosting ) ¾ Critères et paramètres d’évaluation des modèles :
Sensitivité Taux global de bonne classification Spécificité ¾ Coûts de mauvaise classification : C10 C20 C30 C40 C50
© Adil Belhouari - Journées de l'Optimisation 2005
17
Résultats – horizon 3 ans 100,00%
99,00%
98,00% AD10
Spécificité
97,00%
96,00%
BAG50
95,00% BOO50 BAG40
94,00%
93,00%
92,00%
91,00% 70,00%
75,00%
80,00%
85,00%
90,00%
95,00%
100,00%
Sensitivité
© Adil Belhouari - Journées de l'Optimisation 2005
18
Résultats – horizon 3 ans Apprentissage Modèle
Spécificité Sensitivité
Validation Global
Spécificité Sensitivité
Global
AD
C10
99,92%
78,38%
99,69%
97,28%
79,65%
97,09%
Bagging
C40
96,58%
98,07%
96,60%
94,28%
98,84%
94,33%
Bagging
C50
96,73%
99,61%
96,76%
96,08%
99,42%
96,11%
Boosting
C50
94,13%
98,84%
94,18%
94,91%
98,84%
94,95%
© Adil Belhouari - Journées de l'Optimisation 2005
19
Résultats – horizon 4 ans
© Adil Belhouari - Journées de l'Optimisation 2005
20
Résultats – horizon 4 ans
Apprentissage Modèle
Validation
Spécificité
Sensitivité
Global
Spécificité
Sensitivité
Global
AD
C10
99,85%
78,47%
99,51%
99,75%
76,67%
99,38%
Bagging
C50
96,14%
99,01%
96,19%
96,12%
99,26%
96,17%
Boosting
C40
92,63%
98,02%
92,72%
93,56%
98,15%
93,63%
Boosting
C50
92,45%
98,27%
92,55%
94,02%
98,89%
94,10%
© Adil Belhouari - Journées de l'Optimisation 2005
21
Résultats – horizon 5 ans
© Adil Belhouari - Journées de l'Optimisation 2005
22
Résultats – horizon 5 ans
Apprentissage Modèle
Spécificité Sensitivité
Validation Global
Spécificité Sensitivité
Global
AD
C10
99,56%
68,67%
98,92%
99,58%
67,44%
98,92%
Bagging
C50
94,01%
94,58%
94,02%
93,75%
94,48%
93,77%
Boosting
C40
91,99%
95,74%
92,07%
93,48%
95,06%
93,51%
Boosting
C50
92,34%
95,94%
92,41%
92,59%
95,64%
92,65%
© Adil Belhouari - Journées de l'Optimisation 2005
23
CONCLUSION ¾ Confirmation des deux hypothèses de départ :
> © Adil Belhouari - Journées de l'Optimisation 2005
24
DISCUSSION ET RECOMMANDATIONS Plusieurs pistes de recherche : ¾ Tester la validité des modèles développés, dans un contexte réel de scoring, sur des données réelles des entreprises ¾Introduction d’autres types de variables : données de marché, informations macroéconomiques…… ¾ Application des mêmes méthodes sur des données canadiennes ¾ Intégration d’autres types de méthodes dans l’analyse comparative : réseaux de neurones, modèles mixtes…. © Adil Belhouari - Journées de l'Optimisation 2005
25
© Adil Belhouari - Journées de l'Optimisation 2005
26