Techniques Du Data Mining Pour La Prédiction de Faillite Des Entreprises Et La Gestion Du Risque de Crédit PDF [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Adil Belhouari HEC - Montréal - Journées de l’Optimisation 2005 09 Mai 2005

PLAN DE LA PRÉSENTATION

Â

Introduction

Â

Revue de littérature et principaux travaux

Â

Positionnement de la recherche

Â

Méthodologie et traitements

Â

Résultats résumés de la recherche

Â

Conclusion

Â

Discussion et recommandations

© Adil Belhouari - Journées de l'Optimisation 2005

2

MISE EN CONTEXTE

ƒ

Le risque de crédit est présent dans tous les contrats financiers et constitue la principale source de pertes pour les institutions financières

ƒ

Les défauts et les faillites ont atteint des niveaux sans précédent durant les cinq dernières années touchant les plus grandes entreprises au monde (Enron corp. & Worldcom corp.), dépassant $63 milliards durant le premier semestre de l’année 2002

ƒ

la mesure et la gestion du risque de crédit ont pris de plus en plus d'importance dans l'industrie bancaire, suscitant le développement de nouveaux outils et moyens permettant de minimiser les pertes

© Adil Belhouari - Journées de l'Optimisation 2005

3

QUELQUES DÉFINITIONS ™

Défaillance des entreprises : Un concept difficile à cerner car il n’y a pas de consensus en la matière : défaut, faillite, détresse, vulnérabilité financière, liquidation Deux définitions sont généralement retenues :

ƒ

La liquidation judiciaire (code 02 – chapitre 11), concept purement juridique

ƒ

La vulnérabilité financière (code 03 – chapitre 7), notion plus large Le risque de défaillance est le risque de cessation de paiement des dettes

™

Le Credit scoring : ƒ

Une méthode statistique de détection précoce de la défaillance des entreprises en les classant en firmes défaillantes et autres saines ou survivantes ƒ Le scoring est utilisée également dans différents domaines liés au Marketing, au recouvrement financier, au GRH……. © Adil Belhouari - Journées de l'Optimisation 2005

4

APERÇU JURIDIQUE ƒ

Augmentation du nombre d’entreprises qui se mettent sous la protection de la loi 268 sur la faillite La multiplicité croissante des outils financiers : Produits dérivés, Contrats à terme et Options

ƒ

Merton et Perold (1993) ont développé le concept de Capital-risque (espérance maximale de perte)

ƒ

Accord de Bâle I (1988) : Standards de réglementation

ƒ

Accord de Bâle II (2004) : trois piliers pour la solidité du système financier 1. Ajout de l’évaluation du risque opérationnel 2. Supervision et contrôle par les autorités de surveillance 3. Cellules internes de gestion de risque © Adil Belhouari - Journées de l'Optimisation 2005

5

REVUE DE LITTÉRATURE ET PRINCIPAUX TRAVAUX

Les trois principales méthodes utilisées sont : ¾ Analyse Discriminante Multivariée (MDA) et modèle logit ¾ Arbres de décision et algorithmes de Partitionnement Récursif (PR) ¾ Réseaux de Neurones (NN) © Adil Belhouari - Journées de l'Optimisation 2005

6

APERÇU HISTORIQUE Dès les années trente, volonté de comprendre le phénomène de la défaillance à postériorité 9 Fitzpatrick (1932) 9 Ficher, Smith et Winakor (1935) : Analyse de ratios financiers liés à la liquidité, la solvabilité et la rentabilité des entreprises Fin des années soixante, volonté de mettre en œuvre un outil opérationnel de détection des entreprises en situation difficile 9 Beaver (1966 & 1968) : Analyse dichotomique 9 Altman (1968) : Analyse discriminante multivariée D’autres travaux ont suivi : 9 Altman, Halderman & Narayanan (1977) : Analyse discriminante multivariée et modèle Logit 9 Frydman, Altman & KAO (1985) : Arbres de décision et partitionnement récursif 9 Coats & Fant (1993) : Réseaux de Neurones

© Adil Belhouari - Journées de l'Optimisation 2005

7

ANALYSE DISCRIMINANTE MULTIVARIÉE (MDA) Les principaux travaux utilisant cette méthode ont commencé par : ¾ Le modèle initial de Altman (1968) : ‘‘Financial ratios, Discriminant Analysis and predicting of corporate Bankruptcy’’ 66 entreprises industrielles (33 entreprises saines, 33 entreprises ayant été soumises à la procédure de mise en faillite durant la période 1946-1965)

Z = 0.012 X1 + 0.014 X2 + 0.033 X3 + 0.006 X4 + 0.999 X5 Avec X1 = Fonds de Roulement / Actif total X2 = Réserves / Passif total X3 = Résultat avant intérêts et impôts / Actif total X4 = Capitalisation boursière / Ensemble des dettes X5 = Chiffre d'affaires / Actif total © Adil Belhouari - Journées de l'Optimisation 2005

8

ANALYSE DISCRIMINANTE MULTIVARIÉE (MDA) ¾ le modèle Zêta de Altman, Halderman & Narayanan (1977) : ‘‘Analyse discriminante multivariée et modèle Logit’’ sur un échantillon de 111 entreprises industrielles et commerciales (58 entreprises saines, 53 entreprises ayant été soumises à la procédure de mise en faillite durant la période 1969-1975) Avec X1 = Résultat avant intérêts et impôts / Actif total X2 = 1 / écart-type(résultats avant intérêts & impôts / Actif total) X3 = Résultat avant intérêts et impôts / Charges financières X4 = Réserves / Passif total X5 = Ratio de Liquidité générale (ou ratio de Fonds de Roulement) X6 = Total de la capitalisation boursière / Capitaux permanents X7 = log (Actifs totaux)

© Adil Belhouari - Journées de l'Optimisation 2005

9

ANALYSE DISCRIMINANTE MULTIVARIÉE (MDA) ¾ le modèle de scoring pour la banque de France de Mireille Bardos (1998) : ‘‘Detecting the risk of company failure at the Banque de France’’ sur un échantillon d’entreprises de taille supérieure à 5 millions de FF. La fonction - Score établie f ( X n ) = (µ s − µ d ) * T

−1

* (X

n



µs − µd 2

)

Où X n = ( X n , X n ,............., X n ) est le vecteur représentant les valeurs des p ratios de l’entreprise n µ s est le vecteur moyen des p ratios pour le groupe des entreprises survivantes µ d est le vecteur moyen des p ratios pour le groupe des entreprises défaillantes T est la matrice de variance – covariance totale pour l’ensemble des p ratios 1

2

p

Alors, le critère de décision était donc : Si f ( X n ) > 0 Î l’entreprise survivra Si f ( X n ) ≤ 0 Î l’entreprise fera faillite © Adil Belhouari - Journées de l'Optimisation 2005

10

ARBRES DE DÉCISION (PR) Les principaux travaux utilisant cette méthode ont commencé par : ¾ Le travail de présentation de Breiman, Friedman, Olshen et Stone (1984) ‘‘Introduction to Tree Classification ’’ ¾ Altman et deux de ses collaborateurs, Frydman et Duen-Li (1985) : ‘‘Introducing Recursive Partitioning for financial Classification : The case of financial Distress’’ Un échantillon de 200 entreprises différentes dont 142 survivantes et 58 défaillantes, une sélection des variables les plus discriminantes sur l’ensemble des 20 variables calculées pour la période (1971 – 1981)

© Adil Belhouari - Journées de l'Optimisation 2005

11

RÉSEAUX DE NEURONES (NN) Les principaux travaux utilisant cette méthode ont commencé par : ¾ le modèle de présentation de la technique de Medsker, Turban et Trippi (1993) : ‘‘Artificial neural networks in bankruptcy prediction: General framework and crossvalidation analysis ’’

¾ Le modèle Cascor de Pamela Coats et Franklin Fant (1993) : ‘‘Recognizing Financial Distress Patterns Using a Neural Network Tool ’’ 141 entreprises dont 47 faillites et 94 saines, tirées de la base de donnée COMPUSTAT pour la période (1970 – 1989)

© Adil Belhouari - Journées de l'Optimisation 2005

12

Méthodes d’ensemble (ME) Un ensemble de classificateurs individuels permettant d’assurer la combinaison de leurs prédictions : Dietterich (1997) et Maclin & Opitz (1999) Méthodes se basant sur la perturbation du processus d’apprentissage

2 types de méthodes ensemblistes : 9 Bagging : ‘Bootstrap Aggregating’ développé par Breiman (1996) Moyenne de différentes versions du modèle se basant sur des échantillons aléatoires avec remise est utilisant le maximum de votes Cas particulier : Méthode des Forêts aléatoires développée par Breiman (2001) 3 Boosting : développé par Schapire (1990) Règles de prédiction extrêmement précises grâce à la combinaison des résultats de modèles faibles se basant sur la notion du vote pondéré © Adil Belhouari - Journées de l'Optimisation 2005

13

POSITIONNEMENT DE LA RECHERCHE

Objectifs de la recherche : 9 Analyse comparative entre différentes méthodes de prédiction : AMD, modèle Logit, arbres de décision, combinaison d’arbres de classification 9 Méthodes non paramétriques performeront-elles mieux que les méthodes paramétriques & linéaires ? 9 Utilisation des méthodes d’ensemble ( Bagging & Boosting )

© Adil Belhouari - Journées de l'Optimisation 2005

14

MÉTHODOLOGIE ET TRAITEMENTS ¾ La source de données est représentée par les rapports financiers des entreprises américaines contenus dans COMPUSTAT sur une période entre 1992 et 2002 ¾ Présentation des données :

Année

Taux de faillite – COMPUS TAT

1992

Échantillon retenu Survivantes

Faillites

Taux de faillite

0,74%

1808

11

0,60%

1993

1,08%

1972

56

2,80%

1994

0,71%

2093

47

2,20%

1995

0,64%

2035

33

1,60%

Population de COMPUSTAT

Après épuration

Années entreprises

835

445

1332

Survivantes

10348

6124

40144

1996

0,54%

2246

33

1,40%

Total

11183

6569

41476

1997

0,52%

2564

30

1,20%

1998

0,65%

2860

41

1,40%

1999

0,79%

3324

45

1,30%

2000

1,24%

3806

92

2,40%

2001

0,76%

3822

42

1,10%

2002

0,43%

3525

15

0,40%

Moyenne

0,74%

Faillites

Année

N-1

N-2

N-3

N-4

N-5

Nombre d’entreprises

7

125

300

242

187

© Adil Belhouari - Journées de l'Optimisation 2005

1,49%

15

Échantillonnage Deux échantillons : Apprentissage et validation basés sur un échantillonnage stratifié selon la variable cible

Apprentissage

Validation

Année

Faillites

Survivantes

Total

Faillites

Survivantes

Total

Horizon 3 ans

259

24627

24886

172

16418

16590

Horizon 4 ans

404

24482

24886

270

16320

16590

Horizon 5 ans

517

24369

24886

344

16246

16590

© Adil Belhouari - Journées de l'Optimisation 2005

16

MÉTHODOLOGIE ¾ Méthodes utilisées : ™Analyse Discriminante Multivariée ™Régression Logistique ™Arbres de décision ™Combinaison d’arbres de classification ( Bagging & Boosting ) ¾ Critères et paramètres d’évaluation des modèles :

Sensitivité Taux global de bonne classification Spécificité ¾ Coûts de mauvaise classification : C10 C20 C30 C40 C50

© Adil Belhouari - Journées de l'Optimisation 2005

17

Résultats – horizon 3 ans 100,00%

99,00%

98,00% AD10

Spécificité

97,00%

96,00%

BAG50

95,00% BOO50 BAG40

94,00%

93,00%

92,00%

91,00% 70,00%

75,00%

80,00%

85,00%

90,00%

95,00%

100,00%

Sensitivité

© Adil Belhouari - Journées de l'Optimisation 2005

18

Résultats – horizon 3 ans Apprentissage Modèle

Spécificité Sensitivité

Validation Global

Spécificité Sensitivité

Global

AD

C10

99,92%

78,38%

99,69%

97,28%

79,65%

97,09%

Bagging

C40

96,58%

98,07%

96,60%

94,28%

98,84%

94,33%

Bagging

C50

96,73%

99,61%

96,76%

96,08%

99,42%

96,11%

Boosting

C50

94,13%

98,84%

94,18%

94,91%

98,84%

94,95%

© Adil Belhouari - Journées de l'Optimisation 2005

19

Résultats – horizon 4 ans

© Adil Belhouari - Journées de l'Optimisation 2005

20

Résultats – horizon 4 ans

Apprentissage Modèle

Validation

Spécificité

Sensitivité

Global

Spécificité

Sensitivité

Global

AD

C10

99,85%

78,47%

99,51%

99,75%

76,67%

99,38%

Bagging

C50

96,14%

99,01%

96,19%

96,12%

99,26%

96,17%

Boosting

C40

92,63%

98,02%

92,72%

93,56%

98,15%

93,63%

Boosting

C50

92,45%

98,27%

92,55%

94,02%

98,89%

94,10%

© Adil Belhouari - Journées de l'Optimisation 2005

21

Résultats – horizon 5 ans

© Adil Belhouari - Journées de l'Optimisation 2005

22

Résultats – horizon 5 ans

Apprentissage Modèle

Spécificité Sensitivité

Validation Global

Spécificité Sensitivité

Global

AD

C10

99,56%

68,67%

98,92%

99,58%

67,44%

98,92%

Bagging

C50

94,01%

94,58%

94,02%

93,75%

94,48%

93,77%

Boosting

C40

91,99%

95,74%

92,07%

93,48%

95,06%

93,51%

Boosting

C50

92,34%

95,94%

92,41%

92,59%

95,64%

92,65%

© Adil Belhouari - Journées de l'Optimisation 2005

23

CONCLUSION ¾ Confirmation des deux hypothèses de départ :

> © Adil Belhouari - Journées de l'Optimisation 2005

24

DISCUSSION ET RECOMMANDATIONS Plusieurs pistes de recherche : ¾ Tester la validité des modèles développés, dans un contexte réel de scoring, sur des données réelles des entreprises ¾Introduction d’autres types de variables : données de marché, informations macroéconomiques…… ¾ Application des mêmes méthodes sur des données canadiennes ¾ Intégration d’autres types de méthodes dans l’analyse comparative : réseaux de neurones, modèles mixtes…. © Adil Belhouari - Journées de l'Optimisation 2005

25

© Adil Belhouari - Journées de l'Optimisation 2005

26