Data Mining [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

DATA MINING EN ASSURANCE : Quelques Utilisations Rédha TIR Inspecteur Central Direction des Grandes Entreprises (DGE) Ministères des Finances Tél. :+213 70 35 53 85 Fax : +213 94 19 43 E-mail :[email protected] Résumé / Abstract

Dans un contexte de compétitivité économique fondée sur l’usage de l’information, les compagnies d’assurances sont de plus en plus fréquemment amenées à entreprendre une démarche stratégique de traitement de l’information. Eu égard aux gisements d’informations existants dans ce type d’entreprises, l’extraction des connaissances à partir de données appelée communément le « Data Mining » devient un enjeu majeur pour l’ensemble des acteurs (compagnies, autorité de contrôle, conseils consultatifs et organismes d’intelligence économique en général). Au moment où les modèles statistico- mathématiques ont prouvé leurs limites, le Data Mining a pris un essor extraordinaire à travers un certain nombre de techniques empruntées à l’intelligence artificielle et à la biologie. Le but de cette communication est de fournir quelques éléments clés susceptibles d’être utiles aux compagnies d’assurances en matière de traitement des données statistiques disponibles et de leur exploitation à des fins de croissance et de développement de produits et de services personnalisés. La première partie de ce travail consiste à examiner les techniques du Data Mining qui revêtent une importance cruciale pour l’assurance. Ces techniques sont au nombre de quatre : le réseau neuronal (Neural Network), la logique floue (Fuzzy Logic), l’algorithme génétique (Genetic Algorithm) et les ensembles approximatifs (Rough Sets). La deuxième partie concerne les différentes utilisations de ces techniques- simulant le raisonnement humain- et leur adaptation aux problèmes d’assurance. On pourrait citer, la classification de la clientèle et des entreprises à des fins de marketing, l’optimisation du portefeuille et des stratégies commerciales, l’évaluation du risque, la détection des fraudes, etc. Quelques pistes de développement de ces systèmes seront discutées tout au long de cette communication. Mots-clés : Intelligence artificielle, Data Mining, produits d’assurance, classification, optimisation.

1

I- INTRODUCTION Actuellement, il est de plus en plus clair que l’avantage compétitif réside dans les compétences des ressources humaines et la capacité à se doter d’une organisation apprenante. De plus, la connaissance est devenue, plus encore que le capital et les ressources matérielles, l’ingrédient essentiel de la création de valeur (Manfred, 1995). Concernant le marché algérien des assurances, le besoin d’implanter des systèmes d’aide à la décision et d’extraction de connaissance est ressenti de plus en plus avec l’évolution de l’informatique et de la taille de l’entreprise. Ceci dit, l’informatique dans ces entreprises est cantonnée à l’aide à la production effective de la compagnie, ainsi qu’à l’administration traditionnelle (paie, comptabilité, etc.). Les compagnies d’assurances ont aujourd’hui tout intérêt à se concevoir comme organisation apprenante en utilisant le volume d’informations existant. En d’autres termes, il y a une nécessité d’intégrer les services aux spécialités diverses et d’ajouter aux données de production des informations permettant de les mettre en perspective pour des décisions de l’ordre de la stratégie d’entreprise. A cet égard, le data warehouse (entrepôt de données) est considéré comme une reconnaissance de la valeur et du rôle de l’information. Son opérationnalisation pourrait augmenter la performance des décideurs en consolidant, convertissant, transformant et intégrant les données issues de différents sous- systèmes constituant la compagnie d’assurances, et en leur fournissant une vue dynamique, globale et pertinente de leur entreprise. Par ailleurs, Peppers et Rogers disaient qu’ « au lieu de se concentrer sur un produit à la fois, en essayant de le vendre au plus grand nombre possible, concentrez – vous sur un client la fois et essayez de lui vendre autant de produits que possible ». D’où la connaissance du client est d’une importance cruciale pour l’entreprise et sa pérennité. Elle constitue également l’un des facteurs essentiels de la réussite ou de l’échec de la compagnie d’assurances. Ce processus de connaissance utilise souvent les techniques du Data Mining qui signifie la fouille de données dans les gisements de l’entreprise. Ses applications en assurance couvrent l’estimation des risques, gestion de la relation client (CRM), acquisition de nouveaux clients, élaboration des plans de réassurance et enfin, la détection des fraudes. Les outils de data mining représentent l’élément de base autour desquels la connaissance du client et la réalisation de ses applications se construisent. Donc, qu’est-ce que le data mining ? Comment peut-on le mettre en œuvre en assurance ? Quelles sont ses techniques ?

2

II. DATA MINING : PROCESSUS ET TECHNIQUES Le terme data mining a pris son essor depuis 1995 ; mais les techniques qu’il utilise ont plusieurs décennies. Le traitement des données à travers le data mining est un processus de trois étapes fondamentales. Un ensemble de techniques empruntées à l’intelligence artificielle pourrait y intervenir.

II-1. Processus de data mining. Michel Jambu définie le data mining comme suit : « Le data mining est un processus d’analyse fine et intelligente des données détaillées, interactif et itératif, permettant aux managers d’activités utilisant ce processus de prendre des décisions et de mettre en place des actions sur – mesure dans l’intérêt de l’activité dont ils ont la charge et de l’entreprise pour laquelle ils travaillent ». Ainsi, le data mining est né de : •

l’évolution des systèmes de gestion des bases de données vers l’informatique décisionnelle avec l’apparition des entrepôts de données (Data Warehouse).



de plus en plus, du recours des entreprises à la constitution de giga bases de données.



Développement de la Gestion de la Relation Client (CRM) qui représente la tendance actuelle vers un marketing orienté client au lieu de marketing produit.



Progrès réalisés dans le domaine de l’intelligence artificielle en matière d’algorithme d’apprentissage et de règles d’extraction de connaissances.

Ce processus suit trois étapes : exploration, construction d’un modèle ou définition d’une structure, et validation / vérification. En outre, la mise en place d’un projet data mining suppose une très bonne compréhension des objectifs de l’application. Il s’agit, en fait, de bien décomposer le problème en sousproblèmes, et de récupérer, éventuellement, des données supplémentaires jugées nécessaires pour la solution. Cette décomposition du problème permet de connaître sa nature (exploration, création de modèles, identification de modèles, etc.). Un projet de data mining est une gestion par les résultats, autrement dit, l’évaluation des résultats obtenus est cruciale pour sa réussite. Donc, il faudrait choisir la technique convenable pour que le résultat corresponde aux attentes. Après la fixation des objectifs, la première étape de data mining consistera en l’exploration des données.

3

II-1-1. Exploration Cette étape comporte plusieurs opérations. Ces opérations ont trait à la préparation des données pour qu’elles soient exploitables. En effet, la recherche des données (collecte) consiste en un inventaire des sources de données (comment combiner des formats différents). Ensuite, un ensemble d’attributs sera sélectionné par un expert (ex : souscripteur, risk manager, etc.). De plus, ces données doivent être nettoyées (suppression, remplacement, contournement des valeurs manquantes) et modifiées (homogénéisation et normalisation) le cas échéant. II-1-2. Construction d’un modèle Le data mining est souvent considéré comme un mélange des statistiques, d’intelligence artificielle et de recherche de base de données. Il s’appuie sur l’intégration de tests statistiques et d’algorithmes de choix des meilleures techniques de modélisation en fonction des caractéristiques de chaque cas. La constitution d’un modèle en data mining repose sur la nature du problème (discrimination, clustering, etc.). Pour ce faire, des bases de test et d’apprentissage seront mobilisées pour qu’elles soient utilisées par l’algorithme choisi. L’apprentissage peut être supervisé (prédictif) ou non supervisé (exploratoire). Cependant, la data mining ne traite pas d’estimation et de test de modèles préspécifiés, mais la découverte de structures inconnues jusqu’ici

par le biais d’un processus de recherche algorithmique

d’exploration de modèles linéaire et non linéaire, explicite et implicite. II-1-3. Validation / vérification du modèle Le modèle doit être évalué et validé qualitativement (présentation graphique ou textuelle des résultats) et quantitativement (affectation d’un indice de confiance eaux résultats obtenus). Généralement, ces modèles sont validés par le test, c’est – à – dire à l’aide d’un autre échantillon appelé « échantillon test et / ou validation ». En résumé, pour mener à bien un projet de data mining dans une entreprise de banque ou d’assurance, il es nécessaire de : •

identifier et analyser les besoins en vue de fixer des objectifs ;



obtenir (collecter et traiter) des données représentatives du problème étudié ;



identifier le contexte de l’apprentissage ;



sélectionner les attributs et réduire leurs dimensions ;



choisir un algorithme et / ou un espace d’hypothèses ;



choisir un modèle résultant et valider les performances de la méthode utilisée.

4

II-2. Méthodes de data mining Il existe plusieurs méthodes pour effectuer une analyse de type data mining. En fait, l’extraction de connaissances peut être sous forme d’extraction d’association, de ressemblances (ou de similitudes), ou sous forme d’apprentissage automatique. II-2-1. Extraction d’associations Une association peut se présenter au niveau des valeurs (implication) ou au niveau des attributs (corrélations, dépendances). Notons que l’implication est une relation très forte entre deux valeurs, ce qui est rare en réalité. C’est pourquoi la recherche tend vers l’étude des dépendances qui caractérisent les attributs. II-2-2. Ressemblance / Similitude La ressemblance entre deux objets décrits linéairement est l’ensemble des points communs à leurs descriptions. On parle aussi de similitude entre deux objets qui se ressemblent. Parmi les méthodes de regroupement par ressemblance : les K- moyennes, le voisinage dense et l’agglomération. II-2-3. Apprentissage automatique Cette méthode constitue un outil efficace permettant de faire face à la croissance exponentielle du volume de l’information et d’offrir aux utilisateurs des moyens d’accès faciles aux informations. Ainsi, l’apprentissage automatique apporte un gain important de productivité et de réactivité dans l’analyse. En effet, il offre la possibilité aux utilisateurs de réaliser leurs propres modèles de manière autonome. Enfin, les techniques qui se basent sur l’apprentissage automatique sont relativement nombreuses : •

Agents intelligents ;



Arbre de décision ;



Moteur d’association ;



Algorithmes génétiques ;



Réseaux bayésiens ;



Réseaux de neurones ;



Ensembles approximatifs ;



Logique floue.

Nous limiterons notre présentation à celles qui s’appliquent le plus souvent en assurance, tel qu’il est connu dans la littérature assurantielle, et prouvé dans plusieurs expériences d’entreprises d’envergure mondiale.

5

III. CARACTERISATION DES TECHNIQUES DE DATA MINING Le but de cette section de faire connaître les techniques usuelles en data mining et dans le domaine de l’assurance.

III-1. Réseaux de neurones : présentation et évaluation Les réseaux neuronaux revêtent une importance cruciale dans plusieurs domaines. La finance n’échappe pas à l’emploi de ce type de méthodes ou techniques modernes. Il s’agit d’un outil issu de l’intelligence artificielle, habituellement utilisé en sciences appliquées (biologie, physique, etc.) et qui a fait son entrée en finance et en assurance en particulier. Le réseau de neurones est utilisé à des fins de prévision, de classification et de reconnaissance de forme en général. Selon (Paquet, 1997), il existe deux raisons essentielles qui poussent les chercheurs à s’intéresser à cet outil. Primo, contrairement aux techniques statistiques classiques, le réseau neuronal ne nécessite aucune hypothèse sur les variables. Secondo, il représente un instrument adapté pour traiter des problèmes complexes et non structurés, d’où l’impossibilité de spécifier, à priori, la forme de la relation entre les variables étudiées. En finance, le réseau de neurones peut être utilisé pour différentes questions. On pourrait citer : la détection des entreprises en difficulté, la gestion de portefeuille (Paquet, 1997), la prévision des séries financières, du taux de change, l’évaluation d’actifs (Bolgot & Meyfredi, 1999) et le choix de stratégies ( Montagno, Sexton & Smith, 2002). III-1-1 . Architecture du réseau multi -couches Le réseau à couches est le plus utilisé en finance. Il est organisé, comme son nom l’indique, en couches. Chaque couche comporte plusieurs neurones. Chaque neurone représente une unité de calcul autonome reliée aux neurones de la ou les couches précédentes. Le réseau neuronal comporte trois couches. La couche d’entrée (Inputs), une couche de sortie comportant un seul neurone et donnant le résultat de tous les calculs internes. Il existe entre ces deux couches une couche non visible de l’extérieur (hidden) appelée couche « cachée », qui est, en fait, une boite ou engin noir. Là où tous les calculs intermédiaires et transformations s’effectuent. Quant au fonctionnement du réseau, l’algorithme d’apprentissage aura pour tâche d’évaluer des poids dits synaptiques, qui relient les neurones entre eux. Chaque neurone reçoit les informations fournies par les neurones de la couche précédente. Il calcule, ensuite, son potentiel d’activation. Une fonction d’activation sert à déterminer l’impulsion à envoyer aux neurones de la couche qui suit afin de calculer le potentiel de sortie (outputs).

6

III-1-2. Apprentissage du réseau neuronal Afin que le réseau puisse découvrir la forme de la relation entre les variables, il suit, en général, deux types d’apprentissage. Le premier, dit supervisé consiste en l’existence d’un échantillon sur lequel le réseau apprend (s’entraîne) à reconnaître les formes. L’apprentissage non supervisé, qui est le second type, est utilisé lorsque on n’est en mesure de présenter au système un échantillon mettant en regard une quantité d’information, et la forme qu’elle est censée représenter (Paquet, 1997).Par voie de conséquence, le réseau s’auto organise, comme c’est le cas pour l’algorithme de Kohonen, en vue d’être capable de découvrir la forme à partir des données fournies et sans aide extérieure. Les données disponibles doivent être réparties en trois sous-ensembles (apprentissage, validation et test) à raison de 60%, 30% et 10% respectivement. A partir de l’échantillon d’apprentissage, le réseau de neurones se paramètre. Autrement dit, l’algorithme d’apprentissage ajuste les poids synaptiques tout en minimisant une fonction de coût. Cette dernière n’est, en fait, que la somme des carrés des erreurs produits par le réseau eu égard le résultat souhaité. La rétro- propagation des erreurs se fait continuellement jusqu’à ce que la fonction de coût soit minimisée, ou jusqu’à ce que le concepteur intervienne pour y mettre fin. Pour éviter le sur ajustement « overfitting », une procédure d’early stopping devrait être exécutée. Elle consiste en l’introduction de l’échantillon de validation. Le point où cet échantillon réalise le minimum d’erreur reflète la meilleure performance. III-1-3. L’évaluation du réseau neuronal L’échantillon d’apprentissage servira au paramétrage. Le deuxième servira à la validation (arrêter l’apprentissage quand le niveau d’erreur soit le plus bas possible). Autrement dit, l’objectif de celui-ci est d’arrêter le processus d’apprentissage lorsqu’il semble donner un résultat satisfaisant en minimisation de la fonction d’erreur. Le troisième, sera réservé pour évaluer les capacités du réseau à se généraliser et à simuler les outputs relatifs à un autre ensemble de données. Enfin, il est à noter que le réseau neuronal est privilégié pour traiter des non linéarités, et de la complexité en travaillant sur des données caractérisées par l’incomplétude et l’imprécision. De même, les réseaux de neurones permettent le traitement des variables qualitatives à travers des neurones recevant des valeurs binaires comme c’est le cas pour la segmentation et la classification en sciences comportementales (Collins & Clark, 1993).

7

III-2. La logique floue La logique floue constitue l’une des meilleures techniques de modélisation des différents phénomènes. Elle a mis en exergue le fossé qui sépare les représentations mentales de la réalité et les modèles mathématiques connus à base de variables booléennes (vrai / faux). III-2-1. La théorie des ensembles flous Les travaux de L. Zadeh et ses associés se basent sur le constat suivant : « Très souvent, les classes d’objets rencontrés dans le monde physique ne possèdent pas de critères d’appartenance bien définis » (cité par NGUYEN PHUNG, 2001). Ainsi, ce penseur a suggéré qu’au lieu de chercher à tout prix un seuil unique S décidant l’appartenance à un ensemble dans un contexte donné, il semble plus réaliste de considérer deux seuils S1, S2, avec une fonction d’appartenance donnant à chaque individu un degré d’appartenance (compris entre 0 et 1) selon lequel l’individu en question appartient à une classe donnée. En deçà de S1, l’individu appartient complètement à une classe (quand le degré d’appartenance est maximal et égal à 1) ; au delà de S2, il n’appartient plus du tout à cette classe (par convention, le degré d’appartenance est égal à 0). Entre S1 et S2, les degrés d’appartenance seront intermédiaires (entre 0 et 1). La logique floue part essentiellement de la notion de variable linguistique. Ce type de variables sert à modéliser des connaissances imprécises ou incomplètes. III-2-2. Le système flou Un système flou est un processus de formulation de relations entre des entrées (inputs) et des sorties (outputs) en utilisant les règles de la logique floue (The Mathworks, 2004). A partir de ces relations, une décision peut être extraite ou une forme peut être découverte. Ce processus met en relief un certain nombre d’outils, que sont : les fonctions d’appartenance, les opérateurs logiques et les règles de type « Si – Alors ». La figure N° 1 donne une illustration de son fonctionnement. Fonctions d’appartenance : -

les ensembles flous décrivent des concepts vagues ;

-

Un ensemble flou admet la possibilité d’une appartenance partielle en lui ;

- L’appartenance d’un objet à un ensemble flou est déterminée par un degré d’appartenance compris entre 0 et 1. - La fonction d’appartenance associée à un ensemble flou relie la valeur de l’input à sa valeur d’appartenance appropriée ;

8

Opérateurs logiques : il s’agit d’un certain nombre d’opérations sur les ensembles classiques et qui ont été généralisées pour être appliquées aux ensembles flous. Parmi ces opérateurs : L’opérateur NON (complément), l’opérateur ET (intersection), l’opérateur OU (union), L’implication floue.

Figure 1. Processus d’un système flou Règles Si- Alors : l’interprétation de ce type de règles est un processus de quatre étapes : Définition des entrées et des sorties ; Fuzzification ou définition des fonctions d’appartenance des variables. Il s’agit, en fait, d’attribuer à chaque variable des degrés d’appartenance à différents états que l’on doit définir ; Création des règles d’inférence : ceci consiste en une formulation de règles qui lient les données aux actions. Ces règles sont établies pat une personne experte dans le domaine et non pas par un programmeur. Calcul et défuzzification : une fois les calculs faits, on obtient un schéma de résultats qui n’est autre qu’une valeur floue. L’objectif est de transformer cette valeur floue en grandeur réelle. Pour cela, il existe trois grandes méthodes : -

La méthode du maximum qui correspond à l’abscisse minimum de l’ordonnée maximum de la surface. Elle est peu utilisée.

9

-

La méthode de la moyenne pondérée ;

- La méthode des centroides est la meilleure. Elle consiste tout simplement à calculer les centres de gravité des surfaces. De plus, il existe deux types de système d’inférence que l’on peut utiliser selon le besoin. La méthode MAMDANI est la plus connue et qui présente les caractéristiques suivantes : - Elle est intuitive ; - Elle largement utilisée ; - Elle simule le raisonnement humain ; Par ailleurs, la méthode dite Sugeno, introduite pour la première fois en 1985, présente, quant à elle, les avantages suivants : - Très efficace du point de vue de calcul ; - Elle fonctionne bien avec les techniques linéaires, l’optimisation et les techniques dites adaptives ; - Enfin, elle privilégie l’analyse mathématique ; Concernant les domaines d’application de la logique floue en assurance,on peut citer l’évaluation d’actifs et de crédit, l’évaluation du risque, la souscription des contrats d’assurance, les recherches commerciales, la segmentation, etc. des models de l’assurance floue ( fuzzy insurance) sont largement conçus et exploités pour répondre à ces attentes ( Lemaire, 1990)..

III-3. Les Algorithmes Génétiques Holland fut le premier qui a proposé les Algorithmes Génétiques (AGs) dans les années 70. Ces derniers sont des algorithmes d’optimisation stochastique fondés sur les mécanismes de l’évolution génétique des espèces, plus précisément, du principe de sélection naturelle. III-3-1. Présentation des Algorithmes Génétiques Les AGs travaillent sur une population de points au lieu d’un point unique. Contrairement aux autres méthodes, Ils utilisent un codage des paramètres et non les paramètres eux mêmes. De plus, les AGs ne prennent en considération que les valeurs de la fonction étudiée, pas sa dérivée, ou une autre connaissance auxiliaire (Cordon et al, 2004). Lors de leur fonctionnement, ils utilisent des règles de transition probabilistes (en situation de croisement ou de mutation par exemple) et non déterministe. Un AG manipule une population de taille constante N. Cette population se compose d’individus, chacun représente le codage d’une solution potentielle au problème posé, donnée

10

sous la forme d’une chaîne de caractères. Chaque chaîne de caractères correspond à un Chromosome (individu / séquence). Chaque caractère à un gène et chaque lettre de l’alphabet à un allèle. Le locus est la position d’un gène au sein d’un chromosome. Reste la fonction sélective, qui permet d’associer une valeur à chaque individu de la population. Cette fonction est souvent une transformation de la fonction objective à optimiser (appelée fonction de fitness). Par ailleurs, il existe trois principaux types de codage : binaire, gray ou réel. Le fonctionnement d’un algorithme génétique se base sur les phases suivantes (Cordon et al, 2004) : - Initialisation : il s’agit de générer aléatoirement une population d’individus de taille donnée ; - Evaluation : chaque chromosome est décodé puis évalué ; - Sélection : utilisation d’une technique de sélection appropriée afin de créer une nouvelle population de N chromosomes ; - Reproduction : il s’agit, en fait, de recombiner deux individus appariés (lors de la phase précédente) pour créer deux nouveaux individus. Il y a donc possibilité de mutation ou de croisement au sein de la nouvelle population. -Retour : à la phase de décodage et d’évaluation des chromosomes, jusqu’à l’arrêt du processus. III-3-2. Opérations génétiques classiques Ces opérations jouent un rôle déterminant dans la réussite d’un AG. Les principaux opérateurs sont en nombre de trois : Opérateur de Sélection : la sélection est la première étape du fonctionnement d’un algorithme génétique. L’objectif est de sélectionner des chromosomes en fonction de leur valeur sélective. Les individus qui disposent d’une meilleure valeur sélective seront choisis. Pour ce faire, il existe plusieurs méthodes pour la sélection. La roue de loterie biaisée (Roulette Wheel) de Goldberg en est la plus connue et utilisée. Opérateur de Croisement : la recombinaison se fait en deux étapes essentielles : - L’appariement : consiste à choisir deux individus parmi ceux qui ont été sélectionnés pour en créer d’autres (Cordon et al, 2004). Il y’a diverses méthodes pour ça, parmi lesquelles : l’appariement aléatoire, la consanguinité et le croisement entre lignées ou inter fécondations (la lignée résulte de l’appariement de deux individus proches au sens de la distance de Hamming).

11

- Le croisement : cet opérateur combine deux individus appariés avec une probabilité Pc, qui est classiquement, comprise entre 0.5 et 0.9 .Plus cette probabilité est élevée et plus la population subira un changement. Opérateur de Mutation : lors d’un processus de sélection, certaines informations peuvent disparaître de la population. Afin d’éviter l’établissement de populations uniformes incapables d’évoluer, l’opérateur de mutation permettra de modifier aléatoirement, avec une probabilité donnée Pm, la valeur d’un composant de l’individu, mais il ne crée, généralement, pas de meilleurs individus. Le choix de cette probabilité est d’une importance cruciale. En effet, Pm dépend de la taille N de la population, et de la longueur des individus (chromosomes). Elle est inversement proportionnelle à la probabilité de croisement ; plus elle est élevée et plus la performance de l’AG décroît. Actuellement, les chercheurs visent une réduction du temps de convergence de l’AG, et l’amélioration de la qualité de la population finale. III-3-3. Utilisation des Algorithmes Génétiques Les AGs font l’objet de plusieurs applications dans plusieurs domaines. En finance particulièrement, les recherches portent sur la prévision (séries temporelles, économétrie, etc.), l’optimisation et sur la prise de décision financière en général. En assurance, les recherches sont orientées vers la résolution des problèmes liés à la classification (segmentation, évaluation), à l’optimisation des stratégies commerciales et de la gestion du portefeuille et,

enfin, à la compétitivité d’un produit financer ou d’assurance

(Shapiro, 2000). Sur le plan logiciel, le module « Genetic Algorithm & Direct Search » dans sa première version, fonctionnant sous MATLAB 7 ( The Mathworks, 2004) constitue l’un des meilleurs instruments conviviaux , développé à des fins de résolution et d’analyse de problèmes liés essentiellement aux algorithmes génétiques.

III-4. La théorie des ensembles approximatifs En 1982, dans un article fondateur de la revue « International Journal of Computer and Information Sciences », Pawlak a introduit la théorie des ensembles approximatifs (TEA). Cette théorie vise l’analyse et la classification des données compte tenu de leur imprécision. Elle présente l’avantage d’être indépendante de la distribution des données. Plusieurs domaines ont réussi l’application de la TEA. Parmi eux, le domaine médical, la finance, le marketing, etc. La TEA pourrait constitue une méthode adéquate pour la classification en assurance du fait de la nature non paramétrique des données collectées ainsi que leur imprécision.

12

Sur le plan informatique, il existe aujourd’hui deux logiciels très conviviaux, téléchargeables sur Internet, qui permettent, en fait, l’application de la TEA. Il s’agit des logiciels ROSE2 et ROSETTA (Ohrn, 2001). III-4-1. Terminologie de la TEA La TEA présente les avantages suivants : - le raisonnement à partir des données imprécise ou ambiguë ; - l’utilité pour l’apprentissage automatique et l’extraction de connaissances ; - la réduction du degré de précision en vue de définir le concept afin de mettre en relief des relations. Cette théorie vise à prévoir l’affectation des individus ou des objets à plusieurs ensembles afin de gérer l’indiscernabilité. Pour ce faire, les données collectées se présentent sous la forme d’une table d’information qui est une matrice à deux dimensions divisées en trois sections dont chaque ligne décrit une entité. Ces sections sont : - Les éléments de l’univers : les individus ou les objets concernés ; - Les conditions : reflètent les caractéristiques des éléments de l’univers à étudier ; - Les décisions : représentent les caractéristiques que l’on cherche à expliquer, à prédire ou à classer. L’application de la TEA passe par plusieurs phases : discrétisation, formation des atomes, recherche des redondances, génération des règles, classification et validation. III-4-2. Discrétisation des données L’application des principes des ensembles approximatifs exige que toutes les données (appelées aussi attributs) soient sous forme discrète. Donc les données continues doivent être discrétisées avant de commencer l’opération de génération de règles. La discrétisation granule le domaine continu des attributs, ce qui facilite l’induction de règles courtes et fortes. Il existe plusieurs manières de discrétiser des données continues. La première consiste en la création des classes sur la base des connaissances de la personne. Cependant, il n’est pas toujours facile d’établir un tel classement. La deuxième se traduit par le recours à un certains algorithmes permettant la transformation des données continues en données discrètes. On pourrait citer, à titre d’exemple, le logiciel ROSE2 qui dispose de trois types de discrétisation :

13

-

locale

-

locale supervisée

-

globale

III-4-3. Formation des atomes La TEA repose sur un concept fondamental qui est la relation d’indiscernabilité, normalement associée à un ensemble d’attributs. Or, les ensembles indiscernables sont appelés ensembles élémentaires. Lorsque tous les attributs sont pris en compte, les ensembles élémentaires cités ci – dessus formés par les objets sont appelés atomes. De plus, les attributs décisionnels peuvent être exprimés de la même façon. Ils sont appelés donc concepts. Sur la base des atomes, on peut évaluer comment les différents individus ou objets se placent par rapport aux concepts. En ce qui concerne la performance de l’application, deux mesures sont connues : l’exactitude et la fiabilité. L’exactitude est une mesure de l’inconsistance des données. Elle est donnée par l’exactitude de l’approximation calculée comme l’approximation inférieure sur l’approximation supérieure d’un concept.

La deuxième mesure, qui est la fiabilité permet d’apprécier la qualité de

l’approximation des données. Cette qualité est définie comme la somme des individus ou objets des approximations inférieures pour tous les concepts sur le nombre d’individus ou objets totaux. III-4-4. Recherche des redondances Il est aisé de définir les attributs redondants par le concept d’indiscernabilité. En effet, si un ensemble d’attributs et un sous – ensemble d’attributs définissent la même relation d’indiscernabilité, alors chaque attribut appartenant au sous –ensemble est redondant. III-4-5. Génération de règles Les règles générées sont de type « Si –Alors » sur la base des atomes et concepts formés précédemment. Il y a des règles certaines (induites par l’approximation inférieures) et des règles possibles (induites par l’approximation supérieure du concept). III-4-6. Classification Une fois les règles formulées, la classification pourra s’effectuer. Si la méthode discrimine bien entre les segments, la classification sera bonne et vice – versa. Dans la pratique, il existe deux types de classification : a priori et post –hoc.

14

VI – LES APPORTS DU DATA MINING AUX PROBLEMES DE L’ASSURANCE Depuis le début de la décennie, 1990, les applications de l’intelligence artificielle en finance se sont multipliées. Elle concernent trois principaux domaines : la prévision, l’optimisation et la classification. La finalité d’utilisation de ces nouvelles et de fournir une information fiable au moment opportun et au moindre coût. En effet, la valeur d’une information est déterminé par son utilisation, c’est-à-dire est fonction du résultat de la décision dans laquelle elle est utilisée. De plus, certains chercheurs et praticiens insistent sur le fait que la valeur de l’information s’accroît avec son actualité, son exhaustivité, son exactitude et sa fiabilité. Or, ce type de méthodes pourrait parfaitement satisfaire ces conditions.

VI – 1. Prédiction La revue de la littérature fait ressortir différentes finalités d’utilisation

de techniques

modernes par opposition aux méthodes statistiques traditionnelles. Les outils intelligents représentent une source importante de solutions pour des problèmes variés, qui touchent essentiellement à des aspects stratégiques de la vie de l’organisation. Les réseaux de neurones ont été utilisés à des fins de prévision en exploitants le passé d’une variable en vue d’extraire des relations permettant de prédire sa valeur future. En outre, les réseaux de neurones sont capables de découvrir la forme de ces relations (linéaire, non linéaire). Ainsi, les réseaux de neurones ont été utilisés pour prévoir la volatilité des indices boursiers, le taux de change, le taux d’inflation dans une économie donnée (Paquet, 1997). En assurance, le réseau de neurones peut être appliqué pour détecter les mauvais risques. Ces derniers vont être transférés (cédés) par la suite au(x) réassureur(s), ou à un plan de répartition des risques (PRR). Pour ce faire, l’assureur peut construire un réseau neuronal afin d’évaluer la prime pure qui correspond, en réalité, à l’espérance mathématique des indemnités associées à un risque particulier. En cas de cession, la différence entre cette prime (issue de réseau neuronal) et la prime cédée à la réassurance constitue un profit projeté pour l’assureur. De plus, pour chaque risque cédé le profit effectivement réalisé représente la différence entre les indemnités payées et le volume des primes transférés au réassureur. Or, les expériences étrangères montrent que cette opération génère des gains considérables permettant à l’assureur d’améliorer son niveau de solvabilité à travers le transfert des risques indésirables. Concernant, le rating des compagnies d’assurances, la prédiction de la solvabilité est importante pour l’autorité de contrôle et / ou de régulation du marché. Le but étant d’assurer une meilleure protection pour les assurés. A ce sujet, les réseaux neuronaux ont pris un essor

15

extraordinaire dans ce domaine contrairement aux méthodes statistiques traditionnelles (analyse discriminante, régression logistique et arbre de décision style ID3 ou CART) car ils sont évolutifs et muables. Comme ils concernent les branches de l’assurance : non vie et vie. Par exemple, un réseau neuronal utilisant la rétro- propagation a été construit dans le but de mettre en place un système d’alerte (warning system) pour prévoir l’insolvabilité des assureurs deux ans avant la ruine. Les résultats de ce réseau démontrent qu’il est plus performant que l’analyse discriminante. Celle –ci est utilisée par un organisme privé de natation des assureurs, et l’autorité de régulation du marché aux Etats Unis. Des chercheurs se sont penchés sur l’optimisation des paramètres du réseau neuronal en introduisant un algorithme génétique dedans. Les résultats étaient encore une fois plus performants que celles produits par les méthodes classiques telles que les K- plus proches ainsi que la régression logistique. Notons que les données statistiques ont été fournies par l’autorité de régulation des systèmes d’information des assureurs en Corée du Sud (Graham & Huang, 1996). Quant à l’assurance vie, les assureurs s’intéressent aux taux de mortalité et de morbidité. Le réseau neuronal a été également exploité pour traiter les statistiques liées à la cure intensive, aux caries dentaires et aux complications hospitalières (Shapiro, 2000). Quant aux algorithmes génétiques, ce domaine (la prévision) constitue une voie de recherche à grand potentiel. Les AGs peuvent rechercher une forme fonctionnelle, des valeurs des coefficients de régression etc. La prévision du taux de change en est l’exemple. Selon (Cordon et al, 2004), les AGs ont été adaptés aux problèmes de séries temporelles (type de modélisation, valeur des coefficients etc.). On peut rajouter une piste de recherche, qui est proche du Data mining. Celle-ci consiste à prévoir des événements rares. La prévision de tels événements est très importante pour certaines activités de banque et d’assurance, par exemple : carte de crédit en utilisant un historique d’achats, comportements inhabituels sur un marché financier, les comportements frauduleux en assurance etc.). Enfin, la logique floue a permis la prévision de différents phénomènes à travers ce qu’on appelle variable linguistique. Elle reste l’instrument privilégié quand il s’agira de données imprécises ou incomplètes. Selon (Shapiro, 2000), la logique floue répond aux besoins de la modélisation, par les spécialistes de la finance, dans les domaines suivants : l’évaluation des taux, le calcul actuariel, la souscription et l’élaboration de stratégies d’investissements. Combiner plusieurs approches est

16

très bénéfique et recommandé et peut aboutir à des résultats satisfaisants ou meilleurs (Von Altrock, 2002). Concrètement, Young (1997) montre comment peut- on utiliser la logique floue pour prendre des décisions concernant

l’évaluation d’actifs dans un groupe d’assurance maladie en

introduisant des données dites auxiliaires telles que les donnés marketing ou celles des concurrents en plus de l’expérience statistique du groupe. L’analyse débauche sur un modèle compétitif du changement de taux. Ce modèle emploie des contraintes floues en vue d’ajuster les taux existants. Trois règles de type linguistique ont été générées comme suit : •

SI (Sinistres / Primes) élevé ET volume d’affaires est gros ALORS « Augmenter les taux » ;



SI (Sinistres / Primes) modéré ET volume d’affaires est modéré ALORS « ne pas changer les taux » ;



SI (Sinistres / Primes) faible ET volume d’affaires est petit ALORS « diminuer les taux » ;

Les systèmes hybrides quant à eux, connaissent une évolution à mesure que la performance de l’apprentissage automatique a augmenté.

VI – 2. Optimisation Les AGs sont, généralement, connus pour leur puissance en matière d’optimisation. Ils ont été exploités pour identifier les réseaux de neurones qui présentent une meilleure performance. Cela consiste à évaluer le nombre de neurones que comprend la couche cachée d’un réseau neuronal jugé performant. Plusieurs études ont traité cette question (Montagno et al, 2002). Cordon et al. (2004) citent trois principaux succès des AGs dans le domaine de l’optimisation : •

Dans le cadre du management passif, les AGs contribuent largement à l’identification de meilleurs portefeuilles (composés d’actions, d’obligations etc.), ou à choisir un portefeuille optimal.



Les AGs cherchent des règles optimales de prévision (sous forme : Si - Alors), afin de prévoir les performances futures d’un portefeuille donné. Autrement dit, l’algorithme génétique, à partir de l’évolution passée d’une valeur mobilière, pourrait prédire l’évolution future de son cours. En outre, les chercheurs recommandent l’utilisation de modèles mixtes qui améliorent nettement l’ensemble des résultats (utilisation d’un réseau de neurones avec un algorithme génétique d’optimisation, ou un système neuro-flou).

17



Enfin, la découverte de règles optimale d’échanges (Trading Rules), peut être réalisée par les AGs, sur les marchés d’actions et des changes (Pavlidis et al, 2002). Selon ces auteurs, les AGs ont donné des résultats prometteurs. En conséquence, les stratégies d’échanges élaborées ont généré un gain satisfaisant.

A titre d’exemple, on pourrait implanter un algorithme génétique afin de bâtir la frontière efficiente d’un portefeuille (ensemble de portefeuilles avec des combinaisons optimales de risque et de rentabilité). Les données sous-jacentes consistent en 250 scénarii de rentabilité pour 8 classes d’actifs. Cet algorithme a donné de bons résultats (après 50 itérations) par rapport à un optimizer non linéaire sophistiqué. Par ailleurs, un autre AG a été conçu dans le cadre d’une simulation de type Monte Carlo pour évaluer le triplet : profitabilité – risque – compétitivité des produits d’assurances (Shapiro, 2000). Son exécution visait la recherche d’une allocation optimale permettant de tenir compte de ces trois variables. L’objectif serait de mieux positionner ces produits- là.

VI – 3. Segmentation La segmentation représente un des plus importants domaines d’application de l’intelligence artificielle en finance. Elle concerne les risques, la clientèle, les entreprises etc. L’objectif est d’évaluer, élaborer un tarif ou encore segmenter une clientèle ou un marché donné. Les réseaux de neurones ont répondu à ce besoin naissant. Les banques, assurances et différents établissements financiers les ont utilisé pour élaborer des politiques et tracer des plans d’actions. Parmi les domaines concernés : la souscription des contrats d’assurances, évaluation du risque crédit particulier et crédit entreprises, la valorisation des placements financiers et la détection de comportements frauduleux à propos des déclarations des risques et des sinistres. La finance comportementale, quant à elle, a bénéficié de ces avancées. La confrontation des résultats des modèles d’évaluation d’actifs avec ceux générés par des réseaux neuronaux a permis de tirer des remarques concluantes (Paquet, 1997). Les données utilisées sont généralement, des batteries de ratios financiers, ou des caractéristiques descriptives d’un échantillon (ou population) donné. Dans le but d’éviter ou de minimiser les risques d’insolvabilité, les réseaux neuronaux améliorent nettement le classement des entreprises par rapport aux techniques statistiques traditionnelles. A leur tour, les AGs ont donné des résultats très remarquables dans ce domaine. Une étude qui a porté sur les risques de banqueroute, élaborée par Varreto (1998), illustre

18

clairement l’efficacité des AGs par rapport à l’analyse discriminante linéaire. Bien que concluant sur une relative supériorité de la méthode traditionnelle, l’auteur rappelle le caractère rapide et moins contraignant que revêtent les AGs dans l’obtention des résultats. Enfin, la classification offre un terrain d’expérimentation très intéressant au concept des ensembles flous. La classification floue est née essentiellement suite aux différents problèmes rencontrés au sujet de la segmentation. Les méthodes traditionnelles ont prouvé leurs limites. Ces limites sont au nombre de deux : •

La nature des données recueillies en fonction de la complexité du comportement du consommateur (préférences, attitudes etc.).



La structure du marché, puisque il n’est pas simple de cerner avec clarté les frontières des classes d’individus.

L’approche par la logique floue avance le concept du degré d’appartenance, qui détermine la force avec laquelle un individu appartient aux différentes classes. En ce cas, ces classes peuvent être considérées comme des sous-ensembles flous. Les techniques floues fournissent une matrice des degrés d’appartenance de chaque individu à chaque classe. Parmi ces techniques, l’algorithme C- Moyennes floues, K- plus proches voisins flous. Ces techniques aident le manager à segmenter un marché, une clientèle donnée selon ses caractéristiques socio- démographiques, un ensemble de prestations de services, produits etc. Dans ce contexte, le data mining peut faire apparaître des opportunités inexploitées sur le marché des assurances. Une compagnie d’assurances irlandaise a découvert un segment étonnant de ses clients : les hommes jeunes disposant de voitures très chères, mais présentant un risque minimal. La clef du mystère : des propriétaires de voitures de collection, qui sortent rarement et les réparent eux- mêmes. La compagnie a créé un contrat spécial, qui a généré 70% de retour sur investissement en 6 mois. Enfin, les ensembles approximatifs enregistrent des performances incomparables en matière de détection de mauvais risques, de clients douteux et surtout de défaillance d’entreprise. Ceci dit, cette technique est déjà largement utilisée pour augmenter les compétences de diagnostic et de conseil des collaborateurs en relation avec la clientèle, ainsi que pour tenir compte de la nature non structurée de la décision, de l’incomplétude des données et leur imprécision.

19

V- CONCLUSION Au vu de cette communication, il apparaît que le data mining s’appuie sur le constat qu’il existe des connaissances latentes dans les gisements d’informations au sein des entreprises d’assurances. Il donne reflète ce que les américains appellent la « million dollars décision ». En d’autres termes, la décision que prendra un manager grâce à une information cachée parmi des millions de données que possède la compagnie d’assurances. Ainsi, le data mining offre des perspectives nouvelles pour la statistique assurancielle. Les outils intelligents (réseaux neuronaux, la logique floue, algorithmes génétiques et ensembles approximatifs), revêtent de plus en plus, une importance cruciale en finance et en assurance en particulier. L’apport considérable de ces techniques est varié. Il touche essentiellement à la prévision, à l’optimisation ou encore à la classification. Ainsi, la mise en place et en œuvre de systèmes intelligents permet d’instaurer une volonté continue d’actualiser les données économiques et financières, d’inciter les opérateurs à collecter mieux les informations et les bien classer. Ce processus de traitement de l’information disponible sur différents supports est déterminant pour une prise de décision correcte et adéquate. Ainsi, les administrations (ex : autorité de contrôle) comme les compagnies d’assurances sont appelées, de plus en plus, à adopter des techniques en vue d’améliorer la performance de leurs systèmes d’information. Ceci pourrait conduire à réduire l’incertitude, à maîtriser les risques et à la bonne exécution des stratégies. Enfin, parmi les pistes de recherche actuelles et futures, on peut citer l’utilisation des ensembles approximatifs basés sur la relation de dominance, les systèmes d’induction de type « machine learning » (Kasabov et al, 2003) et les algorithmes génétiques (évolutionnistes) multiobjectifs (Bonissone, 2005).

20

BIBLIOGRAPHIE BOLGOT S., MEYFREDI J. C. (1999). Réseaux de neurones, lissage de la fonction d’actualisation et prévision des OAT démembrées : une étude empirique, document GREQAM, Université de la Méditerranée, France. BONISONNE P. (2005). Developpment and maintenance of fuzzy models in financial applications. “ Téléchargé”. COLLINS J. M., CLARK M. R.(1993). An application of the theory of neural computation to the prediction of workplace behaviour : an illustration and assessment of network analysis, Personnel Psychology, 46 : 503- 524. CORDON O., GOMIDE F., HERRERA F., HOFFMAN and MAGDALENA L. 2004. Ten Years of Genetic Fuzzy Systems: Current framework and News Trends. Fuzzy Sets and Systems, 141: 5-31. DEMUTH H., BEALE M. (2001). Neural Network Toolbox : for use with MATLAB, version 4, The Mathworks. GRAHAM J. W., HUANG Z.(1996). A case study in knowledge acquisition for insurance risk assessment using a KDD methodology. PKAW96. The Pacific Rim Knowledge Acquisition workshop. Sydney, Australia, october. KASABOV N., DENG D., ERZEGOVEZI L., FEDRIZZI M., BEBER A. (2003). Hybrid Intelligent Decision Support Systems for Risk Analysis and Prediction of Evolving Economic Clusters in Europe, working paper, University of Otago, New Zealand. LEMAIRE J. (1990). Fuzzy Insurance, ASTIN Bulletin, vol. 20, N° 1. pp. 33-55. LESAGE C. (2001). Evaluation du Risque d’Audit : proposition d’un modèle linguistique, Cahier de Recherche CEREG , N° 9713, Université Dauphine. MANFRED M. (1995). L’Organisation Apprenante Comme Système de Transformation de la Connaissance en Valeur. Revue Française de Gestion. Sep.- Oct. N°105 : 43- 49. MONTAGNO R., SEXTON R. S., SMITH B. N. (2002). Using neural networks for identifying organizational improvment strategies, www. faculty.smsu.edu /r /rss000f. NGUYEN PHUONG T.(2001). Segmentation des Marchés et Approche Neuro-Floue. Workshop Marketing & Gestion, mars 8th, CREREG, university of Rennes I, France. OHRN A. and KOMOROWSKI J. (2001). ROSETTA: A Rough Set Toolkit for Analysis of Data, http://www.idi.ntnu.no/~aleks/rosetta/ PAQUET P. (1997). L’utilisation des réseaux de neurones artificiels en finance, document de recherche N° 1-1997. Laboratoire Orléanais de Gestion. PAVLIDIS N. G., TASOULIS D. K., VRAHATIS M. N. (2002). Financial forecasting through unsupervised clustering and evolutionary trained neural networks, working paper, Department of Mathematics, University of Patras, Greece. PAWLAK Z. (1982). Rough Sets. International Journal of Computer and Information Sciences. Vol 11. pp. 341356. SHAPIRO A. F. (2000). Self Computing Applications in Actuarial Science, working paper, Penn State University. The Mathworks, (2001). Fuzzy Logic Toolbox: for Use with MATLAB, User’s Guide. VARETTO F. (1998). Genetic algorithms applications in the analysis of insolvency risk. Journal of Banking and Finance, 22: 1421-1439. VON ALTROCK C., (2002), Applying Fuzzy Logic to Business and Finance, OPTIMUS. N° 2 : 38-39. YOUNG V. R. (1997). Ajusting indicated insurance rates: fuzzy rules that consider both experience and auxiliary data. Proceedings of Casualty Actuarial Society, 84, 734- 765.

21