52 4 7MB
Université Cheikh Anta DIOP de Dakar
Laboratoire d’Algèbre de Cryptologie de
Faculté des Sciences et Techniques
Géométrie Algébrique et Application LACGAA
Département Mathématiques et Informatique
Master Transmission de Données et Sécurité de l’Information
Thème :
Étude et Implémentation d’un Outil d’aide à la Décision Médicale sur Basé l’intelligence artificielle : cas du Cancer du Sein chez la Femme Présenté et soutenu par:
Sous la direction du:
Mlle. Aichétou Djimé GALLÉDOU
Dr. Ousmane NDIAYE
Jury : Président : Pr. Cheikh Thiécoumba GUEYE
UCAD
Membres : Pr. Agrégé. Boucar NDONG
UCAD
Dr. Ousmane NDIAYE
UCAD
Dr. Jean Klamti BELO
UCAD
Année Académique 2017 – 2018
I propose to consider the question, “Can machines think”?
A computer would deserve to be called intelligent if it could deceive a human into believing that it was human. - Alan Turing, Mathématicien et Cryptanalyste -
i
DÉDICACES Je dédie ce modeste travail :
À ma mère, ma meilleure amie, ma confidente, ma conseillère, la prunelle de mes yeux Hawa Bocar Diagana pour l’Amour et le soutien inconditionnel qu’elle me donne chaque jour certes, je ne serais pas là où je suis aujourd’hui sans ses conseils, toutes les lettres du monde ne sauraient trouver les mots pour que je puisse exprimer tout ce que j’ai sur le cœur pour elle. Aucun hommage ne pourra être à la hauteur de l’Amour qu’elle me porte, qui ne cesse de me combler qu'ALLAH la procure une bonne santé et une longue vie et je prie qu’il nous réunît dans FIRDAWS son PARADIS ETERNEL ;
À mon père Djimé Dahaba Gallédou qui guide mes pas chaque jour, qui est un exemple pour moi, qui a fait de moi la personne que je suis aujourd’hui par son Amour, ces conseils, son soutien, je ne saurais exprimer l’Amour, la gratitude, le respect et la reconnaissance que j’ai pour lui. Aucun hommage ne pourra être à la hauteur de l’Amour qu’il me porte qui ne cesse de me combler qu'ALLAH lui procure une bonne santé, une longue vie et je prie qu’il nous réunît dans FIRDAWS son PARADIS ETERNEL.
À mon oncle Tahara Dahaba Gallédou que j'aime beaucoup qui a guidé mes premiers pas à l'école, mon premier jour que je n’oublierais jamais en fermant seulement les yeux, je peux remémorer ce souvenir mémorable, toi qui ne cesse de me donner des Douas à chaque fois qu'on se parle qu'ALLAH t'accorde AL-FIRDAWS son PARADIS ETERNEL.
À mes frères, mes sœurs, mes amis, à toutes les membres de ma famille et à mes camarades avec qui j'ai partagé ces années d'études à mes voisines djiboutiennes et comoriennes, je prie pour chacun de vous, qu'ALLAH vous accorde tout ce que vous voulez dans la vie qui est bon pour vous et l'au-delà.
ii
REMERCIEMENTS « Au nom d'Allah, le Tout Miséricordieux le très Miséricordieux et paix et salut sur Mouhamad Rassoulilah son serviteur » Alhamdoulil’Allah, Ô ALLAH à toi la louange jusqu’à ce que tu agrées, à toi la Louange lorsque tu as agréé et à toi la louange après l’agrément, Louange à toi dans toutes les situations, à toi la Louange tout comme tu dis et mieux que ce que nous disons, merci à toi le tout-puissant et le tout miséricordieux de m'avoir donnée la patience et le courage durant ces années d’étude, de m’avoir donné la santé et la volonté d’entamer et de terminer ce mémoire.
Je tiens à remercier mon encadreur le Docteur Ousmane Ndiaye pour l'orientation, la confiance et la patience qui ont constitué un apport considérable sans lequel ce travail n’aurait pas pu être mené.
Je tiens à remercier Mr. Cheikh Djibril Sow pour sa grande générosité et pour ses bonnes explications qui m’ont éclairé le chemin dans l’accomplissement de ce travail. Je tiens à remercier les membres du jury pour l’intérêt qu’ils ont porté à ce mémoire acceptant d’examiner et de l’enrichir par leurs propositions particulièrement au Professeur Boucar Ndong de la Faculté de Médecine de Pharmacie et d’odontologie.
Mes profonds remerciements s’adressent à tous les membres du corps professoral de la TDSI de m’avoir accompagné tout au long de ces 5 années de formation certes ils m’ont beaucoup appris, avec générosité et patience.
Je tiens à remercier le Docteur Ibrahima Diakhaté de m'avoir accueilli au Centre d'Imagerie Diagnostique et Interventionnelle, certes bon nombre de personnes m'ont fermé leur porte au nez et vous avez ouvert le vôtre je vous en serai toujours reconnaissante.
Un grand merci au Dr. Dialla Traoré, au Dr. Mouhamed Diawara et à Mr. Ibrahima Soccé Radiologue technicien à CIDIS.
iii
A LA MEMOIRE DE Tous ceux qui ont contribué à mon éducation, à ma formation et à ceux qui étaient là pour moi, mes rayons de soleil et qui ne sont plus là malheureusement. Mes grands Parent : -
Mariam Moussa Séméga Maro Moussa Séméga Mohamed Moussa Séméga Bakary Moussa Séméga Djénéba Lakhami Séméga Bocar Diagana Dahaba Djimé Gallédou Assa Diagana Assa Tandia Gniouma Kandé Magassouba Aminéta Doungou
Mon Oncle Hadya Kaou Diagana Ma petite sœur et Mon petit frère : -
Maro Djimé Gallédou Bocar Djimé Gallédou
Mes professeurs : -
Nima Kanté Ba Khassoum
Certes, la mort nous a séparé vous êtes plus là ainsi est le destin de chaque être humain, mais je ne vous oublierai jamais vous resterez à jamais dans mon cœur jusqu’à mon dernier souffle. Reposez en paix qu’ALLAH vous accorde AL-FIRDAWS SON PARADIS ÉTERNEL.
iv
AVANT-PROPOS Laboratoire d’Algèbre, de Cryptographie, de Géométrie Algébrique et Applications (LACGAA): objectifs et Domaine de recherche. Depuis 2004, le laboratoire LACGAA est le seul de la sous-région spécialisé sur la formation et la recherche en cryptographie et dans les domaines de la sécurité de l’information. Le laboratoire LACGAA a déjà formé en master, plus de 100 titulaires du master 2 (niveau ingénieur) qui travaillent dans les entreprises en France, aux USA, au Sénégal et dans la sousrégion ; et en licence, plus de 40 techniciens. En Thèse, le labo est entrain de former plus de 10 thèses en codage et cryptologie à Dakar et en France dont 5 ont terminés. Sous la direction du Professeur Mamadou Sangharé, le laboratoire LACGAA a pour objectifs: 1. La formation à la recherche fondamentale et appliquée dans les domaines de La Cryptographie, de la Théorie des codes, de l’Algèbre, de la Géométrie et de leurs applications (en logique, en informatique, en sécurité de l’information, en biologie, en robotique etc.) par :
des enseignements pour les jeunes doctorants durant leur première année d’inscription en thèse ;
l’encadrement des jeunes doctorants durant toute la durée de leur thèse ;
la mise en place d’un cadre approprié pour l’épanouissement des jeunes doctorants.
2. L’organisation de la recherche par la mise en place d’un cadre approprié pour l’épanouissement des chercheurs et le développement de la recherche ; 3. la création de licences et de masters professionnels et recherches en algèbre, géométrie et leur application notamment en sécurité informatique les principaux domaines de recherche sont l’algèbre et ses différentes applications : Algèbre commutative, algèbre non commutative, algèbre associative, algèbre non associative; géométrie algébrique commutative et non commutative, Homologie et Cohomologie, Théorie algébrique et analytique des nombres, Cryptographie, Théorie des Codes Correcteurs d’Erreurs, Théorie du signal Informatique théorique, Sécurité informatique etc.
v
SOMMAIRE INTRODUCTION GÉNÉRALE ---------------------------------------------------------------------- 1 PARTIE I : CADRE THÉORIQUE ET MÉTHODOLOGIQUE ------------------------------ 2 CHAPITRE 1: CADRE THÉORIQUE ----------------------------------------------------------- 3 INTRODUCTION -------------------------------------------------------------------------------- 3 1.1. PROBLÉMATIQUE -------------------------------------------------------------------- 3 1.2. LES OBJECTIFS DU PROJET ------------------------------------------------------- 3 1.3. LES HYPOTHÈSES DE RECHERCHE -------------------------------------------- 4 1.4. LA PERTINENCE DU SUJET ------------------------------------------------------- 4 CONCLUSION ----------------------------------------------------------------------------------- 4 CHAPITRE 2: CADRE MÉTHODOLOGIQUE ---------------------------------------------- 5 INTRODUCTION -------------------------------------------------------------------------------- 5 2.1. TECHNIQUES D’INVESTIGATION ----------------------------------------------- 5 2.2. PRÉSENTATION DES DONNÉES MAMMOGRAPHIQUES ----------------- 5 2.3. DIFFICULTÉS RENCONTRÉES ---------------------------------------------------- 6 CONCLUSION ----------------------------------------------------------------------------------- 7 PARTIE II : CADRE ANALYTIQUE ET IMPLÉMENTATION ---------------------------- 8 CHAPITRE 1: LE CANCER DU SEIN ----------------------------------------------------------- 9 INTRODUCTION -------------------------------------------------------------------------------- 9 1.1. ANATOMIE DU SEIN ----------------------------------------------------------------- 9 1.2. SYMPTÔMES ET SIGNES ---------------------------------------------------------- 10 1.3. TUMEURS DU SEIN ----------------------------------Erreur ! Signet non défini. 1.4. CANCER DU SEIN-------------------------------------------------------------------- 12 1.5. TYPES HISTOLOGIQUES DU CANCER DU SEIN ---------------------------- 15 1.6. CLASSIFICATION TNM ------------------------------------------------------------ 18 1.7. EVOLUTION --------------------------------------------------------------------------- 20 1.8. DIAGNOSTICS ------------------------------------------------------------------------ 21 1.9. TRAITEMENTS ----------------------------------------------------------------------- 26 CONCLUSION ---------------------------------------------------------------------------------- 26 CHAPITRE 2: INTELLIGENCE ARTIFICIELLE ------------------------------------------ 28 INTRODUCTION ------------------------------------------------------------------------------- 28 2.1. PRÉSENTATION DE L’INTELLIGENCE ARTIFICIELLE ------------------- 28 2.2. HISTOIRE DE L’INTELLIGENCE ARTIFICIELLE ---------------------------- 29 2.3. LES DIFFÉRENTS TYPES D’INTELLIGENCE ARTIFICIELLE ------------ 29 CONCLUSION ---------------------------------------------------------------------------------- 32 CHAPITRE 3: MACHINE LEARNING -------------------------------------------------------- 33 INTRODUCTION ------------------------------------------------------------------------------- 33 4.1. PRÉSENTATION DU MACHINE LEARNING ---------------------------------- 33 4.2. LA COLLECTE DE DONNÉES ---------------------------------------------------- 34 4.3. LA MODÉLISATION ----------------------------------------------------------------- 35 4.4. LA TÂCHE À ACCOMPLIR -------------------------------------------------------- 36 4.5. LES DIFFÉRENTS TYPES D’APPRENTISSAGE ------------------------------ 36
vi
4.6. LES ALGORITHMES D’APPRENTISSAGE ------------------------------------- 39 4.7. LE SURAPPRENTISSAGE ---------------------------------------------------------- 59 4.8. LA RÉGULARISATION ------------------------------------------------------------- 61 4.9. LE SOUS-APPRENTISSAGE ------------------------------------------------------- 62 CONCLUSION ---------------------------------------------------------------------------------- 63 CHAPITRE 4: DEEP LEARNING --------------------------------------------------------------- 64 INTRODUCTION ------------------------------------------------------------------------------- 64 4.1. PRÉSENTATION DU DEEP LEARNING ---------------------------------------- 64 4.2. LES DIFFÉRENTS TYPES D’ARCHITECTURE DEEP LEARNING ------- 67 CONCLUSION ---------------------------------------------------------------------------------- 69 CHAPITRE 5: LES RÉSEAUX DE NEURONES CONVOLUTIONELS --------------- 70 INTRODUCTION ------------------------------------------------------------------------------- 70 5.1. PRÉSENTATION DES RÉSEAUX DE NEURONES CONVOLUTIONELS ------------------------------------------------------------------------------------------------------70 5.2. TRANSFER LEARNING EN CNN ------------------------------------------------- 80 CONCLUSION ---------------------------------------------------------------------------------- 84 CHAPITRE 6: IMPLÉMENTATION ---------------------------------------------------------- 86 INTRODUCTION ------------------------------------------------------------------------------- 86 6.1. PRÉSENTATION DES OUTILS ---------------------------------------------------- 86 6.2. IMPLÉMENTATION ----------------------------------------------------------------- 92 6.3. PRÉ -TRAITEMENT ET DATA AUGMENTATION --------------------------- 94 6.2. ARCHITECTURE ET APPRENTISSAGE DU MODÉLE ---------------------- 95 6.3. RÉSULTATS OBTENUS ET INTERPRETATIONS ---------------------------- 96 6.4. PRÉSENTATION DE L’INTERFACE ------------------------------------------- 105 CONCLUSION -------------------------------------------------------------------------------- 107 CONCLUSION GÉNÉRALE ET PERSPECTIVES ------------------------------------------ 108 BIBLIOGRAPHIE ET WEBOGRAPHIE------------------------------------------------------- 109
vii
LISTE DES FIGURES Figure 1: Structure anatomique du sein...................................................................................... 9 Figure 2: Présentation d'une tumeur du sein vue de face. ........................................................ 15 Figure 3: Cancer canalaire in situ (CCIS) - Macroscopie à gauche et histologie à droite. ...... 16 Figure 4: Cancer lobulaire in situ (CLIS) - Macroscopie à gauche et histologie à droite. ....... 16 Figure 5: Cancer canalaire infiltrant. ........................................................................................ 17 Figure 6: Cancer canalaire infiltrant (CCI) - Macroscopie à gauche et histologie à droite. .... 17 Figure 7: Cancer lobulaire infiltrant(CLI) - Macroscopie à gauche et histologie à droite. ...... 17 Figure 8: Le mamographe. ...................................................................................................... 21 Figure 9: Mammographie montrant une tumeur au sein vue d'en face à gauche et vue de profil à droite. ............................................................................................................................. 22 Figure 10: Résultat d'un examen de mammographique. ......................................................... 23 Figure 11: Échographie montrant une masse kystique. ............................................................ 24 Figure 12: Cytoponction d'une tumeur. .................................................................................... 25 Figure 13: histologie d'une bénigne et d'une tumeur maligne. ................................................. 25 Figure 14: Étapes de l’apprentissage en ML. ........................................................................... 35 Figure 15: Illustration de la différence entre régression linéaire et classification linéaire. ..... 37 Figure 16: Exemple de représentation de Régression Linéaire. ............................................... 40 Figure 17: Prix d’une maison par sa taille. ............................................................................... 40 Figure 18: Une relation linéaire. .............................................................................................. 41 Figure 19: Représentation de la perte dans un cas de régression linéaire. ............................... 42 Figure 20: Représentation de Perte élevée dans le modèle à gauche, perte faible dans le modèle à droite. ............................................................................................................................. 43 Figure 21: Fonction sigmoïde. ................................................................................................. 45 Figure 22: Résultat de la régression logistique. ....................................................................... 46 Figure 23: Taux de VP et de FP pour différents seuils de classification. ................................ 50 Figure 24: AUC (aire sous la courbe ROC). ............................................................................ 51 Figure 25: L’algorithme k-means regroupe les données en k cluster, ici k = 3. Les centres de gravité sont représentés par de petits cercles. ................................................................... 52 Figure 26: Pour k = 3 la classe majoritaire du point central est la classe B, mais si on change la valeur du voisinage k = 6 la classe majoritaire devient la classe A. ................................. 52 Figure 27: On cherche un hyperplan qui divise les observations en deux catégories. ............. 54
viii
Figure 28: Exemple d’un problème non linéairement séparable. La courbe devient une bande linéaire après avoir appliqué la transformation non-linéaire. ........................................... 55 Figure 29: Neurone du cerveau humain. .................................................................................. 55 Figure 30: Réseau de neurone artificiel. ................................................................................... 56 Figure 31: Représentation d’un neurone artificiel. ................................................................... 57 Figure 32: Représentations de différentes fonctions d'activation............................................. 58 Figure 33: Représentation d’un Rétro-Propagation du Gradient. ............................................ 59 Figure 34: Perte de l'ensemble d'apprentissage et de l'ensemble de validation. ....................... 61 Figure 35: La relation entre l’intelligence artificielle, le ML et le Deep Learning. ................. 64 Figure 36: Synapse Neuronale. ................................................................................................ 65 Figure 37: Comparaison entre un NN et un Deep Learning Neural Network . ........................ 66 Figure 38: Représentation des trois couleurs RVB en proportion égale. ................................. 70 Figure 39: Matrice de matrice RVB. ........................................................................................ 71 Figure 40: Réseau de neurones avec plusieurs couches convolutives...................................... 72 Figure 41: Une matrice d’image multipliée par un noyau ou filtre de matrice. ....................... 72 Figure 42: Exemple de matrice d’image multiplie la matrice de noyau ou de filtre. ............... 73 Figure 43: Convolution d'une matrice avec 2 pas de pixels. .................................................... 76 Figure 44: Exemple d’application du ReLU. ........................................................................... 77 Figure 45: Max-Pooling avec un filtre 2x2. ............................................................................. 78 Figure 46: Average Pooling avec un filtre 2x2. ....................................................................... 78 Figure 47: Aplatissement d'une matrice. ................................................................................. 79 Figure 48: Mise en pool en tant que couche FC. ...................................................................... 79 Figure 49: Illustration du Transfer Learning. ........................................................................... 80 Figure 50: Architecture du modèle LeNet. ............................................................................... 81 Figure 51: Architecture du modèle AlexNet. ........................................................................... 82 Figure 52: Architecture du modèle Inception V3 de Google. .................................................. 82 Figure 53: Architecture du modèle VGGNet. .......................................................................... 83 Figure 54: Étude comparative des différents modèles VGGNet. ............................................. 83 Figure 55: Architecture du modèle ResNet. ............................................................................. 84 Figure 56: Le taux d’erreur dans ImageNet Visual recognition Challenge. ............................ 84 Figure 57: Python. .................................................................................................................... 86 Figure 58: Theano. ................................................................................................................... 87 Figure 59: TensorFlow. ............................................................................................................ 87 ix
Figure 60: Keras. ...................................................................................................................... 88 Figure 61: PYTORCH. ............................................................................................................. 89 Figure 62: Croissance de popularité de TensorFlow. ............................................................... 90 Figure 63: Logo Flask. ............................................................................................................. 91 Figure 64: Jinja. ........................................................................................................................ 91 Figure 65: MySQL. .................................................................................................................. 91 Figure 66: Répartition des données dans les dossiers cas normal/anormal. ............................. 92 Figure 67: Répartition des données dans les dossiers cas normal, bénin et malin. .................. 93 Figure 68: Répartition des données dans les dossiers cas normal et bénin/malin(masse et calcification)...................................................................................................................... 93 Figure 69: Architecture de notre modèle. ................................................................................. 96 Figure 70: Architecture du modèle - cas normal/anormal........................................................ 97 Figure 71: Résultat obtenu - cas normal/anormal. ................................................................... 98 Figure 72: Histogrammes de l’apprentissage et de la validation du cas normal/anormal. ....... 98 Figure 73: Test sur les données cas normal/anormal - Matrice de confusion. ......................... 99 Figure 74: Architecture du modèle - cas normal, bénin et malin. .......................................... 100 Figure 75: Résultat obtenu - cas normal, bénin et malin. ....................................................... 100 Figure 76: Histogrammes de l’apprentissage et de la validation du cas normal, malin et bénin. ......................................................................................................................................... 101 Figure 77: Test sur les données cas normal, bénin et malin - Matrice de confusion. ............ 101 Figure 78: Architecture du modèle - cas normal et bénin/malin (masse et calcification). ..... 102 Figure 79: Résultat obtenu - cas normal et bénin/malin (masse et calcification)................... 103 Figure 80: Histogrammes de l’apprentissage et de la validation du cas normal et malin/bénin(masse et calcification). ............................................................................... 103 Figure 81: Test sur les données cas normal et bénin/malin(masse et calcification): Matrice de confusion. ........................................................................................................................ 104 Figure 82: Présentation de l'interface de l'application. ........................................................... 105 Figure 83: Inscription et connexion d'un utilisateur. .............................................................. 106 Figure 84: Aperçus de la base de données MySQL (les mots de passe sont chiffrés). .......... 106 Figure 85: Test de prédiction sur une mammographie dans l'interface de l'application. ....... 107
x
LISTES DES TABLEAUX Tableau 1: Classification TNM. ............................................................................................... 19 Tableau 2: Classification de cancer du sein par stade. ............................................................. 20 Tableau 3: Gradient du Linéaire régression. ............................................................................ 44 Tableau 4: Classification vrai ou faux et positif ou négatif. ................................................... 49 Tableau 5: Histoire du Deep Learning. .................................................................................... 67 Tableau 6: Quelques exemples d'effets pouvant être obtenus par la convolution des noyaux et des images. ........................................................................................................................ 75 Tableau 7: Nombre d’étoile par framework sur github. ........................................................... 90 Tableau 8: Interprétation des résultats cas normal/anormal. .................................................... 99 Tableau 9: Interprétation des résultats cas normal, bénin et malin. ....................................... 102 Tableau 10: Interprétation des résultats cas normal et bénin/malin(masse et calcification). . 104
xi
LISTE DES ABRÉVIATIONS ACR
American College of Radiology
AND
Acide DésoxyriboNucléique
av. J.-C.
Avant Jesus-Christ
API
Application Programming Interface
ASI
Artificial SuperIntelligence
AUC
Area Under Curv
BI-RADS
Breast Imaging-Reporting And Data System
CC
Cranio-Caudal
CCIS
Cancer Canalaire In situ
CBIS-DDSM
Curated Breast Imaging Subset of DDSM
CIDIS
Centre d'Imagerie Diagnostique et Interventionnelle de Soumbédioune
CNN
Convolutional Neural Network
CPU
Central Processing Unit
DAI
Distributed Artificial Intelligence
DBN
Deep Belief Network
DDSM
Digital Database for Screening Mammography
DL
Deep Learning
DNN
Deep Neural Network
FCFA
Franc Communauté Financière Africaine
FN
Faux Négatif
FP
Faux Positif
GPU
Graphics Processing Unit
IA
Intelligence Artificielle
xii
IARC
International Agency for Research on Cancer
IID
Indépendantes et Identiquement Distribuées
ILSVRC
ImageNet Large Scale Visual Recognition Competition
IRM
Imagerie par Résonance Magnétique
KNN
K-Nearest Neighbors
MCP
McCulloch–Pitts
MGH
Massachusetts General Hospital
MILA
Montreal Institute for Learning Algorithms
ML
Machine Learning
MLO
MedioLateral-Oblique
MSE
Mean Squared Error
NLP
Natural Langage Processing
NN
Neural Network
RAM
Random-Access Memory
RNN
Recurrent Neural Network
ROC
Receiver Operating Characteristic
ROI
Region Of Interest
SVM
Support Vector Machine
TCIA
The Cancer Imaging Archive
TPU
Tensor Processing Unit
UAMS
University of Arkansans for Medical Sciences
VGG
Visual Geometry Group
VN
Vrai Négatif
VP
Vrai Positif
xiii
WFU
Wake Forest University
WUSTL
Washington University of St. Louis School of Medicine
xiv
INTRODUCTION GÉNÉRALE
INTRODUCTION GÉNÉRALE Le diagnostic et la prévention dans les hôpitaux et dans les établissements de soin de santé sont des tâches difficiles pour le personnel médical qualifié. Le personnel médical n’a pas souvent la possibilité d’observer chacun de ces patients à temps plein et faire des diagnostics précis très rapidement. Bien que le personnel médical soit efficace pour identifier les besoins immédiats, ils ne parviennent pas toujours à faire le diagnostic des pathologies sur la base d’un interrogatoire et d’un examen clinique. Il a souvent recours à des moyens de diagnostic biologique et d’imagerie médicale. Malgré cet arsenal utilisé, il peut avoir recours au traitement de l’image dans sa forme matricielle pour une aide un diagnostic. C’est pourquoi au cours de ces dernières années, avec le récent accroissement des performances de l’Intelligence Artificielle (IA) notamment avec le Machine Learning (ML), le Deep Learning (DL), le stockage massif des données sur des serveurs et la prouesse des calculs des machines, nous assistons à une véritable révolution. En effet, l’avènement de l’IA a permis de nombreux avancées dans le traitement de l’image améliorant ainsi le diagnostic médical. Ce présent document s’articule en deux parties : première partie : la problématique, les objectifs, la pertinence du sujet, les techniques d’investigation et les difficultés rencontrés ; deuxième partie : le cancer du sein, l’intelligence artificielle, le Machine Learning, le Deep Learning, les réseaux de neurones convolutionels (CNN), le prétraitement, la labélisation des données, l’implémentation de notre modèle de prédiction et la présentation des résultats et de l’application.
1
PARTIE I : CADRE THÉORIQUE ET MÉTHODOLOGIQUE
2
CHAPITRE 1 : CADRE THÉORIQUE
CHAPITRE 1: CADRE THÉORIQUE INTRODUCTION La médecine est la science qui accompagne l’humanité depuis des millénaires. C’est la discipline qui cherche à préserver la santé physique et mentale des êtres humains par la prévention et le traitement des maladies. Au fur et à mesure qu’on avance dans le temps, de nouvelles maladies sont découvertes et d’autres sont devenues plus fréquentes. L’ampleur et les progrès de l’imagerie, le développement des tests biologiques, ainsi que la mise sur le marché de nouveaux médicaments et d’autres procédures thérapeutiques ont beaucoup amélioré la prise en charge des patients. Dans ce présent chapitre, nous aborderons la problématique rencontrée lors d’un diagnostic de cancer du sein, les objectifs et les hypothèses de recherche puis la pertinence de notre sujet.
1.1.
PROBLÉMATIQUE
Les performances médicales bien qu’elles soient très évoluées en terme de diagnostic ne permettent pas de faire le diagnostic différentiel de certaines pathologies médicales. Et même si le diagnostic de cancer est fait la stadification peut souvent poser de sérieux problèmes. C’est pourquoi nous collaborons avec ces médecins en utilisant les algorithmes mathématiques pour une aide au diagnostic et à la classification des tumeurs mammaires. Celles-ci étaient stratifiées jusque-là sur la base d’une interprétation qui faisaient intervenir l’expérience du radiologue mais également le pouvoir discriminatoire de l’œil humain malgré une relecture par un autre radiologue pour établir la classification ACR de BI-RADS. Ce qui justifie notre étude.
1.2.
LES OBJECTIFS DU PROJET
L’objectif de ce présent mémoire est de concevoir un outil (une application) possédant un modèle intelligent et performant pour la classification des images mammographiques en faisant appel à l’intelligence artificielle afin d’assister le médecin (le radiologue) dans son raisonnement en vue d’identifier rapidement, efficacement et avec une certaine précision la présence d’une anomalie dans une mammographie. Ceci serait plus facile à réaliser en utilisant les réseaux de neurones artificiel. Ce qui nous permettra d’être plus précis, d’obtenir un gain en matière de temps et de réaliser des économies. De ce fait, on améliore la prise en charge des patients respectant les bonnes pratiques cliniques, le médecin outillé pourra réaliser des tâches
3
complexes, plus rapide avec une certaine précision. Cette application permettra au radiologue de prédire le cas de la présence d’une anomalie dans une mammographie qui résultera par des examens plus approfondies.
1.3.
LES HYPOTHÈSES DE RECHERCHE
La mammographie permet de prendre une décision dans le cas de la présence d’une anomalie (s’il s'agit d’une tumeur cancéreuse). Et c’est dans cette phase sensible et décisive qu’on peut rencontrer des erreurs, ainsi emmètre une fausse analyse et par conséquent risquer de perdre une vie. Il convient donc de mettre en place un outil d’aide à la décision assistant le médecin pour un diagnostic rapide et efficace. Cette analyse doit être plus précise et ce n’est pas toujours fournie par une analyse manuelle, tous cela nous conduit vers un traitement automatique exigent rapidité et précision. Dans le Deep Learning on va utiliser plus exactement la technologie des réseaux de neurones convolutifs (CNN) qui atteignent, voire dépassent les performances humaines en matière de classification des images. Ces modèles ont un potentiel énorme en analyse d'imagerie médicale.
1.4.
LA PERTINENCE DU SUJET
Le cancer est la 2ème cause de mortalité après les cardiopathies ischémiques et les accidents vasculaires cérébraux, il tue plus que le sida, le paludisme, les accidents de la voie publique, les homicides, les suicides, les guerres, les incendies réunis [W, 5]. Cette maladie se développe et s’accroît dans le corps humain silencieusement ce qui rend son diagnostic difficile. Le cancer du sein n’est qu’une étape pour pouvoir se lancer dans l’étude des autres types de cancer. Le cancer du sein est le premier cancer de la femme dans le monde avec 1 million de nouveaux cas par an et au Sénégal c’est le deuxième cancer chez la femme (2014) [B, 1]. En 2015, le cancer du sein a fait 8,8 millions morts, près d’un (1) décès sur six (6) est dû au cancer ces chiffres ne cesse de s’accroître, on estime que pour l’année 2018, près de 18 millions de personnes recevront le diagnostic de cancer, et 9.6 millions en décéderont [W, 8] Source : World Cancer Report 2018 - International Agency for Research on Cancer (IARC).
CONCLUSION Dans ce chapitre, nous avons présenté les problèmes rencontrés pour l’identification des cellules cancéreuses du sein. On a proposé une solution pour avoir des précisions plus exactes sur un diagnostic et on a expliqué les raisons qui nous ont poussés à réaliser cette étude.
4
CHAPITRE 2 : CADRE MÉTHOLOGIQUE
CHAPITRE 2: CADRE MÉTHODOLOGIQUE INTRODUCTION Dans ce présent chapitre, nous allons aborder les recherches faites afin de trouver des mammographies (des images médicales) avec lesquelles nous allons travailler dans ce mémoire. Présenter ces données leurs caractéristiques et les difficultés rencontré lors de la recherche et de la collecte des données.
2.1. TECHNIQUES D’INVESTIGATION En avril 2018, nous avons cherché dans les hôpitaux de Dakar notamment à Aristide Le Dantec et Fann des données mammographiques, mais en vain. Les documents produits n’étaient pas sauvegardés dans un serveur, autrement dit il n’y avait pas d’archivage et que les données recueillies étaient supprimées au fur et à mesure. Nous avons pensé à visiter d’autres centres parmi lequel le centre Centre d'Imagerie Diagnostique et Interventionnelle de Soumbédioune (CIDIS). Ils ont bien voulu collaboré avec nous en nous expliquant la procédure de diagnostic de cancer du sein. Et malheureusement, ils ont dit qu’ils ne possédaient pas de serveur de stockage d'images mammographiques pour l’instant, mais qu'il en avait déjà commandé. Et dans un avenir proche une collaboration serait possible. Donc on s'est retourné vers les archives de mammographie internationale celui qui avait le plus de données était Digital Database for Screening Mammography (DDSM).
2.2. PRÉSENTATION DES DONNÉES MAMMOGRAPHIQUES PRÉSENTATION DES DONNÉES DDSM La base de données numérique pour la mammographie de dépistage reconnue en anglais sous le nom de DDSM : Digital Database for Screening Mammography a été ressemblée par un groupe de chercheur de l’Université du sud de la Floride, elle contient 2 620 cas c’est à dire que les examens ont été effectués sur 2 620 patientes, il existe 2 types de mammographie sur la base de donnée un MLO, MedioLateral-Oblique est une vue oblique ou angulaire et un CC, CranioCaudal est une vue d'en haut, les mammographies sont recueillies auprès de l’hôpital
5
"Massachusetts General Hospital" (MGH), l’université "Wake Forest University" (WFU) et l’hôpital "Washington University of St. Louis School of Medicine" (WUSTL), il contient des cas normaux, bénins et malins avec des informations de pathologie vérifiées. DDSM a largement été utilisée par la communauté scientifique dans le domaine du diagnostic cancer du sein ; elle a l’avantage d’utiliser le même lexique normalisé par l’American College of Radiology (ACR) dans le BI-RADS (Breast Imaging-Reporting And Data System). Nous avons prélevé un échantillon composé de 4 473 images : 1 377 normales, 1 739 bénignes et 1 357 malignes les mammographies sont de taille différente, ces exemples seront partitionnés en trois dossiers exemples d’apprentissage, exemple de validation et exemple de test.
2.3. DIFFICULTÉS RENCONTRÉES Le DDSM qui est une base de données plus intéressante que les autres par sa grande quantité de donnée mammographique, mais cependant pour télécharger les images, il a fallu faire plusieurs semaines vu la connexion internet de bas débit utilisé. Ensuite les données DDSM sont enregistrées au format JPEG sans perte (LJPEG, Less Lost JPEG) il a fallu les décompresser. La collection CBIS-DDSM comprend un sous-ensemble des données DDSM sélectionnées et conservées. Elle a été créé et a été initialement hébergé par l’Université de Washington à SaintLouis. En décembre 2010, le National Cancer Institute, par l’intermédiaire du Fredrick National Laboratory, a confié à l’Université de Washington l’établissement d’un environnement d’hébergement haute disponibilité basée sur des clusters permettant de collecter et de gérer les collections d’images actuelles et futures. En octobre 2015, le Dr Prior et l'équipe principale de TCIA ont été transférés à Mallinckrodt Institute of Radiology de l'Université de Washington au département d'informatique biomédicale de l'Université de l'Arkansas pour les sciences médicales. Un nouvel environnement d’accueil pour TCIA a été créé à UAMS et tous les logiciels, processus et données ont été transférés de St. Louis à Little Rock au mois d’octobre 2015. Les archives conservées fournissent des collections d’images de haute qualité et de grande valeur aux chercheurs en cancérologie du monde entier.
Les images CBIS-DDSM ont été pré-traitées par type d’anomalie, c’est-à-dire sur chaque image on a identifié l’anomalie et pris les limites de la tumeur sur les images on appelle ça
6
extraction du ROI Region Of Interest et enregistrées en tant qu'image DiCom, mais puisque cet ensemble de données ne contient que des numérisations présentant des anomalies. Donc les données mammographies normales, ont été téléchargées dans le site DDSM et les données anormales des cas de bénins et malins, on était téléchargé à partir du site CBIS-DDSM afin de créer un jeu de données pouvant être utilisé pour prédire la présence d'anomalies.
CONCLUSION Dans ce chapitre, nous avons pu aborder la manière dont on a collecté nos données, des universités qui héberge les données mammographiques. Ensuite présenter les données et leurs caractéristiques et enfin on a parlé des difficultés rencontrés lors des recherches.
7
PARTIE II : CADRE ANALYTIQUE ET IMPLÉMENTATION
8
CHAPITRE 1 : LE CANCER DU SEIN
CHAPITRE 1: LE CANCER DU SEIN INTRODUCTION Le cancer du sein comme son nom l’indique est localisé dans l’organe humain qu’on appelle le sein, il résulte d’un dérèglement de certaines cellules qui se multiplient et forme une masse appelée tumeur. Il en existe différents types qui n’évoluent pas de la même manière certains sont « agressifs » et évoluent très rapidement, d’autres lentement. Le développement du cancer du sein peut prendre plusieurs mois, voire plusieurs années. Dans ce présent chapitre, nous allons étudier la structure du sien, les symptômes cancer du sein (ce que la patiente à remarquer chez elle d’anormal) et les signes (ce que le docteur à découvert en l’examinant). Par la suite décrire une tumeur du sein et de ces différents aspects, aborder les facteurs de risque du cancer du sein, son diagnostic et enfin de certains traitements.
1.1.
ANATOMIE DU SEIN
Les seins sont situés au niveau de la face antérieure du thorax, reposent en arrière sur le muscle pectoral, centrés par les mamelons, ces derniers entourés d’une zone pigmentée appelée l’aréole. La peau de l’aréole est très fine, légèrement déformée par les orifices des glandes sébacées, des glandes sudoripares et des follicules pileux. La glande mammaire est constituée d’une vingtaine de lobes glandulaires noyés dans du tissu graisseux. Les canaux excréteurs de ces lobes, appelés canaux galactophores, débouchent sur le mamelon.
Figure 1: Structure anatomique du sein.
9
Avant de connaître une anomalie on doit différencier un sein normal d’un sein anormal, c’està-dire reconnaître l’aspect normal du tissu glandulaire (des lobules) aussi bien que chez la jeune fille que chez la personne âgée c’est à partir de ce moment qu’on pourra déterminer si une lésion est pathologique pour pouvoir identifier une anomalie dans un sein. Un sein normal est reparti en quatre types : Type A : le sein présente plus de graisse que de glande (chez les personnes âgées) ; Type B : le sein présente autant de glande que de graisse ; Type C : le sein présente plus de glande que de graisse ; Type D : le sein est glandulaire et tout à fait blanc (chez les jeunes filles).
1.2.
SYMPTÔMES ET SIGNES
Les symptômes sont découverts par la patiente elle-même un cancer du sein peut se manifester chez une patiente par « une grosseur » (nodule), un écoulement de liquide clair ou sanglant par le mamelon, une déformation du galbe du sein ou du mamelon (rétraction), plus rarement par une douleur. Mais il peut aussi ne pas présenter parfois aucun symptôme. L’examen permet de rechercher : A l’inspection : la taille du sein malade (à augmenter ou à diminuer) par rapport au sein controlatéral, s’il y a une déformation orientée d’un côté par rapport à l’autre, s’il y a une rétraction, ride, Aspect de la peau en regard (rougeur ou ecchymose). A la palpation caractériser la masse siège, la consistance est ce que la masse est dure ou molle, douloureuse ou indolore, est ce qu’il y a un écoulement, etc.
1.3.
TUMEURS DU
Le terme de tumeur (synonyme : « néoplasme » ou « néoplasie ») désigne une prolifération cellulaire excessive aboutissant à SEIN une masse tissulaire ressemblant plus ou moins au tissu normal homologue (adulte ou embryonnaire), ayant tendance à persister et à croître, témoignant de son autonomie biologique.
10
1.3.1. CRITÈRES DES TUMEURS BÉNIGNES Les tumeurs bénignes ont des contours bien délimités donnent un nodule opaque, dense, hétérogène, aspect stellaire, spéculer, plus souvent de petite taille. Cependant, on peut en trouver de grande taille. Elles ont une croissance lente et restent localisées dans le tissu où l’organe dans lequel elles sont apparues. Elles n’entraînent pas de métastases dans d’autres endroits du corps. Les tumeurs bénignes sont composées de cellules qui ressemblent aux cellules normales du tissu concerné. On dit qu’elles sont bien différenciées. La tumeur bénigne qui se développe le plus souvent dans le sein est appelé fibroadénome. Les autres affections bénignes du sein sont les kystes, les changements fibrokystiques, l'hyperplasie, la gynécomastie. Une tumeur bénigne est localisée dans un seul endroit la tumeur en un moment donné, peut augmenter de taille, sans risque de métastase. 1.3.2. CRITÈRES DES TUMEURS MALIGNES Les tumeurs malignes ont des contours le plus souvent mal délimités. Certaines sont toutefois bien limitées et peuvent alors être considérées un temps comme bénignes, ceci pouvant retarder le diagnostic de cancer. Les cellules cancéreuses qui composent les tumeurs malignes présentent diverses anomalies par rapport à des cellules normales : forme et taille différentes, contours irréguliers… On parle de cellules indifférenciées, car elles ont perdu leurs caractéristiques d’origine. Les tumeurs malignes ont tendance à envahir les tissus voisins. Elles peuvent entraîner des métastases : des cellules cancéreuses s’échappent de la tumeur primitive et vont coloniser une autre région du corps tel que le foie, le cerveau, poumon pour y former une nouvelle tumeur qu’on appelle tumeur secondaire ou métastase. La bénignité (nature non-cancéreuse) ou la malignité (nature cancéreuse) peuvent être évoquées sur l'aspect retrouvé sur les examens d'imagerie pratiqués. Mais c’est grâce à l’examen anatomopathologique d’un échantillon de tumeur que l’on peut déterminer si elle est cancéreuse ou non, c'est-à-dire l’examen qui permettra son étude et orienté le traitement. 1.3.3. CALCIFICATIONS Les calcifications mammaires sont des dépôts de calcium qui se forment dans le tissu mammaire. Elles n’ont aucun lien avec la quantité de calcium absorbée au cours de
11
l’alimentation ou obtenue par l’intermédiaire de compléments alimentaires. En effet, la calcification donne un aspect dure à la tumeur Il existe deux types de calcifications : les macrocalcifications et les microcalcifications. Les macrocalcifications sont des dépôts grossiers de calcium dans le sein. Elles sont plus fréquentes chez les femmes âgées de plus de 50 ans. Elles sont souvent associées à des modifications bénignes qui se produisent dans le sein et qui sont liées par exemple au vieillissement des artères du sein, à des anciennes lésions, à une inflammation ou à des masses telles qu'un fibroadénome. Les microcalcifications sont de minuscules dépôts de calcium dans le sein. Leur présence signifie parfois que l'activité de certaines cellules du sein est accrue. Une cellule plus active absorbe en effet davantage de calcium que celle qui l’est moins. Les microcalcifications peuvent faire suspecter un cancer du sein (comme un carcinome canalaire in situ-CCIS), notamment lorsqu’elles apparaissent isolées ou regroupées en grappes à la mammographie. Si tel est le cas, le radiologue recommande de réaliser une biopsie afin de vérifier qu’il ne s’agit pas d’un cancer, et en fonction des résultats, on détermine le traitement qui sera suivit par la patiente.
1.4.
CANCER DU SEIN
Le cancer est la présence d’une tumeur maligne. Il survient à la suite de mutations ou de changements anormaux dans les gènes responsables de la régularisation, de la croissance des cellules. Les gènes sont dans le noyau de chaque cellule qui agit comme la salle de contrôle. Normalement, les cellules de notre corps se remplacent par un processus ordonné de la croissance cellulaire : de nouvelles cellules prennent en charge alors que les anciens disparaissent. Mais au fil du temps, les mutations peuvent apparaître dans certains et engendré un début de malformation qui peut engendrer une tumeur bénigne ou maligne. On distingue les cancers in situ (confinés dans les canaux ou les lobules) et les cancers invasifs ou infiltrants. La tumeur cancéreuse érode (incruste) tout son entourage par dans la lymphe atteint les organes tels que le cerveau, le poumon, le foie. On pense que le cancer du sein n’arrive qu’aux femmes, mais environ 1% des cancers du sein se produisent chez les hommes. Les hommes ont une petite quantité de tissu derrière le mamelon et bien qu’elle ne soit pas aussi importante que chez les femmes, un cancer peut quand même
12
se développer. Peu d’hommes en sont conscients si bien qu’il est généralement diagnostiqué plus tardivement que chez les femmes. Par conséquent, le cancer du sein masculin est généralement plus avancés quand il est diagnostiqué et donc plus difficile à traiter. 1.4.1. LES FACTEURS DE RISQUE Malgré les progrès qui ont permis de mieux connaître les mécanismes de développement des cancers, les causes du cancer du sein ne sont actuellement pas connues. Néanmoins, les études ont mis en évidence certains facteurs de risque qui favorisent le cancer du sein. Il existe différents types de facteurs de risque de survenue d’un cancer du sein. 1.4.2. L’AGE L’âge est le facteur de risque le plus important vis-à-vis du cancer du sein, la maladie est rare chez les femmes de moins de 30 ans. Le risque augmente entre 50 et 75 ans (près des deux tiers des cancers du sein). Le cancer du sein masculin apparaît surtout chez les hommes de plus de 60 ans. 1.4.3. LES FACTEURS GÉNÉTIQUES On parle dans ce cas de gènes de prédisposition ou de risque de développer un cancer du sein. Plusieurs femmes dans une même famille (mère, grand-mère, tante, sœurs) peuvent présenter un cancer du sein. On soupçonne alors une origine génétique à cette maladie. Grâce à la recherche génétique, on sait aujourd’hui détecter certaines anomalies chromosomiques qui pourraient être responsable de la survenue d’un cancer du sein (5% à 10% des cas) en rapport avec certains gènes. Si une telle anomalie est retrouvée chez une femme, il est possible de faire une recherche chez les autres femmes de la même famille, mais il faut savoir que les résultats ne sont jamais affirmatifs. 1.4.4. LES RIQUES HORMONAUX Il semble que les femmes ayant une puberté précoce, une ménopause tardive, n’ayant pas d’enfants ou ayant des enfants tardivement, n’ayant pas allaité, auraient un risque plus important d’avoir un cancer du sein.
13
1.4.5. L’ALIMENTATION L’effet le plus important est celui de la quantité de calories absorbées, plus elle est élevée, plus le risque augmente. L’obésité, une consommation importante d’alcool (équivalent de ½ Litre de vin par jour), la faible consommation de fruits et de légumes sont également suspectées d’augmenter le risque. Toutes ces données ne sont valables que sur un plan statistique et non pas individuel. 1.4.6. LE TABAC La fumée du tabac est une importante source de substances cancérogènes. Le tabagisme passif est aussi nocif pour le cancer du sein que le tabagisme actif. Selon une étude de l'Inserm de la France (Institut National de la Santé Et de la Recherche Médicale) une augmentation de risque associé au tabagisme. Le fait d’inhaler involontairement de la fumée dégagée par la cigarette ou cigares (tabagisme passif) semble associé à un risque augmenté d’environ 60% ; ce risque est multiplié par trois chez les femmes après la ménopause. Il a été rapporté que les fumeuses ont une ménopause précoce et une concentration urinaire réduite d’œstrogènes pendant la phase lutéale du cycle menstruel. 1.4.7. LA PILULE Pour les contraceptions orales, les études faites aux Etats-Unis conclut à une augmentation minime du risque (+14%). Le risque serait un peu plus élevé (+20%) pour les femmes ayant pris des contraceptions orales pendant plus de 5 ans avant une première grossesse. 1.4.8. LE TRAITEMENT HORMONAL DE LA MÉNOPAUSE (THM) Il existe un risque élevé d’augmentation du cancer du sein chez les femmes utilisant des THM. Le risque de cancer est augmenté avec la durée du traitement. Aucune différence n’est démontrée en fonction de la voie d’administration (orale, parentéral), le risque de cancer du sein lié au traitement œstroprogestatif pourrait varier en fonction du type de progestatif, mais ces données nécessitent d’être confirmées par d’autres études [W, 27]. 1.4.9. ANTÉCÉDENTS DE CANCER Les femmes qui ont déjà présenté un cancer du sein ont plus de risques que les autres n’ayant pas des antécédents de cancer (risque de deuxième cancer est de 10 %). Elles seront suivies attentivement après. Même la présence d’un ou de plusieurs de ces facteurs favorise le
14
développement d’un cancer du sein, il faut savoir que, mis à part les facteurs familiaux ou génétiques, ces autres facteurs augmentent généralement assez peu le risque : une femme qui possède une ou plusieurs de ces caractéristiques peut ne jamais développer un cancer du sein. En revanche, il est possible qu’une femme n’ayant aucune de ces caractéristiques soit atteinte d’un cancer du sein. Les facteurs de risque ne permettent donc pas de déterminer les causes exactes à l’origine d’un cancer du sein chez une femme.
Figure 2: Présentation d'une tumeur du sein vue de face. 1.5.TYPES HISTOLOGIQUES DU CANCER DU SEIN Les différentes composantes de chaque tumeur du sein peuvent présenter des aspects morphologiques particuliers qui peuvent être regroupés par types histologiques. Les tumeurs sont ainsi classées en fonction de critères histologiques communs, définis par les classifications internationales, éditées par l’Organisation mondiale de la santé (OMS), et remises à jour régulièrement. La reconnaissance de ces critères et le classement de la tumeur dans le type adéquat sont la base du diagnostic anatomopathologique de toute tumeur. On ne peut déterminer qu’une tumeur est cancéreuse sans l’examen et le rapport histologique. 1.5.1. LE CANCER DU SEIN NON-INFILTRANT (IN SITU) Le cancer du sein non-infiltrant (in situ) se réfère à un cancer qui est encore dans le conduit du lait et/ou les lobules du sein. En d’autres termes, le cancer n’a pas envahi les murs des canaux galactophores ou des lobules c’est repartie en deux les CCIS et les CLIS. Le Cancer Canalaire In situ (CCIS), également appelé carcinome intracanalaire (figure 3), fait référence aux cellules cancéreuses qui se sont formées dans les conduits du canal galactophore et sont encore confinées dans cet espace. Les conduits se bouchent et
15
élargie à cause des cellules cancéreuses qui s’accumulent à l’intérieur. Le calcium a tendance à s’accumuler dans les canaux bloqués et est visible sur la mammographie.
Figure 3: Cancer canalaire in situ (CCIS) - Macroscopie à gauche et histologie à droite.
Le Cancer Lobulaire in situ (CLIS) comme le montre la figure 4 fait référence à des cellules cancéreuses qui se sont formés dans les glandes mammaires et qui sont encore confinées dans cet espace. Ce type de cancer est souvent constaté chez les femmes autour de la ménopause. CLIS est différente de CCIS, celui-ci présente un risque plus élevé, l’ensemble du tissu des deux seins peut développer un cancer. Par conséquent, le traitement de CLIS doit viser les deux seins.
Figure 4: Cancer lobulaire in situ (CLIS) - Macroscopie à gauche et histologie à droite. 1.5.2. LE CANCER DU SEIN INFILTRANT Le cancer du sein infiltrant se réfère à des cellules qui se sont développé à travers les parois des canaux galactophores et des glandes dans le tissu normal graisseux du sein. Les cellules continuent de croître entraînant une masse. Ils peuvent alors former des métastases à travers la
16
circulation sanguine ou les vaisseaux lymphatiques vers d’autres parties du corps. Les principaux types du sein infiltrant sont les suivants : le Cancer Canalaire Infiltrant (CCI) est le plus populaire et est également appelé cancer mammaire ou adénocancer infiltrant (figure 5) ;
Figure 5: Cancer canalaire infiltrant.
Figure 6: Cancer canalaire infiltrant (CCI) - Macroscopie à gauche et histologie à droite. le Cancer Lobulaire Infiltrant (CLI) : moins fréquent et difficile à diagnostiquer sur la mammographie, présente un risque légèrement plus élever d’être dans les deux seins (figure 7).
Figure 7: Cancer lobulaire infiltrant(CLI) - Macroscopie à gauche et histologie à droite.
17
Il existe d’autres types de cancer du sein que nous pouvons rencontrer (des cas plus rares) : Cancer mucineux (colloide), Cancer médullaire, Cancer papillaire, Cancer tubuleux, Cancer adénoïde kystique, Cancer sécrétant juvénile, Cancer apocrine, Cancer métaplasique de type épidermoïde, Cancer métaplasique de type à cellules fusiformes, Cancer métaplasique de type chodroide et osseux, Cancer métaplasique de type mixte, Maladie de Paget du mamelon.
1.6.
CLASSIFICATION TNM
La classification TNM est une norme mondialement reconnue pour classer l'étendue de la propagation du cancer proposé par le chirurgien français Pierre Denoix de l’Institut GustaveRoussy entre 1943 et 1952. C'est un système de classification de l'étendue anatomique des tumeurs cancéreuses. Il a acquis une large acceptation internationale pour de nombreux cancers à tumeur solide, mais ne s'applique pas à la leucémie et aux tumeurs du système nerveux central. Le système TNM possède des notations décrivant le stade d'un cancer, provenant d'une tumeur solide, à l'aide de codes alphanumériques ainsi, les trois lettres symbolisant la propagation de la maladie cancéreuse sont les suivants [B, 1] : T décrit la taille de la tumeur initiale (primitive) et indique si elle a envahi les tissus voisins ; N décrit les ganglions lymphatiques voisins (Node) impliqués ; M décrit les métastases à distance (propagation du cancer d'une partie du corps à une autre). T = Tumeur primitive Tx : Détermination de la tumeur primitive impossible T0 : Pas de signe de tumeur primitive (non palpable) Tis : Carcinome in situ : carcinome intracanalaire, ou carcinome lobulaire in situ, ou maladie de Paget du mamelon sans tumeur décelable T1mic : micro-invasion 95%
Stade I
T1 N0 M0
85%
T0 N1 M0 Stade IIA
T1 N1 M0
66%
T2 N0 M0 T2 N1 M0 Stade IIB
66% T3 N0 M0 T0 N2 M0 T1 N2 M0
Stade IIIA
T2 N2 M0
41%
T3 N1 M0 T3 N2 M0 T4 N0 M0 Stade IIIB
T4 N1 M0
41%
T4 N2 M0 Stade IIIC
Tous T N3 M0
41%
Stade IV
Tous T Tous N M1
10%
Tableau 2: Classification de cancer du sein par stade.
20
1.8.
DIAGNOSTICS
Un cancer du sein est découvert soit à l’occasion d’un examen systématique par le gynécologue, soit par la patiente elle-même au cours d’un auto-palpation mammaire qui découvre un nodule ou une masse mammaire qui très souvent fait l’objet d’examens d’imagerie médicale en l’occurrence l’échographie et la mammographie qui peuvent plaider en faveur d’un cancer du sein. Ce diagnostic est objectivé par la biopsie. Par ailleurs le cancer peut être découvert au cours de complications ou de localisation régionale ou à distance. 1.8.1. LA MAMMOGRAPHIE Le cancer du sein est à l’heure actuelle, est mis en évidence par une mammographie (examen radiologique du sein) réalisé à titre systématique dans le cadre du suivi médical individuel ou lors d’une campagne de dépistage (découvert de manière fortuite). La mammographie est un examen aux rayons X, qui emploie de faibles doses de rayonnements, mais qui néanmoins doit être évitée chez la femme enceinte. C’est une technique de radiographie qui vise à détecter les tumeurs mammaires. Elle est réalisée lorsqu’une patiente présente des symptômes pouvant faire évoquer un cancer du sein. Cet examen est réalisé avec un mamographe comme le montre la figure suivante.
Figure 8: Le mamographe.
21
Les mammographies sont des clichés (des images en noir et blanc) centrés sur les zones suspectes. La mammographie est l’examen de référence de dépistage du cancer du sein elle est effectué sur chaque sein chacun sous des angles différents essentiellement, on peut citer le MLO è_Médio-Latéral Oblique qui offre une vue de profil du sein et le CC Cranio-Caudal une vue de face du sein. Elles permettent de mettre en évidence des cancers de petite taille, à un stade précoce, avant l’apparition de symptômes. Cet examen permet d’orienter le médecin dans son diagnostic. L’examen ne s’accompagne d’aucun effet secondaire.
Figure 9: Mammographie montrant une tumeur au sein vue d'en face à gauche et vue de profil à droite. Une mammographie systématique est conseillée tous les 2 ans chez les femmes à partir de 50 ans. Elle est aussi effectuée sur un avis médical lorsqu’une femme présente un risque accru de cancer du sein (famille à risque, antécédents personnels). On utilise la classification BIRADS (Breast Imaging Reporting And Data System) de l’ACR qui est une classification internationale établie par l’American College of Radiology. Le système BI-RADS ACR permet de classer les images mammographiques en 6 catégories : ACR 0 : mammographie de mise en attente, pour laquelle une comparaison à l’examen antérieur, ou des clichés complémentaires (localisés ou agrandis) sont nécessaires, mammographie de dépistage est lue et l’évaluation finale est « incomplète »; ACR 1 : mammographie normale, pour laquelle une surveillance habituelle est préconisée : ACR 2 : mammographie présentant une anomalie bénigne appelée aussi kyste (c’est-àdire sans gravité). ACR 3 : il existe une anomalie probablement bénigne pour laquelle une surveillance à court terme (3 ou 6 mois) est conseillée ; 22
ACR 4 : il existe une anomalie indéterminée ou suspecte, pour laquelle la poursuite des investigations reste nécessaire (microbiopsie échoguidée, macrobiopsie stéréotaxique, cytoponction, IRM mammaire…). Souvent, une subdivision en ACR4a, ACR4b, et ACR4c est réalisée pour mieux apprécier le risque de pathologie maligne ; ACR 5 : il existe une anomalie évocatrice d’un cancer et pour laquelle la poursuite des investigations reste indispensable (microbiopsie sous échographie, macrobiopsie stéréotaxique, cytoponction…) ; ACR 6 : correspond à une mammographie ayant un cancer prouvé, le plus souvent sous traitement (chimiothérapie, hormonothérapie). [B, 1] En cas d’images ACR 4 ou ACR 5 présente des cas ou la tumeur est localisé donc, des prélèvements par biopsie percutanée sont nécessaires pour effectuer un examen d’anatomopathologie. Dans la figure qui suit on voit les résultats donnés par le médecin un examen de mammographique.
Figure 10: Résultat d'un examen de mammographique.
23
1.8.2. ECHOGRAPHIE MAMMAIRE Une échographie mammaire est un examen pratiqué par le radiologue qui utilise des ultrasons pour produire des images de l’intérieur du sein. Elle est très utile pour voir la nature liquide ou solide des nodules palpés ou découverts sur la mammographie. Cet examen précise les images obtenues par mammographie. Il ne remplace pas une mammographie qui est un examen de référence pour le sein. Pour les adolescentes, les jeunes femmes et les femmes enceintes, la mammographie est moins importante : l’échographie mammaire est donc l’examen de référence. Pour les femmes âgées, la mammographie reste l’examen de référence. Une échographie fournit des images « en temps réel », c’est-à-dire visibles immédiatement. Elle permet ainsi de comparer ce que l’on sent avec les doigts (lors de la palpitation) et ce que l’on voit sur l’écran elle permet aussi de guider un prélèvement. Cependant, l’échographie ne permet pas toujours de voir avec certitude s’il s’agit ou non d’un cancer. Pour cela, il faut réaliser d’autres examens complémentaires.
Figure 11: Échographie montrant une masse kystique. Pour les seins glandulaires (type D), il est difficile de faire un diagnostic, car les glandes apparaissent blanches dans la mammographie et la tumeur aussi a un aspect grisâtre donc ça sera du blanc sur du blanc. C’est pourquoi chez les jeunes filles la mammographie même effectuée ne donne pas de bon résultat, on procède à une échographie qui ne permet pas de diagnostiquer à 100%, mais néanmoins dans certains, il peut faire apparaître une tumeur.
24
1.8.3. LA CYTOPONCTION ET LA MICROBIOPSIE ECHOGUIDÉE Lorsqu’une lésion est visible en mammographie et/ou à l’échographie, la cytoponction est souvent la technique de choix parce qu’elle est plus simple et plus rapide. C’est un prélèvement qui se fait à l’aiguille fine introduite dans la masse. Soit sur un kyste un éventuel liquide est aspiré et/ou bien, il est prélevé sur un nodule quelques cellules sont aspirées par une seringue.
Figure 12: Cytoponction d'une tumeur. La microbiopsie échoguidée (microbiopsie mammaire sous échographie) est également un prélèvement qui se fait cette fois ci avec une aiguille de gros diamètre sous anesthésie locale. On prélève un fragment de tissu. Pour certains les microbiopsie résultent essentiellement des échecs des cytoponctions notamment pour les lésions suspectes, purement échographiques. Pour d’autres, elles pourraient se substituer aux cytoponctions.
Figure 13: histologie d'une bénigne et d'une tumeur maligne.
25
1.9.
TRAITEMENTS
Il existe quatre types de traitements qui peuvent être entrepris, parfois isolément, parfois en association les traitements sont les suivants : la chirurgie : elle consiste à l’ablation de la tumeur si la tumeur est maligne (cancéreuse) l’ablation des ganglions de l’aisselle (curage ganglionnaire axillaire) est réalisée, pour les tumeurs volumineuses ou multiples la mastectomie (ablation du sein) est pratiquée, pour les tumeurs de petites taille (bénigne) la curage du ganglionaire est proposée pour minoré les conséquences ; la radiothérapie : pratiquée après une tumorectomie, elle consiste à irradier le sein et le pourtour de la zone retiré pour éviter les récidives locales. Le traitement comprend généralement 4 ou 5 séances par semaine pendant 5 à 6 semaines. En fonction du type histologiques. la chimiothérapie : elle peut être utilisée en complément de l’ablation chirurgicale du cancer primitif elle est utilisée en première intention en cas de cancer du sein avec signes inflammatoires. Les métastases sont aussi traitées par la chimiothérapie. Le traitement comporte l’association de plusieurs médicaments après un bilan pré thérapeutique. Compte tenu de la causalité des produits administrés, il nécessite la pose préalable d’une chambre implantable pour éviter une extravasation, source nécrose cutanée (forme de dégât qui mène à la mort des cellules dans le tissu vivant) ; L’hormonothérapie : est très souvent associée aux autres traitements, consiste à prendre pendant 5 ans par voie orale des antiœstrogènes lorsque le cancer est hormonodépendant, c’est-à-dire que la tumeur contient des récepteurs hormonaux participant à la multiplication rapide des cellules cancéreuses. Les buts des traitements selon les cas sont d’extirper la tumeur et ralentir son extension, éviter la récidive ou les métastases et améliorer la qualité de vie de la patiente.
CONCLUSION Dans le monde, le cancer du sein est le premier type de cancer le plus fréquent chez la femme. Ici, au Sénégal c’est le deuxième cancer féminin (46% en 2014) [B, 1], il vient après celui de l’endomètre. Son diagnostic passe par plusieurs étapes en commençant par un examen clinique systématique soit par un gynécologue ou bien par la patiente elle-même. Le cas de présence d’une tumeur est confirmé par une mammographie et ou une échographie mammaire. Mais le
26
diagnostic de certitude reste l’examen anatomopathogie. Après l’identification de la tumeur, un bilan sénologique (mise au point globale) : entretien, examen de la patiente, une mammographie et souvent une échographie seront faites en vus d’étudier les signes de la tumeur. Le cas d’une tumeur cancéreuse ou non sera confirmé par une analyse dite histologique, un traitement sera alors pris selon le type de tumeur. Dans ce chapitre, nous avons pu comprendre le fonctionnement d’une tumeur ces caractéristiques ces différents aspects. Et comment différentier une tumeur bénigne d’une tumeur maligne les traitements qui doivent s’appliquer dans chaque cas.
27
CHAPITRE 3 : INTELLIGENCE ARTIFICIELLE
CHAPITRE 2: INTELLIGENCE ARTIFICIELLE INTRODUCTION L'Homme a toujours cherché à comprendre et à reproduire les mécanismes naturels qui l'entourent. Un des domaines les plus passionnants reste celui de l'étude du cerveau. Qu'il soit humain ou animal, nous restons fascinés par sa capacité à analyser, à comprendre et à généraliser les problèmes que pose l'environnement. Dans le but de se rapprocher du fonctionnement du cerveau, on abordera les généralités sur l’intelligence artificielle.
2.1. PRÉSENTATION DE L’INTELLIGENCE ARTIFICIELLE L’intelligence artificielle (IA) est un domaine de l’informatique qui met l’accent sur la création de machines intelligentes qui fonctionnent et réagissent comme des humains. Il est devenu un élément essentiel de l’industrie des technologies, les principaux problèmes de l’intelligence artificielle comprennent la programmation des ordinateurs pour certaines caractéristiques telles que : la reconnaissance vocale ; l’apprentissage ; la planification ; possibilité de manipuler et déplacer des objets ; etc… L’ingénierie des connaissances est au cœur de la recherche en Intelligence Artificielle. Les machines peuvent souvent agir et réagir comme des humains seulement si elles disposent de nombreuses information relative au monde. L’IA doit avoir accès aux objets, aux catégories, aux propriétés et aux relations entre tous pour mettre en œuvre l'ingénierie des connaissances. Initiez le bon sens, le raisonnement et la résolution de problèmes dans les machines est une tâche difficile et fastidieuse. La perception de la machine concerne en sa capacité à utiliser les entrées sensorielles pour déduire les différents aspects, tandis que la vision par ordinateur est de pouvoir analyser les entrées visuelles avec quelques sous-problèmes tels que la reconnaissance faciale, des objets et des gestes.
28
La robotique est également un domaine majeur lié à l'IA. Les robots ont besoin d'intelligence pour gérer des tâches telles que la manipulation d'objets et la navigation, ainsi que des sousproblèmes de localisation, de planification de mouvement et de cartographie.
2.2. HISTOIRE DE L’INTELLIGENCE ARTIFICIELLE Les premiers jalons historiques de l'intelligence artificielle datent de la Protohistoire, où mythes, légendes et rumeurs dotent des êtres artificiels, réalisés par des maîtres-artisans, d'une intelligence ou d'une conscience. La recherche en intelligence artificielle a vraiment commencé après une conférence tenue sur le campus de Dartmouth College pendant l'été 1956 aux Etats Unis. À la suite de cette réunion, certains participants se sont investis dans une recherche sur l'intelligence artificielle. Certains idéalistes avaient prédit qu'une machine aussi intelligente qu'un être humain existerait en moins d'une génération et des millions de dollars ont alors été investis dans un organisme de prédiction. Avec le temps, il est apparu que les difficultés inhérentes à cette annonce avaient été grossièrement sous-estimées. Au début de 1973 jusqu'à la fin des années 1980, nous pouvons dire que ce cycle est discontinu, les périodes de gel et de dégel en alternance, on disposait d'un support pour l'intelligence artificielle. Mais il y a encore un idéal qui n’est pas encore atteint pour faire des prédictions audacieuses. Depuis 1980 jusqu’au présent. L’intelligence artificielle est devenue au fil du temps une matière scientifique de plus en plus rigoureuse et formelle. La plupart des approches étudiées aujourd’hui sont basées sur des théories mathématiques ou des études expérimentales plutôt que sur l’intuition, et sont appliquées plus souvent aux problèmes issus du monde réel.
2.3. LES DIFFÉRENTS TYPES D’INTELLIGENCE ARTIFICIELLE 2.3.1. L’INTELLIGENCE ARTIFICIELLE DISTRIBUÉE L'intelligence artificielle distribuée (Distributed Artificial Intelligence, DAI) est l'une des nombreuses approches de l'intelligence artificielle. L’ors de l'apprentissage, il effectue une méthode d'apprentissage complexe, une planification et des prises de décisions à grande échelle. Il peut utiliser un large éventail de ressources informatiques dans différents domaines (CPU,
29
RAM, GPU...). Cela signifie qu'il peut facilement traiter et analyser de grandes quantités de données et résoudre rapidement les problèmes. Il existe de nombreux agents ou nœuds d'apprentissage autonomes dans un tel système. Ces nœuds sont très distribués et indépendants les uns des autres. De ce fait, les systèmes d’apprentissage automatique (ML) utilisant l’intelligence artificielle distribuée sont tout à fait adaptables et fiables. Cela signifie que les systèmes DAI ne doivent pas être complètement redéployés après toute modification apportée aux fichiers de données en entrée du problème. L'intégration des solutions se fait par un système de communication efficace entre les agents ou les nœuds. Cela garantit que le traitement est élastique. Contrairement au système d'IA centralisé, les données dans les systèmes DAI ne doivent pas être transmises à un seul emplacement. Les données peuvent être mises à jour au fil du temps. Les nœuds peuvent interagir avec les uns avec les autres en ce qui concerne la solution de manière dynamique et disposer des compétences nécessaires pour parvenir à la solution. Ainsi, le DAI est considéré comme l'une des meilleures approches de l'apprentissage automatique et de l'intelligence artificielle. 2.3.2. LA SUPER INTELLIGENCE La super intelligence artificielle (Artificial SuperIntelligence, ASI) fait référence à l'époque où la capacité des ordinateurs surpassera celle des humains. "L'intelligence artificielle", très utilisée depuis les années 1970, fait référence à la capacité des ordinateurs à imiter la pensée humaine. La super intelligence artificielle va plus loin et pose un monde dans lequel les capacités cognitives d'un ordinateur sont supérieures à celles d'un humain. Les sociétés n’ont pas encore atteint le stade de la super intelligence artificielle. En effet, les ingénieurs et les scientifiques tentent toujours d’atteindre un point qui serait considéré comme une intelligence artificielle complète, où l’on pourrait dire qu’un ordinateur possède la même capacité cognitive qu’un être humain. Cependant, il y a beaucoup de théorie qui prévoit que la super intelligence artificielle interviendra plus tôt que prévue, mais ce ne sont que des théories pour l'instant. En utilisant des exemples comme la loi de Moore, qui prédit une densité sans cesse croissante de transistors, les experts parlent de singularité et de croissance exponentielle de la technologie dans laquelle l'intelligence artificielle complète pourrait se manifester dans quelques années.
30
2.3.3. L’INTELLIGENCE ARTIFICIELLE (IA) FAIBLE L'intelligence artificielle faible (IA faible) connu aussi sous le nom d'intelligence artificielle étroite est une approche de la recherche et du développement de l'intelligence artificielle, sachant que l'IA est et restera toujours une simulation de l'intelligence humaine et que les ordinateurs ne peuvent pas penser. L'IA faible agit simplement sur les règles qui lui sont imposées et est liée à celle-ci et elle ne peut pas aller au-delà de ces règles. Elle est conçue pour se concentrer et pour sembler très intelligente sur une tâche bien spécifique. Ce fonctionnement est en totale contradiction avec celui de l'Intelligence Artificielle forte, dans laquelle une Intelligence Artificielle est capable de toutes les fonctions cognitives que peut avoir un humain, et n'est pas vraisemblablement différente d'un véritable esprit humain. L'IA faible n'est jamais prise comme une intelligence générale, mais plutôt comme une construction conçue pour être intelligente dans une tâche bien spécifique à laquelle elle est assignée. Comme Intelligence faible on peut citer les robots utilisés dans le processus de fabrication de produits, les chatbots comme Siri d'Apple, Cortana de Microsoft Windows (intégré dans Windows 10) qui utilise internet comme une base de données. Ils semblent très intelligents, car ils sont capables de tenir une conversation avec des personnes réelles, même en faisant des remarques qui ne sont pas sérieux et quelques blagues, mais ils fonctionnent de manières très spécifiques et bien prédéfinies. Cependant, la spécificité de leur fonction peut être mise à rude épreuve donnant ainsi des résultats inexacts lorsqu’ils sont engagés dans des conversations auxquelles ils ne sont pas programmés pour répondre. 2.3.4. L’INTELLIGENCE ARTIFICIELLE (IA) FORTE L'Intelligence Artificielle forte (IA forte) est une construction d'Intelligence Artificielle qui possède des capacités mentales et des fonctions qui imitent le cerveau humain. Dans la théorie de l'IA forte, il n'y a pas de différence essentielle entre le logiciel, qui est l'Intelligence Artificielle, imitant ainsi exactement les actions du cerveau humain et les actions d'un être humain, y compris son pouvoir de compréhension et même sa conscience. L'intelligence artificielle forte est également appelée Intelligence Artificielle complète. Elle est davantage une philosophie qu'une approche réelle de la création d'IA. C'est une perception différente de l'IA dans laquelle elle assimile l'IA aux humains. Il stipule qu'un ordinateur peut être programmé pour fonctionner comme un esprit humain, être intelligent dans tous les sens du terme, avoir une perception et avoir d‘autres état cognitifs normalement attribués humains.
31
Cependant, comme les humains ne peuvent même pas définir correctement ce qu'est l'intelligence, il est très difficile de donner un critère clair quant à ce qui constituerait un succès dans le développement d'une intelligence artificielle forte. La faible IA citée ci-dessus, par contre, est très réalisable en raison de la manière dont elle définit l’intelligence. Plutôt que d'essayer d'imiter pleinement un esprit humain, l'insuffisance de l'IA peut seulement se concentrer sur le développement de l'intelligence liée à une tâche ou à un domaine d'étude particulier. C’est un ensemble d’activités qui peuvent être décomposées en processus plus petits et peuvent donc être réalisées à l’échelle définie. 2.3.5. L’AMPLIFICATION DE L’INTELLIGENCE L'amplification de l'intelligence est l'idée que les technologies peuvent être utiles à l'intelligence humaine, plutôt que d'être composées de technologies qui créent une intelligence artificielle indépendante. Les systèmes d'amplification de l'intelligence améliorent l'intelligence d'un être humain, améliorant d'une certaine manière le fonctionnement ou la capacité d'un décideur humain. L'amplification de l'intelligence est également appelée intelligence assistée, intelligence augmentée, augmentation cognitive ou intelligence augmentée par machine. L'idée de l'amplification de l'intelligence ou de l'intelligence augmentée vient en partie des craintes et des préoccupations concernant l'intelligence artificielle dans son ensemble. L'intelligence artificielle évoluant et devenant de plus en plus robuste, les technologies malveillantes ayant un impact négatif sur la vie humaine suscitent de plus en plus d'inquiétudes. Il semble plus sûr, dans ce cas, de développer des technologies d’amplification de l’intelligence, des outils qui tirent leur efficacité de la conscience humaine, au lieu de former leur propre sensibilité artificielle.
CONCLUSION Dans ce chapitre, nous avons fait un tour d’horizon dans le monde l’intelligence artificielle un monde bien fascinant et on peut dire que l’étendue de l’intelligence des robots et des machines est limitée, car ils ne savent pas quoi faire dans les situations pour lesquelles ils ne sont pas programmés (entraîner) et en dehors de cela, ils n'ont aucun moyen de déterminer quoi faire. L'IA équipée pour l'apprentissage automatique qu'on verra dans ce qui suit ne peut qu'apprendre et appliquer que ce qu'elle a appris et à la portée pour laquelle elle est programmée. L’Intelligence Artificielle est définie comme l'une des principales menaces pour l'avenir de l'humanité, mythe ou réalité l'avenir nous le dira.
32
CHAPITRE 4: MACHINE LEARNING
CHAPITRE 3: MACHINE LEARNING INTRODUCTION D’une façon générale, l’apprentissage humain est un processus adaptatif grâce à laquelle l’individu fournit des réponses adéquates à certaines situations. En Psychologie ou en Science Cognitives, le terme « Apprentissage » désigne le processus d’augmentation de l’efficacité de l’activité mentale ou comportementale sous l’effet de l’expérience. Cependant on a à faire un autre type d’apprentissage, vous l’utilisez certainement des centaines voire des milliers de fois par jour sans même le savoir, chaque jour des millions d’utilisateurs effectue des recherches sur Google ou Bing, comment font les applications de photos comme celle de Facebook ou Apple qui reconnaissent des personnes sur les photos. À chaque fois que quelqu’un lit un e-mail et que le filtre anti-spam évite à la personne de parcourir des tonnes de spam encore une fois les questions qu’on doit se poser comment l’ordinateur a appris à distinguer entre les e-mails spam des non-spam et comment tout cela marche si bien, c’est parce que tout cela est possible grâce à une technologie qu’on appelle le Machine Learning en français apprentissage automatique.
4.1.
PRÉSENTATION DU MACHINE LEARNING
Le Machine Learning (en français apprentissage automatique) est un sous-domaine de l’intelligence artificielle, qui concerne la conception, l’analyse, le développement et l’implémentation de méthode permettant à une machine d’évoluer, de remplir des tâches difficiles ou problématique par le moyen des algorithmes et de modéliser les tâches dans le but de prendre des décisions stratégiques. L’apprentissage
automatique (Mitchell,
1997) est
un
Domaine
de
l’intelligence
Artificielle (IA) dont l’objectif est d’étudier les moyens permettant à une machine, en accomplissant des tâches, tout en s'améliorant au fur et à mesure. Apprendre, dans ce cas signifie être capable d’adapter son comportement dans une situation inconnue (n’ayant pas été prévues par les concepteurs de la machine dans l’accomplissement d’une tâche) et pouvoir extraire des caractéristiques à partir de bases de données
33
d’apprentissage. L’apprentissage se fait donc par des outils qui permettent d’acquérir, élargir et améliorer les connaissances disponibles au système. L'apprentissage automatique est utilisé pour doter des ordinateurs ou des machines de systèmes de perception de leur environnement : vision, reconnaissance d'objets (visages, schémas, langages naturels, écriture, formes syntaxiques…), moteurs de recherche, aide aux diagnostics médical, bio-informatique, chimio-informatique, interfaces cerveau-machine, détection de fraudes à la carte de crédit, analyse financière, dont analyse du marché boursier, classification des séquences d’ADN, jeu, génie logiciel, adaptation de sites Web, locomotion de robots, analyse prédictive en matière juridique et judiciaire…
4.2.
LA COLLECTE DE DONNÉES
Cette étape est cruciale, il consiste à récupérer, sélectionner, nettoyer et transformer les données pertinentes de telle sorte qu’il soit compréhensible par la machine, pour cela, il va falloir prétraiter les données, c’est-à-dire visualiser les différentes variables, essayer de comprendre les valeurs extrêmes ou anormales, les liens, etc... Une fois qu’on a une idée de ce à quoi on a affaire, on peut définir un problématique plus précise. Les bases de données constituent la source principale de récupération lors d’une étude de cas en Machine Learning. Il existe des technologies pour récupérer ces données (sql, xml, json…) ces bases de données peuvent comprendre les différents types d’information : Les logs d’un serveur web Les transactions bancaires Le comportement des utilisateurs d’un site Le catalogue d’un produit d’un site de e-commerce… Les données peuvent être du texte, rédiger en langage naturel (humain) ainsi, on peut inclure tous les types de texte (articles, livres, messages, etc.) le traitement du texte (appelé NLP Natural Language Processing) constitue un domaine de recherche à lui seul. Elles peuvent être aussi du code HTML ou encore des séquences d’ADN, mais aussi des audios, des images (et vidéo) le traitement des images et de vidéos constitue un domaine de recherche à part (Computer Vision en anglais).
34
4.3.
LA MODÉLISATION
La resolution d’un problème de Machine Learning constitue cette étape et permet à un ordinateur de modéliser les données qui lui sont fournies. Modéliser signifie dans ce cas représenter le comportement d’un phénomène afin de pouvoir directement aider à la résolution d’un problème concret. En Machine Learning, l’idée est que l’algorithme construit une représentation interne tout seul afin de pouvoir effectuer une tâche qui lui est demandé (prédiction, identification, etc.). Pour cela, il va falloir lui donner un ensemble de données d’exemples (ou d’entraînement) afin qu’il puisse s’entraîner et s’améliorer, d’où le mot apprentissage. Cet ensemble de données s’appelle le training set (ou training dataset). On peut appeler une entrée dans l’ensemble de données une instance ou une observation. La première phase sera le choix et l’entraînement de l’algorithme d’apprentissage du modèle, mais le traitement de la tâche spécifiques sera appris à partir du training set. Ensuite effectué par l’algorithme lui-même dans une seconde phase. Le schéma ci-dessus montre les différentes phases de l’utilisation d’un algorithme de Machine Learning.
Figure 14: Étapes de l’apprentissage en ML.
35
Comme nous le montre le schéma ci-dessus un problème de Machine Learning est composé des différents éléments :
Les données (les données d’entraînement, mais aussi les nouvelles données) ;
La tâche spécifique à accomplir (prédire, recommander, décider quelque chose, etc.) ;
L’algorithme d’apprentissage en lui-même ;
L’analyse d’erreur (ou mesure des performances du modèle).
4.4.
LA TÂCHE À ACCOMPLIR
La tâche spécifique à accomplir correspond au problème qu’on cherche à résoudre grâce à la modélisation du phénomène. On distingue entre autres les recommandations de produits, aide au diagnostic, prédiction météorologique, l’identification d’une personne dans une vidéo, l’identification de transactions frauduleuse, la prédiction du prix optimal d’un produit pour maximiser les ventes. Bien sûr, chacun se traduira différemment d’un autre et nécessite le choix d’un algorithme différent.
4.5.
LES DIFFÉRENTS TYPES D’APPRENTISSAGE
La Machine Learning possède différents types d’apprentissage, chaque mode d’apprentissage regroupe une famille d'algorithme. Dans ce qui suit, on va énumérer et expliquer le concept de quelques types d’apprentissage en Machine Learning. 4.5.1. SUPERVISED LEARNING Supervised Learning (en français l’apprentissage Supervisé) consiste à donner à la machine un ensemble de données en entrée (données d’entraînement) étiquetés et nous savons déjà à quoi devraient ressembler les résultats correct en ayant une idée qu’il existe une relation entre l’entrée et la sortie. Sur la base des sorties étiquetées, les entrées sont comparées. En fonction de la variation entre les deux signaux, une valeur d'erreur est calculée et un algorithme est utilisé pour apprendre la fonction de mappage de l'entrée à la sortie. Le but est d’approximer les fonctions de telle sorte que lorsqu’on a une nouvelle donnée d’entrée, on peut prédire les variables de sortie. L'apprentissage s'arrête lorsque l'algorithme atteint un niveau de performance acceptable. La tâche de l’apprentissage supervisé est : Un ensemble d’apprentissage composé de 𝑁 exemples de pair entrée-sortie :
36
(𝒙(𝟏) , 𝒚(𝟏) ), (𝒙(𝟐) , 𝒚(𝟐) ), … , (𝒙(𝑴) , 𝒚(𝑴) ) Chaque 𝑦 (𝑖) a été généré par une fonction 𝑭(𝒙) = 𝒚 inconnue, le but est découvrir la fonction 𝑓 qui se rapproche de 𝐹. 4.5.1.1.
RÉGRESSION ET CLASSIFICATION
Le Supervised Learning est composé de deux catégories qui sont les problèmes de « Régression » et de « classification », dans un problème de régression : il s’agit de prédire les résultats dans une sortie continue (faire correspondre les variables d’entrée à fonction continue), dans un problème de classification, il s’agit de prédire les résultats dans une sortie discrète (faire correspondre les variables d’entrée en catégories discrète). Cette distinction aidera dans le choix d’un algorithme de Machine Learning et le type de sortie que l’on attend du programme : estce une valeur continue (un nombre) donc c’est le cas d’une régression ou bien une valeur discrète (une catégorie) donc c'est le cas d’une classification ?
Figure 15: Illustration de la différence entre régression linéaire et classification linéaire. Un modèle de régression est un modèle de ML dont les sorties y sont des nombres (exemple: la température de demain). Un modèle de classification est un modèle de ML dont les sorties y appartiennent à un ensemble fini de valeurs (exemple : bon, mauvais). Il existe un autre type de prédiction possible qui est de sortir plusieurs labels de manière ordonnée (Machine-Learning Ranking en anglais). L’algorithme PageRank de Google retourne des résultats de recherche dans l’ordre, du plus pertinent au moins pertinent. En représentation un peu plus mathématiques en Surpervised Learning, on reçoit en entrer des données d’exemple annotées : (x 1 ,y1 ), (x2 ,y2 ), (x3 ,y3 ),… et on prédit la sortie sur une nouvelle observation : x ∗ → y ∗
37
4.5.2. UNSUPERVISED LEARNING Unsupervised Learning (en français l’apprentissage non-supervisé) cette fois-ci, on peut aborder les problèmes avec peu ou quasiment pas d’idée de ce à quoi nos résultats devraient ressembler. La machine ou ordinateur ne dispose que d’exemples non étiquetés on parle d’apprentissage non supervisé ou clustering. L’algorithme doit découvrir par lui-même les structures des données cibles selon leurs attributs disponibles, pour les classer en groupes. On peut dériver une structure à partir de données pour lesquelles on ne connaît pas l’effet des variables en regroupant les données en fonction des relations entre les variables dans les modèles de données. Le clustering désigne les méthodes de regroupement automatique de données qui se ressemblent le plus en un ensemble de « nuages » appelés clusters. Un ensemble d’algorithmes non-supervisés peuvent réaliser cette tâche, ils mesurent de manière automatique la similarité entre les différentes données. En représentation un peu plus mathématiques en l’apprentissage non-supervisé, on reçoit uniquement des observations brutes de variables aléatoires : 𝒙𝟏 , 𝒙𝟐 , 𝒙𝟑 , 𝒙𝟒 , 𝒙𝟓 , … Et on découvre la relation avec des variables latentes structurelles : 𝑥𝑖 → 𝑦𝑖 4.5.3. SEMI-SUPERVISED LEARNING Semi-supervised Learning (l’apprentissage semi-supervisé) est effectué de manière probabiliste ou non. L’apprentissage semi-supervisé est à mi-chemin entre ces deux méthodes précédentes. On fournit au modèle quelques exemples étiquetés, mais la grande partie des données ne le sont pas. On trouve des cas d’application partout où l’obtention des données est facile, mais leur étiquetage demande des efforts, du temps ou de l’argent comme par exemple :
En reconnaissance de parole, il ne coûte rien d’enregistrer une grande quantité de parole, mais leur étiquetage nécessite des personnes qui les écoutent.
Des milliards de pages web sont disponibles, mais pour les classer il faut les lire.
Il est mis en œuvre essentiellement quand des données(étiquettes) manquent, le modèle doit utiliser des exemples non étiquetés pouvant néanmoins renseigner.
38
4.5.4. REINFORCEMENT LEARNING Reinforcement Learning (l’apprentissage par renforcement) est aussi un type d’apprentissage, comme nous le savons, « l'erreur est humaine » et les humains apprennent de nouvelles tâches principalement par essais et erreurs. L'apprentissage par renforcement est un domaine d’apprentissage automatique qui s'inspire de cette facette humaine et qui consiste à calculer les résultats de certaines actions pour maximiser le rendement. Cela implique d'avoir un agent chargé d'observer son état actuel dans un environnement numérique et de prendre des mesures qui maximisent le cumul d'une récompense à long terme qui a été établie. L'agent doit peser les actions et opter pour les stratégies optimales qui aident ou favorisent le progrès pour atteindre l'objectif souhaité. 4.5.5. TRANSFER LEARNING Transfer Learning (l’apprentissage par transfert) peut être vu comme la capacité à une machine de reconnaître et appliquer des connaissances et des compétences, apprises à partir de tâches antérieures sur une nouvelle tâche ou domaine partageant des similitudes. Son objectif est de savoir comment alors identifier les similitudes entre la ou les tâche(s) cible(s) et la ou les tâche(s) source(s), puis comment transférer la connaissance de là ou des tâche(s) source(s) vers la ou les tâche(s) cible(s).
4.6.
LES ALGORITHMES D’APPRENTISSAGE
L’algorithme d’apprentissage constitue la méthode avec laquelle le modèle statistique va se paramétrer à partir des exemples de donnée. Il existe plusieurs algorithmes différents, le choix du type d’algorithme dépendra de la tâche que l’on souhaite accomplir. Voici quelques exemples d’algorithmes de Machine Learning : Régression Linéaire; Logistique Régression ; Support Vector Machine(SVM) ; K-means ; K-nn ; Neural Network…
39
4.6.1. LA RÉGRESSION LINÉAIRE Une régression linéaire est un algorithme supervisé, avec en entrée 𝑥 et en sortie 𝑌 la sortie (la prédiction) est de la forme 𝑌 = 𝑤0 + 𝑤1 𝑋 ou [𝑤0 et 𝑤1 ] sont des valeurs réelles à calculer.
Figure 16: Exemple de représentation de Régression Linéaire. Prenons l’exemple suivant s’acheter une maison à Sally est l’objectif de certains Sénégalais, mais aussi des touristes qui viennent visiter Sénégal pour ainsi s’installer au Sénégal après leur retraite. Pour établir une relation entre le prix en million de FCFA d’une maison à Sally et la taille de la maison, on peut ainsi prédire une relation entre ces deux. La première étape consistera à examiner les données sur un graphiquement :
Figure 17: Prix d’une maison par sa taille. Bien évidemment, le graphique montre que le prix d’une maison augmente en même temps que la taille. On peut tracer une droite comme celle-ci pour réaliser une approximation de cette relation donc la relation entre le prix et la taille est linéaire.
40
Figure 18: Une relation linéaire. Cette droite ne passe pas exactement par chaque point, mais elle montre clairement la relation entre les prix et les tailles. Avec un peu d’algèbre, nous pouvons décrire cette relation ainsi : 𝑦 = 𝑎𝑥 + 𝑏
𝑦 est le prix d’une maison en million de franc cfa, les valeurs qu’on essaie de prédire ;
𝑎 est la pente de la droite ;
𝑥 est la taille en mètre carré, c’est la valeur de notre caractéristique d’entrée ;
𝑏 est l’ordonnée à l’origine.
Pour le Machine Learning, la Linear Regression (la régression linéaire) s’obtient pour un modèle, en changeant légèrement l’équation précédente, l’équation de prédiction devient comme suit: 𝑦 ′ = 𝑏 + 𝑏1 𝑥1 On écrit aussi 𝑦 ′ = 𝑤0 + 𝑤1 𝑥1 Pour établir une notation nous utiliserons ce qui suit: 𝑦 ′ : est l’étiquette prédite / variable de sortie / variable de la cible (ouput/feature) 𝑏 : est le biais(l’ordonnée à l’origine) noté aussi 𝑤0 𝑤1 : est le paramètre(pondération) de la caractéristique 1. La pondération est identique à celui de pente représenté par la lettre « a » ci-dessus.
41
𝑥1 : est une caractéristique connue (input/feature) / variable d’entrée Pour prédire le prix 𝑦 ′ pour une nouvelle valeur de la taille en 𝑚2 il suffit d’introduire la nouvelle valeur de 𝑥1 dans le modèle. Les indices (𝑤1 et 𝑥1 ) du modèle précèdent repose sur une seule caractéristique. Pour un modèle reposant sur plusieurs caractéristiques l’équation de prédiction deviens comme suit : 𝑦 ′ = 𝑏 + 𝑤1 𝑥1 + 𝑤2 𝑥2 + ⋯ + 𝑤𝑛−1 𝑥𝑛−1 + 𝑤𝑛 𝑥𝑛 On peut l’écrire sous cette forme : 𝑦 ′ = 𝑤0 + 𝑤1 𝑥1 + 𝑤2 𝑥2 + ⋯ + 𝑤𝑛−1 𝑥𝑛−1 + 𝑤𝑛 𝑥𝑛 4.6.1.1.
Perte (Loss)
Pour un modèle, l’apprentissage a pour objectif de déterminer les bonnes valeurs pour tous les paramètres (pondérations et le biais) à partir d’exemples d’apprentissage. Pour la régression linéaire, l’algorithme de Machine Learning crée un modèle en examinant de plusieurs exemples en vue de trouver un modèle qui minimise la perte, on appelle ce processus minimisation du risque empirique. La perte permet de mesurer la précision de la prédiction pour un ensemble de donnée. Si la perte est nulle, c’est-à-dire égale à zéro dans ce cas la prédiction est parfaite. Sinon la perte est supérieure à zéro, on doit dans ce cas chercher à le minimiser. Comme l’illustre la figure suivante ici les points les points en vert représentent nos valeur d’entrée et celles en rouge représentent les prédictions faites et la droite en noir représente la fonction de prédiction 𝑦̂ = 𝑏0 + 𝑏1 𝑥 . Les pertes sont représentées par 𝑟𝑖 = (𝑦̂𝑖 − 𝑦̂𝑖 ).
Figure 19: Représentation de la perte dans un cas de régression linéaire.
42
Figure 20: Représentation de Perte élevée dans le modèle à gauche, perte faible dans le modèle à droite. Sur la figure précédente on illustre:
Des flèches rouges qui représentent les pertes ;
Une ligne bleue qui représente les prédictions.
On peut remarquer que les flèches rouges dans le graphique de gauche sont plus longues que celles de l’autre graphique à droite. C’est parce que la ligne bleue dans le modèle de droite a une perte faible correspond à un modèle prédictif plus performante celui dans le graphique de gauche. Les modèles de régression linéaire utilisent une fonction de perte quadratique. Pour un seul exemple, la perte quadratique est : (𝒐𝒃𝒔𝒆𝒓𝒗𝒂𝒕𝒊𝒐𝒏 − 𝒑𝒓𝒆𝒅𝒊𝒄𝒕𝒊𝒐𝒏(𝒙))𝟐 On peut l’écrire comme suit : (𝒚 − 𝒚′ )𝟐 L’erreur quadratique moyenne (MSE) est couramment utilisé en Machine Learning il correspond à la perte quadratique moyenne pour chaque exemple. Pour calculer l’erreur MSE, il faut additionner toutes les pertes quadratiques de l’exemple, puis diviser par le nombres d’exemples : 𝑴𝑺𝑬 =
𝟏 ∑ 𝑵
(𝐲 − 𝒑𝒓𝒆𝒅𝒊𝒄𝒕𝒊𝒐𝒏(𝒙))𝟐
(𝒙,𝒚)𝝐𝑫
(𝒙, 𝒚) est un exemple dans lequel on fait l’apprentissage :
𝒙 est l'ensemble des caractéristiques (par la taille d’une maison) que le modèle utilise pour réaliser des prédictions ;
𝒚 est l'étiquette de l'exemple (par le prix d’une maison).
43
𝒑𝒓𝒆𝒅𝒊𝒄𝒕𝒊𝒐𝒏(𝒙) est une fonction des pondérations et biais en combinaison avec l'ensemble des caractéristiques .
𝑫 est un ensemble de données contenant de nombreux exemples étiquetés, qui sont des paires .
𝑵est le nombre d'exemples dans 𝑫 .
Bien que l'erreur MSE soit couramment utilisée dans le Machine Learning, ce n'est ni la seule fonction de perte pratique, ni la meilleure fonction de perte pour toutes les circonstances. 4.6.1.2.
Gradient descente
Pour minimiser la perte dans un problème de linéaire régression on fait appelle au gradient descente qui permet de trouver les paramètres optimaux. Soit la fonction de prédiction 𝒚′ = 𝒉𝒘 (𝒙(𝒊) ) 𝑒𝑡 𝒚𝒊 la sortie recherché Gradient Descente One variable (n=1)
Multiple variables (𝑛 ≥ 1)
L’ancien algorithme :
Le nouvel algorithme
Repeat {
Repeat { 𝑚
𝑚
1 𝑤0 = 𝑤0 − 𝛼 ∑(ℎ𝑤 (𝑥 (𝑖) ) − 𝑦 (𝑖) ) 𝑚
1 (𝑖) 𝑤𝑗 = 𝑤𝑗 − 𝛼 ∑(ℎ𝑤 (𝑥 (𝑖) ) − 𝑦 (𝑖) ) ∙ 𝑥𝑗 𝑚
𝑖=1
𝑖=1
𝑚
𝑤1 = 𝑤1 − 𝛼
(changement simultané de 𝑤𝑗 pour
1 ∑(ℎ𝑤 (𝑥 (𝑖) ) − 𝑦 (𝑖) ) 𝑚
𝑗 = 0, … , 𝑛)
𝑖=1
}
∙ 𝑥 (𝑖)
𝑚
(changement simultané de 𝑤0 , 𝑤1 )
1 (𝑖) 𝑤0 = 𝑤0 − 𝛼 ∑(ℎ𝑤 (𝑥 (𝑖) ) − 𝑦 (𝑖) ) ∙ 𝑥0 𝑚
}
𝑖=1 𝑚
1 (𝑖) 𝑤1 = 𝑤1 − 𝛼 ∑(ℎ𝑤 (𝑥 (𝑖) ) − 𝑦 (𝑖) ) ∙ 𝑥1 𝑚 𝑖=1 𝑚
1 (𝑖) 𝑤2 = 𝑤2 − 𝛼 ∑(ℎ𝑤 (𝑥 (𝑖) ) − 𝑦 (𝑖) ) ∙ 𝑥2 𝑚 𝑖=1
⋮ Tableau 3: Gradient du Linéaire régression.
44
4.6.2. LOGISTIC REGRESSION De nombreux problèmes nécessitent un résultat sous forme d'une estimation de probabilité. La régression logistique est un mécanisme extrêmement efficace pour calculer des probabilités. Dans de nombreux cas, on fait correspondre le résultat de la régression logistique dans la solution à un problème de classification binaire, dans lequel l'objectif est de prédire correctement l'une de deux étiquettes possibles (par ex. "courrier indésirable" ou "pas courrier indésirable"). Un modèle de régression logistique peut garantir un résultat toujours compris entre 0 et 1 𝒚′𝝐{ 𝟎, 𝟏}, avec une fonction sigmoïde, définie de la façon suivante, produit un résultat ayant les mêmes caractéristiques : 𝒚′ =
𝟏 𝟏 + 𝒆−𝒛
La fonction sigmoïde donne le tracé suivant :
Figure 21: Fonction sigmoïde. Si 𝑧 représente le résultat de la couche linéaire d'un modèle formé avec la régression logistique, alors le sigmoïde (z) donnera une valeur (une probabilité) entre 0 et 1. En termes mathématiques : 𝑦′ =
1 1 + 𝑒 −𝑍
𝑧 = 𝑏 + 𝑤1 𝑥1 + 𝑤2 𝑥 2 + . . . +𝑤𝑛 𝑥𝑛 = 𝑤 𝑇 𝑥
[𝑤0
𝑤1
⋯
𝑥0 𝑥 𝑤𝑛 ] [ 1 ] = 𝑤 𝑇 𝑥 ⋮ 𝑥𝑛
45
avec :
𝑦′ est le résultat(prédiction) du modèle de régression logistique pour un exemple particulier.
Les valeurs w sont les pondérations et biais appris par le modèle.
Les valeurs x sont les valeurs des caractéristiques pour un exemple particulier. Notez que z est également appelé logarithme de probabilité parce que l'inverse du sigmoïde dit que z peut être défini comme le logarithme de la probabilité de l'étiquette "1" (par ex. "le chien aboie") divisé par la probabilité de l'étiquette "0" (par ex. "le chien n'aboie pas") : 𝑧 = 𝑙𝑜𝑔
𝑦 1−𝑦
Voici la fonction sigmoïde avec les étiquettes de ML :
Figure 22: Résultat de la régression logistique. Notre probabilité que notre prédiction soit égale à 0 (𝑦 ′ = 0) n'est que le complément de notre probabilité qu'elle soit 1 (par exemple, si la probabilité qu'elle soit de 1 soit de 70%, alors la probabilité qu'elle soit de 0 soit de 30%). 𝑦′ = 𝑃(𝑦 = 1|𝑥; 0) = 1 − 𝑃(𝑦 = 0|𝑥; 0) 𝑃(𝑦 = 0|𝑥; 0) + 𝑃(𝑦 = 1|𝑥; 0) = 1 4.6.2.1.
Fonction de perte pour la régression logistique
La fonction de perte pour la régression linéaire est appelée perte quadratique. La fonction de perte pour la régression logistique est la perte logistique, définie de la façon suivante :
46
𝐿𝑜𝑔𝐿𝑜𝑠𝑠 = ∑ −𝑦𝑙𝑜𝑔(𝑦 ′ ) − (1 − 𝑦)log(1 − 𝑦 ′ ) (𝑥,𝑦)∈𝐷
avec:
(x, y) ϵ D est l'ensemble de données contenant de nombreux exemples étiquetés, qui sont des paires (x, y).
y est l'étiquette dans un exemple étiqueté. Puisqu'il s'agit de régression logistique, chaque valeur de y doit être 0 ou 1.
y' est la valeur prédite (comprise entre 0 et 1), étant donné l'ensemble d'éléments dans x. L'équation pour la perte logistique est étroitement liée à la mesure d'entropie de Shannon de la théorie de l'information. C'est également le logarithme négatif de la fonction de vraisemblance, en supposant une distribution de Bernoulli de y. En effet, la minimisation de la fonction de perte donne une estimation maximum de la vraisemblance. Le Gradient Descente Rappelez-vous que la forme générale de Le Gradient Descente est : Repeat{ 𝑤𝑗 ≔ 𝑤𝑗 − 𝛼
𝜕 𝐽(𝑤) 𝜕𝑤𝑗
} Nous pouvons travailler sur la partie dérivée en utilisant le calcul pour obtenir : Repeat { 𝑚
𝛼 (𝑖) 𝑤𝑗 ≔ 𝑤𝑗 − ∑(𝑦′(𝑥 (𝑖) ) − 𝑦 (𝑖) )𝑥𝑗 𝑚 𝑖=1
} Notons que cet algorithme est identique à celui que nous avons utilisé dans la régression linéaire. Nous devons encore mettre à jour simultanément toutes les valeurs de thêta. Une implémentation vectorisée est:
47
𝑤≔𝑤−
𝛼 𝑇 𝑋 (𝑔(𝑋𝑤) − 𝑦⃗ ) 𝑚 4.6.2.2.
Classification : définition des seuils
Les régressions logistiques permettent d’obtenir une probabilité en l’état c’est-à-dire obtenir pour une classe A 0,0049 et pour l’autre classe B 0,9951 bien sur la somme totale des probabilités doit être égale à 1 ou bien le convertir en valeur binaire 0 ou 1. Suivant un modèle de prédiction des classes A et B on peut en déduire que classe B 0,9951 présente un aspect positif et la classe A un aspect négatif mais quand est-il lorsqu’on a un score de 0,6 pour une classe donnée. C’est là qu’on introduit la notion de valeur seuil Afin d'identifier la catégorie binaire correspondant à une valeur obtenue par régression logistique on doit définir un seuil de classification (également appelé seuil de décision). Toute valeur supérieure à ce seuil correspondra à la catégorie « positive », toute valeur inférieure à la catégorie « négative ». Il peut paraître logique d'en déduire que la valeur du seuil de classification devrait toujours être égale à 0,5, mais les seuils doivent toujours être adaptés au problème considéré : ce sont donc des valeurs à ajuster. 4.6.2.3.
Classification : vrai ou faux et positif ou négatif
Dans cette section, nous définissons les bases des critères que nous utiliserons pour évaluer les modèles de classification avec 𝑘 = 2 classes à prédire. Procédons aux définitions suivantes : Un Vrai Positif (VP) est un résultat où le modèle prédit correctement la classe positive. De façon analogue, un Vrai Négatif (VN) est un résultat où le modèle prédit correctement la classe négative. Un Faux Positif (FP) est un résultat où le modèle prédit incorrectement la classe positive. Et un Faux Négatif (FN) est un résultat où le modèle prédit incorrectement la classe négative. Soit la classe positive (résultat cherché) est égal à 0 (classe 0) et la classe négative (le contraire du résultat cherché) est égal 1 (classe 1), alors on obtient le tableau suivant :
48
Classe prédite Classe 0
Classe 1
Classe 0
VP
FP
Classe 1
FN
VN
Classe réelle
Tableau 4: Classification vrai ou faux et positif ou négatif. Si nous souhaitons rendre compte de la qualité de la prédiction sur la classe 1, on définit :
Précision : Proportion d’éléments bien classés pour une classe donnée : 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒1 =
𝑉𝑃 𝑉𝑃 + 𝐹𝑃
Rappel : Proportion d’éléments bien classés par rapport au nombre d’éléments de la classe à prédire : 𝑅𝑎𝑝𝑝𝑒𝑙𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒1 =
𝑉𝑃 𝑉𝑃 + 𝐹𝑁
F-mesure : Mesure de compromis entre précision et rappel :
𝐹 − 𝑚𝑒𝑠𝑢𝑟𝑒𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒1 =
2 ∗ (𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑅𝑎𝑝𝑝𝑒𝑙) 𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑎𝑝𝑝𝑒𝑙
Il est possible de calculer tous ces indicateurs pour chaque classe (𝑘 = 1 … 𝑖 classes à prédire.). La moyenne sur chaque classe de ces indicateurs donne des indicateurs globaux sur la qualité du classifieur. 𝑘
1 𝑉𝑃𝑖 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = ∑ 𝑘 𝑉𝑃𝑖 + 𝐹𝑃𝑖 𝑖=1
𝑘
1 𝑉𝑃𝑖 𝑅𝑎𝑝𝑝𝑒𝑙 = ∑ 𝑘 𝑉𝑃𝑖 + 𝐹𝑁𝑖 𝑖=1
𝐹 − 𝑚𝑒𝑠𝑢𝑟𝑒 =
2 ∗ (𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑅𝑎𝑝𝑝𝑒𝑙) 𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑎𝑝𝑝𝑒𝑙
49
4.6.2.4.
La courbe ROC et AUC
Dans le cas d’un classifieur binaire, il est possible de visualiser les performances du classifieur sur ce que l’on appelle une courbe ROC. La courbe ROC est une représentation du taux de vrais positifs en fonction du taux de faux positifs. Son intérêt est de s’affranchir de la taille des données de test dans le cas où les données sont déséquilibrées. Le taux de vrais positifs(TVP) est l’equivalent du rappel. Il est donc défini comme suit : 𝑇𝑉𝑃 =
𝑉𝑃 𝑉𝑃 + 𝐹𝑁
Le taux de faux positifs (TFP) est défini comme suit : 𝑇𝐹𝑃 =
𝐹𝑃 𝐹𝑃 + 𝑉𝑁
Figure 23: Taux de VP et de FP pour différents seuils de classification. Cette représentation met en avant un nouvel indicateur qui est AUC l’aire sous la courbe. AUC mesure l’intégrale de l’aire à deux dimensions située sous l’ensemble de la courbe ROC (par calculs d’intégrales) de (0,0) à (1,1). Plus elle se rapproche de 1, plus le classifieur est performant.
50
Figure 24: AUC (aire sous la courbe ROC). 4.6.3. 𝒌-Means L’algorithme des k-moyennes (𝒌 -means) est un algorithme non supervisé. Chaque observation est représentée par un point dans un espace à 𝒏 dimensions ou 𝒏 est le nombre de variables descriptives. À partir d’un ensemble d’apprentissage de 𝑴 observations 𝒙(𝟏) , … , 𝒙𝑴 cet algorithme va repartir ces observations en 𝒌 clusters de manière à ce que la distance euclidienne qui sépare les points au centre de gravité du groupe auquel ils sont affectés soit minimale. Les étapes de l’algorithme sont :
Choisir 𝒌 points qui représentent la position moyenne des clusters
Répéter jusqu’à stabilisation des points centraux : o Affecter chacun des 𝑴 points au plus proche des 𝒌 points centraux ; o Mettre à jour les points centraux en calculant les centres de gravité des 𝒌 cluster.
Avantages : o Implémentable pour des grands volumes de données.
Inconvénients o Le choix du paramètre 𝒌 n’est pas découvert mais choisi par l’utilisateur ; o La solution dépend des 𝒌 centre de gravité choisi lors de l’initialisation.
51
Figure 25: L’algorithme k-means regroupe les données en k cluster, ici k = 3. Les centres de gravité sont représentés par de petits cercles. 4.6.4. Les k plus proches voisins L’algorithme des K-Nearest Neighbors (KNN) (𝑲 plus proches voisins) est un algorithme de classification supervisé. Chaque observation de l’ensemble d’apprentissages est représentée par un point dans un espace à 𝒏 dimensions ou 𝒏 est le nombre de variables prédictives. Pour prédire la classe d’une observation, on cherche les 𝒌 points les plus proches de cet exemple. La classe de la variable cible, est celle qui est la plus représentée parmi les 𝒌 plus proches voisins. Il existe des variantes de l’algorithme ou on pondère les 𝑘 observations en fonction de leur distance à l’exemple dont on veut classer, les observations les plus éloignées de notre exemple seront considérées comme moins importantes. Une variante de l’algorithme est utilisée par NetFlix pour prédire les scores qu’un utilisateur attribuera à un film en fonction des scores qu’il a attribués à des films similaires.
Figure 26: Pour k = 3 la classe majoritaire du point central est la classe B, mais si on change la valeur du voisinage k = 6 la classe majoritaire devient la classe A.
52
Avantages :
Simple à concevoir
Inconvénients
Sensible aux bruits ;
Pour un nombre de variable prédictives, très grands le calcul de la distance devient très coûteux. 4.6.5. Support Vector Machine
Les Support Vector Machine (SVM) (machines à vecteur de support) font partie des algorithmes de classification supervisé, ce sont des algorithmes classification binaire nonlinaire très puissant. Le principe des SVM consiste à construire une bande séparatrice nonlinéaire de largeur maximale qui sépare deux ensembles d’observations et à l’utiliser pour faire des prédictions. SVM étant une méthode de classification supervisée, est vue comme un perceptron dans le sens où ils cherchent à trouver le meilleur hyperplan de séparation de données de deux classes. Cependant, un SVM est différent d’un perceptron dans le sens où ce dernier n’a pas de préférence parmi les séparateurs possibles alors que la SVM fait un choix particulier entre les séparateurs possibles en cherchant celui avec la « marge maximale ». On a deux cas de séparateurs :
Cas linéairement séparable.
Cas non linéairement séparable. 4.6.5.1.
Cas linéairement séparable
La première idée cas linéairement séparable consiste à trouver un séparateur linéaire de largeur maximale, c’est la notion de marge maximale. La marge est la distance entre la frontière de séparation et les échantillons les plus proches. Ces derniers sont appelés vecteurs supports. Le problème est de trouver cette frontière séparatrice optimale. Dans le cas où le problème est linéairement séparable, le choix de l’hyperplan séparateur n’est pas évident. Il existe en effet une infinité d’hyperplans séparateurs, dont les performances en
53
phase d’apprentissage sont identiques, mais dont les performances en phase de test peuvent être très différentes. Pour résoudre ce problème, il a été montré, qu’il existe un unique hyperplan optimal, défini comme l’hyperplan qui maximise la marge entre les échantillons et l’hyperplan séparateur. Il existe des raisons théoriques à ce choix. Un chercheur russe au nom de Vapnik a montré que la capacité des classes d’hyperplans séparateurs diminue lorsque leur marge augmente.
Figure 27: On cherche un hyperplan qui divise les observations en deux catégories. Considérons un exemple 𝑥 qu’on veut classer, si 𝑓(𝑥) > 0, il appartient à la classe des cercles, sinon il appartient à la classe des carrés. Dans cette figure on peut voir qu’il existe une infinité d’hyperplans séparateurs possibles. 4.6.5.2.
Cas non linéairement séparable
Afin de pouvoir traiter des cas où les données ne sont pas linéairement séparables, la deuxième idée clé des SVM est de transformer l’espace de représentation des données d’entrées en un espace de plus grande dimension, dans lequel il est probable qu’il existe une séparation linéaire. Ceci est réalisé grâce à une fonction noyau, qui doit respecter les conditions du théorème de Mercer, et qui a l’avantage de ne pas nécessiter la connaissance explicite de la transformation à appliquer pour le changement d’espace. Les fonctions noyaux permettent de transformer un produit scalaire dans un espace de grande dimension, ce qui est coûteux, en une simple évaluation ponctuelle d’une fonction. Cette technique est connue sous le nom de kernel trick. Les deux fonctions noyaux les plus utilisées sont le noyau polynomial et le noyau gaussien.
54
Figure 28: Exemple d’un problème non linéairement séparable. La courbe devient une bande linéaire après avoir appliqué la transformation non-linéaire.
Avantages : o Il permet de traiter des problèmes de classification non linéaire complexe. o Les SVM constituent une alternative aux réseaux de neurones car plus faciles à entraîner.
Inconvénients : o Les SVM ne sont souvent pas performants. 4.6.6. NEURAL NETWORK
Neural Network NN (réseau neuronal) peut être utilisé dans le cas d’un Supervised Learning (apprentissage supervisé) et aussi dans le cas d’un Unsupervised Learning (apprentissage non supervisé) d’un proposé par Warren McCulloch et Walter Pitts en 1943, qui deviendra la base des réseaux de neurones artificiels un des premiers modèles de neurone artificiel, connu aussi sous le nom de « Artificiel Neural Network », est une technologie conçue pour simuler l’activité du cerveau humain en particulier, la reconnaissance des formes et le passage des données à travers différentes couches de connexions neuronales simulées.
Figure 29: Neurone du cerveau humain.
55
De nombreux experts définissent les réseaux de neurones profonds comme des réseaux dotés d'une couche d'entrée (Input Layer) faisant référence aux dendrites, d'une couche de sortie (Output Layer) faisant référence aux axones et d'au moins une couche masquée.
Figure 30: Réseau de neurone artificiel. Chaque couche effectue des types spécifiques de tri et de classement dans un processus que certains appellent « hiérarchie des fonctionnalités ». L'une des utilisations clés de ces réseaux neuronaux sophistiqués concerne le traitement des données non étiquetées ou non structurées. Ce modèle de neurone utilise la sommation des intrants pesés ou poids (weighted inputs) comme intrant « net » X (intrant direct de la fonction du neurone) et comme fonction d’activation, la fonction de signe (comparé avec le seuil 𝑤). 𝑛
𝑋 = ∑ 𝑥𝑖 ∗ 𝑤𝑖 𝑖=1
La sortie est comme suit : +1 𝑌={ −1
𝑠𝑖 𝑋 > 𝑤 𝑠𝑖 𝑋 < 𝑤
Les réseaux de neurones artificiels sont des réseaux fortement connectés de processeurs élémentaires fonctionnant en parallèle. Chaque processeur élémentaire (neurone artificiel) calcule une sortie unique sur la base des informations qu’il reçoit.
Avantages : o Capacité à découvrir les dépendances par lui-même ; o Résistance aux bruits.
56
Inconvénients o C’est un modèle boite noire qui n’explique pas ses décisions. 4.6.6.1.
PERCEPTRON MULTI COUCHE
Un perceptron multicouche (MLP) comprend au moins trois couches de nœuds: une couche d'entrée (Input Layer), une couche cachée (hidden Layer) et une couche de sortie (Output Layer). À l'exception des nœuds d'entrée, chaque nœud est un neurone utilisant une fonction d'activation non-linéaire. MLP utilise une technique d'apprentissage supervisée appelée rétropropagation pour l’apprentissage. Un neurone est l'unité de base du calcul dans un réseau de neurones couramment appelé « nœud » ou « unité ». Le nœud reçoit une entrée d'autres nœuds ou reçoit une entrée d'une source externe, puis calcule la sortie. Chaque entrée est complétée par un « poids » (w), dont le poids dépend de l'importance relative des autres entrées. Le nœud applique la fonction f (définie comme suit) à la somme d'entrée pondérée, comme illustré dans la figure ci-dessous
Figure 31: Représentation d’un neurone artificiel. L'importance du biais (b): La fonction principale du biais est de fournir une valeur constante pouvant être entraînée pour chaque nœud (au-delà de l'entrée normale reçue par le nœud) et éviter ainsi que la sortie 𝑌 soit égal à 0. 4.6.6.2.
FONCTION D’ACTIVATION
La fonction 𝑓 est non linéaire et est appelée fonction d'activation. La fonction d'activation a pour fonction d'introduire la non-linéarité dans la sortie du neurone. Comme la plupart des données du monde réel sont non-linéaires, on espère que les neurones pourront apprendre des
57
représentations fonctionnelles non-linéaires. Chaque fonction d'activation (non-linéaire) reçoit un nombre et effectue un calcul mathématique spécifique et fixe. En pratique, on peut rencontrer plusieurs fonctions d’activation :
Fonction Lineaire : 𝒇(𝒙) = 𝒂𝒙 + 𝒃
ReLU : ReLU signifie « modification d'unité linéaire », elle affiche une valeur réelle et définit un seuil de 0 (la fonction changera la valeur négative à zéro) fonction noté : 𝒇 (𝒙) = 𝒎𝒂𝒙 (𝟎, 𝒙) on parlera d’elle plus explicitement dans une autre chapitre.
Sigmoïde: reçoit entrer 𝑥 une valeur réelle et indique une valeur comprise entre 0 et 1 noté : 𝒇(𝒙) =
𝟏 𝟏+𝒆−𝒙 𝒆 𝒛𝒊
Softmax : f (z) = ∑𝑲
𝒊=𝟏 𝒆
𝒛𝒊
pour i=1,…,K
Figure 32: Représentations de différentes fonctions d'activation.
4.6.6.3.
BACK-PROPAGATION (RÉTRO-PROPAGATION DU GRADIENT)
Dans le cas de perceptrons multicouches, comme on ne connait pas les sorties(output) désirés des couches cachées, mais seulement de la dernière couche, il faut propager la responsabilité des erreurs de la dernière couche à la première dans le sens contraire du calcul de la prédiction, d’où son nom rétro-propagation. De plus, les perceptrons multicouches utilisent des neurones
58
munis de la fonction d’activation sigmoïde, celle-ci permettant les nuances nécessaires à une bonne utilisation de la retro-propagation. Rétro-Propagation permet à l’ordinateur « d’apprendre à partir de ces erreurs ». Pour l’algorithme de Rétro-Propagation initialement, tous les poids sont attribués de manière aléatoire. Pour toutes les entrées de l'ensemble de données d'apprentissage, le réseau de neurones artificiels est activé et sa sortie est observée. Ces sorties sont comparées à ce que nous savons déjà et attendons, l’erreur «se propage » au niveau précédent. L'erreur sera marquée et le poids sera « ajusté » en conséquence. Ce processus est répété jusqu'à ce que l'erreur de sortie soit inférieure à la norme établie. C’est une terminologie de neural-network pour minimiser la perte, tout comme ce que nous faisions avec le GRADIENT DESCENT dans la Logistique et Linéaire Régression.
Figure 33: Représentation d’un Rétro-Propagation du Gradient.
4.7.
LE SURAPPRENTISSAGE
Un modèle qui a surappris génère une faible perte lors de l’apprentissage, mais ne parvient pas à prédire efficacement les nouvelles données. Plus le nombre d’itérations pour lesquelles nous utilisons le même ensemble d’évaluation est important, plus le risque de surapprentissage est élevé. L'objectif d’un modèle du Machine Learning est d’apprendre bien l'échantillon en cours pour d'effectuer des prédictions correctes sur de nouvelles donnée. Le fait de rendre un modèle plus complexe que nécessaire est une cause de surapprentissage. Toute la difficulté du Machine Learning consiste à bien apprendre nos données, tout en veillant à ce que cet apprentissage reste le plus simple possible.
59
Si un modèle apprend correctement les exemples en cours, comment être sûr qu'il fera également des prédictions correctes sur des exemples qu'il n'a encore jamais vus ? C’est deux choses doivent être évité :
la complexité du modèle ;
les performances du modèle au niveau des données d'apprentissage.
Ceci étant une analyse théorique dans la pratique, leur application peut s’avérer difficile. L'objectif d'un modèle de Machine Learning est de formuler des prédictions exactes sur de nouvelles données qui n'étaient pas visibles précédemment. Mais comment obtenir ces données si vous construisez un modèle à partir de votre ensemble de données ? Une solution consiste à diviser notre ensemble de données en deux sous-ensembles :
ensemble d'apprentissage : sous-ensemble destiné à l'apprentissage d'un modèle ;
ensemble d'évaluation : sous-ensemble destiné à l'évaluation du modèle.
L'obtention de bons résultats sur l'ensemble d'évaluation indique généralement de bonnes performances sur les nouvelles données, dans l'hypothèse où :
l'ensemble d'évaluation est suffisamment vaste ;
on ne triche pas en réutilisant sans cesse le même test d'évaluation.
Les subtilités du Machine Learning repose sur trois hypothèses de base qui influencent la généralisation :
des exemples de variables Indépendantes et Identiquement Distribuées (IID) sont extraits de la distribution de manière aléatoire ;
la distribution est stationnaire : elle n'évolue pas au fil du temps ;
nous extrayons toujours les données de la même distribution : y compris pour les ensembles d'apprentissages, d'évaluation et de validation (test).
Lorsque l'on sait que l'une de ces trois hypothèses n'est pas respectée, il convient de prêter une attention toute particulière aux métriques (mesure).
60
4.8.
LA RÉGULARISATION
Dans le cas d’un surapprentissage des données par le modèle avec l'ensemble d'apprentissage pour éviter une telle situation on fait appel au principe de la régularisation au lieu de seulement chercher à minimiser la perte, comme suit : 𝑚𝑖𝑛𝑖𝑚𝑖𝑠𝑒𝑟(𝑃𝑒𝑟𝑡𝑒(𝐷𝑜𝑛𝑛é𝑒𝑠|𝑀𝑜𝑑è𝑙𝑒)) Nous allons minimiser à la fois minimiser la perte et la complexité, ce qui s'appelle la minimisation du risque structurel : 𝑚𝑖𝑛𝑖𝑚𝑖𝑠𝑒𝑟(𝑃𝑒𝑟𝑡𝑒(𝐷𝑜𝑛𝑛é𝑒𝑠|𝑀𝑜𝑑è𝑙𝑒) + 𝑐𝑜𝑚𝑝𝑙𝑒𝑥𝑖𝑡é(𝑀𝑜𝑑è𝑙𝑒)) Cette minimisation est constituée du facteur de perte, qui mesure l'efficacité d'apprentissage du modèle, et le facteur de régularisation, qui mesure la complexité du modèle.
Figure 34: Perte de l'ensemble d'apprentissage et de l'ensemble de validation. La figure ci-dessus présente un modèle où la perte d'apprentissage diminue progressivement, tandis que la perte de validation finit par augmenter. En d'autres termes, cette courbe de généralisation indique un surapprentissage des données par le modèle avec l'ensemble d'apprentissages. Machine Learning présente deux façons courantes (et apparentées) d'aborder la complexité d'un modèle :
la complexité du modèle en tant que fonction des pondérations de toutes les caractéristiques du modèle ;
la complexité du modèle en tant que fonction du nombre total de caractéristiques dont les pondérations sont différentes de zéro (nous aborderons cette approche dans un prochain module).
61
Si la complexité du modèle est en fonction des pondérations, la pondération d'une caractéristique est plus ou moins complexe selon que sa valeur absolue est plus ou moins élevée. On a deux types de régularisation qui sont : La régularisation 𝑳𝟏 La régularisation 𝐿1 aide à mettre à zéro les pondérations des caractéristiques (paramètres) peu ou pas pertinentes, ce qui a pour effet de supprimer celles-ci du modèle. La régularisation 𝑳𝟐 La régularisation L2 aide à rapprocher de zéro la pondération des anomalies (celles dont la valeur est très positive ou très négative), sans pour autant atteindre zéro. Différence entre régularisation 𝑳𝟏 et 𝑳𝟐 Les régularisations 𝐿1 et 𝐿2 ne pénalisent pas les pondérations de la même manière :
La pénalisation 𝐿1 porte sur |𝑝𝑜𝑛𝑑é𝑟𝑎𝑡𝑖𝑜𝑛|.
La pénalisation 𝐿2 porte sur 𝑝𝑜𝑛𝑑é𝑟𝑎𝑡𝑖𝑜𝑛2 .
Par conséquent, 𝐿1 et 𝐿2 ont des dérivées différentes :
La dérivée de 𝐿1 est 𝑘 (une constante, dont la valeur est indépendante de la pondération).
La dérivée de 𝐿2 est 2 ∗ 𝑝𝑜𝑛𝑑é𝑟𝑎𝑡𝑖𝑜𝑛.
4.9.
LE SOUS-APPRENTISSAGE
Pour ajuster l’effet global facteur de régularisation on multiplie par une grandeur scalaire appelée lambda (ou taux de régularisation) dont l’objectif est de : 𝑚𝑖𝑛𝑖𝑚𝑖𝑠𝑒𝑟(𝑃𝑒𝑟𝑡𝑒(𝐷𝑜𝑛𝑛é𝑒𝑠|𝑀𝑜𝑑è𝑙𝑒) + 𝜆 𝑐𝑜𝑚𝑝𝑙𝑒𝑥𝑖𝑡é(𝑀𝑜𝑑è𝑙𝑒)) Le lambda choisi doit permettre d'obtenir un juste équilibre entre simplicité et efficacité d'apprentissage :
si le lambda est trop élevé, le modèle sera simple, mais il présentera un risque d’overfitting (sous-apprentissage) des données. Le modèle n'en apprendra pas suffisamment sur les données d'apprentissage pour réaliser des prédictions utiles ;
62
si le lambda est trop faible, le modèle sera plus complexe, et il présentera un risque de surapprentissage des données. Le modèle apprendra trop sur les spécificités des données d'apprentissage, et il ne pourra pas généraliser celles-ci à de nouvelles données.
CONCLUSION Le Machine Learning est l'apprentissage d'un modèle par la machine, grâce à des données d'entraînement le ML est un sujet très vaste en évolution permanente nous avons présenté quelques algorithmes qui ont des sources d’inspiration variées en passant par la théorie des probabilités etc.... Un problème de Machine Learning comporte plusieurs éléments spécifiques tels que des données, une tâche à accomplir, un algorithme d’apprentissage, une mesure des performances. En une phrase, le ML permet à un ordinateur apprendre à partir de données pour résoudre
une tâche en
faisant
attention
à mesurer
les performances. S'il améliore les
performances sur cette tâche, lorsqu'on lui fournit les données d'entraînement, on dit alors qu'il apprend.
63
CHAPITRE 5: DEEP LEARNING
CHAPITRE 4: DEEP LEARNING INTRODUCTION De nos jours, avec le développement de plusieurs notions simples mais importantes pour améliorations algorithmiques, les progrès matériels (principalement des GPU et tout récemment les TPU) et la génération exponentielle et l'accumulation de donnée le phénomène BIG DATA au cours de la dernière décennie le Machine Learning a fait naître un nouveau concept d’apprentissage appelé le Deep Learning.
4.1.
PRÉSENTATION DU DEEP LEARNING
Le Deep Learning (ou apprentissage profond) est venu naturellement pour étendre le Machine Learning en effet, c’est un sous domaine du Machine Learning et il est basé sur la détection et/ou classifications des données, par opposition aux algorithmes aux tâches spécifiques. L’apprentissage peut être supervisé, semi-supervisé ou non supervisé. Il y a eu des avancées vraiment théoriques, des améliorations logicielles et matérielles nécessaires pour que nous parvenions à ce jour. Dans la figure ci-dessous, on voit que le Deep Learning fait parti du Machine Learning et que le Machine Learning à son tour un sous domaine de l’Intelligence Artificielle.
Figure 35: La relation entre l’intelligence artificielle, le ML et le Deep Learning. 64
Essentiellement, le Deep Learning est la mise en œuvre de Neural Network (NN) comportant plus d’une seule couche caché (plusieurs hidden Layers) de neurones le mot Deep (profond) fait référence au nombre de couches cachées généralement supérieur à trois, il s’agit toutefois d’une vision très simpliste du Deep Learning et cette affirmation n’est pas unanime. Ces architectures profondes » varient également considérablement, différentes implémentations étant optimisées pour différentes tâches ou objectifs. Il existe actuellement une vaste recherche sur de nouveaux et innovants modèles d’apprentissage profond (DL). Le Deep utilise de nombreux architectures comme celle du Deep Neural Network (DNN), Deep Belief Network et Reccurent Neural Network, pour résoudre divers problèmes dans le traitement du langage naturel, la reconnaissance vocale, la vision par ordinateur, la bioinformatique et la conception de médicament, entre autres. Dans les figures ci-après on représente une connexion entre les neurones (synapse neuronale) du cerveau suivi de ceux suivi de ceux du Neural Network et Deep Neural Network.
Figure 36: Synapse Neuronale.
65
Figure 37: Comparaison entre un NN et un Deep Learning Neural Network . Voici l’évolution vers la création des réseaux de Neurones Artificiel jusqu’au Deep Learning. Année
Contributeur
Contribution Introduction de l’associationnisme, début de
300 av. J.-C.
Aristotle
l’histoire des humains qui essayent de comprendre le cerveau
1873
Alexander Bain
Introduction du Neural Groupings comme les premiers modèles de réseaux de neurones Introduction du McCulloch–Pitts (MCP) modèle
1943
McCulloch and Pitts
considérer comme L’ancêtre des réseaux de neurones artificielles Considérer comme le père des réseaux de
1949
Donald Hebb
neurones, il introduit la règle d’apprentissage de Hebb qui servira de fondation pour les réseaux de neurones modernes
1958
Frank Rosenblatt
Introduction du premier perceptron
1974
Paul Werbos
Introduction de la retro propagation
1980
Teuvo Kohonen
Introduction des cartes auto organisatrices Introduction du Neocognitron,
1980
Kunihiko Fukushima qui a inspiré les réseaux de neurones convolutif
66
1982
John Hopfield
Introduction des réseaux de Hopfield
1985
Hilton and Sejnowski
Introduction des machines de Boltzmann Introduction de Harmonium,
1986
Paul Smolensky
qui sera connu plus tard comme machines de Boltzmann restreintes
1986
Michael I. Jordan
Introduction des réseaux neurones récurrents Introduction de LeNet
1990
Yann LeCun
et montra la capacités des réseaux de neurones profond Introduction des réseaux de neurones récurrent
1997
Schuster and Paliwal
bidirectionnelles Introduction de LSTM, qui ont résolu le problème
Hochreiter and
1997
Schmidhuber
2006
Geoffrey Hinton Salakhutdinov and
2009
Hinton
du vanishing gradient dans les réseaux de neurones récurrent Introduction des Deep belief Network Introduction des Deep Boltzmann Machines Introduction de AlexNet qui remporta le challenge
2012
Alex Krizhevsky
ImageNet
Tableau 5: Histoire du Deep Learning.
4.2.
LES DIFFÉRENTS TYPES D’ARCHITECTURE DEEP LEARNING
4.2.1. DEEP NEURAL NETWORK (DNN) Un réseau de neurones profonds (Deep Neural Network ou DNN) est un réseau de neurones (Neural Network) avec un certain niveau de complexité, possédant plusieurs couches cachées entre la couche d’entrée et la couche de sortie. Le DNN doit prendre en compte de nombreux paramètre d’entraînement, tels que la taille (nombres de couches et nombres d’unités par couche), le taux d’apprentissage et les poids initiaux. Le réseau parcourt les couches en calculant la probabilité de chaque sortie.
67
4.2.2. DEEP BELIEF NETWORK La machine de Boltzmann profonde (Deep Belief Network, DBN) est une classe de réseau de neurones profonds qui est composé de deux types de réseaux de neurones qui sont les couches de Machines Boltzmann Restreintes (RBM) pour la phase de pré-entraînement, puis d'un réseau à réaction pour la phase de réglage. Contrairement au perceptron et les réseaux neuronaux à rétro-propagation, DBN est un algorithme d'apprentissage non supervisé. Il est composé de plusieurs couches de nœuds cachées. Où chaque couche est connectée entre elles, il s'agit de couches d'unités binaires stochastiques où chaque couche connectée a un certain poids. Les unités binaires stochastiques dans les Deep Belief Network ont un état de 0 ou 1 et la probabilité de devenir 1 est déterminée par un biais et une entrée pondérée provenant d'autres unités. Belief Nets est un graphe acyclique composé de variables stochastiques On peut observer certaines variables et nous devons résoudre deux problèmes qui sont : o le problème d'inférence : déduire les états des variables non observées ; o le problème d’apprentissage: Ajustez les interactions entre les variables pour augmenter la probabilité que le réseau génère les données observées. 4.2.3. LES RÉSEAUX DE NEURONES RÉCURENTS Les réseaux de neurones récurrents (ou RNN pour Recurrent Neural Network) sont des réseaux de neurones dans lesquels l’information peut se propager dans les deux sens, en cela, ils sont plus proches du vrai fonctionnement du système nerveux, qui n’est pas à sens unique. Ces réseaux possèdent des connexions récurrentes au sens où elles conservent des informations en mémoire : ils peuvent prendre en compte à un instant 𝒕 un certain nombre d’états passés. Ils sont particulièrement adaptés au traitement de signaux séquences comme l’apprentissage et la génération de signaux, c’est-à-dire quand les données forment une suite et ne sont pas indépendantes les unes des autres. Cependant, pour les applications faisant intervenir de longs écarts temporels (typiquement la classification de séquences vidéo), cette « mémoire à court-terme » n’est pas suffisante. En effet, les RNNs « classiques » (réseaux de neurones récurrents simples ou Vanilla RNNs) ne sont capables de mémoriser que le passé dit proche, et commencent à « oublier » au bout d’une cinquantaine d’itérations environ.
68
Ce transfert d’information à double sens rend leur entraînement beaucoup plus compliqué, et ce n’est que récemment que des méthodes efficaces ont été mises au point comme les LSTM (Long Short Term Memory). Ces réseaux à large « mémoire court-terme » ont notamment révolutionné la reconnaissance de la voix par les machines (Speech Recognition) ou la compréhension et la génération de texte (Natural Langage Processing). 4.2.4. LES RÉSEAUX DE NEURONES CONVOLUTIONELS Une des architectures les plus répandue est le réseau de neurones convolutionels (Convolutional Neural Network ou CNN). Les réseaux de neurones convolutionels sont une forme particulière de réseau de neurones multicouche dont l’architecture des connexions est inspirée de celle du cortex visuel des mammifères. Chaque nœud n’est connecté qu’a un petit nombre de nœud voisins dans la couche précédente. Chaque problème est divisé en sous partie, et pour chaque partie, un «cluster» de neurones sera créer afin d’étudier cette portion spécifique. Par exemple, pour une image en couleur, il est possible de diviser l’image sur la largeur, la hauteur et la profondeur (les couleurs). On va donner plus de détails sur les CNN sur le chapitre suivant.
CONCLUSION Dans ce chapitre, nous avons vu qu’est-ce que le Deep Learning et comment il se différencie des autres algorithmes traditionnels du ML. On a également vu l’historique de l’évolution du Deep Learning avec ces exploits accomplis. Ensuite, on a parlé du principe de quelques architectures (modèles) Deep Learning utilisé par la communauté, les deux architectures majeures restent Réseaux Convolutifs, les Réseaux Récurrents ces derniers font toujours l’objet de recherche.
69
CHAPITRE 6: LES RÉSEAUX DE NEURONES CONVOLUTIONELS
CHAPITRE 5: LES RÉSEAUX DE NEURONES CONVOLUTIONELS INTRODUCTION Les réseaux de neurones convolutionels sont à ce jour les modèles les plus performants pour classer des images. Désignés par l’acronyme CNN, de l’anglais Convolutional Neural Network sont l’une des principales catégories permettant de faire la reconnaissance d’image, les classifications d’image, ils prennent en entrée une image et retournent la classe dont il fait partie. Détecter une images précise, faire la segmentation d’image (décrire finement les contours d’une image) sont quelques-uns des domaines dans lesquels les CNN sont largement utilisés.
5.1.
PRÉSENTATION DES RÉSEAUX DE NEURONES CONVOLUTIONELS
Les classifications d’images CNN prennent en entrée, une image est fournie sous la forme d’une matrice de pixels et la classe dans une catégorie. Un ordinateur considère une image d’entré comme une matrice de pixel à deux dimensions et la couleur de cette matrice est représenté par une profondeur de trois (3) couleurs, pour représenter les couleurs fondamentales Rouge, Vert, Bleu, abrégé en RVB ou en RGB (de l'anglais « Red, Green, Blue »), chaque couleur étant codé sous 8 bit (8 bits, 8 bits , 8 bits ) leur valeur varie entre 0 et 255.Les trois primaires en quantité égale codent du gris, au maximum donnent du blanc c’est-à-dire (255, 255, 255) pour le noir leur valeur sont à zéro (0, 0, 0).
Figure 38: Représentation des trois couleurs RVB en proportion égale.
70
Chaque image est représentée par h = hauteur, w = largeur, d = dimension par exemple, une image de 6 x 6 x 3 matrice de RVB (3 se réfère à des valeurs RVB) avec une hauteur = 6 et largeur = 6, comme nous le montre la figure suivante.
Figure 39: Matrice de matrice RVB. Construction d’un réseau de neurones convolutionels : Techniquement, les modèles CNN apprennent à former et à tester chaque image d'entrée la traversant à travers une série de couches, une architecture CNN est constituée de plusieurs couches successives qui sont : La couche de convolution (CONV) qui traite les données d’un champ récepteur avec un filtre (appelé noyau ou Kernel) ; La couche de correction (ReLU), souvent appelé « ReLu » en référence à la fonction d’activation (unité de rectification) ; La couche de pooling (POOL), qui permet de compresser l’information en réduisant la taille de l’image intermédiaire ; La couche Flatten (aplatissement) comme son nom l'indique, il s’agit aplatir les pixels de l’image une colonne ; La couche entièrement connecté (Fully Connected, FC), qui est une couche de type perceptron ; Ensuite applique la fonction Softmax pour classifier un objet avec des valeurs probabilistes comprises entre 0 et 1. Comme nous le montre la figure suivante on a deux phases dans la construction d’un CNN Phase Extraction caractéristiques : il s’agit de l’extraction des traits dominant dans l’image. Phase de Classification : il s’agit de faire la prédiction sur l’image.
71
Figure 40: Réseau de neurones avec plusieurs couches convolutives. 5.1.1. COUCHE DE CONVOLUTION La convolution est la première couche permettant d'extraire des entités d'une image d'entrée. La convolution préserve la relation entre les pixels en apprenant les caractéristiques de l'image à l'aide de petits carrés de données d'entrée. C’est une opération mathématique qui prend deux entrées comme une matrice d’image et un filtre ou noyau (kernel). L’opération de convolution La convolution est une opération qui est essentielle dans tout ce qui est reconnaissance d’images, ces opérations qui permettent de mélanger deux matrices, dans une autre matrice qui représente l’image. Il convient de noter que l'opération de matrice en cours d'exécution convolution - n'est pas une multiplication de matrice traditionnelle, bien qu'elle soit également notée par *.
Figure 41: Une matrice d’image multipliée par un noyau ou filtre de matrice. 72
Les opérations de convolutions sont notées : 𝑠(𝑡) = (𝑥 ∗ 𝑤)𝑡 Exemple de calcul de convolution soit deux matrices le premier pour l’image et le second pour le noyau chacun de dimensions 3 × 3 la convolution est le processus consistant à retourner les lignes et les colonnes du noyau, puis à multiplier localement les entrées similaires et à les additionner. L'élément aux coordonnées [2, 2] (c'est-à-dire l'élément central) de l'image résultante serait une combinaison pondérée de toutes les entrées de la matrice d'image, avec les pondérations données par le noyau : 𝑎 ([𝑑 𝑔
𝑏 𝑒 ℎ
𝑐 𝑓] 𝑖
1 2 ∗ [4 5 7 8
3 6]) [2,2] 9
= (𝑖 ∙ 1) + (ℎ ∙ 2) + (𝑔 ∙ 3) + (𝑓 ∙ 4) + (𝑒 ∙ 5) + (𝑑 ∙ 6) + (𝑐 ∙ 7) + (𝑏 ∙ 8) + (𝑎 ∙ 9) Les valeurs d'un pixel donné dans l'image de sortie sont calculées en multipliant chaque valeur de noyau par les valeurs de pixel de l'image d'entrée correspondantes. Considérons un 5 x 5 dont les pixels d'image sont 0, 1 et une matrice de filtrage 3 x 3 comme indiqué ci-dessous :
Figure 42: Exemple de matrice d’image multiplie la matrice de noyau ou de filtre. Ensuite, la convolution de la matrice d’images 5 x 5 se multiplie avec la matrice de filtres 3 x 3, appelée « Carte de fonctions », comme indiqué ci-dessus. Le principe de CNN est qu’on prendre une matrice de convolution (noyau) on applique à une image et en sortie on a une autre image, donc on peut effectuer la convolution d'une image avec différents filtres (noyau) ainsi on peut effectuer des opérations telles que la détection des contours, le flou et la netteté en appliquant des noyaux à l’image voici quelques exemples :
73
Opération
Noyau (Kernel)
Description Si on l’applique à
Identité
0 0 [0 1 0 0
0 0] 0
une image on a l’image en retour sans modification
C O N V O L U T I O N
1 0 [0 0 −1 0
−1 0] 0
Permet de Edge détection (Détection de contours)
0 1 0 [1 −4 1] 0 1 0
mettre en évidence les contour de l’image
−1 −1 −1 [−1 8 −1] −1 −1 −1
Sharpen
0 −1 0 [−1 5 −1] 0 −1 0
Effet cartoné
Applique un
Box blur
filtre sur une (Normalisation)
image
74
Résultat de l’image
1 1 1 [1 1 9 1 1
1 1] 1
Gaussian Blur
Résulte du
(approximation) Image dimension
1 1 2 [2 4 16 1 2
flou d'une
1 2] 1
image par une fonction gaussienne
3×3 Gaussian Blur (approximation) Image dimension 5 ×
Résulte du 1 4 1 4 16 6 24 256 4 16 [1 4
6 24 36 24 6
4 16 24 16 4
1 4 6 4 1]
flou d'une image par une fonction gaussienne
5 Unsharp masking 5×5 Basé sur le flou gaussien avec
1 4 −1 4 16 6 24 256 4 16 [1 4
6 24 −476 24 6
4 16 24 16 4
1 4 6 4 1]
une technique de netteté d'image
un montant de 1 et seuil égal à 0 Tableau 6: Quelques exemples d'effets pouvant être obtenus par la convolution des noyaux et des images. La couche de convolution est le bloc de construction de base d’un CNN. Trois paramètres permettent de dimensionner le volume de la couche de convolution la profondeur, le pas et la marge. 1. Profondeur de la couche : nombre de noyaux de convolution (ou nombre de neurones associés à un même champ récepteur). 2. Le pas (stride): est le nombre de pixels décalés sur la matrice d’entrée. Lorsque le pas est égal à 1, on déplace les filtres de 1 pixel à la fois. Lorsque le pas est de 2, on déplace
75
les filtres de 2 pixels à la fois, etc. Le pas contrôle le chevauchement des champs récepteurs. Plus le pas est petit, plus les champs récepteurs se chevauchement et plus le volume de sortie sera grand.
Figure 43: Convolution d'une matrice avec 2 pas de pixels. Dans le premier case on fait 1 + 2 + 3 + 11 + 12 + 13 + 21 + 22 + 23 = 108 même chose pour le reste. 3. La margin (à 𝟎) ou zero padding : parfois, le filtre ne correspond pas parfaitement à l'image d'entrée. Nous avons deux options :
il est commode de mettre des zéros à la frontière du volume d’entré. La taille de ce ‘zero-padding’ est le troisième hyper paramètre. Cette marge permet de contrôler la dimension spatiale du volume de sorties.
Parfois, il est souhaitable de conserver la même surface que celle du volume d’entré. Déposez la partie de l'image où le filtre ne correspondait pas. C'est ce qu'on appelle un remplissage valide qui ne conserve qu'une partie valide de l'image.
Si le pas et la marge appliquée à l’image d’entrée permettent de contrôler le nombre de champs récepteurs à gérer (surface de traitement), la profondeur permet d’avoir un volume, si on prend une profondeur de 3 pour les trois canaux de couleur RBG « VBR » (Vert, Bleu, Rouge) d’une image, la couche de convolution va également présenter en sortie une profondeur. C’est pour cela que l’on parle plutôt de « volume de sortie » et de « volume d’entrée », car l’entrée d’une couche de convolution peut être soit une image soit la sortie d’une autre couche de convolution.
76
5.1.2. COUCHE DE CORRECTION (ReLU) ReLU signifie Unité Linéaire Rectifiée pour une opération non-linéaire, il est possible d’améliorer l’efficacité du traitement en intercalant entre les couches de traitement une couche qui va opérer une fonction mathématique (fonction d’activation) sur les signaux de sortie. La fonction de ReLU (Unités Réctifié linéaires) : 𝑓(𝑥) = max(0, 𝑥) , cette fonction force les neurones à retourner des valeurs positives. 𝑓(𝑥) = {
0, 𝑥,
𝑥