Machine Learning [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

MINISTERE DE L’ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE «Abbés LAGHROUR» DE KHENCHELA FACULTE DES SCIENCES ET DE LA TECHNOLOGIE Faculté : ST

M1 STW

Module : Technique D’expression

Exposé 1 :

Machine Learning Détection Automatique de langues

Etudiant : Merouane Boudraa Prof : Dr. Hemmam 

Introduction



Definitio DAL



Domaine d’application

1



Technique pour DAL



Exemple D’application



Conclusion



Webographie

INTRODUCTION

Le Machine Learning est une discipline consacrée à l’analyse des données. Le but de cette discipline est de créer de la connaissance de manière automatique à partir de données brutes. Cette connaissance (ou modèle) peut alors être exploitée pour prendre des décisions. On parle parfois de stratégie pilotée par les données (datadriven strategy) pour une entreprise. Comme le modèle est construit à partir des données, il est clair que plus on dispose de données, plus le modèle construit est précis et permettra ainsi de prendre de bonne décisions. Comme le volume des données nécessaires aux algorithmes de Machine Learning peut être très grand, on associe souvent Machine Learning avec BigData Un premier schéma de principe nous perm

2

Dans ce XXIe siècle où tout va si vite, où les nouvelles technologies prennent une part de plus en plus importante dans notre vie, peut-on affirmer que le virtuel et le naturel peuvent coexister en matière d’apprentissage ? On parle beaucoup d’intelligence artificielle, mais peut-on faire un lien entre cette science et les langues ?

Definition de DAL La Détection automatique de la langue naturelle ou des langues(DAL) est une discipline à la frontière de la linguistique, de l'informatique et de l'intelligence artificielle. Elle concerne la conception de systèmes et techniques informatiques permettant de manipuler le langage humain dans tous ses aspects

Domaines d’applications : On parle alors de DAL, Cette nouvelle discipline offre alors ce pont entre la linguistique, l’informatique et l’intelligence artificielle et prône l'application de programmes et techniques informatiques à tous les aspects du langage humain. Le DAL est un domaine bien vaste qui comporte trois types d’applications principales :    1

Celles en relation avec la création ou la modification automatique de textes (traduction, génération, correction, reformulation…) Celles en relation avec le traitement du signal (reconnaissance, synthèse et traitement de la parole) Celles en relation avec l’extraction d’information (recherche, reconnaissance, classification…).1

http://www.universalis.fr/encyclopedie/traitement-automatique-des-langues/

3

Les différentes techniques d’apprentissage automatique utilisées pour la DAL L’Apprentissage automatique C’est une méthode (mathématique, statistique) qui a été développée initialement pour la reconnaissance des images (par ex. les visages dans Picasa). Appliquée à la langue elle permet d’obtenir des résultats rapidement, sans devoir modéliser les phénomènes linguistiques : la machine apprend elle-même les règles de la langue en observant des échantillons fournis pour l’apprentissage (corpus d’apprentissage), à l’image d’un bébé qui apprend sa langue maternelle. Souvent utilisée par des informaticiens sans formation en linguistique. On peut obtenir des résultats plus ou moins satisfaisants (selon la tâche) qui sont très difficiles à améliorer.

1. Phase d’apprentissage : On fournit à la machine un corpus d’apprentissage : un grand corpus avec des textes et des analyses correctes. Par exemple, pour un analyseur morphosyntaxique, c’est un grand corpus de phrases qui sont analysées (on connaît la catégorie de chaque mot).

L’algorithme calcule des fréquences (souvent des uni-, bi - ou tri - grammes) dans le corpus d’apprentissage.

2. Phase de test : On teste le système sur un petit corpus de test. Pour ce corpus on connaît l’analyse correcte, mais la machine doit l’obtenir uniquement à partir du texte. On compare la sortie du système avec l’analyse correcte. Si le résultat n’est pas satisfaisant, on recommence l’apprentissage avec un nouveau corpus plus grand. 4

Exemple Phrase à analyser : « Ahmed ouvre la porte. » 4 mots : « Ahmed », « ouvre », « la », « porte » « Ahmed » : ??? (Ce mot n’était pas dans mon corpus d’apprentissage) « Ouvre » : dans le corpus d’apprentissage tous les occurrences de « ouvre » était des verbes, donc VERBE « la » : dans le corpus d’apprentissage 89% des « la » était des articles définis, donc ARTICLE DEFINI (c’est le plus probable) « porte » : dans le corpus d’apprentissage c’était tantôt un verbe tantôt un nom. Mais dans 95% des cas où « porte » était précédé de « la », c’était un nom, donc NOM.

« Ahmed ouvre ???

VERBE

la A. DEF

porte. » NOM.

Apprentissage automatique : problèmes

La qualité du système dépend très fortement de la taille du corpus d’apprentissage. Pour un analyseur morpho-syntaxique viable, il faut un corpus d’apprentissage de plusieurs centaines de milliers de mots analysés.

Il est difficile de produire un grand corpus d’apprentissage de qualité : analyse manuelle très couteuse

5

analyse manuelle, donc erreurs humaines ou incohérences entre les analyses produites par différentes personnes.

Pour certaines tâches, même avec un très grand corpus on obtient des résultats médiocres : le sens dans la langue est le produit d’opérations complexes. Un modèle qui considère le texte comme une suite de mots ne peut pas tenir compte de cette complexité

Exemple D’application de détection automatique de langues  :