Cours Data Mining - Seance 1 [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

DATA MINING EL HARRAK Mohammad FS Tétouan, UAE harrakmed@gmail,com

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

PLAN               

Panorama du data mining Déroulement d’une étude de data mining Exploration et la préparation des données Utilisation des données commerciales Logiciels de statistique et data mining Aperçu sur les techniques de data mining Analyse factorielle Réseaux de neurones Techniques de classification automatique Recherche d’associations Techniques de classement et de prédiction Application du data mining : le scoring Facteurs de succès d’un projet de data mining Text mining Web mining

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

PLAN               

Panorama du data mining Déroulement d’une étude de data mining Exploration et la préparation des données Utilisation des données commerciales Logiciels de statistique et data mining Aperçu sur les techniques de data mining Analyse factorielle Réseaux de neurones Techniques de classification automatique Recherche d’associations Techniques de classement et de prédiction Application du data mining : le scoring Facteurs de succès d’un projet de data mining Text mining Web mining

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

 Panorama du data mining Qu’est-ce que le data mining ?

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

Le Data Mining est une composante essentielle des technologies Big Data et des techniques d’analyse de données volumineuses. Il s’agit là de la source des Big Data Analytics, des analyses prédictives et de l’exploitation des données.

 Panorama du data mining Qu’est-ce que le data mining ?

Forage de données, explorations de données ou fouilles de données, ce sont les

En règle générale, le terme Data Mining désigne l’analyse de données depuis différentes perspectives et le fait de transformer ces données en informations utiles, en établissant des relations entre les données ou en repérant des

patterns. Ces informations peuvent ensuite être utilisées par les entreprises pour augmenter un chiffre d’affaires ou pour réduire des coûts. Elles peuvent

également servir à mieux comprendre une clientèle afin d’établir de meilleures stratégies marketing.

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

traductions possibles du data mining en Français.

 Panorama du data mining Qu’est ce qu’un data mining ?

Les logiciels Data Mining font partie des outils analytiques utilisés pour l’analyse

différents angles, de les catégoriser, et de résumer les relations identifiées. Techniquement, le Data Mining est le procédé permettant de trouver des

corrélations ou des patterns entre de nombreuses bases de données relationnelles. Le Data Mining repose sur des algorithmes complexes et sophistiqués

permettant de segmenter les données et d’évaluer les probabilités futures. Le Data Mining est également surnommé Knowledge Discovery in Data (Data mining

traduction ? La découverte de savoir dans les données).

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

de données. Ils permettent aux utilisateurs d’analyser des données sous

 Panorama du data mining Une évolution technologique naturelle

Le terme Data Mining est relativement récent, mais la technologie ne l’est pas.

larges volumes de données accumulés par les scanners des supermarchés et pour analyser les rapports de recherches sur les marchés. De même, les innovations continuelles dans les domaines du calcul informatique,

du stockage, et des logiciels statistiques augmentent fortement la précision des analyses et dirigent la réduction des coûts.

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

Depuis des années, les entreprises utilisent de puissants ordinateurs pour traiter les

 Panorama du data mining Données, informations et savoir dans le Data Mining  Données

ordinateur. Aujourd’hui, les entreprises accumulent de vastes quantités de données sous différents formats, dans différentes quantités de données. Parmi ces données, on

distingue :  Les données opérationnelles ou transactionnelles telles que les données de ventes,

de coûts, d’inventaire, de tickets de caisse ou de comptabilité.  Les données non opérationnelles, telles que les ventes industrielles, les données prévisionnelles, les données macro-économiques.

 Les métadonnées, à savoir les données concernant les données elles-mêmes, telles que les définitions d’un dictionnaire de données. Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

Les données sont des faits, des nombres, ou des textes pouvant être traités par un

 Panorama du data mining Données, informations et savoir dans le Data Mining  Informations

d’obtenir des informations. Par exemple, l’analyse des données de transaction d’un point de vente permet de recueillir des informations sur les produits qui se

vendent, et à quel moment ont lieu ces ventes.

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

Les patterns, associations et relations entre toutes ces données permettent

 Panorama du data mining Données, informations et savoir dans le Data Mining

 Savoir

historiques ou des tendances futures.

Par exemple, l’information sur les ventes au détail d’un supermarché peut être analysée dans le cadre d’efforts promotionnels, pour acquérir un savoir au sujet des

comportements d’acheteurs. Ainsi, un producteur ou un retailler peut déterminer quels produits doivent faire l’objet d’une promotion à l’aide du Data Mining.

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

Les informations peuvent être converties en savoir à propos de patterns

 Panorama du data mining Qu’est ce que un Data Warehouse ?

Un data warehouse (DW) est une base de données construite par copie et

l'entreprise), afin de servir de source de données à des applications décisionnelles :  il agrège de nombreuses données de l'entreprise (intégration) ;

 il mémorise les données dans le temps (historisation) ;  il les organise pour faciliter les requêtes de prise de décision (optimisation).

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

réorganisation de multiples sources (dont principalement le système transactionnel de

 Panorama du data mining Qu’est ce que un Data Warehouse ?

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

Les importantes avancées en termes de collecte de données, de puissance de calcul, de transmission de données, et de capacités de stockage permettent aux entreprises d’intégrer bases de données au sein de Data Warehouses. Le Data Warehousing est le procédé de centraliser la gestion et la recherche de données. Grâce à une Data Warehouse, les entreprises peuvent diviser les données en segments d’utilisateurs précis, afin de les analyser en détail. Les analystes peuvent également commencer par le type de données qu’ils souhaitent utiliser puis créer une warehouse à partir de ces données.

 Panorama du data mining Qu’est ce que un Data Warehouse ?

nouveau, tandis que le concept en lui-même existe depuis des années. Le Data Warehousing représente une vision idéale d’un répertoire central de données

maintenu en permanence. Cette centralisation est nécessaire pour maximiser l’accès des utilisateurs et l’analyse.

Grâce aux grandes avancées technologiques, cette vision utopique est devenue une réalité pour beaucoup d’entreprises. De même, les avancées dans le domaine des logiciels analytiques permettent aux utilisateurs d’accéder librement aux données.

C’est sur ces logiciels analytiques que repose le Data Mining.

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

Tout comme le Data Mining, le terme de Data Warehousing est relativement

 Panorama du data mining Les méthodes de Data Mining On dénombre cinq variétés du Data Mining :

autre événement.  Analyse de séquence: chercher des patterns au sein desquelles un événement

mène à un autre événement plus tardif.  Classification : chercher de nouvelles patterns, quitte à changer la façon dont les données sont organisées.  Clustering: trouver et documenter visuellement des groupes de faits précédemment inconnus.

 Prédiction: découvrir des patterns de données pouvant mener à des prédictions raisonnables sur le futur. Ce type de data mining est aussi connu sous le nom d’analyse prédictive. Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

 Association: chercher des patterns au sein desquelles un événement est lié à un

 Panorama du data mining À quoi sert le Data Mining dans le marketing ?

Le Data Mining est actuellement principalement utilisé par les entreprises

communication, ou du data mining marketing.

Les techniques de Data Mining sont également utilisées dans différents secteurs de recherche, tels que les mathématiques, la cybernétique ou la génétique. Le Web Mining, utilisé dans le domaine de la gestion de relation client, vise à

identifier des patterns de comportement des utilisateurs au sein des vastes quantités de données rassemblées par un site web.

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

focalisées sur les consommateurs, dans les secteurs du retail, de la finance, de la

 Panorama du data mining Exemples concrets de l’utilisation du Data Mining ❶ The Beer store

Mining d’Oracle pour analyser les modèles d’achats locaux. L’enseigne à découvert que,

lorsque les hommes achètent des couches le jeudi et le samedi, ils ont également tendance à s’acheter des bières.

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

À titre d’exemple, une chaîne d’épiceries du Midwest s’est servie des logiciels de Data

 Panorama du data mining Exemples concrets de l’utilisation du Data Mining ❶ The Beer store

courses hebdomadaires le samedi. Le jeudi, ils se contentent d’acheter quelques articles seulement. La chaîne en a conclu que les clients achètent leurs bières pour qu’elles soient

prêtes pour le weekend.

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

Une analyse approfondie a également démontré que ces clients font habituellement leurs

 Panorama du data mining Exemples concrets de l’utilisation du Data Mining ❶ The Beer store

augmenter le chiffre d’affaires. Par exemple, le rayon bière a été déplacé plus près du

rayon couches. De même, le retailer s’est assuré que les bières et les couches ne seraient plus soldées le jeudi.

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

Cette nouvelle information découverte a pu être utilisée de différentes façons pour

 Panorama du data mining Exemples concrets de l’utilisation du Data Mining ❷ Blockbuster

pour recommander des films à des clients individuels. De même, American Express peut

suggérer des produits à ses clients en se basant sur leurs dépenses mensuelles.

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

Blockbuster Entertainment mine sa base de données historique de location de vidéos

 Panorama du data mining Exemples concrets de l’utilisation du Data Mining ❸ WALMRT DATA

WalMart collecte des données transactionnelles depuis 2900 boutiques dans 6 pays différents, et transmet ces données en continu vers sa Data Warehouse 7,5 terabyte fournie par Teradata.

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

Le géant WalMart se place en précurseur du Data Mining massif pour transformer ses relations avec les fournisseurs.

 Panorama du data mining Exemples concrets de l’utilisation du Data Mining ❸ WALMRT DATA

produits et effectuer des analyses de données. Ces fournisseurs utilisent les données pour identifier les patterns d’achat des clients à

l’échelle du magasin. Ils utilisent l’information pour gérer les inventaires des magasins locaux et identifier de nouvelles opportunités. En 1995, les ordinateurs de WalMart ont traité près d’un million de requêtes de données complexes.

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

Plus de 3500 fournisseurs de WalMart peuvent accéder aux données relatives à leurs

 Panorama du data mining Exemples concrets de l’utilisation du Data Mining ❹ NBA

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

La National Basketball Association (NBA) explore une utilisation du Data Mining pouvant être utilisé en conjonction avec l’enregistrement d’images en provenance de matchs de basket. Le logiciel Advanced Scout permet d’analyser les mouvements des joueurs, pour aider leurs coaches à orchestrer des stratégies.

 Panorama du data mining Exemples concrets de l’utilisation du Data Mining ❹ NBA Par exemple, une analyse du match entre les New York Knicks et les Cleveland Cavaliers le

en défense. Cette pattern a pu être décelée par Advanced Scout, au même titre que la différence avec le pourcentage de précision moyen des Cavaliers pendant le match, élevé

à 49,30%. En utilisant l’horloge universelle de la NBA, un coach peut automatiquement visionner les clips vidéo de chaque tir effectué par Williams quand Price était en défense,

sans avoir à visionner des heures de capture vidéo.

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

6 janvier 1995 révèle que John Williams a marqué quatre paniers quand Mark Price était

 Panorama du data mining Exemples concrets de l’utilisation du Data Mining ❺ La startup Digi.me

réseaux sociaux, les appareils qu’ils utilisent, les cartes de crédit avec lesquelles ils dépensent, les villes où ils sont situés.

Les entreprises et les gouvernements peuvent aisément utiliser les données personnelles pour leur business sans demander le consentement des usagers.

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

Les entreprises surveillent ce que les consommateurs postent, aiment, partagent sur les

 Panorama du data mining Exemples concrets de l’utilisation du Data Mining ❺ La startup Digi.me

leur empreinte numérique, de collecter et de partager des informations directement avec les entreprises selon leurs propres conditions. La technologie développée par Digi.me permet aux utilisateurs de télécharger leurs

données et de les stocker sur internet.

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

Cette startup fournit aux consommateurs des outils leur permettant de se réapproprier

 Panorama du data mining Exemples concrets de l’utilisation du Data Mining ❼Inde: Empêcher l’évasion fiscale avec le Data Mining

fiscale. En effet, l’Inde est profondément affectée par ce fléau. Pour y remédier, le département des taxes va utiliser la technologie pour faciliter le paiement des taxes

pour les citoyens honnêtes, et pour compliquer la tâche aux malhonnêtes. On ignore pour l’instant de quelle façon le data mining sera utilisé, mais davantage de détails devraient être dévoilés dans les mois à venir.

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

En Inde, le gouvernement est décidé à utiliser le data mining pour empêcher l’évasion

 Panorama du data mining Exemples concrets de l’utilisation du Data Mining ❽Recruter les meilleurs employés

localiser et identifier les employés les plus intéressants pour leur entreprise

En Irlande par exemple, les entreprises collectent les données en ligne sur les candidats

pour dénicher les meilleurs talents. Les données permettent par exemple de déterminer le niveau de productivité et de satisfaction d’un candidat.

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

Les professionnels du recrutement utilisent de plus en plus les outils de data mining pour

 Panorama du data mining Comment fonctionne le Data Mining ?

Le Data Mining assure la jonction entre les deux Les logiciels de Data Mining analysent les relations et les patterns des données de transactions stockées en se basant sur des requêtes d’utilisateurs. Plusieurs types de logiciels analytiques sont disponibles : statistiques, Machine Learning, et réseaux neuronaux.

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

Les technologies informatiques ont évolué de manière à ce que les systèmes transactionnels et les systèmes analytiques soient séparés.

 Panorama du data mining Comment fonctionne le Data Mining ? on dénombre quatre types de relations :

Associations: Les données peuvent être minées pour identifier des associations.

Patterns séquentielles: Les données sont minées pour anticiper les patterns de comportements et les tendances.

Clusters: Les données sont regroupées par rapport à des relations logiques ou aux préférences des clients.

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

Classes: Les données stockées sont utilisées pour localiser les données en groupes prédéterminés.

 Panorama du data mining Comment fonctionne le Data Mining ?

L’extraction, la transformation, et le chargement de données transactionnelles sur le système de Data Warehouse. Le stockage et la gestion de données dans un système de base de données multidimensionnel. Fournir l’accès aux données aux analystes de business et aux professionnels des technologies informatiques. Analyser les données grâce à un logiciel applicatif.

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

Le Data Mining repose sur quatre éléments majeurs :

 Panorama du data mining Comment fonctionne le Data Mining ? Différents niveaux d’analyse sont disponibles :

Algorithmes génétiques: Les techniques d’optimisation utilisent des procédés tels que la combinaison génétique, la mutation, et la sélection naturelle dans un design basé sur les concepts de l’évolution naturelle.

Les arbres décisionnels: Ces structures en forme d’arbres représentent des ensembles de décisions.

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

Les réseaux de neurones artificiels: Des modèles prédictifs non linéaires qui apprennent par l’entraînement et s’apparentent à des réseaux neuronaux biologiques dans leur structure.

 Panorama du data mining Comment fonctionne le Data Mining ? Différents niveaux d’analyse sont disponibles :

L’induction de règle: L’extraction de règles « si-alors » depuis les données, basées sur des signifiances statistiques. Data visualization: L’interprétation visuelle de relations complexes dans les données multidimensionnelles. Les outils graphiques sont utilisés pour illustrer les relations de données

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

La méthode du voisin le plus proche: Cette technique classifie chaque enregistrement d’un ensemble de données en se basant sur une combinaison des classes du k, similaire à un ensemble de données historique.

 Panorama du data mining Comment fonctionne le Data Mining ? Le processus de Data Mining se décompose en 5 étapes.

② Stockage et gestion des données, sur des serveurs physiques ou sur le Cloud. ③ Les Business analysts, les équipes de management et les professionnels de l’informatique accèdent à ces données et déterminent comment ils souhaitent les organiser. ④ Le logiciel applicatif permet de trier les données en se basant sur les résultats utilisateurs. ⑤ L’utilisateur final présente les données sous un format facile à partager comme un graphique ou un tableau.

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

① Collection des données par les entreprises et les chargent dans les Data Warehouses.

 Panorama du data mining Comment fonctionne le Data Mining ? Les 3 propriétés principales du Data Mining

Panorama du data Mining

❶ La découverte automatique de patterns

❷ La prédiction de résultats probables

❸ La création d’informations exploitables

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

 Panorama du data mining Comment fonctionne le Data Mining ? Quelle infrastructure technologique est requise ?

 La complexité des requêtes: Plus les requêtes sont complexes et nombreuses, plus un système puissant est requis.

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

 La taille de la base de données: Plus le nombre de données à traiter et à maintenir est important, plus un système puissant est requis.

 Panorama du data mining Comment fonctionne le Data Mining ? Les logiciels Data Mining

Logiciels commerciaux

Clémentine SPSS d'IBM, SAS logo horiz.svg ,DATA maestro™ de PEPITe , Statisca Data Miner StatSoft,XL Miner, ORACLE, Intelligent Miner IBM Statisca Data Miner Logiciels libres

KNIME ,TANAGRA, ORANGE, WEKA

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

Il existe de nombreux logiciels de statistiques et de Datamining. Il y a des gratuits et des payants, mono-utilisateur et en architecture: clients-serveur.

 Panorama du data mining Comment fonctionne le Data Mining ? Les logiciels par spécialités

Startminer, édité par Grimmersoft

Predict, édité par Neuralware NeuroOne, édité par Nétral

4Thought, édité par Cognos

Alice, édité par Isoft KnowKnowledgeSEEKET, édité par Angoss

CART, édité par Salford systems Microsoft Analysis Services, édité par Microsoft

Associations Wizwhy, édité par Wizsoft

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021

Panorama du data Mining

Arbre de décision

Réseaux de neurones

PLAN               

Panorama du data mining Déroulement d’une étude de data mining Exploration et la préparation des données Utilisation des données commerciales Logiciels de statistique et data mining Aperçu sur les techniques de data mining Analyse factorielle Réseaux de neurones Techniques de classification automatique Recherche d’associations Techniques de classement et de prédiction Application du data mining : le scoring Facteurs de succès d’un projet de data mining Text mining Web mining

Master Spécialisé Management des Systèmes d’information

DATA MINING

Année Universitaire 2020/2021