42 0 1MB
DATA MINING EL HARRAK Mohammad FS Tétouan, UAE harrakmed@gmail,com
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
PLAN
Panorama du data mining Déroulement d’une étude de data mining Exploration et la préparation des données Utilisation des données commerciales Logiciels de statistique et data mining Aperçu sur les techniques de data mining Analyse factorielle Réseaux de neurones Techniques de classification automatique Recherche d’associations Techniques de classement et de prédiction Application du data mining : le scoring Facteurs de succès d’un projet de data mining Text mining Web mining
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
PLAN
Panorama du data mining Déroulement d’une étude de data mining Exploration et la préparation des données Utilisation des données commerciales Logiciels de statistique et data mining Aperçu sur les techniques de data mining Analyse factorielle Réseaux de neurones Techniques de classification automatique Recherche d’associations Techniques de classement et de prédiction Application du data mining : le scoring Facteurs de succès d’un projet de data mining Text mining Web mining
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data mining Qu’est-ce que le data mining ?
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
Le Data Mining est une composante essentielle des technologies Big Data et des techniques d’analyse de données volumineuses. Il s’agit là de la source des Big Data Analytics, des analyses prédictives et de l’exploitation des données.
Panorama du data mining Qu’est-ce que le data mining ?
Forage de données, explorations de données ou fouilles de données, ce sont les
En règle générale, le terme Data Mining désigne l’analyse de données depuis différentes perspectives et le fait de transformer ces données en informations utiles, en établissant des relations entre les données ou en repérant des
patterns. Ces informations peuvent ensuite être utilisées par les entreprises pour augmenter un chiffre d’affaires ou pour réduire des coûts. Elles peuvent
également servir à mieux comprendre une clientèle afin d’établir de meilleures stratégies marketing.
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
traductions possibles du data mining en Français.
Panorama du data mining Qu’est ce qu’un data mining ?
Les logiciels Data Mining font partie des outils analytiques utilisés pour l’analyse
différents angles, de les catégoriser, et de résumer les relations identifiées. Techniquement, le Data Mining est le procédé permettant de trouver des
corrélations ou des patterns entre de nombreuses bases de données relationnelles. Le Data Mining repose sur des algorithmes complexes et sophistiqués
permettant de segmenter les données et d’évaluer les probabilités futures. Le Data Mining est également surnommé Knowledge Discovery in Data (Data mining
traduction ? La découverte de savoir dans les données).
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
de données. Ils permettent aux utilisateurs d’analyser des données sous
Panorama du data mining Une évolution technologique naturelle
Le terme Data Mining est relativement récent, mais la technologie ne l’est pas.
larges volumes de données accumulés par les scanners des supermarchés et pour analyser les rapports de recherches sur les marchés. De même, les innovations continuelles dans les domaines du calcul informatique,
du stockage, et des logiciels statistiques augmentent fortement la précision des analyses et dirigent la réduction des coûts.
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
Depuis des années, les entreprises utilisent de puissants ordinateurs pour traiter les
Panorama du data mining Données, informations et savoir dans le Data Mining Données
ordinateur. Aujourd’hui, les entreprises accumulent de vastes quantités de données sous différents formats, dans différentes quantités de données. Parmi ces données, on
distingue : Les données opérationnelles ou transactionnelles telles que les données de ventes,
de coûts, d’inventaire, de tickets de caisse ou de comptabilité. Les données non opérationnelles, telles que les ventes industrielles, les données prévisionnelles, les données macro-économiques.
Les métadonnées, à savoir les données concernant les données elles-mêmes, telles que les définitions d’un dictionnaire de données. Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
Les données sont des faits, des nombres, ou des textes pouvant être traités par un
Panorama du data mining Données, informations et savoir dans le Data Mining Informations
d’obtenir des informations. Par exemple, l’analyse des données de transaction d’un point de vente permet de recueillir des informations sur les produits qui se
vendent, et à quel moment ont lieu ces ventes.
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
Les patterns, associations et relations entre toutes ces données permettent
Panorama du data mining Données, informations et savoir dans le Data Mining
Savoir
historiques ou des tendances futures.
Par exemple, l’information sur les ventes au détail d’un supermarché peut être analysée dans le cadre d’efforts promotionnels, pour acquérir un savoir au sujet des
comportements d’acheteurs. Ainsi, un producteur ou un retailler peut déterminer quels produits doivent faire l’objet d’une promotion à l’aide du Data Mining.
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
Les informations peuvent être converties en savoir à propos de patterns
Panorama du data mining Qu’est ce que un Data Warehouse ?
Un data warehouse (DW) est une base de données construite par copie et
l'entreprise), afin de servir de source de données à des applications décisionnelles : il agrège de nombreuses données de l'entreprise (intégration) ;
il mémorise les données dans le temps (historisation) ; il les organise pour faciliter les requêtes de prise de décision (optimisation).
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
réorganisation de multiples sources (dont principalement le système transactionnel de
Panorama du data mining Qu’est ce que un Data Warehouse ?
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
Les importantes avancées en termes de collecte de données, de puissance de calcul, de transmission de données, et de capacités de stockage permettent aux entreprises d’intégrer bases de données au sein de Data Warehouses. Le Data Warehousing est le procédé de centraliser la gestion et la recherche de données. Grâce à une Data Warehouse, les entreprises peuvent diviser les données en segments d’utilisateurs précis, afin de les analyser en détail. Les analystes peuvent également commencer par le type de données qu’ils souhaitent utiliser puis créer une warehouse à partir de ces données.
Panorama du data mining Qu’est ce que un Data Warehouse ?
nouveau, tandis que le concept en lui-même existe depuis des années. Le Data Warehousing représente une vision idéale d’un répertoire central de données
maintenu en permanence. Cette centralisation est nécessaire pour maximiser l’accès des utilisateurs et l’analyse.
Grâce aux grandes avancées technologiques, cette vision utopique est devenue une réalité pour beaucoup d’entreprises. De même, les avancées dans le domaine des logiciels analytiques permettent aux utilisateurs d’accéder librement aux données.
C’est sur ces logiciels analytiques que repose le Data Mining.
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
Tout comme le Data Mining, le terme de Data Warehousing est relativement
Panorama du data mining Les méthodes de Data Mining On dénombre cinq variétés du Data Mining :
autre événement. Analyse de séquence: chercher des patterns au sein desquelles un événement
mène à un autre événement plus tardif. Classification : chercher de nouvelles patterns, quitte à changer la façon dont les données sont organisées. Clustering: trouver et documenter visuellement des groupes de faits précédemment inconnus.
Prédiction: découvrir des patterns de données pouvant mener à des prédictions raisonnables sur le futur. Ce type de data mining est aussi connu sous le nom d’analyse prédictive. Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
Association: chercher des patterns au sein desquelles un événement est lié à un
Panorama du data mining À quoi sert le Data Mining dans le marketing ?
Le Data Mining est actuellement principalement utilisé par les entreprises
communication, ou du data mining marketing.
Les techniques de Data Mining sont également utilisées dans différents secteurs de recherche, tels que les mathématiques, la cybernétique ou la génétique. Le Web Mining, utilisé dans le domaine de la gestion de relation client, vise à
identifier des patterns de comportement des utilisateurs au sein des vastes quantités de données rassemblées par un site web.
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
focalisées sur les consommateurs, dans les secteurs du retail, de la finance, de la
Panorama du data mining Exemples concrets de l’utilisation du Data Mining ❶ The Beer store
Mining d’Oracle pour analyser les modèles d’achats locaux. L’enseigne à découvert que,
lorsque les hommes achètent des couches le jeudi et le samedi, ils ont également tendance à s’acheter des bières.
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
À titre d’exemple, une chaîne d’épiceries du Midwest s’est servie des logiciels de Data
Panorama du data mining Exemples concrets de l’utilisation du Data Mining ❶ The Beer store
courses hebdomadaires le samedi. Le jeudi, ils se contentent d’acheter quelques articles seulement. La chaîne en a conclu que les clients achètent leurs bières pour qu’elles soient
prêtes pour le weekend.
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
Une analyse approfondie a également démontré que ces clients font habituellement leurs
Panorama du data mining Exemples concrets de l’utilisation du Data Mining ❶ The Beer store
augmenter le chiffre d’affaires. Par exemple, le rayon bière a été déplacé plus près du
rayon couches. De même, le retailer s’est assuré que les bières et les couches ne seraient plus soldées le jeudi.
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
Cette nouvelle information découverte a pu être utilisée de différentes façons pour
Panorama du data mining Exemples concrets de l’utilisation du Data Mining ❷ Blockbuster
pour recommander des films à des clients individuels. De même, American Express peut
suggérer des produits à ses clients en se basant sur leurs dépenses mensuelles.
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
Blockbuster Entertainment mine sa base de données historique de location de vidéos
Panorama du data mining Exemples concrets de l’utilisation du Data Mining ❸ WALMRT DATA
WalMart collecte des données transactionnelles depuis 2900 boutiques dans 6 pays différents, et transmet ces données en continu vers sa Data Warehouse 7,5 terabyte fournie par Teradata.
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
Le géant WalMart se place en précurseur du Data Mining massif pour transformer ses relations avec les fournisseurs.
Panorama du data mining Exemples concrets de l’utilisation du Data Mining ❸ WALMRT DATA
produits et effectuer des analyses de données. Ces fournisseurs utilisent les données pour identifier les patterns d’achat des clients à
l’échelle du magasin. Ils utilisent l’information pour gérer les inventaires des magasins locaux et identifier de nouvelles opportunités. En 1995, les ordinateurs de WalMart ont traité près d’un million de requêtes de données complexes.
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
Plus de 3500 fournisseurs de WalMart peuvent accéder aux données relatives à leurs
Panorama du data mining Exemples concrets de l’utilisation du Data Mining ❹ NBA
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
La National Basketball Association (NBA) explore une utilisation du Data Mining pouvant être utilisé en conjonction avec l’enregistrement d’images en provenance de matchs de basket. Le logiciel Advanced Scout permet d’analyser les mouvements des joueurs, pour aider leurs coaches à orchestrer des stratégies.
Panorama du data mining Exemples concrets de l’utilisation du Data Mining ❹ NBA Par exemple, une analyse du match entre les New York Knicks et les Cleveland Cavaliers le
en défense. Cette pattern a pu être décelée par Advanced Scout, au même titre que la différence avec le pourcentage de précision moyen des Cavaliers pendant le match, élevé
à 49,30%. En utilisant l’horloge universelle de la NBA, un coach peut automatiquement visionner les clips vidéo de chaque tir effectué par Williams quand Price était en défense,
sans avoir à visionner des heures de capture vidéo.
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
6 janvier 1995 révèle que John Williams a marqué quatre paniers quand Mark Price était
Panorama du data mining Exemples concrets de l’utilisation du Data Mining ❺ La startup Digi.me
réseaux sociaux, les appareils qu’ils utilisent, les cartes de crédit avec lesquelles ils dépensent, les villes où ils sont situés.
Les entreprises et les gouvernements peuvent aisément utiliser les données personnelles pour leur business sans demander le consentement des usagers.
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
Les entreprises surveillent ce que les consommateurs postent, aiment, partagent sur les
Panorama du data mining Exemples concrets de l’utilisation du Data Mining ❺ La startup Digi.me
leur empreinte numérique, de collecter et de partager des informations directement avec les entreprises selon leurs propres conditions. La technologie développée par Digi.me permet aux utilisateurs de télécharger leurs
données et de les stocker sur internet.
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
Cette startup fournit aux consommateurs des outils leur permettant de se réapproprier
Panorama du data mining Exemples concrets de l’utilisation du Data Mining ❼Inde: Empêcher l’évasion fiscale avec le Data Mining
fiscale. En effet, l’Inde est profondément affectée par ce fléau. Pour y remédier, le département des taxes va utiliser la technologie pour faciliter le paiement des taxes
pour les citoyens honnêtes, et pour compliquer la tâche aux malhonnêtes. On ignore pour l’instant de quelle façon le data mining sera utilisé, mais davantage de détails devraient être dévoilés dans les mois à venir.
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
En Inde, le gouvernement est décidé à utiliser le data mining pour empêcher l’évasion
Panorama du data mining Exemples concrets de l’utilisation du Data Mining ❽Recruter les meilleurs employés
localiser et identifier les employés les plus intéressants pour leur entreprise
En Irlande par exemple, les entreprises collectent les données en ligne sur les candidats
pour dénicher les meilleurs talents. Les données permettent par exemple de déterminer le niveau de productivité et de satisfaction d’un candidat.
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
Les professionnels du recrutement utilisent de plus en plus les outils de data mining pour
Panorama du data mining Comment fonctionne le Data Mining ?
Le Data Mining assure la jonction entre les deux Les logiciels de Data Mining analysent les relations et les patterns des données de transactions stockées en se basant sur des requêtes d’utilisateurs. Plusieurs types de logiciels analytiques sont disponibles : statistiques, Machine Learning, et réseaux neuronaux.
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
Les technologies informatiques ont évolué de manière à ce que les systèmes transactionnels et les systèmes analytiques soient séparés.
Panorama du data mining Comment fonctionne le Data Mining ? on dénombre quatre types de relations :
Associations: Les données peuvent être minées pour identifier des associations.
Patterns séquentielles: Les données sont minées pour anticiper les patterns de comportements et les tendances.
Clusters: Les données sont regroupées par rapport à des relations logiques ou aux préférences des clients.
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
Classes: Les données stockées sont utilisées pour localiser les données en groupes prédéterminés.
Panorama du data mining Comment fonctionne le Data Mining ?
L’extraction, la transformation, et le chargement de données transactionnelles sur le système de Data Warehouse. Le stockage et la gestion de données dans un système de base de données multidimensionnel. Fournir l’accès aux données aux analystes de business et aux professionnels des technologies informatiques. Analyser les données grâce à un logiciel applicatif.
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
Le Data Mining repose sur quatre éléments majeurs :
Panorama du data mining Comment fonctionne le Data Mining ? Différents niveaux d’analyse sont disponibles :
Algorithmes génétiques: Les techniques d’optimisation utilisent des procédés tels que la combinaison génétique, la mutation, et la sélection naturelle dans un design basé sur les concepts de l’évolution naturelle.
Les arbres décisionnels: Ces structures en forme d’arbres représentent des ensembles de décisions.
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
Les réseaux de neurones artificiels: Des modèles prédictifs non linéaires qui apprennent par l’entraînement et s’apparentent à des réseaux neuronaux biologiques dans leur structure.
Panorama du data mining Comment fonctionne le Data Mining ? Différents niveaux d’analyse sont disponibles :
L’induction de règle: L’extraction de règles « si-alors » depuis les données, basées sur des signifiances statistiques. Data visualization: L’interprétation visuelle de relations complexes dans les données multidimensionnelles. Les outils graphiques sont utilisés pour illustrer les relations de données
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
La méthode du voisin le plus proche: Cette technique classifie chaque enregistrement d’un ensemble de données en se basant sur une combinaison des classes du k, similaire à un ensemble de données historique.
Panorama du data mining Comment fonctionne le Data Mining ? Le processus de Data Mining se décompose en 5 étapes.
② Stockage et gestion des données, sur des serveurs physiques ou sur le Cloud. ③ Les Business analysts, les équipes de management et les professionnels de l’informatique accèdent à ces données et déterminent comment ils souhaitent les organiser. ④ Le logiciel applicatif permet de trier les données en se basant sur les résultats utilisateurs. ⑤ L’utilisateur final présente les données sous un format facile à partager comme un graphique ou un tableau.
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
① Collection des données par les entreprises et les chargent dans les Data Warehouses.
Panorama du data mining Comment fonctionne le Data Mining ? Les 3 propriétés principales du Data Mining
Panorama du data Mining
❶ La découverte automatique de patterns
❷ La prédiction de résultats probables
❸ La création d’informations exploitables
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data mining Comment fonctionne le Data Mining ? Quelle infrastructure technologique est requise ?
La complexité des requêtes: Plus les requêtes sont complexes et nombreuses, plus un système puissant est requis.
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
La taille de la base de données: Plus le nombre de données à traiter et à maintenir est important, plus un système puissant est requis.
Panorama du data mining Comment fonctionne le Data Mining ? Les logiciels Data Mining
Logiciels commerciaux
Clémentine SPSS d'IBM, SAS logo horiz.svg ,DATA maestro™ de PEPITe , Statisca Data Miner StatSoft,XL Miner, ORACLE, Intelligent Miner IBM Statisca Data Miner Logiciels libres
KNIME ,TANAGRA, ORANGE, WEKA
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
Il existe de nombreux logiciels de statistiques et de Datamining. Il y a des gratuits et des payants, mono-utilisateur et en architecture: clients-serveur.
Panorama du data mining Comment fonctionne le Data Mining ? Les logiciels par spécialités
Startminer, édité par Grimmersoft
Predict, édité par Neuralware NeuroOne, édité par Nétral
4Thought, édité par Cognos
Alice, édité par Isoft KnowKnowledgeSEEKET, édité par Angoss
CART, édité par Salford systems Microsoft Analysis Services, édité par Microsoft
Associations Wizwhy, édité par Wizsoft
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021
Panorama du data Mining
Arbre de décision
Réseaux de neurones
PLAN
Panorama du data mining Déroulement d’une étude de data mining Exploration et la préparation des données Utilisation des données commerciales Logiciels de statistique et data mining Aperçu sur les techniques de data mining Analyse factorielle Réseaux de neurones Techniques de classification automatique Recherche d’associations Techniques de classement et de prédiction Application du data mining : le scoring Facteurs de succès d’un projet de data mining Text mining Web mining
Master Spécialisé Management des Systèmes d’information
DATA MINING
Année Universitaire 2020/2021