Big Data Et Data Mining [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

2019/2020

BIG DATA ET DATA MINING

Groupe GL 4 : Ramdani Rayan Rahmani Adel Yahiaoui Ahcene

Master 1 Génie Logiciel

Table des matières Table des matières BIG DATA

2

Définition du Big Data :

2

Big Data : l’analyse de données en masse :

3

Les évolutions technologiques derrière le Big Data La principale plateforme du Big Data :

4

4

Les principaux acteurs du marché Big Data : 6 Ce que l’on reproche au Big Data :

7

Data Mining :Exploration de données : 7 Définition

7

Fonctionnement du Data Mining :

7

Qu’est ce qu’un data mining ?:

8

Les composants du Data Mining :

8

Les méthodes de Data Mining :

9

Les secteurs du Data Mining et son utilité: Fonctionnement du Data Mining :

9

10

Les Éléments majeurs du Data Mining:

10

Les 3 propriétés principales du Data Mining: 11 Différence entre Big Data et Data Mining : Conclusion:

12

12

1

I.

Big Data

L’explosion quantitative des données numériques a obligé les chercheurs à trouver de nouvelles manières de voir et d’analyser le monde. Il s’agit de découvrir de nouveaux ordres de grandeur concernant la capture, la recherche, le partage, le stockage, l’analyse et la présentation des données. Ainsi est né le « Big Data ». Il s’agit d’un concept permettant de stocker un nombre indicible d’informations sur une base numérique. Selon les archives de la bibliothèque numérique de l’Association for Computing Machinery (ou ACM) dans des articles scientifiques concernant les défis technologiques à relever pour visualiser les « grands ensembles de données », cette appellation est apparue en octobre 1997.

1) Définition du Big Data : Littéralement, ces termes signifient mégadonnées, grosses données ou encore données massives. Ils désignent un ensemble très volumineux de données qu’aucun outil classique de gestion de base de données ou de gestion de l’information ne peut vraiment travailler. En effet, nous procréons environ 2,5 trillions d’octets de données tous les jours. Ce sont les informations provenant de partout : messages que nous nous envoyons, vidéos que nous publions, informations climatiques, signaux GPS, enregistrements des transactions d’achatsen ligne et bien d’autres encore. Ces données sont baptisées Big Data ou volumes massifs de données. Les géants du Web, au premier rang desquels Yahoo (mais aussi Facebook et Google), ont été les tous premiers à déployer ce type de technologie, en d’autres termes : le Big Data représente les données de grande taille (une collection de données de grande taille qui croît de manière exponentielle avec le temps). Il est utilisé pour faire référence à tout type de données difficiles à représenter à l’aide de méthodes classiques telles que un systèmes de gestion de bases de données ou Microsoft Excel. Cependant, aucune définition précise ou universelle ne peut être donnée au Big Data. Etant un objet complexe polymorphe, sa définition varie selon les communautés qui s’y intéressent en tant qu’usager ou fournisseur de services. Une approche transdisciplinaire permet d’appréhender le comportement des différents acteurs : les concepteurs et fournisseurs d’outils (les informaticiens), les catégories d’utilisateurs (gestionnaires, responsables d’entreprises, chercheurs …). Le big data ne dérive pas des règles de toutes les technologies, il est aussi un système technique dual. En effet, il apporte des bénéfices mais peut également générer des inconvénients. L’arrivée du Big Data est maintenant présentée par de nombreux articles comme une nouvelle révolution industrielle semblable à la découverte de la vapeur (début du 19e siècle), de l’électricité (fin du 19e siècle) et de l’informatique (fin du 20e siècle). D’autres, un peu plus mesurés, qualifient ce phénomène comme étant la dernière étape de

2

la troisième révolution industrielle, laquelle  est en fait celle de « l’information ». Dans tous les cas, le Big Data est considéré comme une source de bouleversement profond de la société.

2) Big Data : l’analyse de données en masse Inventé par les géants du web, le Big Data se présente comme une solution dessinée pour permettre à tout le monde d’accéder en temps réel à des bases de données géantes. Il vise à proposer un choix aux solutions classiques de bases de données et d’analyse (plateforme de Business Intelligence en serveur SQL…). Selon le Gartner, ce concept regroupe une famille d’outils qui répondent à une triple problématique dite règle des 3V. Il s’agit notamment d’un Volume de données considérable à traiter, une grande Variété d’informations (venant de diverses sources, non-structurées, organisées, Open…), et un certain niveau de Vélocité à atteindre, autrement dit de fréquence de création, collecte et partage de ces données.

3

3) Les évolutions technologiques derrière le Big Data   Les créations technologiques qui ont facilité la venue et la croissance du Big Data peuvent globalement être catégorisées en deux familles : d’une part, les technologies de stockage, portées particulièrement par le déploiement du Cloud Computing. D’autre part, l’arrivée de technologies de traitement ajustées, spécialement le développement de nouvelles bases de donnes adaptes aux données non-structurées (Hadoop) et la mise au point de modes de calcul à haute performance (MapReduce). Il existe plusieurs solutions qui peuvent entrer en jeu pour optimiser les temps de traitement sur des bases de données géantes à savoir : Les bases de données NoSQL (comme MongoDB, Cassandra ou Redis), les infrastructures du serveur pour la distribution des traitements sur les nœuds et le stockage des données en mémoire : La première solution permet d’implémenter les systèmes de stockage considérés comme plus performants que le traditionnel SQL pour l’analyse de données en masse (orienté clé/valeur, document, colonne ou graphe). La deuxième est aussi appelée le traitement massivement parallèle. Le Framework Hadoop en est un exemple. Celui-ci combine le système de fichiers distribué HDFS, la base NoSQL HBase et l’algorithme MapReduce.  Quant à la dernière solution, elle accélère le temps de traitement des requêtes. 4) La principale plateforme du Big Data : À l’heure actuelle, Hadoop est la principale plateforme du Big Data. Utilisé pour le stockage et le traitement d’immenses volumes de données, ce framework logiciel et ses différents composants sont utilisés par de très nombreuses entreprises pour leurs projets Big Data.

i.

Hadoop définition

4

Hadoop est un framework logiciel open source permettant de stocker des données, et de lancer des applications sur des grappes de machines standards. Cette solution offre un espace de stockage massif pour tous les types de données, une immense puissance de traitement et la possibilité de prendre en charge une quantité de tâches virtuellement illimitée. Basé sur Java, ce framework fait partie du projet Apache, sponsorisé par Apache Software Foundation.

Grâce au framework MapReduce, il permet de traiter les immenses quantités de données. Plutôt que de devoir déplacer les données vers un réseau pour procéder au traitement, MapReduce permet de déplacer directement le logiciel de traitement vers les données. En 2008, Yahoo proposa Hadoop sous la forme d’un projet Open Source. Aujourd’hui, le framework et son écosystème de technologies sont gérés et maintenus par l’association non lucrative Apache Software Foundation, une communauté mondiale de développeurs de logiciels et de contributeurs. Après quatre ans de développement au sein de la communauté Open Source, Hadoop 1.0 fut proposé au public à partir de novembre 2012 dans le cadre du projet Apache, sponsorisé par la Apache Software Foundation. Depuis lors, le framework n’a cessé d’être développé et mis à jour.

La version deuxième version Hadoop 2 a permis d’améliorer la gestion de ressource et la planification. Elle comporte une option de système fichier à haute disponibilité, et prend en charge

5

Microsoft Windows et d’autres composants afin d’étendre la polyvalence du framework pour le traitement et l’analyse de données. Hadoop est actuellement proposé en version 2.6.5. ii.

Pourquoi Hadoop est important ?

Les avantages apportés aux entreprises par Hadoop sont nombreux. Grâce à ce framework logiciel, il est possible de stocker et de traiter de vastes quantités de données rapidement. Face à l’augmentation en hausse du volume de données et à leur diversification, principalement liée aux réseaux sociaux et à l’internet des objets, il s’agit d’un avantage non négligeable. De même, le modèle de calcul distribué d’Hadoop permet de traiter rapidement le Big Data. Plus le nombre de nœuds de calcul utilisés est important, plus la puissance de traitement est élevée. Les données et les applications traitées sont protégées contre les échecs hardware. Si un nœud tombe en panne, les tâches sont directement redirigées vers d’autres nœuds pour s’assurer que le calcul distribué n’échoue pas. De multiples copies de toutes les données sont stockées automatiquement.  Contrairement aux bases de données relationnelles traditionnelles, il est inutile de traiter les données au préalable avant de les stocker. Il est possible de stocker autant de données que vous le souhaitez et décider plus tard de la manière de les utiliser. Ceci regroupe les données non structurées comme le texte, les images et les vidéos. iii.

les principaux usages d’Hadoop en entreprise: Hadoop est utilisé par de nombreuses entreprises en guise de plateforme Big Data      

Le stockage low-cost et l’archive de données.  La découverte et l’analyse. Prendre en charge le stockage de données dans le format original. Complémenter les Data Warehouses. Moteur de recommandations. Stocker les transactions des objets connectés.

5) Les principaux acteurs du marché Big Data : La filière Big Data en  a attiré plusieurs. Ces derniers se sont positionnés rapidement dans divers secteurs. Dans le secteur IT, on retrouve les fournisseurs historiques de solutions IT comme Oracle, HP, SAP ou encore IBM Il y a aussi les acteurs du Web dont Google, Facebook, ou Twitter. Quant aux spécialistes des solutions Data et Big Data, on peut citer MapR, Teradata, EMC ou Hortonworks. CapGemini, Sopra, Accenture ou Atos sont des intégrateurs, toujours des acteurs principaux dans les méga données. Dans le secteur de l’analytique, comme éditeurs BI, on peut citer SAS, Micro-strategy et Qliktech. Cette filière comporte aussi des fournisseurs spécialisés dans l’analytique comme Datameer ou Zettaset.

6

En parallèle à ces principaux participants, de nombreuses PME spécialisées dans le Big Data sont apparues. 6) Ce que l’on reproche au Big Data La plupart des critiques concernent la protection des données. Les grandes bases de données permettent aux entreprises et aux marques de mieux adapter leurs stratégies marketing. Néanmoins, il est aussi possible d’établir des profils d’utilisateurs précis grâce aux données utilisées pour le ciblage. Les personnes responsables de la protection des données voient cela comme une atteinte à la vie privée des internautes. Celui qui travaille avec le Big Data doit renseigner les clients et les utilisateurs de son site sur sa politique d’utilisation des données Une autre critique est la « dictature des données ». En effet, le domaine des données massives fait face à ce qu’on appelle en anglais les « big players ». Il s’agit d’entreprises qui travaillent depuis un certain nombre d’années avec des données et qui en font des bénéfices (comme Google et d’autres moteurs de recherche). Ainsi, ces sociétés ont un monopole en matière de données. Cette souveraineté est souvent critiquée et qualifiée d’atteinte à la vie privée à grande échelle. En effet, si aucune règle claire sur a protection des données personnelles n’est établie et compte tenu de l’anonymisation de ces informations récupérées, il n’est pas étonnant qu’une utilisation abusive des données des internautes soit possible.

II.

Data Mining  :Exploration de données  : 1.

Définition :

Forage de données, explorations de données , fouilles de données ou encore extraction de connaissances à partir de données, ce sont les traductions possibles du Data Mining en Français. En règle générale, le terme Data Mining désigne l’analyse de données depuis différentes perspectives et le fait de transformer ces données en informations utiles, en établissant des relations entre les données ou en repérant des patterns. Ces informations peuvent ensuite être utilisées par les entreprises pour augmenter un chiffre d’affaires ou pour réduire des coûts. Elles peuvent également servir à mieux comprendre une clientèle afin d’établir de meilleures stratégies marketing. 2.

Fonctionnement du Data Mining :

Le Data Mining repose sur des algorithmes complexes et sophistiqués permettant de segmenter les données issus de disciplines scientifiques diverses telles que les statistiques, l'intelligence artificielle ou l'informatique, pour construire des modèles à partir des données, c'est-à-dire trouver des structures intéressantes ou des motifs selon des critères fixés au

7

préalable, et d'en extraire un maximum de connaissances. Le Data Mining est également surnommé Knowledge Discovery 3.

Qu’est ce qu’un data mining ?

Les logiciels Data Mining font partie des outils analytiques utilisés pour l’analyse de données. Ils permettent aux utilisateurs d’analyser des données sous différents angles, de les catégoriser, et de résumer les relations identifiées. Techniquement, le Data Mining est le procédé permettant de trouver des corrélations ou des patterns entre de nombreuses bases de données relationnelles. 4. a)

Les composants du Data Mining : Données

Les données sont des faits, des nombres, ou des textes pouvant être traités par un ordinateur. Parmi ces données, on distingue :  Les données opérationnelles ou transactionnelles telles que les données de ventes, de coûts, d’inventaire, de tickets de caisse ou de comptabilité.  Les données non opérationnelles, telles que les ventes industrielles, les données prévisionnelles, les données macro-économiques.  Les métadonnées, à savoir les données concernant les données ellesmêmes, telles que les définitions d’un dictionnaire de données. b)

Informations

Les patterns, associations et relations entre toutes ces données permettent d’obtenir des informations. Par exemple, l’analyse des données de transaction d’un point de vente permet de recueillir des informations sur les produits qui se vendent, et à quel moment ont lieu ces ventes. c)

Savoir

Les informations peuvent être converties en savoir à propos de patterns historiques ou des tendances futures. Par exemple, l’information sur les ventes au détail d’un supermarché peut être analysée dans le cadre d’efforts promotionnels, pour acquérir un savoir au sujet des comportements d’acheteurs. Ainsi, un producteur peut déterminer quels produits doivent faire l’objet d’une promotion à l’aide du Data Mining.

8

5.

Les méthodes de Data Mining :

On dénombre cinq variétés du Data Mining :  Association : chercher des patterns au sein desquelles un événement est lié à un autre événement.  Analyse de séquence : chercher des patterns au sein desquelles un événement mène à un autre événement plus tardif.  Classification : chercher de nouvelles patterns, quitte à changer la façon dont les données sont organisées.  Clustering : trouver et documenter visuellement des groupes de faits précédemment inconnus.  Prédiction : découvrir des patterns de données pouvant mener à des prédictions raisonnables sur le futur. Ce type de data mining est aussi connu sous le nom d’analyse prédictive. 6.

Les secteurs du Data Mining et son utilité :

Le Data Mining est actuellement principalement utilisé par les entreprises focalisées sur les consommateurs, dans les secteurs du commerce au détail, de la finance, de la communication, ou du data mining marketing. Les techniques de Data Mining sont également utilisées dans différents secteurs de recherche, tels que les mathématiques, la cybernétique ou la génétique. Grâce au Data Mining on peut : 

Suggestions de produits.

9

    

Analyse d’images. Permettre aux consommateurs de contrôler leur empreinte numérique. Empêcher l’évasion fiscale avec le Data Mining. Augmenter le chiffre d’affaire des entreprise. Recruter les meilleurs employés.

7.

Fonctionnement du Data Mining :

Le Data Mining assure la jonction entre les systèmes transactionnels et les systèmes analytiques. Les logiciels de Data Mining analysent les relations et les patterns des données de transactions stockées en se basant sur des requêtes d’utilisateurs. Plusieurs types de logiciels analytiques sont disponibles : statistiques, Machine Learning, et réseaux neuronaux. En général, on dénombre quatre types de relations :  Classes: Les données stockées sont utilisées pour localiser les données en groupes prédéterminés. Par exemple, une chaîne de restaurant peut miner les données d’achat des clients pour déterminer quand ont lieu les visites des clients et quelles sont leurs commandes habituelles. Cette information peut être utilisée pour augmenter le trafic en proposant des menus quotidiens.  Clusters: Les données sont regroupées par rapport à des relations logiques ou aux préférences des clients. Par exemple, les données peuvent être minées pour identifier des segments de marché ou des affinités de clients.  Associations: Les données peuvent être minées pour identifier des associations.  Patterns séquentielles: Les données sont minées pour anticiper les patterns de comportements et les tendances. Par exemple, un vendeur d’équipement extérieur peut prédire les probabilités qu’un sac à dos soit acheté en se basant sur les achats de sac de couchage et de chaussures de randonnée d’un client.

8.

Les Éléments majeurs du Data Mining : Le Data Mining repose sur cinq éléments majeurs :  L’extraction, la transformation, et le chargement de données transactionnelles sur le système de Data Warehouse.  Le stockage et la gestion de données dans un système de base de données multidimensionnel.

10

 Fournir l’accès aux données aux analystes de business et aux professionnels des technologies informatiques.  Analyser les données grâce à un logiciel applicatif.  Présenter les données sous un format utile, comme un graphique ou un tableau.

9.

Les 3 propriétés principales du Data Mining

On dénombre 3 propriétés principales du Data Mining:  La découverte automatique de patterns Le Data Mining repose sur le développement de modèles. Un modèle utilise un algorithme pour agir sur un ensemble de données. La notion de découverte automatique se réfère à l’exécution de modèles de Data Mining. Les modèles de Data Mining peuvent être utilisés pour miner les données sur lesquelles ils sont bâtis, mais la plupart des types de modèles peuvent être généralisés à de nouvelles données. Le processus permettant d’appliquer un modèle à de nouvelles données est appelé scoring.  La prédiction de résultats probables De nombreuses formes de Data Mining sont prédictives. Par exemple, un modèle peut prédire un résultat basé sur l’éducation et d’autres facteurs démographiques. Les prédictions ont une probabilité associée. Certaines formes de Data Mining prédictif génèrent des règles, qui sont les conditions pour obtenir un résultat. Par exemple, une règle peut spécifier qu’une personne dotée d’un bachelor et vivant dans un quartier précis a une probabilité d’avoir un meilleur salaire que la moyenne régionale.

 La création d’informations exploitables Le Data Mining permet de dégager des informations exploitables de larges volumes de données. Par exemple, un planificateur urbain peut utiliser un modèle pour prédire le revenu en se basant sur les données démographiques pour développer un plan pour les ménages à bas revenu. Une agence de location de voiture peut utiliser un modèle pour identifier des segments de consommateurs afin de créer une promotion ciblant les clients à forte valeur.

11

III.

Différence entre Big Data et Data Mining  :

Big data et Data mining sont deux concepts différentes. Les deux concernent l’utilisation des grands ensembles de données pour gérer la collecte ou la création de rapports destinés aux entreprises ou à d’autres destinataires. Data mining implique de trouver des modèles intéressants à partir de jeux de données. Big data implique le stockage et le traitement à grande échelle (souvent à l’échelle d’un datacenter ) de grands ensembles de données. Ainsi, data mining fait partie du big data(par exemple, la recherche de modèles d’achat à partir de journaux d’achats volumineux). Toutes les tâches du Big Data ne sont pas des opérations du data mining (par exemple, indexation à grande échelle). Toutes les tâches de data mining ne font pas partie du Big Data (par exemple, l’exploration de données sur un petit fichier pouvant être effectué sur un seul nœud).

Table de comparaison Data Mining

Big Data

Définition

Il se base principalement sur de nombreux détails

Il se base principalement sur de nombreuses relations entre les données

Définition

C’est une technique d’analyse de données

C’est un concept plutot qu’un terme précis

Résultats

Principalement pour la prise de décision stratégique

Tableaux de bord et mesures prédictives

Types de données

Données structurées, base de données Données structurées, semi-structurées relationnelle et dimensionnelle. et non structurées (en NoSQL)

Vue

C’est une vue rapprochée des données C’est la grande image des données

Les données

Il exprime « qu’en est-il des données? »

Il exprime « pourquoi des données? »

Analyse

Principalement l’analyse statistique, se concentre sur la prédiction et la découverte de facteurs commerciaux à petite échelle.

Principalement l’analyse des données, l’accent est mis sur la prévision et la découverte de facteurs commerciaux à grande échelle.

IV.

Conclusion  :

12

Data Mining et le Big Data traitent les données mais de différentes manières. La différence réside dans la façon dont les données sont interprétées. Le Data Mining et le Big Data traitent des quantités énormes de données.

13