94 2 6MB
L.A. Steffenel
MA0979 – Séries Temporelles Cours 1 – Introduction au BigData
Avant de démarrer u
Objectifs de ce cours
u
« Non-objectifs » de ce cours
u
Organisation
u
Matériel de lecture
M2 SEP MA0979 L.A. Steffenel
Objectifs u
Comprendre les défis du traitement massif de données
u
Avoir des bases sur la conception et le déploiement d'applications BigData u
u
Notamment avec les applications du framework Hadoop
Avoir des bases sur ce qui est une base de données NoSQL et où cette technologie peut être utilisée
M2 SEP MA0979 L.A. Steffenel
Non-objectifs u
Maîtriser une technologie spécifique u
Big Data est plus qu’un logiciel, c’est un domaine d’activité
u
Maîtriser/comprendre les techniques statistiques liées au machine-learning
u
Utiliser à fond tous les outils disponibles u
On ne fera que survoler les plus importants
M2 SEP MA0979 L.A. Steffenel
Organisation u
3 séances de 2h u
u
N'hésitez pas à interrompre, poser des questions et demander plus de détails
Surtout, on peut faire évoluer les cours !
M2 SEP MA0979 L.A. Steffenel
Ce qu’on verra ces trois jours u
Introduction au big data (aujourd’hui)
u
Le paradigme Map-Reduce u
u
Programmation avec Hadoop
Les bases de données NoSQL
M2 SEP MA0979 L.A. Steffenel
Lecture u
u
u
u
Big Data et Machine Learning : Manuel du data scientist u
P Lemberger, M Batty, M Morel, J-L Rafaëlli
u
Dunod, 2015
Hadoop : The Definitive Guide 3rd Edition u
T White
u
O’Reilly, 2012
MapReduce Design Patterns u
D Miner, A Shook
u
O’Reilly, 2012
MOOCs sur Coursera, Udacity, etc.
M2 SEP MA0979 L.A. Steffenel
C’est quoi le Big Data
Avant le Big Data u
Calcul répartie et HPC u
Effort concentré sur les problèmes « calcul intensive »
u
Le réseau n’étant pas si performant, on évitait de faire des transferts de données
M2 SEP MA0979 L.A. Steffenel
Avant le Big Data u
u
Calcul répartie et HPC u
Effort concentré sur les problèmes « calcul intensive »
u
Le réseau n’étant pas si performant, on évitait de faire des transferts de données
Bases de données u
Le modèle relationnel s’est imposé dans les années 80 u
Données structurées (tableaux), formes normales
u
Très forte optimisation des SGBD
u
Bases de données fédérées : trop difficile
M2 SEP MA0979 L.A. Steffenel
Avant le Big Data u
u
Calcul répartie et HPC u
Effort concentré sur les problèmes « calcul intensive »
u
Le réseau n’étant pas si performant, on évitait de faire des transferts de données
Bases de données u
Le modèle relationnel s’est imposé dans les années 80 u
u
Données structurées (tableaux), formes normales
u
Très forte optimisation des SGBD
u
Bases de données fédérées : trop difficile
Data mining u
Méthodes statistiques pour l’extraction des connaissances
u
D’abord un modèle, qui sera ensuite validé
u
Echantillonnage des données pour tenir dans la mémoire
M2 SEP MA0979 L.A. Steffenel
Big Data : quelques chiffres u
Chaque jour, nous générons 2,5 trillions d’octets de données
u
90% des données dans le monde ont été crées au cours des dernières années
u
Sources: u
Capteurs utilisés pour collecter les informations climatiques, de trafic, consommation u
Smart cities, Internet des Objets (IoT)
u
Messages sur les médias sociaux
u
Images numériques et vidéos publiées en ligne
u
Enregistrements transactionnels d’achat en ligne
u
Signaux GPS de téléphones mobiles
u
...
M2 SEP MA0979 L.A. Steffenel
Un autre regard sur l’informatique u
u
u
L’accumulation et la capacité de traiter les données a crée une révolution dans notre vie courante u
Services de recommandation
u
Réseaux sociaux
u
...
Les entreprises ont rapidement reconnu l’intérêt u
Des recherches plus pertinentes
u
Meilleur ciblage des publicités
u
Analyse et prédiction des tendances du marché
u
Une relation plus personnelle avec les clients
u
Plus de réactivité
Côté client, il y a surtout des services qui « rendent la vie plus simple »
M2 SEP MA0979 L.A. Steffenel
Des nouveaux métiers (ou pas) u
Le métier à la mode est le « Data Scientist » u
u
Quelqu’un capable de transformer les données en information utile
C’est à la fois un nouveau métier et un recueil de professions déjà existantes : u
Spécialiste TI – Il faut savoir gérer et transformer les données
u
Geek/Hacker – il faut savoir programmer, paramétrer et déployer des outils (souvent sous Linux)
u
Spécialiste HPC – le parallélisme est une clé de la réussite
u
Statisticien – il faut savoir utiliser des méthodes mathématiques pour classifier, regrouper et analyser l’information
u
Gestionnaire – il faut être capable d’indiquer les objectifs et de reconnaître la valeur d’une information
M2 SEP MA0979 L.A. Steffenel
M2 SEP MA0979 L.A. Steffenel
Intersection de savoirs Drew Conway’s Data Science Venn Diagram
4/28/13
Bill Howe, UW
3
Pourquoi pas avant u
Le prix du matériel a chuté sensiblement
u
Les grands acteurs (Google, Facebook, Yahoo, Amazon, ...) ont développé des outils pour stocker et explorer ces données u
Framework Hadoop
u
Bases de données NoSQL
M2 SEP MA0979 L.A. Steffenel
La Frontière du BigData u
Règle générale, on considère du BigData quand le traitement devient trop long pour une seule machine
~116 jours
M2 SEP MA0979 L.A. Steffenel
Les trois « V » du BigData u
Volume (Volume) u
u
u
Volumes de données croissants de tous types, qui se comptent en téraoctets ou même en pétaoctets
Variété (Variety) u
Gérer la complexité de plusieurs types de données et de schémas structurés ou non structurés
u
texte, données de capteurs, son, vidéo, logs, ...
Vitesse (Velocity) u
Parfois, les données doivent être saisies et traitées au fur et à mesure de leur collection
M2 SEP MA0979 L.A. Steffenel
Volume u
Le prix de stockage a beaucoup diminué
u
Des solutions de stockage fiables sont nombreuses
u
u
SAN (Storage Area Networks)
u
Stockage sur le cloud (Amazon S3)
Comment déterminer les données qui méritent d’être stockées? u
Transactions? Logs? Métier? Utilisateur? Capteurs? Médicales? Sociales?
u
Aucune donnée n’est inutile (juste pas encore servies)
M2 SEP MA0979 L.A. Steffenel
Variété u
Les bases de données ou entrepôts de données imposent souvent un format prédéfini
u
La plupart des données existantes sont non-structurées ou semistructurées
u
u
Données sous plusieurs formats et types
u
On veut tout stocker
Certaines données peuvent paraître obsolètes mais peuvent être utiles pour certaines décisions u
Ex : Transport de marchandises – quel camion choisir ?
u
Données GPS, plan de livraison du camion, circulation, chargement du camion, niveau de combustible, horaires de travail du conducteur
M2 SEP MA0979 L.A. Steffenel
Vitesse u
u
Rapidité d’arrivée des données u
Vitesse de traitement
u
Les données doivent être stockées à l’arrivée, parfois même des teraoctets par jour
Exemple u
Il ne suffit pas de savoir quel article un client a acheté ou réservé
u
Si si on sait que vous avez passé plus de 5mn à consulter un article dans une boutique d’achat en ligne, il est possible de vous envoyer un email dès que cet article est soldé
M2 SEP MA0979 L.A. Steffenel
Attention u
Tout n’est pas dans le Cloud
u
Très pratique pour avoir des ressources
u
u
Surtout pour renforcer le parallélisme et le stockage
u
Ex : grep u
1MB en