Cours 1 - Introduction Au Big Data [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

L.A. Steffenel

MA0979 – Séries Temporelles Cours 1 – Introduction au BigData

Avant de démarrer u

Objectifs de ce cours

u

« Non-objectifs » de ce cours

u

Organisation

u

Matériel de lecture

M2 SEP MA0979 L.A. Steffenel

Objectifs u

Comprendre les défis du traitement massif de données

u

Avoir des bases sur la conception et le déploiement d'applications BigData u

u

Notamment avec les applications du framework Hadoop

Avoir des bases sur ce qui est une base de données NoSQL et où cette technologie peut être utilisée

M2 SEP MA0979 L.A. Steffenel

Non-objectifs u

Maîtriser une technologie spécifique u

Big Data est plus qu’un logiciel, c’est un domaine d’activité

u

Maîtriser/comprendre les techniques statistiques liées au machine-learning

u

Utiliser à fond tous les outils disponibles u

On ne fera que survoler les plus importants

M2 SEP MA0979 L.A. Steffenel

Organisation u

3 séances de 2h u

u

N'hésitez pas à interrompre, poser des questions et demander plus de détails

Surtout, on peut faire évoluer les cours !

M2 SEP MA0979 L.A. Steffenel

Ce qu’on verra ces trois jours u

Introduction au big data (aujourd’hui)

u

Le paradigme Map-Reduce u

u

Programmation avec Hadoop

Les bases de données NoSQL

M2 SEP MA0979 L.A. Steffenel

Lecture u

u

u

u

Big Data et Machine Learning : Manuel du data scientist u

P Lemberger, M Batty, M Morel, J-L Rafaëlli

u

Dunod, 2015

Hadoop : The Definitive Guide 3rd Edition u

T White

u

O’Reilly, 2012

MapReduce Design Patterns u

D Miner, A Shook

u

O’Reilly, 2012

MOOCs sur Coursera, Udacity, etc.

M2 SEP MA0979 L.A. Steffenel

C’est quoi le Big Data

Avant le Big Data u

Calcul répartie et HPC u

Effort concentré sur les problèmes « calcul intensive »

u

Le réseau n’étant pas si performant, on évitait de faire des transferts de données

M2 SEP MA0979 L.A. Steffenel

Avant le Big Data u

u

Calcul répartie et HPC u

Effort concentré sur les problèmes « calcul intensive »

u

Le réseau n’étant pas si performant, on évitait de faire des transferts de données

Bases de données u

Le modèle relationnel s’est imposé dans les années 80 u

Données structurées (tableaux), formes normales

u

Très forte optimisation des SGBD

u

Bases de données fédérées : trop difficile

M2 SEP MA0979 L.A. Steffenel

Avant le Big Data u

u

Calcul répartie et HPC u

Effort concentré sur les problèmes « calcul intensive »

u

Le réseau n’étant pas si performant, on évitait de faire des transferts de données

Bases de données u

Le modèle relationnel s’est imposé dans les années 80 u

u

Données structurées (tableaux), formes normales

u

Très forte optimisation des SGBD

u

Bases de données fédérées : trop difficile

Data mining u

Méthodes statistiques pour l’extraction des connaissances

u

D’abord un modèle, qui sera ensuite validé

u

Echantillonnage des données pour tenir dans la mémoire

M2 SEP MA0979 L.A. Steffenel

Big Data : quelques chiffres u

Chaque jour, nous générons 2,5 trillions d’octets de données

u

90% des données dans le monde ont été crées au cours des dernières années

u

Sources: u

Capteurs utilisés pour collecter les informations climatiques, de trafic, consommation u

Smart cities, Internet des Objets (IoT)

u

Messages sur les médias sociaux

u

Images numériques et vidéos publiées en ligne

u

Enregistrements transactionnels d’achat en ligne

u

Signaux GPS de téléphones mobiles

u

...

M2 SEP MA0979 L.A. Steffenel

Un autre regard sur l’informatique u

u

u

L’accumulation et la capacité de traiter les données a crée une révolution dans notre vie courante u

Services de recommandation

u

Réseaux sociaux

u

...

Les entreprises ont rapidement reconnu l’intérêt u

Des recherches plus pertinentes

u

Meilleur ciblage des publicités

u

Analyse et prédiction des tendances du marché

u

Une relation plus personnelle avec les clients

u

Plus de réactivité

Côté client, il y a surtout des services qui « rendent la vie plus simple »

M2 SEP MA0979 L.A. Steffenel

Des nouveaux métiers (ou pas) u

Le métier à la mode est le « Data Scientist » u

u

Quelqu’un capable de transformer les données en information utile

C’est à la fois un nouveau métier et un recueil de professions déjà existantes : u

Spécialiste TI – Il faut savoir gérer et transformer les données

u

Geek/Hacker – il faut savoir programmer, paramétrer et déployer des outils (souvent sous Linux)

u

Spécialiste HPC – le parallélisme est une clé de la réussite

u

Statisticien – il faut savoir utiliser des méthodes mathématiques pour classifier, regrouper et analyser l’information

u

Gestionnaire – il faut être capable d’indiquer les objectifs et de reconnaître la valeur d’une information

M2 SEP MA0979 L.A. Steffenel

M2 SEP MA0979 L.A. Steffenel

Intersection de savoirs Drew Conway’s Data Science Venn Diagram

4/28/13

Bill Howe, UW

3

Pourquoi pas avant u

Le prix du matériel a chuté sensiblement

u

Les grands acteurs (Google, Facebook, Yahoo, Amazon, ...) ont développé des outils pour stocker et explorer ces données u

Framework Hadoop

u

Bases de données NoSQL

M2 SEP MA0979 L.A. Steffenel

La Frontière du BigData u

Règle générale, on considère du BigData quand le traitement devient trop long pour une seule machine

~116 jours

M2 SEP MA0979 L.A. Steffenel

Les trois « V » du BigData u

Volume (Volume) u

u

u

Volumes de données croissants de tous types, qui se comptent en téraoctets ou même en pétaoctets

Variété (Variety) u

Gérer la complexité de plusieurs types de données et de schémas structurés ou non structurés

u

texte, données de capteurs, son, vidéo, logs, ...

Vitesse (Velocity) u

Parfois, les données doivent être saisies et traitées au fur et à mesure de leur collection

M2 SEP MA0979 L.A. Steffenel

Volume u

Le prix de stockage a beaucoup diminué

u

Des solutions de stockage fiables sont nombreuses

u

u

SAN (Storage Area Networks)

u

Stockage sur le cloud (Amazon S3)

Comment déterminer les données qui méritent d’être stockées? u

Transactions? Logs? Métier? Utilisateur? Capteurs? Médicales? Sociales?

u

Aucune donnée n’est inutile (juste pas encore servies)

M2 SEP MA0979 L.A. Steffenel

Variété u

Les bases de données ou entrepôts de données imposent souvent un format prédéfini

u

La plupart des données existantes sont non-structurées ou semistructurées

u

u

Données sous plusieurs formats et types

u

On veut tout stocker

Certaines données peuvent paraître obsolètes mais peuvent être utiles pour certaines décisions u

Ex : Transport de marchandises – quel camion choisir ?

u

Données GPS, plan de livraison du camion, circulation, chargement du camion, niveau de combustible, horaires de travail du conducteur

M2 SEP MA0979 L.A. Steffenel

Vitesse u

u

Rapidité d’arrivée des données u

Vitesse de traitement

u

Les données doivent être stockées à l’arrivée, parfois même des teraoctets par jour

Exemple u

Il ne suffit pas de savoir quel article un client a acheté ou réservé

u

Si si on sait que vous avez passé plus de 5mn à consulter un article dans une boutique d’achat en ligne, il est possible de vous envoyer un email dès que cet article est soldé

M2 SEP MA0979 L.A. Steffenel

Attention u

Tout n’est pas dans le Cloud

u

Très pratique pour avoir des ressources

u

u

Surtout pour renforcer le parallélisme et le stockage

u

Ex : grep u

1MB en