Correction Examen Big Data 2020 2021 Session Normale [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

Nom : Prénom :

Matière : Année universitaire :

Big Data 2019/2020

Exercice I (12 points) 1. Les données numériques sont générées par les trois sources suivantes : ☐



Médias sociaux blogs et vidéos

e-commerce, médias sociaux et revues

☒ Machines, organisations et individus ☐ Machine, base de données et transactions 2. Lesquels des éléments suivants constituent des avantages de l'intégration des données ? ☒ ☒

Fournir une vue unifiée des données dispersées Améliorer la collaboration globale



Augmente la valeur des données disponibles



Réduire la complexité des données.

☐ ☐

Volume des données Connectivité des données

3. Que signifie Veracity en Big data ? ☐ ☒

Vitesse avec laquelle les données sont générées. Fiabilité et incertitude des données

4. Parmi les éléments suivants, lesquels représentent des caractéristiques de Hadoop : ☒ ☒

☒ ☒

Open source Haute disponibilité

Tolérance aux pannes Scalabilité horizontal

5. Lequel des solutions suivantes traduit les requêtes SQL en tâches MapReduce ? ☒ ☐

☐ ☐

Hive Pig

Hbase Kafka

6. Les données semi-structurées sont les plus difficiles à traiter et à valoriser. Vrai ou faux ? ☐



Vrai

Faux

1. Lesquels des scénarios suivants ne correspondent pas à des cas d'utilisation typiques pour le Stream Processing : ☐



Détection en temps réel des fraudes



Traitement de grandes quantités de données lorsque la demande en ressources informatiques est faible. 7. Data locality signifie :





☐ ☐



Déplacer les traitements vers les données Déplacer les données vers les traitements

Analyse des données Internet of Things pour la détection des anomalies de production Traitement des transactions et production des rapports journaliers

Répliquer les données sur plusieurs nœuds Aucune de ces réponses

8. Quel est l'ordre des trois étapes d’un processus MapReduce ? ☐ ☐



Map -> Reduce -> Shuffle Shuffle -> Reduce -> Map



Map -> Shuffle -> Reduce Shuffle -> Map -> Reduce

9. Spark SQL est un module Spark pour le traitement des données structurées. Vrai ou faux ? ☒ Vrai ☐ Faux 10.Lesquels des éléments suivants représentent des composants d'Hadoop ? ☒

YARN



MapReduce



Pig



HDFS

Page 1 sur 4

11.Quelle proposition décrit au mieux le traitement en mémoire ? ☐

Écriture des résultats intermédiaires sur disque





MLlib est une bibliothèque de machine learning distribuée et scalable MLlib facilite les analyses interactives de données.



Écriture des résultats intermédiaires en mémoire Avoir les données d'entrée complètement sur disque. ☐ Avoir les données d'entrée complètement en ☐ mémoire. 12.Lesquelles des propositions suivantes sont valables pour Spark MLlib ?





MLlib est une extension Spark pour le Stream procession les algorithmes de MLlib sont conçus et optimisés pour le calcul distribué sur un cluster

13.Dans Spark, un DataFrame est : ☒ ☐

Une collection de données distribuée organisée en colonnes nominatives. Une collection de données sans schéma



La structure de données de base de Spark



Une abstraction de haut pour la manipulation des données

14.Sparklyr est une interface R pour Spark qui donne accès : ☒



à SparkSQL via l’interface dplyr

Aux Feature Transformers et fonctions pour manipuler les DataFrames Spark Aucune de ces réponses

à la bibliothèque de machine learning distribuée de ☐ Spark 15.Lesquelles des propositions suivantes sont valables pour Structured Streaming ?



☒ ☒ ☐

Permet d'exprimer un traitement en streaming de la même manière qu'un traitement batch sur des données statiques. Spark se chargera d’exécuter le traitement en streaming de manière incrémentielle et de mettre à jour le résultat final au fur et à mesure de l'arrivée des données en continu. Aucune de ces réponses

Page 2 sur 4

Exercice II (8 points) Dans l’objectif de faire une analyse en temps réel des données relatives à une mesure nommée x, nous allons faire appel à Spark streaming depuis R. Spark va extraire les données contenues dans un dossier appelé source accessible directement depuis le path du notebook. Le dossier contient plusieurs fichiers de données sous format csv, sachant que de nouveaux fichiers sont créés pour contenir les données de streaming les plus récentes. Nous rappelons que dans Spark, un Stream processing peut-être créer en trois étapes : a. Définition d'une source de données de streaming (Input) b. Définition des transformations à appliquer aux data streams (Processing) c. Enregistrements des résultats de l’étape de processing (Output) 1. Commencer par charger les packages requis pour l’accomplissement du traitement demandé.

```{r setup} library(sparklyr) library(dplyr) ``` 2. Créer une connexion au cluster Spark local

```{r} sc % group_by(day, Hour , Minute ) %>% summarise( max_x = max(x, na.rm = TRUE), mean_x = round(mean(x, na.rm = TRUE),2), count = n() ) ``` Page 3 sur 4

ii.

Quelle est de la fonction stream_watermark() :

Cette fonction crée une nouvelle variable timestamp qui est ensuite exploitée dans la commande group_by(). 5. Compléter le chunk suivant afin d’écrire le résultat de l’aggregation en mémoire sous forme de dataframe Spark nommée stream.

```{r} write_output % arrange(desc(day) , desc(Hour), desc(Minute)) ```

Figure 1 Apercu des données dans la table Stream

7. A quel moment le Stream processing est-il déclenché ?

Stream processing est déclenché suite à d’écrire le résultat de l’agrégation en mémoire (write_output) et non pas au moment de l’initialisation ou la définition des traitements à effectuer sur le Stream. 8. Une fois déclenché comment va-t-il fonctionner ?

Il commence à surveiller le dossier d'entrée, puis il effectue les transformations et agrégations en temps réal avant d’écrire les différents résultats en mémoire au fur et à mesure que de nouveaux enregistrements arrivent.

Bon courage

Page 4 sur 4