47 2 146KB
Big Data & Data Analysis Mme. HDIOUD Ferdaous
A.U. 2022 -
Contrô le Continu N°1 : I.
Duré e : 2h00
QCM (5pts):
Choisir la bonne réponse (Bonne réponse : 1 pt ; Fausse réponse : -0,5 pt ; Aucune réponse : 0 pt) 1-
Comment fonctionne la distribution de fichiers sur HDFS ? Répartition en fonction de la taille des fichiers sur chaque nœud du cluster. Répartition en blocs répliqués sur les nœuds du cluster. Répartition en nœuds répliqués sur les blocs du cluster. Répartition en fonction des choix de l'utilisateur au moment de l'upload.
2-
Quel est le rôle du NameNode ? Écrire ou lire les données sur les DataNodes. Vérifier la disponibilité des données sur les DataNodes. Remplacer un DataNode si un d'entre eux devient indisponible. Administrer les transactions en autorisant ou non la lecture / écriture des fichiers.
3-
La partie ______ de MapReduce est responsable du traitement d’un ou plusieurs morceaux de données et de la production des résultats de sortie. Mapper Map Reduce Aucune de ces réponses
4-
Le nombre de maps est généralement déterminé par la taille totale des ________ Entrées Sorties Tâches Aucune de ces réponses
5-
Quels sont les composants les plus critiques du Big Data ? MapReduce YARN HDFS Toutes les composantes ci-dessus
1
Big Data & Data Analysis Mme. HDIOUD Ferdaous
II.
Questions de Cours (8pts): 1. 2. 3. 4. 5. 6. 7. 8. 9.
III. 1pt
A.U. 2022 -
Dans quel contexte MapReduce est utilisé ? Quels sont les leaders qui utilisent les solutions Big Data ? (1pt) Pourquoi on utilise les conteneurs dans YARN ? (0,5pt) Est-ce que le nombre de nœuds qui exécutent une Application sur YARN est défini au niveau du Ressource Manager ? Justifier (1pt) Est-ce qu’on peut exécuter trois applications dans un Cluster YARN ? Justifier (0,75pt) Comment l’écosystème Hadoop permet de garantir l’évolutivité et la tolérance aux pannes ? (0,75pt) Quelle est la différence entre Scale-in and Scale-out ? (0,5pt) Quelle est la différence entre Batch processing and Stream processing? Quelles caractéristiques cible chacun des deux ? (1pt) Décrire les composantes de Hadoop ? Quelle est la différence entre les versions 1.0 et 2.0 ? (1pt) Quelle la meilleur distribution des trois suivantes: Cloudera, Horthenworks, MapR ? justifier votre réponse selon les différents critères. (1,5pt)
HDFS : (3 points) 1.
Citer par un schéma les étapes d’écriture d’un fichier de données de taille 986 Mo sur un cluster HADOOP de 6 nœuds avec une taille égale au Block Size par défaut et un facteur de réplication égal au replication factor par défaut où le NameNode principal est en panne.
2.
Donner la commande HDFS pour : 1. Créer un répertoire (MonDossier) dans la racine HDFS. 2. Copier un fichier (File.txt) du bureau local (utilisateur Cloudera) vers MonDossier de HDFS. 3. Renommer File.txt en Fichier1.txt dans HDFS. 4. Créer un nouveau fichier Fichier2.txt dans MonDossier de HDFS.
0.5pt 0.5pt 0.5pt
IV.
Configuration Hadoop : (4 points) 12-
Nous voulons installer hadoop sur pour des raisons de test sur la machine locale quel mode d’installation sera utilisé ? rappeler les autres modes ? Durant la phase de configuration, nous optons pour la configuration de l’un des fichiers concernés comme suit :
Bloc 1 dfs.replication 1
dfs.namenode.name.dir Bloc 2 file:/usr/local/hadoop/hadoopdata/hdfs/namenode
Bloc 3 dfs.datanode.data.dir file:/usr/local/hadoop/hadoopdata/hdfs/datanode
abc-
Cette configuration correspond à quel fichier ? Expliquer le rôle des blocs 1, 2, 3 ? Expliquer la raison pour laquelle la valeur du facteur de réplication est à 1 ?
2
Big Data & Data Analysis Mme. HDIOUD Ferdaous
A.U. 2022 -
https://waytolearnx.com/2022/06/qcm-sur-big-data-corrige-principes-de-base-partie-1.html https://stph.scenari-community.org/contribs/nos/Hadoop2/co/ Configuration_et_utilisation_d_un_cluster_1.html
3