QCM Inf 356 [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

Fiche de QCM cours INF 356 : Ing´ enierie des donn´ ees Dr TCHANTCHOU S. Yannick-Ulrich

1. Le Yotta est la plus grande mesure des donn´ees (a) Vrai (b) Faux 2. La plus grande mesure des donn´ees est : (a) Le Giga (b) Le Zetta (c) Le Tera (d) Le Kilo (e) Le Petra (f) Le Mega 3. Quels sont les V qui caract´erisent les Big Data ? (a) Volume (b) Vari´et´e (c) Vacuit´e (d) V´eracit´e (e) V´elocit´e (f) Variation 4. Facebook est la seule source de donn´ees qui permet de produire du Big data (a) Vrai (b) Faux 5. La finalit´e de l’utilisation du Big Data peut ˆetre (a) La gestion pr´edictive (b) Le stockage des donn´ees (c) D´etection de nouveaux motifs (d) La gestion r´eactive en temps-r´eel (e) La collecte des donn´ees 6. Qu’est ce que le terme ”Big data” signifie ? (a) Ensembles de donn´ees volumineux qui peuvent ˆetre g´er´es et manipuler avec des logiciels et techniques classiques. 1

(b) Ensemble des donn´ees ayant une grande taille. (c) Ensembles de donn´ees volumineux, complexes et en constante augmentation qui ne peuvent pas ˆetre g´er´es et manipuler avec des logiciels et techniques classiques. 7. En quoi le Big Data est-il utile ? (a) Il permet aux entreprises de comprendre le comportement de leurs clients et les aide `a tirer des conclusions `a partir de grands ensembles de donn´ees collect´ees. (b) Il permet de faire des pr´evisions. (c) Il permet de vivre en s´ecurit´e. (d) Il permet de se cacher. 8. Quelle est la diff´erence entre Vari´et´e et Volume ? (a) La vari´et´e signifie g´erer la complexit´e de plusieurs types de donn´ees et de sch´emas structur´es ou non structur´es tandis que le volume signifie g´erer de volumes de donn´ees croissants de tous types. (b) La vari´et´e signifie g´erer plusieurs types de donn´ees individuellement tandis que le volume signifie g´erer de volumes de donn´ees croissants de l’ordre du Giga ou du Tera. 9. Facebook s’attaque au Big Data avec.......bas´e sur Hadoop (a) Projet Prism (b) Prisme (c) Projet ”Donn´ees” (d) Projet ”Offre” 10. Sous quelle licence Hadoop est-il distribu´e ? (a) Licence Apache 2.0 (b) Mozilla (c) Shareware (d) Middleware 11. En quelle langage de programmation Hadoop est-il ´ecrit ? (a) C (b) C++ (c) Java (d) JSP 12. Au-dessus des syst`emes de fichiers se trouve le...... qui consiste en un Job Tracker, auquel les applications clientes soumettent des travaux MapReduce. (a) MapReduce (b) Google 2

(c) Programmation fonctionnelle (d) Facebook 13. ...... poss`ede le plus grand cluster Hadoop du monde. (a) Apple (b) Datamatics (c) Facebook (d) Aucune des r´eponses 14. Un ...... nœud agit en tant qu’esclave et est responsable de l’ex´ecution d’une tˆ ache qui lui est assign´ee par le JobTracker. (a) MapReduce (b) Mapper (c) TaskTracker (d) JobTracker 15. Indiquez l’affirmation correcte (a) La tˆ ache Map dans MapReduce est r´ealis´ee `a l’aide de la fonction Mapper(). (b) La tˆ ache de r´eduction dans MapReduce est effectu´ee `a l’aide de la fonction Map(). (c) Tous les ´el´ements mentionn´es sont correctes. ˜ (d) MapReduce essaie de placer les donn´ees et les calculs le plus prA¨s 16. ......,partie de MapReduce est charg´ee de traiter un ou plusieurs morceaux de donn´ees et de produire les r´esultats de sortie. (a) Maptask (b) Mapper (c) Ex´ecution des tˆ aches (d) Toutes les r´eponses 17. ........est charg´ee de consolider les r´esultats produits par chacune des fonctions/tˆ aches Map(). (a) Map (b) Reduce (c) Reducer (d) Reduced 18. Pointez la mauvaise d´eclaration (a) Une tˆ ache MapReduce divise g´en´eralement l’ensemble des donn´ees d’entr´ee en morceaux ind´ependants qui sont trait´es par les tˆaches Map de mani`ere totalement parall`ele. (b) Le cadre MapReduce fonctionne exclusivement sur des paires.

3

(c) Les applications impl´ementent g´en´eralement les interfaces Mapper et Reducer pour fournir les m´ethodes de map et de reduce. (d) Aucune des r´eponses n’est correcte. 19. ......met en correspondance les paires cl´e/valeur d’entr´ee avec un ensemble de paires cl´e/valeur interm´ediaires. (a) Mapper (b) R´educteur (c) Mapper et Reducer (d) Aucune des r´eponses mentionn´ees 20. Indiquez l’affirmation correcte (a) Les applications peuvent utiliser le rapporteur pour rendre compte de l’avancement des travaux. (b) Le cadre Hadoop MapReduce g´en`ere une tˆache map pour chaque InputSplit g´en´er´e par le InputFormat de la tˆache. (c) Les sorties interm´ediaires tri´ees sont toujours stock´ees dans un format simple (key-len, key, value-len, value). (d) Toutes les r´eponses mentionn´ees 21. Pointez du doigt la mauvaise d´eclaration (a) Le r´educer a 2 phases primaires. (b) L’augmentation du nombre de r´educes accroˆıt les frais g´en´eraux du cadre, mais am´eliore l’´equilibrage des charges et r´eduit le coˆ ut des d´efaillances. (c) Il est l´egal de fixer le nombre de tˆaches r´educe `a z´ero si aucune r´eduction n’est souhait´ee. (d) Le cadre regroupe les entr´ees du r´educers par cl´e (puisque diff´erents mappeurs peuvent avoir produit la mˆeme cl´e) dans une ´etape de tri. 22. Lesquelles des phases suivantes se produisent simultan´ement ? (a) R´eduire et Sort (b) Shuffle et Sort (c) Shuffle et Map (d) Toutes les r´eponses mentionn´ees 23. MapReduce a ´et´e con¸cu par (a) Apple (b) Google (c) Facebook (d) Samsung 24. Qu’est ce qu’une base de donn´ees ? (a) c’est un logiciel 4

(b) c’est une collection d’informations structur´ees (c) c’est un module a` valider 25. Quels sont les avantages li´es `a l’utilisation des syst`emes de gestion de bases de donn´ees (a) l’utilisation d’un langage de requˆete d´eclaratif (b) une plus grande ind´ependance par rapport au syst`eme d’exploitation (c) une description unique et globale des donn´ees manipul´ees 26. Qu’est ce que la s´ecurit´e offerte par un SGBD (a) l’identification des utilisateurs par un mot de passe et l’association de droits aux utilisateurs (b) des m´ecanismes de r´esistance aux pannes limitant l’impact de cellesci. (c) des m´ecanismes mat´eriels interdisant les pannes. 27. Qu’est ce qu’une contrainte d’int´egrit´e (a) c’est ce qui permet de sp´ecifier qu’un utilisateur est int´egre (b) c’est une propri´et´e qui doit ˆetre respect´ee par les donn´ees pour que la base de donn´ees soit coh´erente. 28. Qu’est ce qu’une transaction pour un SGBD ? (a) c’est ´echange entre une banque et un client (par exemple une transaction boursi`ere) (b) c’est l’unit´e d’ex´ecution d’un SGBD. (c) c’est un programme qui fait des lectures et/ou ´ecritures sur une base de donn´ees en respectant certaines propri´et´es 29. Que veut dire l’acronyme ACID associ´e aux transactions. (a) Actif, Combatif, Intr´epide, D´etermin´e (b) Atomicity, Consistency, Isolation, Durability (c) Anatole Conrad et Isidore Dubay, les inventeurs de la notion de transaction. 30. Qu’est-ce qu’un sch´ema relationnel ? (a) Un sch´ema qui repr´esente logiquement les tables d’une base de donn´ees. (b) Une repr´esentation d’un ensemble de relations ayant des liens entre elles. (c) Un sch´ema qui repr´esente le flux de donn´ees entre les acteurs. (d) Un sch´ema qui explique les interactions entres les utilisateurs. 31. MySQL est un syst`eme de gestion de base de donn´ees.......... ? (a) Orient´e objet (b) Hi´erarchique (c) Relationnel 5

(d) R´eseau ` 32. A quoi correspondent les donn´ees d’une base de donn´ees MySQL ? (a) Objets (b) Tables (c) R´eseaux (d) Syst`emes de fichiers 33. Le NoSQL c’est une base de donn´ees qui : (a) Permet la tol´erance aux pannes (b) Permet la gestion des transactions concurrentielles (c) Permet la distribution des donn´ees et des requˆetes (d) Permet de distribuer des calculs lourds 34. Lequel de ces couples est faux : (a) MongoDB − orient´e document (b) Neo4j − orient´e graphe (c) Redis − orient´e cl´e/valeur (d) Cassandra − orient´e colonnes 35. Laquelle de ces propri´et´es de type BASE n’est pas associ´ee aux bases NoSQL : (a) Eventually consistent (b) Soft-state (c) Scalability (d) Basically Available 36. Laquelle de ces propri´et´es ne fait pas partie du th´eor`eme de CAP : (a) Partition Tolerance (b) Consistency (c) Atomicity (d) Availability 37. Parmi les techniques suivantes, lesquelles sont utilis´ees pour faire du Sharding : (a) DHT (b) Clustered Index (c) Map/Reduce (d) HDFS 38. La propri´et´e Consistency signifie que : (a) Une donn´ee n’a qu’un seul ´etat visible quel que soit le nombre de r´eplicas

6

(b) Tous les nœuds du syst`eme voient exactement les mˆemes donn´ees au mˆeme moment. (c) aucune r´eponse n’est correcte. 39. La technique de sharding : (a) permet aux bases de donn´ees NoSQL d’am´eliorer un serveur en ajoutant sa capacit´e de stockage (b) permet aux bases de donn´ees NoSQL d’ajouter d’autre machine sans que l’utilisateur sache qu’on l’a fait. (c) est l’extensibilit´e horizontale 40. Les SGBD ”NoSQL” sont des syst`emes qui satisfont les propri´et´es : (a) Consistance et Disponibilit´e (b) Disponibilit´e et r´esistant au partitionnement (c) Coh´erence et r´eesistant au partitionnement (d) aucune de ces r´eponses 41. Les caract´eristiques d’une base NoSQL sont les suivantes : (a) Existance d’un sch´ema pour les donn´ees (b) Donn´ees de structures complexes (c) Difficult´e de r´eplication des donn´ees sur plusieurs nœuds. (d) Privil´egie la disponibilit´e `a la coh´erence (e) Transactions sˆ ur et coh´erent. 42. Le mod`ele relationnel a ´et´e cr´e´e par E.F. Codd. (a) Vrai (b) Faux 43. Les bases NoSQL ne peuvent pas assurer la coh´erence et la haute disponibilit´e ensemble (a) Vrai (b) Faux 44. Le th´eor`eme CAP est ´egalement appel´e th´eor`eme de Brewer stipule que : (a) nous ne pouvons obtenir que deux garanties sur trois au maximum pour une base de donn´ees : coh´erence, disponibilit´e et tol´erance de partition. (b) nous ne pouvons obtenir qu’une garantie sur trois pour une base de donn´ees : coh´erence, disponibilit´e et tol´erance de partition. (c) nous ne pouvons obtenir que deux garanties sur trois au minimum pour une base de donn´ees : coh´erence, disponibilit´e et tol´erance de partition. 45. Choisir la ou les mauvaise(s) r´eponses : La Coh´ erence signifie que : 7

(a) chaque client doit avoir une vue coh´erente ou identique des donn´ees (b) Les donn´ees doivent rester coh´erentes mˆeme apr`es l’ex´ecution d’une op´eration. (c) une fois les donn´ees ´ecrites, toute requˆete de lecture doit contenir ces donn´ees (d) aucune mauvaise r´eponse. 46. Choisir la ou les mauvaise(s) r´eponses : La Disponibilit´ e signifie que : (a) les donn´ees doivent ˆetre disponibles pour tous les clients pour les op´erations de lecture et d’´ecriture. (b) la base de donn´ees doit toujours ˆetre disponible et r´eactive. (c) Il peut y avoir un l´eger temps d’arrˆet. (d) aucune mauvaise r´eponse. 47. Choisir la ou les mauvaise(s) r´eponses : La Tol´ erance de partition signifie que : (a) le syst`eme doit bien fonctionner sur les r´eseaux distribu´es. (b) le syst`eme peut continuer son service lorsque certaines de ses grappes (clusters) deviennent indisponibles. (c) le syst`eme fonctionne bien mˆeme si les donn´ees ne sont pas partionn´ees. (d) aucune mauvaise r´eponse. 48. Choisir parmi les ´el´ements suivants celle ou ceux qui peuvent ˆetre consid´er´e(s) comme avantages de NoSQL : (a) Capable de g´erer un volume important de donn´ees structur´ees, semistructur´ees et non structur´ees. (b) Programmation orient´ee objet facile `a utiliser et flexible. (c) R´eplication difficile. (d) Il offre des performances rapides et une ´evolutivit´e horizontale. (e) Il peut servir de source de donn´ees principale pour les applications en ligne. (f) Excelle dans les op´erations de bases de donn´ees distribu´ees et multidata center. 49. Diff´erence cl´e entre SQL et NoSQL : (a) Les bases de donn´ees SQL sont ´evolutives horizontalement, tandis que les bases de donn´ees NoSQL sont ´evolutives verticalement. (b) Les bases de donn´ees SQL ont un sch´ema pr´ed´efini alors que les bases de donn´ees NoSQL ont un sch´ema dynamique pour les donn´ees non structur´ees.

8

(c) Les bases de donn´ees NoSQL conviennent parfaitement `a l’environnement exigeant de nombreuses requˆetes, tandis que les bases SQL ne conviennent pas aux requˆetes complexes. (d) Les bases de donn´ees SQL ne conviennent pas au stockage de donn´ees hi´erarchique. Cependant, la base de donn´ees NoSQL convient mieux au stockage de donn´ees hi´erarchique. 50. SQL prot`ege activement l’int´egrit´e de votre base de donn´ees en fournissant la conformit´e ACID tant dis que NoSQL gagne en popularit´e en vous permettant de stocker diff´erents types de donn´ees ensemble et vous pouvez facilement ´evoluer en r´epartissant plusieurs serveurs. (a) Vrai (b) Faux 51. Quels sont les principaux composants du Big Data ? (a) HDFS (b) MapReduce (c) YARN (d) Tout ce qui pr´ec`ede 52. Sur laquelle des plates-formes suivantes Hadoop s’ex´ecute-t-il ? (a) Debian (b) De type Unix (c) Multiplateforme 53. Les donn´ees d’une taille de .....octets sont appel´ees donn´ees volumineuses (a) M´ega (b) Giga (c) T´era (d) Peta 54. Une Transaction de donn´ees de la banque est un type de. (a) Donn´ees structur´ees (b) Donn´ees non structur´ees (c) Les deux (d) aucune de ces r´eponses 55. Les donn´ees volumineux sont de plusieurs formes (a) Non structur´ees, structur´ees et semi-structur´ees (b) Non structur´ees, structur´ees (c) Structur´ees, semi-structur´ees (d) Non structur´ees, semi-structur´ees. 56. Identifiez les technologies Big Data incorrectes. (a) Apache kafka 9

(b) Apache Hadoop (c) Apache Pytorch (d) Apache Spark 57. Dans quelle langue Hadoop est-il ´ecrit ? (a) C++ (b) Java (c) Python (d) Rust 58. ........ est une collection de donn´ees qui est utilis´ee en volume, mais qui croˆıt de fa¸con exponentielle avec le temps. (a) Grande base de donn´ees (b) Grand SGBD (c) Grand ensemble de donn´ees (d) Big data 59. Identifier les diff´erentes fonctionnalit´es de Big Data Analytics. (a) Open source (b) R´ecup´eration des donn´ees ´ (c) Evolutivit´ e (d) Tout les r´eponses sont justes. 60. Parmi les options suivantes, choisissez celle qui d´ecrit la raison exacte pour laquelle l’analyse de donn´ees volumineuses est difficile `a optimiser. (a) La technologie pour extraire les donn´ees (b) Le Big data n’est pas difficile `a optimiser ` la fois les donn´ees et les moyens rentables d’extraire des donn´ees (c) A pour en tirer un sens commercial. (d) Aucunes de ces r´eponses 61. Tous les ´el´ements suivants d´ecrivent avec pr´ecision Hadoop, sauf : (a) Open source (b) Bas´e sur Java (c) Temps r´eel (d) Approche informatique distribu´ee 62. Lesquels des ´el´ements suivants sont les avantages du traitement du Big Data ? (a) Am´eliorer le service client (b) Meilleure efficacit´e op´erationnelle (c) Les entreprises peuvent utiliser des renseignements ext´erieurs lors de la prise de d´ecision. 10

(d) Tout ce qui pr´ec`ede. 63. L’analyse de donn´ees volumineuses fait ce qui suit, sauf ? (a) Diffuse les donn´ees (b) Analyse des donn´ees (c) Organise les donn´ees (d) Collecter les donn´ees 64. Laquelle des affirmations suivantes est vraie concernant le Big Data ? (a) Les m´egadonn´ees peuvent ˆetre trait´ees `a l’aide de techniques traditionnelles. (b) Les m´egadonn´ees font r´ef´erence `a des ensembles de donn´ees dont la taille est d’au moins un p´edaoctet. (c) L’analyse de donn´ees volumineuses n’implique pas de techniques de reporting et d’exploration des donn´ees. (d) Les m´egadonn´ees ont une faible vitesse, ce qui signifie qu’elles sont g´en´er´ees lentement. 65. Lequel des ´el´ements suivants peut g´en´eralement ˆetre utilis´e pour nettoyer et pr´eparer le Big Data. (a) Pandas (b) U-SQL (c) Data warehouse (d) Data lake 66. La classe Mapper est : (a) Type statique (b) Genre g´en´erique (c) Type abstrait (d) Final 67. Parmi les ´el´ements suivants, lequel contrˆole le Job dans Hadoop ? (a) Task class (b) Mapper class (c) Job class (d) Reducer class 68. Les morceaux de taille fixe du travail MapReduce sont connus sous le nom de........... (a) Splits (b) Tasks (c) Map (d) Records 69. Identifiez le nœud esclave parmi les suivants. 11

(a) Job node (b) Data node (c) Task node (d) Name node 70. ....... sont des donn´ees sur les donn´ees. (a) HDFS (b) MapReduce (c) YARN (d) tous les r´eponses pr´ec´edentes sont correctes. 71. A quoi sert le nettoyage des donn´ees ? (a) Pour supprimer les donn´ees bruyantes (b) Transformations pour corriger les mauvaises donn´ees (c) Corriger les incoh´erences dans les donn´ees (d) Tout ce qui pr´ec`ede. 72. Quelle est la quantit´e minimale de donn´ees qu’un disque peut lire ou ´ecrire dans HDFS ? (a) Taille en octets (b) Taille de bloc (c) Heap (d) Aucune de ces r´eponses n’est correcte. 73. De grandes...... de donn´ees sont consid´er´ees comme des m´egadonn´ees. (a) volume (b) V´eracit´e (c) Vari´et´e (d) Aucun des ´el´ements mentionn´es ci-dessus 74. La v´eracit´e garantit que les donn´ees sont........ (a) Pr´ecis (b) Incoh´erence (c) Une variante (d) Aucun des ´el´ements mentionn´es ci-dessus 75. La validit´e fait r´ef´erence `a la pr´ecision et `a l’exactitude des donn´ees pour l’utilisation pr´evue. (a) Vrai (b) Faux 76. Chaque jour, le monde produit des quintillions d’octets de donn´ees. (a) Vrai (b) Faux 12

77. Le volume, la v´elocit´e et la vari´et´e sont........ pour le Big Data, (a) Intrins`eque (b) Extrins`eque (c) Les deux r´eponses pr´ec´edentes sont justes, (d) Aucun des ´el´ements mentionn´es ci-dessus. 78. Le pourcentage global des donn´ees totales du monde a ´et´e cr´e´e juste au cours des deux derni`eres ann´ees est ? (a) 80% (b) 85% (c) 90% (d) 95% 79. Comment Hadoop a-t-il ´et´e nomm´e ? (a) Le num´ero de cirque pr´ef´er´e du cr´eateur Doug Cutting (b) Le groupe de rock du lyc´ee Cuttings (c) L’´el´ephant en peluche du fils de Cutting (d) Un son de l’ordinateur portable de Cutting r´ealis´e pendant le d´eveloppement de Hadoop. 80. ........poss`ede le plus grand cluster Hadoop au monde. (a) Google (b) Linkedin (c) Facebook (d) IBM 81. Facebook s’attaque au Big Data avec....... bas´e sur Hadoop. (a) le ”Prism project” (b) ”Prism” (c) le ”project Big” (d) le ”Project data”

13