Fiche de TD INF 356 [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

Fiche de TD corrigé d’ingénierie de donnée

I.

BASE DE DONNEE NoSQL

1- Le NoSQL c'est une base de données qui : Attention, plusieurs réponses sont possibles. a) Permet la tolérance aux pannes b) la gestion des transactions concurrentielles c) Permet la distribution des données et des requêtes d) Permet de distribuer des calculs lourds

2- Lequel de ces couples est faux : a) MongoDB - orienté document b) Neo4j - orienté graphe c) Redis - orienté clé/valeur d) Cassandra - orienté graphe

3- Laquelle de ces propriétés ne fait pas partie du théorème de CAP : a) Partition Tolerance b) Consistency c) Atomicity d) Availability

4- MongoDB est un SGBDNR orienté : a) Graphe b) Document c) Clé valeur d) Colonne

5- Lequel des éléments suivants est un type de base de données nosql? a) SQL

b) JSON c) Bases de données de documents d) Aucune de ces réponses 6- Lesquelles des bases de données NoSQL suivantes sont les plus simples? a) Clé-Valeur b) Document c) Colonne large d) Tout ce qui précède 7- MongoDB est système de gestion de bases de données a - SQL b - Les deux réponses sont correctes c - NoSQL d- Les deux réponses sont incorrectes EXERCICES RESOLUS SUR DES QCM SUR MAPREDUCE GROUPE 2:

1) Choisissez la bonne réponse: a) MapReduce essaie de placer les données et le calcul le plus proche dans le temps b) La tâche Map du MapReduce est exécutée à l'aide de la fonction Mapper () c) Réduire la tâche dans MapReduce est effectuée en utilisant la fonction Map() d) Toutes les réponses précédentes

2) _________est responsable de la consolidation des résultats produits par chacune des fonctions / tâches Map (). a) Reduce b)

Map

c)

Reducer

d)

Toutes les réponses précédentes

3) Le nombre de Maps est généralement déterminé par la taille totale des: a)

Entrées

b)

Sorties

c)

Tâches

d)

Aucune

des

réponses

précédentes

4) L’entrée du _______ est la sortie triée des Mappers. a)

Reducer

b)

Mapper

c)

Shuffle

d)

Toutes les réponses précédentes

5) Lesquelles des phases suivantes se produisent simultanément ? a)

Shuffle

& Sort

b)

Reduce & Sort

c)

Shuffle & Map

d)

Toutes les réponses précédentes

6) L'interface _________ réduit un ensemble de valeurs intermédiaires qui partagent une clé avec un ensemble plus petit de valeurs. a) Mapper b) Reducer c) Writable d) Readable

7) YARN signifie : a) Yahoo’s another resource name b) Yet another resource negotiator c) Yahoo’s archived Resource names d) Yet another resource need.

8) Elasticsearch est … a) un serveur

de bases de données

b) un outil de traitement de données c) un outil de visualisation de données d) un serveur de pages Web

9) __________ peut-être décrit comme un modèle de programmation utilisé pour développer des applications basées sur Hadoop qui peuvent traiter des quantités massives de données. a) MapReduce b) Mahout c) Oozie d) Toutes les réponses précédentes 10) Un nœud ________ sert d'esclave et est responsable de l'exécution d'une tâche qui lui est assignée par le JobTracker. a)

MapReduce

b)

Mapper

c)

TaskTracker

d)

JobTracker

II.

HADOOP

1- Apache Hadoop atteint la fiabilité en répliquant les données sur plusieurs hôtes et ne nécessite donc pas de stockage sur les hôtes. Système de fichiers b. RAID (Redundant Arry of Independent Disks) en français regroupement redondant des disques indépendants c. FS local d. Système opérateur a.

2- Devrions-nous utiliser RAID avec le cluster Hadoop en production? a. b. c. d.

Oui Non Oui sur NameNode, Non sur DataNode Oui sur DataNode, Non sur NameNode

3- Laquelle des commandes suivantes sont utilisée pour entrer en mode de sécurité? a. b. c. d.

hadoop dfsadmin –safemode get bin dfsadmin –safemode get hadoop dfsadmin –safemode enter Aucune de ces réponses

4- HDFS permet à un client de lire un fichier qui est déjà ouvert pour l'écriture?

a. b.

Faux Vrai

5- Laquelle des affirmations suivantes est vraie à propos de Hadoop? a. b. c. d.

Un petit fichier occupe un bloc complet (128 Mo) en HDFS Master divise le fichier en petits morceaux, c'est-à-dire des blocs HDFS Master (NameNode) est le point de défaillance unique Nous ne pouvons pas éditer un fichier une fois écrit en HDFS

6- Laquelle des affirmations suivantes est vraie à propos de Hadoop? a. b. c. d.

Un petit fichier occupe un bloc complet (128 Mo) en HDFS Master divise le fichier en petits morceaux, c'est-à-dire des blocs HDFS Master (NameNode) est le point de défaillance unique Nous ne pouvons pas éditer un fichier une fois écrit en HDFS

7- Lequel des énoncés ci-dessous est vrai à propos du DataNode? a. b. c. d.

DataNode stocke les données réelles DataNode peut être déployé sur du matériel de base en production DataNode répond aux demandes de lecture et d'écriture Tout ce qui précède

8- Pendant Safemode, le cluster Hadoop est dans: a. b. c. d.

Lecture seulement Écriture seule Lire écrire Aucune de ces réponses

9- Pendant Safemode, le cluster Hadoop est dans: a. b. c. d.

Lecture seulement Écriture seule Lire écrire Aucune de ces réponses

10- fichiers HDFS dans Hadoop fait laquelle des actions suivantes? a. b. c. d.

Obtient uniquement les emplacements de bloc du NameNode Obtient les données du NameNode Obtient à la fois les données et l'emplacement du bloc à partir du NameNode Obtient l'emplacement du bloc à partir du DataNode

11- Laquelle des propositions suivantes convertissent les requêtes SQL en tâches MapReduce? a. b. c. d.

Ruche Percer Oozie Buse

12- Hadoop peut être déployé sur des serveurs de base, ce qui permet un traitement à faible coût ainsi que le stockage d'énormes volumes de données non structurés. a. b.

Vrai Faux

13- Lequel des éléments suivant sont utilisé pour ingérer des données en streaming dans des clusters Hadoop? a. b. c. d.

Buse Sqoop Les deux ci-dessus Aucune de ces réponses

14- Zookeeper est a. b. c. d.

Moteur de synchronisation et de coordination Base de données No SQL Système de collecte et d'agrégation de données Moteur de traitement des données

15- Dans quelles langues pouvez-vous coder dans Hadoop? a. b. c. d.

Java Python C ++ Tout ce qui précède

16- Commande Hadoop pour lister tous les blocs correspondant à chaque fichier dans le hdfs? hadoop fsck / -files -blocks b. hadoop fsck / -blocks -fichiers c. hadoop ls / -blocks -fichiers d. hadoop fchk / -files –blocks 17- Par rapport au SGBDR, Apache Hadoop a.

a. b.

A une meilleure intégrité des données Est-ce que les transactions ACID

c. d.

Convient à la lecture et à l'écriture plusieurs fois Fonctionne mieux sur les données non structurées et semi-structurées

18- Tous les fichiers d'un répertoire dans HDFS peuvent être fusionnés en utilisant lequel des éléments suivants? a. b. c. d.

mettre fusionner obtenir la fusion remerge fusionner tout

19- HDFS permet à un client de lire un fichier qui est déjà ouvert pour l'écriture? a. b.

Faux Vrai

20- Les fichiers HDFS dans Hadoop fait laquelle des actions suivantes? a. b. c. d.

III.

Obtient uniquement les emplacements de bloc du NameNode Obtient les données du NameNode Obtient à la fois les données et l'emplacement du bloc à partir du NameNode Obtient l'emplacement du bloc à partir du DataNode CASSANDRA

1. Cassandra est un projet lancé par quelle entreprise ? a. Google b. Yahoo c. Apache d. Facebook 2. Relevez la fausse assertion a. Cassandra est une base de données SQL b. Cassandra est présentement un projet open source c. Cassandra est une base de données distribuées. d. Cassandra est utilisée par Twitter 3. Lequel des éléments suivants est la commande pour exécuter les requêtes dans CQLSH. a. Execute() b. Run() c. Execute query()

d. Run query() 4. Quelle base de donnes convient le mieux pour gérer les données en petits volumes a. Base de données relationnelle b. Base de données NoSQL c. Les deux, a et b d. Aucun d’eux 5. Lequel des éléments suivants ne fait pas partie de l’architecture Cassandra a. Colonne b. Journal c. MemTable d. Filtre Bloom 6. Quel est le principal prérequis pour l’installation de Cassandra dans un environnement Windows ? a. CQLSH b. Mémoire c. Java d. Windows script host 7. Lequel des éléments suivants n’est pas une propriété de Cassandra ? a. Operations ACID b. Déploiements décentralisés c. Transactions simples d. Prend en charge tous les types de données 8. La distribution des données dans les nœuds des clusters est effectuée suivant un protocole appelé______ ? a. Quick spread b. Gossip c. Map Reduce d. Hach 9. Identifiez la séquence d’écriture des données dans le système Cassandra a. Mem-table, Sstable, Commitlog b. Commitlog, Sstable, Mem-table c. Sstable, Mem-table, Commitlog, d. Commitlog, Mem-able, Sstable 10. Que signifie l’acronyme Sstable ?

a. Sorted String Table b. Structured String Table c. Structured Sampled data d. Sample Structured Table 11. Laquelle de ces structures de données réside en mémoire ? a. Sstable b. Commitlog c. Mem-table d. Aucune bonne réponse 12. Lesquelles de ces structures de données résident sur le disque ? i. Commitlog ii. Sstable iii. Commit log a. i et ii b. i et iii c. ii et iii d. i, ii et iii 13. Que signifie l’acronyme CQL ? a. Composite Querying Language b. Cassandra Query Language c. Cassandra Querying Language d. Composite Query Language 14. Pour quelle raison facebook n’utilise pas cassandra ? a. Manque de personnel b. Difficulté de gérer les données c. Pour des raisons humaines d. Aucune bonne réponse 15. Lequel des énoncés suivant est faux en rapport avec Cassandra ? a. Cqlsh permet d’effectuer des requêtes sur un système Cassandra b. La valeur d’une colonne est obligatoire c. Le fonctionnement de Cassandra n’assure pas la consistance des données. d. L’architecture des machines est décentralisée. 16. Cassandra est une base de données appartenant à la famille des bases de données____________ a. Orientées Lignes b. Orientées Tables

c. Orientées colonnes d. Orientées cellule 17. Cassandra ne n’assure pas laquelle de ces propriétés ? a. Cohérence des données b. Disponibilité des données c. Résistance aux partitions d. Aucune bonne réponse 18. Quel attribut d’une colonne permet de déterminer la mise à jour la plus récente d’une donnée ? a. Timelaps b. Timestamp c. Timeset d. Aucune bonne réponse 19. Dans Cassandra, une colonne a une valeur appelée______ a. Comparator b. Validator c. Content d. Aucune bonne réponse 20. Avant de pouvoir utiliser le cqlsh dans un environnement Windows, il est obligatoire d’installer a. Java b. Command prompt c. Net Framework 4.5 d. Python

IV.

HBASE

Q.1 Les colonnes dans HBase sont organisées pour

• • • •

Groupe de colonnes Familles de colonnes Liste des colonnes Base de colonne

Q.2 HBase Admin et ____________ sont les deux classes importantes de ce package qui fournissent des fonctionnalités DDL.

• • • •

HTableDescriptor

• • • •

BigTop

• • • •

hbase-cluster.distributed-all

HDescripteur HTable

HTabDescriptor Q.3 Apache HBase est une base de données non relationnelle calquée sur le _________ de Google Grande table Scanner

FondationDB Q.4 La propriété qui permet un mode entièrement distribué pour HBase est hbase-cluster.distributed-enable hbase-cluster.fully-distribué

hbase-cluster.distributedy Q.5 Dans HBase, un tableau peut être Laissé directement

• Abandonné après la désactivation • Uniquement désactivé, pas abandonné • Seulement compressé, pas abandonné Q.6 Chaque version de données dans une cellule ajoute des informations de version via un

• • • •

VersionNon

• • • •

HBase

Valeur clé CléNon

VersionValue Q.7 Lequel parmi les suivants s'exécute sur HDFS et fournit des fonctionnalités similaires à BigTable (Google) à Hadoop. Ruche Cochon

HCatalog Q.8 Tous les travaux MapReduce lisant à partir d'une table HBase acceptent leur paire [K1, V1] sous la forme

• rowid: valeur de la cellule • rowkey: résultat de l'analyse

• famille de colonnes: valeur de cellule • attribut de colonne: résultat de l'analyse Q.9 Lors de l'écriture dans HBase à l'aide des tâches Mapreduce, chacune réduit les

• • • •

Une région

• • • •

Observateur

• • • •

Orienté vers la ligne

• • • •

Schéma rigide

• • • •

DFile

• • • •

Incrementcolumnvalue ()

Deux régions Toutes les régions pertinentes

Aucune région Q.10 Un coprocesseur est exécuté lorsqu'un événement se produit. Ce type de coprocesseur est connu sous le nom de Auditeur Maître

Gestionnaire d'événements Q.12 HBase est ________, définit uniquement les familles de colonnes. Sans schéma Schéma fixe

Aucune de ces réponses Q.13 Hbase est quel type de base de données? Schéma-flexi Sans schéma

Pas une base de données Q.14 Un enregistrement supprimé dans HBase n'est pas immédiatement supprimé de Hbase. Au lieu de cela, il est écrit dans un autre fichier et marqué comme Supprimer. Un tel fichier est connu sous le nom de Tombfile Pierre tombale

Earmark Q.15 La commande qui vous permet de modifier une valeur entière stockée dans la cellule HBase sans la lire au préalable est Incrémentaire () Incrmentcellval () Incrementnext ()

V.

MONGODB

Chacune des questions suivantes n’a une et une seule bonne réponse. 1-MongoDB est système de gestion de bases de données a - SQL c - Les deux réponses sont correctes b - NoSQL d- Les deux réponses sont incorrectes 2- MongoDB est système de gestion de bases de données a - Orienté clé/valeur c - Orienté document b - Orienté colonne d - Toutes les réponses sont justes 3- MongoDB représente les documents sous format a - JSON c - JSON et BSON b - BSON d - JBSON 4- Concernant JSON et BSON a - JSON est la représentation binaire de BSON b - BSON est la représentation binaire de JSON c - BSON est la représentation hexadécimale de JSON d - toutes les réponses sont incorrectes 5- MongoDB est développé en a - 2007 par 10gen qui souhaitait mettre sur pied une plateforme de cloud computing b - 2007 par google à cause de Google AppEngine c - 2007 par Facebook à cause de la montée en puissance des données à stocker d - par oracle 6- ObjectID est a - l'identifiant unique d’un document généré par l’utilisateur b - l'identifiant universel d’un document généré par le serveur mongoDB c - l'identifiant universel d’une collection généré par le serveur mongoDB d - l'identifiant unique d’un document généré par le serveur mongoDB 7- Sur MongoDB, un sous document a - admet forcément un ObjectID b - peut admettre un ObjectID c - l’ObjectID du sous document est l’ObjectID du document qui le contient d - n’admet pas un ObjectID 8- Mongodb est écrit en C++ et comporte un certain nombre d'outils en standard qui sont : a - Le serveur et Le shell javascript (le client) seulement ;

b - Les pilotes pour les langages hôtes c - Le serveur, Le shell javascript (le client) et Les pilotes pour les langages hôtes d - Toutes les réponses sont justes 9- les outlis en ligne de commande de mongoDB sont a - mongostart, mongoexport, mongoimport, Mongosniff et Mongostat b - mongorestore, mongodump, mongoexport et mongostart c - mongorestore, mongodump, mongoexport, mongoimport, Mongosniff, Mongostat et mongostart d – mongorestore, mongodump, mongoexport, mongoimport, Mongosn et Mongostat 11- la commande qui permet d’afficher la base de données courante est a - dbs c - bd b - db d – use 12- la commande show dbs permet de : a - d’afficher les bases de données et leurs collections b - d’afficher les bases de données uniquement c - d'afficher les bases de données et leurs documents d - aucune réponse n’est juste 13- La commande use mi permet : a - de changer la base de données courante b -d’utiliser la base de donnée mi comme base de données courante uniquement c - d’utiliser la base de donnée mi comme base de donnée courante et le crée s’il n’existe pas d – de créer une base de données mi uniquement 14- Quelle commande utilise t’on pour installer Mongodb sur Linux : a – sudo apt-get install mongodb -o b - sudo apt-get install mongodb -y c - sudo apt-get install -y mongodb-org d - sudo apt-get install -y mongodb 15- Quelle commande est utilisée pour lancer mongodb sur Linux a - mongo b - mongodb c – mongodb start d - mongo begen

16- Quelle commande est utilisée pour lister tous les documents d’une collection etudiant a - db.etudiant.findOne() b - db.etudiant.find () c - db.etudiant.findAll () d - db.etudiant.find (‘All’) 17- Quelle commande est utilisé pour lister supprimer tous les étudiants de nom ‘toto’ a - db.etudiant.remove(toto) b - db.etudiant.remove (nom=’’toto’’) c - db.etudiant.remove ({ nom : ‘’ toto ‘’}) d - db.etudiant.delete ({nom=’’toto’’}) 19- Quand nous utilisons mongodb, les documents sont stockés dans des a – Tables c – Bases de données b – Objets d – Collections 20- Quand nous utilisons mongodb, les Collections sont stockées dans des a – Tables c - Bases de données b – Objets d - Collections VI.

NEOJ4

Q. Qu'est-ce que Neo4J? Il s'agit d'une base de données graphique open source utilisée pour connecter des données riches pour se connecter à l'aide de systèmes alimentés par des graphiques afin de fournir une connectivité précise des données disponibles. NOSQL est utilisé pour connecter les données, avec l'implémentation Java et scala. Q. Où utilisons-nous Neo4J? Tout en travaillant avec d'énormes bases de données distribuées. Q. Quelle est l'IP que nous utilisons pour accéder à l'environnement Neo4J? http://127.0.0.1:7474/ Q. Mentionnez quelques fonctionnalités importantes de Neo4J. Voici quelques fonctionnalités importantes: -

Représentation des données à l'aide d'un modèle graphique

par les API REST ou Java. Que stocke un nœud de graphe Neo4J? Paires de valeurs-clés Q. Quel est le langage de requête utilisé par Neo4J? Cypher Query Language - CQL est utilisé pour exécuter des requêtes pour Neo4J. Q. Quel type de langage est CQL. Il existe deux types de langages de requête: procédural et déclaratif. CQL est un langage déclaratif. Q. Comment interrogez-vous la langue dans Neo4J. CQL est le langage utilisé dans Neo4J et s'inspire de SQL pour expliquer les graphiques à comprendre facilement. Des commandes comme sélectionner, insérer, mettre à jour ou supprimer aident à mentionner les graphiques. Nous exécutons des commandes dans un environnement d'invite «$». Q. Expliquez la structure du langage de requête Neo4J avec un exemple. La correspondance des modèles est facile lorsque vous travaillez avec des nœuds à l'aide de Neo4J. Exemple: pour obtenir un casting d'acteurs commençant par S MATCH (acteur: Person) - [: ACTED_IN] -> (film: Movie) O movie movie.title COMMENCE PAR "S" RETOURner le titre de movie.title AS, collecter (acteur.nom) AS cast ORDRE PAR titre ASC LIMIT 10; Q. Mentionnez quelques autres bases de données graphiques célèbres disponibles? Les autres bases de données graphiques disponibles sur le marché sont: Q. Énumérez certaines des commandes Neo4J que vous utilisez. Il existe de nombreuses commandes dans Neo4J, dont voici quelques commandes de base: -

CRÉER -

- Pour lire ou récupérer tous - Combinaison de CREATE et MATCH. SET - Pour ajouter ou mettre à jour des propriétés à des nœuds / relations nouveaux ou existants. CREATE UNIQUE - Pour mentionner des contraintes uniques afin d'éviter les valeurs redondantes.

Q. À quoi sert la commande REMOVE? Pour supprimer les étiquettes et les propriétés des nœuds, nous utilisons REMOVE. Q. Quelle est la différence entre les commandes REMOVE et DELETE ?

La principale différence est que REMOVE concerne les étiquettes et les propriétés des nœuds, tandis que DELETE consiste à supprimer les nœuds et les relations. Q. Qu'est-ce que le cache d'objets dans Neo4J? Afin d'améliorer les performances des traversées de graphe, le cache d'objets est utilisé pour mettre en cache les nœuds et leurs propriétés. Q. Quels sont les types de cache d'objets dans Neo4J? Il existe deux types de cache d'objets qui peuvent également être appelés cache de haut niveau: -

Cache de référence Cache haute performance (HPC)

Q. Commande pour mettre à jour les propriétés ou ajouter de nouvelles propriétés aux relations existantes? SET est la commande utilisée pour mettre à jour ou ajouter des propriétés aux relations existantes. Pour filtrer ou limiter le nombre de lignes renvoyées par une requête, nous utilisons la clause Neo4j CQL LIMIT. Q. Quelle est la syntaxe de l'opérateur IN? Syntaxe de l'opérateur IN: IN [] Q. CREATE UNIQUE est utilisé pour? CREATE UNIQUE utilisé pour fixer les structures de graphe. Q. Quel est le plus rapide pour gérer les graphiques, MYSQL ou Neo4j? Pour gérer les graphiques, Neo4j est le plus rapide par rapport à MYSQL. Q. Quelle architecture permet un serveur distant? Architecture REST, qui permet à neo4j pour les serveurs distants

LE LANGAGE CYPHER

L'objectif de cet exercice est de vous permettre de manipuler le langage Cypher. 1. Créer un nœud : vous Tout d'abord, nous allons créer un nœud grâce à la clause CREATE : CREATE (vous:Personne { nom:"Vous" }) RETURN vous

2. Ajoutons d’autres attributs a nôtres nœud. Nous pouvons ajouter d'autres attributs à notre nœud comme ceci: CREATE (vous:Personne { nom:"Benoit", twitter:'logisima', …? }) 3. Ajoutons une relation de type AIME avec votre nœud créer plus haut. MATCH (vous:Personne { nom:"Vous"}) CREATE (vous)-[aime:AIME]->(neo:Database:NoSql:Graph {nom:"Neo4j" }) RETURN vous,aime,neo 4. Récupérons un nœud avec le label Personne et ayant benoit comme valeur pour la propriété nom. (vous:Personne { nom: "benoit" }) permet de 5. Créer vos amis À présent, nous allons ajouter vos amis dans le graphe : MATCH (vous:Personne { nom:"Vous" }) FOREACH (nom in ["Thibaut","Anne","Fabien","Charlotte","Elise"] | CREATE (vous)-[:AMI]->(:Personne { nom: nom }) Foreach permet d'exécuter une opération pour chaque élément de la liste. 6. Retrouver vos amis MATCH (vous { nom:"Vous" })-[:ami]->(vosAmis) RETURN vous, vosAmis 7. Créer les amis de vos amis avec leurs compétences a) De Thibaut : MATCH

(neo:Database { nom:"Neo4j" }),

(thibaut:Personne { nom:"Thibaut" }) CREATE (thibaut)-[:AMI]->(:Personne:Expert { nom:"Linda" })-[:COMPETENCE]->(neo) b) Puis d'Anne : MATCH (neo:Database { nom:"Neo4j" }) MATCH (anne:Person { nom:"Johan" }) CREATE (anne)-[:AMI]->(:Personne:Expert { nom:"Maxime"})-[:COMPETENCE]->(neo)

VII.

MACHINE LEARNING

111.1 Alice veut écrire un programme qui utilise la fréquence des mots « science », « public », « accès », « université », « gouvernement », « financer », « éducation », « budget », « justice »et « loi » pour déterminer si un article traite ou non de politique Scientifique. Elle a commencé par annoter un millier d’articles selon leur sujet. Quel Genre de problème d’apprentissage automatique doit-elle résoudre ? 1.4 Parmi les problèmes suivants, lesquels se prêtent bien à être traités par la machine learning ? 1. Déterminer l’horaire optimal pour poster un contenu sur une page web. 2. Déterminer le chemin le plus court entre deux nœuds dans un graphe. 3. Prédire le nombre de vélos à mettre en location à chaque station d’un système de location de vélos citadins. 4. Évaluer le prix qu’un tableau de maître pourra atteindre lors d’une vente aux enchères. 5. Débruiter un signal radio. 1.3 Benjamin dispose de 10000 articles de journaux qu’il souhaite classer par leur thématique. Doit-il utiliser un algorithme supervisé ou non supervisé? 1.4 Les données de Cécile sont décrites par 10 variables. Elle aimerait cependant les représenter sur un graphique en deux dimensions. Quel type d’algorithme d’apprentissage doit-elle utiliser? 1.5 David gère un outil qui permet d’organiser les liens HTML qui ont été sauvegardés. Il souhaite suggérer des catégories auxquelles affecter un nouveau lien, en fonction des catégories déjà définies par l’ensemble des utilisateurs du service. Quel type d’algorithme d’apprentissage doit-il utiliser? 1.6 Elsa veut examiner ses spams pour déterminer s’il existe des sous-types de spams. Quel type d’algorithme d’apprentissage doit-elle utiliser? 1.7 Tom Mitchell définit la machine learning comme suit : « Un programme informatique est dit apprendre de l’expérience E pour la tâche T et une mesure de performance P si sa performance sur T, comme mesurée par P, s’améliore avec l’expérience E ». Fred écrit un programme qui utilise des données bancaires dans le but de détecter la fraude bancaire. Que sont E, T, et P? 1) Même si le machine learning est un concept intéressant, les applications pratiques en entreprise sont limitées ? VRAI ou FAUX 2) Les algorithmes de machine learning sont trop complexes pour être roulés dans le nuage ? VRAI ou FAUX

3) Tous les exemples suivants sont des applications de machine learning, sauf:a) Personnaliser les campagnes de marketing en fonction de la démographie des clients et de leur historique d’achat. b) Détecter les activités frauduleuses dans des transactions financières. c) Analyser les IdO (internet des objets) afin de prédire les problèmes d’équipements avant qu’ils se produisent. Analyser les revenus passés pour déterminer la cause de la chute des ventes. d) les revenus passés pour déterminer la cause de la chute des ventes. 4) Le machine learning s’applique seulement sur des données structurées ? VRAI ou FAUX 5) Laquelle de ces techniques est fréquement utilisée en machine learning ? a) Regroupement d’objets similaires en clusters. b) Identifier les relations entre des événements afin de prédire quand l’un suivra l’autre. c) Ce sont toutes des techniques de machine learning. 6) L’apprentissage non supervisé consiste à utiliser un algorithme qui n’a pas besoin d’être supervisé par un scientifiquedes données ? VRAI ou FAUX 7)

Plusieurs outils de machine learning sont disponibles gratuitement ? VRAI ou FAUX

8)

L’arbre de décision est un des algorithmes de machine learning ? VRAI ou FAUX

9) Le filtrage automatique des pourriels est un exemple de machine learning ? ou FAUX

VRAI

10) L’apprentissage supervisé nécessite des données historiques pour lesquelles on connait déjà les étiquettes ? VRAI ou FAUX

Solutions 1.1

Apprentissage supervisé (classification binaire).

1.2 1, 3, 4. (2 se résout par des algorithmes de recherche sur graphe, 5 par des algorithmes de traitement du signal). 1.3

Non supervisé.

1.4

Réduction de dimension.

1.5

Apprentissage supervisé (classification multi-classe).

1.6

Apprentissage non supervisé ( clustering ).

1.7 E = les données bancaires. P = la capacité à détecter correctement une fraude. T = prédire la fraude. 1) FAUX 2) FAUX 3) d) les revenus passés pour déterminer la cause de la chute des ventes. 4) FAUX 5) b)Ce sont toutes des techniques de machine learning. 6) FAUX 7) VRAI 8) VRAI 9) VRAI 10) VRAI