Data Integration Using Pentaho [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

RÉPUBLIQUE DU CAMEROUN REPUBLIC OF CAMEROON

FACULTE DES SCIENCES FACULTY OF SCIENCES

Peace – Work - Fatherland

Département de Mathématiques et Informatique

UNIVERSITÉ DE DSCHANG UNIVERSITY OF DSCHANG

Department of Mathematics and Computer

Scholae Thesaurus DschangensisIbiCordum BP 96, Dschang (Cameroun) – Tél. /Fax (237) 233 45 13 81 Website:http://www.univ-dschang.org. E-mail : [email protected]

Science BP 67, Dschang (Cameroun) Tél./Fax : (237) 243 69 15 09 E-mail : [email protected]

INTEGRATION DE DONNÉES AVEC PENTAHO DATA INTEGRATION

Rédigé et présenté par :



KOMBOU SIHOMNOU INES CAROLE

CM-UDS-15SCI2197



MEZATSONG TSAFACK CARREL

CM-UDS-15SCI1090



NGANJI NYA SHERLOCK ARMEL

CM-UDS-14SCI2049



OUAMBO FOWO DESCARTES (chef)

CM-UDS-15SCI1140

Classe LMD : Master 1 (IN4) Option : Réseaux et Services Distribués

Sous la supervision de: Dr. BOMGNI Alain Chargé de cours à l’université de Dschang

Année Académique : 2018-2019

Table des matières INTRODUCTION ............................................................................................................................... 3 1. L’intégration de données. ................................................................................................................. 4 1.1 Définition ................................................................................................................................... 4 1.2 Importance de l’intégration de données ..................................................................................... 5 1.3 Les approches d’intégration de données .................................................................................... 6 1.3.1 Enterprise Information Integration (EII) ............................................................................. 6 1.3.2 Enterprise Application Integration (EAI) ........................................................................... 8 1.2.3 L’approche Extract – Transform - Load ............................................................................. 8 2 Pentaho data intégration .................................................................................................................. 12 2.1 Qu'est-ce que Pentaho ? ........................................................................................................... 12 2.1 Présentation de Pentaho Data Intégration ................................................................................ 13 2.1.1 Les modules du PDI Pentaho ............................................................................................ 13 2.1.2. Installation ........................................................................................................................ 14 3 Cas pratiques ................................................................................................................................... 16 CONCLUSION .................................................................................................................................. 23 BIBLIOGRAPHIE ............................................................................................................................. 24

P a g e 2 | 24

INTRODUCTION Dans un monde idéal, les systèmes d’information seraient homogènes et intégrés. La réalité est souvent bien différente avec des entreprises qui, la plupart du temps, possèdent 2 voire 3 systèmes de gestion informatisés sans que ces derniers ne communiquent entre eux ni même ne parle le même langage. Ainsi le client est appelé « client » dans le CRM et « acquéreur » dans le système de gestion financière. Il existe donc de grandes disparités quant au niveau de maturité des entreprises dans le domaine des systèmes d’aide à la décision et la construction de ce genre de système se fera proportionnellement au niveau de maturité de l’entreprise. La complexité de l’intégration des données dans un datawarehouse n’attrait non pas à la dimension technique, mais à la dimension fonctionnelle. Elle nécessite de disposer de l’ensemble des règles de codification de chaque bases de données afin d’avoir une information homogène. Cette phase peut s’avérer longue et fastidieuse. Autre problématique importante, la gestion des données manquantes ou erronées. L’intégration est donc une problématique qui dépasse très souvent le seul champ des systèmes d’information, elle mène souvent à se poser des questions d’ordre organisationnel. On dit souvent que la phase d’intégration ou de prétraitement peut souvent atteindre 60 % de l’effort de construction d’un processus décisionnel, d’où la nécessité de procéder à une intégration de données saine pour son datawarehouse. Dans la suite de notre travail, nous allons présenter une solution d’intégration de données en utilisant l’outil Pentaho data intégration; ce travail sera articulé en 3 parties qui sont : La présentation de l’intégration de données, la présentation de Pentaho data intégration et enfin un cas pratique d’intégration de données avec Pentaho data intégration.

P a g e 3 | 24

1. L’intégration de données. 1.1 Définition L'intégration des données est le processus qui consiste à combiner des données provenant de différentes sources dans une vue unifiée : de l'importation au nettoyage en passant par le mapping et la transformation dans un gisement cible, pour finalement rendre les données plus exploitables et plus utiles pour les utilisateurs qui les consultent. Les entreprises sont en train de mettre en place des initiatives d'intégration de leurs données pour les analyser et les exploiter plus efficacement, en particulier face à l'explosion des données entrantes et l'arrivée de nouvelles technologies comme le cloud et les big data. L'intégration de données est une nécessité pour les entreprises innovantes qui souhaitent améliorer leur prise de décision stratégique et augmenter leur avantage concurrentiel. En matière d'intégration des données, il n'existe pas d'approche universelle ou standard. Toutefois, les solutions d'intégration de données partagent généralement quelques éléments, dont un réseau de sources de données, un serveur maître (data warehouse dans ce cas) et des clients qui accèdent aux données à partir de ce serveur maître. Dans la plupart des processus d'intégration des données, le client envoie une demande de données (requête) au serveur maître. Le serveur maître importe les datasets nécessaires à partir de sources internes et externes. Les données requises sont extraites de ces sources, puis combinées sous une forme cohérente et unifiée. Le résultat est livré au client sous une forme cohérente et exploitable. Dans les faits, les données alimentant l'Entrepôt de données sont hétérogènes, issues de différentes applications de production, voire de fichiers dits "plats" (fichiers Excel, fichiers texte, XML...). Il s’agit alors de les intégrer, de les homogénéiser et de leur donner un sens unique compréhensible par tous les utilisateurs. La transversalité recherchée sera d’autant plus efficace que le système d’information sera réellement intégré dans sa globalité La problématique de l'intégration repose sur la standardisation de données internes à l'entreprise, mais aussi des données externes (provenant par exemple de clients ou de fournisseurs). Ce n’est qu’au prix d’une intégration poussée que l’on peut offrir une vision homogène et véritablement transverse de l’entreprise. Ceci suppose que le système d’information de l’entreprise en amont soit bien structuré, bien maîtrisé, et bénéficie déjà d’un niveau d’intégration suffisant. Si tel n'est pas le cas, la mauvaise qualité des données peut empêcher la mise en œuvre de l'entrepôt de données.

P a g e 4 | 24

1.2 Importance de l’intégration de données Il est possible qu'une entreprise reçoive toutes les données dont elle a besoin, mais ces données sont généralement dispersées dans différentes sources. Par exemple, pour le cas d'usage d'une vue client à 360°, les données qui doivent être combinées peuvent provenir des sources suivantes : système CRM, trafic Web, logiciels utilisés pour les opérations marketing, applications orientées client, systèmes de vente et de succès des clients, partenaires (liste non exhaustive !). Les données provenant de ces différentes sources doivent souvent être rassemblées pour des besoins analytiques ou opérationnels, et il sera parfois difficile pour les ingénieurs de données ou les développeurs de les rassembler efficacement. Examinons un cas d'usage pour besoins d'analyse. En l'absence de données unifiées, la génération d'un rapport nécessite une analyse, qui implique elle-même de nombreuses opérations : connexion à plusieurs comptes (souvent sur plusieurs sites), recherche des données dans leurs applications natives, copie des données requises, reformatage et nettoyage de ces données. Pour exécuter cette séquence d'opérations avec le maximum d'efficacité, il est impératif de s'appuyer sur des pratiques d'intégration des données clairement définies et appliquées. Ce cas d'usage présente également les principaux avantages d'une approche d'intégration des données bien pensée :



L'intégration des données améliore l'unification des systèmes et la collaboration globale

Les employés de tous les départements, qui se trouvent parfois dans des lieux physiques distants, ont de plus en plus besoin d'accéder aux données de l'entreprise pour des projets individuels ou partagés. Pour leur faciliter la tâche, le département IT doit définir une solution sécurisée pour proposer un accès en libre-service aux données à tous les départements. Dans la plupart des départements, les employés génèrent, améliorent et enrichissent des données dont le reste de l'entreprise pourrait profiter. L'intégration des données doit donc être une démarche unifiée et collaborative.



L'intégration des données fait gagner du temps

Lorsqu'une entreprise prend des initiatives pour l'intégration correcte de ses données, elle réduit considérablement le temps nécessaire à leur préparation et leur analyse. L'automatisation des vues unifiées élimine les tâches manuelles de collecte des données, et les employés n'ont plus besoin d'établir des relations de A à Z lorsqu'ils ont besoin de générer un rapport ou de créer une application.

P a g e 5 | 24

Par ailleurs, l'utilisation d'outils adaptés à la place du codage manuel fait gagner encore plus de temps à l'équipe de développement (et permet généralement d'économiser des ressources). Le temps gagné sur ces tâches manuelles peut être utilisé à d'autres fins, par exemple en consacrant plus d'heures à l'analyse et l'exécution pour rendre l'entreprise plus productive et plus compétitive.



L'intégration des données réduit les erreurs (et les besoins de modifications)

La gestion des ressources de données d'une entreprise exige un certain nombre de tâches. Pour rassembler les données manuellement et s'assurer que leurs datasets seront complets et précis, les employés doivent connaître tous les emplacements et tous les comptes qu'ils pourraient avoir à explorer – et installer tous les logiciels nécessaires avant de lancer leurs recherches. Si un référentiel de données est ajouté et que tel ou tel employé n'en a pas été informé, son dataset sera incomplet. En l'absence d'une solution d'intégration qui synchronise les données, les rapports doivent être révisés périodiquement pour tenir compte des changements récents. Avec les mises à jour automatisées des outils d'intégration, les rapports peuvent être générés plus facilement, en temps réel et au moment précis où les utilisateurs en ont besoin.



L'intégration de données augmente la valeur des données disponibles

Sur la durée, les efforts d'intégration de données apportent un avantage complémentaire : ils améliorent la valeur des données de l'entreprise. L'intégration de données dans un système centralisé permet de cerner les problèmes de qualité et d'effectuer les améliorations nécessaires, ce qui permet d'obtenir des données plus précises, ce qui est le fondement même des analyses de qualité.

1.3 Les approches d’intégration de données Ici, nous allons présenter différentes approches pour réaliser de l’intégration de données, ces approches seront décrites avec avantages et inconvénients à l’appui. Nous tenons à préciser que nous nous attarderons beaucoup plus sur l’approche ETL, car elle est la plus populaire et surtout l’outil Pentaho data intégration que nous allons utiliser est basé sur cette approches.

1.3.1 Enterprise Information Integration (EII) Cette approche est beaucoup plus utiliser pour relier un entrepôt existant avec des données de sources spécifiques.

P a g e 6 | 24

Caractéristiques: 

Fournit une vue unifiée des données de l'entreprise, où les sources de données forment une fédération;



Les sources de données dispersées sont consolidées à l'aide d'une BD virtuelle, de manière transparente aux applications utilisant ces données;



Toute requête à la BD virtuelle est décomposée en sous-requêtes aux sources respectives, dont les réponses sont assemblées en un résultat unifié et consolidé;



Permet de consolider uniquement les données utilisées, au moment où elles sont utilisées (source data pulling).



Le traitement en ligne des données peut cependant entraîner des délais importants.

Avantages : 

Accès relationnel à des sources non-relationnelles;



Permet d’explorer les données avec la création du modèle de l’entrepôt de données;



Accélère le déploiement de la solution;



Peut être réutilisé par le système ETL dans une itération future;



Aucun déplacement de données.

Inconvénients: 

Requiert la correspondance des clés d’une source à l’autre;



Consolidation des données plus complexe que dans l’ETL;



Surtaxe les systèmes sources;



Plus limité que l’ETL dans la quantité de données pouvant être traitée;



Transformations limitées sur les données;



Peut consommer une grande bande passante du réseau.

P a g e 7 | 24

1.3.2 Enterprise Application Integration (EAI) Elle permet à des applications hétérogènes de gérer leurs échanges.

Caractéristiques 

permet de fournir à l'entrepôt des données provenant des sources ;



Repose sur l'intégration et le partage des fonctionnalités des applications sources ;



Généralement utilisé en temps réel ou en semi temps réel (Near Real Time).

Avantages 

Facilite l’interopérabilité des applications;



Permet l’accès en (quasi) temps-réel;



Ne transfère que les données nécessaires;

Inconvénients 

Taille des transactions limitée ;



Développement complexe;



Support limité aux transformations et agrégations des données.

Exemple d’Outils EAI:IBM WebSphere Message Broker; Microsoft BizTalk Server; Oracle SOA Suite.

1.2.3 L’approche Extract – Transform - Load Cette approche est surtout utilisée avec les entrepôts de données et les comptoirs de données. ETL est caractérisé par :

P a g e 8 | 24



la consolidation des données à l’aide des trois opérations suivantes: extraction, transformation et chargement ;



un Traitement de grande quantité de données en lots cédulés;

Les étapes de l’approche ETL L’ETL est un outil utilisé pour alimenter un data warehouse. Il est composé de 3 processus : le processus extraction, le processus transformation et le processus chargement. Le processus d’extraction est le premier processus mais avant de le réaliser, il faut d’abord identifier les sources des donnes à utiliser.

 Identification des données Il s’agit de localiser dans le système opérationnel les données nécessaires à prélever. Cette étape est importante dans la mesure où elle va déterminer le niveau de finesse des analyses du Data Warehouse. Ainsi prendre un trop grand nombre de données complexifie les étapes d’intégration des données, c’est-à-dire mobilise d’autant les capacités systèmes et d’espace de stockage de l’entrepôt de données. A l’inverse, diminuer le nombre d’informations peut limiter, voire fausser les analyses de l’entrepôt.

 Le processus extraction L’extraction des données sources est la première étape d’un outil d’alimentation ETL. Une fois les données identifiées il faut les extraire. Il existe deux types d’extractions de données : extraction complète et l’extraction incrémentale.

Extraction complète On capture l'ensemble des données à un certain instant. Cette extraction est normalement employée dans les deux situations suivantes : 

Lors d’un chargement initial des donnes,



lors d’un rafraichissement complet des données.

Comme conséquence, elle peut être très couteuse en temps (par exemple plusieurs heures ou jours).

Extraction incrémentale On Capture uniquement les données qui ont changées ou ont été ajoutées depuis la dernière extraction. Elle peut se faire de deux façons : extraction temps-réel et extraction différée.

P a g e 9 | 24

Extraction en temps-réels Elle s’effectue au moment où les transactions surviennent dans les systèmes sources. Par exemple à l'aide de triggers qui sont des procédures définies dans la BD pour recopier les données à extraire dans un fichier.

Extraction différée On Extrait tous les changements survenus durant une période donnée (par exemple heure, jour, semaine, mois).On peut se baser sur les timestamps. Un timestamp d'écriture est ajoutée à chaque ligne des systèmes sources ; L'extraction se fait uniquement sur les données dont le timestamp est plus récent que la dernière extraction. On peut aussi se baser sur la comparaison de fichiers : on compare deux snapshots (captures) successifs des données sources; on extrait seulement les différences (ajouts, modifications, suppressions) entre les deux snapshots. Comme conséquences, elle Exige de conserver une copie de l'état des données sources. Cette approche est relativement couteuse.

 Le processus de transformation La transformation est une tâche complexe qui nécessite beaucoup de réflexion et de ressource. Le système décisionnel doit fournir des informations fiables car celles-ci serviront de base pour prendre les décisions stratégiques de l’entreprise. Ceci repose sur la qualité des données au sein de l’entrepôt et c’est l’étape de transformation qui se charge de la garantir. Les données extraites lors du processus d’extraction étant hétérogènes, il faut effectuer plusieurs traitements en vue de les : Dénormaliser Dans un système décisionnel, la duplication délibérée de certaines données peut s’avérer utile, particulièrement en termes de performance (temps de réponse d’une requête car il y’a pas de jointure entre les tables). . Nettoyer Certaines données du système de production peuvent être fausses, par exemple une erreur de frappe sur le nom d’une ville. Les erreurs doivent pouvoir être détectées et corrigées afin de ne pas entrainer de répercussion sur les analyses. Préparer Les données doivent respecter le format requis par les systèmes cibles.

 Le processus de chargement Le chargement consiste à insérer ou mettre à jour les données cibles tout en conservant les données modifiées, afin de conserver une traçabilité des informations. Les informations stockées dans un entrepôt de données ne doivent jamais disparaitre dans la mesure du possible. Cette étape

P a g e 10 | 24

peut être complexe : il faut ajouter les nouvelles lignes, détecté si des lignes ont été modifiées ou supprimées ; il faut notifier ces modifications et veiller à ne pas charger des données en double .Il existe 3 types de chargement : Le chargement initial Il se fait une seule fois lors de l’activation de l’entrepôt et peut prendre plusieurs heures. Le chargement incrémental Ce chargement se fait une fois le chargement initial complété et peut être fait en temps-réel ou en différé. Rafraichissement complet Il est employé lorsque le nombre de changements rend le chargement incrémental trop complexe.

P a g e 11 | 24

2 Pentaho data intégration 2.1 Qu'est-ce que Pentaho ? Pentaho est une entreprise qui propose une suite de logiciels regroupés sous le nom de Pentaho Business Analytics. Elle fut fondée en 2004 et est basée à Orlando, aux Etats-Unis. Pentaho Business Analytics est une plate-forme décisionnelle qui offre, au travers de divers outils, une couverture globale des fonctionnalités de la Business Intelligence :  ETL (intégration de données)  Reporting  Tableaux de bord  Analyse ad hoc  Analyse multidimensionnelle (OLAP) La plate-forme Pentaho existe en version communautaire et en version entreprise. La version entreprise propose des fonctionnalités et des services supplémentaires qui n'existent pas dans la version gratuite, essentiellement des applications sur serveur et un support. La version entreprise nécessite une souscription annuelle qui prend en compte l'achat de la licence. Les coûts de support et de maintenance sont à ajouter à la licence et s'élèvent à 10 000$/an pour une licence de base permettant l'accès au logiciel à 25 utilisateurs. Les coûts varient, comme dans la plupart des cas, en fonction du nombre d'utilisateurs et restent très raisonnables par rapport aux tarifs pratiqués par la concurrence. Toutefois, il est possible de télécharger une version d'essai de la plate-forme qui reste gratuite pendant 30 jours. Pentaho met à la disposition des utilisateurs un ensemble d’outils pour la manipulation des données et l’aide dans le BI, ces outils sont les suivants : 

Pentaho Data Integration (PDI)



Pentaho Report Designer



Pentaho Data Mining



Pentaho Metadata Editor (PME)



Pentaho Aggregate Designer



Pentaho Schema Workbench



Pentaho Design Studio

P a g e 12 | 24

2.1 Présentation de Pentaho Data Intégration Pentaho Data Intégration (PDI) longtemps connu sur le nom de Kettle, est un logiciel ETL libre développé en java qui permet de concevoir et d’exécuter les opérations de manipulation et de transformation de données. Son principal intérêt est de récupérer diverses sources dans divers formats, les transformer, et former un résultat puis finalement exporter dans le format souhaité vers une destination souhaitée. Grace à un modèle graphique à base d’étapes, il est possible de créer sans programmation des processus composée d’imports et d’export de données et différentes opérations de transformations telles que conversions, application des filtres, jointures, etc. Pentaho dispose de très nombreux connecteurs à la fois en lecture et en écriture lui permettant d’accéder à un grand nombre de bases de données et a tout type de fichiers. L’ETL PDI est un moteur de transformations qui effectue deux types de traitement : les transformations et les taches. Une transformation est un réseau de taches logiques appelées étapes. Les noms des fichiers de transformations ont une extension .ktr (kettle transformation). Les étapes sont des blocs de constructions d’une transformation, par exemple une entrée de fichier texte, ou une sortie sur table. Il y’a plus de 140 étapes disponibles dans Pentaho et sont regroupées par fonctions (entrée, sortie, scripts, etc.). Une tache dont l’objectif est d’exécuter la transformation, de renvoyer un message d’erreur et de vérifier que le fichier de sortie est bien crée. Elle est enregistrée sous l’extension .kjb (kettle job). Ce PDI est aussi composé de quatre modules que nous allons décrire dans le titre suivant.

2.1.1 Les modules du PDI Pentaho Comme nous l’avons vu plus haut, PDI est un environnement qui permet d’une part de définir des transformations sur les données, de les exécuter et d’autre part de les sauvegarder dans des fichiers ou dans un référentiel base de données. De plus, PDI permet de connecter à un grand nombre de bases de données commerciaux ou non. Plusieurs outils composent cet environnement: le module Spoon, Pan, Carte, Kitchen comme montre la figure suivantes

P a g e 13 | 24

2.1.1.1 Le module Spoon Spoon est l’outil qui permet grâce à son interface graphique de créer des transformations, les exécuter et les sauvegarder. Les composants permettant la manipulation des données sont nommés « étapes» (steps en anglais). Par exemple il existe une étape permettant d’extraire des données de diverses bases de données, un autre aidant à l’extraction depuis des fichiers. SPOON comprend un grand nombre d’étapes. Grâce à SPOON, vous pourrez donc créer vos transformations, les tester et les sauvegarder soit dans un fichier, soit dans un référentiel d’une base de données que vous aurez préalablement crée.

2.1.1.2 Le module PAN PAN permet d’exécuter les transformations dans Spoon en ligne de commande. Il va nous permettre de pouvoir automatiser l’exécution de nos transformations à des horaires de notre choix sans ouvrir le logiciel grâce par exemple au planificateur de Microsoft Windows ou un Cron dans l’environnement Unix

2.1.1.3 Le module KITCHEN Ce module permet d’exécuter une tache en ligne de commande.

2.1.1.4 Le module Carte Il est en fait le serveur web qui permet d’exécuter les tâches et les transformations à distance. Pour cela il prend en compte un fichier XML qui contient la transformation ou la tâche à exécuter et la configuration d’execution.il permet aussi de contrôler à distance, démarrer ou arrêter les processus en cours sur le serveur.

2.1.2. Installation Avant d’utiliser Pentaho, vous devrez disposer d’une machine virtuelle (jdk) installée sur votre machine une version supérieure à 1 .4 . Si vous ne l’aviez suivez le lien suivant pour la télécharger et l’installer http://www.javasoft.com. Une fois cette étape terminée, il nous faut télécharger le fichier zippé de Pentaho disponible sur le site http://www.pentaho.com/download. Dans notre cas nous allons utiliser une version stable, la version 4.4.0. Apres avoir récupérer le fameux fichier compressé on le décompresse dans le répertoire de notre choix. Puis on ouvre le dossier data-intégration dont l’arborescence se présente comme suit :

P a g e 14 | 24

Sur l’arborescence du dossier de PDI, nous avons surligné 2 fichiers qui sont le spoon.sh et le spoon.bat. Ce sont ces fichiers qui mous permettrons de démarrer l’environnement graphique de PDI. 

Sous Windows, il nous suffit de double cliquer sur Spoon.bat pour voir le logiciel être démarrer.



Sous Linux, Nous devons nous rassurer que le fichier spoon.sh a le droit d’exécution, si ce n’est pas déjà le cas, exécutons la commande : chmod a+x spoon.sh. Une fois cette étape réalisée, nous pouvons désormais lancer le logiciel en tapant la commande ./spoon.sh (ces 2 commandes ont étés données avec comme pour prérequis que nous nous trouvons dans le répertoire de PDI)

P a g e 15 | 24

3 Cas pratiques Enoncé Supposons que vous travaillez chez un commissaire de transport. Vous recevez les commandes de la part de vos clients et votre rôle est d’attribuer ces commandes à des transporteurs. Un nouveau logiciel a été implanté dans la société pour suivre les commandes en temps réel et on souhaite donc pouvoir comparer les horaires de chargement et de livraison demandés par le client et les horaires réels obtenus grâce au nouveau logiciel. Ceci permettra d'évaluer les différents retards au niveau des usines (retard pour la préparation de la commande par exemple) mais également ceux qui concernent le transporteur (retard à la livraison par exemple). Vous avez deux fichiers à disposition : 

orders.csv contient l'ensemble des commandes après affrètement, c'est-à-dire qu'il contient l'ensemble des commandes envoyées par le client ainsi que le transporteur que vous avez attribué à chaque commande. Les champs sont les suivants : o OrderNumber : numéro de commande o LoadingPlace : ville de chargement o DeliveryPlace : ville de livraison o Carrier : le transporteur chargé d'effectuer le transport o LoadingDate : date de chargement demandée par le client o ETL (Estimated Time of Loading) : heure de chargement demandée par le client o DeliveryDate : date de livraison demandée par le client o ETA (Estimated Time of Arrival) : heure de livraison demandée par le client



realtime.csv contient les commandes exploitées dans le logiciel de suivi. On y retrouve donc certaines commandes avec des horaires réels (pas toujours complets). Les champs sont les suivants : o OrderNumber : numéro de commande o RealLoadingDate : date réelle de chargement o RealArrivalAtPlaceOfLoading : heure réelle de chargement o RealDeliveryDate : date réelle de livraison o RealArrivalAtPlaceOfDelivery : heure réelle de livraison

Solution Dans cet exemple, l’extraction des données va consister à récupérer les différentes données depuis leurs sources. Pour la transformation, nous allons faire des tris sur les lignes pour enlever les

P a g e 16 | 24

doublons de chaque fichier et ensuite faire une jointure pour réunir tous nos fichiers. Le chargement va consister à insérer les informations dans un fichier Excel. Pour réaliser les opérations décrites précédemment, nous créons un nouveau projet de transformation. Pour cela allez dans la barre de navigation cliquer sur file > new >transformation. Puis on peut l’enregistrer dans un répertoire de notre choix. Nous l’avons enregistré sous le nom transformation1.ktr. La fenêtre principale prend un nouvel aspect :

 Extraction

Pour chacun de nos fichiers CSV, nous allons suivre les étapes suivantes : 

Aller dans l'onglet Palette de création, elle est située a la gauche de l’interface (rouge sur la figure précédente).



Déroulez sur le dossier Extraction



Faites un Glisser-déposer de Extraction depuis fichier CSV vers la zone de création (bleu sur la figure précédente).

P a g e 17 | 24

Configurer chaque étape : 

Double-cliquer sur l'étape ;



Indiquer un nom d'étape (orders ou realtime pour nos fichiers) ;



Importer le fichier en cliquant sur Parcourir ;



Fixer les séparateurs de champs à ‘ ;’ (point-virgule)



Cliquer sur Récupérer Champs pour vérifier l’intégrité du fichier. L’outil reconnaît automatiquement le type de chaque colonne.



Cliquer sur OK.

Une fois nos fichiers chargés par l’outil nous allons faire des tris sur des lignes, il faut noter que ces tris sont indispensables si on veut faire une jointure. Pour commencer nous allons créer deux étapes de tris en suivant la procédure suivante : 

Insérer deux étapes dans la palette de création, de rouler le dossier Transformation ;



Faites un Glisser-déposer de Tri lignes vers la zone de création ;



Relier chaque étape d'extraction avec une étape de tri en maintenant Shift enfoncée tout en glissant de l’étape d’extraction vers l’étape tri de destination qu’on vient de créer ;



Une fois que la flèche aura touché la destination, une petite fenêtre s’ouvre choisir Sortie principale de l'étape (option une) ;



Configurer le tri pour qu'il se fasse sur le champ OrderNumber. Cette configuration est faite comme suit :

P a g e 18 | 24

Pour chaque étape de tri, suivre la procédure suivante : 

Double-cliquer sur l'élément puis renseigner le champ nom ;



Cliquer sur Récupérer champs ;



Mettre Ascendant à N (non) pour tous les champs sauf OrderNumber

Nous allons maintenant passer à la jointure de nos deux étapes (tri ligne1 et tri ligne2). Pour cela suivons la procédure suivante : 

Dérouler le dossier Jointure lignes



Faites un Glisser-déposer de Jointure comparaison vers la zone de création ;



Relier les deux étapes de tri à cette étape de jointure ;



Configurer la jointure sur le champ OrderNumber, comme ceci : o Double-cliquer sur l'étape et une fenêtre s’ouvrira ; o Dans Première étape sélectionner le tri correspondant au fichier Orders et sélectionner le second tri pour Seconde étape ;



Fixer Type Jointure à Left Outer ;



Récupérer les champs clés pour les deux étapes ;



Ne conserver que le champ OrderNumber dans les deux cas et effacer les autres champs ;



Cliquer sur OK.

P a g e 19 | 24

Maintenant nous allons supprimer la colonne OrderNumber_1 de votre flux de données : 

Dérouler le dossier Transformation



Faites un Glisser-déposer de Altération structure de flux vers la zone de création ;



Relier la dernière étape avec la nouvelle ;

Configurer l'élément : 

Double-cliquer sur l'élément ;



Aller dans l'onglet Retirer ;



Récupérer champs ;



Retirer tous les champs de la liste sauf orderNumber_1 ;



Cliquer sur OK.

 Chargement

Nous allons Exportez notre table dans un fichier Excel : 

Dérouler le dossier Alimentation ;



Faites un Glisser-déposer de Alimentation fichier MS Excel vers la zone de création ; de création ;



Relier cette étape avec la précédente ;



Indiquer l'emplacement et le nom du fichier à sauvegarder en double-cliquant sur l’élément.



Puis cliquer sur Récupérer champs dans l’onglet Champs



Cliquer sur OK.

A la fin on obtient dans la zone de création une image comme la suivante :

P a g e 20 | 24

Pour démarrer l’exécution, nous n’avons qu’à cliquer sur le bouton Play juste en bas de l’onglet de notre transformation. Ce qui aura comme résultat de nous fournir la liste des chargements et des livraisons demandés par le client qui n’ont pas vus leurs délais respectés. Ce résultat va être mis dans le fichier Excel que nous avons spécifié plus haut. A la fin de l’exécution, nous avons la fenêtre suivante.

En ce qui concerne la tache nous allons un peu procéder comme dans l’étape création d’une transformation. Nous allons créer une tache comme suit : 

Fichier > Nouveau > Tâche ;



Enregistrer la tâche que nous venons de créer ;



Puis ajouter les étapes en suivant la procédure suivante :

Dans l'onglet palette de création : 

Général -> Start ;



Général -> Exécution Transformation ;



Évaluation -> vérification existence fichier



Insérer deux éléments Divers > Mise en échec tâche.



Et enfin relions les étapes comme le montre la figure suivante :

P a g e 21 | 24

Remarque : Les liens n'ont pas tous la même couleur : 

Un lien bleu avec un cadenas indique que l'élément suivant sera toujours exécuté.



Un lien rouge indique que l'élément suivant ne sera exécuté que s'il y a eu une erreur dans l'exécution de l'élément précédent.



Un lien vert indique que l'élément suivant ne sera exécuté que si l'élément précédent s'est terminé avec succès.

On veut mettre la tâche en échec dans le cas où la transformation échoue d'une part mais également lorsque le fichier généré par la transformation n'existe pas. Pour l’exécution, le procédé est le même que celui décrit pour les transformations.

P a g e 22 | 24

CONCLUSION Parvenue au terme de notre exposé, il en ressort que l’intégration de données est l’étape la plus cruciale dans un projet décisionnel. Il existe plusieurs approches .EII, EAI, ETL. L’approche ETL se fait en trois étapes : l’extraction, la transformation et le chargement Il existe plusieurs outils d’intégration nous avons utilisés PENTAHO DATA INTEGRATION qui est un logiciel libre avec une interface graphique qui permet facile son utilisation.

P a g e 23 | 24

BIBLIOGRAPHIE 

https://stph.scenari-community.org/contribs/dwh/PentahoDI/co/ex01.html Morgane Becret, Stéphane Crozat, 2014-2015



https://business-intelligence.developpez.com/tutoriels/presentation-pentaho/ Publié le 1er mars 2012 - Mis à jour le 16 avril 2012



https://wiki.pentaho.com/display/EAI/Pentaho+Data+Integration+%28Kettle%29+Tutorial Créée par Doug Moran, dernière modification par Chantel Brathwaite le déc. 11, 2015



https://help.pentaho.com/Documentation/8.1

P a g e 24 | 24