Mise en place d’un outil d’aide à la prise de décision basé sur le datawarehouse et l’arbre de décision pour l’analyse de performance des clients d’une entreprise de télécommunication, cas de Vodacom Congo

 

 

EPIGRAPHE

 

 

 

 

 

 

 

 

 

 

« La santé de
l’entreprise réside non seulement sur les produits qu’elles possèdent mais
aussi et surtout sur les clients, alors veiller sur eux vaut mieux que gérer
toute une masse de produits sans tenir compte de qui les achètent le plus ou
moins : les outils de datamining sont le chemin par lequel passer pour y
parvenir ».

 

Augustin TADIAMBA

 

 

 

 

 

 

 

 

 

 

 

 

 

 

DEDICACE

 

 

 

À mes chers parents, Albert PAMBI et
Thérèse ATSHINDEKI qui sont la cause de mon existence dans cette vie, les
premiers à

m’avoir
orienté vers le chemin de l’école, pour leurs  soutiens sous plusieurs formes,
leur patience, conseil et  leur amour  participant à mon ardeur pour les études

 

A ceux qui ont énormément contribué à la réussite de ce
travail,

Henriette MBOYANTO et Emmanuel NGONGA

Je dédie ce modeste travail

 

Augustin TADIAMBA

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

REMERCIEMENTS

Mieux vaut reconnaitre les bonnes actions des autres pour
toi que de les cacher pour en faire siennes et les brandir. Ainsi, nous ne
manquerons pas dans cette page, adresser nos mots de remerciements et
gratitudes envers les personnes qui nous ont assistés de diverses manières dans
la réussite de ce travail.

Au Dieu Tout-Puissant, créateur du ciel et de la terre,
lui qui est source d’intelligence et de sagesse, pour m’avoir rendu vainqueur
face aux combats sous différentes formes pour la réussite de ce travail 

Nous remercions, le Professeur KAFUNDA KATALAY Pierre,
pour m’avoir fait l’honneur d’être le Directeur de mon mémoire et sa constante
disponibilité, pour avoir placé en moi les théories et pratiques de
l’informatique décisionnelle, un domaine pour lequel j’ai une grande passion
ainsi qu’une lumière incessante sur celles-là,. Ses remarques constructives ont
contribué à améliorer les travaux de recherche présentés dans ce mémoire. 
Qu’il soit ici assuré de ma profonde gratitude et de mon très grand respect.

Je tiens à remercier tous les professeurs et assistants
du département d’Anglais et Informatique des Affaires pour la formation reçue
d’eux. Puissent les autorités du Département d’Anglais et Informatique des
Affaires trouvent ici l’expression de notre reconnaissance pour tout ce qu’ils
ont fait pour nous durant les cinq dernières années. 

Nos remerciements s’adressent en particulier à
l’Assistant Jeannot MUTOMBO pour son assistance et intervention incessantes
dans ce travail.

Que mes parents trouvent l’expression de ma
reconnaissance pour tout ce qu’ils ont fait dans ma vie et de leur amour envers
moi et à ma chère Annie LEEDI.

Un grand merci s’adresse spécialement
à ma Grand-mère,

Mathilde DEMBO EDJULU pour son aide sous plusieurs
formes, ses conseils sans relâche sont pour moi une ouverture continuelle du
chemin du bonheur.

Nos remerciements s’adressent chaleureusement à mes
frères et sœurs, Catherine YEMA PAMBI, Robert TADIMANDJA PAMBI, Mathilde DEMBO
PAMBI, Nestor PAMBI, Joseph DIMOKE PAMBI, Francine APAMATO PAMBI, Marie
MBASHILE PAMBI, Jean WETSHOKONDA PAMBI, Daniel PAMBI, Albert PAMBI, Joseph
ODIMBA PAMBI et Georges LOPATSHA PAMBI.

Nos remerciements vont tout spécialement à la grande
famille, qui ont su nous supporter et encourager tout au long de notre vie,
ainsi que pour leur aide inestimable, leur patience et leur soutien
indéfectible, je remercie chaleureusement mes oncles et tantes Daniel OMASASE,
Jean WETSHOKONDA, MBOYANTO AKATSHI, Jean OMATOKO, NKOY Pauline etc. Mes cousins
et cousines Lajoie OSOMBA, Papy SHOTSHA, Héritier TADIAMBA, Salut WETSHOKONDA,
WENELA

Mes neveux et nièces trouvent ici l’expression de ma
reconnaissance pour leur amour envers moi.

Un mot de remerciement s’adresse à ma meilleure amie,
Sephora Praise TSASA, pour tout ce qu’elle a pu apporter en moi. Elle est une
bénédiction pour moi, je la porte sans cesse au cœur.

Un grand merci s’adresse spécialement à mes amis, Josué
WEMBI

LOWOK’EDI, Paul RAMAZANI MULUTA et Naolie

TSHIIBWAYA TSHIBANGU pour leur soutien qui est gravé dans
ma mémoire.

Que mes condisciples de la 6ième littéraire promotion 2012 du
Mont-Amba trouvent également ici ma reconnaissance pour tout le pour l’amour 
dont ils ne cessent de me témoigner. Ma gratitude va tout doit vers eux.

Nous voudrions remercier tous mes amis et collègues, y
compris ceux avec qui nous avons mené la lutte ensemble, pour leur aide, leur
soutien, leurs motivations, et leur gentillesse. J’exprime en particulier ma
gratitude pour leur aide sous plusieurs formes, sympathie, gentillesse et
motivations, à LONGA OSOKO, Béni, VANGU MBELO, LUBAMBA Chadrack, Grégory
MAYUKU, Kally Dorel, TEDIKA Joslain, Christopher NZOKO, Jef MUKOLA, Elysée
MATONDO IZABA Olivier, KANDOSI Gertrude , Mike MUBIKAYI, Sarman ILUNGA, Grace
LENDA, Dimitri MPETI, Joël MUKAMBILWA, Aristote KALONGA, Stacy N’SILU, Mechack
NDobolo, Phibi KAYUMBA, Melissa KYEMBE, Priscille KONI, Rostand MBILA.

Un mot de remerciement s’adresse à tout le staff du
Centre d’anglais PSLS /UNIKIN, en commençant par Mr. Moon, John KALAMBAY et tous
les Assistants qui ont beaucoup contribué pour mon épanouissement en Anglais
pratique.

Un grand merci s’adresse spécialement à KAKESE OKITO
Pascal, Martin LOKAVU pour leurs conseils motivants.

Tous ceux dont le nom n’est repris ici trouvent également
l’expression de notre gratitude.

Pour finir, nos remerciements s’adressent à toute la
promotion d’Anglais et Informatique des Affaires en général et en particulier 
de l’option  Conception de 2018-2019.

 

Augustin TADIAMBA

 

 

 

 

 

 

 

LISTE
DES ABBRÉVIATIONS

     
BI : Business Intelligence

     
DW : Data warehouse

     
ETL ; Extract Transform, Load

     
CART : Classification And RegressionTree

     
CHAID (CHi-squared Automatic Interaction
Detection – Kass, 1980)

     
CHURN: Change and tUrn

     
CWN: Congolese Wireless Network

     
CRM: Customer Relationship Management

     
GRC : Gestion de la Relation Client

     
GSM: Global System Mobile

     
HOLAP: Hybrid Olap

     
ID3: Inductive Decision Tree

     
LTV: LifeTime Value (valeur à vie des client) MOLAP: Multidimensional Olap

     
NTIC : Nouvelles Technologies de l’Information et de la
Communication

     
OLAP : Online Analytical Processing
OLTP: Online Transactional Processing RDC: République Démocratique
du Congo.

     
ROLAP: Relational Olap

 

 

 

 

         

LISTE
DES TABLEAUX

Tableau I. 1.Parallélisme entre les données décisionnelles et
opérationnelles

Tableau .II.2.Data warehouse versus Data Mart

                     

 

LISTE
DES FIGURES

Figure I.1. Schéma montrant les éléments liés à la réalisation des études
pour une solution BI pour prédire le comportement et la santé de l’entreprise.

Figure I. 2.Architecture des systèmes décisionnels.

Figure I. 3. De OLTP à OLAP coté Serveur et Client.

Figure II.4. Schéma d’un modèle en étoile. Sources: AgrotechParis par
Lydie Soler dans Entrepôt des données par  NEGRE Elsa de l’Université
Paris-Dauphine (2018-2019) page 36.

Figure II. 5. Schema d’un modèle en flocon de neige, source: AgroTechParis
par Lydie Soler dans Entrepôt des données par  NEGRE Elsa de l’Université
Paris-Dauphine (2018-2019) page 48.

Figure II. 6. Architecture d’un Data Warehouse.

Figure II.7. Architecture d’un Data Warehouse.

Figure II. 8. Schéma d’un arbre.

Figure II. 9. Schéma d’un arbre de décision.

Figure IV.10. Tableau de Notre Dataset.

Figure IV.11.Le prétraitement dans flux de travail (workflows).

Figure IV.12. Tableau de Données issues d’Excel  sous Data Table d’orange.

Figure IV. 13. Architecture de notre outil (arbre de
décision). Figure IV.14.Tableau de prédictions sous les variables 1 et 0.

Figure IV.15.La matrice de confusion.



INTRODUCTION
GENERALE

Contexte
et Motivation

Actuellement,
les entreprises de télécommunications trouvent leur force des

clients. Il s’avère important pour ces dernières de
gérer évolutivement et scrupuleusement ces clients de par leur consommation
quotidienne des produits. Cette gestion incarne le suivi des clients en termes
de performance. La vie de ces entreprises dépend de clients qu’elles possèdent
et de la manière dont ces derniers investissent dans elles. Par-là, s’installe
l’idée de connaitre le niveau de performance de clients ou le niveau de
comportement du client au sein de ces entreprises.

Aujourd’hui, ces entreprises
regorgent plus de 9 millions de clients communément appelés abonnés. Ces
derniers s’y comportent différemment en termes de leurs classes sociales,
salaires, âges, sexe ou de ce qu’ils gagnent individuellement par jour, mois ou
année, en bref leur profil. Ainsi, un problème se pose dans la connaissance de
performance de ces derniers au sein des entreprises  ayant un grand volume de
données reçues à chaque minute,  le Vodacom  Congo n’en fait pas exception.
Voilà pourquoi l’intervention de Data warehouse et l’arbre de décision pour
pallier à cette question si préoccupante qui est abordée dans cette
entreprise
mais qui par moment perd de vue. 

Sur ce, énormes systèmes d’évaluation
de performance ont été développés dans cette société de télécommunication pour
connaitre si oui ou non le client a consommé le produits en termes d’unités.
Mais un problème reste également à scruter. Celui de connaitre quel client est
plus performant que l’autre en termes de consommation ou encore qui consomme le
plus et il a quel âge pour l’orienter vers les offres qui lui conviennent le
mieux afin de le fidéliser davantage. D’où il est important de segmenter les
clients hétérogènes dans de sous classes homogènes. Ainsi nous jugeons bon
l’aider à bien garder sa gestion relation-client à travers leur âge et le
nombre de crédits consommés par jour afin de connaitre leur performance.

A cet effet, nous proposons, dans notre
travail, de construire un Data warehouse considéré comme notre source de
données pour analyser la performance des clients de

Vodacom en se servant de la méthode de l’arbre de décision.
Ainsi, l’outil d’aide à la prise

               

de décision qui sera mis en place nous permettra de
déduire que le client est performant ou pas en tenant  compte de crédits
consommés par jour ou mois. Cela aura bel et bien l’intérêt de générer l’idée
de fidélisation  de ses clients  à travers des offres ou bonus et gérer leur
départ. Ainsi, lorsque Vodacom constate qu’un client ne consomme plus beaucoup
de crédits qu’avant, cherchera des voies et moyens pour le rendre performant
encore c’est-à-dire lui pomper des bonus grâce à la connaissance de ce qu’il
désire le plus (le crédits) afin de renforcer sa fidélité et le pousser à être
toujours un consommateur performant.

L’arbre de décision constituant
l’une des méthodes d’apprentissage supervisé, a été choisie par sa performance.
Un apprentissage effectué sur les connaissances issues de l’expertise d’un
superviseur. 

Méthode
et Organisation du travail

Pour la
réalisation, ce travail s’est appuyé sur la méthode des arbres de décision avec
l’algorithme de CART pour mettre en place notre outil prédictif..

Comme
dit ci-dessus, ce présent travail est là pour réaliser un outil d’aide à la

prise de décision. Sur ce, il est
ainsi organisé, hormis l’introduction et la conclusion, en quatre chapitres :

§  Généralités sur le
système décisionnel
: dans ce dernier nous allons parler sur la généralité
du système décisionnel.

§  Data warehouse et
arbre de décision
: Ce deuxième chapitre consistera à parler du Data
Warehouse et la fameuse méthode décisionnelle dénommée arbre de décision.

§  Gestion de la
relation-client
: ici nous allons parler de la gestion de la relation client
que l’entreprise est appelée à prendre en compte pour bien connaitre ses
clients et savoir gérer en les fidélisant sous différentes manières.

§  Implémentation et
interprétation des résultats
: Ce chapitre présente en général notre
travail et l’outil dont l’on s’est servi pour réaliser  notre outil d’aide à la
prise de décision. C’est ici que repose la solution au problème décelé dans
l’entreprise.

 

CHAPITRE
I. GENERALITES SUR LES SYSTEMES DECISIONNELS

I.1.
INTRODUCTION

Actuellement, l’informatique se
situe au centre des entreprises. Elle permet de traiter rationnellement et
objectivement l’information qui y circule. De ce fait, l’information est
considérée comme l’élément central voir crucial dans les activités de
l’entreprise, sans sa maitrise, il sera difficile de faire face au terrain
compétitif où il y a une prise en compte considérable des biens et services.
Afin de s’en sortir dans un tel monde, toute entreprise doit améliorer ses
méthodes et adopter une stratégie d’avancement continuel en prédisant les
événements de divers types. 

Ce
travail observe avant tout la question de la contribution des technologies de

l’information au processus décisionnel. Puis, il montre tout
l’intérêt d’une architecture décisionnelle basée sur un entrepôt de données
pour le management de la performance.

D’une manière précise, il essaye de faire
preuve de la facilité que présente le Business

Intelligence ou l’informatique
décisionnelle dans la modélisation d’une performance multidimensionnelle.

Ainsi donc, le
Système d’information décisionnel est définit comme étant un ensemble de
solutions informatiques permettant l’analyse des données de l’entreprise, afin
d’en dégager les informations qualitatives nouvelles qui vont fonder les 
décisions, qu’elles soient tactiques ou stratégiques
.

De grands volumes de données
agitent ou remuent dans le système d’information de chaque entreprise actuelle,
de ce fait, il est laborieux de mieux détecter les forces cachées, les
faiblesses, tendances sous-jacentes, bref, toute connaissance à prendre en compte
pour une bonne prise de décision. De cette manière, les outils d’aide à
décision, aident à analyser les données afin d’identifier les informations
macro cachées dans des masses de données pour en fin nous apprendre l’évolution
des activités ou opérations au sein de l’entreprise.

 

 

I.2.
HISTORIQUE DES SYSTEMES DECISIONNELS 

La
décision concerne tous les départements de l’entreprise : finance, ressources

humaines, ventes, marketing, production, et bien
entendu la direction générale. L’aide à la décision les concerne dans la même
globalité. Les applications utiles dans le processus de prise de décision sont
nombreuses, et déjà fortement présentes dans le système d’information des
entreprises. Les applications d’analyse des ventes, qui permettent d’établir
des statistiques, à partir de l’historique des factures, sur les ventes
réalisées par commercial, par produit, par client, les applications d’analyse
financière, en particulier celles utilisées pour construire les comptes annuels
de l’entreprise, mais également les applications de reporting, de
consolidation, d’élaboration et de contrôle budgétaire. 

Toutes
ces applications répondent au même processus : analyser des données

préalablement collectées par les applications
opérationnelles  de l’entreprise, les mettre en forme, aider à distinguer les
grandes tendances, et publier des résultats sous forme de graphiques, de
tableaux, ou de rapports. Mais quelles sont alors les caractéristiques de ces
applications décisionnelles dans l’entreprise ? 

Tout d’abord, elles traitent
également de gros volumes de données. Ainsi, lorsqu’un distributeur conserve
l’ensemble du détail des tickets de caisse émis pendant plusieurs années, cela
peut concerner des milliards d’informations unitaires, qui doivent être
accessibles pour les analyses. En revanche, les délais acceptables de ces
analyses sont bien différents de ceux des requêtes opérationnelles. Autant il
est primordial que votre système réponde en quasi temps réel aux demandes de
vos clients, autant pouvez-vous certainement attendre une minute, une heure,
voire  parfois une journée, avant de disposer des informations analytiques sur
vos ventes depuis trois ans. 

Par
opposition aux systèmes opérationnels, la notion de temps réel n’apparaît pas

comme une contrainte à satisfaire.
La complexité des requêtes n’a, elle aussi, rien à voir. Trier l’ensemble de
vos tickets de caisse depuis trois ans et les répartir par produit, par
fournisseur, par secteur géographique, tout en dégageant la marge par client,
relève parfois de l’équilibrisme en matière de requêtes SQL. Une telle demande
peut nécessiter le croisement de plusieurs tables de votre base de données et
la construction de nombreux indicateurs. 

Ainsi, les systèmes décisionnels
travaillent comme les systèmes opérationnels, sur de gros volumes de données,
mais leur sont appliquées des requêtes beaucoup plus complexes. Mais ils
disposent de plus de temps pour les exécuter. Lorsque les entreprises ont
commencé à comprendre la valeur ajoutée apportée par les outils d’aide à la
décision, elles ont immédiatement cherché à en bénéficier. Pour cela, elles ont
commencé à lancer des requêtes, c’est-à-dire à interroger leurs bases de
données opérationnelles. 

Les équipes opérationnelles
pouvaient continuer à utiliser leurs applications, sans être nullement
perturbés par les requêtes analytiques, et les analystes pouvaient prendre le
risque de lancer des requêtes complexes, analysant par exemple le chiffre
d’affaires suivant plusieurs dimensions (clients, produits, fournisseurs), sur
plusieurs années, mois par mois, sans prendre le risque de bloquer le système
opérationnel. 

Outre sa « rusticité », ce mode de
fonctionnement, en doublon total entre les deux systèmes, se révélait très
onéreux. Les serveurs, les disques durs, les bases de données, devaient tous
être acquis en double, uniquement pour les besoins de l’analyse. A cette
période, beaucoup d’applications opérationnelles fonctionnaient sur des grands
systèmes. 

La puissance machine comme le
stockage, était encore très chère. Après plusieurs années d’utilisation des
infocentres, c’est-à-dire de duplications des données de production, les
services informatiques ont imaginé une évolution intelligente de ce mode de
stockage. Ils ont en effet constaté que les informations traitées dans les
applications opérationnelles étaient très différentes de celles interrogées
dans les applications décisionnelles. Le nombre de tables, de fichiers
interrogés dans une même requête est bien plus important dans l’aide à la
décision, le nombre d’indicateurs calculés également. 

En revanche, les
applications décisionnelles se contentent presque toujours de lire les données.
Elles n’ont jamais à écrire de nouvelles informations dans les bases de
données. Autre constat et non le moindre réside sur  les questions posées par
un décideur impliquant fréquemment des informations stockées dans plusieurs
applications ou bases de données. Lorsque vous calculez la rentabilité de vos clients,
vous exportez des données de la gestion commerciale (factures, commandes), de
la comptabilité (délais de règlement, impayés), mais également de la gestion de
production (coût des produits fabriqués). 

Le fait de dupliquer ces bases de
données dans un infocentre ne simplifie en rien ces extractions. Il a donc été
imaginé de mettre en place, en sortie des bases de production, un entrepôt de
données. Cet entrepôt uniquement dédié au stockage des données décisionnelles,
permet de réconcilier les différentes sources initiales de données, et les
applications de production. Fréquemment construit à partir d’une base de
données relationnelle, cet entrepôt de données sert littéralement d’entrepôt.
On y verse une copie des données qui serviront, un jour, à l’analyse et à la
prise de décision. Cela évite également de conserver un historique trop
important dans les bases de production, souvent concernées par le court terme,
alors que les analystes ont besoin de recul pour détecter des tendances. 

Ces périodes de référence varient
d’ailleurs beaucoup en fonction des secteurs d’activité. Dans le domaine
bancaire en revanche, on analyse les informations clients sur plusieurs années,
voire plusieurs dizaines d’années. 

Une entreprise est généralement
composée de plusieurs services tels que les ressources humaines, les services
comptabilité, marketing, commercial, technique… Tous conservent des
informations propres à leurs fonctions : listes des clients, des employés, chiffres,
emplois du temps… L’accumulation de ces données nécessite donc leur sauvegarde
dans le but d’une future exploitation. On constate ainsi régulièrement que
chaque service possède son tableau de bord, ce qui lui permet de mesurer les
indicateurs de performance de l’entreprise (chiffre d’affaire, calculs de
bénéfices à l’année…). 

Cependant,
chaque service a bien souvent sa façon de stocker ses informations

(par exemple dans un fichier Excel, une base de
données MySQL…), et sa manière de calculer les indicateurs, avec sa vérité et
ses critères. Ainsi, si l’on veut considérer les données de l’entreprise dans
son ensemble, la tâche s’avère rude voire parfois impossible. Pourtant, cela
constituerait une utilité évidente et un réel apport à la société. En effet,
une mise en relation et une analyse de toutes les données permettraient de
réaliser des études et des prévisions sur le comportement et la « santé » de
l’entreprise. 

 

 

Comme expliqué précédemment, la
première étape d’un projet BI est de créer un entrepôt central pour avoir une
vision globale des données de chaque service. Cet entrepôt porte le nom de data
warehouse. On peut également parler de data mart, si seulement une catégorie de
services ou métiers est concernée. Par définition, un data mart peut être
contenu dans un data warehouse, ou il peut être seulement issu de celui-ci


           

I
.3. DEFINITION D’UN SYSTEME DECISIONNEL 

Un système décisionnel (ou Business intelligence) est un
ensemble de technologies destinées à permettre aux collaborateurs d’avoir accès
et de comprendre les données de pilotage plus rapidement, de telle sorte qu’ils
prennent des décisions meilleures à temps pour enfin atteindre les objectifs de
leur organisation. 

Cette   nouvelle
       utilisation      de        l’information            contenue       dans    les
      bases

opérationnelles des entreprises, a
donné lieu à l’élaboration de nouveaux systèmes dédiés à l’analyse et à la
prise de décision. Ces systèmes regroupent un ensemble d’informations et
d’outils mis à la disposition des décideurs pour supporter de manière efficace
la prise de décision. Ainsi, un système décisionnel est un
système d’information dédié aux applications décisionnelles.
 

L’informatique décisionnelle
représente un ensemble de moyens, d’outils et de méthodes permettant de
collecter, consolider, modéliser et de restituer les données de l’entreprise
dans le but d’apporter une aide à la prise de décision. 

Un autre atout de l’informatique
décisionnelle est de permettre aux responsables

de la stratégie d’une entreprise
d’avoir une vue d’ensemble de l’activité traitée. 

Les systèmes
décisionnels peuvent être illustrés en cinq étapes et permettent de répondre
aux questions suivantes : 

        
Tableaux de bord : Que s’est-il passé ? 

        
Analyse : Pourquoi cela s’est-il passé ?  – Prédiction : Que va-t-il se passer ? 

        
Aide opérationnelle : Que se passe-t-il en ce moment ? ou Qu’est-il en
train de se passer ? 

        
Entrepôt actif : Que devrait-il se passer ? ou Que faire ?  

I.4.
ARCHITECTURE DES SYSTEMES DECISIONNELS

L’architecture des systèmes décisionnels
met en jeu quatre éléments essentiels :

les sources de données, l’entrepôt de données, les
magasins de données et les outils d’analyse et d’interrogation.  Ainsi, voici à
quoi ressemble un système décisionnel à travers la figure ci-dessous :

 

Figure I.
5.Architecture des systèmes décisionnels

Les sources de données : sont nombreuses,
variées, distribuées et autonomes. Elles peuvent être internes (bases de
production) ou externes (Internet, bases des partenaires) à l’entreprise. 

L’entrepôt de données : est le lieu de
stockage centralisé des informations utiles pour les décideurs. Il met en
commun les données provenant des différentes sources et conserve leurs
évolutions. 

Les magasins de données sont des extraits de
l’entrepôt orientés sujet. Les données sont organisées de manière adéquate pour
permettre des analyses rapides à des fins de prise de décision.  

Les outils d’analyse : permettent de manipuler
les données suivant des axes d’analyses. L’information est visualisée au
travers d’interfaces interactives fonctionnelles dédiées à des décideurs
souvent non informaticiens (directeurs, chefs de services…).

I.5.
LES FONCTIONNALITES D’UN SYSTEME DECISIONNEL 

Les besoins des utilisateurs
peuvent être regroupés en quatre catégories : Simuler, Analyser les données,
Produire des états de gestion, Suivre et Contrôler. Face à ces besoins, les
systèmes décisionnels proposent les fonctionnalités suivantes : 

a) Simuler  

      Gestion
des modèles de calcul (calcul automatique d’ensemble de données complexe en
fonction : de paramètres entrés par l’utilisateur et de règles de

gestion) ; 

      Elaboration
collaborative.  b) Analyser
les données 

      Fonctionnalités
       OLAP             (Etablissement         d’analyses     dynamiques

multidimensionnelles avec possibilité de trier, filtrer,
zoomer à l’intérieur des données) ; 

      Fonctionnalités
avancées de datamining. Ensemble de techniques statistiques sophistiquées
permettant de faire apparaître des corrélations, des tendances et des
prévisions. 

c)    
Produire des états de gestion 

Fonctionnalité de
reporting. Requêteurs permettant de produire de façon simple et rapide des
tableaux de données incorporant des calculs plus ou moins sophistiqués.

d)    
Suivre et contrôler 

      Elaboration
de tableaux de bords. Production et diffusion automatique à fréquence régulière
de tableaux de bord regroupant des données hétérogènes ; 

      Emission
d’alerte. Génération conditionnelle de messages sur différents supports

(Email,
Sms…) plus ou moins complexes en fonction de configuration de données. 

Il est rare que l’ensemble de ces
fonctionnalités soient mises en place dans une entreprise. Les mises en œuvre
sont en outre souvent réalisées par domaine fonctionnel

(les ventes, achats…). Par ailleurs il n’existe pas,
de produit couvrant l’ensemble de ces fonctionnalités. Chaque progiciel, en
fonction de son origine et du positionnement que souhaite lui donner son
éditeur, est plus ou moins avancé sur l’un ou l’autre thème. 

Il est
donc crucial de déterminer précisément ses besoins présents, et futurs, ainsi

que les contraintes liées à son
organisation ou à son activité avant de choisir une solution.  

I.6.
LES APPORTS DES SYSTEMES DECISIONNELS. 

Les apports des
systèmes décisionnels sont néanmoins réels. Ils peuvent être classés en deux
catégories : 

a.     
L’amélioration de l’efficacité de la communication et de la
distribution des informations de pilotage ; 

b.      L’amélioration
du pilotage des entreprises résultant de meilleures décisions  prises plus
rapidement. 

Si le premier point est aisément
compréhensible, présente peu de risques de mise en œuvre et pose peu de
problème d’évaluation ce n’est clairement pas en revanche une source de gains
significative. Il sera très difficile, le plus souvent, de justifier les coûts
d’un projet sur cette seule promesse. 

La seconde
catégorie à nettement plus de potentiel de gains mais il faut bien reconnaître
que les risques de ne pas atteindre les objectifs initiaux sont réels, sans
parler des énormes difficultés d’évaluation des bénéfices escomptés. 

Les
bénéfices de ce type les plus souvent cités sont les suivants : 

     
Unicité des chiffres, une seule vérité acceptée par tous, 

     
Meilleure planification, 

     
Amélioration de la prise de décision, 

     
Amélioration de l’efficacité des processus, 

      Amélioration
de la satisfaction des clients et des fournisseurs, 
Amélioration de la satisfaction des employés.

 

 

I.7.  COMPARAISON
DU SYSTEME DECISIONNEL ET SYSTEME   

OPERATIONNEL

Données décisionnelles 

Données opérationnelles 

Orientées activité (thème,
sujet), condensées, représentent des

données historiques 

Orientées application, détaillées, précises au moment de
l’accès 

Pas de mise à jour interactive de la part des utilisateurs 

Mise à jour interactive possible de la part des
utilisateurs 

Utilisées        par      l’ensemble             des

analystes, gérées par sous-
ensemble 

Accédées de façon unitaire par une personne à la fois 

Exigence       différente,     haute

disponibilité ponctuelle 

Haute disponibilité en
continu 

Peuvent être redondantes 

Uniques (pas de redondance
en théorie) 

Grande quantité de données utilisée par les traitements 

Petite quantité de données utilisées par un traitement 

Cycle de vie différent 

Réalisation des opérations
au jour le jour 

Faible probabilité d’accès 

Forte probabilité d’accès 

Utilisée de façon
aléatoire 

Utilisées de façon
répétitive 

Tableau I. 3.Parallélisme entre les
données décisionnelles et opérationnelles

I.8.  QUELQUES
CONCEPTS DE SYSTEME DECISIONNEL (BI)

Les
éléments de la chaîne décisionnelle se répartissent en 4 catégories remplissant

chacune une fonction précise du
processus de décision.

 

 

1.     
ETL : Extract pour extraction des données, Transform
pour transformer les données et en fin Load pour le chargement des
données. Cet outil se charge de collecter les données de l’ensemble des bases
de production de l’entreprise, vérifier leur cohérence, les organiser et les
insérer dans l’entrepôt.

2.     
Data WareHouse : Une fois collectées et consolidées par
l’ETL, les données sont stockées dans un entrepôt appelé Data WareHouse ou DW.

3.     
Le Portail décisionnel : Il a pour objectif de distribuer
l’information auprès de l’ensemble des partenaires et de banaliser l’accès au
Data WareHouse. En effet, un simple navigateur web est suffisant pour accéder
aux informations de l’entreprise. L’utilisateur une fois connecté, peut
exploiter ses tableaux de bords, consulter ses sources d’information etc.

4.     
Les outils de reporting et d’analyse : Hébergés dans le
portail décisionnel, ces outils permettent de restituer l’information aux
utilisateurs sous forme d’indicateurs.

Avec l’accroissement des besoins en
matière de décision, tant en termes de volume de données qu’en termes de
variété de leurs sources, de nouveaux concepts sont apparus au début de la
décennie quatre-vingt-dix : l’Entrepôt de données (Data WareHouse en Anglais).
Et ainsi que des magasins de données (DataMart en Anglais). Il y a eu trop des
avancés dans l’informatique décisionnel et ces avancées technologiques mettent
désormais à la disposition des décideurs des données « travaillées » en vue de
la prise de décision. De nombreux outils décisionnels, allant des tableurs
traditionnels jusqu’aux tableaux de bord électroniques, peuvent s’alimenter à
partir d’un entrepôt de données (DW) potentiellement riche en données.
D’où partant de ceci nous parlerons dans le point suivant de ce chapitre sur le
Data WareHouse.

Eu égard à ce qui
précède, le système décisionnel tâche de donner un aperçu universel ou
syncrétique de l’entreprise via  des outils d’analyse  pour aider les décideurs
à la prise des décisions. C’est un système d’organisation de l’ensemble de
données historisées dans le temps, organisées par sujets (thèmes), consolidé à
partir des différentes sources dans une base de données unique (data
warehouse), géré dans un environnement de stockage particulier, fournissant des
synthèses d’information aidant à la prise de décision dans l’entreprise.

CHAPITRE
II. DATAWAREHOUSE ET L’ARBRE DE DECISION

II.1.
DATAWAREHOUSE

II.1.1.
Introduction  

L’informatique décisionnelle ou « Business
Intelligence
» est un système apparu au milieu des années 80 qui interprète
les données complexes de l’entreprise et aide les dirigeants à prendre des
meilleures décisions. L’objectif de l’informatique décisionnelle est de définir
les méthodes et les outils qui permettront à une entreprise de mettre en place
son projet décisionnel. Ces outils facilitent l’accès aux données globales de
l’entreprise. Pour cela, il est nécessaire de mettre en place des techniques
décisionnelles capable de traiter de gros volume de données. Il s’agit de
l’entreposage de données « Data Warehouse et Data Mart ».   

L’entreposage de données est une
collection de données intermédiaire qui permet de stocker les informations
provenant des sources externes, des applications de productions, d’Internet…

Ces données sont alimentées par le biais des outils informatique appelés ETL
« Extract, Transform, Load » et qui sont structurées de
manière historisés , intégrés, datés, et non volatiles dans l’entrepôt de
données.   

Ne vous
êtes-vous jamais demandé comment est choisi l’emplacement des

produits dans une grande surface ? Si c’est par pur «
feeling » du responsable ou bien par une stratégie marketing bien plus
élaborée… Ou bien encore par quel moyen, la publicité nominative (postal ou par
mail) est bien souvent en relation directe avec nos habitudes de consommations
? La réponse tient en un mot : le data warehouse. Dès que nous achetons un
produit, émettons un appel téléphonique, en quelques mots : toute action liée à
l’activité d’une entreprise est stockée dans un data warehouse pour en être
analyser, via des outils de data mining. Ceci dans un but bien précis : celui
de nous connaître afin de mieux identifier nos besoins.   

« Ne pas anticiper, c’est déjà
mourir », Aujourd’hui, toute entreprise doit pouvoir anticiper des événements
de plusieurs types : évolution du marché, fluctuation de la consommation. Elles
doivent également « profiler » ses clients afin de mieux les satisfaire, voir
même de savoir créer un nouveau besoin chez les consommateurs. Elle va devoir
remettre en cause certain choix, prendre des risques, se recentrer sur des
secteurs d’activité ou au contraire s’élargie sur des nouveaux. Bref, elle va
devoir prendre des décisions. Des décisions stratégiques ayant une forte
répercussion sur la santé financière de l’entreprise. Dans cette situation, une
entreprise utilisera un système décisionnel pour s’aider dans cette prise de
décision. Mais ces entrepôts de données, constituant principal d’un système
informatique décisionnel ont bien d’autres fonctions. Ils apportent une aide
bien précieuse aux dirigeants des sociétés en leur fournissant une vue
synthétique de leur entreprise. Une connaissance qu’ils ne sauraient extraire
autrement. Pour cela, le data warehouse doit contenir l’ensemble des données de
l’entreprise.   

Une fois que le Data Warehouse est
créé, on peut mettre en place de reporting et d’analyse pour différents
services, en suite on va construire par service un mini Data Warehouse qui
contiendra uniquement les données qui sont utilisées au sein du service, ce
mini Data Warehouse est appelé Data Mart.  Ce dernier vise une problématique
précise avec un nombre d’utilisateur plus restreint, répondant chacun à une
nécessité claire identifiée et définie. Les dirigeants veulent également
analyser les années mises à leur disposition et visualiser les informations (indicateurs)
par rapport aux différents axes d’analyse, ce qui nécessite de s’appuyer sur
une information pré-packagée et fortement structurée.   

Les outils OLAP répondent à ces
besoins. « Un data warehouse ne s’achète pas, il se construit. » Pour utiliser
à bon escient un produit, il faut le connaître. Cela est également vrai pour un
data warehouse.   

« Les
données ne naissent pas pertinentes ou intelligentes, mais elles les

deviennent… ». Le but ultime d’un data
warehouse est de corréler toutes les informations qu’il contient afin de
fournir au décideur un schéma et/ou une connaissance plus ou moins détaillée de
la problématique soumise. Mais un data warehouse aussi bien pensé soit-il,
n’est rien sans de bon outils de recherche.  

 Un
entrepôt de donnée peut contenir plusieurs téraoctets de donnée. Il faut donc

des outils spécialisés dans la recherche d’information dans
cet environnement. Cet outil, ou cet ensemble d’outils est appelé data
mining
.

 

  

II.1.2.
Objectifs du Data Warehouse  

L’atout principal d’une entreprise
réside dans les informations qu’elle possède. Les informations se présentent
généralement sous deux formes : les systèmes opérationnels qui enregistrent les
données et le Data Warehouse. En bref, les systèmes opérationnels représentent
l’emplacement de saisie des données, et l’entrepôt de données l’emplacement de
restitution.  

Les objectifs fondamentaux du Data
Warehouse sont :  

      Rendre
accessibles les informations de l’entreprise
: le contenu de l’entrepôt
doit être compréhensible et l’utilisateur doit pouvoir y naviguer facilement et
avec rapidité. Ces exigences n’ont ni frontières, ni limites. Des données
compréhensibles sont pertinentes et clairement définies. Par données navigables,
on n’entend que l’utilisateur identifie immédiatement à l’écran le but de ses
recherches et accède au résultat en un clic. 

      Rendre
cohérentes les informations d’une l’entreprise
: les informations provenant
d’une branche de l’entreprise peuvent être mise en corrélation avec celles
d’une autre branche. Si deux unités de mesure portent le même nom, elles
doivent alors signifier la même chose. A l’inverse, deux unités ne signifiant
pas la même chose doivent être définie différemment. Une information cohérente
suppose une information de grande qualité. Cela veut dire que l’information est
prise en compte et qu’elle est complète. 

      Constituer
une source d’information souple et adaptable
: l’entrepôt de données est
conçu dans la perspective de notifications perpétuelle, l’arrivée de questions
nouvelles ne doit bouleverser ni les données existantes ni les technologies. La
conception de Data Marts distincts composant un entrepôt de données doit être
répartie et incrémentielle. 

     
Représenter un bastion sécurisé qui protège la capitale
information :
l’entrepôt de données ne contrôle pas seulement l’accès aux
données, mais il offre à ses gestionnaires une bonne visibilité des
utilisations.

      Constituer
la base décisionnelle de l’entreprise :
l’entrepôt de données recèle en son
sein les informations propres à faciliter la prise de décisions.    

II.1.3.
Le rôle du data warehouse  

La chaîne décisionnelle est composée de
trois parties :  

a.      Alimentation
du Data Warehouse  

b.      Modélisation  

c.      Restitution
des données : Analyse et prise des décisions  

Le rôle primordial d’un data warehouse
apparaît ainsi évident dans une stratégie descensionnelle. L’alimentation du
data warehouse en est la phase la plus critique.

L’alimentation est la procédure qui permet de
transférer des données du système opérationnel vers le DW[1].
En effet, importer des données inutiles apportera de nombreux problèmes. Cela
consommera des ressources système et du temps. De plus, cela rendra les
services d’analyses plus lents. Autre point à prendre en compte et la
périodicité d’extraction des données.  

Effectivement, le plus souvent, les
opérations de collecte de données sont coûteuses en ressource. Il faut donc
trouver un équilibre entre le délai acceptable entre deux mises à jours des
tables du data warehouse et les ressources consommées. Comme nous l’avons
indiqué, le Data warehouse est le centre de chaîne décisionnelle, les
utilisateurs n’auront accès qu’aux outils de requête et d’analyse. Toutes
parties de l’alimentation et celles de restitution des données sont gérées par
une équipe informatique interne ou externe à l’entreprise spécialisée en
gestion de base de données et en décisionnel.   

II.1.4. 
Les composants de base du Data Warehouse  

a)    
Le système source : est le système d’opération
d’enregistrement, dont la fonction consiste à capturer les transactions liées à
l’activité. 

b)    
Zone de préparation des données : ensemble des processus qui
nettoient, transforment, combinent, archivent, suppriment les doublons,
c’est-à-dire prépare les données sources en vue de leur intégration puis de
leur exploitation au sein du Data Warehouse. La zone de préparation des données
ne doit offrir ni service des requêtes, ni service de présentation. 

c)    
Serveur de présentation : machine cible sur laquelle
l’entrepôt de données est stocké et organisé pour répondre en accès direct aux
requêtes émises par des utilisateurs, les générateurs d’état et les autres
applications.

d)    
Data Mart : sous-ensemble logique d’un Data Warehouse, il est
destiné à quelques utilisateurs d’un département. Entrepôt de données : source
de données interrogeable de l’entreprise. C’est tout simplement l’union des
Data Marts qui le composent. 

e)     L’entrepôt
de données
est alimenté par la zone de préparation des données.

L’administrateur de l’entrepôt de
données est également responsable de la zone de préparation des données. 

f)     
OLAP (On Line Analytic Processing) : Activité globale de
requêtage et de présentation de données textuelles et numériques contenues dans
l’entrepôt de données ; style d’interrogation et de présentation spécifiquement
dimensionnel. 

g)    
ROLAP (Relational OLAP) : ensemble d’interface utilisateur et
d’applications donnant une vision dimensionnelle des bases de données
relationnelles. 

h)    
MOLAP (Multidimensional OLAP) : ensemble d’interface
utilisateur et d’applications dont l’aspect dimensionnel est prépondérant. 

i)      
Application utilisateur : ensemble d’outils qui interrogent,
analysent et présente des informations répondant à un besoin spécifique.
L’ensemble des outils minimal se compose d’outil d’accès aux données, d’un
tableur, d’un logiciel graphique et d’un service d’interface utilisateur, qui
suscite les requêtes et simplifie la présentation de l’écran aux yeux de
l’utilisateur. 

j)     
Outil d’accès aux données : client de l’entrepôt de données.

k)    Outil de
requête
: types spécifique d’outil d’accès aux données qui invite
l’utilisateur à formuler ses propres requêtes en manipulant directement les
tables et leurs jointures. 

l)      
Application de modélisation : type de client de base de
données sophistiqués doté de fonctionnalités analytiques qui transforment ou
mettent en forme les résultats obtenus ; on peut avoir :  

        
Les modèles prévisionnels, qui tentent d’établir des prévisions d’avenir

        
Les modèles de calcul comportemental, qui catégorisent et classent les
comportements d’achat ou d’endettement des clients ;  – La plupart des outils de Data mining. 

m) 
Métadonnées : toutes informations de l’environnement du Data
Warehouse qui ne constituent pas les données proprement dites.  

II.1.5. Caractéristique
d’un Data Warehouse  

Un Data Warehouse est une
collection de données conçue pour l’interrogation et l’analyse plutôt que le
traitement de transactions. Il contient généralement des données historiques
dérivées de données transactionnelles, mais il peut comprendre des données
d’autres origines. Les Data Warehouse séparent la charge d’analyse de la charge
transactionnelle. Ils permettent aux entreprises de consolider des données de
différentes origines. Au sein d’une même entité fonctionnelle, le Data
Warehouse joue le rôle d’outil analytique.   

En complément d’une base de données,
un Data Warehouse inclut une solution d’extraction, de transformation et de
chargement (ETL), des fonctionnalités de traitement analytique en ligne (OLAP)
et de Data mining, des outils d’analyse client et d’autres applications qui
gèrent le processus de collecte et de mise à la disposition de
données.          

II.1.6. Différence
entre les Systèmes OLTP et le Data Warehouse  

Les Data Warehouse et les Systèmes
OLTP (On Line Transaction Processing) répondent à des besoins très différents.
Les Data Warehouse conçus pour prendre en charge des interrogations. La taille
du Data Warehouse n’est pas connue à l’avance. Par conséquent, celui-ci doit
être optimisé pour offrir de bonnes performances dans le cadre d’opérations
d’interrogation très diverses.   

 

Les systèmes OLTP prennent
généralement en charge des opérations prédéfinies. Les applications peuvent
être réglées ou conçues spécifiquement pour ces opérations. Un Data Warehouse
est mise à jour régulièrement par les processus ETL (Extraction, Transformation
and Loading), un système de chargement de données en masse

soigneusement défini et contrôlé.
Il n’est pas mise à jour directement par les utilisateurs.   

Dans les systèmes OLTP, les
utilisateurs exécutent régulièrement des instructions qui modifient les données
de la base. La base de données OLTP est à jour en permanence et elle reflète
l’état actuel de chaque transaction. Les Data Warehouse utilisent souvent des
schémas dénormalisés ou partiellement dénormalisés (tels que le schéma en
étoile) pour optimiser les performances des interrogations. A l’inverse, les
systèmes OLTP ont souvent recours à des schémas totalement normalisés pour
optimiser les performances des opérations de mise à jour, d’insertion et de
suppression, et pour garantir la cohérence des données. Il s’agit là des
différences générales, elles ne doivent pas être considérées comme des
distinctions strictes et absolues.  

De manière générale, une
interrogation portant sur un Data Warehouse balaye des milliers voire des
millions de lignes. En revanche, une opération OLTP standard accède à quelque
enregistrement seulement. Le Data Warehouse contient généralement des données
correspondant à plusieurs mois ou années.  Cela permet d’effectuer des analyses
historiques. Les systèmes OLTP contiennent généralement des données quelque
semaine ou mois. Ils conservent uniquement des données historiques nécessaires
à la transaction en cours.          

II.1.7.
La problématique de l’entreprise.  

Ce titre amène naturellement à
définir la position de l’entreprise par rapport au sujet “ le Data warehouse
”.   Une entreprise se doit en permanence de pouvoir se situer par rapport à la
concurrence, mais également par rapport à la demande et à ce qu’elle peut
offrir.  C’est sur ces points qu’un système décisionnel intervient.   

L’entreprise
construit un système décisionnel pour améliorer sa performance, elle doit
décider et anticiper en fonction de l’information disponible et capitaliser sur
ses expériences.  

Entreprise : est une
organisation dotée d’une mission et d’un objectif métier
. Elle doit sa
raison d’être et /ou sa pérennité au travers de différent objectifs (sécurité,
développement, rentabilité …). Par voie de conséquence, cette organisation
humaine est dotée d’un centre de décision. 

Rôle
de décideur : il peut être le responsable de l’entreprise, le
responsable d’une

fonction ou d’un secteur. Il est donc celui qui
engage la pérennité ou la raison d’être de l’entreprise. Pour ces raisons, il
doit s’entourer de différents moyens lui permettant une prise de décision la
plus pertinente. Parmi ces moyens, les Data Warehouse ont une place
primordiale. En effet, ils contiennent les données de toute l’activité de
l’entreprise. Le principal problème réside dans l’exploitation de ces
informations. Pour cela, il est primordial de penser au data mining.  

Le besoin : Pour faire face à la
concurrence qu’engendre la mondialisation, les entreprises doivent être de plus
en plus performantes et rapides dans leurs prises de décisions. D’autre part,
les volumes de données suivent un accroissement continu pouvant atteindre
plusieurs Téraoctets pour une société. Bien entendu, ces informations ne se
trouvent pas sur un système unique. Ceci pose la problématique suivante :
Comment prendre des décisions sur la base d’informations issues de systèmes
hétérogènes n’aillant pas de moyens pour communiquer facilement entre eux.  Le
data warehouse répond en partie à cette problématique. En effet, cette base de
données regroupe l’ensemble des informations de l’entreprise de façon cohérente
dans le but  de faciliter l’analyse et la prise de décision.

L’administration, qui gère le
dictionnaire de données et le processus d’alimentation de bout en bout, car le
système d’information décisionnelle doit être luimême piloté. En pratique, les 
fonctions  de  collecte  et  d’ intégration  sont  étroitement  liées  entre 
elles,  et  sont généralement associées au data warehouse. De même, diffusion
et présentation sont des fonctions fortement orientées  sujet,  tournées  vers 
l’ utilisateur  et  son métier, manipulant des  contenus  à  forte valeur 
ajoutée  informationnelle  et non des données brutes;  elles  sont donc
fortement imbriquées logiquement et techniquement.   

 

Dans notre monde actuel, fait de
communications, une entreprise pour survivre doit pouvoir se situer face à la
concurrence, connaître son rapport offre / demande. Pour cela, il faut se
connaître, et l’informatique décisionnelle, au travers d’un data warehouse
apporte tous les éléments de réponse.   

II.1.8.
Définition du Data Warehouse  

Un entrepôt de
données ou data warehouse se définit comme étant un ensemble de données
intégrées, orientées sujet, non volatiles, gérées dans un environnement de
stockage particulier, historisées, résumées, disponibles pour  l’interrogation
et l’analyse et organisées pour le support d’un processus d’aide à la
décision.   

Les données
d’un data warehouse possèdent les caractéristiques suivantes :   a) Intégrées

Les données de l’entrepôt
proviennent de différentes sources éventuellement hétérogènes(OLTP).
L’intégration consiste à résoudre les problèmes d’hétérogénéité des systèmes de
stockage, des modèles de données, de sémantique de données.  Ainsi l’idée
d’intégration des données dans l’entrepôt revêt l’alimentation d’OLAP de
données externes (données issues d’OLTP).

b)    
Orientées sujet   

Le Data
Warehouse est organisé autour des sujets majeurs de l’entreprise.

L’intérêt de cette organisation est de disposer de
l’ensemble des informations utiles sur un sujet le plus souvent transversal aux
structures fonctionnelles et organisationnelles de l’entreprise ; nous pouvons
donc dire que ce sujet doit toucher ou concerner tous les départements de
l’entreprise. 

c)    
Non volatiles   

Tout se conserve, rien ne se perd.
Cette caractéristique est primordiale dans les entrepôts de données. En effet,
et contrairement aux bases de données classiques, un entrepôt de données est
accessible en ajout ou en consultation uniquement. Les modifications ne sont
autorisées que pour des cas particuliers (correction d’erreurs…etc.).   

 

d)    
Historisées  

La conservation de l’évolution des
données dans le temps, constitue une caractéristique majeure des entrepôts de
données. Elle consiste à s’appuyer sur les résultats passés pour la prise de
décision et faire ainsi des prédictions ; autrement dit, la conservation des
données afin de mieux appréhender le présent et d’anticiper (prédire) le
futur.   

e)    
Résumées ou agrégées   

Les informations issues de sources
de données doivent être agrégées et réorganisées afin de faciliter le processus
de prise de décision. Il est à noter que les données d’une base de données sont
détaillées tandis que celles d’un data warehouse sont agrégées (résumées) pour,
comme dit tantôt, faciliter le processus de la prise de décision disponible.   

f)     
Disponibles pour l’interrogation et l’analyse    

Les utilisateurs doivent pouvoir
consulter les données en fonction de leurs droits d’accès. L’entrepôt de
données doit comporter un module de traitement des requêtes, exprimées dans un
langage, doté d’opérateurs puissants, pour l’exploitation de la richesse du
modèle.  

 Inconvénient  

De par sa taille,
le DW est rarement utilisé directement par les décideurs car il contient plus
que nécessaire pour une classe de décideurs[2].

II.1.9.
La Modélisation de données  

Ici, il est question de la
modélisation dimensionnelle qui nous dispose un modèle multidimensionnel. Cette
modélisation est souvent appelée la modélisation OLAP se présentant comme une
alternative au modèle relationnel. Elle correspond mieux aux besoins du
décideur tout en intégrant la modélisation par sujet. Avec la modélisation
dimensionnelle, nous passons à la présentation des données sous forme de cube
centré sur une activité mais non plus sous forme de tables comme il en est le
cas dans le modèle Entité/Association. 

II.1.9.1.
Modélisation Entité/Relation   

Cette modélisation est une
discipline qui permet d’éclairer les relations microscopiques entre les
données. Dans sa forme la plus simple, elle permet de supprimer toute
redondance de données. Ceci apporte de nombreux avantages au niveau du
traitement des transactions, qui deviennent alors très simples et
déterministes.   

II.1.9.
2. Modélisation dimensionnelle        

Cette modélisation est une méthode
de conception logique qui vise à présenter les données sous une forme
standardisée intuitive et qui permet des accès hautement performants. Elle
adhère totalement à la dimensionnalité ainsi qu’à une discipline qui exploite
le modèle relationnel en le limitant sérieusement. Chaque modèle dimensionnel
se compose d’une table contenant une clé multiple, table des faits, et
d’un ensemble de tables plus petite nommées, tables dimensionnelles.
Chacune de ces dernières possède une clé primaire unique, qui correspond
exactement à l’un des composants de la clé multiple de la table des faits.   

Dans la mesure où
elle possède une clé primaire multiple reliée à au moins deux clés externes, la
table des faits exprime toujours une relation n, n (plusieurs à
plusieurs).  

II.1.9.3.
Relation entre la Modélisation Dimensionnelle et la Modélisation

Entité/Relation  

Pour
mieux appréhender la relation qui existe entre la modélisation dimensionnelle
et la modélisation entité/relation, il faut comprendre qu’un seul schéma
entité/relation se décompose en plusieurs schémas de table des faits.   

La modélisation
dimensionnelle ne se met pas à son avantage en représentant sur un même schéma
plusieurs processus qui ne coexistent jamais au sein d’une série de données et
à un moment donné. Ce qui le rend indûment complexe. Ainsi, la conversion d’un
schéma entité/relation en une série de schémas décisionnels consiste à scinder
le premier en autant de sous schémas qu’il y a de processus métier puis de les
modéliser l’un après l’autre.   

La
deuxième étape consiste à sélectionner les relations n,n (plusieurs à
plusieurs)

contenant des faits numériques et
additifs (autres que les clés) et d’en faire autant de table des faits.  

La troisième étape consiste à
dénormaliser toutes les autres tables en table non séquentielle dotées de clés
uniques qui les relient directement aux tables des faits. Elles deviennent
ainsi des tables dimensionnelles. S’il arrive qu’une table dimensionnelle soit
reliée à plusieurs tables des faits, nous représentons cette table
dimensionnelle dans les deux schémas et dirons des tables dimensionnelles
qu’elles sont conformes d’un modèle à l’autre.           

II.1.9.4.
Avantages de la modélisation dimensionnelle  

Le modèle
dimensionnel possède un grand nombre d’avantages dont le modèle entité/relation
est dépourvu :

Premièrement,
le modèle dimensionnel est une structure prévisible et

standardisée. Les générateurs d’états, outils de
requête et interfaces utilisateurs peuvent reposer fortement sur le modèle
dimensionnel pour faire en sorte que les interfaces utilisateurs soient plus
compréhensibles et que le traitement soit optimisé.

La deuxième force du modèle
dimensionnel est que la structure prévisible du schéma en étoile réside aux
changements de comportement inattendus de l’utilisateur. Toutes les dimensions
sont équivalentes.

Le troisième avantage du modèle
dimensionnel réside dans le fait qu’il est extensible  pour accueillir des
données et des besoins d’analyse non prévus au départ.

Ainsi, il est possible d’accomplir :   

        
Ajouter des faits nouveaux non prévus initialement ; 

        
Ajouter des dimensions totalement nouvelles ; 

        
Ajouter des attributs dimensionnels nouveaux non prévus initialement ; 

        
Décomposer les enregistrements d’une dimension existante en un niveau de
détail plus fin à partir d’une date déterminée.

II.1.9.5.
Schémas d’un Data Warehouse  

Un schéma est un ensemble d’objets
de la base de données tels que les tables, des vues, des vues matérialisées,
des index et des synonymes. La conception du schéma d’un Data Warehouse est
guidée par le modèle des données source et par les besoins utilisateurs. L’idée
fondamentale de la modélisation dimensionnelle est que presque tous les types
de données peuvent être représentés dans un cube de données, dont les cellules
contiennent des valeurs mesurées et les angles les dimensions naturelles de
données.  

II.1.9.5.1.
Les objets d’un schéma de Data Warehouse  

Les
deux types d’objet les plus courants dans les schémas de Data Warehouse

sont les tables de faits et les
tables de dimension. 

Tables de faits 

La table de faits constitue une table
de référence centrale permettant d’accéder aux événements ou activités archivés
et inhérents à un processus déterminé. Une table de faits contient
essentiellement des informations numériques : une clé composée permettant de se
référer aux lignes des tables de dimension ( les tables « temps », « client »,
« produit

» et « magasin ») et
un certain nombre de valeurs mesurées susceptibles d’être agrégées et pouvant
être attribuées à un fait déterminé (en l’occurrence : quantité, chiffre
d’affaires et coûts)[3].  

Tables de dimensions   

Une dimension est une structure
comprenant une ou plusieurs hiérarchies qui classe les données en catégories.
Les dimensions sont des étiquettes descriptives fournissant des informations complémentaires
sur les faits, qui sont stockées dans les tables de dimension. Il s’agit
normalement de valeurs textuelles descriptives. Plusieurs dimensions distinctes
combinées avec les faits permettant de répondre aux questions

relatives à l’activité de
l’entreprise.   

Les
données de dimension son généralement collectées au plus bas niveau de

détail, puis agrégées aux niveaux
supérieurs en totaux plus intéressants pour l’analyse, ces agrégations ou
cumuls naturels au sein d’une table de dimension sont appelés des hiérarchies .
Les hiérarchies sont des structures logiques qui utilisent les niveaux ordonnés
pour organiser les données.   

Pour
une dimension temps, par exemple, une hiérarchie peut agréger les données

selon le niveau mensuel, le niveau trimestriel, le
niveau annuel. Au sein d’une hiérarchie, chaque niveau est connecté logiquement
aux niveaux supérieurs et inférieurs. Les valeurs des niveaux inférieurs sont
agrégées en valeurs de niveau supérieur.        

II.1.9.5.2
Le Schéma en Etoile (star schema)  

Le schéma en étoile peut être le
type le plus simple de schéma de Data Warehouse, il est dit en étoile parce que
son diagramme entité/relation ressemble à une étoile, avec des branches partant
d’une table centrale.   

Un schéma en étoile est caractérisé
par une ou plusieurs tables de faits, très volumineuses, qui contiennent les
informations essentielles du Data Warehouse et par un certain nombre de tables
de dimension, beaucoup plus petites, qui contiennent chacune des informations
sur les entrées associées à un attribut particulier de la table de faits. Une
interrogation en étoile est une jointure entre une table de faits et un certain
nombre de table de dimensions. Chaque table de dimension est jointe à la table
de faits à l’aide d’une jointure de clé primaire à clé étrangère, mais les
tables de dimension ne sont pas jointes entre elles.   

Dans un schéma en étoile, une table
centrale de faits contenant les faits à analyser, référence les tables de
dimensions par des clefs étrangères. Chaque dimension est décrite par une seule
table dont les attributs représentent les diverses granularités possibles.   

Les schémas en
étoile présentent les avantages suivants : ils fournissent une correspondance
directe et intuitive entre les entités fonctionnelles analysées par les
utilisateurs et la conception du schéma. Ils sont pris en charge par un grand
nombre d’outils décisionnels. La manière la plus naturelle de modéliser un Data
Warehouse est la représenter par un schéma en étoile dans lequel une jointure
unique établit la relation entre la table de faits et chaque table de
dimension. 

Un schéma en étoile optimise les
performances en contribuant à simplifier les interrogations et à raccourcir les
temps de réponse. Les schémas en étoile présentent néanmoins quelques limites.
La table centrale peut devenir très volumineuse, sa taille maximale étant
déterminée par le produit des nombres de lignes des tables de dimension. En
outre, les tables de dimension ne sont plus normalisées. Elles sont donc plus
volumineuses et plus difficiles à tenir à jour car elles contiennent beaucoup
de données dupliquées.   

 

II.1.9.5.3.
Le Schéma en Flocon (Snowflake schema)

Ce modèle est
l’unique modèle  faisant partie de la modélisation logique. Les schémas en
flocons normalisent les dimensions pour éliminer les redondances. Autrement
dit, les données de dimension sont stockées dans plusieurs tables et non dans
une seule table de grande taille. Cette structure de schéma consomme moins
d’espace disque, mais comme elle utilise davantage de tables de dimension, elle
nécessite un plus grand nombre de jointures de clé secondaire. Les
interrogations sont par conséquent plus complexes et moins performantes.   

Dans un schéma en flocon, cette même
table de faits, référence les tables de dimensions de premier niveau, au même
titre que le schéma en étoile. La différence réside dans le fait que les
dimensions sont décrites par une succession de tables (à l’aide de clefs
étrangères) représentant la granularité de l’information. Ce schéma évite les
redondances d’information mais nécessite des jointures lors des agrégats de ces
dimensions.   

Le principal avantage du schéma en
flocons est une amélioration des performances des interrogations due à des
besoins réduits en espace de stockage sur disque et la petite taille des tables
de dimension à joindre. Le principal inconvénient de ce schéma est le travail
de maintenance supplémentaire imposé par le nombre accru de tables de
dimension. 

Dans un schéma en constellation,
plusieurs modèles dimensionnels se partagent les mêmes dimensions,
c’est-à-dire, les tables de faits ont des tables de dimensions en commun.  

Pour conclure,
les différences entre ces trois modèles sont faibles et ne peuvent donner lieu
à des comparaisons de performance. Ce sont des schémas issus de la modélisation
dimensionnelle utilisés par les outils décisionnels. 

II.1.10.
Architecture du Data Warehouse    

Une
fois la structure du data warehouse définie, les données doivent être insérées.

L’outil qui va permettre le remplissage de
notre base est l’ETL (ExtractTransform

Loading). Comme son nom l’indique, il commence
par extraire les données provenant de différentes sources (Excel, SQL
server
MySQL…), les transforme si besoin est, puis les charge dans
le data warehouse.    

Les systèmes opérationnels, bases
de données indispensable à la vie d’une entreprise, permet d’avoir une activité
journalière (gestion de stocks, base de fournisseurs/clients, etc.). Ceci n’est
pas le rôle d’un data warehouse, couplé à des outils de data mining il n’a pour
unique but de faciliter la prise de décision en apportant une vue synthétisée
de l’ensemble des données de l’entreprise éparpillées dans toutes ces bases
opérationnelles.     

Les données ayant été identifiées,
elles doivent être extraites de leurs système sources, transformées puis
acheminées jusqu’aux serveurs de présentation. Elles sont ensuite mises à
disposition dans le but d’être utilisées efficacement par les clients du Data
Warehouse.   

L’élaboration de l’architecture et
l’établissement des priorités doivent en premier lieu être piloté par les
besoins métier. L’architecture du Data Warehouse présente les processus et les
outils qui s’appliquent aux données. Elle répond aux comment récupérer les
données sources, comment leur donner une forme répondant aux besoins et comment
les placer à un endroit accessible ? Les outils, les utilisateurs, le code,
tout ce qui donne vie à l’entrepôt de données fait partie de l’architecture.
Ces composants constituent les pompes et les canalisations qui régulent les
flux des données et les dirigent au bon endroit au bon moment. Les emplacements
d’origine et de destination des données font également partie de
l’architecture.  

Deux sous-ensembles de
l’architecture répondent à des besoins suffisamment distincts pour être pris en
considération séparément. Nous avons la zone de construction (back room)
et les outils frontaux (front room). La zone de construction effectue
la collecte et la préparation des données
. Le terme acquisition des
données
est également utilisé pour désigner la zone de construction. Les
outils frontaux sont chargés de livrer les données aux utilisateurs
. On
parle également d’accès aux données. Ces deux parties disposent chacune de
leurs propres composants de stockage de données.  

D’un point de vue général, les
données quittent les systèmes source pour la zone de préparation grâce aux
applications incluses dans la couche de services de préparation de données. Ce
flux est piloté par les métadonnées contenues dans le catalogue des métadonnées
: données qui décrivent les emplacements et les définitions des sources
et des cibles, les transformations de données, les périodicités des traitements
et les dépendances
. Une fois que les données sont combinées et alignées
dans la zone de préparation, le même groupe de services est utilisé pour
sélectionner, agréger et restructurer les données en leur donnant un format
exploitable par un processus d’aide à la décision. Ces données sont chargées
sur les plates-formes de serveurs de présentation et reliées par des dimensions
et de faits conformes. Ainsi,une dimension conforme est une dimension qui a
la même signification dans toutes les tables de faits avec lesquelles elle peut
être liée
.     

 






            

Figure II.7.  Architecture d’un Data
Warehouse
[4]

II.1.11.
Conception d’un data warehouse (les techniques de réalisation)

Il
existe pratiquement trois approches de réalisation d’un Data Warehouse. Il

s’agit de :  

§ 
La technique Top-Down, préconisée par  Bill Inmon,

§ 
La technique Bottom-up, préconisée par Kimball, 

§ 
La technique Middle-out ou Hybride qui dérive des deux
premières approches. 

 

a. La technique Top-Down 

Cette
technique consiste à concevoir l’entrepôt intégralement. D’où la nécessité

de connaitre à l’avance toutes
les dimensions et tous les faits.  L’objectif ultime de cette technique est de
livrer une solution technologiquement saine basée sur des méthodes et
technologies éprouvées des bases de données. Les DataMart sont dépendantes
(prônée par B. Inmon).

Avantages
 

§ 
Offrir une architecture intégrée : méthode complète ; 

§ 
Réutilisation des données ; 

§ 
Pas de redondances ; 

§ 
Vision claire et conceptuelle des données de l’entreprise et du
travail à réaliser. 

 

 

Inconvénients
 

§  Méthode lourde ;  §
Méthode contraignante ; 

§ 
Nécessite du temps. 

 

b. La technique Bottom-up
(approche inverse)

Cette
approche consiste à créer les data-marts un par un puis les regrouper par des

niveaux intermédiaires jusqu’à
l’obtention d’un véritable entrepôt.  Cette technique a pour objectif de livrer
une solution permettant aux usagers d’obtenir facilement et rapidement des
réponses à leurs requêtes d’analyse. Elle a été préconisée par Kimball.

Avantages
 

§  Simple à réaliser ;  §
Résultats rapides ; 

§ 
Efficace à court terme. 

Inconvénients
 

§ 
Pas efficace à long terme ; 

§  Le volume de travail
d’intégration pour obtenir un entrepôt de données ; § Risque
de redondances (car réalisations indépendantes). 

c. La technique Middle-out ou
technique hybride
 

Cette approche, comme son nom l’indique,
est un mix des deux premières approches. On commence par concevoir un modèle de
données de l’entreprise en tenant en même temps compte de modèles spécifiques,
c’est-à-dire concevoir intégralement l’entrepôt de données (toutes les
dimensions, tous les faits, toutes les relations), puis créer en même temps des
divisions plus petites et plus gérables. 

Avantages

§ 
Développement d’un modèle de données d’entreprise de manière
itérative ; 

§ 
Possibilité de recharger les cubes ; 

§ 
Possibilité de garder les faits et les dimensions dans leur
détail de grain le plus fin

§ 
La possibilité de créer des agrégats ; 

§ 
Une plus grande flexibilité à retraiter les données, les corriger
§
Ne pas avoir à charger le détail dans les cubes.

Inconvénients 

 

§  Implique, parfois,
des compromis de découpage (dupliquer des dimensions identiques pour des
besoins pratiques) ; 

§ 
Cette approche entraîne une plus grande charge de travail aux
équipes d’administration et d’exploitation. 

II.1.12.
Les étapes de construction d’un DataWareHouse :

 

      Identification
du problème et du processus d’affaires
; Nous devons très bien définir les
problèmes limiter les horizons ; être inspecté par les experts du domaine.

      Identification
des dimensions :
Bien déterminer les objets sur les quels porteront les
analyses est aussi un aspect très important ; alors il faut s’atteler sur cet
aspect.

      Identification
des faits ;
Après identifié les dimensions, il faut pour un groupe des
dimensions connaitre l’événement ou les éléments à analyser.

II.1.13.
Alimentation du Data Warehouse par les outils ETL  

II.1.13.1.
Les opérations ETL  

Les données
contenues dans un data warehouse sont issues des différentes bases de données
de l’entreprise. Ces bases de production, systèmes opérants de l’entreprise,
correspondent à l’ensemble des applications informatiques utilisées au quotidien
dans l’entreprise pour son activité (gestion de production, gestion bancaire,
gestion commerciale,). Les informations qui y sont stockées, propres à chaque
application, peuvent parfois être utilisées par d’autres programmes, par
l’intermédiaire de transferts de données, couramment appelés interfaces.  

Nous allons
donc voir les outils et les méthodes permettant d’alimenter un data warehouse
tout en minimisant l’impact sur les systèmes de productions. La majorité des
systèmes d’information d’entreprise sont de nature hétérogène car   les
systèmes d’informations de l’entreprise s’élaborent le plus souvent sur de
longues périodes. Bien que la standardisation des échanges entre les divers
outils informatiques avance à grand pas, la disparité des formats des données
en circulation est toujours une réalité. C’est le principal obstacle
technologique aux échanges d’informations.   

Avant d’être
utilisables, les données de l’entreprise doivent être mises en forme, nettoyées
et consolidées. Les outils ETL (Extract, Transform, Load) permettent
d’automatiser ces traitements et de gérer les flux de données qui alimentent
l’entrepôt. Ces outils d’alimentation permettent aussi de paramétrer des règles
de gestion, propres à l’entreprise et à son secteur d’activité. Ces règles
visent elles aussi à assurer la cohérence entre les données et à ne stocker
dans l’entrepôt de données que des informations préalablement mises en relation
les unes avec les autres.    

Les outils ETL font référence à
plusieurs opérations qui s’articulent autour de trois axes majeurs :  

§ 
Extraction ;  § Transform ; 

§ 
Chargement. 

II.1.13.1.1.
Extraction   

L’extraction des données est la première
des étapes des systèmes ETL. Le but de cette étape, est comme son nom
l’indique, la lecture et l’extraction des données du système source. On imagine
facilement que cette étape s’avère être critique. En effet, dans le cas où le
système source doit fonctionner en permanence (24h/24 et 7jours sur 7), il faut
que l’extraction, opération coûteuse en ressources, doit être fait le plus
rapidement possible et souvent durant un laps de temps précis (souvent nommé «
extractwindow»), décidé en collaboration des équipes chargés de la gestion
et/ou de l’exploitation de ce système source.   

La complexité de l’extraction n’est pas
dans le processus de lecture, mais surtout dans le respect de l’extractwindow.
Cette contrainte est la principale raison de la séparation extraction /
transformation. D’autre part, on essaye au maximum d’extraire seulement les
données utiles (Mise à jour ou ajoutée après la dernière extraction) et pour ce
faire on pourrait s’entendre avec le responsable du système source pour ajouter
soit un flag ou encore des dates dans chacune des tables extraites, au moins
deux dates : Date de création de l’enregistrement dans la table et la date de
mise à jour (En général la plupart des systèmes sources disposent de ces deux
dates).   

Par ailleurs pour ne pas perdre des
données suites à des problèmes d’extraction, il est important de s’assurer que
le système source ne purge pas les données avant que l’entrepôt ne les ait
extraits. Le processus d’extraction est une des taches ETL les plus
consommatrices de temps car, outre la complexité des différents systèmes
source, la détermination exacte des données à extraire est difficile. De plus,
ce processus est répétitif, parfois dans des intervalles de temps très
rapprochés. La définition du processus d’extraction revient à choisir une
méthode d’extraction des données source, un processus de transport et un
processus de mise à jour de l’entrepôt (Data Warehouse).          

 II.1.13.1.2.Transform  

C’est l’opération qui réalise le
déplacement des données du système source vers le système cible. Par exemple,
le transport s’effectue :   

v D’un système source vers
l’entrepôt ou vers une zone de préparation (zone intermédiaire de stockage) ;

v D’une
zone de préparation vers l’entrepôt ; 

v De
l’entrepôt vers un Data mart ;  v etc. 

La transformation est la tâche
la plus complexe et qui demande beaucoup de réflexion.  

Voici les grandes fonctionnalités de transformation :  

      Nettoyage
des données ; 

      Standardisation
des données ; 

      Conformité
des données ; 

      Gestion
des tables de fait ; 

      Gestion
des dimensions ; 

      Affectations
des clés de substitution (surrogate key) ; 

      Gestion
de l’évolution lente (Slowlychanging dimension) ; 

      Gestion
des faits arrivant en retard ( Latearrivingfact) ; 
Gestion des lookups.

 II.1.13.1.3.
Chargement  
 

Le
chargement permet de transférer les données vers leur destination finale. 3 cas

de figures se présentent,
selon l’architecture mise en place :  

1)  de
charger les données dans l’entrepôt de données  

Si la politique retenue a été de
construire un entrepôt de données avec une base de données, alors les données
seront chargées dans l’entrepôt. Cette approche est proche à celle de Bill
Inmon
. Il sera dès lors possible d’utiliser des fonctionnalités analytiques
comme Oracle le permet.  

2)  de
les charger dans des cubes de données  

La deuxième
possibilité est de charger les données directement dans des cubes de données
sans les stocker dans un Data Warehouse. Cette approche est certainement la
plus proche à celle de Ralph Kimball. Un bon exemple est l’utilisation directe
des cubes de données.  

3)  le
mode hybride  

La
troisième possibilité est celle qui offre le plus d’avantages mais demande par

contre plus d’effort. Le
chargement des données s’effectue à la fois sur le data warehouse et les data
marts :  

      Un
premier chargement des données dans un entrepôt de données. 

      Un
deuxième chargement dans des cubes de données.  

Par contre cette approche ajoute une
charge de travail très considérable pour l’équipe de développement (Aucun
impact sur les utilisateurs) :  

      Une
base de données à créer et à maintenir. 

      Un
exercice de réflexion sur le modèle de données du data warehouse. 

      Un
autre exercice de réflexion sur le modèle des méta-données.  

La transformation de données consiste à :  

     
La constitution des historiques ; 

     
L’homogénéisation des nomenclatures des différentes sources ; 

     
L’intégration de données externes ; 

     
Filtrage, agrégation, mise à la granularité ;  

     
Nettoyage, suppression d’erreurs.  

Quant
au chargement de données, il consiste à insérer les données dans le Data

Warehouse, elles sont ensuite disponibles pour les
différents outils d’analyse et de présentation que sont le Data mining,
l’analyse multidimensionnelle OLAP, les analyses géographiques, les raquetteurs
et autres reportings.  

II.1.14.Le
Data Mart  

Un Data Mart
est un entrepôt qui stock des données provenant de systèmes opérationnels ou
d’autre sources, conçu pour répondre aux besoins spécifiques d’un département
ou d’un groupe d’utilisateurs en termes d’analyse, de contenu, de présentation
et de facilité d’emploi. Les informations y sont stockées dans un format qui
est familier aux utilisateurs. 

Un Data Mart
ressemble en fait à un Data Warehouse sauf qu’il est moins générique. Une
approche courante consiste à maintenir des informations détaillées au niveau du
Data warehouse et à les synthétiser dans un Data mart pour chaque groupe ou
département fonctionnel. Un autre choix de conception consiste à créer des Data
marts pour chaque département puis à fusionner ultérieurement ces données dans
l’entrepôt global. Chacune de ces méthodes présente l’avantage de centraliser
les informations pour les utilisateurs finaux.   

Les caractéristiques propres aux
Data Mart sont : 

      Les
données sont spécialisées pour un groupe ou département particulier ; Ils sont
conçus pour un accès facile ; 

      Le
temps de réponse est optimal pour un volume de requêtes moindre ; Les
différents Data Marts indépendants peuvent être dynamiquement couplé pour se
métamorphoser en Data Warehouse ; 

      Les
Data Marts sont plus flexibles que les Data Warehouse. 

En raison de la nature simplifiée et
spécialisée des Data Marts, les entreprises choisissent ces magasins de données
comme solution rapide à leurs besoins en matière d’aide à la décision.  

Data
Warehouse versus Data Mart    

Data warehouse

Data Mart

Utilisation globale de
l’entreprise

Utilisé par un département
ou une unité fonctionnelle

Difficile et plus long à
implémenter

Plus facile et rapide à
implémenter

Volume de données plus
important

Volume de données plus
petit et spécialisé

Développé sur la base de
données actuelle

Développé sur les bases des
besoins utilisateurs

Tableau .II.4.Data warehouse versus Data Mart

Les Data Marts
représentent de toute évidence une réponse rapide aux besoins des différents
départements de l’entreprise. Leur coût moindre et leur facilité d’emploi
permettent une implémentation rapide et un retour à l’investissement presque
immédiat. Il faut toutefois être prudent lorsque des Data marts sont ainsi
crées pour plusieurs divisions. 

Ces dernières
utilisent souvent des représentations différentes de certains concepts de
gestion. Par exemple, les départements de finance et marketing peuvent tous
deux effectué un suivi des ventes réalisées par l’entreprise, mais défini
différemment ce concept. 

Plus tard, si
un employé du marketing a besoin de recueillir certaines informations à partir
du Data Marts des finances, l’entreprise sera confrontée à un problème. Par
conséquent, une vision unifiée est nécessaire même pour concevoir des Data
marts par département.  

II.1.15.
OLAP  

II.1.15.1.
Présentation   

OLAP signifie «
OnLine Analytical Processing » repose sur une base de données
multidimensionnelle, destinée à exploiter rapidement les dimensions d’une
population de données

 

Le
modèle OLAP sera celui du Data Warehouse, il sera construit pour

sélectionner et croiser plusieurs données provenant des
sources diverses afin d’en tirer une information implicite. Ceci a évolué pour
aboutir à une méthode d’analyse permettant aux décideurs un accès rapide et de
manière pertinente présentée sous divers angles, dimensions sous forme de
cube. 

L’outil OLAP repose sur la
restructuration et le stockage des données dans un format multidimensionnel
issues de fichiers plats ou de bases de données relationnelles.

Ce format multidimensionnel est connu sous le nom d’hyper
cube, ce dernier organise les données le long de dimensions. Ainsi, les
utilisateurs analysent les données suivant les axes propres à leur métier. OLAP
est un mode de stockage prévu pour l’analyse statistique des données. Une base
de données OLAP peut se représenter comme un cube à N dimensions où toutes les
intersections sont pré calculées.   

II.1.15.2.
les différents outils OLAP   

II.1.15.2.1.
Multidimensionnel OLAP (MOLAP)  

Il est plus facile et plus cher à mettre
en place, il est conçu exclusivement pour l’analyse multidimensionnelle avec un
mode de stockage optimisé par rapport aux chemins d’accès prédéfinis. MOLAP
repose sur un moteur spécialisé, qui stocke les données dans format tabulaire
propriétaire (Cube). Pour accéder aux données de ce cube, on ne peut pas
utiliser le langage de requête SQL, il faut utiliser une API spécifique.  

II.1.15.2.2.
Relational OLAP (ROLAP)  

Il est plus
facile et moins cher à mettre en place, il est moins performant lors des phases
de calculs. En effet, il fait appel à beaucoup de jointure et donc les
traitements sont plus conséquents. Il superpose au-dessus des SGBD/R
bidimensionnels un modèle qui représente les données dans un format
multidimensionnel. ROLAP propose souvent un composant serveur, pour optimiser
les performances lors de la navigation dans les données. Il est déconseillé
d’accéder en direct à des bases de données de production pour faire des
analyses tout simplement pour des raisons des performances.  

 

 

II.1.15.2.3.
Hybride OLAP (HOLAP)  

HOLAP est une
solution hybride entre les deux (MOLAP et ROLAP) qui recherche un bon compromis
au niveau du coût et de la performance. HOLAP désigne les outils d’analyse
multidimensionnelle qui récupèrent les données dans de bases relationnelles ou
multidimensionnelles, de manière transparente pour l’utilisateur. Ces trois
notions se retrouvent surtout lors du développement des solutions. Elles
dépendent du software et hardware. Lors de la modélisation, on ne s’intéresse
qu’à concevoir une modélisation orientée décisionnelle, indépendamment des
outils utilisés ultérieurement.           

II.1.16.
La Navigation dans les données  

Les différentes possibilités de
navigation dans les bases de données sont :  

II.1.16.1.
Drill-Down et Drill-Up  

Le
Drill-Down et Drill-up désigne la faculté d’aller du niveau global vers le
niveau détaillé, et inversement.
Ce mécanisme est totalement basé sur la
notion de hiérarchie. Chacun des axes d’analyse se décompose en attributs
reliés entre eux par des relations père /fils. 

II.1.16.2.
Data Surfing  

Le Data Surfing est la possibilité de
laisser à l’utilisateur de circuler librement, de manière intuitive et
ergonomique dans un modèle dimensionnel, au-delà d’un simple

Drill-Down ou Slice and dice.
L’utilisateur peut alors modifier dynamiquement ses axes d’analyse ou
appliquer un nouveau filtre à ses données  

Nous ne pouvons
pas clore ce point sans parler de Data Mining car bien que le Data Warehouse
aide à stocker une quantité importante de données pour une entreprise, il faut
à cette dernière de les fouiller pour des fins exploratoires et analytiques à
travers les moyens automatiques ou semi-automatiques .Voilà pourquoi le Data
Mining est là pour s’occuper de cette opération. 

II.1.17.
LE DATAMINING 

Il est un
ensemble de techniques d’exploration et d’analyse, par des moyens automatiques
ou semi-automatiques d’une masse importante des données dans le but de
découvrir des tendances cachées ou des règles significatives.

Ce dernier regroupe trois axes
d’objectif importants :

§  Prédiction :
consiste à annoncer  les conséquences d’un évènement(ou une décision),  se
basant sur le passé.

§  Découverte de
règles cachées
: découvrir des règles associatives, entre différents
évènements.

§ 
Confirmation d’hypothèses : confirmer des hypothèses
proposées par les analystes et décideurs, et les doter d’un degré de
confiance. 

Ayant un
regard vers le serveur de base de données ou le serveur d’entrepôt de données,
le Data Mining est considéré comme un client riche de ces deux serveurs. C’est
un système Client/serveur par envoie des requêtes. Apres avoir lancé de
requêtes par rapport au fait à analyser, le client datamining applique des
méthodes ou procédures sur les données obtenues, afin d’obtenir les
informations nécessaires pour la prise de décision. 

Enfin, le data
warehouse offre une vision centralisée et globale des informations de
l’entreprise. Son but est de regrouper les données de l’entreprise pour des
fins analytiques et pour aider à la décision stratégique. il donne l’idée d’un
ensemble d’informations épurées, organisées, historisées et provenant de
plusieurs sources de données ou bases de production, servant aux analyses et à
l’aide à la décision. L’entrepôt de données est l’élément central de
l’informatique décisionnelle. En effet, l’entrepôt de données est le meilleur
moyen décelé par les professionnels pour modéliser de l’information conduisant
à des fins d’analyse.

 

II.2.
ARBRE DE DECISION

II.2.1.
Introduction à l’arbre de décision

Un arbre de
décision est une structure qui permet de déduire un résultat à partir de
décisions successives.
Pour parcourir un arbre de décision et trouver une
solution, il faut partir de la racine. Chaque nœud est une décision atomique.
Chaque réponse possible est prise en compte et permet de se diriger vers un des
fils du nœud. De proche en proche, on descend dans l’arbre jusqu’à tomber sur
une feuille. La feuille représente la réponse qu’apporte l’arbre au cas que
l’on vient de tester.[5]

Débuter
à la racine de l’arbre

Descendre
dans l’arbre en passant par les nœuds de test

La
feuille atteinte à la fin permet de classer l’instance testée.

Très souvent
on considère qu’un nœud pose une question sur une variable, la valeur de cette
variable permet de savoir sur quels fils descendre. Pour les variables
énumérées il est parfois possible d’avoir un fils par valeur, on peut aussi
décider que plusieurs variables différentes mènent au même sous arbre. Pour les
variables continues il n’est pas imaginable de créer un nœud qui aurait
potentiellement un nombre de fils infini, on doit discrétiser le domaine
continu (arrondis, approximation), donc décider de segmenter le domaine en
sous-ensembles. Plus l’arbre est simple, et plus il semble techniquement rapide
à utiliser.

En fait, il
est plus intéressant d’obtenir un arbre qui est adapté aux probabilités des
variables à tester. La plupart du temps un arbre équilibré sera un bon
résultat. Si un sous arbre ne peut mener qu’`a une solution unique, alors tout
ce sous-arbre peut être réduit à sa simple conclusion, cela simplifie le
traitement et ne change rien au résultat final.

En outre, un
algorithme “arbre de décision” estime un concept cible par une représentation
d’arbre, où chaque nœud interne correspond à un attribut, et chaque nœud
terminal (ou feuille) correspond à une classe[6]

Il y a deux types de nœuds :

      Nœud
interne
: se déploie en différentes branches selon les différentes valeurs
que l’attribue peut prendre. Exemple : luminosité <= T1 or luminosité >
T1.

     
Nœud terminal : décide la classe assignée à l’exemple.

Un arbre de
décision modélise une hiérarchie de tests sur les valeurs d’un ensemble de
variables appelées attributs. À l’issue de ces tests, le prédicteur produit une
valeur numérique ou choisit un élément dans un ensemble discret de conclusions[7].

En plus, Un
arbre de décision est un bon moyen d’illustrer le raisonnement pour distinguer
les similitudes et les différences entre les attributs des exemples du jeu de
données, il est souvent utilisé par les statisticiens pour illustrer le
résultat d’une analyse. 

Un arbre de
décision est composé de nœuds en arborescence, le nœud à base de l’arbre est
appelé la racine, chacun des nœuds sous la racine est soit une feuille ou un
sous arbre[8].

Dans la figure
8, les nœuds B, D et E sont des nœuds terminaux et le nœud C  est un sous arbre
du nœud A.

Une feuille est un nœud
terminal qui représente le résultat d’une classification. La racine d’un sous
arbre est étiquetée avec l’attribut qui a été choisi, les branches sont
étiquetées avec les différentes valeurs que peut prendre l’attribut choisi pour
le nœud.

Dans l’arbre
de décision de la figure 9, les attributs A et B ont chacun deux valeurs
distinctes, lorsque les exemples avec l’attribut A égal à a1, ils correspondent
à une seule classe. Dans le cas, où l’attribut A est égal à a2, les exemples
correspondent à deux classes différentes, on a besoin alors de prendre
l’attribut B pour diviser les exemples dans leurs classes respectives.

II.2.2.
Principe général des arbres de décision[9]

Décomposition
du problème de classification en une suite de tests correspondant

à une partition de l’espace des données en sous-régions
homogènes en termes de classe.

II.2.3.
Implémentation d’un arbre de décision10

L’implémentation
d’un arbre de décision se fait selon le paradigme "diviser pour régner »,
c’est-à-dire qu’on utilise un phénomène de récurrence pour construire l’arbre
ou pour aller chercher des informations dans l’arbre.

II.2.4. 
Structure interne d’un nœud d’un arbre de décision[10]

Un nœud est
soit un nœud terminal ou un sous arbre, un nœud terminal est un nœud
avec une décision ou une classe. Un sous arbre est un nœud qui possède des
descendants. Un nœud contient nécessairement les informations suivantes : 

        
Une étiquette: C’est le nom du nœud dans l’arbre, il représente
soit un attribut, si le nœud a des descendants ou une classe, si le nœud est
terminal.

        
La colonne référence au jeu d’apprentissages: Cette valeur est
utilisée pour indiquer aux règles, la position de l’attribut dans le jeu d’apprentissages
pour l’évaluation.

        
Le tableau des branches: C’est le tableau qui contient le nom des
branches. Dans un arbre de décision, les branches représentent les valeurs des
attributs choisis pour le nœud.

        
Le tableau d’enfants: Ce tableau contient d’autres nœuds de
niveau inférieur.  Les informations suivantes sont complémentaires:

La
classe majoritaire (CART) : C’est la classe la plus représentative dans le jeu

d’apprentissages. Lors de l’élagage du nœud, cette
information servira à remplacer le nom de la feuille.

Le nombre
d’exemples classifiés par ce nœud: C’est le nombre d’exemples dans le jeu
d’apprentissages qui sont classifiés au niveau du nœud.

Le nombre
d’erreurs de classification: C’est le nombre d’exemples qui n’appartient pas à
la classe majoritaire. On l’appelle aussi l’erreur apparente de l’arbre.

II.2.5.
Algorithme général de construction d’un arbre de décision [11]

L’algorithme
de construction a besoin d’un jeu d’apprentissages, des attributs à traiter et
de l’objectif de classification. Le jeu d’apprentissages est une matrice
où chacune des lignes est représentée par un exemple et les colonnes sont
représentées par les attributs, les attributs à traiter sont représentés dans
un tableau d’index, où chacune des colonnes représente la colonne de l’attribut
dans le jeu d’apprentissages et l’objectif de classification représente la
colonne de la classe dans le jeu d’apprentissages.

II.2.6.
Construction d’un arbre de décision

Les arbres de
décision sont construits à partir d’un jeu d’apprentissage, un jeu
d’apprentissage est une matrice, où les lignes représentent les exemples et les
colonnes représentent les caractéristiques des exemples, la dernière colonne
est réservée aux classes associées aux exemples. L’algorithme de construction a
aussi besoin d’un tableau d’index qui constitue la liste de référence des
attributs à traiter. [12] 

L’objectif est
de produire des groupes d’individus les plus homogènes possibles du point de
vue de la variable à prédire. Il est d’usage de représenter la distribution
empirique de l’attribut à prédire sur chaque sommet (noeud) de l’arbre[13].

En outre, [14]
la construction d’un arbre de décision se fait en utilisant un algorithme
récursif.  

En premier
lieu toutes les données d’apprentissage sont contenues dans un seul nœud. Ici
l’arbre n’a qu’un seul nœud. A chaque processus ou étapes, les différentes
données contenues dans un seul nœud sont séparée en plusieurs branches, selon
quelques critères mis en place (condition donnée) ou soit laissés pour former
un seul nœud terminal.

Sur ce, nous avons deux critères
:

     
Le critère d’arrêt, pour décider si un nœud est terminal
ou pas,

     
Le critère de séparation, pour créer le test qui va
réaliser la séparation.

 

 

Parlons-en
pour le critère d’arrêt. Ce dernier a pour but de limiter la taille de
l’arbre, à la fois pour des problèmes de mémoire et pour assurer la
généralisation en évitant une spécialisation trop grande de l’arbre. On peut se
baser sur un critère de précision (quand une certaine proportion d’une certaine
classe est atteinte dans un nœud) ou d’effectif (on n’essaye plus de séparer
au-dessous d’un certain nombre d’instances dans le nœud).

Comme déjà le
mot l’indique, le rôle du critère de séparation est de séparer un ensemble de
données en plusieurs sous-ensembles, de façon intéressante pour la
classification. Le principe est de sélectionner la variable la plus
discriminante pour la grandeur à prédire et d’effectuer un test sur celle-ci
pour construire les sous-ensembles.

II.2.6.1.Critères
de choix de la variable de séparation

a)    
Présentation 

Commençons par noter Y  la
variable  `à pré dire,  les
variables décrivant les données. Le problème est de trouver une variable sur
laquelle réaliser la séparation. La méthode de sélection est assez simple :
pour chaque variable possible, le partitionnement va être réalisé et évalué par
un indicateur de qualité.

b)    
Information 

L’information
est une notion naturelle pour évaluer l’utilité d’une variable à prédire. Nous
irons chercher quelle variable nous apporte le plus d’information sur la
variable à prédire.

De ce fait
nous avons besoin de définir l’entropie de Shannon qui est une notion
introduite par Shannon en 1948 lors de ses recherches concernant la théorie de
l’information qui sert de base à énormément de méthodes du datamining.

L’entropie  est nulle lorsque nous
connaissons toutes les valeurs produites par X et de ce fait elle est souvent
décrite comme une mesure du désordre.

Nota : l’entropie est une
valeur qui varie entre.

II.2.7.
Etapes de l’algorithme de construction d’arbre de décision

L’algorithme de
construction d’arbre de décision se divise en 3 étapes qui sont : 

La première
étape qui consiste à vérifier si on doit faire un nœud terminal pour
représenter les exemples du jeu d’apprentissage. Pour faire un nœud terminal,
on doit respecter une des conditions suivantes: Tous les exemples du jeu
d’apprentissage appartiennent à la même classe ou tous les attributs ont été
utilisés pour les nœuds précédents. Cette étape permet d’arrêter l’expansion de
la branche de l’arbre. 

La deuxième
et la troisième étape se produisent lorsqu’on ne respecte pas les

critères de la première. La deuxième consiste à
trouver l’attribut pour représenter le nœud de l’arbre. Les algorithmes de
construction d’arbre de décision utilisent une mesure de segmentation par
rapport aux attributs à traiter. Nous allons voir en détail les différentes
techniques plus tard.

 La troisième
étape consiste à éclater le jeu d’apprentissages pour créer les branches du
nœud, chacune des branches du nœud prend une des différentes valeurs que
l’attribut du nœud peut prendre. Pour chacune des branches qu’on aura créées,
il faut recommencer le processus en prenant les exemples correspondants à la
branche.

III.2.7.1.
Structure générique des algorithmes dans les arbres de décision      

III.
3.2.1  Principe général

La construction de l’arbre de
décision est top-down (approche descendante).

Operateurs majeurs :

 Débuter
à la racine : c’est-à-dire  pas d’attributs à tester à ce niveau

 Descendre
dans l’arbre en passant par les nœuds de test

 La feuille atteinte à la fin
permet de classer l’instance testée

 

Très souvent
on considère qu’un nœud pose une question sur une variable, la valeur de cette
variable permet de savoir sur quels fils descendre. Pour les variables
énumérées il est parfois possible d’avoir un fils par valeur, on peut aussi
décider que plusieurs variables différentes mènent au même sous arbre.[15]

Pour les
variables continues il n’est pas imaginable de créer un nœud qui aurait
potentiellement un nombre de fils infini ; on doit discrétiser le domaine
continu (arrondis, approximation), donc décider de segmenter le domaine en
sous-ensembles. Plus l’arbre est simple ; et plus il semble techniquement
rapide à  utiliser.

En fait, il
est plus intéressant d’obtenir un arbre qui est adapté aux probabilités des
variables à tester. 

Pour ce faire,
il y a des algorithmes conçus pour générer des arbres de décision à partir des
données. Nous en dirons plus dans le point qui suit.

II.2.8.
Algorithmes de construction d’arbre de décision

Il existe plusieurs algorithmes de
construction d’arbre, les plus populaires sont

ID3, C4.5, CART et CHAID. Nous n’allons pas donc donner une
description exhaustive de ces algorithmes mais une brève exposition de
solutions retenues.

II.2.8.1.
Algorithme ID3

[16]L’algorithme ID3 fut proposé
par Quinlan en 197 9 afin de générer des arbres de décisions à partir de
données. Imaginons que nous ayons à notre disposition un ensemble
d’enregistrements. Tous les enregistrements ont la même structure, à savoir un
certain nombre de paires attribut ou valeur. L’un de ses attributs représente
la catégorie de l’enregistrement. Le problème consiste à construire un arbre de
décision qui sur base de réponses à des questions posées sur des attributs non
cibles peut prédire correctement la valeur de l’attribut cible. Souvent
l’attribut cible prend seulement les valeurs vrai, faux ou échec, succès.  

Dans  ID3 on
place une variable au niveau de nœud et chaque branche correspond à une valeur
de ladite variable. 

L’algorithme
d’ID3 utilise l’entropie de Shannon pour réaliser la séparation des nœuds.
Chaque modalité possible pour la variable donnée  de séparation mène à une
nouvelle branche différente.

N.B. L’Entropie
est un indicateur qui mesure l’hétérogénéité d’une population reparti en
classe. Hétérogénéité par rapport à la taille de chaque classe. L’entropie vaut
1, si la population est purement hétérogène et elle est nulle si la population
est parfaitement homogène.

Il est à noter
que l’utilisation de cette entropie au  niveau de l’arbre de décision ne peut
pas du tout être possible en la considérant dans sa formulation la plus pure
mais il faut plutôt prendre en compte le gain d’entropie calculé au niveau de
chaque variable.

Ø
Principes

Les principales idées sur lesquels repose ID3 sont les
suivantes :

        
Dans l’arbre de décision chaque nœud correspond à un attribut non cible
et chaque arc à une valeur possible de cet attribut. Une feuille de l’arbre
donne la valeur escomptée de l’attribut cible pour l’enregistrement testé
décrit par le chemin de la racine de l’arbre de décision jusqu’à la feuille.
(Définition d’un arbre de décision)

        
Dans l’arbre de décision, à chaque nœud doit être associé l’attribut non
cible qui apporte le plus d’information par rapport aux autres attributs non encore
utilisés dans le chemin depuis la racine. (Critère d’un bon arbre de décision)

        
L’entropie est utilisée pour mesurer la quantité d’information apportée
par un nœud. (Cette notion a été introduite par Claude Shannon lors de ses
recherches concernant la théorie de l’information qui sert de base à énormément
de méthodes du datamining.)

Algorithme ID 3 :

 

Algorithme

Entrées : ensemble d’attributs A; échantillon E; classe c

Début

Initialiser
à l’arbre vide;

Si tous les exemples de E ont la même classe c

Alors
étiqueter la racine par c;

Sinon si l’ensemble des attributs A est vide

Alors étiqueter la racine par la classe majoritaire dans E;

Si non soit a le meilleur attribut choisi dans A;

Étiqueter
la racine par a;

Pour
toute valeur v de a

Construire
une branche étiquetée par v;

Soit Eav
l’ensemble des exemples tels que e(a) = v; ajouter l’arbre construit par ID3
(A-{a}, Eav, c);

Fin
pour Fin sinon

Fin sinon

Retourner
racine;

Fin

Cet algorithme
a une bonne adaptation aux échantillons de petite taille et est peu sensible au
paramétrage.

II.2.8.2.
Algorithme C4.5

Fut
proposé par Quinlan en 1993 Comme  l’ID.3, l’algorithme de C4.5 (qui
n’est

autre qu’une version évoluée de celui-là),  utilise
l’entropie de Shannon pour réaliser la séparation des nœuds.  

Compte tenu
des limites de l’ID3, lesquelles limites se justifiant par le fait pour lui de
traiter des données qualitatives étant catégorielles (exemple les mois, les
jours de la semaine, les femmes, les hommes, etc.) en ne les prenant pas en
charge, l’idée de construire l’algorithme C4.5 est venue au constructeur. Voici
à quoi ressemble cette résolution du problème de ID3 par C4.5 : il tient compte
des variables quantitatives c’està-dire va au-delà des simple variables
qualitatives catégorielles.

Ainsi,
pour le variable quantitative on ne place pas la variables seulement, mais

plutôt un test effectué sur la variable qui n’est autre
qu’une condition logique (vrai ou faux).

II.2.8.3. CART (Classification and Regression Trees)

Proposé par
Breimanet al. en 1984, CART est utilisé pour l’analyse de régression ou
classification d’ensembles grands et complexes de données multi-variables.
L’algorithme CART construit l’arbre en utilisant des partitions récursives.
Lors de l’apprentissage, un premier arbre est créé en utilisant l’ensemble des
données d’entraînement. L’algorithme cherche de manière récursive, les
relations entre les variables pour obtenir une séquence optimale de divisions
binaires, ce qui aboutit ainsi à un arbre très étendu. Ensuite l’arbre est
réduit en tenant compte du principe de coût minimal de l’erreur. 

 

Pour CART,
on utilise le critère d’index Gini comme critère de séparation.

Avec le critère Gini, on peut seulement avoir 2 branches par
nœud. Si un attribut a n valeurs, alors il y a 2n-1
1
possibilités de regroupement. Il faut donc calculer
l’index Gini pour chacun des  regroupements possibles des valeurs de
cet attribut. Les  modalités sont regroupées en deux groupes de
façon à obtenir des arbres binaires et il offre de bonnes performances en
général, sans paramètres à régler.[17]

L’indice de
Gini
mesure aussi comme l’entropie ; la différence c’est au niveau de la
plage de valeur ici.

Synthèses
des divers algorithmes d’induction

ID3 (Inductive
DecisionTree, Quinlan1979
) :

        
arbres «de discrimination» (i.e.variables uniquement qualitatives)

        
critère d’hétérogénéité= entropie C4.5 (Quinlan1993) :

        
Amélioration ID3, permettant notamment arbres «de régression» (gestion
des variables continues) et valeurs manquantes.

        
critère d’hétérogénéité= entropie

CART (Classification
AndRegressionTree, Breimanet al. 1984) :


critère d’hétérogénéité= Indice de Gini.

II.2.8.4.
Le but des algorithmes de construction d’arbre de décision.

Les
algorithmes de construction d’arbre de décision permettent de créer des arbres
de décision avec une taille la plus petite que possible, et ce, de façon à
créer des règles de décision simples. Plus un arbre de décision est grand, plus
les règles sont complexes. Les algorithmes de construction d’arbres choisissent
les attributs toujours par rapport aux classes.

II.2.9.
Caractéristiques et avantages des arbres de décision

La caractéristique principale est la
lisibilité du modèle de prédiction que l’arbre de décision fourni, et de faire
comprendre ses résultats afin d’emporter l’adhésion des décideurs.

Cet arbre de
décision a également la capacité de sélectionner automatiquement les variables
discriminantes dans un fichier de données contenant un très grand nombre de
variables potentiellement intéressantes. En ce sens, constitue aussi une
technique exploratoire privilégiée pour appréhender de gros fichiers de
données.

En plus, les arbres de décision présentent d’autres
avantages qui sont :

v C’est
une méthode non-paramétrique ;

v Les
processus de construction et de décision sont assez simples ;

v Il
est facile à comprendre et à exécuter ;

v Le
nombre de tests est limité par le nombre d’attributs ;

v Facilité
à manipuler des données[18] «symboliques» ;

v OK
avec variables d’amplitudes très différentes ;

v Interprétabilité
;

v Classification
très efficace.

Sans oublier les désavantages que peut avoir ces méthodes.

Inconvénients

Sensibilité au bruit et points aberrants.

 

  

 

 

CHAPITRE
III. LA GESTION DE LA RELATION CLIENT

III.1.
INTRODUCTION

Actuellement,
la mondialisation des marchés, l’évolution des technologies et le
raccourcissement du cycle de vie des produits  rendent la concurrence toujours
plus rude. Il devient très difficile pour une entreprise de conserver sa part
de marché en se basant uniquement sur les prix et les produits. 

Le fort déclin de la publicité de masse
illustre cette difficulté à gagner et à conserver des parts de marché en se
focalisant uniquement sur le produit. Dès les années

80, les techniques de marketing
de masse n’apportant guère de résultats positifs pour les entreprises, elles
cèdent leurs places à un marketing direct, orienté vers le client, qu’il faut
comprendre, satisfaire, fidéliser et avec qui il faut communiquer « directement
» afin d’optimiser le succès futur de l’entreprise. Dans cette optique, la
Gestion de la Relation

Client s’inscrit clairement dans cette  évolution et
représente, d’une certaine manière, le dernier marketing direct.  

Afin de
construire une relation avec le client dans le but d’aboutir à une fidélité de
ce dernier, les entreprises s’orientent donc actuellement et de plus en plus
vers la gestion de la relation client. Cette construction des relations
avec ces clients est un défi, particulièrement lorsque elles  possèdent des
milliers (voire des millions) de clients qui communiquent avec celles-ci de
multiples manières (activités de masse). Pour aider les responsables
d’entreprises à arriver à un résultat satisfaisant, les systèmes CRM doivent
leur permettre de mieux comprendre leurs clients pour adapter et personnaliser
leurs produits ou leurs services.

III.2.
GESTION DE LA RELATION – CLIENT QUID ?

La
Gestion de la Relation Client (GRC) appelée également Customer Relationship
Management (CRM) est un processus  qui consiste à gagner, à conserver, à
élargir et à fidéliser une clientèle. Sa stratégie est de placer le client au
centre des préoccupations de l’entreprise en instaurant un dialogue, une
relation de confiance et un respect mutuel avec les clients

En
d’autres termes, Le CRM  consiste à savoir cibler, à attirer et à conserver les

bons
clients et représente un facteur déterminant du succès de l’entreprise.

Elle est
encore, [19]l’ensemble des opérations de
marketing ou de support ayant pour but d’optimiser la qualité de la relation
client et de maximiser le chiffre d’affaires ou la marge par client

CRM est l’acronyme de « Customer
Relationship Management » ou « Gestion de la Relation Client ». Le CRM
regroupe l’ensemble des dispositifs ou opérations de marketing ou de support ayant
pour but d’optimiser la qualité de la relation client, de fidéliser et de
maximiser le chiffre d’affaires ou la marge par client
. Le CRM regroupe à
la fois des techniques de collecte et d’analyse des données clients (voir CRM
analytique), des opérations marketing et des opérations de support. Le CRM
utilise tous les canaux de contacts disponibles avec le client et se trouve
fortement impacté par la montée en puissance de l’omnicanal et notamment par le
développement des canaux de contact

digitaux. [20] 

Dans un
sens plus restrictif, le CRM peut désigner l’ensemble du dispositif
informatique consacré à la gestion de la relation client
. Le CRM est alors
la solution informatique permettant de gérer l’ensemble des informations
relatives aux clients et prospects et l’ensemble des interactions menées avec
ces individus (contacts entrants et sortants). Les outils de campagnes
marketing peuvent alors être connectés à la solution de CRM ou y être intégrés
dans une logique de suite marketing ou suite CRM.

Le CRM : une culture
d’entreprise 

Le succès de
la Gestion de la Relation Client nécessite un engagement réel qui ne concerne
pas seulement un département de vente ou de marketing mais nécessite
l’engagement de l’ensemble du personnel concerné. La culture d’entreprise est
ainsi un facteur de réussite déterminant dans la gestion de la relation client.
L’entreprise se doit ainsi d’évoluer dans une atmosphère et un climat
favorables afin que le client se sente en confiance, à l’aise et apprécié.

Le
développement de la culture d’entreprise passe par le bien-être et la
motivation

des employés. L’identification de l’employé envers son
entreprise l’amène  à rester fidèle à son employeur. Ceci étant, l’employé
pourra construire une relation à long terme et personnelle avec le client, ce
qui conduira à la compréhension des besoins du client par l’employé. Si la
communication entre les différents départements de l’entreprise est réalisée,
l’employé va se transformer en vecteur de communication et va ainsi permettre à
l’entreprise entière de comprendre les besoins de la clientèle.

Ainsi, pour le cas de Vodacom, cette
relation avec le client a déjà été créée mais le problème réside dans la non
maitrise totale de besoins du client et de son comportement  envers les
produits et services de cette entreprise. D’où elle est appelée à réussir de
cette identification clientèle à travers une répartition par classe de clients
(performants et non performants) afin de bien suivre les clients et bien
connaitre les besoins les plus élémentaires voire les plus importants et
évaluer chronologiquement leur performance en termes de consommation des
produits Vodacom. Cette quintessence s’abordera postérieurement.

Les trois phases du CRM

Dans  la « gestion de la relation client
», la stratégie CRM est divisée en trois phases. En effet, elles résument à
elles seules les enjeux et fondements du Customer Relationship Management :

        
La conquête permanente de nouveaux clients.

        
La fidélisation de ces derniers.

        
La gestion stratégique du service client : l’entreprise doit identifier
ses clients les plus prometteurs et ainsi, tout en conservant un service de
bonne qualité à l’ensemble de ses clients, leurs offrir des services de qualité
encore plus élevés.

Le
concept de fidélisation est central. Son but est l’optimisation
de la relation

client et il représente la clé de l’augmentation des
recettes au sein d’une entreprise.

Pour
ce faire, l’entreprise devra faire évoluer sa relation avec le client comme une
relation amoureuse, en construisant progressivement les valeurs de loyauté et
de confiance et ce, afin de se démarquer de ses concurrents. En se montrant à
l’écoute, l’entreprise va faire évoluer ces valeurs afin d’installer une
alliance entre les deux parties.

Les
intérêts des clients étant compris, il sera alors possible pour l’entreprise

d’adresser des messages ainsi que des services ciblés au
client, services pouvant être des avantages offerts par l’entreprise. Dès lors
que le client devient un réel partisan  de l’entreprise, la fidélité est
établie et ce dernier va véhiculer une image positive de l’entreprise en la
recommandant à d’autres personnes.

III.3.
ENJEUX DE LA GESTION DE LA RELATION CLIENT

a. Raisons d’un renouveau

La gestion de
la relation client  correspond à une pratique très ancienne : Voir l’aptitude
des anciens artisans et commerçants à concevoir, fabriquer et livrer des
articles sur mesure ou adéquats pour leurs clients. Ils connaissent
remarquablement leur clientèle, et ont su développer leurs affaires sans avoir
jamais théorisé la gestion de la relation client.

Cela dit, le
concept de gestion de la relation client rencontre un évident renouveau depuis
la fin du XXé  siècle et singulièrement depuis le début des années
2000.

Construire,
gérer et développer des relations avec ses clients n’est pas évident, et ce
particulièrement dans les activités :

                
dites de masse, lorsque l’entreprise possède des
milliers (voire des millions) de clients qui communiquent avec celle-ci de
multiples manières. 

                
dites de personnalisation, où les systèmes de
gestion doivent permettre de mieux écouter le client, gérer les échanges avec
une dose plus ou moins forte d’interactivité, ceci afin d’adapter et
personnaliser les produits ou services. 

                
où la notion de temps réel ou de réactivité
s’impose aux fournisseurs. 

                
où la situation concurrentielle peut faire que la
fidélisation se révèle davantage payante que la prospection. 

                
où structure et processus complexes rendent malaisée la collaboration
entre différents départements. Alors que ceux-ci doivent collaborer et partager
l’information concernant toute interaction avec le client.

b.     
De la gestion transactionnelle vers la gestion relationnelle

Après des
décennies de suprématie du marketing transactionnel, plutôt orienté vers la
transaction et non pas vers la continuité de la relation commerciale, le
concept de marketing relationnel émerge vers le milieu des années 1970. En
1975, le concept de marketing est devenu  comme un " processus renouvelé
d’échanges entre un acheteur et un vendeur ". Posant ainsi implicitement
la problématique de l’évolution de cette relation dans le temps.

Les revenus
futurs produits par un client fidélisé sont mis en perspective dans une optique
financière et comptable. Apparaît la notion de « valeur à vie »
(lifetime value) qui mesure la valeur à terme d’un client pendant tout le temps
où est maintenue sa relation avec l’entreprise.

c.     
La gestion de la relation client, un projet fort pour
l’entreprise

Ce n’est rien
moins que de donner ou redonner toute sa place à une relation effective et
durable entre le client et son fournisseur. Le " Projet Gestion de la
Relation Client " devient la référence pour tous les services et tous les
membres du personnel en contact avec le client.

Client
et fournisseur deviennent plus proches, les processus doivent être repensés

pour un maximum de transparence et d’efficacité.

Chacun doit désormais connaître – sinon
anticiper- les actions de l’autre et y réagir plus directement. Cela peut
impliquer dans certaines organisations :

                
Une profonde révision de sa culture, des mentalités et
comportements : remettre le client à la place privilégiée qui doit être la
sienne, accepter le dialogue avec lui et le cas échéant accepter sa critique.

                
Une refonte des processus opérationnels de l’entreprise :
marketing, informatique, service clientèle, logistique, finance, production,
recherche développement, ressources humaines, direction… 

                
La mise en place ou le redéploiement de l’infrastructure
informatique permettant le déroulement de processus bien définis et mieux
contrôlés et un investissement dans les ressources humaines. 

d.     
La gestion de la relation client comme processus relationnel

La GRC est ici
considérée comme « un processus permettant de traiter tout ce qui concerne
l’identification des clients, la constitution d’une base de connaissance sur la
clientèle, l’élaboration d’une relation client et l’amélioration de l’image de
l’entreprise et de ses produits auprès du client ».

La GRC
apparaît ici comme un processus, une série d’activités, dont la réalisation
n’implique pas forcément le recours aux NTIC. On insiste ici sur la nécessité pour
l’entreprise d’accorder une attention accrue au client. L’entreprise souhaite
dès lors mieux connaître ses clients et approfondir sa relation avec eux,
dépassant ainsi l’objectif de simplement concrétiser une vente.

Dans cette
optique, l’intérêt du client et de l’entreprise l’un envers l’autre doit se
prolonger dans le temps et dépasser le moment de l’achat/vente. D’un côté,
l’entreprise veut être perçue comme une entité cohérente au-delà des produits
et services qu’elle propose. À l’inverse, l’entreprise veut voir en son client
une personne clairement identifiée plutôt qu’anonyme.

e.     
La gestion de la relation client en tant que principe
d’efficacité organisationnelle

La GRC va
pouvoir s’appuyer sur les apports des nouvelles technologies de l’information
et de la communication (NTIC) pour optimiser la rentabilité de l’organisation
et la satisfaction du client, en se focalisant sur des segments de clientèle
spécifiques, en favorisant les comportements propres à répondre aux souhaits du
client et en appliquant des processus centrés sur le client.

La GRC est
donc envisagée comme une stratégie d’entreprise où deux buts essentiels sont
poursuivis : augmenter les bénéfices et accroître la satisfaction du client.

Dans
cette optique, l’entreprise devra développer encore plus l’accès et le contenu

de ses
services. Une relation mutuellement bénéfique s’installe à long terme avec le
client.

L’entreprise connaît tellement bien ses clients qu’il
devient difficile, pour ses concurrents, de rivaliser avec la qualité et le
haut niveau de son offre.

 

f. La
gestion de la relation client en tant que processus technologique

La GRC est ici
décrite comme étant « l’automatisation de processus d’entreprise
horizontalement intégré, à travers plusieurs points de contacts possibles avec
le client (marketing, ventes, après-vente et assistance technique), en ayant
recours à des canaux de communication multiples et interconnectés ».

La GRC
s’inscrit ici dans le cadre du développement des nouvelles technologies de
l’information et de la communication (NTIC). Celles-ci soutiennent le personnel
de contact de l’entreprise quand celui-ci entre en relation avec les clients
via Internet, le téléphone ou en face à face. Le personnel de contact pourra,
par exemple, reconnaître le client lors de tout contact. Il pourra ainsi donner
des informations au client sur l’état de sa commande, la facturation, la
livraison, le statut de la réparation effectuée par le service après-vente,
etc.

III.4.
LES COMPOSANTES DE LA GESTION DE LA RELATION CLIENT

Les quatre composantes
fondamentales sont les suivantes :

         
Ecouter et connaître son client ; 

         
Manifester aptitude et compétence relationnelles ; 

         
Maitriser canaux et réseaux de communication ; 

         
Proposer une Offre de valeur individualisée. (C’est-à-dire
création d’offres individualisées).

Ø 
Ecouter et connaitre son client

La
connaissance de chaque client à titre individuel est indispensable pour

développer
avec lui une relation durable et lui proposer une offre adaptée. L’historique
de ses achats, ses moyens de communication préférés, ses modes de paiement
préférés, ses préférences et intérêts en termes de services, … sont autant
d’informations strictement nécessaires au développement de relations à long
terme. Les informations précédemment citées sont généralement dispersées dans
les systèmes d’informations et les entreprises généralement les regroupent dans
un entrepôt de données client.

S’il est
important d’avoir les informations nécessaires pour développer ses

relations clients, il convient
de ne pas alourdir les systèmes d’informations de l’entreprise inutilement.
Toute information ne contribuant à l’objectif CRM devra donc être proscrite.

Ø 
Aptitude et compétence relationnelles

Les
entreprises focalisées sur la réussite de transactions commerciales à court
terme ne manifestent en réalité qu’un intérêt limité pour leur client. Leur
réussite se mesure en termes de nombre de transactions réalisées et au chiffre
d’affaires réalisé. La part de marché représente pour elles un indicateur de
réussite essentiel.

Les
entreprises qui développent une aptitude et une compétence relationnelles
visent le développement de la relation en long terme avec leurs clients. Elles
entrent en communication avec le client davantage qu’elles ne vendent.

Dans la masse
des clients, l’entreprise va privilégier les potentiels importants mais aussi
et surtout les plus durables. Soit en réalité les plus profitables. 

La transaction commerciale n’est plus
l’aboutissement de la relation : Elle débute avant l’achat et donne lieu par
suite à un approfondissement basé sur la confiance et un engagement mutuel et
croissant.

Ø 
Maitrise des canaux et réseaux de communication

L’effort
relationnel doit être appuyé fortement tout au long de la communication avec
son client : capacité à mettre en place un dialogue individualisé au cours
duquel un vrai contenu, substantiel et porteur de sens pour le client ; mise en
place de canaux de communication intégrés permettant de communiquer partout et
à tout moment, par l’intermédiaire de multiples canaux. Par exemple la
profession bancaire utilise de nombreux canaux : agence, envoi postal, site
internet, GAB, serveur vocal, SMS, MMS, etc. 

Selon l’étude menée par Markess
International en 2009, le téléphone reste le canal privilégié des entreprises
pour interagir avec leurs clients avec près de 36% des interactions passant via
ce canal, contre 21% effectuées via le courrier électronique et 16% via le web.
Selon cette même étude, les perspectives montrent que le téléphone devrait
marquer le pas pour ne représenter plus que 28% des interactions clients, au
profit du courrier électronique et du web qui devraient tous deux représenter
24% du volume des interactions client. Les interactions via des applications
mobiles devraient aussi faire une percée significative.

Ø 
Proposer une offre de valeur individualisée

Le
développement d’une relation étroite et d’un dialogue véritable avec les
clients doit déboucher, pour l’entreprise, sur la création d’offres
personnalisées, tant sur le plan de l’offre produit que du tarif.

Dans cette
optique, l’entreprise pourra concevoir, parfois même en coopération avec le
client, un service qui répond parfaitement aux besoins de celui-ci. Cela pourra
se faire, par exemple, à partir de « modules de service » pouvant être liés les
uns aux autres pour former le service global conforme aux attentes du client.

L’entreprise
devra apporter une attention particulière à garder une totale maîtrise de ses
coûts et à éviter le sacrifice de ses économies d’échelle.

De même, la
mise en place d’offres individualisées peut entraîner pour l’entreprise un
risque accru et une complexité excessive des processus de production. Il faudra
arriver à concilier une production relativement standardisée avec la
flexibilité que requiert toute individualisation du service.

III.5.
LES DIMENSIONS DU CRM 

Le CRM est divisé en trois domaines
d’activité interdépendants : le CRM opérationnel, le CRM collaboratif et le CRM
analytique. La collaboration de ces trois parties a pour finalité de réaliser
l’objectif ultime de la stratégie CRM de l’entreprise, c’est-à-dire le
développement et l’optimisation de la relation client. 

1.     
Le CRM opérationnel

Le CRM
opérationnel peut être défini comme l’automatisation et l’amélioration
constante des processus de vente, de marketing et de service client. Celles-ci
sont rendues possibles grâce à l’analyse des données qui sont produites lors
des différentes opérations, analyse qui permet d’apporter des améliorations à
ces mêmes processus. Par exemple, le public cible d’une action marketing sera
défini plus précisément ou encore le canal de distribution d’un produit sera
adapté selon les préférences de chaque client.

2.     
Le CRM collaboratif

Le CRM
collaboratif fait référence aux moyens de communication au travers desquels
l’entreprise entre directement en contact avec le client. On pense notamment au
call center, à Internet ou encore à la correspondance par emails. Un des
objectifs du CRM collaboratif est de donner une image de l’entreprise positive
et uniforme au client et d’établir une relation de confiance avec lui en
proposant un service personnalisé et de qualité. C’est également, dans cette
même idée, l’occasion de récolter de très précieuses informations sur le
client, qui seront stockées et permettront de mieux cibler ses besoins et ses
attentes. 

Enfin, un des
enjeux principaux du CRM collaboratif est d’assurer à chaque employé l’accès à
une information la plus complète et la plus récente possible sur son
interlocuteur, afin  que ce dernier se sente suivi et considéré
personnellement.

3.     
Le CRM analytique

Le rôle du CRM
analytique est la véritable clé de voûte du système. Il consiste à stocker et à
analyser la très vaste quantité de données générées en bonne partie par le CRM
opérationnel et collaboratif. A partir de ces données, les différents outils
d’analyse se chargent d’extraire des connaissances qui servent de support à la
prise de décision et permettent d’améliorer notamment les processus du CRM
opérationnel et collaboratif.

III.6.
LES AVANTAGES DU CRM 

Au-delà
des retours chiffrés, la mise en place d’une solution de CRM impacte la

force de vente, le client et
par conséquent l’entreprise.

 Pour la force de vente

      Aider
à la vente

Aujourd’hui, les forces de vente,
qu’elles soient itinérantes ou fixes, en face à face ou par téléphone,
proposent des solutions qui dépassent souvent leurs capacités techniques
(complexité des produits et manque de formation). La mise en place d’un outil de
CRM leur permet d’accéder à des aides pour les grilles tarifaires, la lecture
des stocks et la configuration de produits. Cette assistance leur permet de
construire une offre cohérente et de minimiser les risques d’erreurs (factures,
conception). Les réclamations sur les factures sont encore une des causes
majeures d’insatisfaction des clients en B to B (Business to Business) :
pouvoir assurer que les prix facturés seront bien ceux énoncés fait partie du
respect des fondamentaux. Plus sophistiquées, les bases documentaires en ligne
facilitent la diffusion d’informations sur les produits de l’entreprise et sur
ceux de la concurrence ; elles contribuent également à améliorer la performance
commerciale. Toutefois, le recul montre que la volonté de corriger les défauts
courants dans les livraisons et la facturation est un levier important dans la
réussite du projet.

      Accélérer
l’intégration des Nouveaux vendeurs

Le deuxième objectif dans la mise en
place de logiciels de CRM est d’accélérer les processus de vente. Ils guident
les nouveaux commerciaux à travers le cycle de vente

(proposition, relance, etc.). Ils réduisent les coûts de
formation et d’information, et permettent d’identifier le comportement purement
opportuniste de certains clients qui recherchent l’avantage immédiat.

Beaucoup de ventes résident sur la
connaissance qui est dans la tête des vendeurs, ce qui limite la profondeur des
offres et services proposés. La capacité d’accéder à une connaissance globale
par des interfaces conviviales améliore considérablement l’efficacité du
vendeur. Le CRM permet une meilleure capitalisation du fichier client car la
perte d’information est plus faible en cas de départ d’un employé.

      Accélérer
les cycles de vente

La troisième fonction des logiciels de
CRM est d’améliorer la productivité et, partant, d’accélérer la vente. Ils
assurent pour cela un support informatique pour les fonctions administratives
ou répétitives dans la vente : élaboration des devis et propositions, aide à la
configuration de produits, accès on-line aux grilles tarifaires, suivi des
coûts de vente. 

      Augmenter
les taux de transformation

Le but majeur du CRM est d’augmenter
l’efficacité commerciale, c’est-à-dire le rapport entre le temps et les moyens
investis sur un client et la marge générée par celui-ci.

Le principe général consiste à centraliser un maximum
d’informations structurées sur le client pour mieux anticiper des événements et
trouver le bon moment, le canal optimal et le bon prétexte pour le prochain
contact ou la prochaine action. Cette approche générale, appliquée au prospect,
mais aussi au client, doit développer les offres complémentaires et donc le
chiffre d’affaires unitaire par client.

Le CRM oriente les efforts commerciaux
vers les bons clients. Il a un impact sur la mise en portefeuille ou le cycle
de relance par téléphone. Il rassemble les informations pertinentes pour créer
des offres et des suivis personnalisés. Au final, il améliore la part des
achats effectués par ce client, tout en optimisant la pression commerciale.

 Pour l’entreprise

      Réduire
les couts

L’affectation des investissements
marketing sur des segments plus petits, entraîne une diminution des coûts de
marketing direct, sous réserve d’une industrialisation des coûts de conception.
L’efficacité des propositions se traduit par une amélioration du taux de
transformation des propositions en vente et de la fidélité du client (je le
connais mieux et il prend conscience qu’il n’est plus un anonyme). Cette
capacité de mieux le cibler se traduit immédiatement par une amélioration des
rendements de la fonction commerciale.

      Augmenter
le résultat

L’orchestration efficace des différents
canaux de recrutement et leur optimisation permanente génèrent plus de
prospects et moins de perte de clients. Ces prospects mieux renseignés dès
l’amont sont plus rapidement et plus efficacement transformés en clients.

Les clients, qui présentent certains signes prédictifs
d’attrition, se voient allouer des efforts spécifiques (offres spéciales, prise
de contact, entretien découverte, etc.) afin d’essayer de modifier leurs comportements.

Une
meilleure connaissance de la valeur économique des clients permet

d’attribuer
les ressources financières en priorité aux clients ou prospects ayant le plus
fort potentiel. Les politiques de communication ou de promotion peuvent être
modifiées pour attirer les meilleurs profils de clients et éviter de développer
des tendances opportunistes, axées sur les prix ou les remises, chez les
clients. Les techniques de segmentation offrent la possibilité de construire
des offres plus adaptées avec un meilleur mix des offres et des canaux. Elles
améliorent la part de marché par client et elles diminuent l’attrition.

Réduire l’attrition (Churn)

L’attrition,
aussi dénommée churn (pour change and turn) dans le
secteur des télécommunications, exprime la désaffection des clients. Elle se
mesure en taux, en prenant sur une cohorte de clients arrivés dans la même
période, le ratio des clients partis ou perdus sur la population totale
recrutée dans la période. 

Le fait
de disposer d’informations riches et nombreuses sur les clients peut

contribuer à réduire ce taux d’attrition : par une plus
grande personnalisation des offres, par l’anticipation des tendances au churn
grâce à des analyses statistiques, par un partage des informations et des
clignotants entre tous les canaux et les acteurs en relation avec le client.

La
détection de l’attrition n’est toutefois que le dernier élément de la chaîne.
Un

score d’attrition ne fait qu’évaluer les facteurs
prédictifs. Il est souvent difficile de rattraper un client qui a décidé de
vous quitter. Il est par contre important d’identifier les causes. 

En d’autres
termes, Le churn dont le contraire est la fidélisation, est le phénomène de
perte de clientèle ou d’abonnés
. Le phénomène d’attrition est généralement
mesuré par le taux d’attrition. L’observation du taux d’attrition est une
donnée très importante quand on connait l’impact de la fidélisation sur la
rentabilité[21]. Alors l’entreprise pour étudier
périodiquement les clients désaffectés, se sert du baromètre clients perdus
pour les ressaisir et analyser les raisons de cette attrition. Ainsi,
découvrons-le ci-dessous.

Un
baromètre clients perdus est une étude périodique ou continue réalisée auprès

des clients
ayant interrompu leur relation avec l’entreprise
.

Un baromètre
clients perdus permet d’analyser les raisons de l’attrition et ses évolutions.
Il peut également parfois servir de base à une action de reconquête.

Le plus
souvent, le recueil d’informations se fait par entretien téléphonique ou par

questionnaire Internet après réception d’une lettre de
résiliation. La première solution est un peu plus onéreuse mais permet d’avoir
des taux de réponse supérieurs et un verbatim plus développé.

Les baromètres client perdus sont
surtout utilisés dans le domaine des services vendus par abonnement ou par
tacite reconduction ou dans celui des services financiers.

Cependant, le principe peut être adapté à tout domaine
d’activité[22].  

      Améliorer
la qualité de l’information

Le partage des
informations entre un nombre important d’utilisateurs, bien encadré par des
procédures organisationnelles, assure une meilleure intégrité des données.

L’objectif
même du CRM est le partage de l’information entre les canaux d’interactions :
le mailing, le télémarketing, les centres de réception
d’appels
, la force de vente, les services administratifs, le service
après-vente
, le serveur vocal interactif ou Internet. Cette
homogénéité par les systèmes améliore globalement la perception du client et
permet à l’entreprise d’être plus efficace dans sa gestion de la relation
lorsqu’elle choisit de favoriser l’interactivité avec le client.

      Augmenter
la valeur de l’entreprise

Le CRM a un impact important sur
l’augmentation de la valeur à vie des clients, ce que les Anglo-Saxons appellent
Lifetime Value ou LTV, en capitalisant sur les informations
acquises lors de chaque interaction.

 Pour le client

      Améliorer
la qualité des contacts

Grâce
aux outils de CRM, le client est globalement mieux accueilli, orienté et

conseillé lorsqu’il entre en relation avec l’entreprise.

À l’accueil,
il est reconnu par son nom, et les informations sur les relations précédentes
peuvent être mises à profit pour orienter et personnaliser le dialogue.

En cas d’orientation entre différents
départements, l’intégration de l’informatique et du téléphone permet de
transmettre l’appel au bon interlocuteur en même temps que le dossier
informatique suit : le client n’a pas à raconter son histoire encore et encore
à chaque nouvel interlocuteur.

      Améliorer
la fidélisation

Grâce aux
fonctions de conseil et d’aide à la vente qu’offrent les outils de CRM, le
client se voit proposer des offres sur-mesure en fonction de son profil ou de
son comportement lors de l’entretien. Cette personnalisation, si elle est
correctement paramétrée par l’entreprise, se traduit naturellement par une
intensification de la relation avec les clients, et un développement du taux de
multi vente (ventes de plusieurs produits sur un contact).

      Faire
du client un ambassadeur

La confiance développée doit se traduire
par des recommandations auprès de prospects. La recommandation reste le stade
ultime de la satisfaction : le client se transforme en ambassadeur de
l’entreprise. Cette reconnaissance peut se traduire de différentes façons :
obligations de passer par un fournisseur en B to B (Business to

Business), communication de coordonnées clients ou
parrainage en B to C (Business to Consumer). Ce mode de recrutement par le
bouche à oreille ou par des formes plus structurées de parrainage reste de loin
le mode d’acquisition le moins coûteux, le plus efficace et le plus fidélisant.

III.7.
LES CINQ ETAPES DU CRM[23]

a.     
Identifier

b.     
Segmenter

c.     
Adapter

d.     
Echange 

e.     
Evaluer 

a.     
Identifier

L’identification consiste à la collecte
d’information sur chaque client. C’est informations doivent être formalisées
dans une base de donnée pour que l’entreprise connaisse ses clients d’une
manière systématique et automatisée. Il existe de multiples sources
d’informations tel que ; le questionnaire, la force de vente, le service
après-vente, internet, etc.

b.     
Segmenter

Après l’identification, vient l’étape de
la segmentation sur base de donné qui consiste à regrouper les clients en
fonction de caractéristiques communes susceptibles d’affecter leurs
comportements. La segmentation des clients se fait en fonction de leurs achats
(petit, moyen, grand), de type de produit acheté, de leurs centres d’intérêts
exprimés.

c.     
Adapter le service et la communication

L’identification
et la segmentation des clients doivent conduire à adapter le service et la
communication vers les clients. Cette adaptation peut porter sur les offres,
sur les canaux de contact ou encore sur le contenu.

Internet, même s’il n’est pas le seul,
est un canal particulièrement propice à la personnalisation de la
communication. 

d.     
Echanger

L’interaction entre le client et
l’entreprise résulte, soit de compagnes organisées par l’entreprise, soit d’une
repense aux sollicitations du client. Dans le premier cas, l’entreprise postera
un courrier, passera un appel téléphonique. Dans le second cas, c’est le client
qui sollicite l’entreprise, en appelant un standard téléphonique, en envoyant
un courrier ou un e-mail. Ces interactions ont autant d’opportunités pour
nourrir la base de donné d’information nouvelle sur le client ainsi que pour
lui proposer une offre spécifique.

e.     
Evaluer

La relation avec
les clients se construit dans le temps et s’enrichit à chaque interaction. De
ce fait, l’apprentissage est une dimension essentielle du processus

Les
objectifs doivent être quantifiés pour pouvoir être évalué. Les indicateurs

peuvent prendre plusieurs
formes : indice de satisfaction, chiffre d’affaire par client,…etc.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CHAPITRE.IV.
IMPLEMENTATION ET INTERPRETATION DES RESULTATS

IV.1.
PRESENTATION DE LA SOCIETE VODACOM/CONGO

Cette section va bel et bien parler de l’entreprise Vodacom
Congo.

IV.1.1.
Cadres historique et géographique

IV.1.1.1.Cadre
historique[24]

La
société VODACOM/CONGO est une société Sud-Africaine créée par

Monsieur ALAN
KNOLT-CRAIG (CHEF EXECUTIF OFFICER DE VODACOM

GROUP PTY LTD), ALAN KNOTT a eu la vision de garrocher le
réseau de téléphonie cellulaire en Afrique du Sud pendant qu’il torturait ou
bossait encore chez TELEKOM Company.

La société
VODACOM est implantée en République Démocratique du Congo depuis l’année 2001 
et est fonctionnel depuis le 1er Mai 2002. VODACOM est une abréviation de VOICE
DATA COMMUNICATION; il est désigné en RDC sous le sigle de VODACOM.

En premier
lieu, le réseau VODACOM fut officiellement garroché en République
Sud-Africaine, le 1 juin 1994, alors que le système GSM (Global System Mobile)
à réellement pris son envol quand VODACOM a introduit le système de la carte
prépayée[25] en novembre 1996.

Les filiales
de VODACOM international Holding sont: VODACOM le Sotho, VODACOM/CONGO et
VODACOM TANZANIE.

 VODACOM GROUP (PTY) LTD;

 VODACOM International holding
(PTY) LTD;

 VODACOM SERVICE PROVIDER COMPAGNY(PTY).

 

En effet la société VODACOM /CONGO est
issue d’une « joint- venture » entre la société VODACOM International Holding
et CWN (congolese wireless Network).

Après
l’accord de partenariat signé avec la CWN, le 24 octobre 2001 c’est VODACOM

International LTD est venu s’implanter en RDC. C’est en fait
cet accord de partenariat qui a débouché sur la création de VODACOM/CONGO, le
26 novembre 2001.

Le premier pourvoyeur de la téléphonie
cellulaire GSM en RDC est the congolese wireless Network (CWN). Mais, vu que ce
groupe était limité en moyens il apparaissait clairement aux yeux des
consommateurs de ses services et en plus son service allait se détériorer. Pour
l’Etat congolais, la fameuse définition d’une couverture totale du

territoire national était loin d’être atteint ; en plus le
taux général d’utilisateurs par rapport à la population était très écarté, soit
100milles téléphones portables pour 60millions d’habitants.

Avec sa
soixantaine de millions d’habitants la RDC représente toujours un marché
potentiel du côté de VODACOM international LTD. Par ailleurs l’objectif d’une «
couverture totale du territoire » national qui est un slogan chez VODACOM
(couverture totale jamais auparavant) s’est révèle être un atout pour cette
entreprise qui était en train de naitre et qui aujourd’hui a atteint presque sa
maturité ; avant nous avons connus la société VODACOM/CONGO avec une marque de
couleur bleue mais actuellement elle a une marque de couleur rouge qui a été
imposé par VODAFONE par ce qu’ils sont en contra VODACOM malgré le changement
de couleur, elle reste la même société avec un nouveau slogan « A toi de jouer
».

La
croissance figurante du nombre d’abonnés, plus de trois millions d’abonnés en

moins des 6 ans d’exploitation, cette jeune société est l’un
de plus grands contribuables de contribution substantielle au budget de l’Etat
à travers la fiscalité et la parafiscalité. 

IV.1.1.2.Cadre
géographique

La société VODACOM Congo a 4
grands sièges en RDC d’où nous citons :

 VODACOM PLACE (connue sous le
nom de VODAPLACE par les habituées) se trouve dans sur la commune de la Gombe,
le long du boulevard du 30 juin, en face de la Direction générale des
Migrations.

 VODACOM CORPORATE PARK MOBILE,
situé sur le boulevard du 30 juin, en face de cimetière de la Gombe au deuxième
étage de l’immeuble de la société « MOBIL ».

 VODACOM HOUSE (Département des
opérations) appelé aussi Vodahouse, se trouve sur l’avenue de la justice dans
la commune de la Gombe et a coté des bureaux de la commune.

 VODACOM SQUARE (Direction
commerciale) appelé aussi Vodasquare situé sur l’avenue colonel LUKUSA dans la
commune de la Gombe à cote de station COBIL (ex : garage IVECO).

Le réseau
VODACOM couvre presque toutes les provinces et villes de la République
Démocratique du Congo. En dehors de la RDC, VODACOM CONGO est présent en Asie,
en Afrique, en Amérique du Nord, en Amérique du Sud, et en Europe.

IV.1.2.
MISSIONS & CADRE JURIDIQUE

IV.1.2.1.
Les missions

La présente mission ou souci de la
société VODACOM est d’« être le 1er numéro des télécommunication en
RDC ». En venant s’implanter en RDC, VODACOM

International LTD est exploiter et entretenir un réseau de
télécommunication aux fins de fournir des services des services de
télécommunication sur des commerciales viables et stratégique.

Pour VODACOM
le téléphone ne doit pas être l’apanage des quelques habitants  certaines
villes particulières. Tous congolais sont égaux et doivent avoir droit aux
mêmes traitements, l’accès aux mêmes services et à travers le pays.

IV.1.2.2.
Cadre juridique 

Cette jeune
société était créée comme une société des personnes à responsabilité limitée
mais actuellement c’est une société Anonyme. Il est régi par les statuts de
VODACOM International LTD et the Congo Wireless Network (CWN) le 24 octobre
2001.

Au terme de cet accord de partenariat
les parts d’action est VODACOM International LTD et son partenaire CWN sont
ventilées de la manière suivante : le premier qui est une filiale de VODACOM
Group de la RSA, a une part d’actions évaluée à 51% alors que CWN prend les 49%
restants VODACOM CONGO A pour Capital ou

chiffres d’affaires 76,5 millions $ US.

IV.1.3.
STRUCTURE, FONCTIONNEMENTS ET ORGANIGRAMME

IV.1.3.1.
Structure et fonctionnement

VODACOM CONGO,
tel que toute autre société Anonyme, a une structure qui a à sa tête une
assemblée générale composée de 8 membres suivie d’autres structures
opérationnelles énumérées dans les lignes qui suivent :

1.  Direction
générale

La direction
générale de VODACOM  CONGO est assurée par le Directeur général et son adjoint.
La direction générale constitue le head office. Cette direction est aussi
communément appelée « Managing Directeur ». La direction a la lourde charge de
présider, de coordonner, de concevoir et diriger également la politique
commerciale et financière de la société. 

2.  Direction
financière

VODACOM
Congo a quatre divisions dans cette direction dans le souci

d’atteindre ses objectifs financiers, ces divisions ont un
devoir à accomplir, parce qu’ici la direction s’occupe du recouvrement de
recettes et de l’exécution de toutes les dépenses, du mouvement  des fonds que
la société réalise à travers les entrées par la vente des produits. 

Inversement
elle s’occupe de la sortie des fonds qui est concédée par

rémunération, l’achat des matériels, le sponsoring, etc…

3.  Direction
des opérations

Cette
direction est communément appelée « Direction Technique ». Elle prend

soin de tous les aspects
techniques de la société en commençant par l’antenne centrale : la
planification du réseau, la supervision et le monitoring du réseau, la gestion
des défaillances, la gestion des configurations et administration du réseau.

4.  Direction
des ressources humaines

Le directeur
de ressources humaines s’occupe de l’évolution du rendement en encouragent ou
en prenant des mesures correctives en cas de nécessité. Son rôle est de
s’assurer qu’il n’existe aucune barrière qui puisse empêcher à l’employé
d’accomplir ses taches, de fournir des ressources nécessaires pour le bon
déroulement du travail et s’assurer que l’employé a reçu une bonne formation.

5.  Direction
de la facturation, de l’informatique et de Technologie.

Cette
direction est communément appelée « Billing and IT », constitue une interface
entre les consommateurs finaux (qui sont sur le plan interne, les différentes
directions et services de la société et sur le plan externe, ses clients).

6.  Direction
juridique et contrats

Le « Legal
Regulator » s’occupe de tous les aspects juridiques de Vodacom et de la
règlementation par rapport au texte juridique et aux lois en vigueur en RDC,
également de la négociation des contrats de la société et traite de certains
litiges qui peuvent y découler des transactions Vodacom avec les clients, les
autres partenaires et les entreprises installés en RDC.

 

 

 

 

7.  Direction
commerciale ou Marketing

Le département commercial s’occupe des
ventes, de la gestion de la clientèle, de la promotion des produits que la
société injecte sur le marché en élaborant des stratégies pouvant stimuler la
consommation des abonnés. C’est lui qui gère les différents contrats établis
entre la société et ses abonnés. Ce département constitue l’image de marque de

VODACOM CONGO.

8.  Direction
de client (Customer)

Il traite des
problèmes liés au réseau et autres problèmes des abonnés VODACOM, tels que le
renouvellement SIM, la vente et la distribution des produits dans les shop 
etc.

 

 

 






IV.  2.
Présentation du problème constaté

Pour ce travail
nous avons choisi comme domaine d’application, le domaine télécommunication où
notre travail vise à mettre en place un outil d’aide à la prise de décision
basé sur le data warehouse et l’arbre de décision pour l’analyse de performance
des clients.  

Cet outil aidera
les décideurs de cette entreprise à prendre des décisions relatives à la
performance des clients sur base de crédits consommés quotidiennement. C’est
vraiment un outil mis en place pour aider les décideurs à prédire aussi le churn
dont elle pourrait être victime en faisant juste une lecture sur les
comportements des clients, qui n’est autre qu’avoir une idée sur la manière
dont ces derniers rechargent les crédits. Ainsi, l’entreprise préconisera une
politique de pompage des bonus considérés comme une récompense pour les rendre
toujours performants(les pousser à consommer plus), cela avec l’intention de
les retenir et les rendre toujours siens. 

Quant à la prise
de décision, l’entreprise partira, grâce à cet outil, de la quantité de crédits
consommés par ses clients. Alors, si elle est maximale, c’est une performance
observée du côté client  sinon si elle est minimale, alors ce n’est pas une
performance lue. 

IV.3.
IMPLEMENTATION

IV.3.1.OUTILS 
ET TECHNIQUES UTILISES

Tout scientifique
dispose d’instruments de mesure pour lui permettre de comprendre et d’analyser
son domaine d’expérimentation: un biologiste aura besoin d’un microscope pour
comprendre l’infiniment petit, un chimiste d’un chromatographe et il en est de
même pour tous les autres domaines scientifiques. Dans celui des données, le
data scientist dispose d’outils lui permettant d’explorer les données de façon
intuitive, de les visualiser et d’interagir avec elles. On les appelle
généralement des outils de data mining et ils mettent en œuvre des algorithmes
de machine learning pour chercher les propriétés des données à analyser. Orange
entre dans cette même catégorie de produits que sont Weka, Knime , RapidMiner ou SPSS Modeler

D’Orange3
proprement dit

La version d’Orange
utilisée est 3.21.0.

Orange est
un logiciel libre d’exploration de données (data mining)[26].
Il comprend une gamme de techniques de visualisation, d’exploration, de
prétraitement et de modélisation de données. Il peut être utilisé via une
interface utilisateur conviviale et intuitive ou, pour les utilisateurs plus
avancés, comme module pour le langage de programmation Python[27].
Développé en Python, il existe des versions Windows, Mac et Linux.

Orange se résume à des visualisations de
données permettant de découvrir des modèles de données cachés, de fournir
l’intuition nécessaire aux procédures d’analyse de données ou de faciliter la
communication entre les scientifiques et les experts du domaine. 

Orange
pour l’exploration et la visualisation des données

Orange offre une
palette riche d’outils de visualisation graphique des données et permet aux
différents composants graphiques d’interagir entre eux. Il est possible de
sélectionner un ensemble de données dans un graphique de type scatter et
d’avoir la population correspondante sélectionnée dans le tableau de données. 
Il est possible d’explorer un arbre de décision en utilisant le contrôle «
arbre de Pythagore » et de visualiser sur un diagramme scatter la population
sélectionnée[28].

Orange
met à disposition du data scientist de nombreux algorithmes de machine

learning supervisés ou non
supervisés et cela grâce à l’intégration des librairies exposées par la
distribution Anaconda. Il est ainsi possible de tester rapidement plusieurs
algorithmes de machine learning, de comparer leurs scores et de visualiser
leurs performances. Plusieurs techniques d’échantillonnage des données sont
disponibles pour évaluer et tester les modèles.

Le logiciel est
disponible sous Windows, Mac OSX et Linux grâce au choix de la plateforme
graphique QT qui dispose d’une API python.

IV.4.Présentation
des données

Ici nous allons interpréter la matrice de
confusion.

        
Sexe : cette variable catégorise les clients par sexe

        
Agecli : cette variable catégorise les clients par âge

        
Decision: cette variable est une variable cible (Target) sur
laquelle nous allons décider. Elle représente deux classes, la première est
réservée à ceux qui sont performants et est comprise par la  valeur 1 
et la deuxième à ceux qui ne le sont pas et est comprise par la valeur 0

        
Day Charge: cette variable représente la recharge  effectuée par
jour par les clients en termes d’unités.

        
Eve Charge: celle-ci à son tour, représente la recharge 
vespérale effectuée par les clients.

        
Night Charge: cette variable donne l’idée des recharges nocturnes
effectuées par les clients 

        
State: elle représente l’Etat. 

        
Area Code: elle représente le code de la zone. Cette variable
montre le code de la zone à laquelle le réseau Vodacom est éligible pour
effectuer des appels.  Avec lequel le réseau Vodacom est en interconnexion
Donc, le code de la zone que

Vodacom s’est ou a permis d’effectuer
des appels ou autres opérations

        
Phone: cette variable reçoit les numéros de téléphone des clients
autrement appelés abonnées.




 

Figure IV.11.Le prétraitement dans flux
de travail (workflows)


 

 

 




 

 

 

 

Figure IV.15.La matrice de confusion

 



IV.5.Interprétation des résultats Ø
Sous Arbre de décision

Notre interprétation de notre
arbre de décisions va porter sur quelques feuilles.

Tenons en compte l’exemple d’un client dont
la recharge de la journée est inférieure à 31 et dont  celle du soir inférieure
à 15, il n’est pas performant. Mais celui dont la recharge du soir est
supérieure à 15, nous testons encore la recharge du soir, alors si celui dont
la recharge du est supérieure à 20, il est performant. Mais celui dont la
recharge du soir est inférieure à 20, nous testons encore la recharge de la
journée, donc celui dont la recharge de la journée est inferieures à 25, n’est
pas performant.

La lecture interprétative peut se resuivre de la manière
suivante :

Un client dont la recharge de la journée
est <31 , dont la recharge du soir est >15, dont la recharge du soir est
<20 et dont la recharge de la journée est <25, ce client n’est pas
performant mais celui dont la recharge de la journée est supérieure à 25, nous
testons la recharge de la nuit, si celle de la nuit est >10, il est
performant sinon nous teston encore celle du soir, si celle du soir est 
<16, il n’est pas performant et si c’est supérieur la journée c’est-à-dire
daycharge >27, il est performant sinon il ne l’est pas .

Ø
Sous Matrice de confusion

Nous avons 83 données qui devraient être
classées négativement et 116 données qui devraient être classées positivement.

Ainsi, le modèle prédit pour les données
qui devraient être classées négativement, à 98,8% qui sont des vrais négatifs
et un taux d’erreurs de 1,2 % qui sont des faux négatifs.

Sur 116 données qui devraient être classées
positivement, le modèle prédit à 99,1% des vrais positifs et un taux d’erreurs
de 0,9% qui constituent des faux positifs.

 

 

 

CONCLUSION
GENERALE

Ce travail s’est
focalisé sur l’arbre de décision pour analyser la performance des clients de
Vodacom qui est l’une des entreprises de télécommunications de la RDC. La
méthode des arbres de décision nous a sans doute aidé à déterminer le quel
client est performant ou pas afin de préparer les décideurs de l’entreprise à
prendre de décision pour la santé de celle-là. 

En
outre, le client étant un élément très importante pour toute entreprise, est

appelé à être satisfait, fidélisé,
écouté et connu individuellement. Alors imaginer qu’une entreprise ne dispose
d’aucun outil prédictif et qu’elle veut accomplir ses objectifs sur le client.
D’où, pour qu’elle les mène à bien, elle doit être orientée vers une 
connaissance de chaque client à titre individuel à travers cet outil prédictif.
Cette connaissance est indispensable pour développer avec lui une relation
durable et lui proposer une offre adaptée.

Avec cet outil,
l’entreprise saura renforcer la vente, augmenter le résultat, réduire
l’attrition (churn), améliorer la fidélisation, améliorer la qualité des
contacts, faire du client un ambassadeur. Donc, nous voyons combien cet outil
participe hautement à la gestion de la relation client. Toute décision à être
prise par l’entreprise sur le client ne va vite être opérationnelle qu’en se
référant à cet outil, car à chaque test de performance de client doit être
appliquée une décision. Cette décision n’est autre que mettre en place des
stratégies  nouvelles pour la santé perpétuelle de l’entreprise.

Ainsi, quant à
l’évaluation de performance de notre modèle, nous avons obtenu les résultats
interprétatifs et prédictifs ci-dessous :

Nous avons 83 données qui devraient
être classées négativement et 116 données qui devraient être classées
positivement :

        
Ainsi, le modèle prédit pour les données qui devraient être classées
négativement, à 98,8% qui sont des vrais négatifs et un taux d’erreurs de 1,2 %
qui sont des faux négatifs.

        
Sur 116 données qui devraient être classées positivement, le modèle
prédit à 99,1% des vrais positifs et un taux d’erreurs de 0,9% qui constituent
des faux positifs.

D’où pour y
parvenir, l’utilisation des arbres de décision nous a été utile, par sa
performance dans la prédiction. Ainsi, pour leur donner sens, la présence
préalable d’un échantillon de données est importante, ce dernier a été simulé à
cause des difficultés éprouvées pour son obtention de l’entreprise, et c’est
grâce à cet échantillon que nous avons pu aboutir à  la mise ne place de notre
outil prédictif.

Malgré le manque
d’une quantité importante de données, l’estimation de précision nous a été
satisfaisante quant à notre modèle. Toutefois, il y a toujours moyen de
l’optimiser.

En définitive,
nous croyons que notre modeste travail aidera les décideurs de cette entreprise
de pouvoir fidéliser davantage les clients et prédire le churn en tenant compte
de leur performance(capacité de consommation par les clients) incarnant la
manière dont ils consomment les produits Vodacom qui ne sont autres que, pour
notre cas, les crédits rechargés ou consommés. Il les oriente vers l’idée de
maintenance d’une relation durable entre ses clients et l’entreprise. Enfin,
nous ne manquerons dire élogieusement sans prétention que ce travail regorge un
intérêt capital pour tout celui voudra mener des investigations dans ce
domaine  car il disposant de tous les éléments y relatifs. 

Toutefois, toutes
les critiques, suggestions nous sont les bienvenus car tout travail humain ne
manque pas d’imperfections.

 

 

 

 

 

 

 

 

 

BIBIOGRAPHIE

I. OUVRAGES 

1.      Caron
Stéphane, Une introduction aux arbres de décision, 2011.

2.      Elsa
NEGRE, Entrepôt des données, Université Paris-Dauphine, 2018-2019.

3.     
Moutarde Fabien, Brève introduction aux arbres de décision, CAOR,
MINES ParisTech, 2008.

4.     
Mues Christophe et Jan Vanthienen , Datawarehouse « Contrôles des
transports routiers » : Rapport final et explication du projet de modèle ,
Dept. Sciences économiques appliquées, K.U.Leuven, 2004.

5.     
Omar Boussaïd, Les Entrepôts de données avancés Partie2,
Université Lumière Lyon2, 2017. 

6.     
RAKOTOMALALA Ricco, Arbres de décision, Laboratoire ERIC Université
Lumière Lyon 2, Mendés, France, 2005.

II.          ARTICLES

Les arbres de décisions,
Université du Québec  Montréal.

III.         MEMOIRES

1.      GIRARDALAIN,
Mémoire sur l’exploration d’un algorithme génétique et d’un arbre de
décision à des fins de catégorisation
, Université du Québec à
TroisRivières, 2007.

2.      MUTOMBO
Jeannot, mémoire de licence sur la mise en place d’un modèle à

l’aide des arbres de décision pour
la prédiction de la Tuberculose, Facultés des sciences, Département de
Math-info, Unikin,2017.

3.     
Mr. Rafik  Aregradj et Melle. Rachida  Benbelkacem
Mémoire de fin de cycle sur la gestion de la relation client au sein de
l’entreprise cevital
, Faculté des Sciences Economiques, Sciences de Gestion
et des Sciences Commerciales, Université

Abderrahmane Mira de Bejaia, Département des sciences
commerciales, 20142015.

 

IV.            
NOTES DES COURS

1.     
A. ELOUARDIGHI, Support Cours & TD Data
warehouse,
high Tech, 2010, p.13.

2.      KAFUNDA
KATALAY Pierre, Business Intelligence, Cours inédit, Deuxième licence
Informatique, AIA, Faculté des lettres et sciences humaines, UNIKIN 2018-2019.

V.               
WEBOGRPAHIE

1.     
https://www.definitions-marketing.com/definition/gestion-de-la-relation-client/
à 09h:58 le 04/08/2019.

2.      https://www.definitions-marketing.com/definition/crm/
à 10h :17 le 04/08/19.

3.      https://www.definitions-marketing.com/definition/attrition/
10h :33 le 04/08/19.

4.     
https://www.definitions-marketing.com/definition/barometre-clients-perdus/
le 04/08/2019 à 10 :41.

5.      https://fr.wikipedia.org/wiki/Orange_(logiciel)
le 27/09/19 à 20 :58.

6.      https://pypi.org/project/Orange3/
le 27/09/19 à 21 :05.

7.     
https://www.itnation.lu/orange-outil-dexploration-de-donnees-gratuit-sintegrantdistribution-anaconda/
le 27/09/19 à 21 :27.

 

 

 

 

 

 

 

 

 

 

TABLE
DES MATIERES

EPIGRAPHE
……………………………………………………………………………………………………
i

DEDICACE
………………………………………………………………………………………………………
ii

REMERCIEMENTS
………………………………………………………………………………………
iii

LISTE DES ABBRÉVIATIONS
…………………………………………………………………………….
vi

LISTE DES TABLEAUX ……………………………………………………………………………………..
vii

LISTE DES FIGURES
…………………………………………………………………………………………
viii

INTRODUCTION GENERALE ……………………………………………………………………………..
1

Contexte et Motivation
……………………………………………………………………………………………
1

Méthode et Organisation du travail …………………………………………………………………………..
2

CHAPITRE I. GENERALITES SUR LES SYSTEMES
DECISIONNELS ………………….. 3

I.1. INTRODUCTION
…………………………………………………………………………………………………………….
3

I.2. HISTORIQUE DES SYSTEMES DECISIONNELS
…………………………………………………………….. 4

I 
.3. DEFINITION D’UN SYSTEME
DECISIONNEL
………………………………………………………………..
7

I.4.  
ARCHITECTURE DES SYSTEMES
DECISIONNELS

……………………………………………………….. 8

I.5.  
LES FONCTIONNALITES D’UN SYSTEME
DECISIONNEL

……………………………………………. 9

I.6.  
LES APPORTS DES SYSTEMES
DECISIONNELS.

………………………………………………………… 10

I.7.  
COMPARAISON DU SYSTEME DECISIONNEL
ET SYSTEME    OPERATIONNEL
……….. 12

I.8.  
QUELQUES CONCEPTS DE SYSTEME DECISIONNEL (BI)
………………………… 12

CHAPITRE II. DATAWAREHOUSE ET L’ARBRE DE
DECISION ………………………. 14

II.1. DATAWAREHOUSE
…………………………………………………………………………………………………….
14

II.1.1.    Introduction…………………………………………………………………………………………………………………
14

II.1.2.    Objectifs du Data Warehouse
………………………………………………………………………………………..
16

II.1.3.    Le rôle du data warehouse
…………………………………………………………………………………………….
17

II.1.4.    Les composants de base du Data Warehouse
…………………………………………………………………. 17

II.1.5.    Caractéristique d’un Data Warehouse
…………………………………………………………………………….
19

II.1.6.    Différence entre les Systèmes OLTP et le Data
Warehouse

………………………………………………. 19

II.1.7.    La problématique de l’entreprise.
…………………………………………………………………………………..
20

II.1.8.    Définition du Data Warehouse
………………………………………………………………………………………
22

II.1.9.    La Modélisation de données
………………………………………………………………………………………….
23

II.1.9.5.2 Le Schéma en Etoile (star schema)
…………………………………………………………………………….
27

II.1.9.5.3. Le Schéma en Flocon (Snowflake schema)
……………………………………………………………….. 28

II.1.9.5.4. Les schémas en constellation de faits
(fact constellation schema)
………………………………… 29

II.1.10.Architecture du Data Warehouse
………………………………………………………………………………….
30 
……………………………………………………………………………………………………………………………………………
33

II.1.11.Conception d’un data warehouse (les techniques de
réalisation)

……………………………………… 33

II.1.12.Les étapes de construction d’un DataWareHouse :
………………………………………………………… 35

II.1.13.Alimentation du Data Warehouse par les outils ETL
……………………………………………………… 35

II.1.14.Le Data Mart
………………………………………………………………………………………………………………
39

II.1.15. OLAP
……………………………………………………………………………………………………………………….
40

II.1.15.1.                 
Présentation
…………………………………………………………………………………………………………….
40

II.1.15.2.                 
les différents outils OLAP
………………………………………………………………………………………..
41

II.1.16. La Navigation dans les données
……………………………………………………………………………………
42

II.1.16.1.                 
Drill-Down et Drill-Up …………………………………………………………………………………………….
42

II.1.16.2.                 
Data Surfing
……………………………………………………………………………………………………………
42

II.1.17. LE DATAMINING
……………………………………………………………………………………………………
43

II.2. ARBRE DE DECISION
…………………………………………………………………………………
44

II.2.1.   Introduction à l’arbre de décision
……………………………………………………………………………………
44

II.2.2.   Principe général des arbres de décision
…………………………………………………………………………..
46

II.2.3.   Implémentation d’un arbre de décision
……………………………………………………………………………
46

II.2.4.   Structure interne d’un nœud d’un arbre de décision
…………………………………………………………. 47

II.2.5.   Algorithme général de construction d’un arbre de
décision
 ……………………………………………….
47

II.2.6.   Construction d’un arbre de décision
……………………………………………………………………………….
48

II.2.6.1.Critères de choix de la variable de
séparation

……………………………………………………………….. 49

II.2.8. Algorithmes de construction d’arbre de
décision

…………………………………………………………….. 51

II.2.8.4. Le but des algorithmes de construction
d’arbre de décision.

…………………………………………… 55

II.2.9. Caractéristiques et avantages des arbres de décision
………………………………………………………… 56

CHAPITRE III. LA GESTION DE LA RELATION
CLIENT ………………………………….. 57

III.1. INTRODUCTION
…………………………………………………………………………………………………………
57

III.2. GESTION DE LA RELATION – CLIENT QUID ?
…………………………………………………………. 57

III.3. ENJEUX DE LA GESTION DE LA RELATION CLIENT
………………………………………………. 60

III.4. LES COMPOSANTES DE LA GESTION DE LA RELATION CLIENT
…………………………… 63

III.5. LES DIMENSIONS DU CRM
………………………………………………………………………………………..
65

III.6. LES AVANTAGES DU CRM
………………………………………………………………………………………..
66

III.7. LES CINQ ETAPES DU CRM
……………………………………………………………………………………….
71

CHAPITRE.IV. IMPLEMENTATION ET
INTERPRETATION DES RESULTATS …. 74

IV.1. PRESENTATION DE LA SOCIETE VODACOM/CONGO
…………………………………………….. 74

IV.1.1. Cadres historique et géographique
………………………………………………………………………………..
74

IV.1.2. MISSIONS & CADRE JURIDIQUE
…………………………………………………………………………….
76

IV.1.3. STRUCTURE, FONCTIONNEMENTS ET ORGANIGRAMME
…………………………………… 77
IV.1.3.2. ORGANIGRAMME
………………………………………………………………………………………………..
80

IV. 
2. Présentation du problème
constaté

………………………………………………………………………………….
81

IV.3. IMPLEMENTATION
……………………………………………………………………………………………………
81

IV.3.1.OUTILS  ET TECHNIQUES UTILISES
……………………………………………………………………….
81

IV.4.Présentation des données
…………………………………………………………………………………………………
83

IV.5.Interprétation des résultats
………………………………………………………………………………………………
90

CONCLUSION GENERALE
………………………………………………………………………………..
91

BIBIOGRAPHIE
………………………………………………………………………………………………….
93

TABLE DES MATIERES
…………………………………………………………………………………….
95

  



[1] Pr. A.
ELOUARDIGHI, Support Cours & TD Datawarehouse, high Tech, 2010,
p.13.

[2] NEGRE
Elsa, Entrepôts de données, Université Paris-Dauphine ,  2018-2019,p.19.

[3]
Christophe Mues et Jan Vanthienen, Datawarehouse « Contrôles des transports
routiers : Rapport final et explication du projet de modèle
, Dept. Sciences
économiques appliquées, K.U.Leuven, 2004, p.8.

[4] Omar Boussaïd, Les Entrepôts
de données avancés Partie2
, Université Lumière Lyon2, 2017,p.5.         

[5] Pierre
KAFUNDA KATALAY, Business Intelligence, Cours inédit, Deuxième licence
Informatique, AIA, Faculté des lettres et sciences humaines, UNIKIN 2018-2019,
p.77.

[6] A partir d’un article publié par
l’Université du Québec sur les arbres de décisions, Montréal, p.2.

[7] Stéphane
Caron , Une introduction aux arbres de décision, 2011,p.2. http://scaron.info

[8] ALAIN GIRARD, Mémoire sur
l’exploration d’un algorithme génétique et d’un arbre de décision à des fins de
catégorisation
, Université du Québec à Trois-Rivieres, 2007, p.21.

[9] Fabien
Moutarde , Brève introduction aux arbres de décision, CAOR, MINES
ParisTech 21/05/2008 ,p.2 10Fabien Moutarde, Op.cit , p. 82

[10] Idem

[11] ALAIN
GIRARD, Mémoire sur l’exploration d’un algorithme génétique et d’un arbre de
décision à des fins de catégorisation
, Université du Québec à
Trois-Rivières, 2007, p.83.

[12]
ALAIN GIRARD, Mémoire sur l’exploration d’un algorithme génétique et d’un
arbre de décision à des fins de catégorisation
, Université du Québec à
Trois-Rivières, 2007, p.23

[13]
Ricco RAKOTOMALALA, Arbres de décision, Laboratoire ERIC Université
Lumière Lyon 2, Mendés, France, 2005, p.2.

[14] Jeannot
MUTOMBO, mémoire de licence sur la mise en place d’un modèle à l’aide des
arbres de décision pour la prédiction de la Tuberculose.

[15] Pierre
KAFUNDA KATALAY, Business Intelligence, Cours inédit, Deuxième licence
Informatique, AIA, Faculté des lettres et sciences humaines, UNIKIN 2018-2019,
p.77.

[16] KAFUNDA
KATALAY P., cours de business intelligence, deuxième licence informatique, AIA,
FLSH, UNIKIN, 2018-2019, p.77.

[17] ALAIN
GIRARD, Mémoire sur l’exploration d’un algorithme génétique et d’un arbre de
décision à des fins de catégorisation
, Université du Québec à
Trois-Rivières, 2007, p.84

[18] Brève introduction aux arbres
de décision Fabien Moutarde, CAOR, MINES ParisTech

[19]
https://www.definitions-marketing.com/definition/gestion-de-la-relation-client/
à 09h:58 le 04/08/2019

[20]
https://www.definitions-marketing.com/definition/crm/ à 10h :17 le 04/08/19

[21]
https://www.definitions-marketing.com/definition/attrition/ 10h :33 le 04/08/19

[22]
https://www.definitions-marketing.com/definition/barometre-clients-perdus/ le
04/08/2019 à 10 :41

[23] Mr.
Aregradj Rafik et Melle. Benbelkacem Rachida,  Mémoire de fin de
cycle sur la gestion de la relation client au sein de l’entreprise cevital
,
Faculté des Sciences Economiques, Sciences de Gestion et des Sciences Commerciales,
Université Abderrahmane Mira de Bejaia, Département des sciences commerciales,
2014-2015, pp.47-48.

 

[24] Ces
informations ont été puisé a la direction COPRORATE PARK MOBIL auprès de
gestionnaire chargé de recherche.  

[25] VODACOM
est l’un des premiers groupes à avoir initié l’usage de la carte prépayée  pour
résoudre les problèmes de factures de téléphone c’est par ce qu’il a adapté le
slogan « leader dans le monde cellulaire »

[26]
https://fr.wikipedia.org/wiki/Orange_(logiciel) le 27/09/19 à 20 :58

[27]
https://pypi.org/project/Orange3/ le 27/09/19 à 21 :05

[28]
https://www.itnation.lu/orange-outil-dexploration-de-donnees-gratuit-sintegrant-distribution-anaconda/
le 27/09/19 à 21 :27