Nous vous suggérons de passer à IE 7 ou Firefox pour une meilleure navigation.
Caractérisation de clients, élaboration de profils
L'exploitation des données relatives aux clients par des méthodes de Data Mining peut permettre l'élaboration de profils de clients. Ces profils peuvent alors fournir des informations objectives au département Marketing, être utilisés pour réduire le coût de campagnes en sélectionnant seulement les prospects ayant de forte chance de répondre positivement, ou encore être exploités dans la détection des fraudes.
Marketing
Nous décrivons ici l'utilisation de BayesiaLab pour l'élaboration de profils de clients relativement à un produit bancaire se déclinant en plusieurs versions. La base de données utilisée contient des variables décrivant le client (age, CSP, ancienneté, localisation géographique, ...), les données décrivant son ou ses comptes bancaires (équipements, consommation, ...) et bien entendu un champ indiquant le type du produit.
La variable correspondant au type du produit permet de se placer dans le cadre de l'apprentissage supervisé. Plutôt que d'apprendre un réseau Bayésien représentant l'ensemble des relations probabilistes présentes au sein des données et dont la plupart n'apporte aucune information sur la possession du produit bancaire (comme par exemple la relation entre la consommation par chèque et par carte bancaire), il est alors possible d'utiliser les algorithmes d'apprentissage supervisés de BayesiaLab, comme par exemple la recherche de la Couverture de Markov. Cet algorithme permet de focaliser la recherche uniquement sur les facteurs caractérisant au mieux la variable cible. La copie d'écran ci-dessous correspond au réseau bayésien obtenu.
Ce réseau bayésien en Couverture de Markov facilite l'analyse en réduisant le nombre de variables à prendre en compte. Les outils d'analyse de BayesiaLab apportent également une aide très appréciable (longueur des arcs relative à la force des relations probabilistes, positionnement automatique des noeuds en fonction de cette force, analyse du type et de la force de relation liant les variables avec la variable cible ou une modalité cible).
L'évaluation de la qualité du réseau Bayésien obtenu sur un ensemble de données n'ayant pas été utilisé pour l'apprentissage a permis de noter un gain de 20% en précision par rapport au profil qui était utilisé jusqu'alors. La copie d'écran ci-dessous illustre les outils d'évaluation offerts par BayesiaLab (Précision globale du réseau bayésien, Matrice de confusion pour évaluer plus précisément le modèle (affichant les occurrences, la fiabilité ou la précision), les courbes de Lift ou ROC pour aider au choix des probabilités seuils dans les règles de décision).
BayesiaLab peut exploiter ce réseau bayésien pour élaborer automatiquement des questionnaires adaptatifs. Ces derniers trient les moniteurs (i.e. les questions à poser) en fonction d'une part de l'information apportée par la connaissance des variables sur la variable cible et d'autre part en fonction du coût associé à la connaissance de la valeur des variables.
Ce réseau bayésien peut également être utilisé pour prédire le type de produit correspondant aux nouveaux clients. BayesiaLab fournissant la probabilité associée à cette prédiction, il est alors possible de réduire les coûts des campagnes en utilisant cette probabilité pour sélectionner les destinataires.
Détection de fraudes
En adoptant la même démarche que celle décrite ci-dessus sur des données issues d'un opérateur téléphonique, la méthode d'apprentissage supervisé de la Couverture de Markov a permis d'améliorer la précision de 23% relativement aux filtres utilisés jusqu'alors. Les performances du réseau Bayésien en Couverture de Markov, obtenu en un temps 115 fois inférieur au temps nécessaire à l'apprentissage d'un réseau Bayésien visant à découvrir l'ensemble des relations probabilistes, ont également été supérieures à celles obtenues avec des arbres de décisions (+12%) et des réseaux de neurones (+7%).
En outre, l'algorithme de recherche de la Couverture de Markov de BayesiaLab constitue un formidable outil de sélection de variables (cf. également l'analyse des bio-puces). Il a par exemple permis dans cette étude de concentrer l'analyse sur les 21 variables réellement pertinentes dans la caractérisation de la fraude, sur les 224 disponibles.



