English Recherche
www.bayesia.com n'est pas optimisé pour votre navigateur (Internet Explorer 6).
Nous vous suggérons de passer à IE 7 ou Firefox pour une meilleure navigation.

BayesiaLab 4.5 : les nouveautés


Données


Sauvegarde de la
base de données avec le réseau
Il est maintenant possible de sauvegarder l'intégralité de la base de données associée au réseau dans le même fichier que le réseau. Cette sauvegarde se fait automatiquement à moins qu'elle soit désactivée avec une option des préférences. La base de données sera chargée en même temps que le réseau.

Option de sauvegarde de la base de données

Fichier de scénarios
d'observations
Il est possible d'associer à un réseau bayésien un fichier de scénarios d'observations. Ce fichier contient une suite d'ensembles d'observations qui sont faites sur les noeuds du réseau. Ce fichier peut être écrit par l'utilisateur puis importé, mais il peut également être généré en enregistrant les observations faites à l'aide des moniteurs. Ce fichier généré peut être ensuite exporté. Il est possible d'associer un commentaire à chaque ensemble d'observations. Ce commentaire sera affiché dans la barre de d'état du réseau lors de l'inférence interactive et de l'actualisation interactive.

Il existe trois types possibles d'observations qui sont les mêmes que ceux obtenus via les moniteurs :
  1. L'observation exacte de la modalité d'un noeud
  2. L'observation d'une distribution de vraisemblances sur les modalités d'un noeud (notée l{...} )
  3. L'observation d'une distribution de probabilités d'un noeud (distribution fixée en inférence exacte ou bien calcul des vraisemblances correspondantes en inférence approximative) (notée p{...} )
Lorsqu'un réseau est temporel, c'est à dire qu'il utilise la variable Temps ou bien qu'il possède au moins un noeud temporel, le pas de temps peut être observé en indiquant sa valeur par un entier positif ou nul.

L'exemple ci-dessous comporte des observations, des vraisemblances et des probabilités pour quatre pas de temps :
0;?Vanne1?:OK;?Vanne2?:OK;?Vanne3?:OK //Toutes les vannes fonctionnent
2;?Vanne1 t+1?:l{OK:0.8;RC:0.9;RO:0.9}
20;?Vanne2 t+1?:l{OK:0.3;RO:0.3;RC:0.3};?Vanne1 t+1?:p{OK:0.2;RO:0.4;RC:0.4}
30;?Vanne3 t+1?:OK;?Vanne1 t+1?:p{OK:0;RO:0.8;RC:0.2}
Lorsque un fichier d'observations temporelles est associé à un réseau temporel, les observations sont prises en compte à chaque fois que le compteur temporel atteint un des pas de temps spécifié. Lorsque le fichier et le réseau ne sont pas temporels, les observations sont prises en compte lors de l'inférence interactive ou bien de l'actualisation interactive.
L'exemple ci-dessous montre des observations non temporelles avec également des observations de valeurs numériques :
?Fumeur?:Oui;?Age?:25.5;?Bronchite?:p{Oui:0.8;Non:0.2} //Jeune fumeur avec forte probabilité de bronchite
?Fumeur?:Non;?Age?:70;Dyspnée:l{Oui:0.8;Non:0.5 //Senior non-fumeur
Lorsqu'un réseau possède un fichier de scénarios d'observations associé, l'icône  est affichée dans la barre d'état du réseau. Un clic sur cette icône propose de dissocier le fichier du réseau.

Liste des valeurs
manquantes et filtrées par défaut
A l'import et l'association de données, la liste des valeurs manquantes et la liste des valeurs filtrées sont pré-remplies par des valeurs par défaut qui sont définies dans les préférences de l'import/association.
Ainsi, toute valeur rencontrée dans la base de données qui appartient à la liste des valeurs manquantes sera automatiquement considérée comme valeur manquante. Il en est de même pour les valeurs filtrées.

Liste des valeurs manquantes et filtrées à l'import/association :
Listes des valeurs manquantes et filtrées

Liste des valeurs manquantes et filtrées par défaut dans les préférences :
Listes des valeurs manquantes et filtrées par défaut

Variables continues
associées cibles pour discrétisation et agrégation
Lors de l'association, il est possible d'utiliser les variables continues associées comme cibles pour la discrétisation et l'agrégation des variables ajoutées. Ceci en plus des variables ajoutées discrétisées manuellement.

Chargement optionnel de la base de données Si un réseau a été enregistré avec une base de données associée, lors du chargement de ce réseau, une option permet de choisir s'il l'on désire ou non importer la base avec le réseau.

Option de chargement de la base de données

Import/Export des arcs interdits dans les menus L'import et l'export des arcs interdits ont été ajouté dans les menus d'import et d'export des dictionnaires.

Améliorations du KMeans L'algorithme de discrétisation KMeans a été modifié en profondeur afin de permettre plusieurs actions :
  1. Lorsque la taille d'un intervalle est inférieure à la taille minimale autorisée, les points de cet intervalle sont agrégés aux intervalles les plus proches.
  2. Il est possible de définir un filtre qui permet de supprimer l'impact des outliers (valeurs aberrantes) lors de la discrétisation. La valeur de ce filtre permet de calculer la largeur de la fenêtre coulissante qui va pondérer chaque valeur de la base de données.
    La largeur de cette fenêtre est égale au pourcentage indiqué du nombre de valeurs distinctes. Pour que ce filtre soit activé lors de la discrétisation par KMeans, il faut que la taille de la fenêtre soit supérieure ou égale à 2 et que le nombre de valeurs numériques distinctes de la base de données soit supérieur à la taille de la fenêtre plus 2.
Ces propriétés sont paramétrables dans les préférences :

Options du KMeans


Conservation de la base de données lors de la modification des modalités Maintenant, lorsque l'on ajoute ou bien change l'ordre des modalités d'un noeud discret, la base de données associée au réseau est reconfigurée afin de prendre en compte ces modifications au lieu de supprimer son association. En revanche, il n'est pas possible de supprimer une modalité sans supprimer l'association avec la base de données.

Pour les noeuds continus, il est maintenant possible de changer les bornes des intervalles ou bien d'ajouter ou de supprimer des intervalles si la base de données possède des valeurs continues.

Réseau


Modalités filtrées Pour chaque noeud, discret ou continu, il est possible de définir une et une seule modalité filtrée parmi toutes les modalités du noeud. Cette modalité permet de représenter les cas où la variable n'a pas d'existence réelle en fonction des autres variables du réseau. C'est le cas où la variable courante ne possède de valeur que si une autre variable a une certaine valeur.

Par exemple, prenons le cas d'une variable Analyse qui n'est effectuée que suivant le résultat d'une variable Test :

La variable Test possède deux modalités : "Vrai", "Faux".
La variable Analyse possède trois modalités : "Positive", "Négative" et "Non applicable" (notée également "*") qui sera définie comme la modalité filtrée
  • si la valeur de la variable Test est "Vrai" alors la valeur de la variable Analyse peut être "Positive" ou bien "Négative" selon une certaine distribution de probabilité
  • si la valeur de la variable Test est "Faux" alors la valeur de la variable Analyse sera la valeur filtrée "Non applicable" (ou bien "*")
Cette configuration arrive très souvent dans les résultats de questionnaires, de sondages, etc., où des questions sont posées ou non en fonction de la réponse à la question précédente. Le problème est que lorsque l'on apprend la structure d'un réseau avec ce type de données, les relations structurelles très fortes entre les variables pivots (comme la variable Test) et les variables "conditionnelles" (comme la variable Analyse) sont systématiquement extraites pour représenter cette dépendance en apportant, le plus souvent, aucune information "intéressante" au modèle. Ce qui est important d'apprendre, c'est le comportement des variables "conditionnelles" face au modèle uniquement lorsqu'elles existent, c'est-à-dire, sur l'échantillon de données dans lequel leur valeur est différente de la valeur filtrée. La définition d'une modalité filtrée permet donc de faire ceci.

Indicateurs de modalités filtrées :

Lorsqu'un réseau possède des modalités filtrées, l'indicateur de modalités filtrées s'affiche dans la barre d'état du réseau.

Si un noeud possède une modalité filtrée, son moniteur affichera l'icône  en face de la modalité correspondante, comme on peut le voir dans l'image suivante :



Import/Association de données contenant des valeurs filtrées :

Il est possible de définir une modalité filtrée à l'import des données ou à l'association des données. Dans ce cas toutes les valeurs filtrées de la base de données seront remplacées par le caractère *. A la fin de l'import, pour chaque noeud contenant une valeur filtrée, une modalité filtrée sera ajoutée à la liste des modalités présentes dans la base de données. Dans le cas des noeuds continus, un nouvel intervalle de largeur 1E-7 sera ajouté après les intervalles définis à l'import. Le nom de cet intervalle sera * et il sera considéré en tant que modalité filtrée.

Dans le cas de l'association de données, si la variable est ajoutée alors le comportement est le même qu'à l'import sinon, si elle existe déjà et que c'est une variable continue, plusieurs cas sont à différencier :
  1. Pas de modalité filtrée initialement dans le noeud continu, valeurs filtrées dans la base de données : un intervalle de largeur 1E-7 sera ajouté après les intervalles définis dans le noeud.
  2. Modalité filtrée initialement dans le noeud continu et pas de valeurs filtrées dans la base de donnée : les valeurs importées qui correspondent à l'intervalle de la modalité filtrée sont traitées en tant que valeurs filtrées.
  3. Modalité filtrée initialement dans le noeud continu et valeurs filtrées dans la base de donnée : les valeurs importées qui correspondent à l'intervalle de la modalité filtrée sont traitées en tant que valeurs filtrées et les valeurs filtrées importées sont également associées à cet intervalle.   
Edition des modalités filtrées :

L'éditeur de noeud possède un panneau spécifique permettant de définir manuellement une et une seule modalité filtrée par noeud :



Dictionnaire de modalités filtrées :

Il est possible de définir quelles sont les modalités filtrées des noeuds du réseau en utilisant un dictionnaire. On peut également exporter un dictionnaire contenant les modalités filtrées du réseau.

Noeuds exclus Il est maintenant possible d'exclure momentanément un noeud. Ces noeuds ne doivent pas être pris en compte lors de l'apprentissage. Il est possible d'exclure un noeud ou bien de l'inclure grâce au menu contextuel du noeud.  

Le score MDL est modifié en conséquence : l'impact des noeuds exclus est supprimé (avec ou sans valeurs manquantes).

Editeur global et indicateur d'indices temporels Un éditeur global d'indices temporels a été ajouté. Il permet d'éditer les indices temporels pour l'ensemble des noeuds :

Editeur global d'indices temporels

Lorsqu'au moins un des noeuds possède un index temporel, l'indicateur s'affiche alors dans la barre d'état du réseau. Un clic sur cette icône affiche la boîte de dialogue précédente.

Indicateur de coûts Lorsqu'au moins un des noeuds possède un coût associé, l'indicateur s'affiche alors dans la barre d'état du réseau. Un clic sur cette icône affiche l'éditeur de coûts.

TPC des noeuds
sélectionnés dans le rapport du graphe
Le rapport du graphe a été enrichi en incluant les tables de probabilités conditionnelles des noeuds sélectionnés. Si aucun noeud n'est sélectionné, toutes les table seront ajoutées au rapport.

Liste des noeuds
exclus dans le rapport du graphe
Le rapport du graphe contient également la liste des noeuds qui ont été exclus.

Arcs interdits triés dans le rapport du graphe Si le réseau possède des arcs interdits, alors la liste triée de ces arcs est ajoutée à la suite du rapport du graphe.

Coefficient structurel pour chaque réseau Le coefficient d'influence de la complexité structurelle est maintenant propre à chaque réseau.
Par défaut ce coefficient est égal à 1. Il peut être modifié par le menu contexuel du réseau qui affiche l'éditeur suivant :

Editeur de l'influence de la complexité structurelle

Lorsque le coefficient est différent du 1, l'indicateur  s'affiche dans la barre d'état du réseau. un clic sur ce bouton permet d'afficher l'éditeur précédent.

Apprentissage


Prise en compte des indices temporels dans l'arbre de recouvrement L'algorithme d'apprentissage par arbre de recouvrement maximal prend, désormais, en compte les indices temporels associés aux noeuds.

Conservation et sauvegarde du dernier apprentissage utilisé Lorsqu'un apprentissage structurel a été effectué sur un réseau, l'information sur l'algorithme d'apprentissage utilisé est conservé dans le réseau jusqu'au prochain apprentissage. Cette information est également sauvegardée dans le fichier avec le réseau. Ceci permet de réutiliser le même algorithme lors de l'analyse de confiance des arcs et de la validation croisée ciblée.

Sauvegarde des valeurs continues des bases de données de la segmentation multiple Maintenant, chaque base de données intermédiaire générée lors de la segmentation multiple est sauvegardée avec le réseau, suivant l'option choisie dans les préférences, et contient également les données numériques extraite de la base de données initiale.

Cluster à modalités numériques ordonnées Dans la segmentation des données et la segmentation multiple, il est maintenant possible de générer des clusters dont les modalités sont numériques, grâce à une option de la fenêtre de paramétrage :

Paramétrage de la segmentation

Si l'option est cochée, le noeud cluster sera créé avec de modalités numériques ordonnées. Ces valeurs sont calculées avec la moyenne des scores des noeuds connectés en fonction de chaque modalité du cluster. Si deux valeurs sont strictement identiques, un epsilon est ajouté à l'une d'elle afin de les différencier.
Les noeuds exclus ne sont pas pris en compte pour calculer les valeurs des modalités.

Modification du calcul de la valeur des modalités dans la segmentation Les valeurs des modalités des clusters sont calculées uniquement avec les noeuds connectés et qui ne sont pas exclus.

Inférence


Optimisation des performance de l'arbre de jonction L'inférence dans l'arbre de jonction a été très fortement optimisée. Ceci permet un gain de temps jusqu'à un facteur 60 sur de gros réseaux. De nombreux calculs ont été déplacés au moment de la création de l'arbre.

Optimisation de la création de l'arbre de jonction La création de l'arbre de jonction est devenue plus importante à cause de l'accéleration de l'inférence. Maintenant, la création de l'arbre de jonction utilise pleinement le multi-threading et permet des gains directement proportionnels au nombre de processeurs, ou de coeurs, présent sur la machine.

Optimisation du réducteur de complexité Le réducteur de complexité a été optimisé afin de détecter plus rapidement les arbres de jonction qui ne pourront pas tenir en mémoire. Il évite maintenant toute erreur de dépassement mémoire. La détermination des arcs à supprimer est également plus rapide.

Observation des
probabilités fixées
Un nouveau type d'observation à été introduit. Il s'agit de l'observation des probabilitées fixées. Ce type d'observation s'ajoute à l'affectation simple des probablités qui existait déjà. Ce nouveau type d'observation n'est valable que pour l'inférence exacte.

La saisie des probabilités permet d'indiquer directement la distribution de probabilités d'un noeud. Les vraisemblances sont recalculées afin que la distribution de probabilités finale du noeud soit celle entrée par l'utilisateur. 
Lors de l'édition des probabilités, des boutons vert clair, mauve et rouge apparaissent alors sur le moniteur. Les probabilités peuvent être saisies :
  • en maintenant le bouton gauche de la souris enfoncé et en choisissant le niveau de probabilité désiré, ou
  • directement, en éditant la valeur de la probabilité grâce à un double-clic sur la valeur.
  • un clic sur le nom de la modalité (à droite) permet de figer la probabilité entrée (la barre de probabilité s'affiche en vert).
Une fois que les probabilités sont saisies, le bouton vert clair permet l'affectation des probabilités et le bouton mauve permet le fixation des probabilités. Les probabilités sont alors mises à jour. Le bouton rouge permet quant à lui d'annuler l'édition.
Edition des probabilités 
Il existe donc deux manières d'utiliser la saisie des probabilités :
  1. Affectation simple des probabilités : Lorsque l'on valide la saisie avec le bouton vert clair, les vraisemblances associées aux modalités du noeuds vont être recalculées afin de faire correspondre la distribution de probabilités marginales à la distribution saisie par l'utilisateur. C'est, en fait, une saisie indirecte des vraisemblances. Il faut donc noter qu'à la prochaine observation d'un autre noeud, la distribution de probabilités de ce noeud évoluera puisque les vraisemblances ne seront pas recalculées.
    L'affichage du résultat se fera avec des barres vert clair comme pour la saisie des vraisemblance :
    Affectation simple des probabilités
    Le noeud observé prend la couleur vert clair de l'observation.
  2. Fixation des probabilités : Lorsque l'on valide la saisie avec le bouton mauve, les vraisemblances associées aux modalités du noeuds vont être recalculées afin de faire correspondre la distribution de probabilités marginales à la distribution saisie par l'utilisateur, comme dans le cas précédent. Cependant, à chaque nouvelle observation sur un autre noeud, un algorithme spécifique essayera de faire converger à nouveau la distribution de probabilités du noeud vers la distribution saisie par l'utilisateur. Cette fixation est faite également dans les fichiers de scénarios d'observations avec la notation p{...}Il faut noter que la fixation des probabilités n'est valide que pour l'inférence exacte. Si l'on est en inférence approximative, la fixation des probabilités est considérée comme une affectation simple : il n'y a plus d'algorithme de convergence.
    L'affichage du résultat se fera avec des barres mauves :
    Fixation des probabilités
    Le noeud observé prend la couleur mauve de l'observation.

Fichier de scénarios d'observations pour l'exploitation hors-ligne Le fichier de scénarios d'observations qui est associé au réseau peut maintenant être utilisé par les différents algorithmes d'exploitation hors-ligne :
  • Etiquetage
  • Inférence
  • Etiquetage avec l'explication la plus probable
  • Inférence avec l'explication la plus probable
  • Probabilité jointe
Les trois types d'observations sont donc possibles :
  1. L'observation exacte de la modalité d'un noeud
  2. L'observation d'une distribution de vraisemblances sur les modalités d'un noeud
  3. L'observation d'une distribution de probabilités d'un noeud (distribution fixée en inférence exacte ou bien calcul des vraisemblances correspondantes en inférence approximative)

Fichier de scénarios d'observations pour l'inférence et l'actualisation interactives Le fichier de scénarios d'observations qui est associé au réseau peut maintenant être utilisé pout l'inférence et l'actualisation interactives. Un boîte de dialogue propose de choisir la source de données, si nécessaire.

Les trois types d'observations sont possibles.

Les commentaires des observations du fichier seront affichés dans la barre d'état du réseau.

Fichier de scénarios d'observations pour le temporel Le fichier de scénarios d'observations qui est associé au réseau peut être utilisé pour la simulation temporelle. Il faut que ce fichier possède des marqueurs temporels pour que les observations soient effectuées aux pas de temps désirés

Les trois types d'observations sont possibles.

Analyse


Probabilité initiale affichée dans l'analyse de sensibilité de la cible Dans le graphique de l'analyse de la sensibilité de la cible, la probabilité initiale de chaque modalité est affichée en légende.

Unification des contextes d'observations Les observations faites sur les noeuds avant une analyse graphique ou un rapport d'analyse sont prises en compte quelque soit le type d'onservations (exacte, vraisemblance, probabilité).
Ces contextes d'observations sont affichés en HTML dans les rapports ou directement dans les graphiques résultats avec le même standard :
  1. L'observation exacte de la modalité d'un noeud notée :
    <Noeud>: <Modalité>
  2. L'observation d'une distribution de vraisemblances sur les modalités d'un noeud notée :
    <Noeud>: l{ <Modalité1>: <Vraisemblance1 %> , ... , <ModalitéN>: <VraisemblanceN %>}
  3. L'observation d'une distribution de probabilités d'un noeud (distribution fixée en inférence exacte ou bien calcul des vraisemblances correspondantes en inférence approximative) notée :
    <Noeud>: p{ <Modalité1>: <Probabilité1 %> , ... , <ModalitéN>: <ProbabilitéN %>}

Affichage des commentaires et des noms longs dans l'analyse de sensibilité des paramètres Dans le graphique de l'analyse de sensibilité des paramètres, le menu contextuel permet d'afficher ou non les commentaires des noeuds à la place des noms et les noms longs des modalités.

KL prenant en compte les valeurs filtrées Le calcul de la distance de Kullback-Leibler prend en compte les modalités filtrées déclarées dans les noeuds. 

Affichage KL et contribution globale en commentaires des arcs Dans l'analyse de la force des arcs, le commentaire des arcs est remplacé par la valeur de la distance de Kullback-Leibler de la relation ainsi que par la valeur de la contribution globale de la relation.

Il suffit d'appuyer sur le bouton d'affichage des commentaires des arcs pour les obtenir.

Choix du test d'indépendance G ou Khi² Deux tests d'indépendance peuvent être calculés : test du Khi² et G-test. Dans certaines analyses où ils rentrent en compte, il est possible d'afficher soit l'un soit l'autre. Ce choix se fait dans les préférences des outils statistiques où une liste déroulante permet de choisir le test d'indépendance qui sera utilisé :
Choix du test d'indépendance

Une fois le test choisi, celui-ci sera utilisé pour l'analyse des relations, les effets totaux, le rapport d'analyse de la cible et le graphique de la matrice d'occurrences.

GKL-test sur le réseau dans l'analyse des relations Dans le rapport d'analyse des relations, le test d'indépendance G calculé sur la distance de Kullback-Leibler des relations a été ajouté au rapport HTML. Ce test est noté GKL-test. Le degré de liberté de la relation et la p-valeur correspondante sont également affichés.

Test d'indépendance sur le réseau ou la base de données pour analyse des relations, effets totaux et analyse de la cible Dans les rapports d'analyse des relations, des effets totaux et de l'analyse de la cible, le test d'indépendance entre variables est maintenant calculé. Le degré de liberté de la relation et la p-valeur correspondante sont également affichés.

Si une base est associée au réseau courant alors le test d'indépendance sera calculé sur les données. Sinon, il sera calculé à partir du réseau. Lorsqu'il est calculé à partir des données, la source du calcul (Données) est affichée à côté.

Ce test d'indépendance peut être soit le Khi² soit le G-test. Le choix du test est fait dans les préférences des outils statistiques.

Exemple dans les effets totaux, sans base de données et avec le test du Khi² :

Calcul du test d'indépendance, du degré de liberté et de la p-valeur

Affichage de l'index des modalités de noeuds continus dans les rapports Lorsqu'un noeud est continu, chacune de ses modalités est affichée avec son index et le nombre total de modalités dans les rapports d'analyse. Le format est le suivant :  Modalité (i/n) ou i est l'index de la modalité et n le nombre total de modalités.

Cela permet d'indiquer l'ordre de la modalité ainsi que sa place par rapport à l'ensemble des modalités.

Exemple du noeud Age dans le rapport suivant :

Affichage de l'index des modalités de noeuds continus

Info-bulle sur le dendrogramme de la segmentation des variables Dans le graphique du dendrogramme de la segmentation des variables, lorsque l'on passe la souris sur les points de jonction des liens, une info-bulle contenant la valeur du lien calculée à partir de la force des arcs est affichée.

Affichage du degré de liberté pour la matrice d'occurrences et la mosaïque Dans le graphique de la matrice d'occurrences et dans le graphique de l'analyse mosaïque, l'affichage du degré de liberté a été ajouté aux légendes :

Degré de liberté dans la matrice d'occurrences

Degré de liberté dans la mosaïque

Copie HTML des mosaïques En plus de la copie sous forme d'image, il est maintenant possible de copier sous forme de tables HTML les mosaïques obtenues.

Choix du calcul des mosaïques à partir du réseau ou de la base de données Si une base de données est associée au réseau, il est possible de choisir quelle est la source des données pour le calcul du résidu standarisé de Pearson :
  • Réseau : le Nombre d'exemples équivalant à la structure permet de simuler un ensemble de donnée pour calculer les résidus standardisés de Pearson. Ce nombre est, par défaut, le nombre d'exemples utilisés pour le dernier apprentissage du réseau.
  • Base de données : le résidu standardisé de Pearson est directement calculé sur les effectifs de la base de données associée.
Si une base de donnée existe mais que l'un des noeuds sélectionnés est caché (il ne possède pas de données dans la base) alors la source de données sélectionnée par défaut est le réseau.

Si une base de données existe et qu'elle possède des données d'apprentissage et de test, une boîte de choix permet de choisir quelles données seront utilisées (toutes, apprentissage, test).

Moniteurs


Sauvegarde des observations dans le fichier de scénarios d'observations Un nouveau bouton  dans la barre d'outils des moniteurs permet d'enregistrer l'ensemble des observations faites sur les moniteurs dans le fichier de scénarios d'observations courant. Si aucun fichier de scénarios d'observations n'est associé au réseau, un nouveau sera automatiquement créé et l'icône   sera affichée dans la barre d'état du réseau.

Les trois types d'observations sont possibles :
  1. L'observation exacte de la modalité d'un noeud
  2. L'observation d'une distribution de vraisemblances sur les modalités d'un noeud
  3. L'observation d'une distribution de probabilités d'un noeud (distribution fixée en inférence exacte ou bien calcul des vraisemblances correspondantes en inférence approximative)
Si le réseau est temporel, alors l'ensemble d'observations sera ajouté pour le pas de temps courant.

Lors de l'ajout des observations, une boîte de dialogue propose d'ajouter un commentaire pour les observations ajoutées. Ce commentaire sera affiché dans la barre d'état du réseau lors de l'inférence ou de l'actualisation interactive.

Couleurs différentes des noeuds et des barres de moniteurs suivant le type d'observation
Maintenant, une couleur est associée à chacun des trois types d'observations :
  • Vert : observation exacte d'un noeud
  • Vert clair : observation des vraisemblances (directe ou via l'affectation des probabilités)
  • Mauve : observation des probabilités fixées
Un noeud observé et les barres du moniteur correspondant prennent la couleur de l'observation faite.

Changement de la modalité cible
ALT+clic sur une modalité d'un moniteur permet de désigner le noeud comme cible et la modalitée comme ciblée.

Centrage sur les noeuds des moniteurs sélectionnés
Lorsque un ou plusieurs moniteurs sont sélectionnés, l'appui sur la touche S permet de sélectionner les noeuds qui correspondent et de centrer l'affichage sur eux. Si nécessaire, un ajustement à la fenêtre de la sélection sera effectué. Presser sur la touche C permet de rechercher le noeud correspondant au moniteur sélectionné.

Interface


Optimisation suppression multiple des noeuds avec une base de données
Lorsqu'une base de données est associée et que l'on désire supprimer des noeuds du réseau, la base de données doit être modifiée et ré-indexée pour chaque noeud supprimé. Maintemant, le traitement s'effectue en une seule passe, quelque soit le nombre de noeuds supprimés simultanément.
L'annulation de la suppression a également été optimisée, sachant que les données correspondantes sont toujours supprimées définitivement.

Conservation de la sélection lors du changement de mode
Si une sélection des noeuds et des arcs est faite sur le réseau et que l'utilisateur change de mode, cette sélection est dorénavant conservée dans le nouveau mode choisi.

Possibilité de cacher les noms des noeuds Un nouvel item dans le menu Affichage permet de cacher le nom des noeuds.

Noms des noeuds affichés :
Noms des noeuds affichés
Noms des noeuds cachés :
Noms des noeuds cachés
Noms des noeuds cachés avec commentaires affichés :
Noms des noeuds cachés avec commentaires affichés

Répertoires de travail Il est maintenant possible de définir des répertoires de travail dans BayesiaLab par le menu Réseau.
Le répertoire de travail créé et sélectionné sera utilisé comme répertoire par défaut pour charger ou sauvegarder les différents types de fichiers utilisés. Un nom est associé à chaque répertoire créé.

Création d'un répertoire de travail

Une liste des différents répertoires de travail récents est conservée afin de pouvoir choisir lequel on veut utiliser.

Le paramétrage de la gestion des répertoires de travail se fait dans les préférences.

Affichage de l'identificateur client Si l'utilisateur possède une version sans serveur de licence, l'identificateur client est maintenant affiché dans la boîte de dialogue A propos de BayesiaLab.

Nouvelles sélections de noeuds Dans le menu Sélection des noeuds du menu Editer, il est maintenant possible de :
  • sélectionner tous les noeuds,
  • sélectionner les noeuds exclus.

Nouvelles sélections d'arcs Le menu Sélection des arcs à été ajouté au menu Editer. Il permet de :
  • sélectionner tous les arcs,
  • sélectionner les arcs fixés,
  • sélectionner les arcs temporels,
  • sélectionner les arcs non-orientés.

Amélioration de la compatibilité avec Mac OS X Leopard L'utilisation de la touche CTRL a été remplacée par l'utilisation de la touche CMD sous Mac OS X Leopard afin de se conformer au standard Mac. Les raccourcis correspondants sont donc modifiés. Le CTRL + clic gauche permet donc de simuler le clic droit de Windows.

Nouveaux raccourcis claviers De nouveaux raccourcis clavier ont été ajoutés afin d'accélérer l'utilisation de BayesiaLab :
  • Maj + M (mode validation) : Analyse mosaïque
  • Maj + P (mode validation) : Profil dynamique de la cible
  • P (dans le comparateur de structures) : Positionnement automatique
  • Q (mode validation) : Questionnaire adaptatif
  • F (mode validation) : Force des arcs
  • G (mode validation) : Corrélation de Pearson
  • H (mode validation) : Force des noeuds
  • S (mode validation) : Segmentation des variables
  • C + clic sur un moniteur (mode validation) : Centrage de la fenêtre sur le noeud correspondant 
  • S + plusieurs moniteurs sélectionné (mode validation) : Sélection des noeuds correspondants et ajustement de la taille à celle de la fenêtre si nécessaire
  • Alt + clic sur une modalité d'un moniteur : Désignation du noeud et de la modalité en tant que cible

Outils


Nouveau menu Outils Un menu Outils a été ajouté. Il contient un ensemble d'outils permettant la comparaison de deux graphes, l'analyse de la confiance des arcs et la validation croisée ciblée. Ces outils permettent d'utiliser le comparateur graphique de structures et l'extracteur de graphes.

Comparaison des graphes Le menu Outils>Comparaison permets d'accéder à la comparaison des structures de deux réseaux bayésiens. Il faut que ces deux réseaux possèdent exactement les mêmes noeuds.

Paramètres :
 
La boîte de dialogue suivante permet de choisir les réseaux à comparer :

Le réseau de gauche est le réseau de référence de la comparaison. Il peut être changé en appuyant sur le bouton portant son nom, en-dessous.
Le réseau de droite est le réseau de comparaison. Le bouton en-dessous permet de le charger.
Une option permet de choisir si l'on désire comparer les structures telles-quelles ou bien si l'on choisit de comparer les classes d'équivalences auxquelles appartiennent ces structures.

Rapport de comparaison :
 
Après avoir appuyé sur le bouton Comparer, un rapport HTML est généré :

Il indique d'abord quels sont les deux réseaux comparés.
Il peut contenir jusqu'à 10 listes différentes :
  • Arcs communs : liste des arcs communs aux deux réseaux
  • Arcs inversés : liste des arcs dont l'orientation change dans le réseau de comparaison
  • Arcs ajoutés : liste des arcs n'existant que dans le réseau de comparaison
  • Arcs supprimés : liste des arcs n'existant que dans le réseau de référence
  • Arêtes communs : liste de arêtes communes aux deux réseaux
  • Arêtes ajoutées : liste des arêtes n'existant que dans le réseau de comparaison
  • Arêtes supprimées :  liste des arêtes n'existant que dans le réseau de référence
  • V-Structures communes : liste des V-Structures communes aux deux réseaux
  • V-Structures ajoutées : liste des V-Structures n'existant que dans le réseau de comparaison
  • V-Structures supprimées :  liste des V-Structures n'existant que dans le réseau de référence
Il est possible d'imprimer le rapport et de le sauvegarder dans un fichier html.

Graphiques :

Le bouton Graphiques du rapport permet d'afficher l'outil de comparaison graphique des structures. Cet outil permet de visualiser graphiquement les informations contenues dans le rapport ainsi que de détailler les différences entre le réseau de référence et le réseau de comparaison.

Analyse de confiance des arcs Le menu Outils>Validation croisée>Confiance des arcs permets d'accéder à l'analyse de confiance des arcs d'un réseau bayésien. Il faut que le réseau possède une base de données associée et qu'il soit en mode validation.
Pour analyser la confiance des arcs, la méthode du Jackknife est utilisée. Une fenêtre coulissante permet de sélectionner les lignes de la base de données qui seront utilisées pour chaque échantillon.

Paramètres :

Il suffit de sélectionner l'algorithme d'apprentissage que l'on veut utiliser et indiquer le nombre d'échantillons à utiliser dans la boîte de dialogue suivante :

La taillle des échantillons est calculée en fonction de la taille initiale de la base de données et du nombre d'échantillons voulu.
Il est également possible de spécifier un répertoire de sortie où tous les réseaux appris à partir des échantillons seront enregistrés avec leur base associée.

Rapport d'analyse :

Une fois tous les réseaux appris sur chaque échantillon, un rapport HTML est généré  :

Il contient quatre parties :
  1. Le contexte d'apprentissage : Rappelle la méthode d'apprentissage utilisée et le nombre d'échantillons. Indique l'algorithme d'apprentissage choisi ainsi que le coefficient d'influence de la complexité structurelle du réseau initial qui a été utilisé également pour l'apprentissage des échantillons.
  2. L'analyse de confiance des arcs : Une liste d'arcs de trois types:
    • En noir : les arcs présents dans la structure de référence qui ont été appris dans les échantillons.
      • La fréquence d'arcs indique le nombre de fois, en pourcentage, où cet arc a été appris avec la même orientation dans les échantillons.
      • La fréquence d'arcs inversés indique le nombre de fois, en pourcentage, où cet arc a été appris avec l'orientation opposée dans les échantillons.
      • La fréquence d'arêtes indique le nombre de fois, en pourcentage, où cet arc a été appris sans orientation dans les échantillons (les réseaux appris à partir des échantillons sont transformés en classes d'équivalence).
      • Le fréquence totale est la somme des fréquences précédentes. C'est un indicateur de la force de la relation pure entre les deux variables.
    • En bleu : les arcs absents de la structure de référence qui ont été appris dans les échantillons. Les fréquences sont affichées en négatif puisque l'on se situe par rapport à la structure de référence qui n'en possède pas. L'orientation initiale de l'arc est donnée par le premier arc rencontré dans les réseaux appris sur les échantillons.
      • La fréquence d'arcs indique le nombre de fois, en pourcentage, où cet arc a été appris avec la même orientation que le premier arc trouvé dans les échantillons.
      • La fréquence d'arcs inversés indique le nombre de fois, en pourcentage, où cet arc a été appris avec l'orientation opposée au premier arc trouvé dans les échantillons.
      • La fréquence d'arêtes indique le nombre de fois, en pourcentage, où cet arc a été appris sans orientation dans les échantillons (les réseaux appris à partir des échantillons sont transformés en classes d'équivalence).
      • Le fréquence totale est la somme des fréquences précédentes.
    • En rouge : les arcs présents dans la structure de référence qui n'ont jamais été appris dans les échantillons, avec ou sans orientations.
  3. L'analyse de confiance des V-Structures : Une liste contenant trois types de V-Structures, comme pour les arcs :
    • En noir : les V-Structures présentes dans la structure de référence qui ont été apprises dans les échantillons.
    • En bleu : les V-Structures absentes de la structure de référence qui ont été apprises dans les échantillons. Les fréquences sont affichées en négatif puisque l'on se situe par rapport à la structure de référence qui n'en possède pas.
    • En rouge : les V-Structures présentes dans la structure de référence qui n'ont jamais été apprises dans les échantillons.
  4. Le tableau des structures de comparaison : Ce tableau fait la synthèse des structures apprises à partir des échantillons. Les structures complètement identiques sont regroupées dans une seule structure.
    • La première colone indique l'index des structures ainsi regroupées
    • La seconde colonne indique le nombre de structures identiques que représente cette structure  .
    • Le troisième colonne représente la fréquence des structures ainsi regroupées. C'est le nombre de structures représentées divisé par le nombre total de structures.
    • La dernière colonne indique si la structure de référence est incluse dans chaque structure.
Il est possible de sauvegarder le rapport dans un fichier HTML et de l'imprimer. Deux autres options sont présentes : l'affichage des graphiques et l'extraction du réseau.

Graphiques :

Le bouton Graphiques du rapport permet d'afficher l'outil de comparaison graphique des structures. Cet outil permet de visualiser graphiquement les informations contenues dans le rapport ainsi que de détailler les différentes structures apprises.

Extraction du réseau :

Le bouton Extraction du réseau du rapport permet d'afficher l'outil d'extraction du réseau. Cet outil permet de choisir selon leurs différentes fréquences les arcs que l'on veut conserver dans le réseau extrait.

Validation croisée ciblée Le menu Outils>Validation croisée>Ciblée permet d'accéder à la validation croisée ciblée d'un réseau bayésien. Il faut que le réseau possède une base de données associée, qu'il soit en mode validation et qu'il ait une variable cible.
Pour analyser la validation croisée ciblée, la méthode des K-Folds est utilisée. Une fenêtre coulissante permet de sélectionner les lignes de la base de données qui seront utilisées pour chaque échantillon. Pour chaque échantillon, un réseau bayésien sera généré. Les noeuds continus seront discrétisés à nouveau en fonction de l'échantillon de données et en choisissant les méthodes utilisées lors de l'import de la base de données initiale.
Ensuite la structure du réseau sera apprise avec l'algorithme d'apprentissage choisi. Un fois un réseau appris, l'évaluation ciblée de la performance du réseau sera effectuée sur la cible initiale. 

Paramètres :

Il suffit de sélectionner l'algorithme d'apprentissage que l'on veut utiliser et indiquer le nombre d'échantillons à utiliser dans la boîte de dialogue suivante :

La taillle des échantillons est calculée en fonction de la taille initiale de la base de données et du nombre d'échantillons voulu.
Il est également possible de spécifier un répertoire de sortie où tous les réseaux appris à partir des échantillons seront enregistrés avec leur base associée.

Résultats :

Le résultat de l'évaluation ciblée sur chaque réseau créé est affiché dans la fenêtre suivante :

Le panneau Synthèse des résultats affiche la moyenne des résultats obtenus sur chaque échantillon pour :
  • la précision globale
  • l'indice Gini relatif
  • le Lift relatif
  • les matrices de confusion d'occurrences, de fiabilité et de précision
La table de fréquence des noeuds indique le nombre de fois où chaque noeud a été connecté directement ou non à la cible.
Le bouton Rapport global présent dans le panneau de synthèse affiche le rapport de synthèse de la validation croisée.
Les onglets correspondant à chaque échantillon affichent le résultat de l'évaluation ciblée de la performance du réseau sélectionné :

Le détail du contenu du panneau est dans l'évaluation ciblée de la performance.

Rapport global d'analyse :

Une fois tous les réseaux appris sur chaque échantillon, un rapport HTML est généré  :

Ce rapport est presque le même que le rapport global de l'évaluation ciblée, sauf qu'il fait la synthèse de chaque indice et de chaque matrice de confusion calculés sur chaque échantillon.
La suite du rapport affiche la table de fréquence des noeuds qui indique le nombre de fois où chaque noeud a été connecté directement ou non à la cible.

La dernière partie du rapport contient la comparaison structurelle du réseau de référence avec tous les réseaux générés :
 
Son contenu est identique à celui du rapport de l'analyse de confiance des arcs.
Il est possible de sauvegarder le rapport dans un fichier HTML et de l'imprimer. Deux autres options sont présentes : l'affichage des graphiques et l'extraction du réseau.

Graphiques :

Le bouton Graphiques du rapport permet d'afficher l'outil de comparaison graphique des structures. Cet outil permet de visualiser graphiquement les informations contenues dans le rapport ainsi que de détailler les différentes structures apprises.

Extraction du réseau :

Le bouton Extraction du réseau du rapport permet d'afficher l'outil d'extraction du réseau. Cet outil permet de choisir selon leurs différentes fréquences les arcs que l'on veut conserver dans le réseau extrait.

Comparateur graphique de structures L'outil de comparaison des structures des réseaux est accessible à la suite de trois analyses : Cet outil graphique permet de comparer une réseau de référence (ou sa classe d'équivalence) à un ou plusieurs réseaux de comparaison (ou leur classe d'équivalence). Il crée une structure de synthèse avec des codes couleurs qui représentent toutes les différences qualitatives et quantitatives entre le réseau de référence et le ou les réseaux comparés.
Il peut comparer à la fois les arcs, les arêtes et le V-Structures.

Barre d'outils :

La barre d'outil de la fenêtre possède 10 boutons dont 4 de navigation dans les structures et 6 de modification de l'affichage
  1. Barre de navigation
    • affiche la structure de synthèse de la comparaison
    • affiche la structure de référence de la comparaison
    • affiche la structure précédente par rapport à la structure courante
    • affiche la structure suivante par rapport à la structure courante
    L'ordre de navigation des structures est le suivant :
    1. Structure de synthèse
    2. Structure de référence
    3. Structure de comparaison 0
    4. Structure de comparaison 1
    5. ...
  2. Barre d'affichage
    • grossit la structure
    • réduit la structure
    • affiche le grossissement par défaut
    • affiche la structure ajustée à la fenêtre
    • rotation à gauche de la structure
    •  rotation à droite de la structure
La touche P permet le positionnement automatique du graphe dans la fenêtre.

Menu contextuel :

Le menu contextuel permet d'afficher ou non les commentaires des noeuds ainsi que de copier la structure affichée.

Structure de synthèse :

Cette structure affiche un graphe synthétisant toutes les différences entre la structure de référence et la ou les structures comparées.
Le code couleur utilisé est le suivant :
  • noir : objet présent dans le réseau de référence et dans au moins un des réseaux de comparés
  • bleu : objet absent du réseau de référence et présent dans au moins un des réseaux comparés
  • rouge : objet présent dans le réseau de référence et absent de tous les réseaux comparés
L'épaisseur des traits est fonction de la fréquence totale de l'objet comparé que ce soit pour un arc ou une arête que sur une V-Structure.
L'arc est affiché avec une flèche, l'arête est affichée avec un trait simple et la V-Structure est matérialisée par un arc de cercle.
Il est possible de déplacer les noeuds en cliquant et déplaçant le pointeur de la souris. Lorsqu'un noeud est déplacé sur une structure, il est déplacé de la même manière pour toutes les autres structures non affichées.
Sur la structure de synthèse, lorsque l'on passe le pointeur de la souris sur un arc, une arête ou bien une V-Structure, une info-bulle est affichée. Elle contient le nom de l'objet, le fait qu'il soit ajouté, supprimé ou existant ainsi que les différentes fréquences associées :

Il est possible d'imprimer ou de sauvegarder dans un fichier image la structure courante grâce aux boutons correspondants.

Structure de référence :

La structure de référence affiche le réseau de référence (ou sa classe d'équivalence). Elle indique également les V-Structures présentes dans le réseau.

Structures de comparaison :

Chaque réseau comparé est affiché dans une structure de comparaison numérotée à partir de 0. La structure affiche le réseau comparé (ou sa classe d'équivalence). Elle indique également les V-Structures présentes dans le réseau.
Comme une structure de comparaison peut représenter plusieurs réseaux identiques à la fois, le nombre de réseaux représentés est indiqué en légende. La fréquence de cette structure est aussi indiquée. Elle est égale au nombre de réseaux représentés par rapport au nombre total de réseaux comparés.

Extracteur de
réseaux
Il est possible d'extraire un réseau des résultats obtenu lors de l'analyse de la confiance des arcs ou de la validation croisée ciblée. Cette option est accessible depuis le rapport HTML.
Le bouton Extraction du réseau du rapport affiche la boîte de dialogue suivante :

Cet outil permet de générer un réseau comportant les arcs dont la fréquence trouvée est supérieure ou égale à, au moins, l'une des fréquence indiquée. Cela permet de conserver les relations fortes au détriment des relations faibles qui seront éliminées. Les tables de probabilités conditionnelles du réseau généré seront apprises à partir de la base de données initiale.

Préférences


Remplacement des champs de texte par des spinners Dans les préférences, les paramètres numériques qui étaient entrés via des champs de texte sont maintenant entrés avec des spinners. Les valeurs sont maintenant automatiquement bornées et les flêches des spinners permettent de faire varier ces paramètres selon le pas le plus adéquat.

Réorganisation des préférences des bases de données Le panneau de préférences des bases de données a été réorganisé en quatre panneaux comme dans l'image suivante :

Réorganisations des préférences des bases de données

Police des commentaires La police utilisée par défaut pour afficher tous les commentaires est maintenant paramétrable dans les préférences d'affichage. Il est possible de modifier le type de la police ainsi que sa taille.
Il faut noter que les commentaires étant en HTML, certaines tailles de police ne sont pas affichées exactement.

Choix du séparateur de décimales pour l'export des nombres Dans les préférences du format de sauvegarde de la  base de données, il est possible de choisir entre le point (.) et la virgule (,) comme séparateur de décimales pour les nombres dans les fichiers de sortie.
Par défaut, le séparateur est choisi en fonction du pays de l'utilisateur.

Option d'écriture ou non du BOM pour l'UTF Dans les préférences du format de sauvegarde de la  base de données, il est possible d'indiquer si l'on veut écrire ou non le Byte Order Mask en début de fichier si l'on a choisi l'UTF comme encodage des fichiers de sortie.

Préférences sur les différents répertoires Il est possible de paramétrer les différents répertoires utilisateur :
Paramétrage des répertoires utilisateur

Permet de choisir quels sont les répertoires à utiliser pour les graphes, les bases de données, les images et les autres fichiers (rapports, etc.). Il est possible d'utiliser le même répertoire pour tous en cochant l'option correspondante.

L'option de fixation des chemins empêche de mettre à jour les chemins lorsque l'on change de chemin lors de l'ouverture ou de la sauvegarde d'un fichier.

Taille minimale des clusters pour la segmentation Dans les préférences de la segmentation, un champ permet de saisir la taille minimale autorisée pour un cluster en pourcentage de la base de données.
Si l'algorithme de segmentation des données produit des clusters de taille inférieure, ceux-ci seront éliminés.

Sécurité


BayesiaLicenseServer version 3.0.X Il est maintenant possible de définir une liste d'utilisateurs autentifiés par nom et mot de passe pour chaque licence installée afin de restreindre l'accès à ces licences.

Un mécanisme de gestion des priorités a également été ajouté. Chaque utilisateur possède donc une priorité associée. Lorsqu'une licence ne possède plus de jeton disponible, un utilisateur avec une haute priorité pourra "prendre la place" d'un utilisateur ayant une priorité moindre.

Verrouillage des réseaux Il est possible d'interdire l'édition d'un réseau afin de ne s'en servir qu'en mode validation.

Un mécanisme de verrouillage par mot de passe permet d'empêcher de modifier un réseau que l'on a préalablement verrouillé. Cela permet, par exemple, de distribuer un réseau à des utilisateur uniquement pour faire de l'inférence, sans que celui-ci ne soit modifié structurellement.

Lorsqu'un réseau est verrouillé, il n'est plus possible d'éditer les noeuds et toutes leurs propriétés (pas de validation des modifications), d'ajouter ou des supprimer des arcs et des noeuds, d'associer des dictionnaires et des bases de données pour l'apprentissage, de modifier les classes, etc.

Il reste cependant possible de modifier les coûts liés aux noeuds puisque ceux-ci sont utilisés en mode validation (questionnaire adaptatif, noeuds non-observables, etc.).

L'ajout d'un verrou sur le réseau se fait par le menu Réseau>Verrouiller. Lorsque le réseau ne possède pas déjà de verrou, la boîte de dialogue suivante est affichée :


Il suffit d'entre un mot de passe et de le confirmer. L'indicateur  s'affiche alors dans la barre d'état du réseau. Le réseau possède maintenant un verrou, mais est toujours éditable puisque celui-ci n'est pas verrouillé. Pour empêcher l'édition, il suffit de clicquer sur cet indicateur afin qu'il devienne . Cette icône indique que le réseau n'est plus éditable du tout. Pour pouvoir l'éditer à nouveau, il suffit de cliquer sur l'icône (ou bien par le menu Réseau>Verrouiller) et une boîte de dialogue demandant le mot de passe s'affiche :


Lorsque le réseau est déverrouillé, le menu Réseau>Verrouiller affiche la boîte de dialogue suivante :

Cette boîte de dialogue permet de :
  • verrouiller le réseau en utilisant le mot de passe existant
  • de supprimer complètement le verrou existant
  • de changer le mot de passe du verrou.

Internationalisation


Locale chinoise La traduction complète de BayesiaLab en chinois a été intégrée.

Locale espagnole La traduction complète de BayesiaLab en espagnol a été intégrée.