English Recherche
www.bayesia.com n'est pas optimisé pour votre navigateur (Internet Explorer 6).
Nous vous suggérons de passer à IE 7 ou Firefox pour une meilleure navigation.

BayesiaLab 4.4 : les nouveautés


Données


Optimisation de l'Import/Association des données La taille du fichier d'échange utilisé lors de l'import ou de l'association de données a été divisée en moyenne par 10 et plus. Le temps de traitement à partir du panneau de filtrage des données a également été divisé par 10 et plus.

Imputation intelligente des valeurs manquantes continues Lorsque que l'on impute les valeurs manquantes d'un noeud continu, une valeur continue associée à l'intervalle trouvé doit être générée. Si une base de données est associée au réseau et possède des valeurs continues alors la valeur continue va être tirée dans la fonction de répartition des valeurs de cet intervalle.


Couleurs dans les rapports d'Import/Association Une couleur est affectée à chaque discrétisation dans le rapport d'import/association afin de différencier immédiatement les discrétisations qui ont été utilisées.
De même, une couleur est utilisée pour afficher les noeuds qui ont été effectivement agrégés.

Rapport d'importation des données

Sélection multiple des noeuds ajoutés à l'association Il est maintenant possible d'ajouter à la fois plusieurs noeuds d'une base de données dans un réseau en sélectionnant les noeuds voulus.

Sélection multiple des noeuds à ajouter


Mise en évidence des colonnes avec valeurs manquantes à l'Import/Association A l'import ou l'association de bases, lors du traitement des données avec filtrage ou remplacement des valeurs manquantes, l'icône Indicateur de valeurs manquantes située dans l'en-tête des colonnes indique s'il y a des valeurs manquantes non-filtrées ou non-remplacées. Si l'on remplace ou filtre les valeurs manquantes d'une colonne, cette icône disparaît.

Prise en compte immédiate du traitement des valeurs manquantes Lorsque l'on filtre ou remplace les valeurs manquantes des colonnes à l'import ou l'association, les statistiques affichées dans le panneau correspondant sont immédiatement remises à jour pour refléter l'état courant de la base de données.

Liste des modalités communes pour le remplacement des valeurs manquantes A l'import ou l'association des données, il est possible de remplacer simultanément les valeurs manquantes de plusieurs colonnes sélectionnées. Quand on effectue ce type de remplacement, on souhaite souvent utiliser une des modalités qui existe déjà dans la colonne sélectionnée, c'est pourquoi la boîte de choix propose maintenant la liste des modalités de la colonne sélectionnée. Si plusieurs colonnes sont sélectionnées en même temps, alors la liste des modalités communes aux colonnes sélectionnées sera proposée.


Barre de progression pour l'agrégation multiple Maintenant, lorsque l'on effectue l'agrégation des modalités sur plusieurs colonnes à la fois, une barre de progression est affichée et le processus peut être interrompu à tout moment en cliquant sur le bouton de fermeture de la barre.

Khi² sans valeur manquante et avec poids dans les graphes Lors du calcul du Khi² dans la matrice d'occurrences, les lignes de la base de données qui comportent des valeurs manquantes pour l'une des deux variables sont ignorées.
En revanche, le calcul prend en compte les poids associés aux données.

Test d'indépendance du Khi²


Dictionnaire de renommage des noeuds Il est possible de renommer les noeuds d'un réseau en important un dictionnaire qui contient pour chaque noeud à renommer le nouveau nom du noeud.

Un canevas du dictionnaire peut être généré en utilisant la fonction d'export des noms des noeuds qui produit un fichier contenant le nom de chaque noeud. Il suffit ensuite d'indiquer un nouveau nom en face de chacun.

Le renommage des noeuds se propage également dans les équations associées aux noeuds.

Dictionnaire de renommage des modalités Il est maintenant possible de renommer les modalités des noeuds grâce à un dictionnaire. On peut renommer une partie des modalités ou bien toutes. Il est possible d'indiquer la modalité à renommer soit en donnant directement son nom, dans ce cas toutes les modalités concernées dans chaque noeud seront renommées, soit en la préfixant par le nom d'un noeud, ou le nom d'une classe. Dans ces deux derniers cas, les modalités concernées seront renommées soit pour le noeud indiqué, soit dans chaque noeud appartenant à la classe indiquée.

Un canevas du dictionnaire contenant chaque modalité préfixée par le nom du noeud auquel elle appartient peut être exporté dans un fichier. Il suffit ensuite d'indiquer en regard le nouveau nom de chaque modalité.

Courbe de densité pour la discrétisation A l'import ou l'association, lorsque l'on discrétise une variable manuellement, en plus de la visualisation de la fonction de répartition, il est possible d'afficher la courbe de densité de la variable. Cette courbe de densité est générée par la méthode des batch-means.

Courbe de densité

Le bouton Changer la vue permet de basculer entre l'affichage de la fonction de répartition et l'affichage de la courbe de densité.

Il est possible de placer les points de discrétisation directement sur le graphique. Les zones rouges à gauche et à droite indiquent les parties de la courbe dont le tracé peut être incorrect.

Zoom manuel sur les courbes de discrétisation

Il est maintenant possible de zoomer sur les graphiques affichant les courbes pour la discrétisation. Il suffit de sélectionner avec la souris la partie sur laquelle on veut zoomer en cliquant et glissant en maintenant le bouton appuyé.

Le zoom se fait verticalement sur la fonction de répartition et horizontalement sur la courbe de densité. Ce zoom permet de placer avec une plus grande précision les points de discrétisation.

Pour supprimer le zoom, il suffit de faire un double-clic sur le graphique.


Dialogue d'échec de la discrétisation Lors de la discrétisation automatique des variables à l'import ou l'association, il est possible qu'une discrétisation choisie ne puisse trouver de résultat. Dans ce cas une boîte de dialogue s'affichera en proposant de choisir une nouvelle discrétisation dans la liste qui sera proposée.

Ce processus s'effectuera pour chaque variable dont la discrétisation échoue. La boîte de dialogue permet également de se souvenir du nouveau choix de discrétisation fait pour qu'il puisse être réutilisé automatiquement en cas d'échec de la discrétisation d'une autre variable.

Menu Bases de données récentes pour l'Import et l'Association Maintenant, un menu de raccourci sur les bases de données récemment ouvertes ou associées est disponible pour l'import des bases ainsi que pour l'association des bases. Ceci permet d'associer de manière rapide une base à un réseau que l'on utilise souvent sans avoir à passer par l'explorateur de fichiers.

Affichage de la probabilité d'indépendance du Khi² Dans la partie droite du graphique de la matrice d'occurrences, la probabilité d'indépendance des variables sélectionnées est maintenant calculée et affichée en pourcentage.

Tri intelligent des modalités discrétisées Lorsque l'on a exporté des données discrétisées d'un noeud continu, on obtient, dans la base de données, un ensemble de modalités de ce genre :
<=0,5, <=2,7, >2,7

Lorsque l'on importait cette base, l'ordre des modalités dans le noeud suivait l'ordre alphabétique et donc était le suivant :
>2,7, <=0,5, <=2,7

C'est pourquoi dans ce cas là, le tri ne se fait plus suivant l'ordre alphabétique mais suivant d'abord le fait que <= doit être avant > puis sur la partie numérique en cas d'égalité pour obtenir ce que l'on veut :
<=0,5, <=2,7, >2,7

Prise en compte des observations lors de la génération de la base Lorsque l'on est en mode validation il est possible de générer une base de données en accord avec les distributions de probabilités du réseau. Cette génération prend maintenant en compte les observations exactes et les soft-evidences faites sur les noeuds.

Générateur de noms d'intervalles intelligent Lorsqu'une variable est discrétisée ou que l'on crée un noeud intervalle manuellement, les noms des intervalles sont créés d'après les bornes de ceux-ci. Le signe <= suivi de la valeur arrondie de la borne supérieure de l'intervalle sera utilisé.

Cependant, il peut arriver que deux intervalles aient le même nom si la largeur d'un intervalle est inférieure à l'arrondi. C'est pourquoi l'arrondi se fait maintenant en prenant en compte la précision nécessaire pour que chaque intervalle ait un nom unique.

Pour éviter d'avoir des noms d'intervalles trop long, la précision nécessaire est calculée indépendamment pour chaque intervalle.

Analyse


Evaluation ciblée sur toutes les modalités L'évaluation du noeud cible peut maintenant s'effectuer sur toute les modalités à la fois ou bien sur une seule comme le montre les paramétrages possibles :

Targeted evaluation parameters

L'analyse peut donc s'effectuer sur toutes les modalités et une courbe de gain, une courbe de Lift et une courbe ROC seront calculée pour chaque modalité. Ces courbes sont accessibles grâce aux différents onglets. Dans le cas suivant les deux modalités sont Oui et Non :

Evaluation ciblée sur toutes les modalités

De plus, le rendu des différentes courbes a été refait afin qu'il soit plus clair.


Prise en compte des poids dans l'évaluation ciblée Maintenant les poids associés aux lignes de la base de données sont pris en compte dans l'évaluation ciblée. Les matrices et les courbes résultantes s'en trouvent donc modifiées.

Indices Gini, Gini relatif, Lift moyen, Lift relatif et ROC dans l'évaluation ciblée Dans l'analyse du noeud cible, de nouveaux indices ont été calculés pour chaque courbe.

Courbe de gains :

Gain curve

L'indice Gini et l'indice Gini relatif sont calculés en fonction de la courbe et affichés en haut du graphique. L'indice Gini est calculé comme la surface sous la courbe rouge et au dessus de la courbe bleue divisée par la surface au-dessus de la courbe bleue. Mais la surface de la politique optimale est inférieure à la surface au-dessus de la courbe bleue, donc l'indice Gini relatif est calculé comme la surface sous la courbe rouge et au dessus de la courbe bleue divisée par la surface sous la courbe de la politique optimale et au dessus de la courbe bleue. C'est un coefficient plus représentatif.

Courbe de Lift :

Lift curve

Le Lift moyen et l'indice Lift relatif sont calculés en fonction de la courbe et affichés en haut du graphique. Le Lift moyen est la moyenne de tous les points de la courbe. L'indice Lift relatif est calculé comme la surface sous la courbe de Lift divisé par la surface sous la courbe de Lift de la politique optimale.

Courbe ROC :

ROC curve

L'indice ROC est calculé en fonction de la courbe et affiché en haut du graphique. Il représente la surface sous la courbe ROC divisé par la surface totale.

Analyse mosaïque

Cette analyse permet d'afficher, sur un graphique en deux dimensions, les probabilités marginales d'un noeud en fonction de toutes les combinaisons d'observations possibles faites sur un ensemble de noeuds ainsi que les résidus standardisés de Pearson de chaque cellule. Ces probabilités sont affichées sous forme de rectangles colorés qui peuvent être facilement identifiés et comparés les uns aux autres.

L'analyse se fait seulement sur les noeuds sélectionnés dans le réseau.

En fonction du nombre de noeuds sélectionnés, la boîte de dialogue de paramétrage peut varier légèrement. La version la plus complète est celle lorsque l'on a trois noeuds sélectionnés. La version suivante est la version simple :

Version simple

Les noeuds sélectionnés sont affichés dans la table et leurs positions dans le graphique sont affichées à gauche. Il est possible de modifier leurs positions respectives en sélectionnant le noeud désiré et en utilisant les boutons Monter et Descendre.

Par défaut l'affichage des variables se fait en alternant positions horizontales et verticales. Avec une variable le graphique représentera P(Horizontal0). Avec deux variables, le graphique affichera P(Vertical0 | Horizontal0). Avec trois variables, le graphique affichera P(Horizontal1 | Vertical0, Horizontal0). Avec quatre variables, le graphique affichera P(Vertical1| Horizontal1, Vertical0, Horizontal0). Et ainsi de suite.

Si l'option Diagramme horizontal est cochée, alors l'affichage se fera avec la première variable en position verticale et toutes les autres en position horizontale dans un graphique séparé pour chaque variable horizontale représentant P(Vertical | Horizontal i). Si l'option Afficher P(Horizontal | Vertical) est cochée, alors chaque graphe représentera P(Horizontal i | Vertical).

Le Nombre d'exemples équivalant à la structure permet de simuler un ensemble de donnée pour calculer les résidus standardisés de Pearson.

La figure suivante représente un graphique avec trois variables. La première variable est la variable horizontale Yeux, la seconde est la variable verticale Cheveux et la troisième est la variable horizontale Sexe. Les cellules horizontales et verticales représentent les probabilités marginales des modalités de chaque variable en l'absence d'observation. Les cellules centrales représentes les probabilités conditionnelles P(Yeux | Cheveux, Sexe). La valeur du test du Khi2 et la probabilité d'indépendance associée sont affichées en haut du graphique.

Pour chaque cellule le résidu standardisé de Pearson est calculé comme : Di = (ni - Ni) / SQRT(Ni)

Le Khi² est égal à la somme des Di².

Graphique

Le panneau d'affichage des résultats est aussi paramétrable :

L'option Afficher le résidu standardisé de Pearson permet de basculer entre l'affichage classique avec les couleurs correspondant aux modalités de la première variable horizontale et l'affichage avec le code couleur du résidu standardisé de Pearson. Ce code couleur est le suivant :

  • données simulées sont en surreprésentation les données simulées sont en surreprésentation très significative (D > 4)
  • données simulées sont en surreprésentation significative les données simulées sont en surreprésentation significative (D > 2)
  • données simulées sont en surreprésentation non significative les données simulées sont en surreprésentation non significative (D > 0)
  • données simulées sont en sous-représentation non significative les données simulées sont en sous-représentation non significative (D < 0)
  • données simulées sont en sous-représentation significative les données simulées sont en sous-représentation significative (D < 2)
  • données simulées sont en sous-représentation très significative les données simulées sont en sous-représentation très significative (D < 4)
  • absence de données simulées absence de données simulées

L'option Graphique redimensionnable permet d'agrandir ou de réduire le graphique en fonction de la taille de la fenêtre. Si cette option n'est pas cochée, le graphique a une taille constante prédéfinie et des barres de défilement sont affichées si nécessaire.

Il y a deux possibilités d'espacement entre les cellules du graphique :

  • Espacement automatique : il est calculé en fonction de la profondeur et du nombre de modalité de chaque variable. Donc, plus on va en profondeur, plus l'espacement se réduit.
  • Espacement constant : on indique ici quel est le nombre de pixels entre deux cellules quelle que soit la profondeur de la variable.
Un menu contextuel est accessible par un clic droit sur le graphique. Il propose d'afficher le commentaire de chaque noeud au lieu de son nom, d'afficher le nom long des modalités au lieu d'elle-même et de copier le graphique.

Voici une partie des différents graphiques que l'on peut obtenir suivant le paramétrage :
  1. Graphiques à 1 dimension :
    Graphiques à 1 dimension
    A gauche le graphique simple et à droite le graphique avec le résidu standardisé de Pearson. La largeur des cellules correspond à la probabilité marginale des modalités de la variable horizontale. Ceci représente la même chose que le moniteur de cette variable.
  2. Graphiques à 2 dimensions :
    Graphiques à 2 dimensions
    A gauche le graphique simple et à droite le graphique avec le résidu standardisé de Pearson. La largeur des cellules correspond à la probabilité marginale des modalités de la variable horizontale P(H). La hauteur des cellules représente la probabilité conditionnelle de la variable verticale sachant la variable horizontale P(V | H). La surface de la cellule représente la probabilité jointe P(V, H).
  3. Graphiques à 3 dimensions :
    Graphiques à 3 dimensions
    A gauche le graphique simple et à droite le graphique avec le résidu standardisé de Pearson. La largeur des cellules correspond à P(H1 | V0, H0). La hauteur des cellules représente la probabilité conditionnelle P(V0 | H0). La surface de la cellule représente la probabilité jointe P(H1, V0, H0). Les résidus standardisés de Pearson mettent en évidence que, par exemple, la corrélation entre le fait d'avoir des cheveux blonds et le fait d'avoir les yeux bleus est très significative.

    Lorsque l'on a trois variables sélectionnées, la boîte de dialogue de paramétrage est modifiée pour permettre de choisir comment calculer le résidu standardisé de Pearson. Par défaut le résidu standardisé est calculé par rapport à un réseau complètement déconnecté. Il est possible de choisir un autre modèle de référence dans la boîte de choix suivante :
    Boite de choix
    Trois modèles sont à disposition :
    • Le modèle d'indépendance : modèle d'indépendance
    • Le modèle conditionnel 1 : modèle conditionnel 1
    • Le modèle conditionnel 2 : modèle conditionnel 2

    On compare donc avec l'ajout d'un arc entre V0 et H1.
  4. Graphiques horizontaux :
    Graphiques horizontaux
    Au dessus le graphique simple et en dessous le graphique avec le résidu standardisé de Pearson. Ce graphique correspond à une suite de graphiques à 2 dimensions faisant intervenir la variable verticale et chacune des variables horizontales. La largeur des cellules correspond à la probabilité marginale des modalités de chaque variable horizontale P(Hi). La hauteur des cellules représente la probabilité conditionnelle de la variable verticale sachant la variable horizontale P(V | Hi).
  5. Graphiques horizontaux inversés :
    Graphiques horizontaux
    Au dessus le graphique simple et en dessous le graphique avec le résidu standardisé de Pearson. Comme le précédent, ce graphique correspond à une suite de graphiques à 2 dimensions faisant intervenir la variable verticale et chacune des variables horizontales. Cependant au lieu de représenter P(V | Hi), ce graphique représente P(Hi | V). La hauteur des cellules correspond à la probabilité marginale des modalités de la variable verticale P(V). La largeur des cellules représente la probabilité conditionnelle de chaque variable horizontale sachant la variable verticale P(Hi | V).

Profil dynamique de la cible Ce rapport permet d'établir le profil du noeud cible en fonction du critère sélectionné. Le but est de maximiser ou minimiser un des trois critères disponibles en effectuant des observations séquentiellement sur les autres variables. Les paramètres peuvent être modifiés dans la boîte de dialogue suivante :

Paramétrage du profil dynamique de la cible
Un de ces critères de recherche du profil doit être sélectionné :
  • Probabilité : Pour chaque modalité du noeud, la probabilité associée sera maximisée ou minimisée comme voulu.
  • Moyenne : La moyenne du noeud cible sera maximisée ou minimisée comme désiré. Si le noeud possède des valeurs associées à ses modalités, la moyenne sera calculée à partir de celles-ci, sinon si le noeud est continu, sa moyenne sera calculée à partir des intervalles, et si le noeud est discret avec des modalités entières ou réelles, la moyenne sera calculée à partir d'elles. S'il n'y a pas de possibilité de calculer la moyenne, par défaut un ensemble de valeurs allant de zéro au nombre de modalités moins un est utilisé. Si le nombre d'exemples équivalant du réseau existe, alors l'intervalle de crédibilité à 95% de la moyenne est calculé et affiché dans le rapport.
  • Différence de probabilité entre deux modalités : Cet algorithme maximise ou minimise la différence de probabilité entre les deux états sélectionnés.
Dans la zone d'optimisation du critère, l'utilisateur peut choisir de minimiser ou de maximiser le critère sélectionné. Il peut aussi prendre en compte la probabilité des observations. Dans ce cas, le critère calculé est pondéré par la probabilité associée à chaque observation qui sera faite.
La recherche s'arrête quand la probabilité jointe du réseau atteint 0. Mais ce critère d'arrêt peut être modifié en indiquant le nombre maximum d'observations autorisé et en modifiant la probabilité joint minimale autorisée.

Voici le résultat correspondant aux paramètres ci-dessus :

Profil dynamique de la cible

Analyse de la force des noeuds

Cette analyse permet de mettre en évidence l'importance d'un noeud pour la structure complète du réseau bayésien. Trois types de forces de noeuds sont calculés :

  • La force entrante des noeuds : c'est la somme des forces des arcs entrants.
  • La force sortante des noeuds : c'est la somme des forces des arcs sortants.
  • La force globale des noeuds : c'est la somme des forces des arcs entrants et sortants.
Barre d'outils noeuds

Vous pouvez, grâce à cette gâchette située dans la barre d'outils, afficher uniquement les noeuds qui ont une force supérieure à la valeur affichée.

  • Recule au seuil précédent Recule au seuil précédent en accord avec la force sélectionnée.
  • Avance au seuil suivant Avance au seuil suivant en accord avec la force sélectionnée.
  • Considère uniquement la force entrante Considère uniquement la force entrante des noeuds et affiche si plus grand que le seuil indiqué.
  • Considère seulement la force globale des noeuds Considère seulement la force globale des noeuds et affiche si plus grand que le seuil indiqué.
  • Considère seulement la force sortante des noeuds Considère seulement la force sortante des noeuds et affiche si plus grand que le seuil indiqué.

Rapport des relations avec force des noeuds Dans le rapport d'analyse des relations une nouvelle table a été ajoutée.
Cette table représente l'analyse de la force des noeuds. Pour chaque noeud elle affiche :
  1. Force sortante : Elle correspond à la somme des forces des arcs sortants de chaque noeud.
  2. Force entrante : Elle correspond à la somme des forces des arcs entrants de chaque noeud.
  3. Force globale: Elle correspond à la somme des forces des arcs à la fois sortants et entrants de chaque noeud.

Rapport d'analyse des relations


Probabilité
d'indépendance du Khi² dans le rapport des
relations
Si une base est associée au réseau courant alors la probabilité d'indépendance du Khi² de chaque relation est calculée en fonction des données et est affichée dans le rapport d'analyse des relations. Elle prend en compte les poids associés à la base de données s'il y en a.

Information mutuelle dans le rapport des relations L'information mutuelle entre deux noeuds a été rajoutée pour chaque relation dans le rapport d'analyse des relations comme on peut le voir dans l'image précédente.

Effets totaux des noeuds sur la cible Ce rapport permet de calculer l'effet total de chaque variable sur le noeud cible. On considère que la variable cible est localement linéaire et l'effet total est l'estimation de la dérivée de la cible par rapport à cette variable. L'effet total représente l'impact qu'a une petit modification de la "moyenne" de la variable sur la "moyenne" de la variable cible. L'effet total est le rapport de ces deux valeurs. L'effet total standardisé correspond à l'effet total multiplié par le rapport de l'écart-type de la variable courante et de l'écart-type de la cible.

La moyenne de chaque noeud est calculée comme ceci : si le noeud possède des valeurs associées à ses modalités, la moyenne sera calculée à partir d'elles, sinon si le noeud est continu, sa moyenne sera calculée à partir des intervalles, et si le noeud est discret avec des modalités entières ou réelles, la moyenne sera calculée à partir d'elles. S'il n'y a pas de possibilité de calculer la moyenne, par défaut un ensemble de valeurs allant de zéro au nombre de modalités moins un est utilisé.

Les impacts positifs sont affichés en bleu et les négatifs en rouge.

Effets totaux sur la cible

Affichage du nombre de noeud dans la visualisation du voisinage Dans l'analyse du voisinage des noeuds, le nombre de noeuds du voisinage courant est désormais affiché dans la barre de statut de la fenêtre du graphe.

Analyses de
sensibilité de la cible et des paramètres sur noeuds sélectionnés
non-translucides
Maintenant les analyses de sensibilité de la cible et des paramètres ne se font que sur l'ensemble des noeuds sélectionnés et qui ne sont pas translucides.

Renommage des classes dans la segmentation des variables Dans la segmentation des variables, les classes de noeuds obtenues ont été renommées de Cluster_X en [Factor_X] pour éviter tout risque de confusion avec la segmentation des données.

Prise en compte de la force des relations dans le dendrogramme Dans la segmentation des variables, la longueur des lignes du dendrogramme rejoignant les clusters est inversement proportionnelle à la force des relations entre deux ensembles de variables : plus le lien est court plus la relation est forte.

Dendrogram


Rapport d'analyse des relations interruptible Il est maintenant possible d'arrêter le rapport d'analyse des relations en cours d'exécution grâce au bouton d'arrêt. Le rapport s'affichera quand-même et ne contiendra que les relations qui ont été analysées.

Comparaison graphique entre apprentissage et test dans l'évaluation globale Dans l'évaluation globale d'un réseau, un nouveau graphique permet de comparer les résultats obtenus sur la base d'apprentissage avec ceux obtenus sur la base de test :

Comparaison des courbes de densité

Comparaison des fonctions de répartition

Réorganisation du menu Rapport Analyse Cible Le menu des rapports d'analyses de la cible a été réorganisé de manière plus cohérente :

Nouveau menu de Rapport d'analyse de la cible

Prise en compte des soft-evidences dans les analyses Il est maintenant possible d'effectuer des analyses du noeud cible même si celui-ci possède des soft-evidences sur lui.

Dans les autres analyses, les noeuds paramètres peuvent également posséder des soft-evidences.

Restriction des rapports d'analyses de la cible aux noeuds dépendants Tous les noeuds qui ne sont pas dépendants de la cible ne sont pas pris en compte dans les rapports d'analyses afin d'améliorer le temps de traitement.

Les noeuds dépendants doivent être reliés directement ou indirectement à la cible et ne pas être observés. Ils peuvent cependant avoir des soft-evidences.

Inférence


Vraisemblance hors-ligne

Pour chaque exemple de la base de données, les noeuds sont observés à la valeur de l'exemple (sauf les noeuds non observables et ceux dont la valeur est manquante). La probabilité jointe de ces observations est alors calculée avec le réseau Bayésien. Ensuite, la vraisemblance de cette probabilité jointe comparée à la probabilité jointe du réseau déconnecté est calculée.

Les résultats sont stockés dans un fichier d'exploitation reprenant les champs sélectionnés du fichier d'entrée et associant, pour chaque modalité de chaque noeud non observable, la probabilité calculée.

Nouvelle fenêtre de propositions d'inférence

Certains réseaux ont une complexité trop importante pour pouvoir effectuer de l'inférence exacte dessus. L'arbre de jonction peut être trop important pour pouvoir être représenté en mémoire et le temps d'inférence peut devenir extrêmement long. Dans ce cas, lorsque l'on passe en mode validation une boîte de dialogue s'affiche pour proposer plusieurs options :

Reducteur de complexité

  • L'utilisation de l'inférence approximative évite le problème de taille mémoire mais on perd l'exactitude de l'inférence ainsi que certaines analyses qui ne peuvent fonctionner qu'avec l'inférence exacte.
  • Un algorithme de réduction de la complexité permet de supprimer les arcs les moins importants du réseau. Pour ce-faire, il utilise la base de données courante ou bien en génère une en accord avec les distributions de probabilités pour calculer l'importance des arcs. Les arcs les moins utiles seront supprimés jusqu'à ce que l'inférence exacte devienne réalisable en mémoire et en temps réel.
  • On peut revenir en mode modélisation afin de modifier manuellement la structure du réseau pour qu'il soit utilisable.
  • On peut continuer en inférence exacte sans tenir compte de l'avertissement.

Possibilité d'utiliser la base courante pour toutes les fonctions hors-ligne Lorsqu'un réseau possède une base de données associée, il est maintenant possible d'utiliser cette base de données comme source pour chacune des fonctions hors-ligne. Ceci en plus de la possibilité d'utiliser un fichier texte ou une base de données jdbc comme source.

Calcul de la valeur espérée dans l'inférence hors-ligne Dans l'inférence hors-ligne, la valeur espérée est calculée pour chaque noeud non observable et enregistrée dans le fichier. Cette valeur espérée est calculée en fonction des valeurs associées aux modalités des noeuds s'il y en a, sinon en fonction des moyennes de chaque intervalle pour un noeud continu, des modalités entières ou réelles pour un noeud discret. S'il n'est pas possible de calculer ces valeurs alors il n'y a pas de valeur espérée.

Espionnage temporel de modalités multiples Il est maintenant possible de pouvoir suivre plusieurs modalités d'une même variable dans un réseau bayésien temporel. Le choix des modalités se fait dans la boîte de dialogue suivante :

Sélection des modalités suivies temporellement

Apprentissage


Architecture naïve avec arbre L'Architecture naïve avec arbre est une structure partiellement contrainte permettant de relâcher la forte contrainte d'indépendance conditionnelle liée à l'architecture naïve simple qui stipule que la connaissance de la valeur de la cible rend chaque noeud indépendant des autres. L'architecture est composée d'une architecture naïve sur laquelle un arbre de recouvrement maximal est appris. Cet algorithme permet l'obtention de résultats plus précis que ceux obtenus par l'architecture naïve, mais n'est pas aussi bon que l'architecture naïve augmentée, cependant, cet algorithme est beaucoup plus rapide que lui.

Architecture naive

Option
d'affichage des rapports intermédiaires dans la segmentation multiple
Dans la boîte de dialogue de paramétrage de la segmentation multiple une option permet d'afficher ou non les rapports à la fin de la segmentation de chaque cluster :

Paramétrage de la segmentation multiple

Renommage des
variables issues de la segmentation
Pour conserver la cohérence avec la segmentation des variables qui produit des classes nommées [Factor_X], la segmentation multiple génère des noeuds nommés également [Factor_X] au lieu de Cluster_X.

Sauvegarde réseau et base à la fin de la segmentation multiple Dans la partie des paramètres de sortie, l'assistant de la segmentation multiple permet de sélectionner le répertoire où seront sauvegardés les différents réseaux générés (un réseau par classe [Factor_X] et le réseau final reprenant l'ensemble des variables latentes) et d'ajouter ou non tous les noeuds du réseau initial au réseau final. Concernant la base de données finale, l'assistant demande si l'on désire sauvegarder les noms longs des modalités et les valeurs continues dans celle-ci.

Transfert et imputation de la base de test dans la segmentation multiple Si la base de données initiale comporte un ensemble de test, alors celui-ci est transféré dans la base de données finale et une imputation des valeurs manquantes est effectuée sur les nouvelles variables [Factor_X]. Enfin la base de données finale est sauvegardée dans le répertoire cible.

Moniteurs


Nouveau calcul des scores des noeuds Le calcul des scores des noeuds affichés dans les moniteurs a été modifié.

Lorsqu'un noeud possède des valeurs associées à ses modalités, la valeur résultante fonction de la distribution de probabilité du noeud est affichée. Si le noeud ne possède pas de valeurs associées, si le noeud est continu alors la moyenne de chaque intervalle (calculée à partir des données si une base est associée ou bien on utilise la moyenne arithmétique) est utilisée, sinon, si le noeud est discret avec des modalités entières ou réelles, celles-ci sont utilisées.

Moniteur de valeurs


Restriction des moniteurs pour questionnaire adaptatif et affichage selon la cible Maintenant, lorsque l'on effectue un questionnaire adaptatif, les moniteurs dont les noeuds sont translucides ne sont pas proposés à l'utilisateur. De même, lorsque l'on effectue un affichage trié des moniteurs selon la cible ou une modalité de la cible, les moniteurs dont les noeuds sont translucides ne sont pas pris en compte.

Indicateur de la modalité cible Si le moniteur du noeud cible est affiché alors l'icône Indicateur de la modalité cible est affichée à côté de la modalité dans le moniteur :

Indicateur de la modalité cible

Replacement en haut à gauche du panneau des moniteurs Lors du questionnaire adaptatif, lorsque l'utilisateur observe la modalité d'un des moniteurs, l'ensemble des moniteurs est recalculé et affiché de nouveau. Au lieu d'afficher le dernier moniteur ajouté, le panneau se déplace pour afficher le premier moniteur en haut à gauche, ce moniteur étant celui auquel l'utilisateur doit répondre en priorité.

De même, lorsque l'on trie les moniteurs selon la cible ou une modalité de la cible, le panneau se déplace pour afficher le premier moniteur en haut à gauche.

Interface


Commentaires HTML avec éditeur complet Tous les commentaires sont maintenant en HTML (3.2). Pour les noeuds, les arcs et le réseau, un éditeur commun permet de créer et d'éditer les commentaires.

L'éditeur suivant permet de créer des commentaires complexes en HTML. Il est accessible par les menus contextuels des arcs, des noeuds et du réseau. Il est également intégré dans l'éditeur de noeuds.

Editeur de commentaires

Le menu fichier permet :
  • de créer un nouveau fichier HTML vide
  • d'ouvrir un fichier HTML (3.2)
  • de sauvegarder son commentaire dans un fichier HTML
Le menu éditer permet :
  • de copier, couper et coller
  • de défaire ou de refaire une action
Le menu insertion permet :
  • d'insérer un lien vers un fichier ou une url
  • d'insérer une image
Le menu format permet :
  • d'afficher le dialogue suivant qui permet de modifier les propriétés de la page :
    Editeur de propriétés d'une page
Le menu outils permet :
  • d'afficher la source HTML du commentaire qui peut être modifiée directement :
    Source HTML du commentaire

Grâce aux boutons de la barre d'outils, il est possible de changer, pour la sélection courante, la police de caractères, l'alignement du texte, les attributs gras, italique et souligné et la couleur et le fond du texte.

En fonction de la position du curseur, le menu contextuel, accessible avec un clic droit, permet de :

  • copier ou couper la sélection,
  • insérer, éditer ou supprimer un lien,
  • afficher les propriétés de la page,
  • afficher les propriétés de l'image.

    Menu contextuel

Changement de l'ordre des modalités dans l'éditeur de noeuds Dans l'éditeur de noeuds, deux boutons permettent de monter ou descendre la modalité sélectionnée dans la liste des modalités du noeud. La table de probabilité courante est automatiquement reconstruite en gardant son contenu. L'ordre des noms longs de modalités et des valeurs associées change, bien évidemment, en même temps. Les tables de probabilités des noeuds enfants sont recalculées une fois la modification validée.

Changement de l'ordre des modalités

Changement de l'ordre des parents dans l'éditeur de noeuds Il est possible de changer l'ordre des parents d'un noeud dans l'onglet Distribution de probabilités l'éditeur de noeuds. Il suffit de cliquer dans la table sur l'en-tête du parent que l'on veut déplacer et de la glisser jusqu'à l'emplacement désiré. La table de probabilité est automatiquement reconstruite une fois que l'en-tête a été relâché sur sa destination.

Changement de l'ordre des parents

Commentaires des noeuds et des arcs translucides Maintenant, lorsqu'un noeud ou un arc est affichée de manière translucide, si le commentaire associé est affiché, il est également affiché de manière translucide.

Commentaires translucides

Renommage des noeuds dans l'éditeur de noeuds Il est maintenant possible de renommer les noeuds directement dans l'éditeur de noeuds. Si l'on renomme un noeud, les modifications faites sur ce noeud seront automatiquement sauvegardée avant.

Renommage des noeuds

Renommage des noeuds

Le nouveau nom du noeud doit être bien évidemment différent des autres.

Copie et transfert des valeurs continues exactes de table à table Lorsque l'on copie le contenu des tables dans l'éditeur de noeuds, et que l'on colle le résultat dans une autre table, les valeurs sont copiées intégralement en gardant leur valeur numérique exacte et non en prenant en compte l'arrondi dû à l'affichage des cellules de la table.

Inversion des sélections Le menu Editer a été complété avec un menu qui permet d'inverser toute la sélection dans le réseau, aussi bien pour les noeuds que pour les arcs.

Il y a également un menu pour inverser la sélection seulement sur les noeuds et un menu pour inverser la sélection seulement sur les arcs.

Poids affichés dans l'info-bulle de la base de données La somme des poids de la base de données a été rajoutée à l'info-bulle de la base de données :

Information de la base de données

Générateur de modalités entières ou réelles Un noeud discret peut posséder des modalités à valeurs entières ou bien réelles. Suivant les cas, ces modalités pourront être interprétées comme des valeurs entières ou continues dans les équations.

Un générateur de modalités a été rajouté dans l'éditeur de noeuds :

Générateur de modalités


Marquage des arcs indépendant des noeuds Il est possible d'afficher ou de cacher les marques des arcs indépendamment de celles des noeuds grâce au bouton Marquage des arcs ajouté dans la barre d'outils du réseau :

Barre d'outils

Nouvelle table de couleurs La table initiale des couleurs a été complètement changée pour offrir des couleurs plus douces et plus agréables à l'oeil.

Indicateur du nombre de noeuds et d'arcs sélectionnés Lorsque l'on sélectionne des noeuds et des arcs dans le réseau, le nombre de noeuds et le nombre d'arcs correspondants sont affichés dans la barre d'état de la fenêtre du réseau : Compteur de sélections

Barre d'état

Equations


Traitement des variables discrètes à modalités réelles Les variables discrètes qui ne possèdent que des modalités à valeur réelle peuvent être interprétées dans les équations comme des variables dont le type est réel.

Elargissement automatique des bornes d'un noeud Lorsqu'on génère la table de probabilité des noeuds continus à l'aide d'une équation, il peut arriver que certaines valeurs générées soient en dehors du domaine de la variable. Dans ce cas, une boîte de dialogue propose à l'utilisateur s'il souhaite élargir automatiquement les limites du domaine du noeud pour prendre en compte ces valeurs. Le choix est proposé à chaque fois que le cas se présente, à moins que l'utilisateur ait coché l'option pour le faire automatiquement pour chaque valeur.

Fonction Switch Une nouvelle fonction Switch a été introduite dans la liste des fonctions spéciales. Elle permet de remplacer avantageusement une série de fonctions If imbriquées :

Switch(s, ki, vi, ..., d)

Description : Instruction de branchement suivant la valeur ki que peut prendre s alors la valeur correspondante vi est retournée. Si aucune valeur ne correspond, alors la valeur par défaut d est retournée.

Nombre de paramètres : >= 4

Type des paramètres : (tous, tous, tous,..., tous) mais il faut que les deux arguments s et ki soient du même type ou comparable (entier et réel par exemple) et de même pour tous les arguments vi et d.

Type du résultat : Le type de retour est le type commun des paramètres vi et de d. Si l’un des paramètres est réel et l’autre entier alors le type du résultat sera réel

Exemple : Les distributions de probabilités ci-dessus correspondent à :

P(?Appréciation? | ?Note?) =
Switch(?Appréciation?,
"Très faible", Normal(?Note?, 0, 3.5),
"Faible", Normal(?Note?, 7, 3),
"Moyen", Normal(?Note?, 10, 3),
"Bon", Normal(?Note?, 13, 3),
Normal(?Note?, 20, 3.5))

Appréciation est une variable de type Discret comportant 5 modalités (Très faible, Faible, Moyen, Bon, Très Bon) et Note est une variable de type Discret comportant 21 modalités entières de 0 à 20.


Renommage des noeuds copiés Lorsque l'on copie des noeuds qui possèdent une équation et qu'on les colle dans le même réseau, le nom des noeuds est modifié afin d'éviter les doublons. Dans ce cas, les anciens noms de noeuds qui sont référencés dans les équations sont également renommés. il n'est plus nécessaire de le faire manuellement.

Conservation du formatage manuel des équations Maintenant, les équations entrées dans l'éditeur d'équation conservent le formatage manuel que l'utilisateur leur a donné. Il est conservé dans la sauvegarde et récupéré après l'ouverture du réseau.

Equations utilisateur avec nombre de paramètres variable Les équations définies par l'utilisateur qui implémentent l'interface Java dédiée peuvent maintenant avoir un nombre de paramètres variable. Ce nombre de paramètre sera défini lors de l'utilisation de la fonction dans les équations.

Par exemple, une fonction Somme pourra être définie avec un nombre de paramètres variable afin de pouvoir faire la somme d'autant de paramètres que l'on veut au moment de l'écriture de l'équation.

Préférences


Effectifs minimaux pour la discrétisation par KMeans Dans les préférences des bases de données, une nouvelle option appelée Taille minimum d'un intervalle en pourcentage de la taille de la base pour la discrétisation par KMeans permet d'indiquer la population minimale d'un intervalle pour que celui-ci soit conservé lors de la discrétisation par KMeans lors de l'import.

Réorganisation préférences des bases de données Le panneau de préférences des bases de données a été réorganisé et les champs de texte pour la prise de paramètres ont été remplacés par des champs formatés que l'on peut faire varier grâce aux boutons associés (Spinner).

La discrétisation automatique et manuelle est par défaut le KMeans avec 3 intervalles.

L'option de normalisation des poids est également intégrée au panneau.

Préférences des bases de données

Réorganisation préférences d'apprentissage Les préférences d'apprentissage ont été réorganisées avec un sous-onglet pour la découverte d'associations.

Les champs de texte ont été également remplacés par des Spinners.

Préférences de la segmentation pour la dérive maximale et la pureté minimale Il est maintenant possible de configurer deux paramètres associés à la segmentation des données :

Paramètres de segmentation des données

  • Dérive maximale : indique la différence maximale entre les probabilités des clusters pendant l'apprentissage et celles obtenues après imputation des valeurs manquantes, c'est-à-dire entre la distribution théorique pendant l'apprentissage et la distribution effective après imputation sur l'ensemble d'apprentissage.
  • Pureté minimale des clusters : définit la pureté minimale autorisée d'un cluster pour être conservé.

Nouvelle échelle de la complexité structurelle Le curseur qui permet de changer l'importance de la complexité structurelle du réseau lors de l'apprentissage possède maintenant une échelle logarithmique sur le domaine : ]0, 150].

Sécurité


Désinstallation automatique des licences pour BayesiaLab et BayesiaLicenseServer Il est maintenant possible de désinstaller automatiquement les licences de BayesiaLab et de BayesiaLicenseServer auprès de notre serveur afin de pouvoir réinstaller le logiciel sur une autre machine.
Pour ce-faire, il faut que la machine sur laquelle le logiciel est installé possède une connexion Internet. Lorsque le logiciel sera désinstallé (ou bien la licence pour BayesiaLicenseServer) une connexion s'effectuera afin de valider la désinstallation auprès de notre serveur. Si le serveur valide la désinstallation, la licence pourra être réutilisée sur une autre machine. Le nombre de désinstallation est limité à deux par période de 12 mois.

Fichier de log des sessions pour BayesiaLicenseServer BayesiaLicenseServer permet maintenant de garder une trace de toutes les transactions effectuées dans un fichier de log.
Ce fichier contient les informations sur les transactions entre les applications clientes et le serveur de licences. Pour chaque transaction il enregistre l’identificateur de la transaction, date, heure, nom du host, adresse IP du host, origine de la transaction (client ou serveur), type (ouverture, fermeture ou invalide), nom du produit, édition, version, groupe utilisateur, identificateur client, message associé à la transaction, durée de la session et réussite de la transaction (vrai ou faux).

Envoi de messages par BayesiaLicenseServer Grâce à la nouvelle interface de BayesiaLicenseServer, il est possible à l'administrateur de gérer les connexions une à une ainsi que d'envoyer des messages aux clients connectés à BayesiaLicenseServer.

Interface de BayesiaLicenseServer

Durcissement de la connexion à BayesiaLicenseServer La connexion de BayesiaLab à BayesiaLicenseServer a été renforcée afin d'éviter de perdre la connexion lors de microcoupures du réseau. Si jamais la connexion est effectivement perdue, BayesiaLicenseServer conserve momentanément le jeton utilisé et BayesiaLab va tenter de se reconnecter afin de récupérer le jeton ou d'en prendre un autre si ce n'est pas possible. Si cette tentative échoue alors BayesiaLab va avertir de sa fermeture et va proposer à l'utilisateur de sauvegarder son travail.