Analyse du transcriptome
La technologie des Bio-Puces permet d'obtenir des informations sur le rôle fonctionnel des gènes en mesurant le niveau d'expression d'un grand nombre de gènes simultanément. La problématique qui se pose alors est l'analyse de cette masse d'informations, notamment pour identifier des groupes de gènes jouant un rôle pertinent dans une situation physiologique donnée, ou encore identifier des interactions potentielles entre les produits de ces gènes.
Nous décrivons dans cette page l'utilisation de BayesiaLab pour l'analyse de données issues d'une bio-puce dédiée à l'analyse du cancer du colon. La bio-puce mesure le niveau d'expression de 2000 gènes pris sur 62 échantillons différents (dont 22 correspondent à des biopsies sur des tumeurs). Ces données sont téléchargeables sur le site de l'Université d'Edinburgh.
Etant donné le grand nombre de gènes et le faible nombre d'échantillons, les données issues des bio-puces sont organisées avec les gènes en ligne et les échantillons en colonne. Pour faire une analyse sur les gènes, il est donc nécessaire de transposer les données par l'intermédiaire de l'assistant d'importation de données de BayesiaLab.
Nous ajoutons une 2001ème variable à cet ensemble pour indiquer si la biopsie correspond à une tumeur ou non. Cette nouvelle variable va nous être très utile pour deux raisons :
Les expressions des gènes sont représentées par des variables continues. Pour pouvoir les prendre en compte dans BayesiaLab, il nous faut les rendre discrètes. Il est possible d'utiliser des algorithmes classiques pour l'élaboration d'ensembles d'égales fréquences ou d'égales largeurs, mais BayesiaLab propose un algorithme de discrétisation beaucoup plus puissant qui trouve les seuils pertinents en utilisant l'induction d'arbres de décision. Toutefois, cet algorithme n'est disponible qu'en présence d'une variable cible discrète. La variable indiquant le type de biopsie va jouer ce rôle.- Cette variable va également nous permettre d'exploiter toute la puissance des algorithmes d'apprentissage supervisés de BayesWorld pour sélectionner le sous-ensemble de gènes permettant de caractériser au mieux une tumeur du colon. La copie d'écran ci-contre correspond au réseau Bayésien résultant de notre algorithme de recherche de la couverture de Markov augmentée.
11 gènes ont été ainsi sélectionnés. En ne conservant que ces gènes, il est possible d'utiliser les algorithmes d'apprentissage non supervisé de BayesiaLab pour découvrir les interactions entre ces gènes. Dès lors, on peut interagir directement avec ce réseau bayésien en indiquant le niveau d'activation de gènes et en constatant l'impact sur les autres, ou encore en utilisant les outils d'analyse de BayesiaLab.
Une autre analyse possible consiste à ne pas transposer les données et donc à analyser les relations entre échantillons. Le réseau Bayésien ci-dessous correspond au résultat de l'apprentissage SopLEQ sur ces données, les noeuds avec une pastille rouge indiquant les échantillons avec tumeur. Comme on peut le constater sur ce réseau bayésien positionné de manière complètement automatique par l'intermédiaire de notre algorithme génétique, ces noeuds rouges se situent globalement dans la même zone.


