Title: Problmes dapprentissage poss par la rgulation de lexpression des gnes
1Problèmes dapprentissage posés par la régulation
de lexpression des gènes
Florence dAlché-Buc
2Extraction des réseaux de régulation géniques
un objectif à long terme
Données dexpression des gènes issues des
biopuces
Apprentissage
Informations extraites de bases darticles
-
Informations sur les protéines fonctions
gène
Activation (ou inhibition) par le biais Dune
protéine
3Décomposition en sous-problèmes
- Pb 1 Classification non supervisée de données
dexpression - Pb 2 Extraction de la structure du réseau de
régulation - Pb 3 A structure fixée, modélisation de la
dynamique du réseau et - identification de ses paramètres
4Présentation du sous-problème 1
Classification non supervisée de données
dexpression
Objectif Regrouper les gènes de profils
expérimentaux similaires
5Quelles données ?
Exemples (de Jong 2001) Initiation de la
sporulation chez Bacillus Subtilis
6Origine des données les biopuces ou puces à ADN
- permettent dacquérir les différences
d'expression entre les gènes et ceci à l'échelle
d'un génome complet (ex génome de la levure
gt 6000 gènes) - technologie difficile à mettre
en place Plusieurs techniques fluorescence,
radioactivité . Données résultantes bruitées,
difficiles à normaliser
7Biopuces
Source site ENS Auteur Philippe Marc
8Biopuce image des intensités lumineuses
correspondant aux Taux dARN
Source site ENS Auteur Philippe Marc
9Données observées
Type 1 une matrice n x m n lignes décrivant n
gènes, n colonnes Correspondant aux expériences
réalisées Type 2 une matrice n x m les
colonnes correspondent à une seule Expérience
mais pour laquelle on a pris différents
instants Expérimentaux Type 3 n x (m1 m2
mp) P expériences sur une même puce avec mi
instants expérimentaux Ensemble de profils
cinétiques
Profils cinétiques
10Exemple de clustering obtenu avec une
classification hiérarchique (logiciel dEisen,
réf Eisen et al. 1998)
11Clustering
Type 1 de nombreuses méthodes peuvent être
appliquées Déjà classification hiérarchique,
K-moyennes, cartes de Kohonen Type 2 inclure
dans les dissimilarités la notion de séquence,
mise En correspondance par time warping (utilisé
en reconnaisance de Caractères)
Ordre de grandeur actuel milliers de gènes,
dimension 100