Apprentissage de signatures de facteurs de transcription `a partir de donn´ees d’expression Mohamed Elati * , C´eline Rouveirol *1 , Fran¸ cois Radvanyi ** * LRI, UMR CNRS 8623 , Universit´e Paris Sud, bˆ at 490 91405 ORSAY cedex elati, celine@lri.fr ** Institut Curie, UMR CNRS 144, 26 rue d’Ulm 75248 Paris cedex 05 francois.radvanyi@curie.fr esum´e. L’inf´erence de signatures de facteurs de transcription ` a partir des donn´ees puces ` a ADN a d´ej` et´etudi´e dans la communaut´e bioin- formatique. La principale difficult´e` a r´esoudre est de trouver un ensemble d’heuristiques pertinentes, afin de contrˆ oler la complexit´e de r´esolution de ce probl`eme NP-difficile. Nous proposons dans cet article une solution heuristique alternative ` a celles utilis´ees dans les approches bay´esiennes, fond´ee sur la recherche de motifs fr´equents maximaux dans une matrice discr´etis´ee issue des donn´ees num´eriques de puces ADN. Notre m´ethode est appliqu´ee sur des donn´ees de cancer de vessie de l’Institut Curie et de l’Hˆ opital Henri Mondor de Cr´eteil. 1 Introduction Un des principaux objectifs de la biologie mol´eculaire consiste ` a comprendre la egulation des g`enes d’un organisme vivant dans des contextes biologiques sp´ecifiques. Les facteurs de transcription (not´es Tfs dans la suite) sont les r´egulateurs de la trans- cription qui vont r´eagir avec les promoteurs de la transcription des g`enes cibles. Ils ont deux modes d’action : ils peuvent activer ou inhiber l’expression d’un g`ene. Les ecanismes d’interaction facteurs de transcription/g`enes cibles sont complexes. Plu- sieurs facteurs de transcription peuvent ˆetre n´ecessaires pour l’induction (resp. la epression) d’un g`ene cible et, dualement, un facteur de transcription peut induire ou r´eprimer plusieurs g`enes. Les techniques r´ecentes d’analyse du transcriptome, telles que les puces ` a ADN permettent de mesurer simultan´ement les niveaux d’expression de plusieurs milliers de g`enes. Un ensemble de puces permet donc de connaˆıtre l’expression de ces milliers de g`enes dans plusieurs conditions exp´erimentales d’int´erˆet. En g´en´eral, ces mesures (appel´es donn´ees d’expression dans la suite) sont repr´esent´ees dans une matrice dont les lignes repr´esentent les g`enes et les colonnes repr´esentent les diff´erentes puces disponibles. Certains travaux d’analyse de puces font l’hypoth`ese que l’observa- tion de corr´elations dans les donn´ees d’expression va permettre d’inf´erer des relations 1 Ce travail a ´et´e effectu´e pendant la d´el´egation CNRS de C´eline Rouveirol ` a l’Institut Curie. RNTI-E-3 667