MIND : algorithme par niveaux de découverte des dépendances d'inclusion Fabien De Marchi 1 , Marlène Rivon 2 , Stéphane Lopes 1 , Jean-Marc Petit 1 1 LIMOS, FRE CNRS 2239, Université Clermont-Ferrand II 24 avenue des Landais, 63 177 Aubière cedex, France E-mail: {demarchi,slopes,jmpetit}@libd2.univ-bpclermont.fr 2 Quantix S.A. 67 bd Côte Blatin, 63 000 Clermont-Ferrand E-mail : mrivon@quantix.fr Résumé Les dépendances d'inclusion, avec les dépendances fonctionnelles, sont les dépendances les plus utilisées en pratique. Elles généralisent respectivement les notions de clé étrangère et de clé. Leur utilité est importante chaque fois que la sémantique des données est nécessaire. Par exemple, ces connaissances sont utiles en conception, en maintenance, ou lors de la construction d'un entrepôt de données à partir des bases de production. Dans cet article, nous proposons un algorithme par niveaux pour la découverte des dépendances d'inclusion satisfaites dans une base de données. Nous utilisons un cadre de travail connu en y apportant les améliorations suivantes : un algorithme original de génération des DI candidates de niveau i+1 à partir des DI de niveau i, une méthode de génération cohérente des DI candidates de niveau 1, une implémentation des algorithmes proposés et des expérimentations sur une base de données opérationnelle. Malgré la complexité inhérente du problème abordé, les évaluations de performance montrent la faisabilité de notre approche. Mots clés découverte de connaissances dans les bases de données, dépendances d'inclusion, réglage des bases de données, analyse de performances. Abstract Inclusion dependencies together with functional dependencies form the most fundamental data dependencies used in practice. They are respectively the generalization of foreign keys and keys. Their utility is important for all applications in which data semantic is required: For example, during DB design or maintenance of existing databases, or to build a data warehouse from production databases. In this paper we propose a levelwise algorithm to discover inclusion dependencies (INDs) holding in a database. We use an existing framework, in which we have made the following contributions: an original algorithm to generate candidates IND at the level i+1 from satisfied INDs at level i, a coherent method to generate candidate INDs for level 1, an implementation of the proposed algorithm and experimental results on a real-life database. Despite the inherent complexity of this problem, performance evaluations show the feasibility of our proposal. Keywords Knowledge discovery in databases , inclusion dependencies, database tuning, performance analysis.