EXTRAGEREA CUNOŞTINŢELOR DIN BAZE DE DATE: ETAPE ŞI METODE Elena ŞUŞNEA ∗ Abstract: This paper follows the data minining approach to KDD process. Keywords: data mining, KDD I. EXTRAGEREA CUNOŞTINŢELOR DIN BAZE DE DATE Progresul semnificativ înregistrat, într-o perioadă relativ scurtă de timp, de tehnologiile informaţiei şi comunicării (TIC), în particular de expansiunea rapidă a Web-ului, a avut un impact deosebit asupra întregii societăţi, sistemul educaţional nefăcând excepţie. În sistemul de învăţământul superior, datorită unei creşteri continue a nevoii de educaţie, a cererii de calificare / recalificare determinată de piaţa muncii şi a scăderii finanţării din partea statului, universităţile au trebuit să-şi dezvolte forme mai flexibile de instruire (independente de timp şi spaţiu), să-şi diversifice oferta de servicii, pentru a permite accesul unui public cât mai variat. Elaborarea unor modele pentru studierea fenomenelor cu care se confruntă factorii de decizie în cadrul organizaţiei şcolare, este importantă atât pentru înţelegerea relaţiilor existente între elementele componente ale sistemului, cât şi pentru elaborarea de prognoze privind modul în care se va comporta sistemul prin adoptarea unei politici noi. Ca răspuns la necesităţile ivite , începând cu anii '90, apare un nou domeniu de cercetare denumit mineritul datelor (DM - Data Mining). Aflat la confluenţa mai multor discipline, statistică (Statistics), sisteme de baze de date (DBS – Database Systems), şi inteligenţă artificială (AI – Artificial Intelligence), termenul a fost utilizat în special de către statisticieni şi analişti în cadrul comunităţilor de management a sistemelor informatice. Fiind un domeniu relativ nou, există o diversitate terminologică şi o variabilitate semantică ce fac aproape imposibilă existenţa unei definiţii unanim acceptată (mai ales în limba română). Aceasta se datorează nu doar complexităţii domeniului ci şi numărului redus de lucrări teoretice elaborate. În strănsă legătură cu acest termen este descoperirea cunoştinţelor în baze de date (KDD – Knowledge Discovery in Database) adesea cei doi termeni fiind confundaţi: • “data mining procesul de căutare automată a modelelor în depozite mari de date” [Wikipedia]; • “data mining este procesul de descoperire a cunoştinţelor semnificative din cantităţi mari de date stocate în baze de date, depozite de date sau alte mijloace de stocare” [Han, 2001 1 ]; Autorii precum Fayyad U., Piatetsky-Shapiro G., Smyth P, în lucrarea “From data mining to knowledge discovery in databases” sunt mai tranşanţi în a afirma diferenţa între cei doi termeni, astfel: • “KDD –nontrivial process of identifying valid, novel, potentially useful and ultimately understandable patterns in data” [Fayyad, Piatetscky-Shapiro, Smyth 2 , 1996]; 1 www.wikipedia..com 2 Fayyad ,U.M., Piatetsky-Shapiro, G., Smyth, P., Uthurasamy, R., Advanced in Knowledge Discovery and Data Mining,Menlo Park, AAAI Press, 1996