Einf¨ uhrung in Datenanalyse und Data Mining mit intelligenten Technologien Christian Borgelt Otto-von-Guericke-Universit¨ at Magdeburg Institut f¨ ur Wissens- und Sprachverarbeitung Universit¨ atsplatz 2, D-39124 Magdeburg Tel.: +49.391.67.12700, Fax: +49.391.67.12018 E-mail: christian.borgelt@cs.uni-magdeburg.de WWW: http://fuzzy.cs.uni-magdeburg.de We are drowning in information, but starving for knowledge. John Naisbett 1 Einleitung In jedem Unternehmen gibt es heute Systeme zur elektronischen Datenverarbeitung, sei es in der Pro- duktion, im Vertrieb, in der Lagerhaltung oder im Personalwesen. Jedes dieser Systeme ben¨ otigt, um seine Aufgabe erf¨ ullen zu k¨ onnen, Daten, die entwe- der noch in einfachen Dateien oder schon in moder- nen Datenbanksystemen abgelegt sind. Man k¨ onnte nun meinen, daß alles erreicht sei, wenn diese Da- ten in ausreichendem Umfang zur Verf¨ ugung ste- hen. Hat man z.B. eine gut gef¨ uhrte Kundenkartei, so ” weiß“ man ja alles, was man ¨ uber seine Kunden wissen muß, denn jede denkbare Einzelinformation kann jederzeit abgerufen werden. Doch Daten allein gen¨ ugen nicht. Man k¨ onnte sagen, daß man in einer Datenbank den Wald vor lauter B¨ aumen nicht sieht. Denn Einzelinformatio- nen lassen sich aus einer Datenbank leicht abrufen, auch kann man einfache Aggregationen berechnen lassen (z.B. den durchschnittlichen Monatsumsatz im Raum Frankfurt im Jahre 1996), doch allgemei- nere Muster, Strukturen, Regelm¨ aßigkeiten bleiben unbemerkt. Gerade diese Muster k¨ onnen es jedoch sein, die sich z.B. zu einer Umsatzsteigerung aus- nutzen lassen. Findet man z.B. in einem Super- markt heraus, daß bestimmte Produkte oft zusam- men gekauft werden, so kann die Verkaufszahl u.U. durch eine entsprechende Anordnung dieser Pro- dukte in den Regalen des Marktes gesteigert wer- den. In diesem Aufsatz versuche ich zun¨ achst, den Un- terschied zwischen ” Daten“ und ” Wissen“ zu fassen, um Begriﬀe zu gewinnen, mit denen sich deutlich machen l¨ aßt, warum das bloße Sammeln von Daten nicht ausreicht. Als Illustration f¨ uhre ich ein Bei- spiel aus der Geschichte der Wissenschaft an. Ich ge- he dann auf die im Zusammenhang mit Datenanaly- sen immer h¨ auﬁger genannten Schlagworte ” Know- ledge Discovery in Databases“ (KDD) und ” Data Mining“ (DM) ein und erl¨ autere den KDD-Prozeß, in dem ” Data Mining“ einen Schritt darstellt. Um die Ideen des Data Mining zu veranschaulichen, be- spreche ich schließlich einige Beispiele aus der Viel- zahl verf¨ ugbarer Data-Mining-Verfahren. 2 Daten und Wissen Ich unterscheide in diesem Aufsatz zwischen Daten (data) und Wissen (knowledge). Aussagen wie ” Ko- lumbus entdeckte Amerika im Jahre 1492.“ oder ” Herr Meier f¨ ahrt einen VW Golf.“ sind Daten. Da- bei ist es irrelevant, ob ich das Jahr der Entdeckung Amerikas und den Typ des Wagens von Herrn Mei- er schon kenne oder nicht, ob ich diese Kenntnis im Moment ben¨ otige oder nicht, usw. Wesentlich ist, daß sich diese Aussagen auf Einzelf¨ alle bezie- hen. Sie haben daher (wenn sie wahr sind) nur einen engen G¨ ultigkeitsbereich und sind folglich nur sehr begrenzt n¨ utzlich. Oft wird statt ” Datum“ auch das Wort ” Informa- tion“ verwendet. Dies h¨ angt mit der Bedeutung zu- sammen, die dem Wort ” Information“ in der Shann- onschen Informationstheorie gegeben wird. Im All- tag benutzen wir jedoch ” Information“ in anderer Weise. Nicht jedes Datum ist eine Information, dazu muß es in der vorliegenden Situation auch relevant sein. Um m¨ ogliche Mißverst¨ andnisse zu vermeiden, werde ich daher stets von ” Daten“ sprechen. Wissen besteht aus Aussagen wie ” Alle Massen ziehen einander an.“ oder ” T¨ aglich um 17:04 Uhr f¨ ahrt ein InterRegio von Magdeburg nach Braun- schweig.“ Auch hier wird zun¨ achst die Relevanz der Aussage vernachl¨ assigt. Wesentlich ist, daß sich die- se Aussagen nicht auf Einzelf¨ alle beziehen, sondern 1