Entwicklung eines dynamischen Entry Vocabulary Moduls f¨ ur die Stiftung Wissenschaft und Politik Benjamin Berghaus, Michael Kluck und Thomas Mandl Universit¨ at Hildesheim Informationswissenschaft Marienburger Straße 22 31134 Hildesheim benjamin.berghaus, mandl@uni-hildesheim.de Stiftung Wissenschaft und Politik Fachinformationsbereich Ludwigkirchplatz 3-4 10719 Berlin michael.kluck@swp-berlin.org Abstract Nicht ¨ ubereinstimmendes Vokabular zwischen Anfrage und Dokumenten stellt ein Hauptpro- blem im Information Retrieval dar. Das Entry Vocabulary Modul hat sich in den letzten Jahren als L¨ osung hierf¨ ur etabliert. In diesem Beitrag wird ein dynamisches Entry Vocabulary Modul vorgestellt, das f¨ ur einen Datenbestand mit meh- reren inhaltsbezogenen Feldern in einem mehr- stuﬁgen Verfahren abh¨ angig von Zwischener- gebnissen die Anfrage erweitert. Das entwickel- te System wurde anhand eines mehrsprachi- gen Datenbestands von rund 600.000 Fachtex- ten evaluiert und f¨ uhrte zu positiven Ergebnis- sen. 1 Einleitung 1.1 Die zentrale Frage des Vokabulars Bei der Verbalisierung von Informationen wird die Nach- richt mit Hilfe eines Vokabulars kodiert. Da es aufgrund verschiedener Sprachen und spezialisierter Fachsprachen viele verschiedene Vokabulare gibt, ist es essentiell, dass, sofern die Information ausgetauscht werden soll, sowohl der Sender als auch der Empf¨ anger der Information das sel- be Vokabular beherrschen und den Sinn der verbalen Ab- bildung der Information verstehen k¨ onnen. Ist das in der Kommunikation verwendete Vokabular einem der Kommu- nikationspartner unbekannt, wird der Austausch von Infor- mationen nahezu unm ¨ oglich. Bezogen auf die Welt des Information Retrieval ergibt sich in diesem Kontext ein ¨ ahnliches Problem. Je nach Auf- gabe und Einsatzgebiet des IR-Systems variiert die Art der Datengrundlage und der in der Datengrundlage verzeichne- ten Informationen drastisch. Handelt es sich um eine hoch- spezialisierte Datenbank, beispielsweise die in [Gey et al., 2001] herangezogene Datenbank von amerikanischen Im- und Exportstatistiken, so wird auch die Information in der Datengrundlage entsprechend in einem spezialisierten Vo- kabular kodiert sein. Im Falle der Außenhandelsstatistiken l¨ asst sich beispielsweise nicht erfolgreich mit dem Begriff ” automobile“ suchen - der entsprechende Begriff lautet in dem Zielvokabular des IR-Systems ” Pass Mtr Veh“, was einen Abk¨ urzung f ¨ ur ” Passenger Motor Vehicle“ darstellt. ¨ Ublicherweise w¨ urde eine solche Datengrundlage nur f¨ ur die entsprechenden Spezialisten interessant sein, die mit dem entsprechenden Vokabular der Datengrundlage ver- traut sein m¨ ussen. Allerdings kann es sein, dass auch eine solche Datenbank ¨ offentlich zug¨ anglich gemacht wird und somit auch Nutzern durchsucht wird, die sich des speziel- len Vokabulars nicht bewusst sind. Hierbei entsteht, wie im oben beschriebenen Beispiel, die Situation, dass Nutzer, die des Vokabulars des Systems nicht m¨ achtig sind, das System nicht auf eine zielf ¨ uhrende Art und Weise bedienen k¨ onnen - nicht nur, weil sie das Ergebnis des Retrievalprozess even- tuell nicht interpretieren, sondern weil auf das System un- vorbereitete Nutzer ohnehin kaum eine sinnvolle Anfrage formulieren k¨ onnen. F¨ ur die L¨ osung dieser Probleme der semantischen Heterogenit¨ at in Metadatensystemen existieren mehrere Ans¨ atze, vgl. [Hellweg et al., 2001]. Um eine Br¨ ucke zwi- schen dem spezialisierten, kontrollierten Vokabular einer spezialisierten Datengrundlage und dem mehr oder weni- ger freien Vokabular eines untrainierten Nutzers zu bau- en, wurden in den letzten Jahren zunehmend sogenannte Entry Vocabulary Module eingesetzt, vgl. [Buckland et al., 1999]. Diese Module bestehen ¨ ublicherweise aus einem Entry Vocabulary Index, der die Beziehungen zwischen Termen des Freitexts und Deskriptoren oder Klassiﬁkati- onsangaben auf Basis von Wahrscheinlichkeiten abbildet und einer Schnittstelle, die geeignete kontrollierte Voka- beln vorschlagen kann, vgl. [Norgard, 1998]. Auf diese Art und Weise kann eine Anfrage, die frei formuliert wurde, auf das eventuell kontrollierte Vokabular der Datengrundlage ¨ ubersetzt oder um verwandte Terme oder Phrasen erg¨ anzt werden. Eine weitere, interessante Anwendungsm¨ oglichkeit be- steht außerdem darin, nicht nur einen ” vertikalen“ Voka- bularunterschied zu nivellieren, sondern auch einen ” hori- zontalen“: W¨ ahrend der Unterschied zwischen spezialisier- tem und freien Vokabular eindeutig ist, ist auch der Un- terschied zwischen dem Vokabular verschiedener Sprachen - also der mehrsprachige Aspekt - durch den Einsatz von EVMs gegebenenfalls zu ¨ uberbr¨ ucken. In [Petras, 2005] wurde bereits belegt, dass mehrsprachiges Information Re- trieval durch den Einsatz von Metadaten verbessert wer- den kann: Petras wendete das EVM f¨ ur die mit Thesaurus- termen indexierte Fachdatenbank GIRT (German Indexing und Retrieval Testdatabase) an. GIRT wird zur Evaluie- 94 LWA 2006