Visualisierung von Bedeutungsverschiebungen in großen diachronen Dokumentkollektionen SVEN TERESNIAK · GERHARD HEYER · GERIK SCHEUERMANN · FLORIAN HOLZ Große diachrone Dokumentkollektionen sind eine der wichtigsten Informationsquellen in Politik, Wirtschaft, Wissenschaft und so ziemlich allen Bereichen des öf- fentlichen Lebens. Eine wichtige wissenschaftliche Pro- blemstellung bei der Nutzung dieser Ressourcen stellt dabei die geeignete Extraktion der in den Dokumenten behandelten Themen dar. Eine geeignete Visualisierung kann dabei helfen, größere Datenmengen – und damit eine große Anzahl behandelter Themen – für einen Be- nutzer handhabbar zu halten, und kann darüber hinaus die Grundlage für eine tiefere, interaktive und visuell unterstützte Analyse der Daten bilden. Nachfolgend soll ein neues Maß vorgestellt werden, welches die Bedeu- tungsveränderung von Termen über die Zeit misst. In diesem Artikel werden dabei der aktuelle Arbeitsstand und die ersten Ergebnisse des Teilprojektes »Topology- based Visual Analysis of Information Spaces« doku- mentiert und ein Ausblick auf weitere Arbeiten im Sinne des Visual Analytics gegeben. 1 Einleitung Große Kollektionen von Textdokumenten, wie sie beispielswei- se mit dem New York Times Annotated Corpus 1 (NYTC) und an- deren archivierten Zeitungskorpora vorliegen, enthalten vielfälti- ge temporale Informationen, die sich auf Ereignisse, Geschichten oder Themen (events, stories bzw. topics) beziehen. Wir verwen- den diese Begriffe analog zu [Allan 2002] wie folgt: Ereignis: Ein berichtetes Auftreten in Raum und Zeit inklusive aller unvermeid- baren Konsequenzen, bspw. bestimmte Wahlen, Unfälle, Natur- katastrophen, etc.; Geschichte: Ein thematisch kohäsiver Textaus- schnitt, welcher Daten mit mindestens zwei unabhängige, inhalt- lich nicht identische Aussagen über bestimmtes Ereignis enthält; Thema: Ein Ursprungsereignis oder -aktivität inklusive aller abge- leiteten und direkt darauf bezogenen Fakten, Ereignisse und Akti- vitäten. Als Vorstufe einer visuellen Inhaltsanalyse ist zuerst einmal ei- ne geeignete visuelle Repräsentation der in den Daten enthalte- nen Themen zu ﬁnden. Diese Themen aufzuspüren, ihren Verlauf und ihre Entwicklung zu verfolgen, sind Ziele des topic detecti- on and tracking [Allan et al. 1998, Allan 2002]. Dabei sollen in- nerhalb einer Dokumentkollektion relevante (wichtige, aussage- kräftige) Terme identiﬁziert und zu bestimmten Zeiträumen oder Events in Beziehung gesetzt werden. In der Gegenrichtung sollen inhaltlich zusammenhängende Zeiträume oder Ereignisse mög- lichst passend verschlagwortet werden. 1 http://www.ldc.upenn.edu/ Um o. g. relevante und/oder neue Terme in Textdatenströmen zu identiﬁzieren, gibt es vielfältige Ansätze, von denen nachfolgend exemplarisch drei vorgestellt werden sollen, um das Spektrum der Verfahren in aller Kürze zu beleuchten. [Swan & Allan 1999, Swan & Allan 2000, Kumaran & Allan 2004] bewerten die Rele- vanz von Termen anhand sog. multiple document models und Schwellwerten auf tf-idf-Basis 2 über Segmenten des Textdaten- stroms. Kleinberg entwickelt in [Kleinberg 2002] den Begriff der burs- tiness von Termen, indem er einen kantengewichteten endlichen Automaten nutzt, um die Sensitivität für Häufungen relevanter Terme besser steuern zu können, welche erfahrungsgemäß in ih- rer Auftretensfrequenz auch außerhalb interessanter Zeiträume Schwankungen unterliegen. In [Wang & McCallum 2006] werden Kookkurrenzmuster von Termen und deren lokale Verteilungscharakteristik über die Zeit verwendet, um Themen über die Zeit zu identiﬁzieren. Dieser An- satz nutzt die Menge von Kookkurrenten eines Terms als Reprä- sentation des Themas bezüglich eines Zeitfensters. Allgemeiner betrachtet müssen Themen nicht zwangsläuﬁg nur bestimmte Events behandeln, sie können stattdessen auch mehr die Sicht des Autors oder der Gesellschaft auf eben diese Events wiederspiegeln. Diese Sichtweise oder Einstellung bezüglich be- stimmter Ereignisse sich über die Zeit verändern. In der natürli- chen Sprache besteht ein nicht unwesentlicher Anteil aus derarti- gen (subjektiven wie objektiven) Bewertungen und Einschätzun- gen, welche über die Zeit Veränderungen unterworfen sein kön- nen. Eine Beobachtung dieser Verschiebungen in der öffentlichen Wahrnehmung von Dingen kann sehr hilfreich sein, wenn man historische Entwicklungen bestimmen möchte. In unserem An- satz betrachten wir neben der Termfrequenz den globalen Kon- text der Terme als zusätzliche Dimension, um die Relevanz und die Bedeutung von Termen zu bestimmen. Nähere Details werden in Abschnitt 2 gegeben. Wir nutzen die beiden angesprochenen Dimensionen, um einen Überblick über die Themen in der Kol- lektion zu ermitteln. Eine Veränderung des Kontextes eines Terms über die Zeit re- ﬂektiert damit eine sich verändernde Benutzung des Terms und deutet auf eine Bedeutungsveränderung dieses Terms hin. Die Stärke der Veränderung (oder die Stabilität) dieser Bedeutungs- verschiebung eines Terms beschreibt demnach direkt, wie stark (oder schwach) die typischen Nutzer dieses Terms dessen Bedeu- tung zustimmen. Als Analogie stelle der Leser sich den börsen- basierten Wertpapierhandel vor, bei dem die Schwankungen des 2 Tf-idf ist eine Standardmethode der Termgewichtung im Information Retrieval und wird aus dem Produkt von Termfrequenz tf und Inverser Dokumentfrequenz idf be- rechnet. Die Termfrequenz wertet die Wichtigkeit eines Terms im Dokument, während die Inverse Dokumentfrequenz den Term bezüglich der kompletten Dokumentkollek- tion wertet. Damit bevorzugt tf-idf innerhalb eines Dokuments häuﬁge Terme, die in nur wenigen anderen Dokumenten häuﬁg auftreten. 1