Komplexe Objektbeschreibungen zur Suche in Multimedia-Datenbanken 32 Datenbank-Spektrum 19/2006 1 Einleitung Die inhaltsbasierte Suche nach Multime- diadaten, wie Fotos, Musikstücken oder Filmen, hat durch die jüngsten Entwick- lungen in der Unterhaltungselektronik, der Datenübermittlung und der Compu- tertechnologie an allgemeinem Interesse gewonnen. Während früher die Verwal- tung großer Mengen von Multimedia- daten eher professionellen Anwendern vorbehalten war, existieren heute in vie- len Haushalten mehrere hundert Gigabyte an Fotos, digitalen Videos und Musik- stücken. Die Zahl der potenziellen An- wender von Multimedia-Datenbanken ist heute also deutlich größer als noch vor wenigen Jahren. Allerdings ergibt sich dadurch das Problem, die gesammelten Daten so zu verwalten, dass sie in dem riesigen Datenberg durch intuitiv bedien- bare Systeme effizient gefunden werden können. Dabei sind auch die Anforderun- gen an die Suchsysteme drastisch gestie- gen. Während man im professionellen Umfeld noch mit einem umfassend ge- schulten Anwender rechnen kann, müs- sen die Systeme für die Anwendung im Privatbereich wesentlich intuitiver zu be- dienen sein, um sich hier durchsetzen zu können. Der Bereich Multimedia wurde daher um eine Vielzahl neuer Forschungsgebie- te erweitert, die weit über die Ähn- lichkeitssuche in hochdimensionalen Feature-Vektoren hinausgehen. In mo- dernen Multimediasystemen werden die verwalteten Datenobjekte häufig durch mehrere Repräsentationen beschrieben, die sich wiederum aus einer Menge von Feature-Vektoren zusammensetzen kön- nen. Die dabei verwendeten Feature-Vek- toren sind deutlich niedrig dimensionaler als bei der Modellierung durch einen ein- zelnen Feature-Vektor. Systeme zur in- haltsbasierten Bildsuche wie BlobWorld [Carson et al. 2002] stellen Bilder bei- spielsweise durch Farb-, Form- und Tex- turvektoren dar. Die Ähnlichkeit zwi- schen zwei Bildern kann dann als Kombi- nation dieser Kriterien betrachtet werden und ist dadurch meist deutlich besser erfasst als in Systemen, die sich auf nur einen Typ von Eigenschaften festlegen. Ein weiterer wichtiger Aspekt in der aktuellen Forschung ist die Bestimmung von Eigenschaften höherer Ordnung, so genannte High-Level-Features. Sie be- schreiben den Inhalt von Multimediada- ten auf semantischer Ebene, z.B. mittels Schlagworten. Diese Objektbeschreibun- gen können für die inhaltsbasierte Suche in Bildern, Videos und Audiodateien ver- wendet werden. Mit Hilfe von High-Le- vel-Features können Anfragen wie zum Beispiel »suche Videos, in denen ein BMW zu sehen ist«, »suche Bilder, auf denen lachende Personen abgebildet sind« oder »suche Musikstücke aus dem Bereich Volksmusik« effizient und effek- tiv beantwortet werden. Diese Entwicklung stellt eine extreme Herausforderung dar, sie erfordert neue Techniken zur Anfragebearbeitung und zur Verwaltung von Multimediaobjekten. In diesem Artikel wird insbesondere auf die Verwaltung von mengenwertigen, multirepräsentierten und unscharfen Ob- jekten eingegangen. Solche Objektdar- stellungen helfen, den Problemen der Vieldeutigkeit und der subjektiven Inter- pretation von Medieninhalten entgegen- zuwirken und somit die semantische Lücke beim Multimedia Retrieval zu ver- kleinern. Im Folgenden wird ein Über- blick über mögliche Lösungsansätze für derartige Herausforderungen bei der Su- che in Multimedia-Datenbanken vorge- stellt. 2 Multiinstanz-Objekte Aufgrund der Komplexität heutiger Mul- timediadaten ist es für viele Applikatio- nen nützlich, Objekte durch eine Menge von Feature-Vektoren zu beschreiben. Ein Bild kann zum Beispiel mehrere Formen beinhalten. Die bisherigen Ver- fahren, die jedes Bild als einzelnen Vek- tor dargestellt haben, sind dazu ungeeig- net. Es ist vielmehr sinnvoll, jede Form auf einen einzelnen Formdeskriptor ab- zubilden und ein Bild durch die Menge der darin enthaltenen Formdeskriptoren zu beschreiben. Der Vergleich von zwei Bildern impliziert demnach den Ver- gleich zweier Mengen von Formdeskrip- toren. Weitere Anwendungsgebiete für Mul- tiinstanz- bzw. mengenwertige Objektbe- schreibungen sind unter anderem Video- daten, Musikdaten oder auch 3D-Daten wie CAD-Bauteile. Ein Film kann über die Menge der darin enthaltenen Ka- meraeinstellungen und Szenen beschrie- ben werden. Musikdaten können über die Menge der verschiedenen auftretenden Stimmen oder Instrumente charakteri- siert werden. CAD-Objekte können in eine Menge räumlicher Primitive zerlegt werden. Die Anzahl der Primitive, die ein Objekt bestmöglich beschreiben, kann von Objekt zu Objekt variieren. Deshalb bewirkt der Objektvergleich auf Basis von mengenwertigen Darstellun- gen häufig eine intuitivere Modellierung von Ähnlichkeit als der Vergleich von Darstellungen mit einem Vektor. Im Fol- genden beschreiben wir daher Daten- banklösungen für den Vergleich und die effiziente Suche in mengenwertigen Daten. Mengenwertige Distanzfunktionen. In [Kriegel et al. 2003] werden 3D-Ob- jekte durch Mengen von Überdeckungs- sequenzen approximativ beschrieben, um sowohl effiziente als auch effektive Ähn- lichkeitssuche in einer Datenbank von 3D-Objekten zu ermöglichen. Das zen- trale Problem stellt dabei die Herleitung einer geeigneten Distanzfunktion auf Vektormengen dar. Zum einen soll die Distanzfunktion den gewünschten Ähn- lichkeitsbegriff widerspiegeln, zum ande- ren sollen die Distanzberechnungen zwi- schen den 3D-Objekten mit vertretbarem Aufwand möglich sein. In der Literatur wurden bereits zahlreiche Distanzfunk- tionen für Vektormengen vorgeschlagen. Die Hausdorff-Distanz ist eine bekannte und einfach zu berechnende Metrik. Sie ist jedoch in diesem Anwendungsbereich als Ähnlichkeitsmaß ineffektiv, weil sie nicht alle Instanzen im Objekt ausrei- chend berücksichtigt. Somit bleibt die Gesamtstruktur der Vektormengen im Ähnlichkeitsmodell unberücksichtigt und die Information, die durch Kombination verschiedener Distanzen einzelner Vekto- ren gewonnen werden kann, bleibt un- genutzt. Weitere Distanzfunktionen für E. Achtert, C. Böhm, S. Brecheisen, H.-P. Kriegel, P. Kunath, A. Pryakhin, M. Renz, M. Schubert Komplexe Objektbeschreibungen zur Suche in Multimedia-Datenbanken