Erkennung globaler Bildstrukturen durch Gruppierung
und regelbasierte Kombination von Strukturprimitiven
Guido Gerig
Institut für Kommunikationstechnik
Fachgruppe Bildwissenschaft
ETH-Zentrum, CH-8092 Zurich
Zusammenfassung
Die Analyse von digitalen Bildszenen wird als streng strukturiertes Vorgehen mit klar definierten Schnitt-
stellen zwischen den Prozessen angegangen. Dies soll anhand eines engen Diskursbereiches gezeigt werden,
Aufgabe sei die Erkennung von linearen Bildbereichsstrukturen. Verbesserte Verfahren auf der untersten
Stufe der Merkmalsextraktion liefern Bildbereichselemente, die in einer folgenden Prozessstufe zu Bildbe-
reichsstrukturen gruppiert werden. Dieser Prozess erfolgt bildunabhängig und robust, indem sowohl Lücken
als auch Überkreuzungen in die globale Zusammenfassung einbezogen werden. Die resultierenden Struk-
turprimitive werden durch Attribute sowie gegenseitige Relationen symbolisch beschrieben und bilden die
Basis für die Interpretation, die über Szenenbereichsstrukturen und Objekthypothesen schlussendlich in
einer vollständigen Szenenbeschreibung resultiert.
Das System von SzeneNanalyseprozessen wird anhand dreier realer Anwendungen sehr unterschiedli-
chen Schwierigkeitsgrades und Komplexität vorgestellt und damit dessen Vielseitigkeit demonstriert. Ge-
meinsames Merkmal der Bildszenen sei, dass sich die Bildbereichsstrukturen als längere lineare Elemente
repräsentieren. Für die regelbasierte Kombination wurde ein Prolog-System aufgebaut.
Stichworte: Liniendetektion, Gruppierung, Strukturprimitive, Prolog Interpretationssystem
1 Einführung
Die Bildanalyse hat es nicht leicht, sich für grössere Anwendungsbereiche durchzusetzen, obwohl in den
letzten Jahren an einer Reihe von Problemen gezeigt werden konnte, welche Leistungsfähigkeit derartige
Systeme erreichen können. Die nur zögernde Bereitschaft, visuelle Sensorsysteme für reale Probleme einzu-
setzen, mag daran liegen, dass unser visuelles System scheinbar mühelos Strukturen in Bildern erkennen und
verstehen kann. Rechnergestützte Systeme haben es deshalb schwer, in dieser Überlegenheit zu bestehen
und in einzelnen Fällen zu zeigen, wie leistungsfähig sie sein können, um damit gegen Systeme mit gros-
ser menschlicher Interaktion, aber mit sehr benützerfreundlicher Bedienung, konkurrieren zu können. Die
rechnergestützte Bildanalyse sollte ihre Vorzüge dort beweisen können, wo ihre Leistungsfähigkeit voll zum
Tragen kommt: Kriterien seien Schnelligkeit, Zuverlässigkeit, das Bewältigen grosser Mengen gleichartiger
Eingangsdaten, Reproduzierbarkeit bei sich wiederholenden Vorgängen, sofortige quantitative Analyse und
Beschreibung und visuelle Repräsentierung der Resultate.
Die intensive Beschäftigung mit Bildverarbeitung in den letzten Jahren hat Grundlagen geschaffen, um
eine ganze Reihe von Problemen zielgerichtet anpacken und lösen zu können. Es soll ein Ziel der vorliegenden
Arbeit sein, zu zeigen, wie sich durch ein wohldefiniertes Zusammenspiel einer Reihe von leistungsfähigen
Prozessstufen Bildszenen von sehr unterschiedlicher Komplexität, Qualität und Erscheinungsform, an die
aber ähnliche Erkennungsaufgaben gestellt werden, mit denselben Methoden verarbeiten lassen. Damit soll
ein Beitrag zur Entwicklung von eher universell anwendbaren Bildanalysesystemen geleistet werden.
Der Prozess der rechnergestützten Bildanalyse besteht hauptsächlich aus einer Bildzerlegung und einem
semantischen Wiederaufbau. Die Aufgabe des ersten Teils, der Bildsegmentierung, ist die Transformation
des originalen Rasterbildes in einen Satz von bedeutungsvollen strukturellen Einheiten, die in Form einer
symbolischen Datenstruktur die Basis für den folgenden Interpretationsprozess bilden. Dabei werden im
wesentlichen zwei Prozessstufen durchlaufen, nach allgemeinem Konsens sind dies eine initiale low level Stufe
(zumeist als multiple simultane Nachbarschaftsoperation zu beschreiben) zur Extraktion lokaler Merkmale
und ein medium level Teil zur Gruppierung von Elementen zu ausgedehnteren Bildbereichsstrukturen. Die
high level Interpretationsstufe setzt dann auf dieser symbolischen Datenstruktur auf und generiert eine
vollständige Szenenbeschreibung.
128 H. Bunke et al. (eds.), Mustererkennung 1988
© Springer-Verlag Berlin Heidelberg 1988