Erkennung globaler Bildstrukturen durch Gruppierung und regelbasierte Kombination von Strukturprimitiven Guido Gerig Institut für Kommunikationstechnik Fachgruppe Bildwissenschaft ETH-Zentrum, CH-8092 Zurich Zusammenfassung Die Analyse von digitalen Bildszenen wird als streng strukturiertes Vorgehen mit klar definierten Schnitt- stellen zwischen den Prozessen angegangen. Dies soll anhand eines engen Diskursbereiches gezeigt werden, Aufgabe sei die Erkennung von linearen Bildbereichsstrukturen. Verbesserte Verfahren auf der untersten Stufe der Merkmalsextraktion liefern Bildbereichselemente, die in einer folgenden Prozessstufe zu Bildbe- reichsstrukturen gruppiert werden. Dieser Prozess erfolgt bildunabhängig und robust, indem sowohl Lücken als auch Überkreuzungen in die globale Zusammenfassung einbezogen werden. Die resultierenden Struk- turprimitive werden durch Attribute sowie gegenseitige Relationen symbolisch beschrieben und bilden die Basis für die Interpretation, die über Szenenbereichsstrukturen und Objekthypothesen schlussendlich in einer vollständigen Szenenbeschreibung resultiert. Das System von SzeneNanalyseprozessen wird anhand dreier realer Anwendungen sehr unterschiedli- chen Schwierigkeitsgrades und Komplexität vorgestellt und damit dessen Vielseitigkeit demonstriert. Ge- meinsames Merkmal der Bildszenen sei, dass sich die Bildbereichsstrukturen als längere lineare Elemente repräsentieren. Für die regelbasierte Kombination wurde ein Prolog-System aufgebaut. Stichworte: Liniendetektion, Gruppierung, Strukturprimitive, Prolog Interpretationssystem 1 Einführung Die Bildanalyse hat es nicht leicht, sich für grössere Anwendungsbereiche durchzusetzen, obwohl in den letzten Jahren an einer Reihe von Problemen gezeigt werden konnte, welche Leistungsfähigkeit derartige Systeme erreichen können. Die nur zögernde Bereitschaft, visuelle Sensorsysteme für reale Probleme einzu- setzen, mag daran liegen, dass unser visuelles System scheinbar mühelos Strukturen in Bildern erkennen und verstehen kann. Rechnergestützte Systeme haben es deshalb schwer, in dieser Überlegenheit zu bestehen und in einzelnen Fällen zu zeigen, wie leistungsfähig sie sein können, um damit gegen Systeme mit gros- ser menschlicher Interaktion, aber mit sehr benützerfreundlicher Bedienung, konkurrieren zu können. Die rechnergestützte Bildanalyse sollte ihre Vorzüge dort beweisen können, wo ihre Leistungsfähigkeit voll zum Tragen kommt: Kriterien seien Schnelligkeit, Zuverlässigkeit, das Bewältigen grosser Mengen gleichartiger Eingangsdaten, Reproduzierbarkeit bei sich wiederholenden Vorgängen, sofortige quantitative Analyse und Beschreibung und visuelle Repräsentierung der Resultate. Die intensive Beschäftigung mit Bildverarbeitung in den letzten Jahren hat Grundlagen geschaffen, um eine ganze Reihe von Problemen zielgerichtet anpacken und lösen zu können. Es soll ein Ziel der vorliegenden Arbeit sein, zu zeigen, wie sich durch ein wohldefiniertes Zusammenspiel einer Reihe von leistungsfähigen Prozessstufen Bildszenen von sehr unterschiedlicher Komplexität, Qualität und Erscheinungsform, an die aber ähnliche Erkennungsaufgaben gestellt werden, mit denselben Methoden verarbeiten lassen. Damit soll ein Beitrag zur Entwicklung von eher universell anwendbaren Bildanalysesystemen geleistet werden. Der Prozess der rechnergestützten Bildanalyse besteht hauptsächlich aus einer Bildzerlegung und einem semantischen Wiederaufbau. Die Aufgabe des ersten Teils, der Bildsegmentierung, ist die Transformation des originalen Rasterbildes in einen Satz von bedeutungsvollen strukturellen Einheiten, die in Form einer symbolischen Datenstruktur die Basis für den folgenden Interpretationsprozess bilden. Dabei werden im wesentlichen zwei Prozessstufen durchlaufen, nach allgemeinem Konsens sind dies eine initiale low level Stufe (zumeist als multiple simultane Nachbarschaftsoperation zu beschreiben) zur Extraktion lokaler Merkmale und ein medium level Teil zur Gruppierung von Elementen zu ausgedehnteren Bildbereichsstrukturen. Die high level Interpretationsstufe setzt dann auf dieser symbolischen Datenstruktur auf und generiert eine vollständige Szenenbeschreibung. 128 H. Bunke et al. (eds.), Mustererkennung 1988 © Springer-Verlag Berlin Heidelberg 1988