Künstliche neuronale Netze in der Bildverarbeitung und der Spracherkennung

Künstliche neuronale Netze in Bildverarbeitung, Spracherkennung und Musikmodellierung
von Dieter Schwartz und Wuming Xu

Bei der Entwicklung künstlicher neuronaler Netze wird versucht, die Funktionsweise natürlicher Nervenzellen und die Informationsverarbeitung im Gehirn auf technischem Wege nachzuahmen. Derartige Netze können aus Beispielen lernen. Diese Eigenschaft kann bei der Verarbeitung von optischen und akustischen Signalen in unterschiedlichen Anwendungsbereichen genutzt werden.

Biologische und künstliche neuronale Netze

Das Gehirn des Menschen ist ein komplexes Gebilde, dessen Funktionsweise in allen Einzelheiten nicht vollständig verstanden worden ist. Das Nervensystem setzt sich zusammen aus Nervenzellen oder Neuronen. Neuronen besitzen zwei Zustände, die durch verschiedene elektrische Potentiale, das Ruhe- und das Aktionspotential, gekennzeichnet sind. Die einzelnen Neuronen sind durch Synapsen verbunden, diese leiten elektrische Potentiale auf andere Neuronen weiter. Die Stärke der eintreffenden Signale ist vor allem von der Verbindung der beiden Neuronen abhängig. Die Verbindungsstärke zwischen zwei Neuronen wird bei einem Lernvorgang verändert (1).

^{(1) Eine einfache Annahme über die neuronale Grundlage des Lernens ist die, daß eine Information zunächst in Form von kreisenden Erregungen in einem räumlich-zeitlich geordneten Muster gespeichert wird. Diese Erregung führt zu strukturellen Veränderungen an den beteiligten Synapsen. Über eine Aktivierung dieser Synapsen kann die Information wieder abgerufen werden >[1].

Künstliche neuronale Netze versuchen die Funktionsweise des Gehirns nachzuahmen. Ein derartiges Netz besteht aus einfachen technischen Prozessoren, die lokal Informationen verarbeiten und sie über Verbindungskanäle austauschen. Es gibt keine zentrale Steuerung, daher ergibt sich das Ergebnis der Verarbeitung aus der Gesamtheit der einzelnen Einheiten (parallele Informationsverarbeitung). Künstliche neuronale Netze können aus Beispielen lernen und sie verallgemeinern.

Grundelemente und Arbeitsweise künstlicher neuronaler Netze

In Abbildung 1 ist beispielhaft die Struktur eines dreilagigen, künstlichen neuronalen Netzwerkes dargestellt. Eingangsschicht, Ausgangsschicht und innere Schicht können voneinander unterschieden werden. Die Verknüpfungen (Pfeile) und Netzknoten (Kreise) stellen die Neuronen dar. Unterschiedlichste Strukturen neuronaler Netze existieren: je nach Netztyp kann die innere Schicht entfallen oder mehrfach vorhanden sein, je nach Anwendungsfall kann sich die Zahl der Eingangssignale stark von der der Ausgangssignale unterscheiden. Das einfachste künstliche neuronale Netz ist das Perceptron.

Neuronale Netze berechnen über ihre Eingangssignale und ihren inneren Zustand die Ausgangssignale. Neuronale Netze sind lernfähig, dazu wird eine Lernregel benötigt. Durch diese Lernregel werden die Gewichte der einzelnen Verbindungen verändert, um so ein gewünschtes Ausgangssignal zu erreichen. Die Eingangssignale werden mit Gewichtungsfaktoren während der Lernphase bewertet und weitergeleitet. Die Gewichtungsfaktoren werden auch als Synapsengewichte bezeichnet.

Abbildung 1: Natürliche Nervenzelle und künstliches neuronales Netz

Historischer Rückblick

Konkrete Forschungsansätze zu künstlichen neuronalen Netzen reichen in die Jahre 1943 und 1947 zurück >[2] >[3]. Den damals vorgestellten Netzwerken fehlte jedoch die Eigenschaft der Lernfähigkeit, einmal vorgegebene Eigenschaften konnten nicht durch Lernen verändert werden. Ferner fehlte die Fähigkeit der Fehlertoleranz. Im Jahre 1958 wurde ein Netzmodell vorgestellt, das die Eigenschaften des Lernens besaß und damit in der Lage war, Muster zu klassifizieren >[4]. Eine entscheidende Weiterentwicklung im Bereich der neuronalen Netzen erfolgte durch die Ausarbeitung von leistungsstarken Lern-Algorithmen >[5]. Die ersten Neuro-Chips wurden im Jahre 1991 in Serie produziert und in Computer eingebaut >[6].

Lernfähigkeit und Mustererkennung}

Während der Lernphase der künstlichen neuronalen Netze werden die Gewichtungsfaktoren so gewählt, daß bei Anlegen der Eingangsgrößen der gewünschte Ausgangswert auftritt. Aus einem Eingabefeld werden (elektronische) Signale als Eingangsgrößen abgetastet bzw. eingelesen, mit Gewichtungsfaktoren versehen und zu einem Ausgangssignal zusammengeführt ( Abb. 2).

Abbildung 2: Mustererkennung >[8]

Der Lernprozeß ist ein iterativer Vorgang, bei dem die Einstellung des Netzwerkes über eine schrittweise Änderung der Gewichtungsfaktoren erfolgt. Um eine bestimmte Funktion (Ausgangssignal) zu erfüllen, werden die Gewichte so lange eingestellt und korrigiert, bis die Aussage des Modells mit dem Sollwert übereinstimmt. Die gewünschte Einstellung erfolgt durch Zeigen von Beispielen und nicht durch Konstruieren. Während der Lernphase präsentiert man aus einer Sammlung Eingangsgrößen und stellt diesen die erwünschten Ergebnisse gegenüber. Dem lernfähigen Netz werden beispielsweise Buchstabenpaare in undeutlicher (verrauschter) Form und in klarer (unverrauschter) Form angeboten (Abb. 3). Die Lernfähigkeit basiert auf der Gegenüberstellung von Bild und Bedeutung.

Abbildung 3: Lernen aus Beispielen >[8]

Am Ende der Lernphase sind die reinen Exemplare der Buchstabenpaare gespeichert, obwohl das Netz diese nie ohne Rauschen erfassen konnte (Fehlertoleranz).

Anwendungen

Einsatzgebiete von künstlichen neuronalen Netzen sind u.a. Erkennung von handschriftlichen Texten, Verifikation von Unterschriften, Qualitätssicherung oder Vorhersagen von Aktienkursen.

Im Rahmen des Projekts FLEXKON >[9] wird ein System zur Bilderkennung für den Bereich der Verarbeitung von Computertomographie(CT)-Aufnahmen erstellt. Ziel des Projekts ist die Untersuchung der Einsatzmöglichkeiten neuronaler Netze in der medizinischen Bildverarbeitung am Beispiel der CT der Lunge. In der Radiologie entsteht eine hohe Zahl von unterschiedlichen Bildmaterialien. Aus der Vielzahl der Aufnahmen sollen - unabhängig von Lage, Orientierung und Größe - "ähnliche" Bilder erkannt und ausgewertet werden. Intelligente Bildverarbeitung soll die medizinische Auswertung unterstützen und eine quantitative Analyse des Bildmaterials ermöglichen.

Anwendungen für den Einsatz von neuronalen Netzen in der Bildbearbeitung und -erkennung lassen sich im Bereich der Steuerungs- und Automatisierungstechnik nennen. Moderne Robotersysteme verfügen über (Mini-)Kameras, mit deren Hilfe sie Werkstücke erkennen und unterscheiden können, so daß der Roboterarm gezielt Werkstücke greifen kann. Um aus der gewaltigen Datenmenge die für den Roboter nützlichen Informationen herauszufiltern, werden effiziente und lernfähige Algorithmen benötigt, die jede Bildsequenz analysieren.

Bei der Entwicklung von Spracherkennungssystemen werden klassische Techniken der Spracherkennung mit künstlichen neuronalen Netzen kombiniert. Beispielsweise wird versucht, ein Spracherkennungssystem zu entwickeln, das für die Erkennung von sprecherunabhängig fließend gesprochener Sprache geeignet ist >[10]. Das Training (Lernphase) erfolgt mit von verschiedenen Sprechern erzeugten Trainingssätzen. Zur Evaluierung dieses Systems wird fließend gesprochene englische Sprache mit einem begrenzten Vokabular von etwa 1000 Wörtern verwendet.

Unter dem Titel "Informationsstrukturen in der Musik" existiert an der Universität Karlsruhe ein eigener Forschungsbereich, der neuronale Informationsstrukturen in der Musik und die damit verbundenen Gesetzmäßigkeiten des ästhetischen Gestaltens zu erfassen versucht >[11]. Ein geübtes Ohr kann den Stil eines Musikstückes nach wenigen Takten einer bestimmten Epoche oder einem bestimmten Komponisten zuordnen. Stilmerkmale können mit Hilfe von neuronalen Netzen aus Orginalkompositionen analysiert und erlernt werden. Die trainierten Netze sind danach in der Lage, Kompositionen im Stil der Lernbeispiele - beispielsweise Melodievarianten im barocken Stil - auszuarbeiten.

Im Rahmen dieses Beitrages soll auf zwei Projekte aus dem Bibliothekswesen hingewiesen werden, in denen Überlegungen zum Einsatz von neuronalen Netzen angestellt wurden. In dem Projekt OSIRIS soll auf der Basis des verhandenen Daten- und Informationsbestandes in Form eines intelligenten User-Interface eine qualitative Verbesserung bei der Formal- und Sachrecherche erreicht werden. So ist z.B. neben klassischen Verfahren zur Behandlung fehlerhafter Eingaben in den OPAC auch der Einsatz eines neuronalen Netzes in Erwägung gezogen worden >[12]. Ziel des Projektes CAROL war es, graue Literatur computergestützt zu katalogisieren und dabei mit Hilfe eines Regelsatzes u.a. aus Layout und Schlüsselwörtern auf Verfasser, Körperschaft usw. zu schließen >[13] >14].

Zusammenfassung und Ausblick

Informationsverarbeitung in Netzen, in denen eine große Anzahl einfacher Bausteine miteinander verbunden ist und diese über gerichtete Verbindungen ihre Aufgaben unabhängig voneinander und simultan erledigen, ist fundamental für die Idee künstlicher Netze. Die in einem derartigen Netz ablaufenden Mechanismen tragen zum Verständnis des Verhaltens und der Arbeitsweise komplexer Systeme bei.

Moderne Management-Konzepte greifen diese Idee auf, indem sie versuchen, das Wissen der Mitarbeiter eines Unternehmens zu bündeln und so eine Art einheitlicher Firmen-Intelligenz zu schaffen. In diesem digitalen Nervensystem sollen der Informationsfluß gesteuert und Informationen als Handlungsgrundlage zur Verfügung gestellt werden >[15].

In den 50er Jahren hießen Computer populär "Elektronengehirne". Diese Bezeichnung suggerierte, daß Rechner gleiche Leistungen wie menschliche Gehirne erbringen könnten. Die anfänglich euphorischen Erwartungen und Vorstellungen über die Leistungsfähigkeit von Computern mußten relativiert werden; eine kritische Auseinandersetzung mit der Computerisierung, deren Akzeptanz und Einfluß auf die Arbeitswelt setzte ein.

Obwohl künstliche neuronale Netze in ihrem Aufbau und der Art der Informationsverarbeitung einige vergleichbare Eigenschaften wie die natürlichen Strukturen des Gehirns haben, können sie die komplexe Arbeitsweise des Gehirns nur ansatzweise nachbilden. Software-Produkte, mit deren Hilfe unterschiedliche Typen neuronaler Netze nachgebildet werden können, sind auf dem Markt (z.B. >[16] ).

Da zahlreiche Industrie-Unternehmen in Deutschland, USA und Japan im Bereich der neuronalen Netze tätig sind, wird in den nächsten Jahren mit industriellen Anwendungen zu rechnen sein >[6].

Quellen

[1] Physiologie des Menschen. Springer-Verlag 1985. S.184-185.

McCulloch, W. S.; Pitts, W.: A logical calculus at the ideas immanent in nervous activity. In: Bulletin for Mathematical Biophysics 5 (1943) S. 125-133.
McCulloch, W. S.; Pitts, W.: How we know universal. The perceptron of auditory and visual forms. - In: Bulletin for Mathematical Biophysics 9 (1947) S. 127-147.
Rosenblatt, F.: The perceptron – a probabilistic model for information storage and organisation in the brain. - In: Psychological Review 65 (1958) S. 386-408.
Rumelhart, D. E.; Hilton, G. E.; William, R. J.: Learning representations by backpropagating errors. - In: Nature 323 (1986) S. 533-536.
Mörike, M.; Verhoeven, G. L.: Die Trends der Informationstechnologie. München 1997.
Rosenblatt, F.: Principles of Neurodynamics. Spartan Books 1962.
Schürmann, J.; Kreßel, U.: Neuronale Netze in der Mustererkennung: Multilayer-Perzeptron und Polynomklassifikator. - In: HMD 159 (1991) S. 110-122.

[9] Computerunterstützte Diagnostik in der Computertomographie der Lunge

Unter: http://www.informatik.uni-mainz.de/ANGE/medizin/projekt.htm

[10] Sprecherunabhängige Erkennung fließend gesprochener Sprache mit

informationstheoretischen neuronalen Netzen und Hidden-Markov-Modellen

Unter: http://www.fb9-ti.uni-duisburg.de

[11] Informationsstrukturen in der Musik

Unter: http://i11www.ira.uka.de/~musik/OhneFrames/geschichte.de.html

[12] Recker, I.; Ronthaler, M.; Zillmann, H.: Osiris: Osnabrück Intelligent Information

System - ein Hyperbase Front End System für OPACs

In: Bibliotheksdienst 30 (1996) 5, S. 833-848.

[13] Putz, W.; Roth, G.; Schmidt, J.: CAROL: Document Structure Recognition: A Rule-Based and Neural Network Approach Applied to Cataloging. Gesellschaft für Mathematik und Datenverarbeitung m.b.H. Bonn, St. Augustin 1992.

[14] CAROL : cataloguing by automated recognition of literature: Schlussbericht zum DFG-Projekt. Automatisiertes Katalogisieren von Spezialliteratur. Hannover 1994.

[15] Digitales Nervensystem

http://www.microsoft.com/switzerland/de/dns/default.asp

[16] MATLAB

http://www.mathworks.com/products/matlab/alg_development.shtml

Zu den Autoren

Dipl.Ing. Dieter Schwartz

dieter.schwartz@ruhr-uni-bochum.de

Wuming Xu

wuming.xu@ruhr-uni-bochum.de

Universitätsbibliothek Bochum

Universitätsstraße 150

D-44780 Bochum