02 Perception

Dank unserer Sinnesorgane sind wir in der Lage, zu sehen, zu tasten und zu riechen und unsere Umwelt auf vielfältige Art und Weise wahrzunehmen. Dabei handelt es sich um intuitive und selbstverständliche Kognitionsleistungen des Menschen, die nicht ohne weiteres digitalisiert in Algorithmen übersetzt werden können. Dennoch beschäftigen sich seit Jahren internationale Forscherteams damit, genau dies umzusetzen: maschinellen Agenten quasi Augen und Ohren zu verleihen.

Doch wie gelingt es solchen Agenten, unsere Sinnesorgane nachzuahmen und somit Informationen aus der Außenwelt zu verarbeiten? Die einfache Antwort: Forscher verwenden bereits existierende Technologien – wie beispielswiese Kameras, Mikrofone und Tastsensoren – und optimieren diese für die spezifischen Anforderungen der KI-Systeme: So erhalten sie Gehör (durch Mikrofonsysteme) oder Augen (durch Laser- oder Infrarotsensoren). Mittels dieser Sensoren wandeln die Agenten Signale aus ihrer Umwelt in für sie erkennbare Daten um. Damit diese Daten allerdings für die Agenten Sinn ergeben, müssen sie entsprechend analysiert und verarbeitet werden. Das ist die Aufgabe des sog. Perception- (zu Deutsch: Wahrnehmung) Mechanismus.

Perception-Technologien finden dabei primär im Bereich der Robotik Anwendung, auch wenn natürlich nicht jeder Roboter zwangsläufig ein KI-fähiges System ist. KI agiert primär auf Softwareebene und benötigt nicht zwingend die „physische Hülle“ eines Roboters, um zu existieren. Doch es gibt Roboter, die so programmiert sind, dass sie Kognitionsleistungen des Menschen imitieren oder sogar in einigen Bereichen optimieren können. Hier fungiert der Roboter als „Körper“, und die neuronalen Aktivitäten des menschlichen Gehirns sollen durch die KI-Algorithmen simuliert werden.

Das folgende Schach-Beispiel soll dazu dienen, den feinen Unterschied zwischen KI „in Reinform“ und in Robotern integrierter KI zu veranschaulichen: Computerbasierte KI kann die Vielzahl an Zügen in einem Programm durchlaufen, ohne dabei mit der physischen Welt zu interagieren. Ein schachspielender Roboter muss hingegen dazu in der Lage sein, die Figuren anzufassen, sie zu bewegen und die entsprechenden Positionen der Spielfiguren auf dem Brett visuell zu erfassen, um somit den nächsten Zug motorisch korrekt und strategisch sinnvoll auszuführen. Wie Sie sehen, braucht KI nicht immer eine physische Hülle, um Aktionen durchzuführen. Doch wenn es um Perception geht, ist das Zusammenspiel von Ingenieurs- und Programmierleistung gefragt.

Aber wie geht KI mit diesen Sinnen um? Wie können Agenten hören und sehen?

 

Spracherkennung und Hören

Auf die Thematik „Hören & Sprechen“ sind wir bereits in unserem gestrigen Artikel über Natural Language Processing (NLP) eingegangen.  Eine der größten Schwierigkeiten für KI ist es, die Natürlichkeit unserer menschlichen Sprache widerzugeben. Wie wir im gestrigen Beitrag schon erwähnt hatten, ist es für die Agenten kompliziert, den semantischen Gehalt von Aussagen richtig zu erfassen, was wiederum für uns simpel und intuitiv ist. Im Allgemeinen lässt sich jedoch feststellen, dass wir bereits in vielen Alltagssituationen mit NLP–Technologien in Berührung kommen.

Neben Siri, Apples virtuellem Smartphone-Assistenzsystem, existieren bereits weitere Lösungen von verschiedenen Anbietern. Eine weitere, vor allem in Filmen verbreitete Anwendung ist die autonome Musikkomposition von KI-Systemen. Beurteilen Sie am besten selbst eine der ersten maschinell erstellten Kompositionen: https://soundcloud.com/user-95265362

 

Sehen

Die Computervision, auch als das „Sehen“ des Computers bezeichnet, beinhaltet Bildsensorik, Bildverarbeitung, Bilderkennung und Bildverständnis. Jene Teilbereiche werden benötigt, damit KI Bildmaterial verarbeiten und somit die relevanten Daten herausfiltern kann. Hierfür existieren verschiedene Möglichkeiten. Die drei größten Kategorien sind Erkennung, Objekterkennung und Identifikation, die im Folgenden kurz erläutert werden sollen:

 

- Erkennung bedeutet im Grunde nichts anderes, als das Bild nach spezifischen Anhaltspunkten zu analysieren. Diese Technologie findet beispielsweise in der Medizin Anwendung, um gewisse Anomalien auf medizinischen Bildern identifizieren zu können.

- Objekterkennung spezialisiert sich, wie der Name schon sagt, auf die Lokalisierung eines bekannten Objektes innerhalb eines Objektraumes. So wird beispielsweise erkannt, ob sich ein Objekt in einem Bild befindet – und falls dies der Fall ist – kann dessen Position bestimmt werden.

- Bei der Identifikation geht es um die Erkennung einer bestimmten Instanz eines Objektes. Dies wird unter anderem durch Augenscanner, Fingerabdruckscanner, Handschrifterkennung oder Gesichtserkennung bewerkstelligt.

 

Wie sich hier bereits andeutet, geht Perception Hand in Hand mit NLP. Im weiteren Verlauf dieser Woche werden Sie schnell erkennen, dass alle Kategorien der KI stark miteinander verbunden sind und thematisch aufeinander aufbauen.

 

Sind Ihnen Anwendungsfelder bekannt, in denen uns Perception-Technologien bereits das Leben erleichtern?

 

  

Quellen

https://cis.temple.edu/~wangp/3203-AI/Lecture/IO-2.htm

https://www.tutorialspoint.com/artificial_intelligence/artificial_intelligent_systems.htm

http://artificialintelligence-notes.blogspot.de/2010/07/perception.html

http://hubbucket.co/research/artificial-intelligence-ai/

https://www.cs.hs-rm.de/~linn/fachsem0910/breki/157609_Breckheimer_KI_Vortrag.pdf

http://www.planet-wissen.de/technik/computer_und_roboter/kuenstliche_intelligenz/pwiekuenstlicheintelligenzundwahrnehmung100.html

https://en.wikipedia.org/wiki/Computer_vision#Typical_tasks

http://www.computervisionblog.com/2011/03/computer-vision-is-artificial.html

 

07.06.2017
  • perception
  • künstliche intelligenz

Kommentare

Diskutieren Sie mit der Community auf der Open-Innovation-Plattform