Theory of Visual Attention

Die Theory of Visual Attention (TVA)^[1]^[2] ist eine Theorie visueller Aufmerksamkeit, die mit Hilfe mathematischer Gleichungen formuliert ist. Durch ihre Komplexität kann sie viele psychologische Befunde erklären, auch solche aus Experimenten, die sich nicht mit visueller Aufmerksamkeit beschäftigen.

Die TVA ist eine vereinte Theorie des Erkennens (engl. „recognition“) und der Selektion. Während viele Theorien visueller Aufmerksamkeit diese Prozesse sowohl zeitlich als auch strukturell trennen, geht die TVA davon aus, dass beide Prozesse in einem vereinigten Mechanismus in Form eines Wettlaufs realisiert sind. Mit anderen Worten: Wenn ein Objekt im visuellen Feld erkannt wird, wird es gleichzeitig auch selektiert und vice versa.

Mit der Vereinigung von Selektion und Erkennen versucht die TVA die lange diskutierte Problematik aufzulösen, ob Selektion früh (d. h. vor dem Erkennen von Reizen, siehe Broadbent, 1958^[3]) oder spät (d. h. nach z. B. inhaltlicher Analyse der Reize, siehe Deutsch & Deutsch, 1963^[4]) stattfindet.

Die TVA erklärt Aufmerksamkeit durch zwei aufeinanderfolgende Prozesse, Filtern und Kategorisieren („pigeonholing“). Auf der ersten Stufe werden die perzeptorischen Merkmale repräsentiert und gewichtet, während auf der zweiten Stufe diese Merkmale kategorisiert werden (zum Beispiel „Objekt X hat Merkmal i“ oder „Objekt X gehört zur Kategorie A“).

Während des Filterns treten alle im visuellen Feld befindlichen Objekte in einer Art Wettlauf gegeneinander an, das sich durchsetzende Objekt kann daraufhin erst kategorisiert werden. Eine solche Kategorisierung bedeutet gleichzeitig, dass das Objekt in das visuelle Kurzzeitgedächtnis (VSTM, engl. „visual short term memory“) enkodiert wurde. Ist im VSTM kein Platz vorhanden, kann das Objekt nicht kategorisiert werden und wird daher nicht bewusst verarbeitet.

Filtern

Auf dieser ersten Stufe werden zunächst alle im rezeptiven Feld befindlichen Objekte gewichtet. Dabei ist das Gewicht eines Objektes $w_{x}$

$w_{x}=\sum _{j\in R}\eta (x,j)\cdot \pi _{j}$ ,

wobei

$R$ $R$ die Menge aller (visuellen) Kategorien ist
- eine visuelle Kategorie kann eine bestimmte Farbe, Form, Orientierung etc. sein
- alle Kategorien werden „auf gleicher Ebene“ berechnet, also nicht nach Dimensionen sortiert/gewichtet
$\eta (x,j)$ $\eta (x,j)$ die sensorische Evidenz dafür ist, dass das Objekt x zur Kategorie j gehört
- die sensorische Evidenz kann z. B. durch eine verschwommene Darstellung des Objektes verringert sein
- die sensorische Evidenz kann z. B. durch Ähnlichkeit zu beachtenden Kategorien auch erhöht sein
$\pi _{j}$ $\pi _{j}$ die Relevanz der Kategorie j für den Beobachter ist
- solche Kategorien, die für den Beobachter wichtiger sind, fallen mehr ins Gewicht

Somit wird top-down-Prozessen insofern Rechnung getragen, als die Relevanz einer bestimmten Kategorie für den Beobachter in die Gewichtung mit einfließt. Gleichzeitig werden durch die sensorische Evidenz auch bottom-up-Prozessen berücksichtigt.

Beispiele

Beispiel 1 Bei einer Suchaufgabe soll ein Proband angeben, welche rote Ziffern dargeboten werden. Als Distraktoren dienen rote Buchstaben sowie blaue Ziffern und Buchstaben.

Nun kann man das attentionale Gewicht dieser Objekte berechnen:

$w_{x}=\eta (Objekt-ist-rot)\cdot \pi _{rote-Objekte}+\eta (Objekt-ist-blau)\cdot \pi _{blaue-Objekte}$

Theoretisch müssten auch alle anderen Kategorien miteinfließen, sie werden hier der Einfachheit halber weggelassen, da ihre Relevanz 0 ist und sie daher keinen Einfluss auf die Werte haben.

In diesem einfachen Beispiel lassen sich die Gewichte der einzelnen Objekte leicht berechnen. Gehen wir zunächst davon aus, dass das Gewicht der Kategorie „rot“ 0,9 und die der Kategorie „blau“ 0,1 ist. Die sensorische Evidenz sei der Einfachheit halber 1 oder 0 (d. h. rot wird immer als rot wahrgenommen, blau nie als rot etc.).

$w_{roterBuchstabe}=1\cdot 0{,}9+0\cdot 0{,}1=0{,}9$
$w_{roteZiffer}=1\cdot 0{,}9+0\cdot 0{,}1=0{,}9$
$w_{blauerBuchstabe}=0\cdot 0{,}9+1\cdot 0{,}1=0{,}1$
$w_{blaueZiffer}=0\cdot 0{,}9+1\cdot 0{,}1=0{,}1$

Die blauen Objekte erhalten also nur ein sehr geringes Gewicht, während alle roten Objekte ein hohes Objekt Gewicht erhalten. Wichtig ist, dass hier Antwortkategorien wie „Ziffer“ oder „Buchstabe“ noch keine Rolle spielen, sondern nur Filterkategorien „rot“ oder „blau“.

Dieses Beispiel ist denkbar einfach, da nur Objekte einer Kategorie („rot“) zur Auswahl der Antwort berücksichtigt werden müssen. In Beispiel 2 werden nun verschiedene Kategorien zu berücksichtigen sein.

Beispiel 2 Bei einer Suchaufgabe soll ein Proband entschieden, ob ein rotes Dreieck auf der Spitze steht oder die Spitze nach oben zeigt. Als Distraktoren dienen blaue Dreiecke, blaue Kreise und rote Kreise, die gleichzeitig mit dem roten Dreieck dargeboten werden.

Nun kann man wiederum das attentionale Gewicht dieser Objekte berechnen:

$w_{x}=\eta (Objekt-ist-rot)\cdot \pi _{rote-Objekte}+\eta (Objekt-ist-Dreieck)\cdot \pi _{Dreiecke}+\eta (Objekt-ist-blau)\cdot \pi _{blaue-Objekte}+\eta (Objekt-ist-Kreis)\cdot \pi _{Kreise}$

Gehen wir davon aus, dass die Relevanz der Kategorie „rot“ 0,9, für „blau“ 0,1 für „Dreieck“ 0,6 und für „Kreis“ 0,01 ist. Die sensorische Evidenz sei der Einfachheit halber wieder 1 oder 0 (d. h. rot wird immer als rot wahrgenommen, ein Dreieck nie als Kreis etc.). Dadurch ergeben sich für die vier Objekte folgende attentionale Gewichte:

$w_{rotesDreieck}=1\cdot 0{,}9+1\cdot 0{,}6+0\cdot 0{,}1+0\cdot 0{,}01=1{,}5$
$w_{roterKreis}=1\cdot 0{,}9+0\cdot 0{,}6+0\cdot 0{,}1+1\cdot 0{,}01=0{,}91$
$w_{blauesDreieck}=0\cdot 0{,}9+1\cdot 0{,}6+1\cdot 0{,}1+0\cdot 0{,}01=0{,}7$
$w_{blauerKreis}=0\cdot 0{,}9+0\cdot 0{,}6+1\cdot 0{,}1+1\cdot 0{,}01=0{,}11$

Somit hat also das rote Dreieck das höchste Gewicht und wird mit größerer Wahrscheinlichkeit weiterverarbeitet als alle anderen im Sichtfeld befindlichen Objekte. Es steht allerdings noch keineswegs fest, welches Objekt das „Rennen“ gewinnt oder wie dieses kategorisiert wird. Dies wird im Kategorisierungsprozess ermittelt.

Kategorisierung

Im Rennen um Kategorisierung wird die Verarbeitungsgeschwindigkeit einer jeden Objektkategorisierung wie folgt berechnet: $v(x,i)=\eta (x,i)\cdot \beta _{i}\cdot {\frac {w_{x}}{\sum _{z\in S}w_{z}}}$

wobei

$v(x,i)$ $v(x,i)$ die Geschwindigkeit der Kategorisierung „Objekt x ist i“ ist
- theoretisch gibt es für jede Objekt-Kategorie-Kombination eine Verarbeitungsgeschwindigkeit
- die Verarbeitungsgeschwindigkeit entspricht der Wahrscheinlichkeit, dass das Objekt x als i kategorisiert wird (und somit in das VSTM enkodiert wird)
$\eta (x,i)$ die sensorische Evidenz dafür ist, dass das Objekt x zur Kategorie i gehört
$\beta _{i}$ $\beta _{i}$ eine wahrnehmungsbezogene Antwortverzerrung bezogen auf die Kategorie i ist
- $0\leq \beta _{i}\geq$
- solche Kategorien, die für die Antwortgabe relevant sind, werden höher gewichtet
${\frac {w_{x}}{\sum _{z\in S}w_{z}}}$ der Anteil des Gewichts von Objekt x am Gesamtgewicht aller Objekte ist

Man beachte, dass nicht jedes Objekt eine Verarbeitungsgeschwindigkeit hat, sondern jede Objekt-Kategorisierungs-Kombination. Es gibt also eine Verarbeitungsgeschwindigkeit für die Kategorisierung „Objekt x ist a“ und für die Kategorisierung „Objekt x ist b“. Jedoch wird tatsächlich das Objekt, dessen Objekt-Kategorisierungs-Kombination das Rennen gewinnt, auch in das VSTM enkodiert.

Beispiel

Dem obigen Beispiel 1 der visuellen Suchaufgabe folgend wird nun in der Kategorisierungsphase die Verarbeitungsgeschwindigkeit betrachtet, mit der die Kategorisierungen am „Rennen“ teilnehmen (Achtung: Nicht die Objekte selbst, sondern die Objekte mit einer bestimmten Objektkategorisierung konkurrieren um einen Platz im VSTM!). Das Gesamtgewicht $\sum _{z\in S}w_{z}$ ist in unserem Beispiel $0{,}9+0{,}9=1{,}8$ Somit ergibt sich als relatives Gewicht ${\frac {w_{x}}{\sum _{z\in S}w_{z}}}$ für die beiden roten Objekte ${\frac {0{,}9}{1{,}8}}={\frac {1}{2}}$ und für die beiden blauen Objekte ${\frac {0}{1{,}8}}=0$ .

Da die Aufgabe des Probanden darin besteht, anzugeben, welche(r) Buchstabe (unter den roten Objekten) zu finden ist, kann die Antwort des Probanden, insofern er sich an die Instruktionen hält, in eine der 26 (weil 26 verschiedene Buchstaben) möglichen Antwortkategorien fallen. Hier sind also nicht mehr Kategorie „rot“ und „blau“ von Bedeutung, sondern lediglich „a“, „b“, „c“ etc. Folglich sind 26 $\beta _{i}$ -Werte, z. B. $\beta _{a}$ und $\beta _{f}$ hoch, hingegen sind die $\beta _{i}$ -Werte für Ziffern (oder vollkommen andere Kategorien wie „Blume“) sehr niedrig.

Für eine solche Kategorisierung ist außerdem wiederum die physikalische Reizqualität $\eta {(x,i)}$ entscheidend. Zu beachten ist hier, dass beispielsweise eine „2“ einem „Z“ ähneln kann und somit eine relativ hohe sensorische Evidenz für eine der Antwortkategorien, nämlich „Z“ haben kann, obwohl es sich nicht um einen Zielreiz handelt.

Berechnen wir nun einige Verarbeitungsgeschwindigkeiten aus unserem Beispiel. Dabei sei die physikalische Reizqualität wieder perfekt und $\eta (x,i)$ somit 0 oder 1. Ausnahme sei in unserem Beispiel die „2“. Für sie gelte $\eta (2,z)=0,4$ . Die perzeptuelle Entscheidungsverzerrung $\beta _{i}$ sei für Buchstaben 0,8 und für Ziffern 0,05.

Damit ergibt sich:

$v_{\text{rotes a wird als „a“ kategorisiert}}=1\cdot 0{,}8\cdot {\frac {1}{2}}=0{,}4$
$v_{\text{rotes f wird als „a“ kategorisiert}}=0\cdot 0{,}8\cdot {\frac {1}{2}}=0$
$v_{\text{rote 3 wird als „a“ kategorisiert}}=0\cdot 0{,}8\cdot {\frac {1}{2}}=0$
$v_{\text{rote 3 wird als „3“ kategorisiert}}=1\cdot 0{,}05\cdot {\frac {1}{2}}=0{,}05$
$v_{\text{rotes a wird als „3“ kategorisiert}}=0\cdot 0{,}05\cdot {\frac {1}{2}}=0$
$v_{\text{blaues a wird als „a“ kategorisiert}}=1\cdot 0{,}8\cdot 0=0$
$v_{\text{blaue 3 wird als „3“ kategorisiert}}=1\cdot 0{,}05\cdot 0=0$
$v_{\text{rote 2 wird als „2“ kategorisiert}}=1\cdot 0{,}05\cdot {\frac {1}{2}}=0{,}025$
$v_{\text{rote 2 wird als „z“ kategorisiert}}=0,4\cdot 0{,}8\cdot {\frac {1}{2}}=0{,}32$

NTVA

2005 wurde die TVA zur NTVA (Neural Theory of Visual Attention) weiterentwickelt.^[5] Die zuvor kritisierte nicht vorhandene Erklärung der TVA auf neuronaler Ebene wurde hierbei hergestellt.

Einzelnachweise

↑ Claus Bundesen: A theory of visual attention. In: Psychological Review. Band 97, Nr. 4, 1990, ISSN 1939-1471, S. 523–547, doi:10.1037/0033-295x.97.4.523 (apa.org [abgerufen am 6. Juni 2018]).
↑ Claus Bundesen, Signe Vangkilde, Anders Petersen: Recent developments in a computational theory of visual attention (TVA). In: Vision Research. Band 116, November 2015, ISSN 0042-6989, S. 210–218, doi:10.1016/j.visres.2014.11.005 (elsevier.com [abgerufen am 6. Juni 2018]).
↑ D. E. Broadbent: Perception and communication. 1958, doi:10.1037/10037-000 (apa.org).
↑ J. A. Deutsch, D. Deutsch: Attention: Some theoretical considerations. In: Psychological Review. Band 70, Nr. 1, Januar 1963, ISSN 1939-1471, S. 80–90, doi:10.1037/h0039515 (apa.org).
↑ Claus Bundesen, Thomas Habekost, Søren Kyllingsbæk: A Neural Theory of Visual Attention: Bridging Cognition and Neurophysiology. In: Psychological Review. Band 112, Nr. 2, 2005, ISSN 1939-1471, S. 291–328, doi:10.1037/0033-295x.112.2.291 (apa.org [abgerufen am 6. Juni 2018]).

[1] Claus Bundesen: A theory of visual attention. In: Psychological Review. Band 97, Nr. 4, 1990, ISSN 1939-1471, S. 523–547, doi:10.1037/0033-295x.97.4.523 (apa.org [abgerufen am 6. Juni 2018]).

[2] Claus Bundesen, Signe Vangkilde, Anders Petersen: Recent developments in a computational theory of visual attention (TVA). In: Vision Research. Band 116, November 2015, ISSN 0042-6989, S. 210–218, doi:10.1016/j.visres.2014.11.005 (elsevier.com [abgerufen am 6. Juni 2018]).

[3] D. E. Broadbent: Perception and communication. 1958, doi:10.1037/10037-000 (apa.org).

[4] J. A. Deutsch, D. Deutsch: Attention: Some theoretical considerations. In: Psychological Review. Band 70, Nr. 1, Januar 1963, ISSN 1939-1471, S. 80–90, doi:10.1037/h0039515 (apa.org).

[5] Claus Bundesen, Thomas Habekost, Søren Kyllingsbæk: A Neural Theory of Visual Attention: Bridging Cognition and Neurophysiology. In: Psychological Review. Band 112, Nr. 2, 2005, ISSN 1939-1471, S. 291–328, doi:10.1037/0033-295x.112.2.291 (apa.org [abgerufen am 6. Juni 2018]).

[1]

[2]

[3]

[4]

[5]

Anonym

Suche

Theory of Visual Attention

Namensräume

Mehr

Seitenaktionen

Inhaltsverzeichnis

Filtern

Beispiele

Kategorisierung

Beispiel

NTVA

Einzelnachweise

Navigation

Navigation

Mitmachen

Wikiwerkzeuge

Wikiwerkzeuge

Anonym

Suche

Theory of Visual Attention

Filtern

Beispiele

Kategorisierung

Beispiel

NTVA

Einzelnachweise

Navigation

Wikiwerkzeuge

Seitenwerkzeuge

Weitere Projekte

Kategorien