9 Datenaufbearbeitung

Überblick zu diesem Kapitel
In diesem Kapitel werden Sie über den Hintergrund statistischer Verfahren, sowie über ihre Anwendung in jamovi lernen. Um die Analysen in den jeweiligen Kapiteln auch selbst nachvollziehen und nachrechnen zu können, werden die verwendeten Datensätze auf chbuesel.shinyapps.io/experimenterstools (Tutorials → OpenSesame) finden. So angenehm Statistiksoftware mit einer GUI auch sind (wie etwa jamovi, JASP oder SPSS), so wenig flexibel sind sie in der Anwendung (es sei denn man ist bereit, sich mit der den Softwares zugrundeliegenden Syntax abzuplagen). Daher wird zu Beginn dieses Kapitels darauf eingegangen, wie man Daten, die man nach dem Durchführen der Experimente von OpenSesame ausgehändigt bekommt, für die weiteren Analysen in jamovi (etc.) vorbereitet.

9.1 Rohdaten aus OpenSesame

Nach jeder einzelnen Erhebung bzw. nach jeder einzelnen Versuchsperson, die Sie testen, speichert OpenSesame die Ergebnisse unter jenem Dateipfad auf Ihrem PC, in dem sich Ihr OpenSesame-Experiment befindet. Standardmäßig benennt OpenSesame diese Dateien nach der Versuchspersonennummer, die die jeweilige Versuchsperson hatte. Geben Sie etwa im Dialogfenster nach dem Start des Experiments die Versuchspersonennummer 1 an, heißt die Datei mit den Ergebnissen der Versuchsperson “subject-1.csv”. In einer .csv -Datei, die Daten aus einem Experiment erhält, also in dem Zeilen und Spalten enthalten sind, werden Werte, die in unterschiedlichen Spalten sein sollen durch ein Komma getrennt (deshalb auch der Name comma separated values → CSV) und Reihen werden in separaten Zeilen dargestellt. CSV-Dateien können einfach mit Texteditoren (z.B. Notepad++) geöffnet werden oder lassen sich auch sehr einfach mit open source Alternativen zu Excel (etwa LibreOffice) öffnen. Mit etwas Geschick kann man CSV-Dateien jedoch auch in Excel öffnen.

Hat man es hinbekommen, die Daten in einer Darstellung zu öffnen, die Sinn ergibt, sehen die Daten aus wie in Abbildung 126 .

Trulli
Abbildung 1: Die ersten Zeilen des Datensatzes “posner.csv”, den Sie unter der oben genannten Adresse finden können. Jede Zeile enthält die Daten eines Versuchsdurchgangs und jede Spalte zeigt die Ausprägung einer bestimmten Variable, so wie sie in einem jeweiligen Durchgang war.



9.1.1 Fälle ausschließen

Auch wenn es verschwenderisch anmuten mag, wollen wir nicht immer alle Durchgänge analysieren und müssen daher einige Durchgänge von der Analyse ausschließen. Wie wir in Abbildung 1 sehen können, befinden sich im Datensatz posner noch die Übungsdurchgänge (Zeilen, in denen die Zellen in der Spalte practice “yes” enthalten). Diese Übungsdurchgänge wurden ursprünglich ja deshalb überhaupt durchgeführt, dass Versuchspersonen sich mit der Aufgabe vertraut machen können und wir dann in den Hauptdurchgängen nur jene kognitiven Prozesse messen, die uns interessieren und nicht etwa Prozesse, die mit der anfänglichen Unsicherheit über die Aufgabe verbunden sind (vgl. signal-to-noise-Verhältnis oben). Es ist daher nötig, jene Durchgänge, in denen die Variable practice die Ausprägung “yes” hat, aus unserem Datensatz zu entfernen. Dieser Vorgang ist prinzipiell auch sehr einfach per Hand zu erledigen (einfach die entsprechenden Zeilen in LibreOffice o.ä. markieren und löschen), jedoch ist dieses Vorgehen mitunter zeitintensiv und - wie die meisten nicht-automatisierten Arbeiten - fehleranfällig.

Auf chbuesel.shinyapps.io/experimenterstools finden Sie unter dem Reiter Data Management das Create Subsets-Tool27. Ich empfehle Ihnen, dass Sie sich den Beispieldatensatz zum Posner’schen Hinweisreizparadigma auf der ExperimentersToolbox herunterladen (Tutorials → OpenSesame → Data of Posner Cueing-Paradigm), damit Sie die weiteren Schritte selbst nachvollziehen können.

Welches Subset unserer Daten wollen wir nun auschließen und welches behalten? Alle Variablen sind für uns prinzipiell relevant:

  1. subject_nr gibt an, welche Versuchsperson die Durchgänge bearbeitet hat

  2. block gibt an, welchen Block die Versuchsperson in einem bestimmten Durchgang bearbeitet hat (central oder peripheral)

  3. validity gibt an, ob ein Durchgang valide oder invalide war

  4. practice gibt an, ob es sich um einen Übungs- oder einen Hauptdurchgang gehandelt hat (yes oder no)

  5. correct gibt an, ob der Durchgang korrekt oder inkorrekt beantwortet wurde (0 = inkorrekt, 1 = korrekt)

  6. response_time beinhaltet die RTs in Millisekunden

Bei correct und response_time handelt es sich um unsere AVs, während block und validity unsere UVs sind. Wir wollen nun also alle Durchgänge aus dem Datensatz entfernen, in denen die Variable practice die Ausprägung “yes” hatte, d.h. nur alle Durchgänge, die nicht Trainingsdurchgänge sind, sollen in unsere Analyse eingehen.

Öffnen wir nun das bereits angesprochene Subset-Tool in der ExperimentersToolbox. Abbildung 2 zeigt, mit welchem Bildschirm Sie begrüßt werden. Gehen wir nun Schritt für Schritt die Prozedur durch, mit der Sie Fälle aus Ihrem Datensatz ausschließen können.

Trulli
Abbildung 2: Der erste Abschnitt des Subset-Tools. Sie sehen bereits (unter Step 1) das Feld, in dem Sie die Daten hochladen können.



  1. Zunächst laden wir unseren Datensatz hoch. Bislang akzeptiert die ExperimentersToolbox nur .csv-Dateien. Verwenden wir dazu das Feld Choose File und wählen unsere Datei aus. Wenn wir unseren Datensatz posner.csv hochladen, wird uns eine Vorschau des Datensatzes gezeigt, damit wir kontrollieren können, dass sowohl die Spalten, als auch die Zeilen richtig eingelesen wurde. Korrekterweise sollte der Datensatz aussehen wie in Abbildung 3.
Trulli
Abbildung 3: Vorschau des hochgeladenen Datensatzes posner.csv. Wie wir sehen sind die Zeilen und Spalten korrekt eingelesen.



  1. Im zweiten und wichtigsten Schritt definieren wir jene Fälle, die im Datensatz bleiben sollen. Dafür braucht die ExperimentersToolbox mindestens drei Parameter: den Namen der Variable, eine Operation (is, is not, greater than, smaller than) und die Ausprägung der Variable. Wenn wir nun wollen, dass nur jene Durchgänge im Datensatz bleiben sollen, in denen die Variable practice die Ausprägung “no” hat, haben wir zwei Möglichkeiten, das umzusetzen: entweder practice is no oder practice is not yes. Versuchen wird das einmal aus und schauen, inwiefern sich die Vorschau des Datensatzes unten aussieht (Abbildung 4).

Prinzpiell gibt es die Möglichkeit, bis zu vier solcher Statements wie practice is no mit den Bool’schen Operatoren AND oder OR zu verbinden. Wollen wir beispielsweise nur Hauptdurchgänge aus dem Block peripheral im Datensatz lassen, könnten wir das mit dem Statement practice is no AND block is peripheral bewerkstelligen.

Trulli
Abbildung 4: Vorschau des modifizierten Datensatzes. In der Spalte practice ist nun nur noch die Ausprägung no zu sehen.



  1. Zu guter Letzt laden wir unseren modifizierten Datensatz herunter. Dieser modifizierte Datensatz wird im Download-Ordner mit dem Namen Data-subsetDatum.csv gespeichert. Diesen Datensatz können wir dann in weiterer Folge im Trim- und Long-to-Wide-Tool hochladen.

9.1.2 Daten trimmen

Bevor wir auf das Trimmen unserer Daten in der ExperimentersToolbox eingehen, beschäftigen wir uns mit der Logik hinter dem Trimmen.

Es wurde bereits öfter ausgeführt, dass wir einen kognitiven Prozess mittels RTs nur mit ausreichenden Messwiederholungen präzise messen können. Viele zusätzliche kognitiven Prozesse, die in jedem Moment im Menschen ablaufen, bringen ein Rauschen in die Daten, wobei es mitunter schwierig sein kann das Signal (unseren Effekt) von diesem Rauschen zu trennen. Aber auch sehr schlichte Irrtümer können zu problematischen Antworten führen. Das kann zum einen durch ein schlichtes Ausrutschen der Hand vorkommen, weshalb eine Antwort gegeben wird, bevor die eigentliche Aufgabe überhaupt erledigt werden konnte. Mitunter kann sich das in unrealistisch schnellen RTs äußern. Andererseits kann es sein, dass ich gerade an was anderes gedacht habe (“Warum hat mir die Ann-Jaquline-Marie-Hilde auf Tinder noch nicht zurückgeschrieben? Muss ich noch mehr vor dem Badezimmerspiegel flexen?”). Durch so eine Ablenkung kann es mitunter zu sehr langen RTs kommen, bei denen man nicht mehr realistischerweise davon ausgehen kann, dass die Versuchspersonen die Aufgabe von anderen Prozessen unbeeinflusst erledigt haben.

Somit ist es klar, dass man nicht schlicht alle RTs, die man gesammelt hat, auswerten sollte. Vielmehr sollte man die RTs sorgfältig von ungewollten Einflüssen befreien, um so das Signal vom Rauschen abzuheben. Um das zu erreichen gibt es zwei Prozeduren, die standardmäßig in der kognitionspsychologischen Forschung verwendet werden: Anhand fixierter Werte Fälle ausschließen, sowie anhand von Versuchspersonen- und Faktorstufenmittelwerten und -standardabweichung. Wir gehen zu jedem Punkt das Vorgehen in der ExperimentersToolbox durch, weshalb es empfehlenswert ist, gleich den Subset-Datensatz aus dem vorangegangenen Abschnitt in das Trim-Tool hochzuladen. Das bewerkstelligt man vollkommen gleich wie im Subset-Tool.

Fixe Cut-Off Werte
Dieses Vorgehen ist per se sehr einfach erklärt: Alle RTs, die unter einen fixierten Wert fallen werden ausgeschlossen und alle RTs die über einen zweiten fixierten Wert fallen werden ausgeschlossen. Wenn ich also nur RTs zwischen 300 und 800 ms28 analysieren möchte, schließe ich alle RTs, die nicht innerhalb dieses Bereiches liegen aus. Dieses Vorgehen wurde speziell in früherer Forschung verwendet, da es wenig rechenintensiv und mitunter sogar recht einfach händisch zu erledigen ist. Welche Cut-Off Werte jedoch genau gewählt werden, liegen oft im eigenen Ermessen. Zu Beginn ist es daher ratsam, sich an Vorgängerstudien zu orientieren und bei hinreichender Vergleichbarkeit dieselben Cut-Off Werte für das eigene Experiment zu verwenden.

In der ExperimentersToolbox geht man wie folgt vor:

  1. Zunächst gibt man den Namen der AV an, anhand deren Werten die Daten getrimmt werden sollen. In unserem Fall ist das response_time. Geben wir diese Variable also im Feld Dependent Variable an.

  2. Danach wählt man auf die Frage “Fixed or SDs?” die Option Fixed Cut-Offs (diese Option ist ohnehin bereits standardmäßig ausgewählt).

  3. Im Abschnitt Step 2a geben wir dann die beiden Cut-Off Werte an: Wenn RTs unter 300 ms ausgeschlossen werden sollen, dann ist der untere (engl. lower ) Cut-Off Wert 300 und wenn RTs üner 800 ms ausgeschlossen werden sollen, dann ist der obere (engl. upper ) Cut-Off Wert 800. Die Angaben in der ExperimentersToolbox sehen daher aus wie in Abbildung 5.

Hinweis: Die Vorschau des modifizierten Datensatzes wird dynamisch upgedated. Wenn in den ersten Zeilen des Datensatzes keine Zeilen aufgrund unserer Angaben ausgeschlossen werden, sehen wir logischerweise an der Vorschau des modifizierten Datensatzes keine Änderung. Allerdings findet sich unter der Vorschau des modifizierten Datensatzes eine Angabe darüber, wie viel Prozent der ursprünglichen Daten im neuen Datensatz nach dem Trimmen entfernt wird.

Trulli
Abbildung 5: Notwendige Angaben für das Verwenden von fixen Cut-Off Werten in der ExperimentersToolbox.



Vor- und Nachteile dieser Trimmmethode
Diese Methode des Trimmens hat zwei Vorteile, die bereits oben genannt wurden. Zum Einen ist sie recht einfach und straight-forward. Zudem bietet es sich an, mit dieser Methode Cut-Off Werte zu verwenden, die eventuell schon in anderen Forschungsarbeiten verwendet wurden.

Es gibt allerdings auch gewaltige Nachteile an dieser Methode: RTs aus Bedingungen, auf die besonders schnell bzw. besonders langsam reagiert wird, werden überproportional oft ausgeschlossen. Gleiches gilt auch auf der Ebene von Versuchspersonen: Manche Versuchspersonen sind schneller, andere sind langsamer. Die Datenmenge von besonders schnellen und besonders langsamen Versuchspersonen wird überproportional stärker reduziert, obwohl die Daten prinzipiell dieselbe Güte und Aussagekraft hätten.

Trimmen nach Mittelwerten und Standardabweichungen
Dieser Ansatz ist wesentlich flexibler als das Trimmen anhand fixierter Cut-Off Werte, jedoch um einiges komplexer - glücklicherweise allerdings nicht komplett unverständlich. In dieser Methode wird speziell den Kritikpunkten der Cut-Off Methode Rechnung getragen, indem Unterschiede zwischen Bedingungen und/oder Versuchspersonen nicht ignoriert werden. Stellen wir uns vor, die RTs der einzelnen Versuchspersonen in den einzelnen Bedingungen (etwa Versuchsperson Nummer 1 in einem validen Durchgang mit einem peripheren Hinweisreiz) sind annähernd normalverteilt29. Das bedeutet, man kann die Verteilung der RTs einer Versuchsperson innerhalb einer bestimmten Bedingung mit zwei Parametern beschreiben: dem Mittelwert und der Standardabweichung.

Die Logik dieser Prozedur ist nun, dass RTs, die mehr als eine bestimmte Anzahl an Standardabweichungen vom Mittelwert einer Person und/oder Bedingung abweichen, aus dem Datensatz ausgeschlossen werden. Auf diese Weise trägt man dem Umstand Rechnung, dass sich sowohl RTs von Personen, als auch der Bedingungen unterscheiden und nur Ausreißer, die weit von der Leistung der Person in einer bestimmten Bedingung abweichen, werden entfernt.

Dabei ist es aber nicht trivial, welche Anzahl an Standardabweichungen man wählt, ab der man RTs ausschließt. Verdeutlicht wird dies in Abbildung 6: je weniger Abweichung man vom Mittelwert zulässt, desto künstlicher wird die Trennung zwischen zwei Verteilungen (d.h., Bereiche, in denen sich RTs überlappen werden entfernt). Andererseits lässt man mitunter zuviel an Rauschen zu, wenn man ein zu liberales Auschlusskriterium wählt (z.B. drei oder vier Standardabweichungen vom Mittelwert). Häufig verwendete Auschlusskriterien sind 2 oder 2.5 Standardabweichungen vom Mittelwert. Und genau nach diesem geläufigen Kriterium werden wir nun unsere Daten trimmen. Dazu benötigen wir wieder unsere Daten, aus denen wir die Trainingsdurchgänge entfernt haben.

Trulli
Abbildung 6: Zwei Verteilungen mit den Mittelwerten 500 (schwarze) und 620 (grau) und einer Standardabweichung von 50. Die durchgehenden Linien sind die Mittelwerte und die gestrichelten Linien stellen eine Standardabweichung vom Mittelwert dar.



  1. Weiters geben wir noch die Anzahl der Standardabweichung an, ab der Durchgänge ausgeschlossen werden sollen. Wir nehmen in unserem Beispiel 2.5 Standardabweichungen und sehen, dass lediglich 0.88% der Durchgänge entfernt werden (siehe Abbildung 7). Es ist wichtig, eine gute Balance zwischen guter Ausreißerkontrolle und einem maximum an verwendbaren Daten zu finden. Auch wenn es hierzu keine festgelegten Regeln gibt, wäre ab einer 5%igen Ausschlussrate durch das Trimmen ein Überdenken der Auschlusskriterien angebracht.

  2. Laden wir den modifizierten Datensatz herunter. Dieser wird, wie bereits zuvor, in den Downloads gespeichert und standardmäßig data-trimmedDatum.csv genannt.

Trulli
Abbildung 7: Unsere Angaben für das Verwenden von Mittelwerten und Standardabweichungen zum Trimmen in der ExperimentersToolbox.



9.1.3 Lang- und Weitformat

Die Daten, so wie wir sie von OpenSesame ausgegeben bekommen sind im Langformat. Langformat bedeutet, dass jede Zeile in der Tabelle einer Messung bzw. einem Durchgang entspricht und die Variablen in den einzelnen Spalten gelistet werden. Denken wir zurück an Abbildung 7: Im ersten Durchgang, der von Versuchsperson 1 [subject_nr] erledigt wurde, wurde ein invalider [validity] peripherer [block] Hinweisreiz präsentiert, der eine RT von 574 ms [response_time] zur Folge hatte und korrekt [correct] beantwortet wurde. In Durchgang 2, der wieder von Versuchsperson 1 bearbeitet wurde, wurde ein valider peripherer Hinweisreiz präsentiert und die RT betrug 421 ms und eine korrekte Antwort wurde gegeben. Und so weiter und so fort. Manche statistische Softwares und Programmiersprachen können mit diesem Format schon sehr gut umgehen (beispielsweise R). SPSS, JASP und jamovi brauchen jedoch (zumindest für Messwiederholungsvarianzanalysen) Daten, die im Weitformat sind. Im Weitformat gibt es pro Versuchsperson lediglich eine Zeile und jede Spalte repräsentiert den Mittelwert einer spezifischen Faktorstufenkombination (valide/peripher, valide/zentral,…). Die Mittelwerte können dabei die mittleren RTs, die mittleren Fehlerraten oder ähnliches sein. Vielleicht könnte eine solche Transformation der/die eine oder andere von Ihnen schon in Excel oder ähnlichem bewerkstelligen. Jedoch wird die Ermittlung der Faktorstufenmittelwerte noch durch einen weiteren Umstand erschwert: von den RTs werden für gewöhnlich nämlich nur jene in die Analyse miteinbezogen, die aus korrekt bearbeiteten Durchgängen stammen30. Wir müssten also zunächst alle Durchgänge, in denen die Variable correct den Wert 0 hat, von unseren Daten ausschließen, dann die Mittelwerte der RTs jeder Faktorstufenkombination für jede Versuchsperson berechnen, danach wieder alle Durchgänge (auch die inkorrekten) mit in den Datensatz aufnehmen, um danach die mittleren Fehlerraten jeder Faktorstufenkombination für jede Versuchsperson zu ermitteln.

Glücklicherweise scheint einer der Autoren dieses Skripts so gar keine Idee davon zu haben, was die schönen Dinge des Lebens sind und wie man ihnen frönen könnte. Daher hat er sich hingesetzt und alle diese Operationen im Long-to-Wide-Tool in der ExperimentersToolbox automatisiert, nur um Sie nun an seinem Leid teilhaben lassen zu können. Wie süß von ihm.

Gehen wir nun also Schritt für Schritt durch, wie Sie ihre Daten einfach mit der ExperimentersToolbox vom Lang- ins Weitformat transformieren können.

  1. Laden Sie zunächst ihren getrimmten Datensatz (siehe letzten Abschnitt) an der dafür vorgesehen Stelle hoch. Sie sehen an der gewohnten Stelle wieder die Vorschau des hochgeladenen Datensatzes.

  2. Im zweiten Schritt spezifizieren Sie, ob Sie die Faktorstufenmittelwerte oder -mediane ausgegeben bekommen wollen und ob Sie inkorrekte Durchgänge in den RT-Mittelwerten ein- oder ausschließen wollen. Wir wählen die Option mean und yes.

  3. Danach sagen wir der ExperimentersToolbox, wie unsere RT-Variable heißt. In unserem Fall ist das die Variable response_time. Da wir inkorrekte Durchgänge von den RTs auschließen wollen, müssen wir auch angeben, welche Variable angibt, ob die Antwort in einem Durchgang korrekt oder inkorrekt war. In unserem Fall ist das die Variable cor- rect. Nur anhand des Variablennamens weiß die ExperimentersToolbox jedoch noch nicht, wie ein inkorrekter Durchgang gekennzeichnet wird. OpenSesame loggt inkorrekte Durchgänge als correct = 0, daher geben wir im Feld How is an incorrect trial logged? den Wert 0 ein (siehe Abbildung 8).

Trulli
Abbildung 8: Unsere Angaben zu den abhängigen Variablen.



  1. Step 4 übergehen wir für den Moment und belassen die Einstellungen so, wie sie die ExperimentersToolbox für uns bereitstellt.

  2. Im nächsten Schritt geben wir, ähnlich wie beim Trimmen nach Standardabweichungen, die Variablen an, von denen uns die Faktorstufenmittelwerte interessieren. Wichtig ist jedoch, dass wir auch die Variable angeben, welche die unterschiedlichen Versuchspersonen angeben (subject_nr ; ansonsten hätte unser transformierter Datensatz lediglich eine Zeile, da nicht nach Versuchspersonen getrennt wurde). Uns interessieren die Faktorstufenmittelwerte von block und validity, daher sollten unsere spezifizierten Variablen wie in Abbildung 9 aussehen.

Trulli
Abbildung 9: Unsere Angaben für die Berechnung der Faktorstufenmittelwerte.



  1. Wir sehen wieder, dass sich die Vorschau unseres modifizierten Datensatzes dynamisch updated. Wenn alle Variablennamen korrekt (d.h. auch ohne Tippfehler) angegeben wurden, sollten die ersten paar Spalten aussehen wie in Abbildung 10. Wir sehen, dass es nun mittlere RTs für jede einzelne Faktorstufe für jede Versuchsperson gibt. Zu- dem werden die mittleren Fehlerraten (in Prozent) und die arksinus-transformierten Fehlerraten der einzelnen Faktorstufen gelistet.
Trulli
Abbildung 10: Vorschau des transformierten Datensatzes.



  1. Laden wir unseren transformierten Datensatz herunter. Der Dateiname wird automatisch data-transformedDatum.csv sein.

Arksinus-transformierte Fehlerraten
Für gewöhnlich führen vorteilhafte Durchgänge (etwa valide Hinweisreize, sofern sie die Aufmerksamkeit anziehen) zu schnelleren RTs und weniger Fehlern. Wenn valide Hinweisreize zu schnelleren RTs und zu mehr Fehlern führen, könnten Versuchspersonen strategisch abgewogen haben, dass sie lieber schneller antworten und dafür mehr Fehler in Kauf nehmen. Umgekehrt könnte es sein, dass unter bestimmten Bedingungen langsamer geantwortet wird, um Fehler zu vermeiden. In beiden Fällen spielen also strategische Überlegungen (ob implizit oder explizit) eine Rolle und nicht nur der Effekt, den wir untersuchen wollen. Speed-Accuracy-Trade-Offs erschweren eine korrekte Interpretation der Daten also ungemein - wenn sie sie nicht gar unmöglich machen. Um solche Trade-Offs auschließen zu können, werden auch meist die Fehlerraten der einzelnen Faktorstufen analysiert. Um die Analysen von RTs und Fehlerraten möglichst vergleichbar zu gestalten, werden bevorzugt dieselben Analysemethoden verwendet (t-Tests, ANOVAs, etc.). Fehlerraten sind allerdings in zweierlei Hinsicht sehr ungeeignet, um mit ihnen frequentistische Analysen, wie die eben genannten, durchzuführen: zum Einen sind sie nicht metrisch, sondern dichotom (korrekt oder inkorrekt). Mit solchen Daten beispielsweise t-Tests zu rechnen kommt zwar in der Literatur manchmal vor, verrät allerdings mehr über die statistischen Fertigkeiten der Autorinnen und Autoren, als über die Datenlage. Zum Anderen gibt es in den Fehlerraten relativ wenig Streuung: Versuchspersonen, die ca. 20-40% der Durchgänge falsch erledigt haben, werden für gewöhnlich aus der Analyse ausgeschlossen, weil sie die Aufgabe nicht effizient erledigen konnten oder gar nur geraten haben. Das bedeutet, dass nur Versuchspersonen übrig bleiben, die maximal 20% Fehler haben. Die Daten sind also relativ einseitig verteilt. Um diese Probleme (mehr oder weniger) in den Griff zu bekommen und identische Analysen zu den RTs zu erlauben, werden die Fehlerraten so transformiert, dass sie in etwa eine Normalverteilung haben (was eine wohlbekannte und wichtige Voraussetzung für parametrische Verfahren ist). Die Formel für diese Transformation lautet wie folgt:
\(Fehlerrate_{transformiert} = asin(\sqrt{Fehlerrate})\)
Eine anstrengende Tatsache beim Berichten der Ergebnisse ist jedoch, dass die Analyse mit den transformierten Fehlerraten durchgeführt werden muss, berichtet werden jedoch die Fehlerraten, da sie um einiges leichter interpretierbar sind, als arksinus-transformierte Fehlerraten.

Checkliste für das Verarbeiten und Vorbereiten der Daten
* Wie viele Fehler einer Versuchsperson akzeptiere ich, bevor ich sie von der Analyse ausschließe?
* Welche Fälle schließe ich bereits im Vorhinein von der Analyse aus? (Trainingsdurchgänge, spezifische Blöcke usw.)
* Welche Variablen sind für meine Analyse interessant?
+ Habe ich nach diesen Variablen getrimmt (wenn der Ansatz nach Standardabweichungen verwendet wird)?
+ Habe ich nach diesen Variablen transformiert?
* Wie trimme ich meine Daten?
+ Fixe Cut-Off Werte?
- Welche Werte verwende ich und gibt es dafür einen Präzedenzfall in der Literatur?
+ Mittelwerte und Standardabweichung?
- Wieviele Standardabweichungen verwende ich und gibt es dafür einen Präzedenzfall in der Literatur?

Bacon, William F., and Howard E. Egeth. 1994. “Overriding Stimulus-Driven Attentional Capture.” Perception & Psychophysics 55 (5): 485–96. https://doi.org/10.3758/bf03205306.

Bröder, Arndt. 2011. Versuchsplanung Und Experimentelles Praktikum. Hogrefe Verlag.

Desimone, Robert, and John Duncan. 1995. “Neural Mechanisms of Selective Visual Attention.” Annual Review of Neuroscience 18 (1): 193–222. https://doi.org/10.1146/annurev.ne.18.030195.001205.

Dieciuc, Michael A., Nelson A. Roque, and Walter R. Boot. 2019. “The Spatial Dynamics of Mouse-Tracking Reveal That Attention Capture Is Stimulus-Driven Rather Than Contingent Upon Top-down Goals.” Journal of Experimental Psychology: Human Perception and Performance 45 (10): 1285–90.

Donders, F. C. 1969. “On the Speed of Mental Processes.” Acta Psychologica 30: 412–31. https://doi.org/10.1016/0001-6918(69)90065-1.

Frătescu, Marcella, Dirk Van Moorselaar, and Sebastiaan Mathôt. 2019. “Can You Have Multiple Attentional Templates? Large-Scale Replications of van Moorselaar, Theeuwes, and Olivers (2014) and Hollingworth and Beck (2016).” Attention, Perception, & Psychophysics 81 (8): 2700–2709.

Hatfield, Gary. 2002. “Psychology, Philosophy, and Cognitive Science: Reflections on the History and Philosophy of Experimental Psychology.” Mind & Language 17 (3): 207–32. https://doi.org/10.1111/1468-0017.00196.

Kerlinger, F. N. 1973. “Foundation of Behavioural Research (2ndEdn.).” New York: Reinhard and Winston.

Mandler, George. 2006. A History of Modern Experimental Psychology. The MIT Press. https://doi.org/10.7551/mitpress/3542.001.0001.

Mathôt, Sebastiaan, Daniel Schreij, and Jan Theeuwes. 2012. “OpenSesame: An Open-Source, Graphical Experiment Builder for the Social Sciences.” Behavior Research Methods 44 (2): 314–24.

Ratcliff, Roger. 1978. “A Theory of Memory Retrieval.” Psychological Review 5 (2): 59–108. https://doi.org/10.1037/0033-295x.85.2.59.

Theeuwes, Jan. 1991. “Cross-Dimensional Perceptual Selectivity.” Perception & Psychophysics 50 (2): 184–93. https://doi.org/10.3758/bf03212219.

———. 1992. “Perceptual Selectivity for Color and Form.” Perception & Psychophysics 51 (6): 599–606. https://doi.org/10.3758/bf03211656.

Treisman, Anne M., and Garry Gelade. 1980. “A Feature-Integration Theory of Attention.” Cognitive Psychology 12 (1): 97–136. https://doi.org/10.1016/0010-0285(80)90005-5.

Wang, Benchi, and Jan Theeuwes. 2018. “Statistical Regularities Modulate Attentional Capture.” Journal of Experimental Psychology: Human Perception and Performance 44 (1): 13–17. https://doi.org/10.1037/xhp0000472.

Watson, John B. 1913. “Psychology as the Behaviorist Views It.” Psychological Review 20 (2): 158–77. https://doi.org/10.1037/h0074428.

Zhou, Cherie, Monicque M. Lorist, and Sebastiaan Mathôt. 2020. “Concurrent Guidance of Attention by Multiple Working Memory Items: Behavioral and Computational Evidence.” Attention, Perception, & Psychophysics 82 (6): 2950–62. https://doi.org/10.3758/s13414-020-02048-5.


  1. In diesem Datensatz sind bereits Daten von 25 (fiktiven) Versuchspersonen zusammengefügt. Wenn Sie selbst ein Experiment durchführen, müssen Sie ebenso die Datensätze ihrer einzelnen Versuchspersonen in einem Datensatz zusammenfügen (einfach mittels copy-paste, wobei die Variablennamen in der obersten Zeile im neuen Datensatz nur einmal vorhanden sein dürfen).↩︎

  2. Gelegentlich kann es sein, dass sich dieses Tool nicht gleich öffnet, wenn Sie es anklicken. In dem Fall reicht es aber, wenn sie eine beliebige andere Seite auf ExperimentersTools öffnen und es danach nochmals versuchen.↩︎

  3. Diese Werte werden hier nur für Anschauungszwecke verwendet. Für gewöhnlich werden weiter auseinanderliegende Werte verwendet - und man arbeitet nicht mit simulierten Datensätzen mit einer kleinen Streuung.↩︎

  4. Um genau zu sein: die meisten RTs folgen einer Ex-Gauß-Verteilung aber für den Rahmen hier vergessen wir diese Korinthen… mal schnell wieder.↩︎

  5. Auch wenn dieses Vorgehen die konventionelle Methode ist, gibt es auch einiges an Kritik daran. Es kann nämlich zum einen argumentiert werden, dass RTs auf fehlerhaft beantworteten Durchgängen ebenso spannend sein können und, noch wichtiger, dass das Ausschließen von inkorrekten Durchgängen die Mittelwerte so verzerren können, dass die RT-Mittelwerte nicht mehr repräsentativ für die jeweilige Performance sein könnten. Alternativen wie die Kaplan-Meier Methode sind daher auch für RT-Daten im Gespräch.↩︎