2 Planung eines Experiments

Vor einem Experiment müssen mehrere Überlegungen getätigt und Entschei- dungen getroffen werden. Welche Einflussfaktoren möchte ich untersuchen? Wie genau soll mein Experiment aussehen? Wie viele Messwiederholungen benötige ich? Welche Stichprobenanzahl benötige ich für welche Effektstärke?

2.1 Max-Kon-Min Prinzip

Wir versuchen für gewöhnlich, in unseren Experimenten bestimmte Effekte nachzuweisen. Stellen wir uns ein Experiment daher kurz anhand eines sehr zeitgemäßen Beispiels vor: Wir möchten manuell zwischen Radiosendern wechseln. Dabei ist die gewünschte Radiostation der Effekt den wir erreichen wollen und das Rauschen zwischen den einzelnen Stationen etwas, das wir minimieren wollen. Nur durch ein sensibles herumdrehen des Knopfes können wir dabei unser gewünschtes Ergebnis erreichen: ein optimales Verhältnis des Signals (der Musik des Radiosenders) zum Hintergrundrauschen (in der englischsprachigen Literatur werden Sie hierzu oft “signal-to-noise ratio” lesen können). Um unsere grauen Zellen noch zusätzlich zu fordern, stellen wir uns vor, dass der gewünschte Radiosender in Wien eine Frequenz von 92 MHz hat und in Innsbruck 87.6 MHz. Wir müssen also (1) das Signal maximieren, (2) für die für die Örtlichkeit korrekte Frequenz kontrollieren und (3) das Rauschen minimieren.

Was hat das jetzt mit der Experimentalpsychologie zu tun? Um einen spezifischen Effekt zu finden, sollten wir uns zunächst bewusst sein, was dieser Effekt denn an und für sich ist: das Variieren der abhängigen Variable in Abhängigkeit der jeweiligen Bedingung. Wir untersuchen also, ob die Varianz unserer Daten durch die von uns gewählten Bedingungen erklärt werden kann. Das klingt nun vielleicht weniger trivial, als es eigentlich ist. Die Varianz, die wir in den Daten beobachten (Gesamtvarianz) kann nämlich durch drei Quellen zustande kommen (siehe Abbildung 1): der Primärvarianz, der Sekundärvarianz und des Zufallsfehlers (Kerlinger 1973).

maxkonmin
Abbildung 1: Die Gesamtvarianz der AV in einem Experiment setzt sich aus der Primärvarianz und der Fehlervarianz zusammen. Die Fehlervarianz besteht dabei aus der Sekundärvarianz und dem Zufallsfehler.

2.1.1 Primärvarianz

Unter der Primärvarianz versteht man den Anteil der systematischen Varianz der durch die Variation der Experimentalbedingungen (UV) zustande kommt. In einem guten Experiment gilt es, diese Primärvarianz zu maximieren. Dies wird durch die Wahl von optimalen Faktoren und Faktorenstufen erreicht, die miteinander verglichen werden sollen. Ideal ist es hier, Extremstufen von Faktoren zu wählen, welche die Unterschiede zwischen den Bedingungen maximiert. Wenn Sie zum Beispiel demonstrieren wollen, dass kongruente Bedingungen in der Stroop-Aufgabe besonders hilfreich sind (beispielsweise das Wort “Rot”-in roter Farbe), dann vergleichen Sie diese Bedingung für gewöhnlich nicht mit einer neutralen Bedingung (beispielsweise das Wort “Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz”12 in roter Farbe) , sondern mit einer inkongruenten Bedingung (beispielsweise das Wort Blau“ in roter Farbe). Zu Faktoren werden Sie im gleichnamigen Abschnitt noch Näheres lernen.

2.1.2 Sekundärvarianz

Unter der Sekundärvarianz versteht man den Anteil systematischer Varianz, die durch nicht berücksichtigte und unkontrollierte Faktoren zustande kommt. Die Sekundärvarianz kann die Interpretation der gefundenen Ergebnisse erschweren bzw. im schlimmsten Falle sogar verunmöglichen. Stellen Sie sich folgendes Experiment vor: Wir wollen Geschlechtsunterschiede in den arithmetischen Fähigkeiten in einem Computerexperiment überprüfen, in dem die Versuchspersonen randomisiert Additionen, Subtraktionen, Multiplikationen und Divisionen durchführen sollen. Dafür rekrutieren Sie junge Frauen aus einem humanistisch ausgerichteten Gymnasium und junge Männer aus einer Höheren Technischen Lehranstalt (HTL). Ihre Ergebnisse suggerieren große Unterschiede in den mathematischen Kompetenzen zwischen den Geschlechtern. Kann man die Ergebnisse jedoch dahingehend interpretieren, dass Männer besser in Mathematik sind, als Frauen? Mitnichten! Eine Vielzahl an nicht berücksichtigten Variablen könnte diese Unterschiede erklären. Hier nur zwei wahrscheinliche höchst relevante Konfundierungen:

1. Selbstselektion: Es ist anzunehmen, dass sich technisch und mathematisch interessierte und begabte Personen eher für eine technische Schule entscheiden, als Personen, die sich eher für Sprachen begeistern.

2. Unterrichtsfächer: Schülerinnen und Schüler an einer HTL haben wesentlich mehr Unterrichtseinheiten, die sich mit Mathematik und verwandten Fächern beschäftigen, als Schülerinnen und Schüler an einem humanistischen Gymnasium. Das bedeutet klarerweise, dass Schülerinnen und Schüler an der HTL wesentlich mehr Übung in Arithmetik haben als jene, die ein humanistisches Gymnasium besuchen.

Sie sehen, die Interpretation des eben beschriebenen (und erfundenen) Ergebnisses ist streng genommen gar nicht möglich. Die gefundenen Unterschiede könnten genauso gut durch die Konfundierungen erklärt werden.

Kollinearität
Kollinearität beschreibt in der Statistik das Ausmaß eines Zusammenhanges zwischen zwei Variablen (spezifischer: UVs). Kollinearität sollte in Verfahren, wie etwa einer Regressionsanalyse tunlichst vermieden werden. Die Problematik sollte durch das oben genannte Beispiel ersichtlich sein: Korrelieren zwei Prädiktoren (etwa das Geschlecht und die Anzahl an Mathematikstunden) zu hoch miteinander, dann ist eine getrennte Interpretation der einzelnen Prädiktorvariablen in einem Regressionsmodell nicht möglich.

2.1.3 Zufallsfehler

Den Zufallsfehler kann man mit dem Messfehler aus der klassischen Testtheorie vergleichen und tatsächlich gibt es mehrere Gemeinsamkeiten zum Messfehler aus der klassischen Testtheorie:

  1. Der Erwartungswert, also jener Wert, den eine Variable im Mittel nach unendlich oft wiederholten Messungen annimmt, ist beim Messfehler 0. Ähnlich verhält es sich mit der Varianz. Wir werden die Sekundärvarianz realistischerweise wohl nie auf 0 bekommen, werfen Sie jedoch einmal einen Blick auf die Berechnung der Varianz:

\(var = \frac{\sum_{i=1}^{n}(x_i - \bar{x})}{n}\)

Anhand der Formel ist gut ersichtlich, dass die Größe der Varianz als eine Funktion der Stichprobengröße (n) abnimmt - je größer der Nenner wird, desto kleiner wird das Resultat (siehe Abbildung 2).

Trulli
Abbildung 2: Simulation zur Zunahme der Messgenauigkeit. Einer bis 1000 Werte werden zufällig aus einer Normalverteilung (N[75; 25]) gezogen und gemittelt. Je mehr Werte gezogen werden, desto präziser wird die Schätzung des tatsächlichen Mittelwerts einer Variable (hier: die rote Linie).
  1. Fast wichtiger als der erste Punkt: Der Zufallsfehler korreliert nicht mit dem gemessenen Effekt. Das bedeutet, dass der Zufallsfehler die Primärvarianz nicht systematisch beeinflusst, sondern lediglich Rauschen in den Daten ist, das es zu minimieren gilt, da eine Kontrolle des Zufalls ein gleichermaßen ermüdendes wie hoffnungsloses Unterfangen ist.

2.2 Faktoren

Selbstverständlich hängt ein experimentelles Design von der exakten Fragestellung ab. Mithilfe eines Experiments lassen sich Wenn-dann-Aussagen treffen. Stellen wir uns kurz folgende Forschungsfrage vor: Führen unbewusste Merkmalswiederholungen zu verbesserten Leistungen? Lassen wir vorerst außer Acht, dass diese Forschungsfrage bereits seit Langem intensiv be- und erforscht wird und überlegen wir uns ein angemessenes Design für diese Forschungsfrage:

Wir wollen von unseren Versuchspersonen Urteile über einfache Reize er fragen. Beispielsweise könnten wir unseren Versuchspersonen Hunde- und Katzenbilder präsentieren und die Versuchsperson soll angeben, ob es sich bei dem gezeigten Vierbeiner um ein Exemplar der Gattung Canis oder Felis handelt (den zoologischen Hintergrund der Versuchspersonen sollte man in den Instruktionen selbstverständlich berücksichtigen). So weit so einfach. Wie aber kann man unbewusst einen mit den beiden Kategorien verwandten Reiz präsentieren? Eine Methode wäre es, kurz vor den Tierbildern für sehr kurze Zeit ausgeschriebene Tierlaute zu präsentieren und danach zu maskieren, damit sie von den Versuchspersonen nicht bewusst wahrgenommen werden könnten. Diese kurz davor präsentierten Reize nennen wir in weiterer Folge Primes (zu Deutsch manchmal Bahnungsreize genannt). Geeignete Primes wären zum Beispiel Wuff und Miau.

Wenn wir nun die Primes und die Tierbilder zufällig zusammenwürfeln, sollten sich folgende Bedingungen gleich oft ergeben:

  1. Prime: Wuff – Zielreiz: Hund

  2. Prime: Miau – Zielreiz: Katze

  3. Prime: Miau – Zielreiz: Hund

  4. Prime: Wuff – Zielreiz: Katze

Wir haben nun zum einen kongruente Bedingungen (1. und 2.) und zum anderen inkongruente Bedingungen (3. und 4.). Wie Sie bereits gemerkt haben, stimmt die Spezies beider Reize (des Primes und des Zielreizes) in kongruenten Bedingungen überein, während sie in inkongruenten Bedingungennicht übereinstimmt.

Unsere Hypothese ist nun wie folgt: Wenn Versuchspersonen die subliminal präsentierten Primes verarbeiten, dann sollten kongruente Durchgänge zu signifikant besseren Leistungen (d.h., schnelleren Antworten und weniger Fehlern) führen, als inkongruente.

Behaupten wir nun auch noch, dass es einen Unterschied zwischen Katzen und Hunden insofern gibt, als dass mögliche Kongruenzeffekte lediglich für eine Spezies vermutet werden. Wir haben also ein 2 × 2-faktorielles Experiment:

1. Faktor: Spezies des Zielreizes (Hund oder Katze) 2. Faktor: Prime (kongruent oder inkongruent)

In der eben verwendeten und konventionellen Schreibweise beschreibt das × - Symbol, dass mehrere Faktoren miteinander kombiniert werden. Die exakte Zahl beschreibt die Anzahl der Faktorstufen. In unserem Beispiel haben wir zwei zweistufige Faktoren (Hund und Katze / kongruent und inkongruent). Wir könnten unser Experiment aber auch einfach in ein 3 × 2 Experiment verwandeln, in dem wir aus dem Faktor Spezies des Zielreizes einen dreistufigen Faktor machen (z.B. Hund, Katze oder Huhn). Die Anzahl der Faktorstufenkombinationen wird dabei stets gleich berechnet → wie es geschrieben wird.

Mit unseren zwei zweistufigen Faktoren hat unser Experiment 2 mal 2, also 4 mögliche Faktorstufen (Hund-kongruent, Hund-inkongruent, Katze-kongruent und Katze-inkongruent). Hätten wir ein 2 × 2 × 2 × 3 Experiment, hätte unser Experiment 24 Faktorstufenkombinationen.

2.3 Messwiederholungen

Sollten Sie schon einmal das zweifelhafte Vergnügen gehabt haben, an einem (verhaltens-)psychologischen Experiment teilzunehmen, werden Sie festgestellt haben, dass Sie in einem 2 × 2 - faktoriellen Design nicht einfach 4 oder in einem 2 × 2 × 2 × 3 faktoriellen Design 24 Durchgänge absolvieren. Im Gegenteil: viele Experimente scheinen eher die Relativitätstheorie überprüfen zu wollen und schauen, wie viel subjektiv empfundene Zeit in eine halbe oder volle Stunde passt. Sind wir Experimentalpsychologinnen und -psychologen Sadisten, die aus reinem Glück die Gefängnismauern von außen betrachten? Erstaunlicherweise: nein.

Wir kennen den Grund für die Notwendigkeit von Messwiederholungen schon aus dem Abschnitt zum Zufallsfehler. Nehmen wir dazu noch ein Beispiel: Stellen Sie sich vor, Sie wollen herausfinden, wie viel der oder die durchschnittliche Österreicher bzw. Österreicherin wiegt. Sie haben ein Messinstrument, um dieser Frage auf den Grund zu gehen, nämlich eine Waage. Behaupten wir jetzt einmal, dass das mittlere Gewicht der Österreicherinnen und Österreicher 75 kg ist und die Standardabweichung 25 kg beträgt. Sie sehen, es gibt einiges an Abweichung vom Mittel. Wenn Sie nur sich wiegen, könnte dieser einzelne Datenpunkt mehr oder minder stark vom mittleren Gewicht abweichen. Ihre Schätzung wird allerdings umso präziser, je mehr Österreicher und Österreicherinnen Sie wiegen (Abbildung 2).

Dieselbe Logik trifft auf die Messungen im psychologischen Experiment zu: jeder einzelne Tastendruck als Reaktion auf eine experimentelle Bedingung ist schlussendlich auch das Ergebnis vieler nicht kontrollierbarer Prozesse. Vielleicht war die Versuchsperson gerade abgelenkt, müde, mit den Gedanken wo anders und und und. Alle diese Umstände können die Messung ungenauer machen. Dieser Einfluss nicht kontrollierbarer Prozesse wird oft als Rauschen bezeichnet, während die Variation in den Daten, die durch einen tatsächlichen Effekt zustande kommt als Signal bezeichnet wird. Der Effekt nimmt systematisch Einfluss auf die Daten, während andere Prozesse, wie etwa blinzeln, gähnen oder sonstiges unsystematisch auf die Daten einwirkt. Das Ziel der Messwiederholungen ist daher, durch mehrere Messungen das Rauschen in den Daten heraus zu mitteln und das Signal besser vom Rauschen abzugrenzen.

Anders wie in Abbildung 2 messen wir in der Regel jedoch denselben Faktor nicht tausendmal innerhalb eines Experiments. Als eine Faustregel werden für gewöhnlich mindestens 25 bis 50 Messwiederholungen für Verhaltensexperimente geplant. Das bedeutet, dass jede einzelne Faktorstufenkombination mindestens 25 mal gemessen werden soll. Unser Hund-Katz-Experiment müsste daher aus mindestens 100 Durchgängen bestehen (4*25), während ein hypothetisches 2 × 2 × 2 × 3 Experiment aus mindestens 600 Durchgängen bestehen müsste.

Zu beachten ist, dass wir hier stets von komplett ausbalancierten Designs sprechen, in denen jede Bedingung gleich oft vorkommt. Möchten wir in unserem Hund-Katz-Experiment noch eine Wahrscheinlichkeitsmanipulation, sodass etwa die Wahrscheinlichkeit für einen Hund als Zielreiz doppelt so hoch ist, wie für eine Katze als Zielreiz, dann müsste die Katze 50 mal (25*kongruent + 25*inkongruent) gemessen werden, während der Hund 100 mal getestet werden müsste (50*kongruent + 50*inkongruent).

Messwiederholungen mit anderen experimentellen Methoden
Die Faustregel von 25 - 50 Messwiederholungen ist vorrangig in Verhal- tensexperimenten gültig. Bei anderen Methoden, wie beispielsweise der Elektroenzephalographie (EEG), sind andere Tatsachen zu berücksich- tigen: die neuronale Aktivität einiger weniger Neuronen von Interesse wird durch die Aktivität von umliegenden Neuronen überlagert. An- ders ausgedrückt: das Verhältnis von Signal zu Rauschen ist in EEG- Studien zu ungunsten des Signals ausgeprägt. Die Effekte, die man beispielsweise mittels ereigniskorrelierten Potenzialen (ERPs) messen möchte, sind oft im μV (Mikrovolt) Bereich, weshalb unsystematische Einflüsse besonders gründlich eliminiert werden müssen. Daher werden in EEG/ERP Experimenten 100 Messwiederholungen pro Bedingung angestrebt.
Die Anzahl an Messwiederholungen kann aber auch in Experimenten, die komplexere Analysen der Reaktionszeiten zur Folge haben, wesentlich höher als lediglich 25 bis 50 Messwiederholungen pro Faktorstufenkombination sein. Im sog. Drift Diffusion Modell von Ratcliff (1978)

2.4 Zwischen- vs. Innersubjektfaktoren

2.4.1 Zwischensubjektfaktoren

Wie Sie im letzten Abschnitt bemerkt haben, steigt die Anzahl der benötigten Durchgänge exponentiell mit den variierten Faktoren an. Selbst die freundlichste Versuchsperson wird nach etwa max. 1500 Versuchsdurchgängen ihre Kooperationswilligkeit verlieren. Eine Variante, dieses Problem zu umgehen ist die Verwendung eines Faktors als Zwischensubjektfaktors (engl. between-subjects): Eine Gruppe von Versuchspersonen ist in der Bedingung A, während eine andere Gruppe in Bedingung B ist.

Manchmal haben wir aber auch gar keine andere Wahl, als ein between-subjects Design zu verwenden, da die Versuchspersonen bereits vor dem Experiment einer bestimmten Gruppe zugehören. Wollen wir zum Beispiel Geschlechtsunterschiede untersuchen, können wir Versuchspersonen nicht zufällig einem Geschlecht zuordnen. Ein Nachteil eines between-subjects Designs ist, dass die Sekundärvarianz (systematische, aber unbedachte Varianz) nur durch eine wesentlich größere Stichprobe kontrolliert werden kann.

2.4.2 Innersubjektfaktoren

Das Problem der unkontrollierten Sekundärvarianz ist bei Innersubjektfaktoren (engl. within-subjects) weniger gegeben. In einem reinen within-subjects Design durchläuft jede Versuchsperson alle möglichen Faktorstufenkombinationen und dient daher beim Vergleich zwischen den Bedingungen gleichsam als eigene Vergleichsstichprobe. Um das zu verdeutlichen: neigt eine Person generell zu schnelleren Reaktionen, dann können Differenzen zwischen zwei Experimentalbedingungen trotz der schnelleren Antworttendenz miteinander verglichen werden, da die Versuchsperson zwar im Schnitt schneller sein mag, als andere Versuchspersonen, die Differenz zwischen den Bedingungen aber in etwa von der gleichen Größe sein kann.

2.5 Randomisierung und Balancierung

Die Randomisierung ist eine sehr mächtige Kontrolltechnik die uns die Kontrolle der Sekundärvarianz erlaubt. Randomisierung kann hier die zufällige Zuordnung von Versuchspersonen zu verschiedenen Versuchsbedingungen bedeuten, oder - falls es sich um ein Messwiederholungsdesign (within-subjects Design) handelt - die zufällige Reihenfolge der Versuchsbedingungen. Der Einfluss der Sekundärvarianz wird so zufällig auf die Versuchsbedingungen verteilt und beeinflusst deshalb die UV nicht auf systematische Weise (bei einer ausreichend großen Stichprobe; siehe Infobox). Folglich können wir also nur in einem randomisierten Versuchsdesign Veränderungen der AV kausal auf die Manipulation der UV zurückführen. In nicht-randomisierten Designs besteht prinzipiell immer die Möglichkeit, dass Veränderungen in der AV durch eine mit der UV korrelierte, verborgene Störvariable hervorgerufen wurden, nicht aber, oder nur zum Teil durch die UV selbst.

Betrachten wir das an einem Beispiel. Angenommen Sie wollen zwei verschiedene psychotherapeutische Techniken (UV) anhand ihrer Wirksamkeit miteinander vergleichen. Der leichteste Weg diese Fragestellung zu klären ist zwei Gruppen vergleichbarer (z.B. Alter, Geschlechtsverteilung, Störungsbild) PatientInnen zu bilden, von denen die eine Gruppe Therapieform A erhält und die andere Therapieform B. Nach einem festgelegten Zeitraum erfassen Sie die Symptomverbesserungen (AV). Nach unserer Abschlussmessung stellen Sie fest, dass es PatientInnen mit Therapieform A besser geht, als denen die mit Therapieform B behandelt wurden. Können Sie daraus nun schließen, dass A tatsächlich die bessere Behandlungsform ist? Die Beantwortung dieser Frage hängt ganz davon ab, wie die PatientInnen den Gruppen zugeteilt wurden!

Angenommen, die PatientInnen durften selbst wählen welcher Therapieform sie sich unterziehen lassen wollen. In diesem Fall könnten Sie keineswegs aus ihren Ergebnissen schließen, dass Therapieform A wirklich die bessere Behandlungsmethode ist. Sie könnten hier nämlich nicht klar differenzieren ob sich PatientInnen, die Therapieform A wählten sich nicht auch in weiteren Faktoren systematisch von PatientInnen unterscheiden, die sich für B entschieden haben. Es ist durchaus möglich, dass z.B. die motivierteren (oder reicheren, weniger stark betroffenen, jüngeren, mit geringerer Komorbidität. . . ) PatientInnen eher dazu neigen, sich für die arbeitsintensivere/teurere Therapieform A zu entscheiden. Da solche Faktoren den Erfolg einer Therapieform maßgeblich mitbestimmen, können die gefundenen Unterschiede zwischen den Therapieformen also auch auf diesen möglichen Störvariablen beruhen, ohne dass Therapieform A wirklich einen besseren Behandlungserfolg bringt als Therapieform B. Möglicherweise wäre der Behandlungserfolg in B sogar besser, wenn die Therapie mit ähnlich motivierten PatientInnen durchgeführt würde (Bröder 2011).

Die Randomisierung im Sinne einer echten Zufallsaufteilung aller ProbandInnen auf die Bedingungen verhindert, dass es bezüglich jeder erdenklichen Störvariable systematische Unterschiede zwischen den Versuchsbedingungen gibt. Die Randomisierung setzt also bei einer ausreichend großen Stichprobe die Korrelation der UV mit sämtlichen Störvariablen auf 0, bereinigt so das Signal vom Einfluss möglicher Störvariablen und lässt die Varianz in diesen Variablen als Rauschen in den Daten bemerkbar werden.

Das hört sich zwar sehr einfach an, in der experimentalpsychologischen Praxis gestaltet sich eine echte Randomisierung der Bedingungen und ProbandInnen aber häufig schwierig. Z.B. wird (hoffentlich) niemand von Ihnen auf die Idee kommen, Hirnläsionen zufällig in einer Stichprobe älterer Erwachsener erzeugen zu wollen, um deren Einfluss auf das Verhalten zu erforschen. Auch in weniger extremen Beispielen ist es häufig einfach nicht möglich Probanden zufällig einer Bedingung zuzuordnen (z.B. Untersuchungen zu Geschlecht, Bildung, Intelligenz. . . ). Auch ist es bei sehr kleinen Stichproben (z.B. bei sehr teuren neuropsychologischen Messungen wie fMRT) erstrebenswert aber häufig rein statistisch nicht ausreichend auf eine zufällige Verteilung gemäß dem zentralen Grenzwert Theorems zu vertrauen. In solchen quasi-experimentellen Studien ist es meist sinnvoll die Verteilung der ProbandInnen im Rahmen einer Parallelisierung selbst zu steuern und die Stichproben durch gezielte Auswahl der ProbandInnen anhand von zuvor bekannten Störvariablen (z.B. Alter, Geschlecht, Bildung. . . ) vergleichbar zu machen.

Auch in Messwiederholungsdesigns gestaltet sich eine echte Randomisierung mitunter schwierig. Diese Designs sind mitunter anfällig für einen zusätzlichen systematischen Störeinfluss, den Reihenfolgeeffekt. Dieser kann Ihnen in der Form von Ermüdungseffekten, Sensitivierungseffekten (stärkere Reaktion bei wiederholter Darbietung desselben Reizes), Carry-Over-Effekten (Effekte des vorherigen Reizes, die fortbestehen und nachfolgende Messungen beeinflussen), Lerneffekten (z.B. sind die Versuchspersonen in den Folgebedingungen schon mit dem Paradigma oder der Aufgabe vertraut) und noch vielen anderen Formen begegnen. Solche Reihenfolgeeffekte können, wenn nicht für sie kontrolliert wird, extrem starke Einflüsse auf die Leistung der Versuchspersonen haben (mitunter sogar größere Effekte als die eigentliche experimentelle Manipulation). Es ist deshalb wichtig, diese Effekte möglichst genau zu kontrollieren. Häufig ist es eine gute Idee, nicht alleine auf eine zufällige Verteilung zu vertrauen sondern die Versuchsbedingungen aktiv auszubalancieren (siehe Infobox unten). Das Ausbalancieren bedeutet dabei Versuchsdesigns mit allen möglichen Reihenfolgekombinationen der Versuchsbedingungen, des verwendeten Materials und anderer zuvor bekannter Störvariablen (z.B. verschiedene Versuchsleiter) zu bilden und diese Kombinationsbedingungen dann von einer möglichst exakt gleichen Anzahl von Versuchspersonen durchlaufen zu lassen. Da Sie dabei natürlich durch ökonomische Faktoren begrenzt sind, ist es hier aber auch wichtig, sich vor allem auf die wichtigsten Faktoren zu fokussieren und auch im vornherein möglichst ökonomische Versuchsdesigns mit einer möglichst geringen Anzahl an Faktorstufen zu planen.

Eine Randomisierung der Versuchsbedingungen und eine randomisierte Zu- teilung von Versuchspersonen auf die Versuchsbedingungen sind notwendige Voraussetzungen um eine Untersuchung als Experiment klassifizieren und eine Kausalität der gefundenen Effekte annehmen zu können. Durch einen zunehmenden Grad an Standardisierung können Sie den Messfehler in Ihren Untersuchungen minimieren und so eine klare und aussagekräftige Messung des Signals gewährleisten. Am besten gelingt das in einem Labor, in dem Sie als Forscher eine weitgehende Kontrolle über die begleitenden Faktoren haben. Die Abwägung ob diese Kontrolle auf Kosten der natürlicheren Umgebung eines Feld-Experiments Sinn macht, müssen Sie aber für jede Studie im Einzelfall entscheiden.

Randomisierung vs. Balancierung
Der Zufall ist - per Definition - unserer Kontrolle entzogen. Auch wenn die Wahrscheinlichkeit sehr gering ist, könnten wir beispielsweise bei einem Münzwurf fünf- oder zehnmal hintereinander “Zahl” werfen. Nur eine ausreichend große Ziehung zufälliger Werte nähert sich daher dem Erwartungswert (beim Münzwurf: 50%) an (Gesetz der großen Zahlen). Sollen Versuchspersonen also zwei Bedingungen durchlaufen, kann es sein, dass bei einer rein zufälligen Wahl der Reihenfolge der Bedingung 8 von 10 Versuchspersonen die Bedingung A vor der Bedingung B erledigen müssen. Eine Alternative zur Randomisierung stellt daher die Balancierung dar: Versuchspersonen werden anhand eines unwillkürlichen Merkmals der einen oder anderen Blockreihenfolge zugewiesen. Wichtig ist dabei, dass das entscheidende unwillkürliche Merkmal in keiner Weise mit dem untersuchten Effekt korreliert. Ein mögliches Merkmal, das oft zur Wahl der Blockreihenfolge verwendet wird, ist die Versuchspersonenzahl (gerade oder ungerade).


  1. Ja, das ist tatsächlich ein echtes Wort…↩︎