Aus der Serie "Doktorarbeiten mit methodischen Mängeln": Max und Murat

**kleiner gruener frosch**

In den letzten Wochen wurde wieder mal eine nette Studie aus einer Dotkorarbeit veröffentlich. Es ging um die unterschiedliche Beurteilung von "Max" und "Murat" in einem Diktat. Hier ein Link auf den Artikel auf https://www.welt.de/vermischtes/ar…te-als-Max.html.

Schlussfolgerung der Studie aus einer Veröffentlichung der Doktorantin:

Zitat

Die Ergebnisse beider Studien deuten an, dass die angestrebte Leistungsgerechtigkeit im Hinblick der Bewertung von Schülerinnen und Schülern mit Migrationshintergrund noch nicht erreicht wurde. Die gute Nachricht ist allerdings, dass Lehrkräfte etwas dagegen tun können. So können beispielsweise im Vorhinein verschriftlichte Kriterien zur Zuordnung von Leistung zu Noten (z. B. Fehlertabellen) helfen, eine gerechtere Notenvergabepraxis zu erreichen.

Wie lief die Studie ab:

Zitat

Ein Teil der Studienteilnehmenden erhielt ein Diktat, welches angeblich von einem Schüler namens Max stammte, während der andere Teil ein Diktat von Murat erhielt. Die Fehlerzahl in beiden Diktaten war identisch und den Teilnehmenden gelang es in beiden Fällen gut, die Fehler zu identifizieren

Was lernen wir aus der Studie: "Verschiedene Lehramtsstudenten nutzen für die Bewertung von Diktaten eigene Fehlerquotienten und Bewertungsraster."
Was lernen wir aus der Studie nicht: "Verschiedene Kinder werden von ein und derselben Lehrperson unterschiedlich bewertet."

*kopfschüttel*

Wollsocken80

Nein, so ist es nicht. Ich kenne jemanden, der dort im Institut arbeitet, persönlich. Die Ergebnisse sind signifikant.

Mikael

Zitat

Nun wollen die Mannheimer Bildungswissenschaftler untersuchen, wie die Urteilsprozesse von Lehrern bei der Notenvergabe ablaufen und was die Gründe dafür sind, dass sie Schüler so unterschiedlich bewerten.

Nun ja, wäre das Ergebnis nicht "statistisch signifikant" wären die "Forscher" wohl jetzt arbeitlos. Aber so sieht man selbstverständlich "weiteren Forschungsbedarf"...

Gruß !

Wollsocken80

Was meinst Du mit "Forscher" in Anführungsstrichen? Es handelt sich hier um die Ergebnisse einer einzigen Doktorarbeit, die in einem grösseren Kontext zu sehen sind. So funktioniert Forschung in allen Fachbereichen. Die Ergebnisse sind signifikant, jedoch nicht repräsentativ, weil die Stichprobe zu klein war. Das geht aus der Studie aber auch eindeutig hervor. Der Spiegel erwähnt das sogar, während Die Welt das schon wieder unter den Tisch fallen lässt.

Mikael

Ohne die Studie im Detail zu kennen, sollten man beim Glauben an "statistische Signifikanz" sehr vorsichtig sein:

https://www.spektrum.de/news/statistik…-fallen/1224727

Gruß !

Wollsocken80

Und was willst Du damit sagen? Die Gruppe in Mannheim beschäftigt schon seit längerem mit dem Phänomen, das ist nicht die erste Studie die zu diesem Thema veröffentlicht wird. Reproduzierbarkeit ist hier kein Problem. Die Formulierung "deutet darauf hin" ist auch sehr vorsichtig und angemessen. Was die Medien daraus machen, ist ja eine andere Sache.

Zitat von Mikael

Ohne die Studie im Detail zu kennen

Wenn es Dich interessiert, kann ich Genaueres erfragen.

Bevor man übrigens über "methodische Mängel" schimpft, sollte man sich mal klar werden, was im Rahmen einer Dissertation möglich ist und was nicht. Auch der Tag eines Doktoranden hat nur 24 h und die Projektlaufzeiten sind in der Regel auf 3 Jahre begrenzt. Sämtliche Fehlversuche mit eingeschlossen natürlich.

Mikael

Ich will damit gar nichts sagen, eine Meinung über Sinn oder Unsinn der inflationär ansteigenden Zahl empirischer Studien im Bereich der Pädagogik kann sich ja jeder selbst bilden.

Zitat von Wollsocken80

Bevor man übrigens über "methodische Mängel" schimpft, ...

Das habe ich nicht getan, ich habe nur gesagt, dass man generell den Begriff "statistische Signifikanz" hinterfragen sollte, siehe den Spektrum-Artikel!

Gruß !

Caro07

Ich verstehe den Praxisbezug der Studie nicht. Wir haben schon seit Jahrzehnten eine Fehler - Notenzuordnung. Der gibt die Benotung vor. Gerade bei Diktaten kann man gar nicht ungerecht Fehler anstreichen.

Dass man Studenten die Fehler-Notenzuteilung frei wählen lässt, hat hier nichts mit dem Praxisbezug zu tun. Allerdings kann man an dieser fiktiven Situation schon Vorurteile herauslesen.

Eine ungerechte Benotung bei der Rechtschreibung wird in der Praxis nicht erfolgen, weil für die ganze Klasse ein Kriterienkatalog gilt. Die Schrift darf bei uns gar nicht in der Rechtschreibung bewertet werden, es sei denn, sie ist unleserlich, dann kann man das Wort nicht lesen und ist deswegen ein Fehler.

**kleiner gruener frosch**

Zitat

Allerdings kann man an dieser fiktiven Situation schon Vorurteile herauslesen.

Kann man natürlich. Man kann nur nicht mit Sicherheit sagen, dass Murat schlechter bewertet wird, weil er "Murat" heißt oder weil der Student kein Gefühl für die Bewertungsskala hat. Beides wäre denkbar.

Jens_03

Einfachste Erklärung:
Ein Teilnehmer hat 60 von 100 Punkten in einer Klassenarbeit erreicht.

IHK-Schlüssel = 3,9
Abikurse unserer Nachbarschule = 3,1
Uni-Notenschlüssel = 3,3

Wollsocken80

Ach Leute... Ihr glaubt ja wohl selber nicht, dass rein zufällig alle Studenten in der Murat-Gruppe genau den einen und die Studenten in der Max-Gruppe genau den anderen Bewertungsschlüssel verwendet haben. Bei einer randomisierten Zuteilung der Probanden auf die beiden Gruppen ist das gar nicht möglich.

Anja82

Hatte denn die Muratgruppe auch eine Maxarbeit und hat da bewusst den besseren Schlüssel benutzt? Wieso wählt man überhaupt unterschiedliche Schlüssel. Bei uns sind die vorgegeben, einer!

**kleiner gruener frosch**

Wollsocken: Das glaubt ja auch keiner. Es waren bestimmt unterschiedliche Schlüssel/Maßstäbe, die jeder sich ausgedacht hat.

@Anja, nein. Max-Gruppe hatte nur die Arbeit von Max.

kl. gr. frosch

Jens_03

Nein, aber MD/SD sind meiner Kenntnis nach bei ordinalskalierten Auswertungen nicht zulässig. Mal werden, laut Paper, die Probanden mit einem Aushang und durch persönlichen Kontakt rangeholt, dann wieder nur durch persönlichen Kontakt. Max. 50 Leute pro Kohorte sind nicht gerade viel und erklären die sehr geringen Unterschiede. Zumal die in der Welt falsch zitiert sind. Der Unterschied zwischen 1,87 und 2,03 sowie 3,64 und 4,15 ist nicht sehr groß (https://www.frontiersin.org/files/Articles…-00481-t001.jpg). Gehen wir von den Erkenntnissen der Sozialforschung aus, dann ist der Unterschied zwischen der 1,0 und der 4,4 geringer als der zwischen der 4,4 und der 4,5 - das eine ist "bestanden", das andere ist "durchgefallen". Alles Punkte, die man berücksichtigen muss. Und das ist hierbei nicht geschehen.

Und eine gewisse Form von Notenschlüssel wird jeder im Kopf haben - bedingt durch die vorhandenen Vorerfahrungen.

Wollsocken80

Ja natürlich. Das ist ja auch die Quintessenz der Studie. Hier wird aber behauptet die Ergebnisse liessen sich allein darauf zurückführen und das ist gar nicht möglich. Die Probanden hatten sich eben nicht zuerst für den Bewertungsschlüssel entschieden und dann korrigiert, wie es sein sollte, sondern offensichtlich andersrum. Fehler haben sie ja auch alle gleich gezählt. Natürlich handelte es sich um eine fiktive Situation, die zeigen sollte, ob es Vorurteile gegenüber Migrantenkinder gibt. Wie im Welt-Artikel ja auch steht, kam die Gruppe zu ähnlichen Ergebnissen in einer Langzeitstudie mit 1500 Gymnasiasten in einer *realen* Situation. Ihr dichtet der Gruppe Dinge an, die sie selbst gar nicht für sich beansprucht.

**kleiner gruener frosch**

Zitat

Ihr dichtet der Gruppe Dinge an, die sie selbst gar nicht für sich beansprucht.

Die Aussage verstehe ich gerade nicht.

Wollsocken80

Es ist eine kleine Studie, die nach eigenem Statement der Gruppe nicht repräsentativ ist, weil die Stichprobe zu klein ist. Die müssen aber publizieren um weiter Geld zu bekommen, so läuft das immer und überall in der Forschung. Die Aussage ist "die Ergebnisse deuten darauf hin, dass..." und nicht "wir haben eindeutig gezeigt".

Jens_03

Problem bei der Auswertung sind unsere in Zahlen ausgedrückten Noten, die keinen "Wert" im Sinne dieser Publikation haben. Bsp. IHK Schlüssel:

"Sehr gut" = 100-92%
"Gut" = 91-82%
"Befriedigend" = 80-67%
usw.

Das ist keine Intervallskala. Und SD/MD für "3x sehr gut, 1x gut, 4x befriedigend" könnte man nicht bilden. Man muss diese Ergebnisse jedoch genauso auswerten und nicht über irgendwelche mathematischen Ansätze.
Daran hapert es. Und die Auswertung im Paper ist schlicht und ergreifend falsch. Das andere kenne ich nicht.

Wollsocken80

Um zu zeigen, dass überhaupt unterschiedlich bewertet wird, kann man die Daten natürlich so auswerten. Die Aussage, ob Murat damit nun durchgefallen oder versetzungsgefährdet wäre wird gar nicht getroffen. Gehen wir davon aus, dass es sich bei diesem fiktiven Diktat um eine reale Einzelnote handelt, kann es sehr wohl ausschlaggebend werden, ob Murat nun eine 3-4 oder eine 4 geschrieben hat.

Jens_03

Nein, eben nicht - zumal es den Unterschied zwischen 2 und 2 und 4 und 4 gibt. Und die angegebenen Werte deuten auf eine wesentlich höhere Spreitung in beiden Stichproben in Bezug auf die Noten hin. Dafür muss ich andere, naheliegender Methoden verwenden. Beispielsweise Mann-Whitney-U. Gebe ich dazu mal (fiktive) Zahlen mit vergleichbaren Mittelwerten, etc. ein, dann kommt man dort auf das Ergebnis "nicht signifikant". Das liest sich zu sehr, wie das im von Mikael geposteten Link: man sucht so lange, bis man einen signifikanten Unterschied findet. Würde die Studie strenger nach den Vorgaben der qualitativen Bildungs-/Sozialforschung ausgewertet werden, hätte ich damit weniger Probleme.