Inhaltsverzeichnis:
Keine wiss. abgesicherten Verfahren
Nachweis der Validität fehlt
Diese kategorische Aussage mag verwundern, sind doch etliche Testverfahren auf dem Markt, die für sich in Anspruch nehmen, mit hoher, unfehlbarer oder noch höherer Sicherheit zwischen geeigneten und ungeeigneten Kandidaten trennen zu können. Doch nach unserer Kenntnis wurde bislang für kein deutschsprachiges Verfahren der wissenschaftliche Nachweis erbracht, dass es tatsächlich die behauptete prognostische Leistung bringt – jedenfalls nicht in einer öffentlich überprüfbaren Form. Zwar schwören die meisten Anbieter Stein und Bein auf die unübertreffliche Leistungsfähigkeit ihrer Tests, doch die Inbrunst der Beteuerung ist kein zureichender Ersatz für einen objektiven Leistungsnachweis.
Verfahren für wissenschaftliche und klinische Zwecke
Andere Anwendungs felder
Für diesen enttäuschenden Stand gibt es natürlich Gründe. Der Großteil der heutigen Persönlichkeitstests wurde für nicht für die Personalauswahl entwickelt, sondern teils für die klinische Praxis, teils zu Forschungszwecken; erst in den letzten Jahrzehnten kamen zunehmend auch kommerzielle Tests hinzu. Der Großteil der Verfahren kommt aus dem angloamerikanischen Sprachraum. Das Problem mit fremdsprachigen Tests ist jedoch, dass beim Übersetzen ihre Normierung verloren geht. Schon kleine sprachliche Nuancen, die bei einer Übersetzung unvermeidlich sind, können dazu führen, dass Testfragen anders beantwortet werden. Oftmals müssen sogar einzelne Items wegen mangelnder Trennschärfe ausgetauscht werden. Das hat die unangenehme Folge, dass auch die gesamte Forschung zu dem amerikanischen oder englischen Original auf die deutsche Version nicht übertragbar ist. Zu vielen Tests gibt es zwar deutsche Versionen, aber es gibt nur wenige Untersuchungen zu ihrer Aussagekraft für eignungsdiagnostische Zwecke.
Klinische Tests sind unzulässig
- “Ich bin ein besonderer Sendbote Gottes.”
- “Manchmal höre ich Stimmen.”
- “Oft habe ich Lust auf eine Schlägerei.”
- “Ich träume viel von sexuellen Dingen.”
“Niemand versteht mich.”
Empirische Persönlichkeits forschung
“Zumutbarer” und aussagekräftiger als die klinischen Verfahren versprechen jene Tests zu sein, die zu allgemeinen Zwecken der Persönlichkeitsforschung entwickelt wurden. In ihrem Buch Persönlichkeitstests im Personalmanagement haben die Bochumer Psychologen Rüdiger Hossiep, Michael Paschen und Oliver Mühlhaus zahlreiche gängige Tests sowohl aus dem wissenschaftlichen Bereich als auch von kommerziellen Anbietern untersucht – mit dem verheerenden Ergebnis, dass für keinen einzigen der rund 15 untersuchten deutschsprachigen Persönlichkeitstests und -fragebögen der wissenschaftliche Nachweis erbracht ist, dass er einen nennenswerten Beitrag zur Verbesserung von Auswahlentscheidungen leistet. Das gilt auch für so angesehene und bekannte Tests wie die deutschen Versionen des 16-PF (16 Persönlichkeitsfaktoren), des California Psychological Inventory (CPI), des NEO-FFI, des EPI (Eysenck Persönlichkeitsinventar) sowie des MBTI (Myers Briggs Typenindikator).
Wissenschaftliche Gütekriterien für Tests
Reliabilität: Verlässlichkeit der Messung
Das zweite wichtige Gütekriterium ist die Reliabilität. Sie misst, in welchem Umfang ein Test verlässlich ist, also bei wiederholter Durchführung (oder bei der Durchführung von Parallelversionen) übereinstimmende Ergebnisse erbringt. Reliabilität ist eine notwendige, aber keine hinreichende Voraussetzung für Validität: Die Vorhersagegüte eines Tests kann zwar nicht besser sein als seine Zuverlässigkeit, denn wenn die Ergebnisse “unscharf” sind, sind es natürlich auch die aus ihnen abgeleiteten Schlussfolgerungen.
Doch aus einer hohen Reliabilität folgt leider nicht das Geringste über die Validität: Möglicherweise misst der Test ja mit hoher Zuverlässigkeit eine Eigenschaft oder Fähigkeit, die für den Erfolg in der jeweiligen Funktion völlig irrelevant ist. So lassen sich zum Beispiel Körpergröße und -gewicht mit höchster Reliabilität messen – nur mit der Validität, der Aussagekraft für Auswahlentscheidungen, hapert es ein bisschen.
Objektivität: kein Einfluss des Testleiters
Das dritte Gütekriterium ist die Objektivität eines Testverfahrens. Darunter versteht man, dass das Ergebnis eines Tests unabhängig von der Person des Testleiters und den äußeren Bedingungen der Durchführung sein muss. Das ist eigentlich die “harmloseste” Anforderung, aber auf ihr bauen alle übrigen auf. Objektivität wird in aller Regel dadurch erreicht, dass sowohl die Durchführung als auch die Auswertung standardisiert sind.
Normierung: Eichung an Vergleichs gruppe
Das vierte und letzte Gütekriterium schließlich wirft noch einmal eine erhebliche Hürde auf: Es ist die Normierung des Testverfahrens. Ein Testergebnis für sich genommen ist bedeutungslos und nicht interpretierbar – was besagt es schon, wenn jemand in irgendeinem Test beispielsweise 47 Punkte erzielt hat? Solange man die Skala nicht kennt, also nicht weiß, ob es 47 von 50 Punkten, 47 von 100 oder 47 von 245 Punkten sind, ist damit nichts anzufangen. Doch selbst wenn man die Skala kennt, hilft das nicht viel, solange man nicht außerdem weiß, wie viele Menschen bei diesem Test bessere oder schlechtere Ergebnisse als 47 Punkte erzielen. Mit anderen Worten, die “absoluten Testdaten” erhalten ihre Bedeutung erst durch den Vergleich mit einer Normierung: Wenn nur 2 Prozent der Bevölkerung einen Wert von 47 oder höher erreichen, ist diese Zahl völlig anders zu werten als wenn zwei Drittel der Bevölkerung auf einen solchen Wert kommen.
Das Normierungsproblem
Riesige Stichproben erforderlich
Für die verlässliche Normierung eines Tests braucht man eine sehr große Stichprobe. So wurde zum Beispiel das “Bochumer Inventar zur berufsbezogenen Persönlichkeitsbeschreibung (BIP)”, einer der besten verfügbaren Persönlichkeitsfragebögen, an einer Stichprobe von 4312 Personen normiert. Solche Größenordnungen sind notwendig, wenn man die Ergebnisse eines Probanden nicht nur an der Gesamtbevölkerung benchmarken will, sondern auch an bestimmten Teilgruppen. Für die Auswahl oder die Beratung eines Top-Managers nützt es ja wenig, wenn man weiß, dass seine Leistungsmotivation deutlich höher ist als beim Bevölkerungsdurchschnitt: Das sollte man erwarten können. Viel interessanter wäre, seine Ergebnisse mit anderen oberen Führungskräften zu vergleichen. Beim BIP ist dies möglich; seine Vergleichsnorm “Geschäftsführer / Vorstände” umfasst immerhin noch 408 Personen, seine Vergleichsnorm für Gruppen-, Team- und Abteilungsleiter sogar 1.122 Personen.
Teilnormen sind selten
Mit insgesamt 17 Teilnormen, die sich auf unterschiedliche Hierarchieebenen, Fachrichtungen und Altersgruppen beziehen, ist der BIP die große Ausnahme unter den verfügbaren Persönlichkeitsverfahren. Für den populären MBTI (Myers Briggs Typenindikator) und seine kommerziellen Abkömmlinge zum Beispiel werden keinerlei Teilnormen angeboten. Und für viele kommerzielle Verfahren liegt überhaupt keine veröffentlichte Normierung vor; man ist also darauf angewiesen, den Beteuerungen ihrer Vertreiber zu glauben – oder auch nicht.
Spezifische Anforderungen
Doch selbst so detaillierte Teilnormen wie beim BIP helfen nicht weiter, wenn es um die Besetzung spezifischer Funktionen geht. Denn was hilft der Vergleich mit Angehörigen der gleichen Hierarchieebene, Altersgruppe oder Fachrichtung, wenn es im konkreten Fall um die Besetzung des Vertriebsleiters, des Controllers oder des IT-Chefs geht? Ist es tatsächlich angebracht, bei der Besetzung des Leiters eines großen Werks mit 800 Schichtarbeitern den gleichen Maßstab anzulegen wie beim Leiter der Forschung und Entwicklung, der mit einer kleinen Truppe fachlich anspruchsvoller, aber hochqualifizierter und hochmotivierter Experten arbeitet? Bei genauem Hinsehen stehen wir hier erneut vor der Frage nach der Validität: Wie aussagekräftig, das heißt wie trennscharf und wie treffsicher ist der Test für die konkrete Funktion?
Mangelnder Nachweis der Tauglichkeit
Beweislast für die Aussagekraft
Während die aus der Persönlichkeitsforschung stammenden Tests wenigstens in ihrer deutschsprachigen Version hauptsächlich wegen des fehlenden Nachweises ihrer Validität Probleme haben, ist die Situation bei den kommerziell angebotenen Testverfahren von maximaler Intransparenz gekennzeichnet. Die meisten Anbieter kommerzieller Tests nennen überhaupt keine Kennzahlen; die wenigen, die es tun, legen ihre Untersuchungen nicht offen, sodass keine Überprüfung ihrer Behauptungen möglich ist. Da aber natürlich die Anbieter die Beweislast dafür haben, dass die von ihnen angepriesenen Verfahren die Testgütekriterien erfüllen, kann man in all diesen Fällen nur feststellen, dass der geschuldete Nachweis von Aussagekraft, Trennschärfe und Vorhersagegüte nicht erbracht ist.
Beweise schuldig geblieben
- DISG-Persönlichkeitsprofil,
- HDI (Hirn-Dominanz-Instrument / Herrmann Dominance Instrument),
- DNLA (Discovery of Natural Abilities) und
OPQ (Occupation Personality Questionnaire).
- Insight Discovery und
Leadership Check (beides kommerzielle MBTI -Varianten).
Entwicklung solider Tests ist teuer
Die Ursache für dieses schwache Bild dürfte sein, dass kommerzielle Testentwicklungen vor drei beinahe unüberwindlichen Hindernissen stehen: Erstens ist die Entwicklung eines Tests sehr aufwendig, insbesondere wenn es um ein so komplexes Thema wie Persönlichkeit geht. Denn bei der Testentwicklung ist nur der Anfang leicht: Während im Grunde jeder halbwegs phantasievolle Mensch plausiblen Testfragen entwerfen kann, sind die Normierung und eine saubere Validierung mit erheblichem Zeit- und Kostenaufwand verbunden. Da aber nur wenige Auftraggeber bereit sind, den erheblichen Mehraufwand für einen sauber entwickelten Test zu honorieren, liegt es für die Anbieter nahe, sich den steinigen Teil des Wegs zu ersparen und die hohe Treffsicherheit und Trennschärfe ihres Verfahrens nicht mühselig zu beweisen, sondern stattdessen einfach zu behaupten – mit wortreichen Hinweisen auf exzellente Ergebnisse, ihre langjährige Erfahrung und auf zahlreiche hochzufriedene Kunden im In- und Ausland.
Interessen konflikt
Zum zweiten gibt es einen unauflösbaren Widerspruch zwischen der Exklusivvermarktung eines Tests und der Bestätigung seiner Validität durch neutrale Studien. Die wissenschaftliche Überprüfung und Anerkennung eines Verfahrens erfordert nun einmal die weitgehende Offenlegung von Methoden und Befunden. Wer seine Investition durch Geheimhaltung und teure Lizenzvergaben zu schützen versucht, erweckt damit unweigerlich den Eindruck von Geheimniskrämerei und bleibt einen nachprüfbaren Validitätsnachweis schuldig.
Begrenzter Zusatznutzen
Begrenzter prognostischer Nutzen
Zum dritten schließlich legen “ehrliche” Validitätsdaten in durchaus ernüchternder Form die Grenzen psychologischer Eignungsdiagnostik offen. Sie führen allen, die die Zahlen zu lesen verstehen, vor Augen, dass sich diese Tests keineswegs dazu eignen, “die Spreu vom Weizen zu trennen”. Selbst die besten von ihnen bewirken lediglich, dass sich in dem ausgesiebten Häufchen ein bisschen mehr Weizen und ein bisschen weniger Spreu befindet. Das mag durchaus einen wirtschaftlichen Wert besitzen, aber so richtig begeisternd ist es dennoch nicht.
Zwar ist keineswegs erwiesen, dass andere Verfahren – vom Assessment Center bis zu strukturierten Auswahlinterviews – eine höhere Aussagekraft besitzen. Und die Testpsychologen mögen es als unfair empfinden, dass sie abgestraft werden, weil sie als einzige die Grenzen ihrer Erkenntnis offen legen. Andererseits kann dies kein Grund sein, ihnen “mildernde Umstände” zuzubilligen und ihre Verfahren trotz eines sehr begrenzten prognostischen Nutzens zu verwenden.
Fraglicher Grenznutzen
Das prinzipielle Problem bei allen Testverfahren ist, dass sie nicht auf die Anforderungen der konkreten Position zugeschnitten sind. Zwar ist es prinzipiell möglich, spezifische Normen für spezielle Funktionen – etwa für Softwareentwickler oder Pharmareferenten – entwickeln und validieren zu lassen. Aber das lohnt sich allenfalls bei einem ebenso großen wie regelmäßigen Einstellungsbedarf für ein ganz bestimmtes Anforderungsprofil. Doch selbst hier ist fraglich, wie hoch ihr Zusatznutzen ist, also das, was in der Psychologie als “inkrementelle Validität” bezeichnet wird: Um wieviel verbessert ihr Einsatz die Auswahlentscheidung? Denn Tests werden ja in der Regel nicht als einziges Verfahren eingesetzt, sondern in Ergänzung zu Interviews, Zeugnissen, Referenzen etc. Deshalb ist die eigentlich entscheidende Frage: Was ist der marginale Nutzen der Tests – um wieviel werden Auswahlentscheidungen durch sie besser?
Allenfalls ergänzende Informationen
Solange sie nicht derart “maßgeschneidert” sind, prüfen all diese Tests nicht die Eignung für eine spezielle Aufgabe ab, sondern so etwas wie eine “allgemeine mentale Fitness”. Je spezieller die Anforderungen des jeweiligen Jobs, desto sicherer gehen Tests an diesen Besonderheiten vorbei. Das ist fatal, denn ein gutes Auswahlverfahren müsste sich genau an jenen Faktoren orientieren, die in der spezifischen Funktion über Erfolg oder Misserfolg entscheiden. Das heißt in der Konsequenz: Persönlichkeitstests liefern allenfalls ergänzende Informationen für die Auswahlentscheidung, die zudem wegen ihrer begrenzten Trennschärfe und Validität von begrenztem Nutzen sind. Oder, etwas deutlicher ausgedrückt: Man kann sie sicherlich einsetzen, ohne Schaden anzurichten, aber man kann es auch lassen, ohne viel an relevanter Information zu verlieren.
Literatur
Literatur: Hossiep, R.; Paschen, M.; Mühlhaus, O. (2000): Persönlichkeitstests im Personalmanagement; Verlag für Angewandte Psychologie (Göttingen)
Hossiep, R.; Mühlhaus, O. (2015): Personalauswahl und -entwicklung mit Persönlichkeitstests; Hogrefe (Göttingen)
Verwandte Themen: Personalauswahl Anforderungsprofile Kompetenzmodelle Trainierbarkeit von Fähigkeiten
Kostenfreies Erstgespräch
Vereinbaren Sie hier ein kostenfreies Erstgespräch!
Über den Autor
Winfried Berner ist Autor von zahlreichen Fachbüchern zu den Themen Change-Management, gezieltem Kulturwandel, Post-Merger Integration und anderen Themen der Organisationsentwicklung. Seit 2024 ist sein Unternehmen Teil der initio Organisationsberatung.