Recruiting-Forschung

Criteria Corp vs SHL: Validitäts-Forschung und was die Zahlen heißen

ClarityHire Team(Editorial)2026-05-125 min read

Was „validiert" tatsächlich heißt

Wenn ein Kognitiv-Vendor „validiert" sagt, meint er eines (oder mehrere) von:

Konstruktvalidität. Der Test misst, was er zu messen behauptet (allgemeine geistige Fähigkeit, numerisches Schließen etc.).
Kriteriumsvalidität. Scores korrelieren mit Jobperformance-Maßen, meist Vorgesetzten-Ratings oder Produktivitäts-Daten.
Reliabilität. Wiederholungen produzieren ähnliche Scores; alternative Formen sind äquivalent.
Fairness. Score-Verteilungen und prognostische Genauigkeit unterscheiden sich nicht unfair zwischen geschützten Gruppen.

Beide, Criteria Corp und SHL, publizieren technische Manuale zu allen vier. Die Manuale sind nützlich, aber leicht falsch zu lesen. Dieser Post geht durch, was die Forschung jedes Vendors tatsächlich zeigt und wie man Vendor-Validitätsansprüche generell bewertet — siehe auch unsere breitere Validitätsforschungs-Zusammenfassung.

Criteria Corps CCAT

Der Flaggschiff-Anspruch. CCAT korreliert mit Jobperformance bei Koeffizienten 0,40–0,65 über diverse Job-Families, im Einklang mit den meta-analytischen Befunden zu Kognitivtests.

Wie die Forschungsbasis aussieht. Criteria publiziert ein Manual mit mehreren Hundert Validierungs-Studien, inklusive lokaler Studien bei Kundenorganisationen. Methodik konventionell: CCAT-Scores von Incumbents sammeln, Vorgesetzten-Performance-Ratings sammeln, Korrelation rechnen, für Range-Restriction und Messfehler korrigieren.

Adverse-Impact-Daten. CCAT zeigt das Standard-Kognitiv-Demografiemuster — moderate mittlere Score-Unterschiede über Race/Ethnicity-Gruppen in den USA, konsistent mit der breiteren Literatur. Criteria publiziert diese Unterschiede offen im Manual. Die 4/5-Regel gilt; Teams mit striktem Cutoff sollten eigene Adverse-Impact-Analyse mit ihrer Selektionsrate fahren.

Stärken. Lange Publikationshistorie. Adäquate Stichprobengrößen in den meisten Studien. Transparente Methodik. Die Validitätszahlen sind auf Meta-Ebene glaubhaft.

Schwächen, auf die zu achten ist. Viele publizierte Studien nutzen ein „Incumbent"- statt „Predictive"-Design — sie korrelieren aktuelle Mitarbeiter-Scores mit aktueller Performance, statt Bewerberinnen zu testen und über Zeit zu verfolgen. Incumbent-Design produziert generell höhere Koeffizienten als Predictive-Design. Lies die Methodik jeder zitierten Studie, bevor du ihre Zahl nutzt.

SHL Verify Interactive G+

Der Flaggschiff-Anspruch. Verify Interactive G+ misst allgemeine geistige Fähigkeit mit adaptiver Präzision und produziert Validitätskoeffizienten im selben 0,50–0,65-Band gegen Jobperformance, mit dem zusätzlichen Anspruch, dass adaptives Testen den Messfehler vs Fixed-Form-Tests reduziert.

Wie die Forschungsbasis aussieht. SHL hat eine umfangreiche globale Validierungsdatenbank — hunderte Studien, viele große Samples, deployed in dutzenden Ländern. Das Manual ist dicht und deckt Konstrukt- (Faktorstruktur des G+-Scores), Kriteriumsvalidität (große meta-analytische Samples) und cross-kulturelle Fairness ab.

Adverse-Impact-Daten. SHL publiziert auch Gruppendifferenzen. Wie CCAT zeigt Verify das Standard-Kognitiv-Muster. SHLs Localization-Arbeit — Items angepasst und neu normiert für verschiedene Länder — reduziert einige Quellen cross-kultureller Unfairness, aber die zugrundeliegenden Fähigkeits-Unterschiede bleiben konsistent mit der breiteren Forschung.

Stärken. Größere und diversere Validierungs-DB als Criteria, besonders außerhalb der USA. Adaptive Methodik psychometrisch effizienter. Starke IRT-basierte Item-Analyse.

Schwächen, auf die zu achten ist. SHLs größte Studien konzentrieren sich in spezifischen Industrien (Finanzdienstleistung, Consulting, Öl & Gas). Generalisierung auf deine Rolle verdient eine lokale Validierungs-Studie, die SHL dir verkauft. Manche publizierten Koeffizienten stammen aus concurrent statt predictive Designs, derselbe Vorbehalt wie bei Criteria.

Wie sich beide bei Validität head-to-head vergleichen

Beide Vendoren landen in etwa demselben Validitätsband — 0,50 korrigiert, irgendwo in den 0,30ern unkorrigiert — konsistent mit der breiteren Forschung zu Kognitivtests. Keine publizierte Direct-Head-to-Head-Studie zeigt, dass einer für allgemeine Nutzung wesentlich prädiktiver ist.

Wo sie sich tatsächlich unterscheiden:

Testadministrations-Fehler. SHL Verifys adaptives Design reduziert Test-Level-Messfehler, besonders am oberen Fähigkeitsrand. CCATs fixe Form ist sensitiver für Rate- und Zeitdruck-Effekte.
Range-Restriction in der Praxis. Wenn du nur Bewerberinnen testest, die ein Resume-Screening passiert haben, zeigen beide Tests niedrigere beobachtete Koeffizienten als die Meta-Zahlen, weil der Pool range-restricted ist. Eigenschaft jedes Tests, kein Vendor-Unterschied.
Cross-kulturelle Validität. SHL hat strengere Lokalisierung für Non-US-Hiring. Für US-only-Hiring ist die Lücke kleiner.

Validität ist notwendig, aber nicht hinreichend

Hoher Validitätskoeffizient sagt dir, dass der Test Performance vorhersagt. Er sagt dir nicht:

Ob der Test das hebelstärkste Assessment für deine spezifische Rolle ist
Ob die Kosten die marginale Verbesserung gegenüber einer einfacheren Alternative wert sind
Ob Hiring Manager den Score wirklich nutzen oder ihn nach Bauchgefühl überstimmen
Ob der Test Candidate-Experience-Probleme erzeugt, die dich upstream gute Bewerberinnen kosten

Die Forschung zu Hiring-Methoden zeigt konsistent, dass Kombination von Kognitiv mit einer anderen validen Methode (Arbeitsprobe, strukturiertes Interview) deutlich höhere kombinierte Validität liefert als Kognitiv allein.

In der Praxis: wähle CCAT oder SHL Verify nicht als einzelnen Hiring-Filter. Wähle eines als kognitive Komponente und kombiniere mit strukturiertem Verhaltensinterview und einer Arbeitsprobe. Siehe unseren Höchst-Validität-Hiring-Loop-Beitrag.

Wo ClarityHire passt

ClarityHire liefert keinen Kognitivtest. Wir fokussieren auf die Arbeitsproben-Seite: Coding-Assessments, Live-Coding, strukturierte Verhaltens-Scorecards und Integritätsverifikation.

Die Paarung CCAT oder SHL Verify (Kognitiv) mit ClarityHire (Arbeitsprobe + strukturiertes Interview + Integrität) ist die Konfiguration, die die Forschungsbasis für Knowledge-Worker-Hiring am stärksten stützt. Kombinierte Validität erreicht 0,60+ in der Meta-Literatur, materiell höher als jede Einzelmethode.

Wie man Validitätsansprüche jedes Vendors evaluiert

Egal ob Criteria, SHL oder ein anderer Vendor, frag:

Aus welchem Sample stammt der Koeffizient? Concurrent vs Predictive zählt. Pre-Employment-Daten sind Gold-Standard.
Welche Korrekturen wurden angewendet? Korrigierte vs unkorrigierte Koeffizienten können 0,10–0,20 unterschiedlich sein. Beide legitim; wisse, was du liest.
Wie ist der Adverse-Impact-Ratio in deinem Kontext? Vendor-Zahlen sind aggregat. Mach eigene Analyse mit deiner Selektionsrate.
Wie ist die lokale Validierungs-Story? Generelle Validität ist starkes Default, aber eine Custom-Studie ist das Einzige, das beweist, dass der Test in deinem Setting wirkt.

Beide werden eine kundenspezifische Validierungs-Studie unterstützen. SHLs ist elaborierter (und teurer); Criterias ist Leichtgewichts-Variante. Beides lohnt, bevor du eines der Tools über eine Organisation skalierst.

Siehe auch: unseren Feature-Vergleich und unsere Pricing-und-ROI-Aufschlüsselung.

criteria corpshlprognostische validitätkognitive assessmentspsychometrie

Criteria Corp vs SHL: Validitäts-Forschung und was die Zahlen heißen

Was „validiert" tatsächlich heißt

Criteria Corps CCAT

SHL Verify Interactive G+

Wie sich beide bei Validität head-to-head vergleichen

Validität ist notwendig, aber nicht hinreichend

Wo ClarityHire passt

Wie man Validitätsansprüche jedes Vendors evaluiert

Verwandte Artikel

Criteria Corp vs SHL: Kognitive Assessments im Vergleich

Sind asynchrone technische Interviews fair? Validität, Integrität und Candidate Experience

Strukturierte Verhaltensinterviews: Was die Forschung wirklich sagt