Articolo introduttivo del numero monografico della rivista USA Teachers College Record dedicato alle conseguenze dei cambiamenti nell’uso dei test.

Version imprimable de cet article Version imprimable

Valutazioni empiriche a una svolta

Terzo articolo della serie. L’insistenza su questo tema è determinata dalla superficialità di molte reazioni italiane nei confronti delle prove INVALSI e anche dall’abbondanza delle reazioni in Italia contrarie alla valutazione empirica su vasta scale. Queste reazioni dovrebbero indurre a riflessioni e a ripensamenti sulla pertinenza e la validità delle misure raccolte dall’INVALSI e usate dal MIUR ossia dal Ministero dell’Istruzione Pubblica. Gli argomenti utilizzati per criticare l’INVALSI dovrebbero essere soppesati con prove evidenti. I contributi di quesito numero monografico riconoscono che esiste un problema di validità e pertinenza delle prove strutturate quando i punteggi o i risultati di queste prove vengono utilizzati nell’arena politica. Questo non significa che i test debbano essere gettati al macero ma che conviene compiere un passo ulteriore per adattarli all’uso che se ne fa. Si conosce poco il problema posto dalla validità degli strumenti di misura, i test in particolare. quando si ha a che fare con valutazioni di questioni le cui ripercussioni implicano un’alta posta in gioco, ossia conseguenze gravi. Quindi si conoscono poco le modalità da adottare per correggere i problemi di validità sia nella prassi che nei contesti politici.

L’articolo è in inglese ed è intitolato "Bad Tests or Bad Test Use? A Case of SAT Use to Examine Why We Need Stakeholder Conversations on Validity", In :  Teachers College Record Volume 115 Numero 9, 2013, p. 1-10.

L’originale puo’ essere consultato cliccando qui. In linea di massima la consultazione dovrebbe essere libera e non è riservata agli abbonati.

L’autore è Madhabi Chatterji  [/span]

In questa sede si fornisce una sintesi parziale dell’articolo liberamente tradotta in italiano. I sottotitoli non sono dell’autore dell’articolo.

Nella prima parte dell’articolo l’autore tratta il caso delle prove SAT [1] Si tralascia questa sezione.

La teoria della validità

 

L’autrice si riferisce come del resto altri collaboratori al numero monografico di Teachers College Record ai lavori di Samuel Messick che per primo ha esplicitamente riconosciuto che i problemi di validità sono connessi all’uso [2]

 

Messick definisce la validità nel modo seguente: « giudizio valutativo integrato del grado con il quale evidenza empirica e giustificazioni razionali sostengono l’adeguazione e la pertinenza di inferenze e azioni basate sui punteggi nei test e su altre forme di valutazione. Con l’inclusione dei termini « inferenze » e « azioni » nella definizione, Messick vuol dire che i punteggi dei test da soli non possono essere ritenuti di essere validi dopo che lo strumento sia stato costruito. Strumenti ben costruiti possono essere usati male o essere usati in contesti assai distanti da quelli che avevano in testa coloro che li hanno sviluppati.

 

Nella seconda metà metà del primo decennio del XXI secolo si è cominciato ad ammettere che lo schema di una valutazione dovesse formalmente includere la collezione e la valutazione di informazioni sull’utilità e la qualità dei punteggi nelle decisioni [3].

 

Da tutto questo si deduce cha la validità di un test deve essere stabilita sia da chi costruisce il test e da chi lo utilizza. Nel celebre volume pubblicato nel 1999 dalle principali società USA di scienze pedagogiche sugli standard di qualità delle misure scolastiche  [4] si afferma che quando i test sono usati per scopi che si distanziano dagli intenti iniziali per i quali sono stati costruiti,gli utilizzatori dei test dovrebbero essere in grado di segnalare gli usi inappropriati dei test o di avviare indagini sulla loro validità formale per raccogliere qualsiasi prova evidente di validità che possa servire per convalidare le nuove azioni proposte con i dati delle prove strutturate.

 

Divari conoscitivi e di comunicativi tra gli attori scolastici

 

La complicazione crescente dei modelli di misura usati nelle politiche scolastiche è paragonabile a una « scatola nera » perché le analisi delle valutazioni e dei risultati sono diventate incomprensibili anche per parecchi specialisti della misura e a maggior ragione per molti attori del servizio scolastico d’istruzione tra i quali anche coloro che si servono dei punteggi e dei risultati delle valutazioni empiriche per prendere decisioni. Il divario di comprensione tra gli specialisti delle misure da un lato e gli attori del servizio scolastico d’istruzione dall’altro si è allargato. Questo baratro è preoccupante soprattutto quando i test vengono usati nelle decisioni che implicano gravi conseguenze oppure ricompense per gli attori del servizio scolastico d’istruzione ( insegnanti, studenti, dirigenti).Questo baratro genera a sua volta una distinzione di potere tra coloro che determinano le priorità sociali e politiche di un’informazione che si serve della valutazioni, coloro che concepiscono e costruiscono i test, coloro che conducono le valutazioni e coloro che subiscono le conseguenze a lungo termine dell’uso o dell’abuso delle valutazioni ( spesso, dirigenti scolastici, insegnanti e studenti).

 

Alla ricerca di risposte

 

Molti punti restano oscuri su come, perché e dove sorgono le questioni pertinenti alla validità e come possono essere rettificate nella prassi e nei contesti politici. Un dialogo aperto tra le voci più autorevoli che rappresentano punti di vista contrapposti — da un lato gli specialisti di psicometria e dall’altro gli utilizzatori dei test— potrebbe generare una migliore comprensione e aiutare ad andare alla radice di alcuni problemi d’invalidità? Si potrebbe ribaltare la tendenza verso un uso dilagante, purtroppo spesso sospetto, dei test?

 

 

 

[/span] MADHABI CHATTERJI, Ph.D., is Associate Professor of Measurement, Evaluation, and Education at Teachers College (TC), Columbia University, where she founded and directs the Assessment and Evaluation Research Initiative (AERI), a center dedicated to promoting meaningful use of assessment and evaluation information, internationally and across disciplines. Her publications lie broadly in assessment and evaluation methodology, specifically, in instrument design and validation/validity, evidence standards and the evidence debate in education and health fields, educational equity, and standards-based educational reforms. She has taught graduate-level, methodology courses at TC for over a decade, and has served as principal investigator, technical adviser, or consultant on a number of national and international panels and sponsored research projects. She just edited the volume, Validity and Test Use: An International Dialogue on Educational Assessment, Accountability and Equity (in press, Emerald, UK). Her earlier research has been recognized by the American Educational Research Association, the Fulbright Commission, and the Florida Educational Research Association. Prior to joining TC, Chatterji was an assistant professor at the University of South Florida, and a supervisor of the Research and Evaluation Services department in the Pasco County School System, Florida

[1] SAT è un acronimo per Scholastic Aptitude Test. Il test esiste dal 1901, è evoluto nel tempo, ed è usato negli USA per l’ammissione alle università che negli USA servono per selezionare le matricole universitarie.

[2]  Messick, S. (1989). Validity. In R. L. Linn (Ed.), Educational measurement. New York, NY:American Council on Education.

[3] L’autrice cita Kane, M. T. (2006). Validation. In R. L. Brennan (Ed.), Educational measurement (4th ed., pp. 17-64). Westport, CT: Praeger Publishers

[4]  American Educational Research Association, American Psychological Association, National Council Measurement in Education. (1999). Standards for educational and psychological testing. Washington, DC: American Educational Research Association