Recensione dell’articolo di Eva Baker co-direttrice del CRESST, Centro Nazionale USA sulla valutazione presso la UCLA ossia l’università’ di Los Angeles sulla validità degli strumenti utilizzati per costruire le prove strutturate , ossia per valutare con i test le conoscenze degli studenti.

Version imprimable de cet article Version imprimable

Test scolastici da rivedere

Nel corso di questi ultimi quarant’anni le politiche scolastiche nel mondo e negli Stati Uniti sono state caratterizzate dall’importanza attribuita alla rendicontazione (accountability), alla responsabilità delle scuole, alla loro autonomia, aspetti considerati come procedure cruciali per migliorare i risultati scolastici, per rendere l’istruzione equa. Uno degli aspetti di questa tendenza è stata l’importanza crescente attribuita ai test e alla valutazione empirica su vasta scala. Nel mondo accademico questa questione e’ stata soprattutto affrontata dal punto di vista tecnico e statistico, ma la comprensione della validità dei test e della valutazione da parte di non-specialisti è essenziale almeno fin quando i sistemi scolastici saranno dominati dai risultati delle valutazioni con prove strutturate nonché dal principio della rendicontazione.

In questo testo Eva Baker prende lo spunto dai criteri di qualità dei test elaborati dall’"American Educational Research Association" [1] e dall’"American Psychological Association " [2] [3] . L’articolo che qui si presenta e’ suddiviso in tre parti: una prima parte consacrata alla nozione di validità’; una seconda all’evoluzione nella pratica dei test e una terza agli sviluppi prevedibili nel futuro o a quelli auspicabili monche’ alla rapidità dei cambiamenti riguardanti la valutazione empirica delle conoscenze e delle scuole mediante test. L’articolo e’ stato pubblicato nel no.9, 2013, pagine 1-26 della rivista USA Teachers College Record.

L’articolo e’ ora accessibile a tutti nella versione originale in inglese che si può consultare cliccando qui. Se ne fa qui una presentazione sommaria in italiano con la speranza che questo articolo concorra a capire come evolve la valutazione con i test e l’uso di questa pratica.

L’articolo di Eva Baker

“In questo articolo si esplora l’evoluzione del concetto di validità e si considera la sua storia nel mondo accademico, la teoria recente, e quanto succede nella pratica della valutazione mediante test nonché come tutto ciò possa cambiare nel futuro. Il concetto di validità è stato discusso e codificato in diversi documenti pubblicati negli USA come per esempio nell’opuscolo "Standards for Education and Psychological Testing" ( AERA, 1999)  [4].

Prima parte: Validità e perché dobbiamo preoccuparcene

"Le politiche scolastiche ovverosia le direttive che quotidianamente influenzano i comportamenti degli insegnanti e degli studenti nel corso di questi ultimi anni hanno posto l’accento sul criterio di rendicontazione [5] per migliorare le scuole. Nel corso di questi ultimi quarant’anni la rendicontazione è stata fortemente condizionata dai punteggi conseguiti nelle prove standardizzate, ovverosia nei test. Tutti auspicano che le decisioni prese dai responsabili politici che si occupano di scuola e dagli insegnanti, siano fondate razionalmente, ovverosia che siano basate su prove inconfutabili e tra queste si collocano di solito anche i punteggi conseguiti nei test. Da qui la necessita’ di stabilire se questi strumenti sono validi e se i punteggi finali siano attendibili. Negli Stati Uniti, la legislazione federale ha anche previsto sanzioni per le scuole che non conseguono entro certe scadenze determinati punteggi calcolati come media dei punteggi conseguiti nei test dagli studenti che frequentano la scuola.

Il concetto di validità è diventato un criterio onni-comprensivo che sancisce la qualità dei test e anche quella dei risultati. Più semplicemente, il concetto serve a indicare alle famiglie, agli insegnanti, ai responsabili politici che si occupano di scuola se devono o meno fare fiducia ai punteggi conseguiti nei test dagli studenti nonché alle deduzioni che se ne fanno a proposito dell’efficacia della scuola, di quanto si impara a scuola, della bontà degli insegnanti ed infine dei cambiamenti necessari da adottare per migliorare l’istruzione. Benché la maggioranza dei discorsi sulla valutazione mediante test sia soprattutto di ordine tecnico e statistico fino al punto da essere talora difficilmente comprensibile per i non-specialisti, la comprensione del criterio di validità, ovverosia di quello che si intende quando si qualifica um test o un punteggio come validi, è essenziale almeno fin quando i nostri sistemi scolastici sono pilotati con le valutazioni empiriche soprattutto fondate sui test."....

 "Orbene, gli attributi che nel linguaggio quotidiano vengono attribuiti all’uso del concetto di “valido” oppure a quello di “validità differiscono moltissimo dagli attributi che invece vengono attribuiti gli stessi concetti nel campo scientifico ed in quello accademico."

In ogni modo, un non addetto ai lavori deve per forza interpretare il termine “valido” o “validità” come la prova di una proprietà che si ha o che non si ha.

Breve resoconto delle trasformazioni del concetto di validità [6]

 " Nel corso degli ultimi decenni, la validità è stata concepita come una proprietà osservabile dei test. Un test valido di comprensione della lettura chiede agli studenti di leggere un testo e di rispondere ad alcune domande. Questa è una forma di validità. In un test sulle competenze in francese o la conoscenza del francese si chiede agli studenti di tradurre un passaggio. Un test valido di matematica richiede la creazione di prove. Questo tipo di validità si chiama “validità di facciata”. Questo criterio è tuttora utilizzato e implica che la parvenza o la facciata costituisca tutto quanto sia necessario per giudicare la correttezza di un test. Recentemente, si è iniziato ad esplorare l’utilità dei test scolastici ed il concetto di validità è cambiato. Si è passati da una proprietà che avrebbe dovuto essere insita nello strumento (la bontà della parvenza) a un concetto che tiene conto degli scopi e degli usi che se ne fanno del test.La validità del test dipende dall’uso e dal contesto. Gradualmente, il concetto di validità è diventato molto più complesso perché deve tener conto delle correlazioni con criteri esterni indipendenti dalla costruzione stessa del test... Il concetto di validità è cambiato soprattutto a partire dalla fine degli anni 80 quando si è riconosciuto che l’argomento della validità include molteplici tipi di teoria e di dati piuttosto che non una singola categoria di correlazioni per cui le prove necessarie per riconoscere come valido un test sono connesse agli scopi particolari per i quali il test è costruito. Per legittimare l’uso dei test è necessario chiarire la teoria suila quaie i test si fondano e rispettare la combinazione di approccio qualitativo e quantitativo quando si interpretano i risultati.

Scopi delle valutazioni

I sistemi di valutazione scolastica finora sono utilizzati per molteplici scopi. Il principale è quello di determinare se gli studenti (gli insegnanti, le scuole) rispettano standard imposti dall’ esterno (o obiettivi), abitualmente formulati come contenuti conoscitivi, sia semplici che complessi. Un secondo scopo e’ la sorveglianza dei progressi degli studenti (o delle istituzioni valutate). Un terzo scopo, scopo politicamente scottante, e’ il miglioramento dell’apprendimento. Infine, benché questa giustificazione sia spesso trascurata, esiste una tendenza assai forte per utilizzare le valutazioni empiriche come prove addotte dalla ricerca scientifica. Per ognuno di questi scopi esiste un insieme di di metodi analitici e di criteri che ne determinano la validità.

Complicazioni

Siccome esiste un forte movimento di protesta tra gli insegnanti e gli studenti contro l’uso e l’importanza eccessiva attribuiti ai test si assiste alla diffusione di un desiderio crescente di utilizzare i risultati di un singolo test per molteplici scopi il che dovrebbe permettere di ridurre il numero dei test somministrati ad ogni studente annualmente. L’impostazione di un’ indagine per convalidare un test con molteplici scopi non è un affare semplice ed infatti un simile lavoro si fa raramente il che non impedisce affatto di servirsi di un singolo test per molteplici scopi. Pertanto, la richiesta di ridurre il numero dei test combinando molteplici test tra loro genera difficoltà di ordine pratico e interpretativo. Un esempio di questa situazione lo si ha quando si pretende di valutare la capacità e la competenza di un insegnante con i punteggi conseguiti dei suoi studenti in un test conoscitivo.Questa tendenza genia problemi complessi dal punto di vista della qualità. Il dibattito scientifico e’ tuttora aperto su questo punto.

La validità negli standard per i test pubblicati nel 1999 dall’AERA

 Baker conclude la prima parte del suo articolo dedicata al concetto di validità con due paragrafi nei quali si dilunga sul concetto di validità nel documento « Standards for Educational and Psychological Testing » pubblicato nel 1999 a cura dell’AREA [7].

Seconda parte

Nella seconda parte dell’articolo, Baker esamina le interpretazioni date al criterio di validità nella politica scolastica, nella pratica dei costruttori dei test e nelle interpretazioni degli utenti. Basker mette in evidenza l’assenza di coerenza tra questi punti di vista.L’analisi fatta nell’articolo riguarda soprattutto gli USA ma vale anche per gli altri maggiori sistemi scolastici come per esempio quello italiano.

Terza parte

Nella terza parte Baker si proietta nel futuro e discetta sull’evoluzione probabile del concetto di validità nel mondo accademico, ossia tra coloro che elaborano le teorie nonche’ nelle sfere operative, cioè tra coloro che nella pratica si servono dei test oppure che li costruiscono. I test infatti non calano dal cielo e sono prodotti secondo procedure ormai consolidate. La sfida consiste nell’immaginare un nuovo tipo di test, una chimera per l’appunto, che tenga conto delle esigenze tecnologiche ( si pensi per esempio ai test totalmente computerizzati), i cambiamenti demografici e culturali, le preferenze soggettive, la globalizzazione, senza mettere in pericolo la qualità’ tecnica dei test o degli strumenti di valutazione e quindi senza precludere la loro validità.Questi test si possono già immaginare. Baker giunge al punto di fornire proiezioni sulla velocità dei cambiamenti che avverranno nelle valutazioni empiriche su vasta scala nelle scuole e delle scuole.

 
In conclusione dell’articolo Baker offre un’ampia lista di referenze bibliografiche ( gli articoli segnalati sono in inglese) sui criteri di validità dei test.

[1] Acronimo AERA

[2] Acronimo APA

[3] Per una presentazione di questi standard si veda la pagina che vi e’ dedicata nel sito dell’APA cliccando qui. Gli standard di qualità’ dei test sono stati messi a punto da una commissione di esperti della quale facevano parte i migliori specialisti USA della valutazione scolastica mediante test. La versione del 1999 e’ stata rivista più volte in seguito. la versione più’ recente dei criteri di qualità’ dei test e’ del 2014

[4] ndr.: È interessante rilevare che nel dibattito in corso in Italia sui test INVALSI nessuno finora, almeno tra i portavoce del corpo insegnante e i membri del corpo insegnante che hanno preso posizione contro le prove INVALSI, abbia citato uno di questi documenti. Probabilmente gli standard di qualità dei test in vigore negli USA sono conosciuti dagli universitari italiani specialisti nella costruzione dei test ma nessuno ne ha parlato nella polemica sul boicotto dei test predisposti per ordine del ministero dall’INVALSI.

[5] Concetto più noto in inglese con il nome di “accountability”

[6] ndr.: Questa è una sezione dell’articolo di Baker

[7]  Acronimo per « American Research Educational Association »