Recensione di un articolo pubblicato nel 2013 nel numero monografico della rivista USA Teachers College Record dedicato alla valutazione.

Version imprimable de cet article Version imprimable

Uso dei test

La questione della validità dei test non è più solo una faccenda tecnica quando i test diventano un’arma politica di cui ci si serve per pilotare le politiche scolastiche. La questione della validità è spesso affrontata in termini esclusivamente tecnici, ma cambia quando le misure sono oggetto di un dibattito pubblico esteso e quando si tiene conto di una vasta gamma di interessi molteplici. Orbene è in questa direzione che si deve andare ed avere il coraggio di pagare lo scotto di questa svolta. Le discussioni sulla validità dei test ossia degli strumenti che si usano per misurare le conoscenze e le competenze degli alunni e degli studenti non possono più svolgersi solo tra specialisti della psicometria e della costruzione dei test, entro quattro mura, al riparo da ingerenze esterne. Non si tratta più di una faccenda solamente tecnica quando le misure si usano come arma politica. Questa è la svolta da prendere.

 Articolo in inglese di Jeffrey R. Henig  [1] pubblicato nel 2013  nella rivista USA Teachers College Record Volume 115 Numero 9, 2013, p. 1-11
http://www.tcrecord.org ID Number: 17108. L’autore non è l’ultimo venuto in questo campo. Solleva un problema scottante che vale anche per le indagini internazionali comparate che effettua l’OCSE come pure per le indagini dell’INVALSI in Italia.

 

In questa sede si fornisce una sintesi parziale dell’articolo liberamente tradotta in italiano. I sottotitoli non sono dell’autore dell’articolo.

 

La perizia tecnica della costruzione dell’interpretazione delle misure è importante nella cornice odierna delle politiche scolastiche che sfruttano alquanto i test e esigono prove evident iper convincere ma nel mondo politico quando le misure diventano oggetto di dibattito pubblico diventa assai problematico il coinvolgimento dei soli esperti in psicometria nelle discussioni sulla validità delle prove strutturate.

 

 

Quando le misure si usano per proporre soluzioni che sembrano oggettive a problemi scottanti nell’agenda politica, il conflitto ideologico e la contrapposizione di opinioni diverse sull’impostazione del servizio scolastico sono molto più probabili e quindi si contesta anche la pertinenza delle prove strutturate. La « politicizzazione » del dibattito scolastico è un fatto ormai compiuto [2]. In questo contesto, il ricorso a soluzioni oggettive o ritenute tali è stato sovente presentato come un criterio per rendere meno parziali e più valide le proposte e in questa ottica la solidità delle statistiche scolastiche e delle misure di cui il dibattito politico si serve sono un elemento molto scottante [3]. Ironicamente però e forse in maniera non sorprendente gli esperti di psicometria sono sempre stati molto circospetti quando si trattava di delimitare il potere degli strumenti da loro prodotti.

 

 

 

La validità è spesso considerata un aspetto costitutivo dell’oggettività delle misure delle statistiche, qualcosa che gli esperti possono garantire. Quando questa sicurezza è messa in dubbio dagli esperti stessi nel momento in cui attirano l’attenzione sul fatto che la validità è un elemento intrinseco delle misure e che quindi dovrebbe essere riconsiderata e rivista quando le misure sono usate e interpretate in molteplici modi, si resta scombussolati. "Un’indagine infatti può essere ritenuta valida secondo criteri interni, di per sé, e suscitare nel contempo una violenta opposizione da parte di persone i cui interessi sono minacciati da questa indagine" affermava decenni or sono Martin Rein  [4]. Secondo Rein "nel dibattito politico il problema cruciale non è tanto una questione di fatti quanto piuttosto una questione di interpretazione ». [5].

 

 

Quali possono essere le implicazioni per che procedure decisionali collettive se si cambia il concetto di validità e si adotta un concetto che considera la validità come il prodotto di un giudizio informato teoreticamente, contingente alle specifiche applicazioni e che sia graduale? La concezione positivista che normalmente permeava il discorso pubblico sulla scuola è fortemente turbato dagli atteggiamenti dominanti oggigiorno che si servono nelle decisioni politiche dei test e delle misure effettuate nelle valutazioni empiriche.

 

 

Cosa si intende quando si afferma che I test diventano un’arma politica?

 

Le discussioni sulla validità dei test sono spesso ristrette, si svolgono in una cerchia ridotta di partecipanti molto ben informati, competenti, che spesso hanno a che fare con un problema molto ben definito e costruiscono un test specifico per risolvere questo problema. [6]. In questa modalità di procedura non soltanto il numero di partecipanti alle discussioni è ridotto il che rende la comunicazione molto più semplice ma anche la gamma di valori, di concezioni contrarie nonché di considerazioni operative che devono pure essere proposte, sono ridotte. Non tutti i punti di vista sono rappresentati attorno al tavolo. Le discussioni tra esperti sono senz’altro proficue e spesso gli esperti stessi riconoscono che non tutte le opinioni sono rappresentate ma in genere concludono che non è necessario prendere in considerazione tutti punti di vista. Pertanto, considerazioni che riguardano situazioni, valori, complessi, oppure che sono espressione di un disaccordo di fondo sono spesso legittimamente escluse dalle discussioni che si svolgono tra specialisti.

 

Come le misure possono diventare un’arma politica

 

Ci sono almeno due importanti vie per chiarire la validità delle misure quando queste sono utilizzate come arma politica e ognuna di queste vie ha implicazioni per quanto riguarda la discussione che ne segue. Una possibilità di arma politica si realizza quando l’udienza alla quale si scodellano le misure e che usa le misure è molto vasta, sia per caso sia a proposito. Un buon esempio negli USA è la discussione sul ricorso al modello del valore aggiunto per valutare i singoli insegnanti; Per esempio a Los Angeles e a Nw York sono stati pubblicati nella stampa locale i punteggi del valore aggiunto di ogni insegnante con nome e cognome nonostante la strenua opposizione dei sindacati degli insegnanti e di altri. La validità delle misure non era il solo punto in ballo perché taluni argomenti contro la pubblicazione dei risultati, anche se le misure erano accurate, potevano essere oggetto di estrapolazioni ed essere applicate a casi diversi.

 

La discussione sulla validità delle misure del valore aggiunto della bravura degli insegnanti avvenne in svariate cerchie ha coinvolto moltissime persone. Specialisti rinomati di psicometria furono consultati dai media e come era prevedibile questa estensione del dibattito ad un’udienza più vasta ha a sua volta coinvolto nella discussione voci non competenti o meno competenti di quelle degli esperti.

 

La seconda modalità della trasformazione delle misure in un’arma politica succede quando le misure sono incorporate nelle decisioni politiche che hanno reali implicazioni per la creazione, la distribuzione e la ridistribuzione di costi e benefici. Anche quando le misure non pervengono al grande pubblico, anche quando , nel caso estremo che pero’ succede, sono censurate , i responsabili politici le conoscono e possono servirsene per prendere decisioni. Dal punto di vista della teoria democratica questa forma di arma politica solleva questioni importanti sulla responsabilità e la pertinenza delle procedure decisionali.

 

Questa seconda modalità peri affrontare i problemi di validità [7] lascia spesso le mani libere ai responsabili politici e alle élite politiche senza incidenze né sull’informazione dei media né sulla partecipazione degli esperti mobilitati dai media come succede nel primo caso. Tuttavia questa modalità fa entrare in gioco altri fattori politici. Le decisioni politiche sono in genere di competenza di rappresentanti eletti che sovente attingono a un bacino importante di conoscenze sostanziali e che si avvalgono di anni di esperienza nella traduzione scivolosa delle idee politiche sul terreno della pratica. Purtroppo, salvo qualche eccezione, questi leader politici raramente hanno una conoscenza approfondita dei problemi di misura nel campo dell’istruzione scolastica. In genere le burocrazie sulla quali i dirigenti politici possono appoggiarsi la fanno da padroni, mobilitano la propria rete di consulenti e operano dietro le quinte per difendere I propri interessi.

 

 

Per altro, non ci sono solo questioni riguardanti il livello di conoscenza e le modalità di funzionamento della ricerca quando ci si serve di consulenti. Quando le misure diventano un’arma politica, altre dinamiche politiche entrano in gioco. I test e altre misure-come le statistiche scolastiche e i risultati delle indagini scientifiche più generalmente-non sono solo usate per migliorare le decisioni ma sono anche incorporate nei calcoli politici a corta scadenza che si fanno nella lotta politica. Per esempio, numerosi responsabili politici ritengono che sia conveniente per loro far valere il valore oggettivo delle misure perché in questo modo sono assolti dalla responsabilità di risultati negativi che potrebbero essere loro rinfacciati dall’opposizione. Le questioni di oggettività e di imparzialità diventano importanti quando taluni insegnanti, talune scuole e taluni studenti sono premiati mentre altri sono sanzionati. Quando si creano vincitori e perdenti con l’azione politica si fa in modo di presentare le decisioni come se fossero oggettive. Per questa ragione il mito dell’oggettività continua a sussistere nella mente dei responsabili politici, delle élite nonché del pubblico nonostante l’impegno di numerosi esperti che ne criticano il concetto e che cercano perfino di scardinarlo. L’oggettività rimane un argomento prepotente per convincere I responsabili politici e per vendere loro o al grande pubblico determinate soluzioni come pure per contestare la pertinenza delle riserve delle opposizioni. Quando si puo’ sintetizzare un fascio di questioni complicate in un singolo numero, tutto ciò ha un potente potere difficile da ignorare specialmente quando si vuole imporre una determinata soluzione. 

 

 

L’uso delle misure come arma politica genera la probabilità di incomprensioni e di manipolazioni politiche. In questo caso varrebbe la pena ricorrere ad altre soluzioni rispetto a quelle in uso oggigiorno per appurare la validità degli strumenti di misura e convincere per esempio i responsabili politici e tutti gli attori che partecipano al processo decisionale di non servirsi degli strumenti di misura.

 

 

Perché gli esperti della misura sostengono che non sia un’opzione limitare la discussione sulla validità agli esperti?

 

Gli specialisti di scienze politiche normalmente ritengono che il comportamento collettivo degli esperti è prevedibile come lo è quello di qualsiasi gruppo di interesse. Sulla base di questa considerazione vorremmo anticipare che gli esperti delle misure tenteranno di massimizzare il loro potere e la loro influenza. Saranno quindi gli esperti delle misure che giocheranno un ruolo determinante nelle discussioni miranti a ridefinire la validità e questo concetto risulterà senz’altro molto più complesso e multi-dimensionale per cui diverrà più problematico ancora verificare la validità delle misure. Uno degli sbocchi sarà certamente il coinvolgimento maggiore dei responsabili e delle parti in causa. Non ci sarà certamente una contrazione della sfera dei partecipanti.

 

 

Gli esperti delle misure e dei test posseggono certamente un capitale di conoscenze tecniche molto specialistiche. Secondo uno di questi esperti,Koretz, che è anche un consulente dall’OCSE," la produzione, la costruzione e l’uso dei test sono di per sé n’impresa tecnica che richiede competenze matematiche approfondite. Succede anche che specialisti qualificati in altri campi delle scienze sociali non riescono a capire l’approccio matematico degli specialisti dei test ». [8]

 

Per determinare la validità delle inferenze si devono formulare giudizi su relazioni causali complesse riguardanti le relazioni con le sfere di azione alle quali le misure sono applicate. Se l’obiettivo è quello di orientare o di cambiare la prassi nelle aule, la sfera di competenze mobilitate può essere ridotta. Se invece l’obiettivo è più ampio e va oltre a quanto succede in una scuola o in un’aula, come per esempio l’adozione di criteri di valutazione degli insegnanti, allora il ventaglio di conoscenze importanti che va preso in considerazione per appurare la validità delle misure si espande.

 

 

Non tutti gli esperti delle misure concordano sul fatto che la validità riguardi aspetti che oltrepassano l’interpretazione e che tengono in considerazione le conseguenze di quanto possa succedere. Però, la società ha bisogno di anticipare e di prevedere le conseguenze di una decisione ed è ragionevole attendersi dagli esperti un contributo utile per anticipare i rischi probabili, i benefici che si possono trarre da un particolare regime di misure o di test. Per questo tipo di considerazioni l’esperienza degli esperti dovrebbe includere anche la conoscenza di molteplici sistemi organizzativi e come questi sistemi interagiscono tra loro, come per esempio I cambiamenti economici possono incidere sulla domanda della manodopera o come il capitale sociale di una scuola o di una comunità interagisce con altri.

 

 

Gli esperti delle misure in genere riconoscono che la validità è una questione di gradazione. Come dice Koretz "la validità è un continuum nel quale una estremità è ancorata a inferenze che semplicemente non sono giustificate …. All’altra estremità dello spettro tuttavia se siamo veramente abbastanza fortunati per prendere le distanze e decidere che una inferenza è valida, pura e semplice si ritrovano punti di partenza meno ambigui. Succede infatti che talune differenze siano più pertinenti di altre ma siccome le evidenze a disposizioni sono generalmente limitate occorre fare uno sforzo per potenziare i punti di vista."

 

 

 

Siccome concordiamo sul fatto che si devono far valere interpretazioni teoriche nonché interpretazioni basate su prove evidenti con richieste basate su indicatori la cui validità è talora sfocata, si finisce per ridurre l’importanza e l’attenzione da riservare ad una vasta gamma di prospettive.

 

 

Conclusione

 

Quando le misure diventano un’arma politica, è fatale che si tenda a imbottirle di certezze per giustificare le azioni e le responsabilità collaterali nel caso succeda il peggio.A torto o a ragione, gli attori politici ritengono che l’opinione pubblica sia poco tollerante verso la complessità o le incertezze per cui mascherano le loro posizioni con questo pregiudizio. Però gli esperti, coloro che si occupano di psicometria, i ricercatori, gli statistici e la maggioranza degli specialisti di scienze sociali non provano nessun disagio di fronte all’incerto perché questo è il mare nel quale nuotano quotidianamente. L’errore di misura è il loro nemico, che è comunque onnipresente per cui sono costretti a minimizzarlo poiché sanno che non potranno mai debellarlo, che non si riuscirà mai a disfarcene. Le predizioni empiriche sono zeppe di ipotesi probabilistiche [9].

 

La perizia tecnica nella costruzione e interpretazione delle misure è chiaramente una condizione vieppiù rilevante in un mondo nel quale le politiche scolastiche ricorrono spesso ai test con alta posta in gioco e ricercano prove evidenti per sostenere i propri punti di vista. Ma la realtà politica, quando le misure diventano un’arma politica, rendono problematico il ricorso esclusivo a una perizia solo tecnica. Socialmente un simile atteggiamento è pericoloso. Il predominio esclusivo degli esperti tecnici è insopportabile. 

 

Una soluzione per evitare questo pericolo potrebbe essere quella della riduzione delle aspettative nei confronti delle misure-per esempio una diminuzione di quanto di si aspetta dai risultati forniti da un ventaglio tutto sommato ristretto di test. Nessuno però auspica la rinuncia alla valutazione, ai test, alle misure. La tensione principale risiede nella competizione tra punti di vista opposti e tra valori divergenti sugli obiettivi dell’istruzione, su come dovrebbero essere operazionalizzati e equilibrati e su chi dovrebbe fornire le risposte. Le divergenze su questi punti crescono ma mano che si conoscono meglio i risultati delle scuole e l’incidenza di un determinato tipo di scuola sugli apprendimenti. Non possiamo aspettarci di risolvere queste tensioni in modo consensuale e permanente per cui nei sistemi democratici pluralisti che sono i nostri dovremmo piuttosto tentare di ampliare la conversazione. Cio’ produrrà sicuramente una diminuzione del livello medio di perizia tecnica tra coloro che saranno coinvolti nelle discussioni. Però le conoscenze che si otterranno e soprattutto i vantaggi che si trarranno da questi dibattiti aperti saranno il prezzo che si pagherà per evitare una deformazione delle misure nell’arena politica.

 

 

 

 

 

[1] JEFFREY R. HENIG is a professor of political science and education and Chair of the Department of Educational Policy and Social Analysis at Teachers College, and a professor of political science at Columbia University. He is the author or coauthor of eight books, including The Color of School Reform: Race, Politics and the Challenge of Urban Education (Princeton, 1999) and Building Civic Capacity: The Politics of Reforming Urban Schools (Kansas, 2001), both of which were named—in 1999 and 2001, respectively—the best book written on urban politics by the Urban Politics Section of the American Political Science Association. Spin Cycle: How Research Gets Used in Policy Debates: The Case of Charter Schools (Russell Sage, 2008) won the American Educational Research Association’s (AERA) Outstanding Book Award in 2010. Most recently, he is co-editor and contributor to Between Public and Private: Politics, Governance and the New Portfolio Models for Urban School Reform (Harvard Education Press, 2010).

[2] ndr.: Questa « politicizzazione » non è una novità ma oggigiorno l’opinione pubblica è molto più coinvolta che non un tempo nella discussione sugli indirizzi della scolarizzazione. D’altra parte, la divulgazione di indicatori sull’istruzione aveva appunto come scopo quello di democratizzare il dibattito scolastico e di fornire a tutte le parti in causa le stesse informazioni per rendere questo dibattito meno ideologico, meno settario. Purtroppo, si è ancora ben lungi da questo obiettivo

[3] .ndr.: Occorre riconoscere che per esempio tra gli architetti dell’indagine Pisa oppure tra coloro che costruiscono i test INVALSI questa preoccupazione è sempre stata molto presente

[4] ndr.: Sociologo a Harvard

[5] Rein, M. (1976). Social science and public policy. New York, NY: Penguin Books

[6] ndr.: Le discussioni sulla validità dei test si svolge ancora oggigiorno prevalentemente in "camera caritatis"

[7] ndr.: La via discrezionale

[8] Koretz, D. (2008). Measuring up: What educational testing really tells us. Cambridge, MA: Harvard University Press.

[9] ndr.: Le quali contengono un margine di errore più o meno grande che gli esperti per l’appunto tentano di minimizzare