Modelli statistici per l`analisi della transizione
Transcript
Modelli statistici per l`analisi della transizione
7 Determinazione e previsione di rischi sociali e sanitari Modelli statistici per lanalisi della transizione università-lavoro a cura di Corrado Crocetta Selezione dagli atti del Workshop organizzato a Mattinata (FG) da: Dipartimento di Scienze Statistiche dellUniversità degli Studi di Bari e Dipartimento di Scienze Economiche Matematiche e Statistiche dellUniversità degli Studi di Foggia Prima edizione: febbraio 2005 ISBN 88-7178-825-7 © Copyright 2005 by CLEUP sc Coop. Libraria Editrice Università di Padova Via G. Belzoni, 118/3 Padova (Tel. 049 650261) www.cleup.it Tutti i diritti di traduzione, riproduzione e adattamento, totale o parziale, con qualsiasi mezzo (comprese le copie fotostatiche e i microfilm) sono riservati. Prefazione Le rilevazioni trimestrali sulle forze lavoro, effettuate dall’ISTAT, pongono in luce che in Italia molti giovani trovano la loro prima occupazione stabile con uno sfasamento temporale di circa 4 anni rispetto all’uscita dal sistema scolastico e che i tempi medi d’inserimento professionale tendono a diminuire al crescere del livello d’istruzione. Le difficoltà d’inserimento nel mondo del lavoro sono, in parte, determinate dalla selettività delle offerte di lavoro da parte dei giovani, dalla scarsità di canali d’informazione e comunicazione, da inefficienze del sistema pubblico di collocamento, dalla limitata mobilità territoriale. È proprio per analizzare dette problematiche che nasce questa pubblicazione contenente 15 contributi di autori che hanno studiato il problema da diverse angolazioni. Trattasi di una rassegna aggiornata, anche se non esaustiva, dei numerosi studi effettuati sul tema dalle principali Università italiane e da alcuni Istituti di ricerca. I lavori pubblicati sono il frutto di una accurata selezione1 dei numerosi contributi presentati in occasione del convegno tenutosi a Mattinata, dal 16 al 18 settembre 2004 e costituiscono un percorso articolato che, partendo dal problema dell’abbandono degli studi universitari, passa a valutare le opinioni dei laureati sulla formazione ricevuta, gli effetti che quest’ultima ha sull’occupazione e le determinanti dell’inserimento professionale dei laureati. I primi 5 lavori riguardano la valutazione dei percorsi formativi in vista dell’inserimento lavorativo e si concentrano sui seguenti aspetti: l’abbandono degli studi universitari (Chiandotto, Giusti); l’analisi della student satisfaction, aggregata per Facoltà (Scagni); la realizzazione di graduatorie di corsi di laurea basate sull’efficacia formativa e occupazionale, attraverso metodi multicriterio (Enea, Giambalvo, Morreale); lo studio dei tempi di conseguimento della laurea con un approccio multilivello (Chiandotto, Varriale); la valutazione della qualità della formazione universitaria da parte dei laureati, mediante modelli ECSI – SEM (Chiandotto, Bini, Bertaccini). Il secondo gruppo di lavori affronta, in modo più specifico, il problema dell’occupazione focalizzando l’attenzione sui seguenti argomenti: il ricorso dei neo laureati ai cosiddetti “legami deboli” per la ricerca del lavoro (Boaretto, Fabbris, Rota, Silvestri); il confronto dell’efficacia, dal punto di vista dell’occupazione, di due diversi corsi di laurea, usando l’approccio degli “strati principali” all’inferenza causale (Grilli, Mealli); le determinanti dell’occupazione mediante l’utilizzo di mo1 Tutti i lavori pubblicati sono stati sottoposti al doppio referaggio anonimo da parte di almeno un componente del comitato scientifico e di un esperto esterno. Un vivo ringraziamento va pertanto a tutti i referee per il loro prezioso contributo. II Indice del volume delli strutturali (Crocetta, d’Ovidio); lo studio della validità d'indicatori di efficacia esterna, alternativi rispetto alla durata della ricerca del primo impiego (Contini); la valutazione delle interazioni fra le determinanti dell’inserimento lavorativo dei laureati attraverso analisi di tipo Boolean logit (Porcu, Puggioni, Tedesco); l’analisi della condizione occupazionale dei laureati a un anno e mezzo/due anni dal conseguimento del titolo, attraverso modelli di regressione logistica a 2 livelli, per evidenziare l’effetto “netto” dei corsi di studio (Chiandotto, Bacci); le componenti della soddisfazione lavorativa dei laureati mediante algoritmi di segmentazione e modelli ad equazioni strutturali (Camillo, Campobasso, Crocetta, di Francia, Sallustio); lo studio degli esiti occupazionali tramite algoritmi di segmentazione basati su tecniche fuzzy neuro-adattative (Delvecchio, d’Ovidio); l’indebolimento delle usuali condizioni di applicabilità dei metodi di inferenza causale per la valutazione dell’efficacia (Mercatanti); la costruzione di un indice per la misurazione della gravità dell’handicap tramite reti neurali (Boccuzzo, Visonà Dalla Pozza, Salmaso, Facchin), utilizzabile anche nell’ambito della transizione Università-lavoro per il monitoraggio di situazioni di criticità. In qualità di curatore del volume, desidero ringraziare il coordinatore nazionale del PRIN “Transizioni Università-lavoro e valorizzazione delle competenze professionali dei laureati: modelli e metodi di analisi multidimensionale delle determinanti”, nonché presidente del comitato scientifico, Luigi Fabbris, i membri del comitato scientifico Enrica Aureli, Simona Balbi, Laura Carli Sardi, Bruno Chiandotto, Marisa Civardi, Corrado Crocetta, Francesco Delvecchio, Giovanni Girone, Giuseppe Puggioni, Silio Rigatti Luchini, i membri del comitato organizzatore del convegno che ho avuto l’onore di coordinare, Francesco Delvecchio, Ernesto Toma, Francesco d’Ovidio, Giulia Sallustio, Tiziano Rodolfo Roseto e Barbara Angelillis; inoltre ringrazio Brunero Liseo per la brillante relazione di apertura su Modelli a frontiera stocastica per la valutazione dell’efficienza delle Università. Un ringraziamento particolare va anche ai Magnifici Rettori delle Università di Bari e Foggia Giovanni Girone e Antonio Muscio, all’Assessore al Lavoro, alla Pubblica Istruzione e al Diritto allo Studio della Regione Puglia Angelo Cera, alla Presidente della SIS Daniela Cocchi, ai Presidi delle Facoltà di Economia di Foggia e Bari Niccolò Abriani e Carlo Cecchi, al Direttore dell’EDISU di Foggia Raffaele De Laurentis, al Direttore del Dipartimento di Scienze Economiche Matematiche e Statistiche Lucia Maddalena, al Direttore del Dipartimento di Scienze Statistiche Antonio Mastrodonato, che oltre al supporto finanziario fornito, hanno voluto testimoniare con la loro presenza alla cerimonia inaugurale la grande attenzione delle istituzioni verso il tema della transizione Università-lavoro. Il curatore Corrado Crocetta Indice del volume Bruno Chiandotto, Caterina Giusti L’abbandono degli studi universitari .......................................................................... 1 University student drop-out Andrea Scagni Le opinioni degli studenti sulla didattica in università: sono attendibili le differenze nei risultati aggregati di Facoltà? ......................................................................23 Student's opinions of university teaching: are differences among aggregate results reliable? Mario Enea, Ornella Giambalvo, Giovanni Morreale La valutazione dei percorsi formativi dei laureati attraverso l’uso del modello multicriterio Electre III ...............................................................................................39 The evaluation of educational training for graduates through the use of the Electre III multiple criteria model Bruno Chiandotto, Roberta Varriale Un modello multilivello per l’analisi della durata degli studi universitari .................63 A multilevel model for the analysis of university students’ time to degree Bruno Chiandotto, Matilde Bini, Bruno Bertaccini Valutazione della qualità della formazione universitaria percepita dai laureati e diplomati dell’Ateneo fiorentino: un’applicazione del modello ECSI .......................87 Evaluating the quality of University educational process: an application of the ECSI model Anna Boaretto, Luigi Fabbris, Gilda Rota, Ilaria Silvestri Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati dell’Università di Padova..........................................................................................107 Multidimensional Networks of “Weak” Links for Job Search of Padua University Graduates Leonardo Grilli, Fabrizia Mealli L’effetto degli studi universitari sull’occupazione: un’applicazione dell’approccio degli “strati principali” all’analisi causale ..........................................................131 The effect of university studies on job opportunities: an application of the principal strata approach to causal inference VI Indice del volume Corrado Crocetta, Francesco d’Ovidio Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione dei laureati nell’Università di Foggia..............................................................155 A structural equation model to analyse the determinants of the employment of graduates in the University of Foggia Dalit Contini La durata della ricerca del primo impiego è un buon indicatore di efficacia della formazione universitaria? .........................................................................................179 Is duration to first job a valid measure of performance of university programs? Mariano Porcu, Giuseppe Puggioni, Nicola Tedesco Determinanti dell’inserimento professionale dei laureati. Analisi delle interazioni ...197 Determinants of the occupational placement of graduates. An analysis of interactions Bruno Chiandotto, Silvia Bacci Un modello multilivello per l’analisi della condizione occupazionale dei laureati... 211 A multilevel model for analysing the graduate employment Furio Camillo, Francesco Campobasso, Corrado Crocetta, Angelo di Francia, Giulia Sallustio Le componenti della soddisfazione rispetto al lavoro svolto: un’indagine sui laureati dell’Università degli Studi di Bari.......................................................................... 235 Work satisfaction components: a research on graduates from the University of Bari Francesco d’Ovidio, Giuseppe Delvecchio Un modello con tecniche fuzzy neuro-adattative per la classificazione dei laureati dell’Università di Bari secondo l’occupazione a un anno dalla laurea ....................... 255 Fuzzy neural-adaptive methodologies to classify the graduates of the University of Bari by employment one year after graduation Andrea Mercatanti Rilevanza delle analisi di misture di distribuzioni nelle valutazioni di efficacia con metodi di inferenza causale .......................................................................................... 279 The importance of Mixture models in efficacy evaluation with causal methods Giovanna Boccuzzo, Laura Visonà Dalla Pozza, Laura Salmaso, Paola Facchin Ricerca delle componenti del rischio di handicap ....................................................... 293 Investigating handicap risk determinants L’abbandono degli studi universitari1 Bruno Chiandotto, Caterina Giusti Dipartimento di Statistica “G. Parenti” - Università degli Studi di Firenze Riassunto. Nel lavoro si analizza il fenomeno dell’abbandono degli studi: una delle maggiori criticità del sistema universitario italiano. Per cercare di individuare le possibili determinanti del fenomeno è stata svolta un’analisi dei dati individuali relativi agli studenti immatricolati presso l’Ateneo fiorentino nel ventennio 1980-2000 e nell’a.a. 2001/02. Su questi ultimi dati è stato applicato un modello di regressione logistica con intercetta casuale a due livelli per valutare l’effetto “netto” esercitato sia dai fattori individuali che da quelli istituzionali (variabili relative ai corsi di studio). Tale modello tiene conto del fatto che gli studenti (unità di primo livello) risultano naturalmente aggregati in corsi di laurea (unità di secondo livello). Nelle analisi sono stati considerati abbandoni non solo le interruzioni effettive della carriera universitaria ed i trasferimenti verso altri Atenei, ma anche i passaggi tra corsi di laurea. Parole chiave: Abbandoni universitari, Analisi per coorti, Modelli multilivello, Regressione logistica multilivello. 1. Introduzione Negli ultimi decenni il sistema universitario italiano si è caratterizzato, all’interno del panorama internazionale dell’istruzione terziaria, per la presenza ed il progressivo aggravamento di una serie di situazioni di particolare criticità; infatti, “qualunque sia la misura presa a riferimento, a partire dalle risorse finanziarie fino al numero dei laureati, il sistema universitario italiano appare debole ed arretrato, in sostanza non ancora europeo”(Associazione TreeLLLe, 2003). Un tale stato di cose non dipende tanto da una minore quota, rispetto agli altri Paesi europei, di giovani diplomati che decidono di intraprendere gli studi universita1 Il presente lavoro è stato finanziato nell’ambito del PRIN 2002, cofinanziato dal MIUR “Transizioni Università-lavoro e valorizzazione delle competenze professionali dei laureati: modelli e metodi di analisi multidimensionali delle determinanti”. Coordinatore nazionale è L. Fabbris, coordinatore del gruppo di Firenze è B. Chiandotto (titolo del progetto dell’unità di ricerca locale “Valutazione del processo formativo universitario, sbocchi professionali e pianificazione dei percorsi formativi: modelli e metodi”). L’idea iniziale, la struttura e l’impostazione del lavoro sono dovuti al contributo di entrambi gli autori, mentre le elaborazioni e l’implementazione del modello vanno attribuite a C. Giusti. 2 L’abbandono degli studi universitari ri, quanto piuttosto dal fenomeno degli abbandoni: mediamente negli ultimi anni più del 25% degli studenti ha lasciato l’Università in Italia dopo un solo anno di corso, percentuale che s’incrementa notevolmente, come si avrà modo di verificare in seguito, negli anni successivi al primo (MURST, 1998). Il fenomeno degli abbandoni, tipico del sistema universitario italiano, appare ancora più accentuato se si analizza la situazione dell’Università di Firenze; ciò induce a presumere che le conclusioni di un approfondimento conoscitivo su questo fenomeno utilizzando i dati fiorentini possano essere ragionevolmente estese anche a gran parte degli altri Atenei italiani. Riguardo ai dati utilizzati si deve precisare che l’unità statistica di riferimento considerata non è l’intero Ateneo ma il singolo corso di studi; pertanto, sono stati considerati abbandoni non solo le interruzioni effettive della carriera universitaria ed i trasferimenti verso altri Atenei, ma anche i passaggi tra Corsi di Laurea effettuati all’interno dell’Università di Firenze. La motivazione alla base di tale scelta è che anche un semplice passaggio può costituire, di fatto, un importante punto di rottura della carriera universitaria di uno studente, comportando spesso una perdita di tempo e di risorse, sia per lo studente stesso sia per il corso di studi da lui scelto, del tutto simile a quella caratterizzante l’abbandono degli studi universitari. L’individuazione delle possibili determinanti del fenomeno degli abbandoni dovrebbe suggerire interventi finalizzati alla eliminazione di una tale criticità2. Il secondo paragrafo di questa nota è dedicato ad una sintetica illustrazione dei risultati dell’analisi finalizzata all’individuazione dell’eventuale influenza esercitata sull’esito degli studi universitari sia dal Corso di Laurea che da caratteristiche individuali, quali genere, residenza, diploma di scuola superiore ecc.3, relativamente agli immatricolati presso l’Università di Firenze negli anni accademici dal 1980/81 al 2000/01. Nel terzo paragrafo vengono riassunti, altrettanto sinteticamente, i risultati della medesima analisi condotta relativamente ai 10053 studenti immatricolati presso l’Università degli Studi di Firenze nell’a.a. 2001/024, anno in cui è entrata in vigore la riforma dei cicli e degli ordinamenti didattici dell’Università italiana 2 Sul problema della valutazione dei processi formativi finalizzata all’eliminazione di eventuali criticità presenti nel sistema si veda Chiandotto B. (2002). 3 Una trattazione più dettagliata si trova in Giusti C. (2004), un altro significativo contributo sull’argomento è stato fornito da Bulgarelli G. (2002). 4 Anche in questo caso si tratta di un’esposizione estremamente sintetica; maggiori dettagli si trovano in Giusti C. (2004). Conviene in ogni caso precisare che i dati considerati per le analisi dei primi due paragrafi provengono dall’archivio amministrativo dell’Università degli Studi di Firenze e sono stati messi a disposizione dall’Ufficio Servizi Statistici e Controllo di Gestione dell’Ateneo. Attraverso tali informazioni si è proceduto a classificare come “abbandoni” gli studenti che nei periodi di tempo considerati risultavano aver effettuato un passaggio di corso, un trasferimento ad altro Ateneo, aver presentato domanda di rinuncia agli studi o non aver rinnovato l’iscrizione nello stesso Corso di Laurea (“abbandoni impliciti”). Modelli statistici per l’analisi della transizione università-lavoro 3 Per pervenire alla misura dell’effetto “netto” eventualmente esercitato da possibili determinanti (sia individuali che istituzionali) del fenomeno degli abbandoni si è fatto ricorso, facendo sempre riferimento agli immatricolati dell’a.a. 2001/02, ai modelli gerarchici o di regressione multilivello che, com’è noto, hanno la principale caratteristica di tenere in considerazione la struttura gerarchica dei dati oggetto di studio. I risultati delle analisi condotte sono riportati nel quarto paragrafo; alcune sintetiche conclusioni completano la nota. 2. Esito degli studi universitari degli immatricolati nell’Ateneo fiorentino nel periodo 1980-2000 In questo paragrafo viene offerto un quadro descrittivo5 dell’esito degli studi degli immatricolati presso l’Ateneo di Firenze negli anni accademici tra il 1980/81 ed il 2000/01, rivolgendo particolare attenzione al fenomeno degli abbandoni. Per analizzare tutte le informazioni disponibili si sarebbero potuti seguire due principali approcci: l’analisi “per contemporanei” o “trasversale” e l’analisi “per coorti” o “longitudinale”. In questa sede è stato adottato l’approccio longitudinale; scegliendo come evento di comune origine l’immatricolazione presso l’Università di Firenze in un determinato anno accademico, sono state individuate all’interno della popolazione oggetto di studio 21 distinte coorti. A tale proposito bisogna osservare che l’analisi degli esiti delle carriere mette in evidenza il principale difetto dell’approccio per coorti, ovvero la possibilità di valutare solamente i dati meno recenti, cioè quelli che si ottengono dopo aver osservato ogni coorte per un certo numero di anni, in modo che ciascun individuo abbia avuto il tempo di “sperimentare” il suo esito finale. In realtà, il fenomeno degli abbandoni “colpisce soprattutto gli iscritti ai primi due anni che, insieme, raccolgono più della metà delle mancate reiscrizioni complessive” (Istat, 2003); infatti, il Ministero dell’Istruzione, dell’Università e della Ricerca, nell’indagine sull’abbandono universitario condotta nel 2001, ha scelto di quantificare tale fenomeno proprio attraverso il numero di abbandoni tra il primo ed il secondo anno di corso. L’applicazione di tale 5 Gli studenti immatricolati, ovvero “iscritti per la prima volta al primo anno di un Corso di Laurea o di Diploma Universitario” secondo la definizione dell’Istat, sono stati classificati in base al Corso di Laurea di prima iscrizione; per tali studenti si dispone di informazioni classificabili in “variabili d’ingresso” (principalmente dati anagrafici e relativi agli studi preuniversitari), “di soggiorno” (per esempio informazioni su eventuali passaggi di corso, rinunce) e “d’uscita” (esito finale degli studi). Le variabili d’ingresso e quelle “in itinere” rappresentano i fattori individuali, o variabili esplicative, che si suppone possano influenzare l’esito e la durata degli studi. Tali informazioni risultano aggiornate, per ciascuna delle unità di analisi, al 31 luglio 2003. 4 L’abbandono degli studi universitari Figura 1. Esito degli studi per i dieci a.a. successivi a quello di immatricolazione (valori %) 100% 80% 60% 40% 20% 0% 1 2 3 4 Abbandoni 5 6 7 Ancora iscritti 8 9 10 Laureati metodologia d’analisi ha consentito, pertanto, di valutare il fenomeno dell’abbandono per tutte le 21 coorti considerate senza alcuna censura, dal momento che il tempo minimo di osservazione risultava pari a tre anni (coorte 2000/01). Se si considerano i soli 116841 studenti che si sono immatricolati dall’a.a. 1980/81 al 1993/94, ovvero le generazioni per le quali si dispone di almeno dieci anni di osservazione, risulta immediatamente evidente come il fenomeno dell’abbandono del Corso di Laurea di prima immatricolazione assuma nell’Ateneo fiorentino dimensioni alquanto preoccupanti; la percentuale media di studenti che abbandonano il proprio CdL durante il primo anno è infatti pari al 27.8% (cfr. Figura 1), cioè a più di un quarto del totale degli iscritti. Se si considerano gli abbandoni nei primi due anni, la quota di studenti che lasciano il proprio corso sale al 39.3%, mentre la percentuale degli abbandoni nei primi tre anni risulta pari al 45.2%. A dieci anni di distanza dall’immatricolazione, si osserva una percentuale media di studenti laureati nel Corso di Laurea di immatricolazione pari ad appena il 30.5% del contingente iniziale, mentre la quota complessiva di abbandoni è pari al 56.8% delle matricole; una frazione non trascurabile di studenti (12.7%) risulta infine ancora iscritta allo stesso CdL dopo dieci anni di carriera universitaria. Analizzando le percentuali di abbandono in ogni singolo anno (cfr. Figura 2), si ottiene conferma del fatto che il fenomeno della mancata reiscrizione nel Corso di Modelli statistici per l’analisi della transizione università-lavoro 5 Figura 2. Abbandoni nel periodo 1980-2000, per anno di corso (percentuali medie). 30 27.75 25 20 16.03 % 15 9.65 10 6.66 5 4.60 3.39 3.16 3.41 4.18 4.70 5 6 7 8 9 10 0 1 2 3 4 Figura 3. Tasso medio di abbandono dopo due anni nel periodo 1980-2000, per Facoltà. Ateneo 39.7 Scienze Politiche 46.2 45.4 SMFN Scienze della Formazione 45.3 Medicina e Chirurgia 24.5 41.8 Lettere e Filosofia Ingegneria 42.2 Giurisprudenza 35.7 38.9 Farmacia Economia 46.3 Architettura 28.7 42.1 Agraria 0 5 10 15 20 % 25 30 35 40 45 50 Laurea di prima immatricolazione riguardi prevalentemente il primo anno ed il secondo anno di corso. Nella Figura 3 sono riportate le percentuali medie di abbandono, calcolate su tutto il ventennio, nei primi due anni di corso. Rispetto ad un valore medio di Ateneo pari al 39.7%, si osservano valori molto elevati per le Facoltà di Economia (46.3%), Scienze Politiche (46.2%), SMFN e Scienze della Formazione (entrambe con valori attorno al 45.5%). All’opposto, i valori più bassi si osservano per Architettura (28.7%) e Medicina e Chirurgia (24.5%). La netta caratterizzazione di queste due Facoltà fa pensare che le limitazioni al numero massimo di immatricolazioni, esistenti a Firenze proprio 6 L’abbandono degli studi universitari per questi due indirizzi di studio (anche se non nell’intero ventennio), possano influenzare la probabilità di abbandono; infatti, poiché è necessario superare una prova di ammissione prima di potersi iscrivere, si può supporre che gli studenti che vi riescono siano più motivati rispetto a quelli che si immatricolano ad un Corso di Laurea ad accesso libero. Studiando il fenomeno dell’abbandono più dettagliatamente6, si osservano percentuali relative a Corsi di Laurea appartenenti alla stessa Facoltà anche molto diverse tra loro; l’analisi condotta a livello di Facoltà risulta perciò, in un certo senso, “distorta”, in quanto i valori di Facoltà rappresentano una media tra tutti i CdL e non consentono di cogliere le differenze esistenti fra i vari indirizzi di studio. Stato di fatto questo che suggerisce, naturalmente, un’analisi del fenomeno degli abbandoni a livello di Corso di Laurea. Nel processo teso all’individuazione delle possibili determinanti del fenomeno degli abbandoni risulta di una certa utilità misurare il grado di associazione tra la proporzione di studenti che hanno abbandonato gli studi nei primi due anni di corso e altri caratteri ritenuti rilevanti ai fini dell’analisi condotta. Si è pertanto proceduto al computo degli indici V di Cramer e Chi-quadro di Pearson; i risultati delle elaborazioni effettuate sono riportati nella Tabella 1. Tabella 1. Statistiche d’associazione: periodo 1980 - 2000. Caratteri: esito dopo 2 anni vs Anno d’immatricolazione Facoltà Corso di Laurea Sesso Voto di Maturità Tipo di Maturità Residenza Regolarità studi superiori Ritardo immatricolazione 6 Statistica Chi-quadro V di Cramer Chi-quadro V di Cramer Chi-quadro V di Cramer Chi-quadro V di Cramer Chi-quadro V di Cramer Chi-quadro V di Cramer Chi-quadro V di Cramer Chi-quadro V di Cramer Chi-quadro V di Cramer Valore 481.1453 0.0526 3514.2521 0.1421 4635.6176 0.1632 274.1894 -0.0397 4033.9811 0.1542 9210.3959 0.2324 246.1852 0.0376 10507.1918 0.2457 6377.0199 0.1933 Per i dati relativi ai singoli Corsi di Laurea si rimanda a Giusti C. (2004). GdL Prob 20 <.0001 10 <.0001 41 <.0001 1 <.0001 12 <.0001 3 <.0001 5 <.0001 5 <.0001 7 <.0001 Modelli statistici per l’analisi della transizione università-lavoro 7 Dall’esame dei dati riportati nella tabella si rileva un discreto livello di associazione fra l’esito degli studi entro 2 anni dall’immatricolazione e la Facoltà di appartenenza dello studente; ancor più significativo risulta però il dato relativo alla relazione fra esito e Corso di Laurea, il che sottolinea ancora una volta come condurre un’analisi al solo livello di Facoltà comporti necessariamente una perdita d’informazioni. Non viene, invece, evidenziata alcuna relazione tra il sesso e l’esito degli studi. Il tipo di studi preuniversitari svolti ed il voto conseguito risultano fortemente connessi al tasso di abbandono; infatti, la percentuale media di studenti che decidono di abbandonare entro due anni gli studi nel Corso di Laurea di immatricolazione è pari al 29.4% tra i liceali, mentre sale notevolmente tra i diplomati presso istituti tecnici e professionali, per i quali tale quota è pari rispettivamente al 52.7% e 60.2%. Tali valori risultano pressoché stabili per tutte le coorti considerate. Per quanto riguarda il voto alla maturità, si rileva che passando da una classe di voto a quella superiore il tasso medio di abbandono diminuisce di quasi due punti percentuali. Meno significativa risulta invece l’analisi del tasso di abbandono condotta distinguendo gli studenti delle varie coorti in base alla propria residenza, come mostrato anche dai valori delle due statistiche calcolate. L’unica rilevante differenza che si osserva è quella tra il dato relativo ai residenti fuori regione ed i toscani: mentre per i primi la percentuale media di abbandoni è circa del 37%, per i residenti a Firenze o in una qualsiasi delle altre province toscane è leggermente superiore, attorno al 40.2%. Per quanto riguarda l’influenza di eventuali “irregolarità” sperimentate nel percorso scolastico sull’esito degli studi universitari, emerge una netta distinzione tra il tasso di abbandono entro due anni degli studenti “regolari” e non: tra coloro che hanno conseguito la maturità a più di 19 anni si osserva una percentuale media di abbandono superiore di quasi il 20% rispetto ai diplomati entro i 19 anni, e tale differenza è pressoché costante per tutte le coorti analizzate. Un’ulteriore conferma all’ipotesi che iniziare l’Università ad un’età più avanzata rispetto a quella normalmente prevista possa costituire un ostacolo al proseguimento degli studi deriva infine dall’analisi del tempo medio di attesa tra il conseguimento del diploma e l’immatricolazione all’Università (cfr. Figura 4). Osservando la Figura 4 risulta evidente che coloro che abbandonano il proprio CdL hanno atteso prima dell’immatricolazione un tempo medio maggiore di coloro che invece sono ancora iscritti dopo 2 anni. Tale fenomeno appare differenziato a livello delle singole facoltà, come evidenziato in figura. I valori del Chi-quadro di Pearson e dell’indice V di Cramer (cfr. Tabella 1) confermano il significativo livello di associazione che lega l’esito degli studi dopo due anni sia con l’età al conseguimento del diploma di maturità che con il tempo di attesa prima dell’immatricolazione, reso discreto attraverso la suddivisione in 8 classi distinte. 8 L’abbandono degli studi universitari Figura 4. Tempo medio di attesa prima dell’immatricolazione, per Facoltà e esito. Scienze Politiche SMFN Scienze della Formazione Medicina e Chirurgia Lettere e Filosofia Ingegneria Giurisprudenza Farmacia Economia Architettura Agraria 0 0.5 abbandoni 3. 1 1.5 2 2.5 3 immatricolati Gli abbandoni degli immatricolati nell’a.a. 2001/02 Le matricole del 2001/02 che alla fine del giugno 2003 rientravano nella categoria degli abbandoni dopo il primo anno di Università erano 2908 su 10053, ovvero il 28.9% del totale degli iscritti; tale valore è inferiore sia al 32.3% della coorte 2000/01 che al 29.9% di quella immediatamente precedente. Come si è avuto modo di osservare nel corso del primo paragrafo, maggiori indicazioni dovrebbero derivare dall’analisi del fenomeno condotta a livello delle Facoltà e, soprattutto, dei singoli corso di studi. I dati a livello di Facoltà sono riportati nella Figura 5. A livello di Facoltà le quote più elevate di mancate iscrizioni al secondo anno sono state registrate a Farmacia (39.1%) ed a SMFN (38.4%); seguono Agraria, Economia e Lettere e Filosofia, tutte attorno al 32% di abbandoni, mentre per Giurisprudenza, Scienze della Formazione, Scienze Politiche, Ingegneria ed i corsi Interfacoltà tale valore scende a circa il 28%. Le quote più basse si osservano infine per Architettura e Medicina e Chirurgia, rispettivamente con il 22.7% ed il 22%. Per quanto riguarda i dati relativi ai singoli Corsi di Laurea7 si vede che le percentuali di abbandono più elevate appartengono a Facoltà di indirizzo prevalen7 Per i dati relativi ai singoli Corsi di Laurea si rimanda a Giusti C. (2004). Modelli statistici per l’analisi della transizione università-lavoro 9 Figura 5. Abbandoni dopo un anno degli immatricolati nell’a.a. 2001/02, per Facoltà (%). Interfacoltà 27.7 Scienze della Formazione 28.0 31.4 Economia 28.0 Scienze Politiche 38.4 SMFN 22.0 Medicina e Chirurgia 31.3 Lettere e Filosofia 27.3 Ingegneria 29.3 Giurisprudenza 39.1 Farmacia 22.7 Architettura 32.4 Agraria 0 10 20 30 40 50 temente scientifico, anche se diversi CdL appartengono alla Facoltà di Lettere. Si osserva inoltre che molti di questi corsi di studio sono tra quelli di nuova istituzione; si può allora ipotizzare che tali corsi siano riusciti ad “attirare” un numero piuttosto consistente di studenti, che però si sono successivamente resi conto di non essere veramente interessati a quei percorsi di studio. Infine, l’estrema variabilità riscontrata tra Corsi di Laurea della stessa Facoltà porta a concludere che anche per la coorte dell’a.a. 2001/02 emerge la necessità di analizzare il fenomeno degli abbandoni dopo un anno proprio a tale livello di osservazione. Anche per questi dati si è proceduto alla misura del grado di associazione tra proporzione di studenti che hanno abbandonato gli studi nel primo anno di corso e i principali caratteri individuali; i risultati dell’elaborazioni effettuate sono riportati nella Tabella 2. Relativamente al sesso degli studenti, si osserva un valore significativo per l’associazione di tale variabile con l’esito degli studi sia tra il totale degli studenti che tra i soli abbandoni8; il valore della V di Cramer evidenzia però, in entrambi i casi, un’intensità di legame piuttosto bassa, indicando quindi che l’esito degli studi dopo un solo anno non sembra eccessivamente associato al sesso degli studenti. 8 Relativamente agli immatricolati nell’a.a. 2001/02, a differenza dell’elaborazione illustrata nel paragrafo precedente, è risultato possibile condurre le analisi distinguendo quattro diverse tipologie di abbandono: il passaggio di Corso di Laurea, il trasferimento ad altro Ateneo, la rinuncia formale agli studi e la mancata reiscrizione al secondo anno di corso, categoria quest’ultima dei cosiddetti “abbandoni impliciti”. 10 L’abbandono degli studi universitari Tabella 2. Statistiche d’associazione: anno accademico 2001/02. Caratteri: esito dopo 1 anno vs Genere (Tutti gli studenti) Genere (Solo abbandoni) Facoltà (Tutti gli studenti) Facoltà (Solo abbandoni) Residenza (Tutti gli studenti) Residenza (Solo abbandoni) Maturità (Tutti gli studenti) Maturità (Solo abbandoni) Voto Maturità (Tutti gli studenti) Voto Maturità (Solo abbandoni) Maturità (Tutti gli studenti) Maturità (Solo abbandoni) Voto Maturità (Tutti gli studenti) Voto Maturità (Solo abbandoni) Regolarità studi preuniv. (Tutti gli studenti) Ritardo immatricolazione (Tutti gli studenti) Ritardo immatricolazione (Solo abbandoni) Statistica Chi-quadro V di Cramer Chi-quadro V di Cramer Chi-quadro V di Cramer Chi-quadro V di Cramer Chi-quadro V di Cramer Chi-quadro V di Cramer Chi-quadro V di Cramer Chi-quadro V di Cramer Chi-quadro V di Cramer Chi-quadro V di Cramer Chi-quadro V di Cramer Chi-quadro V di Cramer Chi-quadro V di Cramer Chi-quadro V di Cramer Chi-quadro V di Cramer Chi-quadro V di Cramer Chi-quadro V di Cramer Valore 49.1868 0.0699 6.3306 0.0467 86.3551 0.0927 262.3537 0.1734 320.3917 0.0927 273.5687 0.1771 414.5744 0.1172 258.3219 0.1721 328.5039 0.0917 119.1988 0.1189 414.5744 0.1172 258.3219 0.1721 328.5039 0.0917 119.1988 0.1189 423.8752 0.2054 188.8819 0.1371 282.3551 0.1799 GdL Prob 4 <.0001 3 <.0001 11 <.0001 33 <.0001 16 <.0001 12 <.0001 12 <.0001 9 <.0001 32 <.0001 24 <.0001 12 <.0001 9 <.0001 32 <.0001 24 <.0001 4 <.0001 7 <.0001 21 <.0001 La Facoltà d’immatricolazione dello studente mostra, attraverso il calcolo delle statistiche di associazione, un legame leggermente più forte con l’esito degli studi rispetto a quanto osservato relativamente al sesso, e ciò risulta vero, in particolare, andando a distinguere tra i diversi tipi di abbandono. Modelli statistici per l’analisi della transizione università-lavoro 11 Passando all’esame delle altre possibili determinanti degli abbandoni, si rileva che la residenza, così come era emerso anche dall’analisi relativa alle coorti di immatricolati dal 1980/81 al 2000/01, non sembra esercitare una particolare influenza sull’esito degli studi. Il tipo di maturità conseguita e la relativa votazione, come si è già avuto modo di rilevare, mostrano invece un’influenza molto significativa sull’esito degli studi dopo un anno: la percentuale di studenti che hanno conseguito la maturità liceale, classica o scientifica, è particolarmente bassa (23.7%) tra gli abbandoni impliciti, ed è inferiore alla media osservata per tutti gli immatricolati anche tra coloro che hanno presentato domanda di rinuncia (34.5%). Ancora più interessante risulta l’analisi del voto conseguito alla maturità: gli studenti che hanno abbandonato il Corso di Laurea presentano una distribuzione della votazione al diploma spostata verso le classi più basse di voto; infatti, la percentuale registrata per gli abbandoni è sempre superiore a quella generale nelle classi da 60 a 75 centesimi, con una differenza massima nella classe di votazione più bassa, 60-62; mentre la quota di studenti presenti nelle classi da 75 a 100 centesimi è invece sempre inferiore per gli abbandoni e, anche in questo caso, la differenza massima si osserva per la classe di voto estrema, quella dei 100/100. L’utilità di distinguere gli studenti secondo il tipo di abbandono è particolarmente evidente proprio nell’analisi del voto di conseguimento del diploma: il voto medio ottenuto è infatti superiore alla media generale, calcolata su tutti gli immatricolati, sia per i trasferiti che per i passati ad altro Corso di Laurea; inferiore alla media è invece il dato relativo ai rinunciatari ed agli impliciti. La forte associazione della regolarità della carriera preuniversitaria con l’esito degli studi alla fine del primo anno è confermata anche dal valore della V di Cramer, piuttosto elevato (cfr. Tabella 2) sia fra tutti gli studenti che tra i soli abbandoni. Un ultimo interessante aspetto da considerare riguarda il tempo di attesa tra il conseguimento del diploma e l’iscrizione all’Università. È resumibile, infatti, che gli studenti che si immatricolano nello stesso anno in cui conseguono la maturità abbiano un maggiore interesse verso la loro carriera universitaria, non avendo probabilmente nemmeno provato a cercare lavoro o ad intraprendere un altro percorso formativo. I dati (cfr. Figura 6) sembrano confermare questa ipotesi, dal momento che il tempo medio di attesa passa dallo 0.88 degli ancora attivi dopo un anno all’1.13 osservato in media tra coloro che abbandonano. Ancor più interessante è il dato relativo alle diverse tipologie di abbandono: coloro che lasciano il Corso di Laurea di immatricolazione effettuando un passaggio hanno un’attesa media molto bassa, addirittura inferiore a quella degli ancora attivi. Opposto è invece il discorso riguardante coloro che sospendono semplicemente gli studi, mentre un risultato intermedio si osserva infine per gli studenti che abbandonano in seguito ad un trasferimento o alla presentazione di una rinuncia formale agli studi. 12 L’abbandono degli studi universitari Figura 6. Anni medi di attesa prima di immatricolarsi, per stato di carriera dopo un anno. 3 2.45 2.5 2 1.29 1.5 1 0.88 0.59 0.5 0.18 0 Attivo Non iscritto Passato di corso Rinunciatario T rasferito Occorre tuttavia ricordare che è necessario essere molto cauti nel trarre conclusioni, poiché in questa analisi si classificano gli studenti in base al loro stato di carriera dopo un solo anno di corso; la distribuzione che ne deriva ha quindi caratteristiche del tutto peculiari, e differisce sicuramente da quella che sarà possibile calcolare non appena saranno disponibili i dati relativi agli anni accademici successivi. 4. Il modello gerarchico a due livelli Come anticipato nell’introduzione, per procedere ad una più soddisfacente individuazione delle possibili determinanti degli abbandoni universitari si è fatto ricorso ai modelli di regressione multilivello9. Nei due paragrafi precedenti è stato analizzato il fenomeno degli abbandoni degli studi universitari nell’Ateneo fiorentino sia relativamente al periodo 1980-2000 che all’a.a. 2001/02, utilizzando prevalentemente tecniche statistiche di tipo descrittivo; tali tecniche non consentono di pervenire ad una misura dell’effetto netto delle determinanti (fattori esplicativi) del fenomeno di interesse, che nel caso specifico è rappresentato dalla probabilità individuale di abbandonare il corso di studi di prima immatricolazione. Tale possibilità è invece offerta dai modelli di regressione e, in particolare, dai modelli di regressione di tipo multilivello. In proposito vale la pena ricordare che il ricorso ad un modello di regressione multilivello è consigliabile ogni volta che le unità su cui si rileva il fenomeno oggetto di studio (dette unità di primo livello) risultano naturalmente aggregate in gruppi dif9 Al riguardo si possono consultare, tra gli altri, i volumi di Goldstein H. (2003) e Snijders T., Bosker R. (1999). Modelli statistici per l’analisi della transizione università-lavoro 13 ferenti (unità di secondo livello), che a loro volta possono essere aggregate in unità di terzo livello e così via. In tali casi è ragionevole ritenere che la variabilità del fenomeno dipenda non solo da variabili esplicative individuali (o di primo livello), ma altresì dal fatto che un certo individuo appartenga ad un determinato gruppo avente caratteristiche peculiari che lo contraddistinguono dagli altri gruppi; nel caso specifico trattato, gli studenti (unità di primo livello) risultano naturalmente aggregati in Corsi di Laurea (unità di secondo livello). La finalità che s’intende perseguire attraverso il ricorso ai modelli di regressione multilivello è, dunque, l’individuazione delle variabili maggiormente esplicative dell’abbandono degli studi misurando anche, nel contempo, l’incidenza del fenomeno stesso. I dati cui si farà riferimento sono quelli relativi agli immatricolati dell’a.a. 2001/02, il che consente un approfondimento conoscitivo del fenomeno limitatamente agli abbandoni che si registrano ad un solo anno dall’immatricolazione. La variabile risposta presa in considerazione è la situazione al 30/06/2003 degli immatricolati dell’Ateneo fiorentino nell’a.a. 2001/02; le modalità che essa può assumere sono due: lo studente non si è reiscritto allo stesso corso di studi oppure lo studente si è reiscritto allo stesso corso. Trattandosi di una variabile binaria, il modello prescelto è stato il modello di tipo logistico a due livelli, preferito ad un modello di tipo probit per la maggiore facilità di interpretazione dei risultati attraverso il calcolo degli odds10. Per quanto riguarda le unità di primo livello, ovvero tutti gli studenti immatricolati per la prima volta all’Università di Firenze nell’a.a. 2001/02, si disponeva di un totale di 10053 individui, ma per alcuni di questi studenti non si possedeva l’informazione su due interessanti variabili di analisi, il titolo di studio di scuola superiore ed il relativo voto conseguito. Alla fine si è potuto disporre, quindi, di 9770 unità di primo livello, dal momento che gli individui con dati mancanti sono stati esclusi automaticamente dalla procedura. Le unità di secondo livello sono i Corsi di Laurea attivati presso l’Ateneo fiorentino nell’a.a. 2001/02. Su un totale di 99 Corsi di Laurea sono state però considerate solo 83 unità, dal momento che alcune di esse possedevano un numero di studenti molto esiguo, addirittura inferiore a 10; si è allora deciso, per includere comunque nell’analisi tali studenti, di aggregare tra loro alcuni dei Corsi di Laurea. Coerentemente a quanto suggerito dalla teoria, i passi della procedura di stima impiegata sono stati: • stima del modello nullo, al fine di verificare, attraverso la stima della varianza dei residui di secondo livello, la ragionevolezza del ricorso ad un’analisi multilivello; • stima del modello a intercetta casuale comprendente tutte le variabili di primo livello (comprese le interazioni) risultate significative11; 10 Gli odds sono dati dal rapporto tra la probabilità che uno studente abbandoni il corso di studi di immatricolazione rispetto alla probabilità che lo stesso studente si reiscriva allo stesso corso. 11 Si segnala che, nel caso trattato, tutte le variabili inserite nel modello sono risultate significative. 14 L’abbandono degli studi universitari • stima del modello a intercetta casuale finale12 (due livelli) costituito dalle sole variabili di primo e secondo livello (comprese le interazioni) risultate significative. Di seguito verranno riportati e commentati in forma estesa soltanto i risultati relativi alla stima del modello a intercetta casuale finale, cioè del modello gerarchico di regressione logistica a due livelli ad intercetta casuale: y ij = logit ( Pij ) = γ 0 + r ∑γ h X hij + U 0 j , U 0j ~ N(0, τ 02 ) h =1 La variabile risposta utilizzata è misurata al primo livello, il livello individuale, ed è dicotomica, ovvero 1 se lo studente i del CdL j abbandona y ij = 0 se non abbandona mentre le variabili esplicative Xh sono sia di primo che di secondo livello (ovvero relative ai CdL) e sono sia continue che categoriche. Pij indica la probabilità di abbandono dello studente i del CdL j, e quindi si ha: yij | U 0j ~ Bernoulli ( Pij ) Gli U0j, che costituiscono l’elemento distintivo del modello gerarchico, rappresentano gli effetti casuali relativi alle unità di secondo livello. Tali entità, dunque, esprimono l’effetto residuo esercitato da ciascun CdL nei riguardi della variabile risposta, una volta controllato l’effetto delle covariate Xh. Relativamente a tali componenti casuali si ipotizza una distribuzione normale, con media nulla e varianza costante τ 02 . La procedura utilizzata per stimare il modello di regressione logistica a due livelli è la PROC NLMIXED13 del software SAS-STAT. 12 Si puntualizza che sono stati testati anche modelli con coefficienti casuali; in questo caso però l’algoritmo di massimizzazione della funzione di verosimiglianza non ha mai raggiunto la convergenza. 13 Tale procedura prevede la specificazione del predittore lineare, come funzione delle variabili esplicative, e della funzione link utilizzata. Quando la convergenza viene raggiunta con successo, l’output di questa procedura fornisce la stima dei parametri, del loro errore standard e include inoltre, relativamente a ciascun singolo parametro, la verifica della sua significatività attraverso il test t di Wald. Una migliore procedura di convergenza può essere assicurata dalla specificazione del valore iniziale dei parametri da stimare, valori altrimenti posti uguali ad uno di default. Per quanto riguarda la procedura di stima, è importante sottolineare che la PROC NLMIXED massimizza un’approssimazione numerica dell’esatta verosimiglianza marginale del modello non lineare, attraverso il metodo di quadratura di Gauss-Hermite. Questo fa sì che la misura della Devianza fornita nell’output possa essere utilizzata per confrontare modelli diversi attraverso il test del Rapporto di Verosimiglianza; bisogna rilevare, tuttavia, che la procedura non prevede la possibilità di calcolare tale tipo di test, che deve quindi essere calcolato “manualmente”. Una caratteristica interessante del metodo di quadratura utilizzato dalla PROC NLMIXED è che questo risolve l’integrale della verosimiglianza marginale utilizzando la cosiddetta versione adattiva del metodo di Gauss-Hermite. Tale versione fornisce un’approssimazione dell’integrale generalmente più accurata di quella che si otterrebbe con la quadratura di Gauss-Hermite “standard” che utilizza il medesimo numero di punti di quadratura (SAS INSTITUTE INC., 1999). Modelli statistici per l’analisi della transizione università-lavoro 15 4.1 Il modello stimato ed i risultati ottenuti Come già segnalato, il primo passo della procedura ha previsto la stima di un modello di regressione a due livelli senza variabili esplicative, ovvero del cosiddetto modello nullo: logit (Pj ) = γ 0 + U 0 j Attraverso tale modello è stato possibile valutare la significatività del parametro τ , che esprime la varianza dei residui di secondo livello U0j; si è provveduto infatti a confrontare la Devianza (che corrisponde a meno due volte il logaritmo naturale della verosimiglianza) del modello precedente con quella ottenuta per lo stesso modello ma senza le componenti U0j, svolgendo il test del Rapporto di Verosimiglianza. In particolare, con la stima del modello nullo si è ottenuta una Devianza pari a 11563; per il modello nullo di regressione logistica ad un solo livello si è ottenuta invece una Devianza pari a 11724: anche tale informazione è stata calcolata attraverso la PROC NLMIXED, omettendo lo statement RANDOM relativo alle componenti casuali di secondo livello. Il relativo test del Rapporto di Verosimiglianza è risultato altamente significativo, indicando dunque che effettivamente il CdL di appartenenza dello studente ha un effetto significativo nel determinare la probabilità di abbandono. Una volta verificata l’effettiva esistenza di un’organizzazione dei dati su due livelli di analisi, lo studio è proseguito con la stima del modello multilivello completo, ovvero contenente le variabili esplicative sia di primo che di secondo livello. Relativamente alle variabili categoriche introdotte nel modello, si è reso necessario individuare per ciascuna di esse una modalità base o di riferimento nei confronti della quale valutare l’effetto di tutti gli altri livelli esistenti, come in una normale regressione logistica. Relativamente a tale aspetto si è scelto di considerare come modalità base di ciascuna covariata la caratteristica più diffusa nella popolazione di studio, secondo i risultati ottenuti attraverso l’analisi descrittiva preliminare; l’individuo che possiede tutte queste caratteristiche verrà denominato individuo base14. Le variabili esplicative prese in considerazione per la stima del modello completo sono state scelte sulla base delle analisi descrittive svolte, di cui molto sommariamente riferito nei paragrafi precedenti, e sulla base della conoscenza del fenomeno che è basata anche su un’indagine telefonica rivolta agli immatricolati dell’a.a. 2001/02 che non risultavano iscritti allo stesso corso di studi al 30 giugno 200315. 2 0 14 Relativamente all’unica variabile continua disponibile, il voto di conseguimento del diploma di scuola media superiore, si è scelto di calcolare per ciascuno studente lo scarto tra il voto da lui conseguito ed il valore medio calcolato all’interno del suo CdL. Si è scelto dunque di utilizzare l’approccio group mean centering, che consente di considerare il cosiddetto “frog-pond effect” (Hox J.J., 2002). In termini relativi all’istruzione, questa teoria si riferisce al fatto che uno studente dotato di media intelligenza può essere considerato molto intelligente se si trova in una classe in cui gli altri studenti sono molto scarsi, oppure poco intelligente se i suoi compagni sono tutti molto capaci. 15 Per comprendere i motivi all’origine della scelta di abbandonare dopo un solo anno il Corso di Laurea di immatricolazione da parte degli studenti iscrittisi nell’a.a. 2001/2002, nel luglio 2003 è stata ef- 16 L’abbandono degli studi universitari In particolare, le caratteristiche individuali e le relative covariate di primo livello considerate nel modello sono state: il genere: la variabile considerata (sesso) è dicotomica ed assume valore 0 se lo studente è femmina, 1 se maschio; il tipo di maturità: tale variabile è stata introdotta nel modello attraverso la creazione di tre dummy; avendo scelto come base la maturità di tipo liceale, le due variabili presenti nel modello risultano essere quella relativa alla maturità tecnica o professionale (prof_tecnica) e alla maturità di altro tipo (altra_mat). la residenza: anche in questo caso sono state create tre dummy, relative rispettivamente alla residenza a Firenze (variabile non presente nel modello), a Arezzo, Pistoia o Prato (pendolari) e a qualsiasi altra residenza (altra_res). regolarità degli studi preuniversitari: tale caratteristica è indicata dalla variabile dicotomica eta_mat, che assume valore 1 nel caso in cui lo studente abbia conseguito la maturità ad età maggiore di 19 anni, 0 altrimenti; ritardo nell’immatricolazione: anche in questo caso è una variabile dicotomica (ritardo_imm) ad indicare la presenza dell’”irregolarità” di carriera, costituita da un tempo di attesa tra il diploma e l’immatricolazione maggiore ad un anno; regolarità carriera preuniversitaria: la variabile eta_per_ritardo esprime l’interazione tra le due precedenti, ed è dunque una variabile dicotomica che assume valore 1 se eta_mat=1 e ritardo_imm=1, 0 altrimenti; voto di maturità: per la variabile continua data dal voto riportato alla maturità espresso in centesimi (voto_mat) si è effettuata la centratura rispetto alla media del CdL cui appartiene lo studente. Date tali variabili, si ha che l’individuo base, ovvero colui che possiede tutte le modalità di riferimento scelte per le variabili di analisi: − è femmina; − possiede maturità liceale (scientifica o classica); − risiede a Firenze; − ha conseguito la maturità ad un’età minore o uguale a 19 anni (ovvero si può supporre che non abbia mai sperimentato episodi di ripetenza); − si è immatricolato all’Università nello stesso anno in cui ha conseguito il diploma di maturità; − ha ottenuto un voto di maturità pari al voto medio del CdL in cui si è immatricolato. Una delle caratteristiche più interessanti dei modelli multilivello è che gli stessi permettono di considerare anche variabili esplicative relative al livello superiore di analisi. In questo modo si può cercare di ridurre la correlazione presente fettuata un’apposita indagine telefonica, la prima realizzata nell’Ateneo fiorentino relativamente a tale argomento. La speranza era quella di trarre indicazioni che potessero aiutare a comprendere meglio tale fenomeno e a capire quali politiche adottare, a livello di Ateneo ma soprattutto dei singoli Corsi di Laurea. Una trattazione estesa dei risultati dell’indagine, che è stata di tipo censuario e che ha coinvolto 2715 studenti, si trova in Giusti C. (2004). Modelli statistici per l’analisi della transizione università-lavoro 17 all’interno delle unità di secondo livello, tentando quindi di “spiegare” almeno in parte la variabilità degli effetti casuali U0j. Il passo successivo dell’analisi è consistito dunque nel cercare di individuare variabili esplicative di secondo livello che risultassero esercitare un effetto significativo sul logit delle probabilità di abbandono. Attraverso il test di Wald al livello di significatività del 5% si sono individuate due variabili esplicative significative misurate al livello dei CdL: la variabile dicotomica indicante la presenza del numero chiuso delle immatricolazioni, e la variabile continua esprimente la percentuale di studenti con carriera preuniversitaria “irregolare” (maturità conseguita a più di 19 anni e/o attesa tra il diploma e l’immatricolazione pari ad almeno un anno). Seguendo la medesima procedura utilizzata relativamente alle variabili di primo livello, per la variabile indicante la presenza del numero chiuso si è scelto come modalità di riferimento l’assenza dello stesso, mentre per quanto riguarda l’altra variabile di secondo livello, essendo questa continua, è stata centrata attorno alla media generale, calcolata fra i vari CdL. Le variabili esplicative di secondo livello considerate sono state quindi: numero chiuso: la variabile dicotomica num_chiuso assume valore pari ad 1 se il CdL possiede limitazioni al numero di immatricolazioni, 0 altrimenti; regolarità degli studi preuniversitari: la variabile continua esprimente la percentuale di studenti con irregolarità di carriera (eta_mat=1 e/o ritardo_imm=1) iscritti al CdL è centrata rispetto alla media generale. Introducendo le variabili esplicative di secondo livello la varianza degli U0j si riduce, passando dal valore di 0.1869, ottenuto per il modello con le sole covariate di primo livello, a τ 02 =0.1254 (cfr. Tabella 3). Di conseguenza si osserva anche una riTabella 3. Parametri stimati con il modello ad intercetta casuale “completo”. Parametro fisso intercetta sesso prof_tecnica altra_mat pendolari altra_res eta_mat ritardo_imm voto_mat eta_per_ritardo irreg_medio num_chiuso Parametro casuale Stima -1.6090 0.1114 0.5619 0.4265 -0.1724 0.1512 0.4389 0.4214 -0.0199 -0.3106 0.0058 -0.5749 Stima Standard error 0.12000 0.05279 0.05482 0.06972 0.06275 0.05603 0.06426 0.08443 0.00209 0.11840 0.26580 0.17210 Standard error p-value <0.0001 0,0379 <0.0001 <0.0001 0,0074 0,0085 <0.0001 <0.0001 <0.0001 0.0104 0.0318 0.0013 p-value Varianza τ 02 0.1254 0.03009 <0.0001 18 L’abbandono degli studi universitari duzione della correlazione infragruppo, che risulta adesso pari a 0.037, contro lo 0.045 precedentemente ottenuto. Ancor più significativa risulta la riduzione della variabilità di secondo livello rispetto al modello nullo; il che induce a concludere che le variabili relative ai CdL introdotte nel modello finale sono riuscite a spiegare il 33% circa della variabilità degli U0j. Per interpretare i risultati ottenuti per i parametri fissi, le stime sono state trasformate in probabilità di abbandono attraverso l’impiego della funzione logistica; per esempio, la stima ottenuta per l’intercetta del modello implica una probabilità di abbandono per l’individuo base iscritto ad un CdL base (ovvero senza numero chiuso e con una percentuale di studenti con “irregolarità” di carriera uguale alla media generale) pari al 16.7%: exp(−1.609) ) π0 = = 0.167 1 + exp(−1.609) Utilizzando tale risultato è possibile interpretare le stime restanti andando a vedere in che modo le varie caratteristiche modificano la probabilità di abbandono dell’individuo base. I risultati delle trasformazioni sono riportati nella Tabella 4. Si nota subito che essere maschio aumenta, seppur in modo limitato, la probabilità di abbandono: questo conferma quanto ottenuto in sede di analisi descrittiva, Tabella 4. Interpretazione delle stime ottenute con il modello completo. Parametro fisso sesso prof_tecnica altra_mat pendolari altra_res eta_mat ritardo_imm eta_per_ritardo voto_mat irreg_medio num_chiuso Probabilità di abbandono individuo base = 16,7% Probabilità di Variazione % Significato Stima abbandono rispetto al(%) l’individuo base maschio 0.1114 18,31 +9.63% maturità professionale 26,02 +55.81% 0.5619 o tecnica maturità di altro tipo 0.4265 23,5 +40.71% Arezzo, Pistoia o Prato -0.1724 14,44 -13.55% altra residenza 0.1512 18,91 +13.24% maturità conseguita 23,72 +42.05% 0.4389 ad età >19 immatricolazione almeno 23,41 +40.16% 0.4214 un anno dopo la maturità interazione tra le due 12,81 -23.28% -0.3106 variabili precedenti maggiore di un’unità 16,42 -1.65% -0.0199 rispetto alla media di CdL maggiore dell’1% rispetto 16,78 +0.48% 0.0058 alla media generale presente -0.5749 10,13 -39.30% Modelli statistici per l’analisi della transizione università-lavoro 19 dal momento che per le femmine si era individuata una quota di abbandoni alla fine del primo anno di corso inferiore a quella dei maschi. Per quanto riguarda il diploma di scuola superiore, possedere una maturità tecnica o professionale piuttosto che liceale aumenta in modo considerevole la probabilità di abbandono; il valore ottenuto per l’effetto “maturità professionale o tecnica” è infatti il più alto in valore assoluto tra quelli di livello individuale. Anche possedere un qualsiasi altro tipo di diploma aumenta la probabilità di abbandonare, seppur in misura inferiore. Risiedere nelle province di Arezzo, Pistoia o Prato, ovvero rientrare nella categoria dei cosiddetti “pendolari”, riduce la probabilità di abbandono, dal momento che questa risulta inferiore rispetto a quella dell’individuo base, che risiede a Firenze. L’effetto di una qualsiasi altra residenza agisce invece nel senso opposto, facendo cioè aumentare la probabilità di interrompere gli studi nel CdL di prima immatricolazione. Aver sperimentato una qualche irregolarità nella carriera scolastica preuniversitaria, fatto misurato in modo indiretto dall’età dello studente al conseguimento della maturità, ha un effetto negativo e piuttosto consistente sulla probabilità di abbandono. Tale effetto risulta poi del tutto simile ad un’altra possibile “irregolarità”, ovvero l’aver atteso un anno o più tra il superamento dell’esame di maturità e l’immatricolazione all’Università. Il termine d’interazione di queste due ultime variabili indica poi che se uno studente ha sperimentato entrambi gli episodi di “irregolarità”, l’effetto negativo sulla sua probabilità di abbandono risulterà “mitigato” rispetto a quello che si avrebbe sommando semplicemente i due singoli effetti. Sempre relativamente alle variabili misurate al livello individuale, si ha infine che l’incremento di un’unità del voto di maturità rispetto alla media di CdL ha l’effetto di ridurre la probabilità di abbandono individuale. Per quanto riguarda le variabili di secondo livello, si osserva che la presenza del numero chiuso comporta una variazione positiva assai consistente della probabilità di abbandono individuale: in termini percentuali, infatti, questa variabile risulta esercitare l’effetto maggiore tra quelli stimati. Si può quindi affermare che, a parità di tutti gli altri fattori, dover superare una prova di accesso per potersi immatricolare ad un dato CdL si tradurrà presumibilmente in una maggiore motivazione ed interesse a portare aventi il percorso di studi intrapreso. Infine, un aumento dell’1% rispetto alla media generale della percentuale di studenti del CdL che hanno sperimentato almeno una delle due “irregolarità” di carriera più volte citate avrà l’effetto di aumentare, seppur lievemente, le probabilità di abbandono individuali degli studenti di quel CdL. Ovviamente non bisogna dimenticare l’effetto esercitato sulle probabilità di abbandono dalle componenti casuali di secondo livello U0j. Le stime di tali residui, dette stime di Bayes, possono essere impiegate, inoltre, sia per valutare il particolare effetto esercitato da ciascuno dei CdL sulla probabilità di abbandono Pij, che per verificare l’ipotesi di normalità relativa alla distribuzione degli U0j stessi. Se per esempio si indica con τ 0 la radice quadrata della varianza di secondo livello, possiamo calcolare le variazioni di probabilità rispetto al valore base di 0.167 20 L’abbandono degli studi universitari Tabella 5. Effetto dei parametri casuali Ipotetico valore Probabilità dell’effetto casuale dell’individuo base ( % ) Variazione percentuale della probabilità dell’individuo base − 2τˆ0 = −0.708 − τˆ0 = −0.354 τˆ0 = 0.354 + 2τˆ0 = 0.708 8,98 12,33 22,22 28,94 -46,2% -26,15% +33.07% +73,27% dovute ad alcune realizzazioni dell’effetto casuale U0j (cfr. Tabella 5). Risulta così evidente che, a parità di caratteristiche sia di primo che di secondo livello, frequentare un CdL piuttosto che un altro può modificare notevolmente la probabilità di abbandono individuale. L’impiego più interessante delle stime di Bayes consiste però nell’utilizzare tali valori per confrontare tra loro i vari CdL, dal momento che il residuo U0j rappresenterà l’effetto esercitato sulle probabilità di abbandono individuali dal j-esimo CdL, una volta controllato per l’effetto di tutte variabili esplicative. Il corso nei confronti del quale si è ottenuta la stima di Bayes più elevata è quello in Scienze Biologiche, seguito da Informatica, CdL che si distinguono quindi per l’effetto particolarmente negativo che esercitano nei confronti dell’abbandono. È interessante notare, inoltre, che se non si tiene conto delle covariate di secondo livello, facendo sì che la variabilità degli U0j non sia “controllata” in nessun modo, risultano esercitare un effetto significativamente positivo nel ridurre la probabilità di abbandono, contrariamente a quanto succede con il modello completo, i CdL in Medicina e Chirurgia, Odontoiatria, Progettazione della Moda e Architettura. Questi sono quattro dei sette CdL per i quali è presente una qualche forma di numero chiuso: evidentemente, quindi, nel modello nullo questi CdL godono del fatto che le limitazioni all’accesso contribuiscono a ridurre la probabilità di abbandono, mentre controllando l’effetto di tale variabile (modello completo), gli U0j corrispondenti ne risultano “penalizzati” ed il loro valore aumenta. 5. Conclusioni Nella prima parte del presente lavoro si è proceduto all’analisi descrittiva, accompagnata dal calcolo di alcune statistiche di associazione, relativamente alle principali caratteristiche individuali degli immatricolati presso l’Ateneo fiorentino tra l’a.a. 1980/81 ed il 2001/02, rivolgendo particolare attenzione al fenomeno degli abbandoni. Tali analisi sono risultate strumentali ad una prima comprensione del fenomeno stesso ed alla successiva stima del modello multilivello. Modelli statistici per l’analisi della transizione università-lavoro 21 Il modello gerarchico a due livelli ad intercetta casuale presentato ha consentito la valutazione del fenomeno dell’abbandono universitario secondo una nuova prospettiva di analisi. È risultato possibile, infatti, valutare l’effetto netto esercitato sulla probabilità di abbandono individuale degli studenti non solo dalle loro caratteristiche personali, ma anche da alcune variabili misurate a livello dei Corsi di Laurea dell’Ateneo. La PROC NLMIXED del software SAS ha inoltre consentito la stima delle componenti casuali di secondo livello, permettendo di ottenere una sorta di “graduatoria” di efficacia relativa dei vari CdL nei confronti del fenomeno analizzato. Un risultato di questo tipo dovrebbe aiutare gli organi di governo di Ateneo a capire in quale direzione concentrare maggiore attenzione e risorse per ridurre il fenomeno dell’abbandono. I risultati delle analisi svolte, molto sommariamente richiamati in questa nota, giustificano ampiamente, a nostro parere, il ricorso ai modelli multilivello quando si procede all’analisi di dati che riguardano gli studenti universitari16; infatti, è del tutto evidente la natura gerarchica dei dati: le unità di primo livello sono gli studenti o i laureati/diplomati, mentre le unità di secondo livello sono i corsi di studio. Ovviamente la gerarchizzazione può essere estesa ad un numero di livelli più elevato: ad esempio le Facoltà possono rappresentare il terzo livello e gli Atenei il quarto livello. Riferimenti bibliografici ASSOCIAZIONE TREELLLE (2003) Università italiana, università europea? Dati, proposte e questioni aperte, Quaderno n.3, Genova. BULGARELLI, G. (2002) Esito degli studi degli immatricolati dell’Ateneo Fiorentino dal 1980/81 al 1997/98, Università degli Studi di Firenze, consultabile anche sul sito www.unifi.it/aut_dida/indexval.html. CHIANDOTTO B. (2002) Valutazione dei processi formativi: cosa, come e perché, in Valutazione della Didattica e dei Servizi nel Sistema Università. Atti della giornata di Studio, Fisciano, 31 maggio 2002. CUSL, Salerno 2002. 16 In tale direzione si sta movendo da tempo il gruppo VALMON (Valutazione e Monitoraggio). Il gruppo, coordinato da B. Chiandotto e costituito da laureandi, dottorandi e docenti del Dipartimento di Statistica dell’Università degli Studi di Firenze, da diversi anni svolge attività di studio e ricerca nel contesto della valutazione e del monitoraggio dei processi formativi che si svolgono nell’Ateneo fiorentino. Tale interesse è testimoniato, tra l’altro, da altri due lavori presentati in questa sede: “Un modello multilivello per l’analisi della condizione occupazionale dei laureati” (Chiandotto B. e Bacci S.); “Un modello multilivello per l’analisi della durata degli studi universitari” (Chiandotto B. e Varriale R.). 22 L’abbandono degli studi universitari GIUSTI C. (2004) L’abbandono degli studi nell’Ateneo fiorentino: evoluzione nel periodo 1980 - 2000 e applicazione di un modello gerarchico non lineare agli immatricolati nell’a.a. 2001/02. Tesi di laurea, Università degli Studi di Firenze. GOLDSTEIN H. (2003) Multilevel Statistical Models, Edward Arnold, London. HOX J.J. (2002) Multilevel Analysis: Techniques and Applications, LAWRENCE ERLBAUM ASSOCIATES, Mahwah (New Jersey), London. ISTAT (2003) Università e lavoro 2003, consultabile sul sito internet http://www.istat.it/Societ-/Istruzione (al 06/11/2003). MURST (1998) L’evoluzione della domanda di formazione universitaria: studenti, laureati e studenti equivalenti, consultabile sul sito internet: http://www.murst.it/valutazionecomitato/attivnuc.htm (al 11/12/2003). OCSE (2002) Education at a Glance – OECD Indicators 2002, consultabile sul sito internet: http://www.oecd.org/ (al 03/11/2003) SAS INSTITUTE INC. (1999) SAS/STAT® User’s Guide, Version 8, SAS Institute Inc., Cary NC. SNIJDERS T., BOSKER R. (1999) An Introduction to Basic and Advanced Multilevel Modeling, Sage, London. University student drop-out Summary. This work deals with the first year college drop-out rate, that represents one of the most critical aspects of the Italian university system. To find out some possible causes, a descriptive analysis is carried out in the first part, concerning the University of Florence’s freshmen of the period 1980-2000. This paper considers as a drop-out not only the actual conclusion of the studies or the move to another University, but also the switch to a different degree programme within the University of Florence. In the second part, to estimate each individual and institutional factors’ effect on dropping-out, a logistic two-level random intercept model is fitted to administrative data concerning the academic year 2001/02 freshmen. The use of a multilevel analysis is suggested by the two-level data structure: the first level units are the students; the second level units are their original degree courses. Keywords: Drop-out rate, Cohort analysis, Multilevel models, Multilevel logistic regression. Le opinioni degli studenti sulla didattica in università: sono attendibili le differenze nei risultati aggregati di Facoltà? Andrea Scagni Dipartimento di Statistica e Matematica applicata alle scienze umane Università degli Studi di Torino Riassunto: Negli ultimi anni l'attività di indagine sulle opinioni degli studenti sulla didattica nell'Università italiana si è andata profondamente trasformando, sia in relazione alle metodologie adottate che alle finalità implicite nel lavoro. Scopo dell'intervento è analizzare alcuni dei problemi di interpretazione e valenza dei dati raccolti, con riferimento al lavoro del Nucleo di Valutazione dell'Università di Torino. In particolare l'attenzione è mirata alle cause e i significati delle differenze tra i risultati aggregati delle facoltà di ambito disciplinare umanistico e scientifico. L'analisi acquista grande importanza quando la crescente diffusione e standardizzazione dei metodi di indagine diviene incentivo ad un utilizzo dei risultati a fini di valutazione di intere strutture come le Facoltà o i Corsi di Laurea. Il lavoro mostra, anche in base ad un'analisi delle componenti di devianza sui principali parametri di valutazione, le diverse chiavi di lettura di tali differenze. Si evidenzia la necessità di compendiare più elementi e approfondire la valutazione per comprenderne pienamente il significato. Parole chiave: Qualità della didattica; Università; Indici di dispersione 1. Introduzione Negli ultimi anni l'attività di indagine sulle opinioni degli studenti sulla didattica nell'Università italiana si è andata profondamente trasformando, sia in relazione alle metodologie adottate che alle finalità implicite nel lavoro. L'adozione di un questionario base comune ai diversi atenei, come quello del Doc. 9/02 del Comitato Nazionale per la Valutazione del Sistema Universitario (già oggi utilizzato da più del 40% degli Atenei italiani), è il presupposto di un processo che amplia la valenza di tali indagini, trasformandole potenzialmente in un ulteriore strumento di benchmarking quantitativo di cui, tuttavia, devono ancora essere valutate con attenzione e cautela l’attendibilità e la rilevanza. 24 Le opinioni degli studenti sulla didattica in università:sono attendibili le differenze ... Un approccio che le interpreta come un esercizio di analisi della customer satisfaction dello studente/cliente va infatti incontro a numerose e valide obiezioni, legate tra l'altro a: • la molteplicità di soggetti individuali e collettivi che fruiscono dei “prodotti” del sistema universitario; • il ruolo dello studente non fruitore passivo di un servizio ma partecipante attivo al processo formativo; • l'accentuata eterogeneità della aspettative individuali dei laureandi (l'interesse per un “lasciapassare” per svolgere una certa professione; l'aspirazione ad una crescita personale e culturale; l'attrazione per il mondo della ricerca e della scienza; il consolidamento di posizioni lavorative già acquisite; ecc.) e le inevitabili ricadute sul modo di valutare la didattica. A tali elementi strutturali di complessità si aggiungono diversi problemi organizzativi e metodologici relativi alla conduzione dell'indagine, tra cui: • la natura microsistemica dei dati e la valenza di loro analisi aggregate; • il problema della copertura potenziale e reale; • la rilevanza degli aspetti organizzativi e dell'efficienza dei sistemi informativi dell'Ateneo; • le cause e i significati delle differenze tra i risultati aggregati delle facoltà di ambito disciplinare umanistico e scientifico; • l'opportunità e le prospettive di diversificazione e verifica incrociata dei risultati mediante attività di valutazione di tipo diverso. Da un approccio consapevole e condiviso a tali temi dipende in modo cruciale il corretto avvio della riflessione sull’utilizzo esplicito dei risultati delle rilevazioni da parte degli Atenei, ed ancor più del Ministero. Tale aspetto, già delicato in sé, specialmente nel contesto dell'Università italiana, dove la capacità docimologica ha tradizionalmente un ruolo marginale, presuppone infatti un riconoscimento chiaro del significato dei dati raccolti, prima di tutto in termini di validità statistica e capacità di rappresentare il fenomeno di interesse senza marcate distorsioni. È d'altronde evidente che, sia per giustificare l'investimento di risorse necessario per le indagini, sia per evitare che esse si riducano, agli occhi di studenti e docenti, ad un mero adempimento amministrativo, risulta ormai urgente definire e rendere trasparenti procedure di follow-up coerenti e credibili. Scopo di questo intervento è in particolare analizzare alcuni aspetti di interpretazione e valenza delle differenze riscontrabili nei risultati aggregati per facoltà, anche in riferimento ai risultati della prima Indagine coordinata a livello di Ateneo condotta dal N.d.V. dell'Ateneo dell'Università di Torino per l'a.a. 2002-2003. A tale fine vengono proposte e discusse alcune tecniche di lettura dei dati basate sulla scomposizione della dispersione relativa ai principali parametri di giudizio della qualità didattica. Modelli statistici per l’analisi della transizione Università-lavoro 2. 25 La popolazione e la copertura: definizione e controllo Una delle considerazioni critiche più comuni e rilevanti che vengono mosse all'indagine, in particolare alla luce dei risultati che ne derivano, è legata all'effettiva copertura della popolazione: gli studenti coinvolti dall'indagine non sono tutti quelli che dovrebbero parteciparvi, in alcuni casi in modo macroscopico, e in particolare tale discrepanza si potrebbe manifestare in modo diverso tra le facoltà, inficiando specificamente la possibilità di confronto tra risultati distorti in modo diseguale. La definizione stessa della popolazione oggetto di indagine è, come già accennato, problematica: l'insieme degli studenti frequentanti è generalmente diverso in ogni lezione; nella maggior parte dei casi, esso presenta dimensioni decrescenti con l'avvicinarsi della fine dei corsi; infine è influenzato anche da elementi transienti (concomitanza con appelli d'esame di altre discipline, sovrapporsi temporale delle lezioni ad altre attività didattiche pratico-sperimentali, ecc.) il cui pieno controllo richiede un impegno logistico locale estremamente accurato. Inoltre è altrettanto difficile identificare in modo attendibile la popolazione potenziale per ciascun insegnamento, comprendere cioè quanti studenti dovrebbero frequentarne il corso durante un certo anno accademico. Per tenere sotto controllo tale fattore sarebbe necessario disporre del numero di studenti che ogni a.a. inseriscono nel proprio Piano degli Studi ciascun insegnamento; tuttavia, di norma, la codifica amministrativa delle unità didattiche non coincide con quella proposta dalle facoltà per le indagini sulle opinioni degli studenti, rendendo problematico l'abbinamento delle informazioni. In tale situazione, l'estrema eterogeneità nel frazionamento delle unità didattiche nelle Facoltà rende impossibili valutazioni comparative della copertura in termini di rapporti tra questionari potenziali e effettivamente compilati. La Figura 1 mostra, a titolo d'esempio, l'apparente copertura per ciascuna Facoltà dell'Ateneo torinese in termini di “unità didattiche” valutate mediamente da ciascuno studente iscritto. In tale computo ogni Facoltà ha definito in modo autonomo l'identificazione delle unità elementari soggette a distinta valutazione. Così ad esempio il valore pari a 6,4 di Medicina Veterinaria riflette la nota polverizzazione delle attività didattiche presso tale facoltà, con “corsi integrati” spesso costituiti dall'accorpamento di molti brevi moduli di 10-15 ore ciascuno. Anche l'analisi di dettaglio tra i Corsi di Studio di una stessa facoltà evidenzia quasi sempre forte eterogeneità. La Figura 1 evidenzia inoltre un'ulteriore particolarità dell'indagine torinese; per meglio adattarsi alle differenti modalità di organizzazione della didattica, sono previsti due metodi alternativi di rilevazione dei dati, recependo le istanze delle Facoltà che negli anni precedenti li avevano sperimentati con successo: - per singolo corso (in scuro nella Figura 1): un questionario distinto viene compilato dallo studente per ciascun insegnamento o corso integrato frequentato, identificato come unità didattica da un unico momento di verifica del profitto (un esame unico con un voto finale unico, anche se eventualmente condotto in sequenza da più colla- 26 Le opinioni degli studenti sulla didattica in università:sono attendibili le differenze ... Figura 1. N. di corsi o moduli didattici valutati per iscritto, disaggregazione per le Facoltà dell'Università di Torino, indagine ’02-03 Agraria 2,3 Economia 1,8 Farmacia 3,6 Giurisprudenza 1,0 Lettere filosofia 1,1 Lingue 1,2 Medicina 1,3 Veterinaria 6,4 Psicologia 1,9 Sc. formazione Unità didattiche rilevate: 0,9 Scienze M.F.N. per singolo corso 2,5 Scienze politiche “in batteria” 1,2 0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 boratori alla docenza). Il singolo questionario prevede comunque la possibilità di esprimere con identiche modalità un giudizio su più docenti, collaboratori, esercitatori ecc. fino ad un massimo di quattro soggetti, mentre sugli aspetti più generali del corso il giudizio resta unico. I questionari "per singolo corso" ben si adattano ai contesti in cui lo studente si organizza in modo prevalentemente autonomo l'attività di frequenza e studio. - per tutti i moduli didattici di un semestre "in batteria" (in chiaro nella Figura 1): adatto ai Corsi di Studio caratterizzati da una programmazione didattica rigidamente strutturata, prevede un momento unificato di rilevazione, di durata maggiore, in cui lo studente è chiamato a fornire indicazioni per tutti i moduli didattici frequentati durante il semestre in esame. Il questionario (di aspetto diverso da quello della rilevazione per singolo corso) contiene un certo numero di domande con possibilità di fornire risposte "in batteria" distinte per ciascun modulo, mentre le domande più generali sono unificate. In tal modo è possibile limitare sia l'impegno richiesto allo studente per la compilazione che il disturbo all'attività didattica. Tuttavia, nelle Facoltà in cui la strutturazione della didattica non è rigida e i corsi non sono frequentati da coorti omogenee di studenti, è quasi inevitabile la somministrazione separata corso per corso. Da un punto di vista metodologico la rilevazione "in batteria" si caratterizza inevitabilmente per il maggiore sforzo di memoria richiesto ai rispondenti, che devono nello stesso momento effettuare valutazioni su un notevole numero di fenomeni, alcuni dei quali riferiti a moduli didattici che potrebbero essersi addirittura già Modelli statistici per l’analisi della transizione Università-lavoro 27 conclusi da qualche tempo. Per contro, il momento unitario di rilevazione permette al rispondente di valutare anche in termini effettivamente comparativi le valutazioni fornite, dato che le risposte sui vari moduli fisicamente affiancate sullo stesso questionario rendono immediato il confronto tra i giudizi espressi per i medesimi. Con la tradizionale rilevazione per singolo corso il rispondente difficilmente può ricordare nel dettaglio le valutazioni espresse giorni prima su altri insegnamenti e molto più forte è quindi il rischio di incoerenza trasversale nei giudizi dovuta a fattori contingenti e momentanei. La scelta tra tali alternative di rilevazione ha comunque anch'essa influenzato il livello di frazionamento delle unità didattiche, generalmente più spinto presso le facoltà dove si è adottato l'approccio “in batteria”. In conclusione, pur ricordando come la norma di legge richieda ai N.d.V. la raccolta di informazioni sul grado di soddisfazione per la didattica dei soli studenti frequentanti, è opportuna un'analisi accurata dei fattori macro e micro che determinano la dimensione della quota di studenti frequentanti: estremizzando, è evidente che un corso valutato in modo eccellente, ma solo da una ristretta quota degli studenti che ne sosterranno poi l'esame non rappresenta necessariamente un caso di successo, per lo meno in relazione ad un efficiente impiego delle risorse umane e strutturali. Inoltre, come discusso nel successivo paragrafo, dietro a situazioni di questo genere si possono nascondere problemi di distorsione anche rilevanti. 3. La copertura e gli effetti distorsivi sui dati Il problema generale di copertura è in realtà legato non solo alla rappresentatività dei dati raccolti rispetto all'intera popolazione studentesca, ma anche al rischio di distorsione dei risultati che le mancate risposte possono indurre. L'esigenza di rilevare l'opinione dello studente verso la fine dei corsi, in modo che questa sia espressa in modo consapevole, influisce ulteriormente sulla copertura, dato che nella maggior parte dei casi la classe presenta dimensioni decrescenti con l'avvicinarsi della fine dei corsi. In tal modo, alla mancata rilevazione delle opinioni di coloro che non hanno mai frequentato, si aggiunge quella di chi ha rinunciato alla frequenza dopo una o più lezioni. I motivi di tale processo di autoselezione sono vari, e possono essere classificati come segue in relazione ai problemi posti all'analisi dei dati: a) casi mancanti casualmente (missing at random), relativi a studenti che hanno deciso di non frequentare per fattori del tutto estranei ai temi che l'indagine studia; b) casi mancanti non casualmente, relativi a studenti che non frequentano per motivi legati direttamente o indirettamente agli aspetti valutati nell'indagine. Nel primo caso non si evidenziano effetti distorsivi sui risultati, ma solo una minore rappresentatività della popolazione. Nel secondo caso, invece, vi sono mag- 28 Le opinioni degli studenti sulla didattica in università:sono attendibili le differenze ... giori rischi di produrre un quadro non completamente attendibile della situazione. Il fattore più evidente in questo senso è l'insoddisfazione e/o lo scarso interesse che le prime lezioni possono avere suscitato nello studente, inducendolo a non frequentare più, oppure a rarefare la propria presenza con elevata probabilità di essere assente al momento della somministrazione del questionario1. Altro fattore rilevante è anche la percezione di utilità (o addirittura necessità) della frequenza in funzione del superamento dell'esame. Ad esempio, un corso ritenuto generalmente poco interessante può risultare molto frequentato fino alla fine perché si ritiene sia comunque difficile superare l'esame con una preparazione sui soli testi. La combinazione di tali fattori può comportare una distorsione nei risultati apparenti dell'indagine in termini comparativi; si pensi alla contrapposizione tra: 1. un corso di studi che prevede corsi di lezione quasi tutti ritenuti “necessari” per l'esame, e che quindi “costringe” alla frequenza fino alla fine anche gli studenti insoddisfatti dalla qualità dei corsi; 2. un corso di studi dove molti corsi di lezione risultano superabili anche con una preparazione sui soli libri di testo, e in cui quindi frequentano quasi sempre solo gli studenti che ritengono interessanti e utili in sé le lezioni. Con ogni probabilità l'indagine produrrà risultati più soddisfacenti per il corso di studi 2; tuttavia, se fosse possibile coinvolgere per tale c.d.s. tutti gli studenti che hanno partecipato alle prime lezioni i risultati potrebbero diventare equivalenti o addirittura inferiori a quelli emersi per il c.d.s. 12. In conclusione può essere elevato il rischio di correlazione tra le scelte di frequenza e il livello di soddisfazione sui diversi aspetti legati all'erogazione della didattica: dove la frequenza è minore, e quindi anche la copertura dell'indagine è modesta, gli studenti partecipanti all'indagine saranno più facilmente quelli convinti delle qualità positive del docente e del suo corso. 4. Il significato delle differenze tra risultati aggregati: l'esempio del contrasto tra ambito umanistico e scientifico L'effetto descritto nel paragrafo precedente potrebbe spiegare, in proporzione anche rilevante, le valutazioni aggregate meno positive delle Facoltà di ambito scientifico rispetto a quelle di ambito umanistico, emerse anche a Torino nell'indagine 2002-03. Per quantificare in modo sintetico le valutazioni, è stata applicata una codifica 1 2 In alcuni casi il diffondersi di opinioni negative tra gli studenti può portare a rinunciare alla frequenza sin dall'inizio, rendendo mancanti non casualmente anche alcuni degli studenti che non hanno frequentano del tutto il corso. Si tratta di un'ipotesi di difficile verifica empirica, dato che gli studenti che hanno smesso di frequentare dopo poche lezioni (spesso una o due solamente) potrebbero non essere in grado di valutare il corso in modo comparabile a chi l'ha frequentato interamente. Modelli statistici per l’analisi della transizione Università-lavoro 29 numerica arbitraria, con interi da 1 a 4, alla scala di risposte prevista dal CNVSU3. Con tale codifica "naturale" la media dei giudizi può essere espressa in funzione delle sole frequenze relative4. Infatti, denominata X la variabile discreta così ottenuta, k = 4 il numero di modalità possibili, ni le frequenze assolute con cui ogni modalità è stata osservata nella popolazione di interesse di dimensione N, e definite: i ni fi fj ; Fi N j 1 si ha: k k x k xi f i i 1 i Fi Fi 1 i 1 i 1 k 1 k 1 k i Fi i 1 k i Fi iFi i 1 Fi k Fk i 1 i Fi 1 i 2 k 1 i 1 k −1 i 1 Fi i 1 k − ∑ Fi i =1 k 1 La Figura 2 mostra, in base a tali valori medi calcolati per due tra le principali domande di valutazione, la collocazione delle Facoltà dell'Ateneo torinese. Un altro elemento di interesse è il confronto tra le collocazioni delle facoltà in termini di valori medi e quelle in termini di variabilità interna dei giudizi. Per valutare tale aspetto può essere utilizzato un indice di dispersione per caratteri qualitativi ordinali, come quello di diversità (Leti, 1983, pp. 290-297): k 1 D 2 F i 1 Fi . i 1 In alternativa può essere utilizzato lo scarto quadratico medio della variabile ottenuta dalla codifica sopra descritta. In tal caso, infatti, i due indici hanno un comportamento molto simile, presentando lo stesso campo di variazione da 0 a (k−1)/2 (asintoticamente per N dispari nel caso di D). Si ha, infatti: k 2 i 1 3 4 k xi x 2 fi xi 2 2 fi x ; i 1 Decisamente no = 1; Più no che sì =2; Più sì che no = 3; Decisamente sì = 4. L'utilizzo della scala di risposta proposta dal CNVSU nell'indagine è derivato dalla scelta dell'Ateneo di aderire in modo completo alle indicazioni del DOC 9/02, anche al fine di contribuire al processo di armonizzazione a livello nazionale delle procedure relative alla rilevazione delle opinioni degli studenti. In tal senso non è stata effettuata un'analisi specifica della validità della rappresentazione delle opinioni rilevate mediante tale scala. In realtà, il gruppo di lavoro composto dal N.d.V. e dai delegati di tutte le facoltà aveva deciso, poche settimane prima della pubblicazione del DOC 9/02, di utilizzare una scala decimale esplicitamente numerica per tutte le domande, in base a considerazioni di natura metodologica. La scelta di usare la semplice trasformazione in ranghi delle modalità di risposta, invece di tentare più complessi approcci di approssimazione di una quantificazione ottimale, è dovuta a diversi motivi: la semplicità delle elaborazioni seguenti che essa rende possibile; la coerenza con i risultati delle elaborazioni di base che vengono prodotte in via immediata dalla società che effettua la lettura dei dati a livello di singolo insegnamento, di corso di laurea e Facoltà; le finalità non di quantificazione assoluta ma di comparazione relativa tra aggregati che rendono meno urgente disporre di una traduzione quantitativa intrinsecamente attendibile. 30 Le opinioni degli studenti sulla didattica in università:sono attendibili le differenze ... Figura 2. Media dei giudizi - disaggregazione per le Facoltà dell'Università di Torino, indagine 02-03 3,5 Lettere Argomenti sono interessanti - Media 3,4 Lingue 3,3 Sc. formazione Giurisprudenza Agraria 3,2 3,1 Scienze politiche Psicologia Economia Veterinaria Farmacia Scienze M.F.N. 3,0 Medicina 2,9 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 Soddisfazione complessiva insegnamento - Media Il massimo di σ2, nel caso presente, si ha quando fi 1 ;i 1, k 2 k 2 max 2 1 2 f i 0 ;i 2,3 , .... , k 1 k 1 2 2 k 2 2k 1 4 k 1 2 2 max k 1 2 Nel caso in esame ha quindi un significato preciso il concetto di scarto quadratico medio relativo, ottenuto dividendo il valore di definizione per il suo massimo: r max k 1 2 Inoltre, su una variabile X come quella utilizzata in questa sede, l'indice di diversità D e lo scarto quadratico medio, anch'esso esprimibile in funzione delle sole Fi: Modelli statistici per l’analisi della transizione Università-lavoro k 1 k 2 Fi k i 1 i 1 k 1 k 2 2 2 1 2 k 1 2i 1 F i 31 k i Fi k Fi i 1 2 Fi i 1 k 1 2 i 1 i 1 k 1 k 1 k 1k Fi 2k 1 Fi Fi i 1 i Fi i 1 i 1 2k 1 2 k 1 Fi k 1 i 1 k 1 Fi 2k 1 1 2 2 k 1 1 1 2 1 2 Fj i 1 i 1 j i pur restando funzioni distinte, presentano un comportamento simile su tutto il campo di variazione. Le Figure in Appendice mostrano i valori di σ e D ottenuti in una simulazione casuale di 130 distribuzioni multinomiali, ordinate in base al valore di σ, e in una sequenza di distribuzioni ad hoc con crescente dispersione con N = 50; in entrambi i casi l'indice D risulta leggermente più sensibile, con valori prima inferiori a σ vicino a 0 e successivamente superiori. Un'altra similarità rilevante dei due indici è la possibilità di scomposizione tra gruppi della dispersione, nel modo usuale per la varianza e come evidenziato da Grilli e Rampichini (2004) per l'indice di diversità. Infatti, distinta la popolazione di interesse in h sottogruppi di dimensione Nj (j=1,2,....,h), e indicate con Fi|j le frequenze cumulate relative fino alla modalità i nel gruppo j, si ha: h D 2 j 1 h 2 j 1 Nj N k 1 Nj N k 1 k 1 Fi j 1 Fi j F i j Fi j F i i 1 i 1 k 1 Dj i 1 Fi j Fi 2 i 1 Nell'espressione il primo addendo rappresenta una media ponderata degli indici di dispersione "locali" Dj, mentre il secondo può essere visto come una misura della dissomiglianza media tra la distribuzione sui singoli gruppi e quella sulla popolazione complessiva. La Figura 3 presenta, in modo simile alla Figura 2, i valori di σr per le 12 facoltà torinesi rispetto ai giudizi di tutti gli studenti per le domande indicate. Il confronto tra i due grafici mostra che i due gruppi di Facoltà (rispettivamente scientifiche e umanistiche) che si evidenziano nel primo caso (Figura 2) si trovano in posizione ribaltata nel secondo. In altre parole, dove la valutazione media è più bassa vi è però maggiore varietà di giudizio; dove la media è invece più elevata, le opinioni sono più concordi. Ciò potrebbe essere dovuto proprio al fatto che nelle Facoltà dove la frequenza è più 32 Le opinioni degli studenti sulla didattica in università:sono attendibili le differenze ... Figura 3. Variabilità dei giudizi - disaggregazione per le Facoltà dell'Università di Torino, indagine ’02-03 Argomenti sono interessanti - σr 0,64 Medicina 0,62 Psicologia 0,60 Scienze M.F.N. Veterinaria 0,58 Sc. politiche 0,56 0,54 Agraria Economia Giurisprudenza 0,52 0,50 Farmacia Sc. formazione Lingue 0,48 0,52 Lettere 0,54 0,56 0,58 0,60 0,62 0,64 Soddisfazione complessiva insegnamento -σr generalizzata partecipano maggiormente all'indagine, valutando negativamente i corsi, anche studenti che in altri contesti avrebbero rinunciato alla presenza in aula. Naturalmente si tratta di una interpretazione tutt'altro che univoca; altri effetti potrebbero avere un ruolo significativo. Ad esempio, un esame delle componenti di dispersione distinte5, all'interno di singole Facoltà o loro raggruppamenti, tra variabilità del giudizio medio tra i diversi insegnamenti (inter-corso) e variabilità dei giudizi dei singoli studenti per uno stesso insegnamento (intra-corso) evidenzia, passando dalle Facoltà umanistico-letterarie a quelle di ambito scientifico, un incremento molto più sensibile della variabilità inter-corso rispetto a quella intra-corso. In altri termini, presso le Facoltà scientifiche si evidenzia non tanto un'eterogeneità di giudizi maggiore tra gli studenti che valutano uno stesso insegnamento, quanto una maggiore presenza di insegnamenti “critici” in cui la valutazione di tutti i frequentanti converge su giudizi vicini al limite inferiore della scala. Le Tabelle 1 e 2 e la Figura 4 dettagliano tale contrasto con riferimento sia alla varianza che all'indice D di Leti. Le indicazioni fornite dalla scomposizione dei due indici sono pressoché identiche: si registra solo l'inversione nell'ordine delle facoltà di Economia e Sc. Politiche, comunque contigue. In modo analogo ai valori assunti, anche le percentuali di dispersione tra i corsi sono leggermente più discriminate dall'indice D, per cui la percentuale di variabilità inter-corso più elevata (Medicina, 27,5) è più del doppio della percentuale minore (Economia, 13,4). 5 Riferite alla domanda sulla Soddisfazione complessiva per come è stato svolto l'insegnamento. Modelli statistici per l’analisi della transizione Università-lavoro 33 Tabella 1. Variabilità totale, inter-corso e intra-corso dei giudizi di Soddisfazione complessiva sul corso per le Facoltà dell'Università di Torino, indagine 2002-03 σ2 totale σ2 inter-corso σ2 intra-corso % inter-corso % intra-corso Medicina 0,925 0,346 0,579 37,4 62,6 Veterinaria 0,777 0,268 0,509 34,5 65,5 Farmacia 0,850 0,275 0,575 32,3 67,7 Scienze M.F.N. 0,866 0,269 0,597 31,1 68,9 Psicologia 0,874 0,267 0,607 30,6 69,4 Agraria 0,821 0,203 0,618 24,8 75,2 Lettere 0,658 0,162 0,496 24,6 75,4 Lingue 0,652 0,148 0,504 22,7 77,3 Sc. formazione 0,649 0,134 0,515 20,7 79,3 Giurisprudenza 0,669 0,131 0,538 19,6 80,4 Economia 0,689 0,135 0,554 19,5 80,5 Sc. politiche 0,701 0,132 0,570 18,8 81,2 Fac. Umanistiche 0,725 0,170 0,555 23,5 76,5 Fac. Scientifiche 0,856 0,277 0,579 32,4 67,6 Figura 4. Composizione % della variabilità totale tra inter-corso e intra-corso dei giudizi di soddisfazione complessiva sul corso per le Facoltà dell'Università di Torino, indagine 200203 - Varianza e Indice di diversità D 0 10 20 30 40 50 60 70 80 90 100 D intracorso Medicina Medicina Veterinaria Veterinaria Farmacia Farmacia Scienze M.F.N. Scienze M.F.N. Psicologia Psicologia Agraria Agraria Lettere Lettere Lingue Lingue Sc. formazione Sc. formazione Giurisprudenza Giurisprudenza Sc. politiche Economia Economia 100% 90% 80% 70% 60% 50% 30% 20% 0% Sc. politiche D intercorso 40% Varianza intracorso 10% Varianza intercorso 34 Le opinioni degli studenti sulla didattica in università:sono attendibili le differenze ... Tabella 2. Indice di diversità D totale, inter-corso e intra-corso dei giudizi di Soddisfazione complessiva sul corso per le Facoltà dell'Università di Torino, indagine 2002-03 D totale D inter-corso D intra-corso % inter-corso % intra-corso Medicina 1,037 0,285 0,752 27,5 72,5 Veterinaria 0,925 0,228 0,697 24,6 75,4 Farmacia 0,986 0,229 0,757 23,3 76,7 Scienze M.F.N. 0,994 0,226 0,768 22,8 77,2 Psicologia 1,000 0,223 0,776 22,3 77,7 Agraria 0,945 0,184 0,761 19,5 80,5 Lettere 0,831 0,147 0,683 17,7 82,3 Lingue 0,828 0,134 0,694 16,2 83,8 Sc. formazione 0,827 0,122 0,705 14,8 85,2 Giurisprudenza 0,839 0,117 0,722 13,9 86,1 Sc. politiche 0,865 0,120 0,745 13,9 86,1 Economia 0,861 0,115 0,746 13,4 86,6 Un riscontro della suddetta ipotesi è ricavabile dal computo dell'incidenza degli insegnamenti che ottengono un giudizio medio inferiore a 2 (cioè più critico della moderata insoddisfazione, e con modesta eterogeneità dei pareri dato lo schiacciamento verso il limite inferiore della scala), con un 5,5% in area scientifica e un 1,7% in area umanistica. D'altro canto la relazione tra ambito disciplinare e livello della varianza intracorso potrebbe essere in parte spuria: in generale tra i corsi con classi di maggiori dimensioni essa tende ad assumere peso maggiore, e questo avviene sia in ambito umanistico che scientifico: il suo peso percentuale passa dal 72% al 91% per l'umanistico e dal 67% all'89% per lo scientifico, distinguendo tra le classi con meno di 50 frequentanti e le restanti. Tuttavia, essendo la dimensione media delle classi maggiore in ambito umanistico (45 studenti contro 32), la differenza della varianza intracorso tra i due ambiti disciplinari potrebbe essere in buona parte il riflesso della maggiore dimensione delle classi in ambito umanistico. A sua volta, questa appare difficile da interpretare, essendo sicuramente influenzato dalla prevalenza di impiego del questionario per singolo corso nelle facoltà umanistiche e del questionario “in batteria” tra quelle scientifiche. 5. Conclusioni Come evidenziato nelle riflessioni precedenti, numerosi fattori di carattere logistico, metodologico, interpretativo e psicologico rendono incerta l'attendibilità dei dati ottenuti dalle indagini sulle opinioni degli studenti sulla qualità della didattica in termini aggregati per “tastare il polso” di un corso di studio o di una intera facoltà. L'esperienza di prima applicazione del Doc. 9/02 del CNVSU ha fornito al riguardo Modelli statistici per l’analisi della transizione Università-lavoro 35 significativi elementi di valutazione e ha contribuito ad incrementare la consapevolezza della complessità di tali fattori. In questo senso due sono le principali direzioni in cui si ritiene sia opportuno muoversi: • sperimentazione e verifica di metodologie di indagine esplicitamente rivolte alla valutazione degli aspetti aggregati, anche al fine di confrontarne i risultati con quelle delle attuali indagini sulla qualità della didattica, verificando empiricamente le eventuali distorsioni che queste ultime comportano; • impulso verso il rafforzamento e razionalizzazione dei sistemi informativi sull'offerta didattica, come base di dati univoca ed attendibile su cui basare il lavoro di indagine in modo efficiente e consapevole. E' comunque opportuno ricordare che i risultati descritti, come molti altri dati ricavati dall'indagine, potrebbero essere più utilmente inquadrati in un contesto nazionale in cui il ruolo del CNVSU è preminente. Tuttavia ad oggi sono solo parzialmente noti gli indirizzi di lavoro e analisi che il CNVSU sta perseguendo o intende concretizzare nel prossimo futuro al riguardo. Su questi aspetti è sicuramente auspicabile una maggiore trasparenza sull'attività del Comitato Nazionale, nonché una maggiore diffusione da parte del Comitato di informazioni relative allo status del lavoro di valutazione della didattica per il complesso del sistema universitario italiano. Riferimenti bibliografici Comitato Nazionale Valutazione del Sistema Universitario (CNVSU) (2002), Proposta di un insieme minimo di domande per la valutazione della didattica da parte degli studenti frequentanti, DOC 09/02, Rapporto finale del gruppo di lavoro approvato dal Comitato nella seduta del 26 luglio 2002. GRILLI L. e RAMPICHINI C. (2002) Scomposizione della dispersione per variabili ordinali, Statistica, anno LXII, 1: 111-116. VIOLANI C. (2001), Rilevazione delle opinioni degli studenti sulla didattica nell'Università di Roma “La Sapienza”, CAPTOR 2000: Qualità della didattica e sistemi computer-assisted, Cleup, Padova: 11-26. 36 Le opinioni degli studenti sulla didattica in università:sono attendibili le differenze ... Appendice A - Valori di D e σ su 130 distribuzioni multinomiali a 4 modalità simulate σ 0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00 1,10 1,20 1,30 1,40 1,50 indice di Leti sqm mediante estrazione casuale dei valori delle frequenze, ordinate in base a Modelli statistici per l’analisi della transizione Università-lavoro 37 Appendice B - Valori di D e σ su 130 distribuzioni multinomiali a 4 modalità simulate mediante estrazione casuale dei valori delle frequenze indice di diversità D σ 1,50 1,25 1,00 0,75 0,50 0,25 0,00 xi ni 1 50 49 47 44 41 38 35 32 29 26 23 20 14 15 16 17 18 19 20 21 22 23 24 25 2 0 1 2 3 4 5 6 7 8 9 10 11 11 10 9 8 7 6 5 4 3 2 1 0 3 0 0 1 2 3 4 5 6 7 8 9 10 11 10 9 8 7 6 5 4 3 2 1 0 4 0 0 0 1 2 3 4 5 6 7 8 9 14 15 16 17 18 19 20 21 22 23 24 25 D di Leti 0,0000 0,0392 0,1520 0,3632 0,5520 0,7184 0,8624 0,9840 1,0832 1,1600 1,2144 1,2464 1,3064 1,3400 1,3704 1,3976 1,4216 1,4424 1,4600 1,4744 1,4856 1,4936 1,4984 1,5000 s.q.m. 0,0000 0,1400 0,3370 0,6000 0,7600 0,8754 0,9625 1,0284 1,0770 1,1107 1,1307 1,1377 1,1705 1,2042 1,2369 1,2689 1,3000 1,3304 1,3601 1,3892 1,4177 1,4457 1,4731 1,5000 38 Le opinioni degli studenti sulla didattica in università:sono attendibili le differenze ... Student's opinions of university teaching: are differences among aggregate results reliable? Summary: In recent years, student's opinion surveys on teaching quality in Italian Universities have changed considerably in methods and scope. This paper considers the validity and meaning of the data from such surveys, with reference to the work conducted by the "Nucleo di valutazione" (Evaluation Committee) of Turin University. Two sets of problems are of particular interest: • the individual context of the data vs. their relevance in aggregate analysis; • causes and meanings of the differences between aggregate results for nature sciences Faculties and human sciences Faculties. The first item has great relevance due to the diffusion and standardization of survey techniques, which encourages the assessment of whole Faculties and Courses based on the collected data. Regarding the second item, some of the possible factors behind such differences are assessed and compared, also considering appropriate dispersion decomposition techniques. It is shown how many effects must be considered to really understand the nature of this phenomenon. Keywords. Teaching quality; University; Dispersion indexes La valutazione dei percorsi formativi dei laureati attraverso l’uso del modello multicriterio Electre III Mario Enea, Ornella Giambalvo, Giovanni Morreale1 Università degli studi di Palermo Riassunto. La valutazione intesa come strumento strategico che ha la finalità di innescare un sistema di azioni e retroazioni teso al miglioramento dell'efficienza ed efficacia di un processo, ha assunto, in questi ultimi anni, un ruolo cruciale nel monitoraggio e miglioramento della qualità dei servizi, anche in ambito universitario. L’obiettivo del presente lavoro è quello di effettuare delle graduatorie dei corsi di laurea in termini di efficacia sia dal punto di vista formativo sia occupazionale, ottenute attraverso l'applicazione di metodi multicriterio (MCDM: Multiple Criteria Decision Making), quali l'Electre (ELimination Et Choix Traduisant la REalitè). I dati utilizzati sono tratti dall'indagine sugli sbocchi occupazionali dei laureati negli anni 1997-2001, svolta dall'Ateneo di Palermo, finanziato dal Centro di Orientamento e Tutorato. Parole chiave: Valutazione, Metodo multicriterio, Electre. 1. Premessa Uno degli aspetti più delicati dell’odierna realtà accademica, a partire dall’avvio dell’autonomia finanziaria delle Università (Art.5, legge n.537, 24 dicembre 1993), è sicuramente quello riguardante la gestione delle risorse. Per affrontare e risolvere i problemi legati ad un’efficace ed efficiente gestione delle risorse risulta indispensabile tener conto della molteplicità degli obiettivi che l’organizzazione si prefigge di raggiungere; ciò rende necessario che l’ente preposto a tale gestione disponga di adeguati strumenti di supporto alle decisioni, che consentano una razionalizzazione dei processi decisionali. A tal fine, i modelli analitici a supporto delle decisioni sviluppati negli ultimi decenni, rappresentano oggi una solida base da cui attingere per favorire l’introduzione di nuove tecniche di valutazione. L’implementazione di tali modelli su software di facile utilizzo, rende fruibili gli stessi anche da parte di utenti che non hanno il 1 La nota è stata redatta da M. Enea (Facoltà di Ingegneria) per i paragrafi 1, 3, 3.1, 3.2; da O. Giambalvo (Facoltà di Economia) per i paragrafi 2, 3.3 e da G. Morreale (CINAP) per i paragrafi 4 e 5. La valutazione dei percorsi formativi dei laureati... 40 tempo o le competenze analitiche necessarie per approfondire le basi teoriche su cui si fondano. Tenendo ben presente che la scelta dei modelli più appropriati, in funzione delle caratteristiche tecniche e decisionali del problema considerato, condiziona la validità dei risultati conseguibili, si è deciso di applicare i metodi multicriteri in ambito universitario perché convinti che in realtà sia possibile trovare delle similitudini tra la realtà accademica e la realtà aziendale nella quale tali metodi sono stati sperimentati. Tali metodi potrebbero, ad esempio, essere di supporto nel momento in cui è necessario stabilire quale Corso di Laurea ha bisogno di maggiori risorse per migliorare le sue performance, o per “premiare” quel Corso di Laurea che si è distinto per i risultati conseguiti. Il lavoro si sviluppa in 3 paragrafi, di cui: il primo introduce i dati utilizzati per l’analisi; il secondo propone una panoramica sulla metodologia utilizzata, partendo in generale dai metodi multicriteri, fino ad arrivare ai modelli di surclassamento; nel terzo viene presentata un’applicazione di tale metodologia alla realtà accademica palermitana. Il lavoro si chiude con delle riflessioni conclusive, nelle quali si mettono in evidenza pregi e difetti della metodologia proposta e vengono proposte delle nuove linee di sviluppo. 2. I dati Negli ultimi anni l’Ateneo palermitano ha avviato una iniziativa destinata a creare e gestire un database aggiornato dei suoi laureati, attraverso il quale è possibile conoscerne gli sbocchi occupazionali, il grado di soddisfazione rispetto al percorso formativo seguito ed altre notizie utili al fine di attuare migliori strategie di programmazione ed indirizzo all’interno della struttura universitaria. Tale iniziativa nasce dalla riflessione che compito istituzionale di una struttura didattica come l’Università è “produrre” laureati, sì capaci e preparati, ma che, altresì, siano richiesti dal mercato del lavoro. I dati utilizzati in questo lavoro sono tratti dall'indagine pilota sugli sbocchi occupazionali dei laureati dell’Ateneo di Palermo, finanziata dal Centro di Orientamento e Tutorato, che ha coinvolto i 4617 laureati delle facoltà di Economia ed Ingegneria dal 1997 al 2001. Agli ex studenti si chiedono, tra le altre, informazioni sulle competenze ed abilità acquisite, sulla rispondenza degli studi effettuati al lavoro effettivamente svolto, sulla soddisfazione per la preparazione acquisita durante gli studi. Questi dati rappresentano un riscontro di ciò che l’Ateneo è riuscito a trasmettere del suo progetto culturale. Infatti, le conoscenze ottenute, le competenze professionali raggiunte, sono frutto sia dell’impegno personale del singolo laureato, sia dell’ef- Modelli statistici per l’analisi della transizione Università-lavoro 41 ficacia del progetto formativo. Misurare tale efficacia non è facile, è un obiettivo che può essere raggiunto solo con approssimazioni successive. La valutazione espressa dal laureato sul percorso formativo seguito costituisce sicuramente un dato soggettivo, ma non per questo meno importante, anzi rappresenta proprio il dato dal quale partire per le riflessioni successive. Tali riflessioni possono anche basarsi su altro tipo di riscontro, quale, ad esempio, il giudizio espresso dalle aziende che vedono all’opera i laureati ed hanno quindi modo di valutare con occhio più critico l’efficacia professionale della formazione ricevuta dal laureato. L’indagine si è svolta mediante invio, per posta, di un questionario, disponibile anche via web, strutturato in quattro sezioni: la prima sezione, di carattere generale, rivolta a tutti i laureati e diplomati, riguarda giudizi relativi all'esperienza universitaria (ai laureati più anziani, che hanno già avuto la possibilità di un riscontro della propria preparazione nell'impatto col mondo del lavoro, sono state somministrate delle domande aggiuntive, più specifiche, relative agli insegnamenti ed alla preparazione complessiva ricevuta all'Università). I questionari si differenziano, quindi, a seconda che siano rivolti ai laureati da 1 o 2 anni (2000 e 2001) o ai laureati da più di due anni (1997-1999). La seconda sezione è rivolta soltanto a coloro ancora in cerca di prima occupazione; mentre la terza e la quarta sezione sono rivolte agli occupati e ai disoccupati. L’immagine che emerge dalla ricerca è abbastanza positiva, pur non mancando critiche e suggerimenti di cambiamento in diverse direzioni. Nel presente lavoro ci limiteremo a considerare soltanto i laureati, trascurando i diplomati i cui percorsi formativi si differenziano talvolta in maniera sostanziale rispetto a quelli dei laureati, ed in particolare i Corsi di Laurea delle facoltà di Economia ed Ingegneria nei quali si è registrato un sufficiente numero di rispondenti (maggiore o uguale a 10). I Corsi di laurea considerati sono stati così codificati: a1: “Economia e commercio” a7: “Ingegneria edile” a2: “"Scienze statistiche ed economiche” a8: “Ingegneria elettrica” a3: “"Ingegneria aeronautica” a9: “Ingegneria elettronica” a4: “"Ingegneria ambiente e territorio” a10: “Ingegneria gestionale” a5: “"Ingegneria chimica” a11: “Ingegneria informatica” a6: “Ingegneria civile” a12: “Ingegneria meccanica” In Figura 1 vengono riportati due boxplot che rappresentano la distribuzione dei laureati nei suddetti Corsi rispetto agli anni impiegati per conseguire la laurea (fig. 1A) e al voto di laurea (fig. 1B), suddivisi per Corso di laurea. E’ possibile osservare una notevole differenza tra i Corsi di laurea delle due facoltà: i Corsi di laurea della facoltà di Economia (a1 e a2), presentano un voto medio di laurea notevolmente inferiore rispetto a quello dei Corsi di laurea di Ingegneria; per quanto riguarda il numero medio di anni impiegati per conseguire la laurea si nota una sostanziale uniformità, ma anche in questo caso bisogna tener conto del fatto che i Corsi di Economia sono quadriennali mentre quelli di Ingegneria quinquennali. 42 La valutazione dei percorsi formativi dei laureati... Figura 1. Distribuzione dei laureati per Corso di laurea e Voto di laurea e Anni impiegati per conseguire la laurea Nelle figure 2, 3 e 4 vengono riportate le distribuzioni delle variabili utilizzate per l’applicazione del modello Electre, distinte per facoltà2. 2 Per un approfondimento sui risultati delle analisi svolte si consulti: il rapporto: “Indagine sul profilo e gli sbocchi occupazionali dei laureati dell'Ateneo di Palermo dal 1997 al 2001”, curato da Mario Enea, Ornella Giambalvo e Giovanni Morreale, in fase di pubblicazione; il sito del CINAP (Centro Informativo dell’Ateneo di Palermo), www.sif.unipa.it e (Enea, Giambalvo, 2002). Modelli statistici per l’analisi della transizione Università-lavoro 43 Figura 2. Distribuzione dei laureati per facoltà e Voto di laurea, Anni impiegati per conseguire la laurea e condizione occupazionale 44 La valutazione dei percorsi formativi dei laureati... Figura 3. Distribuzione dei laureati per facoltà e rispettivamente soddisfazione per il percorso di studi, il lavoro svolto e l’utilità del percorso formativo Modelli statistici per l’analisi della transizione Università-lavoro 45 Figura 4. Distribuzione dei laureati per facoltà e categoria di reddito annuo netto percepito 3. L’analisi multicriteri La complessità della realtà circostante rende sempre più difficile il lavoro del policy maker, il quale sente la necessità di individuare delle metodologie valutative che gli siano di supporto nell’attività di selezione di progetti e di scelta delle strategie. Molti approcci alla valutazione di progetti e strategie, in sostanza, fanno riferimento alla nota teoria dell’utilità che presuppone l’esistenza di una funzione di utilità univoca. Tuttavia, ricondurre il problema multiobiettivo alla massimizzazione di una funzione di utilità pone problemi al decisore per quanto riguarda la normalizzazione dei fattori considerati e la scelta dei pesi che dovrebbero esprimere l’importanza di ciascun criterio; inoltre, tale approccio mira all’individuazione della “soluzione ottima”, non sempre ottenibile e, comunque, non sempre significativa. Altra tipologia di approccio al problema si basa sull’impiego del metodo AHP (Analytic Hierarchy Process) per la selezione delle alternative. Tuttavia, anche l’AHP è un metodo compensativo e quindi può condurre a considerare migliore una soluzione che lo è per tutti gli attributi, tranne per uno rispetto al quale è talmente scadente da dovere invece essere considerata inaccettabile. Di recente Yang. T. ed altri (2003) hanno proposto di impiegare AHP per la valutazione dei criteri qualitativi accoppiato al metodo DEA (Data Envelopment Analysis) per la selezione delle soluzioni migliori tra quelle generate. Nel presente lavoro è proposto l’impiego della tecnica Electre III (Roy B. 1978); tale approccio consente di tenere conto dell’imprecisione e dell’incertezza con 46 La valutazione dei percorsi formativi dei laureati... la quale sono spesso valutati gli attributi e nello stesso tempo di evitare che una soluzione inaccettabile per un solo requisito possa prevalere su un’altra; ciò è ottenuto attraverso l’uso di soglie di veto nel confronto tra due soluzioni per ciascun criterio di valutazione considerato. E’ all’inizio degli anni ’60, nell’ambito della ricerca operativa, che viene espressa, per la prima volta, la necessità di prendere in considerazione una molteplicità di criteri, anche conflittuali, per definire un problema e provare a fornire una soluzione. Questa soluzione non ha più le caratteristiche di “ottimo” della programmazione matematica; anche se è ancora una soluzione ammissibile del problema in esame, poiché rispetta tutti i vincoli che ne modellizzano la struttura, non è però l’ottimo perché, avendo sostituito ad un singolo obiettivo da ottimizzare una pluralità di obiettivi anche conflittuali, non esistono più le condizioni logico-matematiche per garantire l’esistenza di una soluzione ottima. E’ stato, pertanto, introdotto il concetto di dominanza della soluzione, per cui, date due alternative Ai e Ak, diremo che Ai non è dominata da Ak se e solo se per ogni attributo il suo valore per Ai non è minore del valore dello stesso attributo per Ak. Si può dire che, in generale, non esiste una decisione possibile (una soluzione del problema o comunque un’azione che possa essere intrapresa) che sia contemporaneamente la migliore da tutti i punti di vista ritenuti significativi per trattare il problema decisionale nella sua globalità. Come specifico ambito disciplinare, l’analisi multicriteri si sviluppa soprattutto a partire dagli anni ’80, trovando applicazione in contesti di decisione sia individuali che collettivi. E’, quindi, una tecnica estremamente giovane, la quale deriva essenzialmente da problematiche reali di varia natura e che si estrinseca in un insieme di metodologie diversificate e non ancora omogeneizzate in una comune base teorica. La ricerca più recente sta colmando il divario tra empirismo e sistematizzazione teorica nell’ambito di tale tipo di analisi. Il paradigma dell’ottimizzazione è stato ormai abbandonato in molti ambienti della ricerca teorica e viene spesso criticato nella recente letteratura; una di queste critiche è stata mossa, ad esempio, da Herbert Simon (premio Nobel per l’economia nel 1978), secondo il quale non è l’alternativa “migliore” che deve essere raggiunta (anche perché potrebbe essere oggettivamente impossibile raggiungerla), ma devono invece essere identificate alternative che “soddisfano” un certo numero di requisiti esplicitamente definiti (approccio della scelta soddisfacente) (Simon H.A. (1997)). Più di recente, è emerso un altro tipo di approccio, secondo il quale le soluzioni scelte devono essere “giustificate”. Tale approccio assume una particolare rilevanza nell’analisi multicriteri; infatti, le decisioni finali dipendono comunque dalle condizioni iniziali poste dallo stesso decisore; è quindi importante che tali decisioni possano essere definite e giustificate. Modelli statistici per l’analisi della transizione Università-lavoro 47 3.1 Approccio al metodo multicriteri Nell’analisi multicriteri la procedura decisionale sfocia, normalmente, nella scelta tra diversi elementi che il decisore si trova ad esaminare e a valutare rispetto ad una serie di criteri. Tali elementi vengono detti azioni o alternative e costituiscono l’insieme A delle azioni tra le quali il decisore si trova a dover operare una scelta. La definizione di A non solo dipende dallo specifico problema che deve essere risolto e dai soggetti coinvolti nella procedura di decisione, ma interagisce fortemente anche con la modellizzazione delle preferenze, la definizione dei criteri, l’enunciazione del problema e, infine, con la scelta dei metodi di aiuto alla decisione che vengono applicati. Su ciascuna delle azioni vengono misurati degli attributi. Un attributo può fornire direttamente indicazioni sul livello di un criterio (ad esempio, l’attributo “il profitto netto” in euro rispetto al criterio “massimizzare il profitto”), ma in altri casi un criterio può non avere un attributo direttamente corrispondente (ad esempio, il criterio “migliorare la qualità di un sistema di trasporto pubblico urbano”). Può esistere in questi casi un attributo (o un insieme di attributi), detto Proxy Attribute o driver, che, indirettamente, fornisce indicazioni su tale criterio (ad esempio, attributi quali il “rapporto tra il tempo medio di percorrenza e la lunghezza del tragitto”). Nell’analisi multicriteri entrano in gioco i seguenti componenti basilari: Criteri e relativi attributi; Decisore/i ed eventuali supporti per l’elaborazione dell’informazione; Regola decisionale (decision rule), ovvero quella regola usata per ordinare le alternative secondo le informazioni acquisite e le preferenze del decisore. L’approccio generale ad un problema decisionale consiste nell’utilizzare le informazioni note insieme ai giudizi espressi dal decisore per determinare una decisione di compromesso, ovvero aiutare il decisore a selezionare quella alternativa maggiormente coerente con la sua struttura di preferenza. 3.2 Metodi di surclassamento Tra i metodi multicriteri di supporto alla decisione merita particolare attenzione la classe dei metodi di surclassamento, sviluppata per affrontare problemi di scelta (azione migliore tra più alternative), di classificazione (attribuzione delle azioni considerate a più classi di cui si conoscono le caratteristiche) e di ordinamento (costruzione di un ordine di preferenza sull’insieme di possibili azioni da intraprendere). L’obiettivo è quello di fornire ai decisori strumenti per affrontare problemi decisionali caratterizzati da una molteplicità di punti di vista e, spesso, da un limitato livello di strutturazione che si sviluppano in ambito organizzativo. Tali metodi mirano a costruire una relazione tra le azioni, detta di “surclassamento”, e ad utilizzare questa relazione per aiutare il decisore ad affrontare il problema specifico. 48 La valutazione dei percorsi formativi dei laureati... In tutti i metodi di surclassamento coppie di azioni potenziali vengono confrontate su ogni singolo criterio per stabilire se una delle due è preferibile all’altra o se sono indifferenti. Il problema dell’aggregazione dei risultati dei confronti è affrontato mediante la costruzione della relazione di surclassamento (S), intesa come l’unione delle relazioni elementari di indifferenza (I), preferenza debole (Q) e preferenza stretta (P). E’ inoltre considerata anche l’eventualità dell’incomparabilità tra azioni (N), diversa dall’indifferenza poiché causata dall’esistenza di preferenze contrastanti sui diversi criteri, che rendono impossibile stabilire quale delle due azioni sia migliore, sapendo che non sono uguali. Si può dire che l’azione a surclassa l’azione a ′ (aSa ′) se, in relazione a ciò che si conosce delle preferenze del decisore ed alla qualità delle valutazioni delle azioni, “esistono ragioni sufficienti per ritenere che a sia almeno altrettanto buona di a ′ e non esistono buone ragioni per rifiutare tale affermazione”. Il surclassamento si basa sul principio di concordanza/discordanza3, cioè sulla verifica dell’esistenza di una concordanza dei criteri a favore di un’azione piuttosto che di un’altra e sul controllo che non esistano situazioni di forte discordanza tra valutazioni, in grado di mettere in discussione (espressione del veto) la concordanza. Il surclassamento può essere:“definito” o “crisp”, quando la relazione aSa’ corrisponde ad un surclassamento certo e si può indicare con sicurezza la preferenza di un’azione sull’altra, la loro indifferenza o l’incomparabilità; “sfumato o fuzzy”, quando si associa al surclassamento un grado di credibilità compreso tra 0 ed 1, con cui esprimere una differente credibilità nell’affermare che esiste una relazione di surclassamento tra due specifiche azioni. Tutti i metodi di surclassamento propongono una stessa struttura in fasi, in cui una è dedicata al confronto a coppie sui singoli criteri ed all’aggregazione di questi risultati con la modellizzazione del surclassamento (mediante test o elaborazione di indici di concordanza e discordanza); la fase successiva utilizza le relazioni di surclassamento per arrivare ad un risultato finale, adottando una procedura che renda operativa una regola di decisione coerente per affrontare il problema decisionale. Esistono diversi metodi di surclassamento; la scelta tra i differenti metodi è motivata da indicazioni connesse sia alla natura dei dati a disposizione e quindi dei criteri che si possono utilizzare, che alla precisa regola di decisione che si vuole rendere operativa. Tra i metodi di surclassamento alcuni adottano criteri senza soglie, altri con soglie, alcuni solo scale quantitative, altri ogni tipo di scala, permettendo quindi di trattare sostanzialmente ogni situazione, mediante differenti procedure di modellizzazione del surclassamento. 3 Gli indici di concordanza e discordanza utilizzati in questo tipo di modelli differiscono dagli usuali indici di associazione utilizzati in statistica, nel senso che la concordanza non va intesa tra le variabili, i criteri in questo caso, ma tra le alternative. Due alternative sono concordanti se risulta indifferente, per il decisore la scelta dell’una o dell’altra, discordanti quando non sono confrontabili. Modelli statistici per l’analisi della transizione Università-lavoro 49 Due sono le famiglie principali che costituiscono la categoria dei metodi di surclassamento: i metodi Electre, orientati alla scelta (Electre I) o all’ordinamento (Electre II, III e IV), ed i metodi di selezione/segmentazione, che affrontano la problematica della classificazione (come Electre Tri). I primi vengono utilizzati per analizzare e confrontare a coppie tutti gli elementi di un insieme A, finito, di azioni possibili, per identificare un sottoinsieme di azioni con le caratteristiche di efficienza, per scegliere, o per ottenere una graduatoria che fornisca indicazioni a proposito di tutte le azioni esaminate e che consenta, se necessario, la selezione di un ristretto insieme di azioni da sottoporre ad uno studio più dettagliato. I metodi di selezione/segmentazione analizzano un insieme di azioni che non sono necessariamente in competizione tra di loro ma che devono essere attribuite a categorie definite. Le azioni, in questo caso, non sono confrontate le une con le altre, ma con gli elementi di un insieme di riferimento che deve essere definito, tenendo conto ad esempio di norme e procedure a vari livelli, di specifiche, livelli di aspirazione e modelli di rischio. Il confronto con il riferimento deve fornire indicazioni per accettare o rifiutare l’azione candidata o per attribuirla ad una precisa classe. 3.3 I metodi Electre I metodi Electre (ELimination Et Choix TRaduisant la REalitè) sono metodi multicriteri di aggregazione parziale delle preferenze mediante surclassamento e sono stati sviluppati da Roy e dai suoi collaboratori dell’Università Dauphine di Parigi a partire dalla fine degli anni ’60. Questi metodi si differenziano per le problematiche affrontate (scelta per il primo, ordinamento per gli altri), la natura dei dati trattati e quindi il tipo di criteri (criteri per il primo ed il secondo, con scale cardinali il primo e cardinali o ordinali il secondo; pseudo-criteri invece per gli ultimi due, che utilizzano scale cardinali con soglie) e per la procedura di modellizzazione del surclassamento. Tutti i metodi Electre sono strutturati in due fasi: nella prima (di modellizzazione del surclassamento) si confrontano a coppie le azioni su ogni criterio e si aggregano i risultati ottenuti, mediante la costruzione di indici o l’applicazione di test che verificano la presenza di condizioni di concordanza e di non concordanza, alla base del concetto di surclassamento; nella seconda fase si attiva la procedura di classificazione delle azioni relativa alla problematica in esame ed alla regola decisionale modellizzata. La scelta tra i differenti metodi è motivata da indicazioni connesse sia alla natura dei dati a disposizione, quindi dei criteri che si possono utilizzare, sia alla precisa regola di decisione che si vuole rendere operativa. La terza versione del modello rappresenta il primo tentativo di surclassamento sfumato apparso in letteratura e risale al 1978 (Roy B.). Per utilizzare il modello Electre III, l’utente deve disporre sia dei dati di base del problema di scelta (alternative e criteri) che delle preferenze del decisore; tali preferenze si sostanziano in un La valutazione dei percorsi formativi dei laureati... 50 peso e tre valori di soglia per ogni criterio. Il peso associato a ciascun criterio rappresenta un coefficiente di importanza relativa, che costituisce una delle parti più delicate del modello perché è l’espressione più diretta ed esplicita delle preferenze decisionali e può influenzare i risultati del metodo in modo significativo. Le soglie rappresentano dei valori che vengono introdotti per ridurre due tipi di rischio: quello di considerare distinte due situazioni corrispondenti a condizioni e valutazioni molto prossime e sostanzialmente equivalenti e quello di non considerare distinte situazioni preferenziali differenti. In particolare: la soglia di indifferenza (qj) esprime la differenza minima, tra i valori assunti dal criterio j, a cui il decisore attribuisce significato in termini di indifferenza. Ad esempio, se due Corsi di laurea differiscono di 2 punti rispetto al voto di laurea medio e la soglia di indifferenza su tale criterio è pari a 3, allora i due Corsi di laurea saranno, di fatto, indifferenti rispetto a tale criterio. Solo una differenza superiore a 3 sarà considerata rilevante; la soglia di preferenza (sj) esprime la differenza minima, tra i valori assunti dal criterio j, a cui il decisore attribuisce significato in termini di preferenza stretta. Ad esempio, se due Corsi di Laurea differiscono di 5 punti rispetto al voto di laurea medio e la soglia di preferenza fissata dal decisore su tale criterio è pari a 4, allora il Corso di laurea con il voto più alto sarà strettamente preferito all’altro; la soglia di veto (vj) esprime la differenza minima, tra i valori assunti dal criterio j, oltre la quale il decisore ritiene che il divario tra i punteggi non sia più compensabile con le prestazioni degli altri criteri. Ad esempio, se il Corso di laurea A supera il Corso di laurea B di 8 punti, rispetto al voto di laurea medio, e la soglia di veto fissata dal decisore su tale criterio è pari a 5, allora B non può surclassare A, qualunque sia il valore relativo degli altri attributi. Questo metodo si distingue da Electre I e II principalmente perché utilizza gli pseudo-criteri, cioè criteri a cui sono associabili elementi di incertezza informativa e preferenziale, e quindi modellizza, nella prima fase del metodo, un surclassamento sfumato, o “fuzzy”, che associa a ciascuna relazione, tra coppie ordinate di azioni, una funzione caratteristica δ(a,a’), che esprime il grado di credibilità della relazione di surclassamento. Sia A={ai: iЄI} un insieme finito di alternative, valutate su una famiglia di pseudo-criteri g={gj: jЄJ}. Sulla scala Ej di ogni criterio, vengono definite 3 soglie ( q j , s j , v j ): 0 ≤ qj ≤ sj ≤ vj rispettivamente di indifferenza, di preferenza e di veto; ad ogni criterio viene assegnato un peso, in modo da ottenere un vettore di pesi normalizzati p={ pj: j Є J }, tale che: ∀j 0 ≤ pj ≤1 e ∑p j =1 j∈J Il modello Electre III si basa, nella prima fase, sulla definizione di indici marginali di concordanza e discordanza per ogni criterio j Є J, e può essere così schematizzato: Modelli statistici per l’analisi della transizione Università-lavoro 51 (a , a' ) ∈ A × A g j (a) e g j (a' ) Per ogni j si calcola un indice marginale Per ogni j si calcola un indice marginale di discordanza : di concordanza : 0 <= c j (a, a ' ) <= 1 0 <= d j (a, a' ) <= 1 Si calcola un indice di credibilità Si calcola un indice aggregato di concordanza : del surclassamento : 0 <= δ (a, a ' ) <= 1 0 <= c(a, a' ) <= 1 Per ogni coppia di alternative (a, a') e per ogni criterio, l’indice marginale di concordanza è definito in base al confronto tra l’ampiezza degli scarti di valutazione g j (a) − g j (a' ) e le soglie qj ed sj, distinguendo i casi in cui il criterio è crescente (all’aumentare dei valori del criterio migliora il giudizio sull’alternativa) e decrescente (all’aumentare dei valori del criterio peggiora il giudizio sull’alternativa). Se il criterio è crescente, allora: g j (a) g j (a) + q j g j (a) + s j se g j (a' ) ≤ g j (a) + q j ⇒ c j (a, a' ) = 1 le due alternative sono indifferenti; se g j (a' ) ≥ g j (a) + s j ⇒ c j (a, a' ) = 0 l’alternativa a' surclassa l’alternativa a; se g j (a) + q j < g j (a' ) < g j (a) + s j si procede ad una interpolazione e si può affermare che l’alternativa a' surclassa “debolmente” l’alternativa a. Considerando, ad esempio, tra le possibili interpolazioni, una interpolazione di tipo lineare si avrà: s j − (g j (a' ) - g j (a)) c j (a, a' ) = sj − qj Se, invece, il criterio è decrescente, allora: g j (a) − s j g j (a) - q j g j (a) - q j La valutazione dei percorsi formativi dei laureati... 52 se g j (a' ) ≥ g j (a) − q j ⇒ c j (a, a' ) = 1 le due alternative sono indifferenti; se g j (a' ) ≤ g j (a) − s j ⇒ c j (a, a' ) = 0 l’alternativa a' surclassa l’alternativa a; se g j (a) − s j < g j (a' ) < g j (a) − q j si procede ad una interpolazione e si può affermare che l’alternativa a' surclassa “debolmente” l’alternativa a. Considerando sempre una interpolazione di tipo lineare si avrà: g j (a' ) - (g j (a) - s j ) c j (a, a' ) = sj − qj In questo modo si ottiene una matrice di concordanza per ognuno dei criteri considerati; gli elementi di ogni matrice sono i coefficienti di concordanza tra tutte le coppie di alternative, rispetto al criterio considerato. Analogo il ragionamento per quanto riguarda gli indici marginali di discordanza, con l’unica differenza che in questo caso viene introdotta la soglia di veto. Se il criterio è crescente, allora: g j (a) g j (a) + s j g j (a) + v j se g j (a' ) ≤ g j (a) + s j ⇒ d j (a, a' ) = 0 le due alternative sono indifferenti; se g j (a' ) ≥ g j (a) + v j ⇒ d j (a, a' ) = 1 l’alternativa a non può surclassare la a' ; se g j (a) + s j < g j (a' ) < g j (a) + v j si procede all’interpolazione e si può affermare che l’alternativa a' surclassa “debolmente” l’alternativa a. Considerando l’interpolazione lineare si avrà: (g j (a' ) - g j (a)) − s j d j (a, a' ) = vj −sj Se, invece, il criterio è decrescente, allora: g j (a) - v j g j (a) − s j g j (a) se g j (a' ) ≥ g j (a) − s j ⇒ d j (a, a' ) = 0 le due alternative sono indifferenti; se g j (a' ) ≤ g j (a) − v j ⇒ d j (a, a' ) = 1 l’alternativa a non può surclassare la a' ; Modelli statistici per l’analisi della transizione Università-lavoro 53 se g j (a) − v j < g j (a' ) < g j (a) − s j si procede alla solita interpolazione e si può affermare che l’alternativa a' surclassa “debolmente” l’alternativa a. Con l’interpolazione lineare si avrà: (g j (a) - g j (a' )) - s j ) d j (a, a' ) = vj −sj Una volta ottenute J matrici di concordanza e J matrici di discordanza, entrambe di dimensione I×I, si procede al calcolo della matrice di concordanza aggregata, sempre di dimensioni I×I, i cui elementi sono la somma ponderata, con i pesi inizialmente assegnati ai criteri, degli indici marginali di concordanza: c ( a, a ' ) = ∑ p j c j ( a, a ' ) j∈J A partire dalla matrice di concordanza aggregata e dalle singole matrici di discordanza si procede al calcolo della matrice di credibilità del surclassamento, i cui elementi sono così ottenuti: se ∀j d j (a, a' ) = 0 ⇒ δ(a, a' ) = c(a, a' ) ; se ∃j : d j (a, a' ) > 0 allora : se d j (a, a' ) < c(a, a' ) ⇒ δ(a, a' ) = c(a, a' ) 1 - d j* (a, a' ) se d j (a, a' ) >= c(a, a' ) ⇒ δ(a, a' ) = c(a, a' ) × ∏ j*∈J* 1 − c(a, a' ) A questo si procede con la costruzione del preordine finale, ossia l’ordinamento globale delle alternative. A tal fine viene impiegato un algoritmo di distillazione4 che, a partire dall’individuazione di una soglia di discriminazione s (δ ) cioè la distanza massima tra due credibilità, in modo da essere ancora considerate dello stesso ordine di grandezza, permette di estrarre dalla matrice di credibilità le alternative che entreranno a far parte dell’ordinamento. In realtà vengono applicati due algoritmi di distillazione, uno dall’alto, che estrae dalla matrice le alternative, dalla migliore alla peggiore, ed uno dal basso che le estrae invece dalla peggiore alla migliore. Si ottengono, quindi, due preordini; soltanto dall’intersezione di questi due preordini sarà possibile pervenire all’ordinamento finale. Per l’estrazione delle alternative si individua, nella matrice di credibilità del surclassamento, il grado di credibilità massimo δ 0 , pari a: δ 0 = max δ (a, a' ) ( a , a ')∈Ai 4 Con questo termine si indica la procedura di estrazione delle alternative dalla matrice di credibilità del surclassamento e di collocazione delle stesse in una graduatoria. La valutazione dei percorsi formativi dei laureati... 54 cioè il massimo tra i valori δ (a, a' ) al passo i-esimo (Ai è la matrice di credibilità al passo i); esso determina un “valore di credibilità” tale che saranno considerati solo i valori di δ (a, a' ) che sono sufficientemente vicini a δ 0 . Si sottrae, quindi, la soglia di discriminazione s (δ ) e così si calcola δ 0' : δ 0' = δ 0 − s(δ ) e si calcola il primo livello di separazione, δ i , relativo all’insieme Ai: δ i = max δ (a, a' ) ( a , a ' )∈Ω dove Ω = {(a, a' ) : δ (a, a' ) < δ } , e si definisce la qualificazione di ogni azione q(ai) come il numero di azioni che sono surclassate dall’azione ai meno il numero di azioni che la surclassano, cioè: q(a i ) = p(a i ) - d(a i ) dove: p(a i ) = {a'∈ A i : δ(a, a' ) > δ1 e ( δ(a, a' ) - δ(a' , a) ) > s( δ )} ' 0 d(a i ) = {a'∈ A i : δ(a, a' ) > δ1 e ( δ(a' , a) - δ(a, a' ) ) > s( δ )} L’algoritmo di distillazione dall’alto classifica le azioni in base alla qualificazione massima, secondo la regola: q + = max q(a i ) a i ∈A i ottenendo il seguente sottoinsieme di Ai: D1+ = {a i ∈ A i : q(a i ) = q + } dove D1+ sarà il primo distillato dall’alto, ed ogni classe Ci+ sarà costruita partendo dall’alto su questo distillato. Qualora D1+ contenga soltanto una azione, si pone Ci+= D1+ e si ripete la procedura finora descritta sull’insieme delle azioni rimanenti per l’iterazione successiva, altrimenti si applica l’algoritmo all’insieme delle azioni di D1+ generando così una sottodistillazione finché esso non conterrà che un’azione. La procedura è poi ripetuta partendo da Ai+1 e termina quando non c’è più alcun elemento dell’insieme A delle azioni che non sia stato attribuito ad una classe. Il risultato ottenuto è la distillazione dall’alto. Nella distillazione dal basso, il procedimento è simile al precedente però la selezione è effettuata in base alla qualificazione minima secondo la regola: q − = min q(a i ) a i ∈A i D1- = {a i ∈ A i : q(a i ) = q − } In questo caso D1- sarà il primo distillato dal basso, e ciascuna classe Ci- sarà costruita partendo dal basso. Ottenuti i due preordini P(A)+ e P(A)- dagli algoritmi di distillazione, si procederà all’individuazione del preordine finale. Il procedimento proposto da Schärlig (1996) per definire un preordine finale è una “intersezione”, se- Modelli statistici per l’analisi della transizione Università-lavoro 55 condo il significato della teoria degli insiemi, che si basa sulle seguenti tre regole: un’azione del preordine finale non può essere posta prima di un’altra se non nel caso in cui essa è prima di quest’ultima in uno dei due preordini P(A)+ o P(A)- e prima di questa oppure ex aequo nell’altro; due azioni non possono essere ex aequo nel preordine finale se non nel caso in cui appartengono alla stessa classe in entrambe le classificazioni dall’alto e dal basso; due azioni sono incomparabili nel preordine finale se l’una è prima dell’altra in una classificazione (o dall’alto o dal basso) e la segue nell’altra. Il risultato può essere rappresentato sotto forma di un grafo. 4. Un’applicazione Il metodo Electre III è stato applicato ai corsi di Laurea (cfr. par.2), valutandoli rispetto ai seguenti criteri: g1: Voto di laurea; g2: Durata effettiva del Corso di studi; g3: Percentuale di occupazione; g4: Soddisfazione per il percorso formativo; g5: Soddisfazione per il lavoro svolto; g6: Utilità del percorso formativo seguito per trovare occupazione; g7: Reddito annuo. Da notare che la durata effettiva del Corso di studi è calcolata come rapporto tra la media del numero di anni impiegati per conseguire la laurea e la durata legale del Corso di studi. La matrice delle performance ottenuta è la seguente: a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 g1 102,8 104,2 107,8 109,5 106,4 106,7 107,2 107,7 107,8 105,9 109,2 107,2 g2 1,86 1,81 1,59 1,15 1,52 1,57 1,47 1,81 1,77 1,53 1,47 1,42 g3 49,10 48,48 49,28 48,82 48,83 48,96 48,93 49,29 51,35 49,82 48,63 49,47 g4 g5 2,0 2,0 1,0 1,5 2,0 2,0 3,0 2,0 2,0 2,0 2,0 2,0 g6 3 2 3 3 2 2 3 3 3 3 3 2 3 3 2 3 3 2 3 2 3 3 3 3 g7 13.240 13.150 15.590 10.830 17.350 13.640 11.580 16.750 18.270 17.080 19.440 17.580 Per quanto riguarda g1, g2 e g7 si è considerato il valore medio; per g4, g5 e g6 si è considerato il valore mediano dei giudizi espressi dai laureati sul questionario, giudizi espressi su una scala da 1 a 5, con valori che vanno da “Totalmente soddisfatto” a “Per niente soddisfatto”. La valutazione dei percorsi formativi dei laureati... 56 La matrice dei pesi e delle soglie associate ai criteri è, invece, la seguente5: Verso Peso Soglia di indifferenza (q) Soglia di preferenza (s) Soglia di veto (v) g1 C 0,04 1 2 4 g2 D 0,08 0,2 0,4 0,6 g3 C 0,17 5 15 25 g4 D 0,21 1 2 3 g5 D 0,17 1 2 3 g6 D 0,21 1 2 3 g7 C 0,12 1.200 2.400 3.000 I pesi e le soglie sono stati attribuiti sulla base di considerazioni che scaturiscono dalla conoscenza del territorio, sia dal punto di vista del mercato del lavoro che dal punto di vista universitario (Enea e Giambalvo, 2002). A partire dalla matrice delle performance, e tenendo conto delle soglie fissate rispetto a ciascun criterio, vengono calcolati gli indici di concordanza e di discordanza marginali tra tutte le possibili coppie di alternative, rispetto a ciascun criterio. In relazione al criterio g1, voto di laurea, con verso di preferenza crescente e soglie q1=1 e s1=2, supponiamo di voler calcolare gli indici c1(a1, ai) rispetto al sottoinsieme (a1, a2, a4, a8). I valori del criterio g1 su tutte le alternative sono riportate nella tabella sottostante: Alternative g1(ai) a1 102,8 a2 104,2 a4 109,5 a8 107,7 La figura 5 mostra le alternative ed i corrispondenti stati di valutazione sulla scala associata al criterio. La Figura 6 mostra, invece, come si dispongono le valutazioni al fine di ottenere gli indici di concordanza c1(a1,ai). In essa compaiono: la valutazione di a1 sul criterio g1 (g1(a1)=102,8) ed i valori ottenuti aggiungendo le soglie: g1(a1)+q1(a1)=102,8+1=103,8 g1(a1)+s1(a1)=102,8+2=104,8. Figura 5. Alternative valutate sul criterio g1 a2 a1 a8 102,8 107,7 104,2 5 C=crescente, D=decrescente a4 g1 109,5 Modelli statistici per l’analisi della transizione Università-lavoro 57 Figura 6. Indici marginali di concordanza c1 (a 1 , a i ) (1) (3) (2) 102,8 103,8 g 1 (a 1 ) g 1 (a 1 ) + q 1 (a 1 ) 104,8 g1 g 1 (a 1 ) + s1 (a 1 ) Al variare della posizione delle altre alternative (zone 1, 2, 3), si ottengono i seguenti valori per gli indici di concordanza marginale: Zona (1): alternative per cui lo scarto tra le valutazioni non è tale da superare la soglia di indifferenza, in questo caso c1(a1,ai)=1. Nell’esempio considerato, nessuna delle alternative si trova in questa zona. Zona (2): alternative debolmente migliori rispetto ad a1, il cui scarto è compreso tra soglia di indifferenza e la soglia di preferenza, 0<c1(a1,ai)<1. Nell’esempio considerato, si trova nella zona (2) l’alternativa a2; si procede, pertanto, all’interpolazione lineare, ottenendo: c1 (a 1 , a 2 ) = s1 (a 1 ) − (g1 (a 2 ) − g1 (a 1 )) 2 − (104,2 − 102,8) = 0,6 = s1 (a 1 ) − q1 (a 1 ) 2 −1 Zona (3): alternative migliori di a1 con uno scarto tra le valutazioni superiore alla soglia di preferenza, c1(a1,ai)=0. Nell’esempio considerato, si trovano in questa zona le alternative a4 ed a8, per cui c1(a1,a4)=0 e c1(a1,a8)=0. Dalle matrici di concordanza marginale, tenendo conto dei pesi specificati inizialmente dal decisore, si costruisce la matrice di concordanza aggregata (Tabella 1), i cui elementi sono, come abbiamo visto, la somma ponderata degli indici di concordanza marginale. Gli elementi della matrice di concordanza aggregata vengono poi utilizzati, insieme alle matrici di discordanza marginale per calcolare gli indici di credibilità del surclassamento (Tabella 2), che servirà come base di partenza per la costruzione dell’ordinamento finale. 58 La valutazione dei percorsi formativi dei laureati... Tabella 1. Matrice degli indici di concordanza aggregata a1 a2 a3 a4 a5 a6 a7 a8 a1 0,00 0,98 0,81 0,87 0,77 0,92 0,87 0,83 a2 1,00 0,00 0,82 0,87 0,80 0,94 0,90 0,83 a3 1,00 1,00 0,00 0,89 0,94 1,00 1,00 1,00 a4 0,87 0,88 0,87 0,00 0,87 0,87 1,00 0,87 a5 1,00 1,00 0,98 0,88 0,00 1,00 1,00 0,99 a6 1,00 1,00 0,92 0,87 0,87 0,00 1,00 0,87 a7 0,95 0,96 0,67 0,81 0,87 0,91 0,00 0,87 a8 1,00 1,00 0,99 0,88 0,96 0,98 0,94 0,00 a9 1,00 1,00 1,00 0,89 0,98 1,00 0,95 1,00 a10 1,00 1,00 0,96 0,88 1,00 1,00 0,99 0,97 a11 1,00 1,00 1,00 0,95 1,00 1,00 1,00 1,00 a12 1,00 1,00 1,00 0,93 1,00 1,00 1,00 1,00 a9 0,83 0,83 0,87 0,87 0,98 0,87 0,87 0,97 0,00 0,96 1,00 1,00 a10 0,78 0,81 0,97 0,87 1,00 0,87 0,87 0,97 0,98 0,00 1,00 1,00 a11 0,75 0,77 0,86 0,87 0,86 0,83 0,83 0,79 0,94 0,84 0,00 0,89 a12 0,75 0,75 0,92 0,87 1,00 0,87 0,87 0,92 0,94 0,99 1,00 0,00 Tabella 2. Matrice degli indici di credibilità del surclassamento a1 a2 a3 a4 a5 a6 a7 a8 a9 a1 0,00 0,98 0,00 0,00 0,00 0,56 0,00 0,00 0,00 a2 1,00 0,00 0,82 0,00 0,00 0,94 0,90 0,00 0,00 a3 1,00 1,00 0,00 0,89 0,94 1,00 1,00 1,00 0,87 a4 0,87 0,88 0,00 0,00 0,00 0,87 1,00 0,00 0,00 a5 1,00 1,00 0,98 0,88 0,00 1,00 1,00 0,99 0,98 a6 1,00 1,00 0,92 0,87 0,00 0,00 1,00 0,00 0,00 a7 0,95 0,96 0,00 0,81 0,00 0,91 0,00 0,00 0,00 a8 1,00 1,00 0,99 0,00 0,96 0,98 0,94 0,00 0,97 a9 1,00 1,00 1,00 0,00 0,98 1,00 0,95 1,00 0,00 a10 1,00 1,00 0,96 0,88 1,00 1,00 0,99 0,97 0,96 a11 1,00 1,00 1,00 0,95 1,00 1,00 1,00 1,00 1,00 a12 1,00 1,00 1,00 0,93 1,00 1,00 1,00 1,00 1,00 a10 0,00 0,00 0,97 0,00 1,00 0,00 0,00 0,97 0,98 0,00 1,00 1,00 a11 0,00 0,00 0,00 0,00 0,86 0,00 0,00 0,79 0,94 0,84 0,00 0,89 a12 0,00 0,00 0,92 0,00 1,00 0,00 0,00 0,92 0,94 0,99 1,00 0,00 Applicando gli algoritmi di distillazione dall’alto e dal basso a questa matrice, si ottengono due ordinamenti parziali, dai quali scaturisce quello finale. Limitandosi alla prima iterazione si applichi l’algoritmo di distillazione dall’alto, fissando una soglia di discriminazione s (δ ) = 0,10 e partendo dall’insieme A={a1,a2,…,a12}. Si ottengono i seguenti risultati: Modelli statistici per l’analisi della transizione Università-lavoro Iterazione K=1 A1 = A ≠ ∅ δ 0 = max(δ (a, a' )) = 1 δ 0' = δ 0 − s (δ ) = 0,90 δ 1 = 0,89 p (a1 ) = 0 p(a2 ) = 0 p ( a3 ) = 3 p(a4 ) = 1 p ( a5 ) = 4 p ( a6 ) = 1 p ( a7 ) = 1 p(a8 ) = 4 p ( a9 ) = 5 p (a10 ) = 4 p (a11 ) = 10 p (a12 ) = 5 q + = max(q(ai )) = q(a11 ) = 10 D1+ = {a11} d (a1 ) = 9 d (a2 ) = 7 d ( a3 ) = 2 d (a4 ) = 2 d ( a5 ) = 1 d ( a6 ) = 6 d (a7 ) = 8 d (a8 ) = 1 d ( a9 ) = 0 d (a10 ) = 1 d (a11 ) = 0 d (a12 ) = 1 59 q (a1 ) = −9 q (a 2 ) = −7 q ( a3 ) = 1 q (a 4 ) = −1 q ( a5 ) = 3 q(a6 ) = −5 q(a7 ) = −7 q(a8 ) = 3 q ( a9 ) = 5 q(a10 ) = 3 q (a11 ) = 10 q (a12 ) = 4 Alla prima iterazione, viene estratta dalla matrice di credibilità, attraverso l’algoritmo di distillazione dall’alto, l’alternativa a11. Proseguendo con le iterazioni, vengono estratte tutte le altre alternative, fino ad ottenere i due seguenti preordini: P ( A) + ={a1 1}≻{a9 ,a12 }≻{a5 ,a8 ,a10 }≻{a3 }≻{a4 ,a6 }≻{a7 }≻{a1 ,a2 } P ( A) − ={a1 1 , a9 }≻{a12 ,a5 , a8 , a10 }≻{a3 ,a4 }≻{a6 }≻{a2 }≻{a7 }≻{a1} In base ai criteri proposti da Schärlig (1996), dall’intersezione dei due preordini, si ottiene il seguente preordine finale, rappresentato attraverso il grafo in Figura 7. Questo grafo si costruisce osservando, per ogni alternativa, come essa è posta in relazione alle altre nei due preordini. Ad esempio, a11 è in prima classe in entrambi i preordini ed in P( A) − è ex aequo con a9, di conseguenza la si può porre in testa al preordine finale. Dopo a11 viene posta a9 poiché una volta è ex aequo con a11 e l’altra è in seconda classe, e così via. L’unica eccezione è rappresentata dalle alternative a2 e a7, che si surclassano a vicenda nei due preordini, in questo caso diremo che le due alternative non sono confrontabili. La valutazione dei percorsi formativi dei laureati... 60 Figura 7. Rappresentazione del preordine finale. a 11 a9 a 12 a5 a8 a 10 a3 a4 a6 a2 a7 a1 Da questo ordinamento si evince che il Corso di laurea in Ingegneria Informatica è quello che ottiene una valutazione migliore da parte dei laureati (alle variabili “oggettive”, che non rappresentano un giudizio espresso dai laureati è stato attribuito un peso inferiore rispetto alle altre). Anche Ingegneria Elettronica e Meccanica ricevono un giudizio soddisfacente, rispetto agli altri Corsi. Ingegneria Chimica, Elettrica e Gestionale si collocano insieme al 4° posto. I Corsi di laurea che occupano gli ultimi posti in graduatoria sono, invece, quelli della facoltà di Economia, insieme al Corso di laurea in Ingegneria Edile, che è risultato non confrontabile col Corso di laurea in Scienze Statistiche ed Economiche. La collocazione dei corsi di laurea di Economia agli ultimi posti della graduatoria è probabilmente dovuta al fatto che, rispetto ad alcune variabili, quali il voto di laurea, durata effettiva del corso di studi e il reddito annuo, le due facoltà differiscono in maniera evidente (Figg. 1, 2, 4). Modelli statistici per l’analisi della transizione Università-lavoro 5. 61 Considerazioni conclusive Il metodo proposto in questo lavoro presenta, indubbiamente, dei difetti, quali la soggettività nell’attribuzione dei pesi ai criteri e nell’individuazione delle soglie e l’impossibilità di “misurare” la distanza tra le alternative nell’ordinamento finale. Tuttavia, presenta anche molti pregi: la possibilità di attribuire i pesi e di individuare le soglie gli conferisce un’estrema flessibilità, che consente di adattarlo alle diverse situazioni e alle diverse esigenze che possono presentarsi; fissati pesi e soglie, si dispone di una metodologia standard che consente di prendere delle decisioni senza ambiguità; è facilmente implementabile su software statistici (ad esempio, R). L’approccio sviluppato costituisce un primo passo per la realizzazione di uno strumento strategico che possa essere utilizzato, al fine del miglioramento della qualità, da parte di chi deve pianificare i corsi di studio; pertanto un’ulteriore fase della ricerca sarà quella di fare derivare, dall’analisi effettuata, le azioni strategiche per il miglioramento della qualità in funzione delle risorse disponibili e delle preferenze dei portatori d’interesse, tra i quali i più importanti sono gli allievi e le aziende. Riferimenti bibliografici BAZZANI G.M. (1995) La teoria della decisione multicriteriale: un’introduzione, Rivista di Economia Agraria, 1, pp. 123-148. ENEA M., GIAMBALVO O. (2002) The Statistical Informative System for the University, atti della 23th Conference on Regional and Urban Statistics and Research, Lisbona Portugal 12-15 June. KEENEY R.L., RAIFFA H. (1976) Decision with Multiple Objectives; preferences and value trade-offs, John Wiley and Sons, New York. OSTANELLO A., NORESE M.F. (2003) Metodi e modelli per il supporto alle decisioni, Politeko, Torino. ROY B. (1978) ELECTRE III: Un algorithme de classements fondé sur une représentaion floue des préférences en présence de critères multiples, Cahiers du Centre d’Etudes de Recherche Opérationnelle, 20, pp. 3-24. ROY B. (1996) Multicriteria Methodologie for Decision Aiding, Kluwer Academic Publishers, Dordrecht. SIMON H.A. (1997) Models of Bounded Rationality, The MIT Press, New York. SCHÄRLIG A. (1996) Pratiquer Electre et Prométhée. Un complément à dèdicer sur plesieurs critères, Presses Polytechniques et Universitaires Romandes, Lausanne. 62 La valutazione dei percorsi formativi dei laureati... SPERA S. (2003) L’analisi multicriteri di processi logistici industriali mediante il metodo Electre: l’applicazione nell’ambito della sicurezza, Tesi di laurea in Ingegneria Gestionale, Università degli studi di Palermo. YANG T. e KUO C. (2003) A hierarchical AHP/DEA methodology for the facilities layout design problem, European Journal of Operational Research, 147: pp.128-136. The evaluation of educational training for graduates through the use of the Electre III multiple criteria model Summary: Evaluation seen as a strategic tool with the objective of triggering a system of actions and retro-actions aimed at the improvement of the efficiency and effectiveness of a trial or an organisation, has assumed, in recent years, a crucial role in the monitoring and improvement of the quality of the services, above all in the university sector. The objective of the present paper is to create some classifications of degree programmes in terms of effectiveness both from the formative point of view and from the occupational one, obtained through the application of multiple criteria methods (MCDM: Multiple Criteria Decision Making), such as Electre (ELimination Et Choix Traduisant the REalitè). The data used are extracted from the investigation on the occupational results of graduates in the years 1997-2001, carried out by the Palermo athenaeum, financed by the Orientation and Tutorial Centre. Keywords: Evaluation, Multiple criteria method, Electre. Un modello multilivello per l’analisi della durata degli studi universitari1 Bruno Chiandotto, Roberta Varriale Dipartimento di Statistica “G. Parenti” - Università degli Studi di Firenze Riassunto. Nel lavoro si analizza il fenomeno dei tempi di conseguimento della laurea, una delle maggiori criticità del sistema universitario italiano. Per cercare di individuarne le possibili determinanti è stata svolta un’analisi sia sui dati di archivio relativi agli studenti immatricolatisi presso l’Ateneo fiorentino nel ventennio 1980-2000, sia sui dati (di archivio e raccolti nell’ambito del progetto AlmaLaurea) relativi ai laureati nell’anno solare 2000. Su questi ultimi dati, avendo come finalità la misura dell’effetto “netto” esercitato dai fattori individuali e da fattori istituzionali (variabili specifiche dei corsi di studio) sui tempi di conseguimento del titolo, è stato introdotto un modello lineare gerarchico a due livelli; tale modello tiene conto del fatto che gli studenti (unità di primo livello) risultano naturalmente aggregati nei Corsi di laurea (unità di secondo livello). Parole chiave: Tempi di conseguimento del titolo, Modelli multilivello, Regressione lineare gerarchica. 1. Introduzione Tra gli aspetti negativi che hanno caratterizzato e caratterizzano ancora oggi il sistema universitario italiano assumono particolare rilevanza gli abbandoni e la durata delle carriere: la percentuale di studenti che abbandonano gli studi in Italia è eccessiva e, per coloro che invece riescono a conseguire il titolo universitario, il tempo impiegato per concludere il percorso di studi è troppo elevato. 1 Il presente lavoro è stato finanziato nell’ambito del progetto “Transizioni Università-lavoro e valorizzazione delle competenze professionali dei laureati: modelli e metodi di analisi multidimensionali delle determinanti”, cofinanziato dal MIUR; coordinatore nazionale è Luigi Fabbris, coordinatore del gruppo di Firenze è Bruno Chiandotto (titolo del progetto dell’unità di ricerca locale “Valutazione del processo formativo universitario, sbocchi professionali e pianificazione dei percorsi formativi: modelli e metodi”). L’idea iniziale, la struttura e l’impostazione del lavoro sono dovuti al contributo di entrambi gli autori, mentre le elaborazioni e l’implementazione del modello vanno attribuite a R. Varriale. 64 Un modello multilivello per l’analisi della durata degli studi universitari Il problema dell’eccessiva durata delle carriere universitarie, tipico del sistema universitario italiano, appare ancora più accentuato se si analizza la situazione dell’Ateneo fiorentino (Chiandotto B. e Bertaccini B., 2003), il che induce a presumere che, su questo fenomeno, le conclusioni di un approfondimento conoscitivo utilizzando i dati fiorentini possano essere ragionevolmente estese anche a gran parte degli altri Atenei italiani. L’individuazione delle possibili determinanti del fenomeno dei tempi di conseguimento del titolo eccessivamente lunghi dovrebbe suggerire interventi finalizzati alla eliminazione di una tale criticità2. Il secondo paragrafo di questa nota è dedicato ad una sintetica illustrazione dei risultati dell’analisi svolta sugli immatricolati presso l’Università di Firenze negli anni accademici dal 1980/81 al 2000/01, finalizzata all’individuazione dell’eventuale influenza esercitata sulla durata degli studi sia dal corso di laurea sia da caratteristiche individuali (quali genere, residenza, diploma di scuola superiore, ecc.)3. Nel terzo paragrafo vengono riassunti, altrettanto sinteticamente, i risultati dell’analisi relativa agli studenti che, essendosi immatricolati presso l’Università di Firenze dall’anno accademico 1980/81 all’anno accademico 2000/01, e non avendo mai effettuato un passaggio di corso di studi, hanno conseguito la laurea presso l’Università di Firenze durante l’anno solare 20004. Successivamente, facendo sempre riferimento ai laureati dell’anno 2000, per pervenire alla misura dell’effetto “netto” eventualmente esercitato da possibili determinanti (sia individuali che istituzionali) sulla durata degli studi, sono stati introdotti i modelli gerarchici o di regressione multilivello; il ricorso a tali modelli è stato suggerito dalla struttura dei dati che è di tipo gerarchico a due livelli: le unità di primo livello sono gli studenti, quelle di secondo livello sono i corsi di laurea. I risultati delle analisi condotte sono riportati nel quarto paragrafo; alcune conclusioni completano la nota. 2 Sul problema della valutazione dei processi formativi finalizzata alla eliminazione di eventuali criticità presenti nel sistema universitario si veda Chiandotto B. (2002). 3 Una trattazione più dettagliata si trova in Varriale R. (2004), un altro significativo contributo sull’argomento è stato fornito da Bulgarelli G. (2002). 4 Anche in questo caso si tratta di un'esposizione estremamente sintetica, maggiori dettagli si trovano in Varriale R. (2004), sullo stesso argomento si può utilmente consultare Chiandotto B., Bacci S. e Bertaccini B. (2004). Modelli statistici per l’analisi della transizione Università-lavoro 2. 65 Esito degli studi universitari degli immatricolati nell’Ateneo fiorentino nel periodo 1980-2000 Secondo la definizione utilizzata dall’Istat5, sono stati considerati immatricolati gli studenti “iscritti per la prima volta al primo anno di un corso di laurea o di diploma universitario”; in particolare, sono stati esaminati gli immatricolati ai soli Corsi di laurea. Ai fini dell’analisi, è stato adottato l’approccio longitudinale, scegliendo come evento di comune origine l’immatricolazione presso l’Università di Firenze in un determinato anno accademico; all’interno della popolazione oggetto di studio sono state, pertanto, individuate 21 coorti. Ogni coorte è stata osservata per 10 anni6, trascorso tale periodo lo studente può: aver abbandonato gli studi (abbandono), essersi già laureato (laureato), essere ancora iscritto (iscritto). Per valutare il fenomeno dei tempi di conseguimento del titolo sono state, pertanto, considerate 13 coorti. I laureati presso l’Ateneo fiorentino tra il 1980 e il 31 luglio 2003, immatricolatisi nel periodo intercorso tra l’a.a. 1980/81 e l’a.a. 1992/93, sono stati 32636; a livello di Ateneo il tasso medio di laurea è del 30.4%; mentre i tassi registrati per le diverse Facoltà variano da un minimo di 22.9% per Scienze della formazione ad un massimo di 40.6% per Medicina e Chirurgia. Solo il 3.2% del totale dei laureati dell’Ateneo completa il ciclo di studi in corso, mentre più dell’80% lo fa con almeno 2 anni di ritardo. Il tempo che gli studenti impiegano per concludere gli studi universitari ha un ovvio riflesso sull'età che i laureati stessi hanno al conseguimento del titolo: l'età media di Ateneo è di 26.8 anni, leggermente più elevata per i maschi (27 anni) rispetto alle femmine (26.7 anni), abbastanza simile per tutte le Facoltà, tranne che per la Facoltà di Scienze della Formazione nella quale i laureati hanno un'età media di quasi 28 anni. 5 Gli studenti rientranti nella suddetta definizione di immatricolati sono stati classificati in base al Corso di laurea di prima iscrizione; per tali studenti si dispone di informazioni classificabili in “variabili d’ingresso” (principalmente dati anagrafici e relativi agli studi pre-universitari), “di soggiorno” (per esempio informazioni su eventuali passaggi di corso, rinunce) e “d’uscita” (esito finale degli studi). Le variabili d’ingresso e quelle “in itinere” rappresentano i fattori individuali, o variabili esplicative, che si suppone possano influenzare l’esito e la durata degli studi. Tali informazioni risultano aggiornate, per ciascuna delle unità di analisi, al 31 luglio 2003. 6 Nella scelta di tale periodo si è tenuto conto che la durata media degli studi risulta pari a 7-8 anni e che entro 8 anni dall’immatricolazione si registra più del 70% del totale delle lauree osservate per ogni generazione. Inoltre, è stato rilevato che il tasso marginale di crescita del tasso di laurea tende nel tempo ad attestarsi su valori abbastanza costanti e che scegliendo un periodo di osservazione pari a 15 anni gli studenti che avrebbero fatto parte del collettivo di riferimento per le successive analisi sarebbero stati solo 69560 (anziché 107267) sui 174072 studenti immatricolatisi tra l’a.a. 1980/81 e l’a.a. 2000/01. 66 Un modello multilivello per l’analisi della durata degli studi universitari Ovviamente, anche l’analisi basata sull’indice di durata7 porta a conclusioni non confortanti. A livello di Ateneo, infatti, l’indice di durata medio assume il valore di 1.7: questo vuol dire che gli studenti impiegano più di una volta e mezzo del tempo ritenuto necessario per legge a terminare gli studi universitari. La Facoltà che presenta l’indice di durata più basso è Medicina e Chirurgia (1.24), mentre la Facoltà con l’indice più alto è Economia (1.9), seguita da Lettere e Filosofia (1.86) e Giurisprudenza (1.83). Come prevedibile, sono gli studenti con un diploma di tipo liceale e coloro che hanno riportato votazioni più elevate all’esame di maturità a presentare valori più bassi dell’indice di durata. 3. Tempi di conseguimento del titolo dei laureati nell’anno solare 2000 In questa parte del lavoro vengono analizzati i dati forniti dal Consorzio Interuniversitario AlmaLaurea8 relativi agli studenti che, appartenendo alla popolazione esaminata nel paragrafo precedente, hanno conseguito la laurea presso l’Università degli studi di Firenze durante l’anno solare 2000; i dati utilizzati sono stati forniti dal Consorzio Interuniversitario AlmaLaurea e derivano sia da indagini predisposte nell’ambito del Progetto AlmaLaurea sia da fonti di tipo amministrativo. Il tipo di strumento utilizzato per le prime è il questionario strutturato compilato dai laureandi (tasso di risposta pari al 91%) al conseguimento del titolo, composto da domande chiuse a risposta unica e suddiviso in 6 aree tematiche che riguardano: notizie anagrafiche, curriculum scolastico e formativo, notizie sull’esperienza universitaria appena conclusa, situazione lavorativa, notizie sulla famiglia, intenzioni e prospettive future. I dati AlmaLaurea sono stati successivamente integrati con quelli forniti dall’Ufficio Servizi Statistici e Controllo di Gestione dell’Università di Firenze uti7 L’indice di durata (Id) delle singole Facoltà e CdL è costruito rapportando la durata effettiva degli studi alla durata legale del rispettivo corso; tale indice rende possibile il confronto tra laureati delle diverse Facoltà e diversi CdL, cresce al crescere del ritardo e assume valori maggiori o uguali a 1. 8 Il consorzio interuniversitario ALMALAUREA nasce nel 1994 per iniziativa dell’Osservatorio Statistico dell’Università di Bologna ed attualmente è gestito dalle Università aderenti con il sostegno del Ministero dell’Istruzione, dell’Università e della Ricerca. I principali obiettivi dei servizi offerti da ALMALAUREA sono, da una parte, quelli di assicurare agli organi di governo degli atenei appartenenti al consorzio, ai nuclei di valutazione, alle commissioni impegnate nella didattica e nell’orientamento, attendibili e tempestive basi documentarie e di verifica, volte a favorire i processi decisionali e la programmazione delle attività; dall’altra di creare una sempre più stretta collaborazione tra università e mondo produttivo, facilitando, attraverso la propria banca dati, l’accesso dei giovani al mercato del lavoro italiano ed internazionale. Per ulteriori informazioni, si può consultare il sito Internet: www.almalaurea.it Modelli statistici per l’analisi della transizione Università-lavoro 67 lizzati per le analisi a cui si è riferito nel paragrafo precedente, in modo da consentire il confronto dei risultati conseguiti nelle due diverse analisi. Nel procedere all’integrazione tra i due insiemi di dati, però, alcuni records relativi a studenti laureati presso l’Ateneo fiorentino nell’anno solare 2000 non sono stati utilizzati9; per tale motivo il collettivo di riferimento oggetto delle successive analisi è risultato composto da 4382 studenti. Inoltre, sono stati esclusi dalle indagini quei laureati che non hanno compiuto l’intero ciclo di studi nell’Ateneo fiorentino e nello stesso corso di laurea, ottenendo una popolazione di riferimento 3978 unità. Come già sottolineato, uno degli aspetti più negativi che caratterizza la figura del laureato “tipo” è l’età molto elevata al conseguimento del titolo, età elevata che è il diretto riflesso dell’eccessiva durata degli studi; infatti, solo l’11% dei laureati consegue il titolo ad un’età inferiore ai 24 anni, mentre quasi il 30% termina gli studi universitari ad un’età superiore ai 28 anni. A livello di Facoltà, i laureati in Architettura presentato un’età media al conseguimento del titolo più elevata (29.6), mentre i laureati in Scienze Matematiche Fisiche e Naturali sono i più giovani con un’età media di 26.9 anni. Naturalmente, la variabile ora analizzata serve solo a fornire una indicazione, seppure interessante, della durata degli studi universitari; infatti, molteplici sono i fattori che possono determinare l’innalzamento dell’età al raggiungimento del termine degli studi, e non tutti possono essere imputabili alla durata del piano di studi del corso prescelto. Si è preferito analizzare, pertanto, la durata degli studi universitari sia attraverso un approccio diretto, ovvero attraverso la sua misurazione in anni, sia indirettamente facendo ricorso all’indice di durata. Dall’analisi della variabile durata degli studi per il contingente dei laureati dell’anno solare 2000, il risultato è tutt’altro che confortante. A livello di Ateneo, confrontando le durate legali delle varie Facoltà con quelle medie effettivamente impiegate dagli studenti, si può notare come gli studenti impiegano mediamente da 1.5 a 4.4 anni in più rispetto al tempo considerato necessario per legge al raggiungimento del termine degli studi. Inoltre, mentre solo il 5% degli studenti analizzati si laurea in corso, ben il 50% di questi si laurea dopo il quarto anno fuori corso. Facendo riferimento all’indice di durata, all’interno dell’intero Ateneo si registra un valore medio pari a 1.8: questo significa che gli studenti impiegano quasi il doppio del tempo ritenuto necessario per legge a completare gli studi universitari. I valori assunti da questo indice a livello di Facoltà sono riportati nella Figura 1. 9 Degli originari 4846 laureati: 195 studenti si sono immatricolati in altri Atenei, 53 studenti si sono immatricolati prima dell’a.a. 1980/81, 41 studenti erano già in possesso di altro titolo, 4 studenti si sono immatricolati ad un diploma, 140 studenti si sono già immatricolati in precedenza senza arrivare al conseguimento del titolo, 25 studenti si sono immatricolati ad anni successivo al primo, 6 studenti si sono immatricolati oltre il 31 Luglio di ogni anno. 68 Un modello multilivello per l’analisi della durata degli studi universitari Figura 1. Indice di durata per Facoltà e sesso 1.86 SCIENZE POLITICHE 1.61 SCIENZE MAT.FIS.NAT. 1.67 SCIENZE DELLA FORMAZIONE 1.29 MEDICINA E CHIRURGIA 1.91 LETTERE E FILOSOFIA 1.66 INGEGNERIA 1.86 GIURISPRUDENZA 1.57 FARMACIA 1.96 ECONOMIA 1.89 ARCHITETTURA 1.62 AGRARIA 0 0.5 Maschi 1 Femmine 1.5 2 Facoltà Successivamente, si è cercato di individuare le possibili relazioni esistenti tra i caratteri di interesse e la durata degli studi e, a tal fine, oltre ad effettuare un’analisi di tipo descrittivo, si è proceduto al computo di due statistiche di associazione, il Chi-quadro di Pearson e la V di Cramer10. 10 Questi indici sono calcolati attraverso il confronto tra le frequenze osservate e le frequenze teoriche nell’ipotesi di indipendenza stocastica tra i caratteri considerati e, mentre il primo è espresso in termini assoluti, l’indice di Cramer varia tra 0 e 1. A ragione del contesto di analisi, valori superiori a 0.10 di tale indice inducono a concludere a favore della presenza di un livello di dipendenza abbastanza elevato tra i caratteri analizzati. La statistica Chi-quadro è solitamente utilizzata per l’analisi di distribuzioni discrete, ma può essere calcolata anche per distribuzioni continue raggruppando i dati in classi di modalità; considerazioni analoghe valgono per l’indice V di Cramer. Per questo motivo si è dovuto procedere alla suddivisione in classi dell’indice di durata e, dato che questa variabile misura il tempo impiegato dallo studente per conseguire il titolo e quindi cresce all’aumentare degli anni di iscrizione “fuori corso”, nel farlo si è cercato di creare una corrispondenza tra classe dell’indice e il numero degli anni fuori corso; le classi così ottenute sono 6. Classe 1 – (0-1.14) – 0; Classe 2 – (1.1401-1.37) – 1; Classe 3 – (1.3701-1.62) – 2 ; Classe 4 – (1.6201-1.87) – 3; Classe 5 – (1.8701-2.12) – 4; Classe 6 – (2.1201-7) – Più di 4 anni, dove, rispettivamente, si riporta (in parentesi) l’intervallo dell’indice di durata ed il numero di anni fuori corso. Modelli statistici per l’analisi della transizione Università-lavoro 69 Se si procede al confronto tra il valore assunto dall’indice di durata per i due sessi si riscontra una lievissima differenza a livello complessivo (0.04) a favore del genere femminile, differenza questa che non presenta grande variabilità anche a livello di singole facoltà. Se si fa, invece, riferimento alle statistiche di associazione, si rileva la presenza di un legame tra i due caratteri essendo abbastanza elevato il valore assunto (0.10) dalla V di Cramer. Un risultato inatteso è quello concernente la relazione esistente fra residenza degli studenti e durata degli studi universitari; infatti, la residenza degli studenti non sembra incidere in maniera così netta sul valore dell’indice di durata: tale valore rimane identico per gli studenti provenienti da Firenze e dalle province di Prato, Pistoia e Arezzo e lievemente più alto per coloro con residenza nelle altre province della Toscana; un valore più alto dell’indice, invece, si rileva per i giovani con residenza fuori dalla Toscana. Anche l’analisi delle statistiche di associazione (che rileva come la V di Cramer assume un valore pari a 0.08) sembra confermare la mancanza di un forte legame tra la residenza dello studente e la durata dei suoi studi universitari, ma è da ricordare ancora una volta che in realtà la variabile d’interesse sarebbe il domicilio degli studenti e non la loro residenza. Una certa incidenza sulla durata degli studi ha, invece, il titolo di studio dei genitori dei laureati. Tale fatto è confermato sia dal valore della V di Cramer (0.12) sia dalla semplice lettura dei dati: da una situazione in cui entrambi i genitori sono laureati e l’indice assume un valore medio di 1.58 si passa a situazioni in cui in famiglia vi è al più una licenza elementare dove si registra un indice medio di 1.97. Piuttosto basso è invece il valore assunto dall’indice V (0.07) quando si considera la classe sociale11 della famiglia di appartenenza. Esaminando l’indice di durata in funzione della carriera preuniversitaria si osservano risultati del tutto prevedibili: i giovani con una carriera preuniversitaria regolare presentano un valore dell’indice di durata minore rispetto a chi ha affrontato l'esame di maturità con uno o più anni di ritardo; si registra una relazione inversa tra voto alla maturità e indice di durata (al crescere della votazione al diploma del laureato diminuisce il valore assunto dall’indice di durata); gli studenti che hanno concluso in tempi più contenuti la carriera universitaria sono quelli provenienti dal liceo scientifico e classico, mentre quelli che vi hanno impiegato più tempo provengono da altri tipi di maturità e scuole secondarie di tipo tecnico. 11 Per la classificazione della variabile classe sociale si è adottato lo schema proposto da A. Cobalti e A. Schizzerotto, La mobilità sociale in Italia, Bologna, Il Mulino, 1994, adottato anche da ALMALAUREA. La posizione socio-economica può assumere le modalità borghesia, classe media impiegatizia, piccola borghesia e classe operaia. In proposito si segnala che gli imprenditori, i libero professionisti e i dirigenti, appartengono alla borghesia indipendentemente dal titolo; gli impiegati o intermedi con laurea sono nella classe media impiegatizia; i lavoratori in proprio, i soci di cooperative e i coadiuvanti appartengono alla piccola borghesia; gli impiegati con un titolo di studio della scuola dell’obbligo, gli operai ed i lavoratori a domicilio sono nella classe operaia 70 Un modello multilivello per l’analisi della durata degli studi universitari Le statistiche di associazione mostrano come vi sia un forte legame tra carriera preuniversitaria dello studente e tempo impiegato per conseguire la laurea: la significatività delle statistiche Chi-quadro di Pearson è sempre molto elevata e la V di Cramer è sempre superiore a 0.10. Da notare, è che la relazione più intensa si ha tra voto alla maturità e indice di durata (la V di Cramer è quasi pari a 0.13) a conferma dell’influenza esercitata da questo fattore sull’esito della carriera universitaria. Per quanto riguarda le variabili relative alla carriera universitaria dello studente, è possibile innanzitutto osservare come, al crescere del ritardo dell’immatricolazione all’Università, cresca anche il valore dell’indice di durata. Ancora, è possibile osservare che coloro che hanno ottenuto risultati migliori sia a livello di voto medio agli esami che alla laurea impiegano meno tempo per conseguire il titolo. Il fatto che esista una forte relazione tra i risultati ottenuti dagli studenti sia per quanto riguarda la votazione conseguita sia per quanto riguarda il tempo di conseguimento del titolo è confermato, inoltre, dal calcolo delle statistiche di associazione: la significatività del Chi-quadro è sempre molto elevata e la V di Cramer supera in entrambi i casi il valore di 0.14. Riguardo il modo di vivere l’esperienza universitaria, l’elevato valore della V di Cramer (0.21) mostra come vi sia un legame molto forte tra tempi di conseguimento del titolo e la frequenza alle lezioni; infatti, chi frequenta con regolarità tutti o quasi tutti i corsi impiega meno tempo ( I d = 1.75) rispetto a chi frequenta saltuariamente, al più, alcuni corsi ( I d = 2). Il fenomeno della frequenza alle lezioni è sicuramente collegato a quello delle esperienze lavorative durante la carriera universitaria: chi non lavora conclude gli studi nettamente prima (il valore dell’indice di durata è di 1.64 contro 1.86 per coloro che lavorano) e tra chi lavora ha più difficoltà a mantenere un buon ritmo di studi chi ha un contratto di lavoro di tipo stabile rispetto a chi ha rapporti di lavoro di tipo occasionale. Interessanti sono i risultati che si ottengono sia dal calcolo dell’indice di durata in relazione alla necessità o meno di svolgere attività di stage o tirocinio per il completamento degli studi sia dal calcolo delle statistiche di associazione tra queste variabili: queste attività sembrano incidere positivamente sulla durata della carriera universitaria (il valore dell'indice è di 1.54 per coloro che sono stati coinvolti in tali attività e 1.84 per gli altri) ed il loro legame con i tempi di conseguimento del titolo sembra molto forte (il valore della V di Cramer è ben 0.26). In relazione al rapporto che può esistere tra tempi di laurea e posizione nei confronti degli obblighi di leva, si registra un valore molto alto dell’indice di durata per gli studenti che hanno già svolto il servizio militare o civile ( I d = 2.02), mentre una situazione migliore si rileva per chi si trova nella condizione di non dover svolgere il servizio militare ( I d = 1.83). Valori molto bassi dell’indice si osservano per gli studenti che stanno adempiendo agli obblighi di leva, o per coloro che stanno aspettando di farlo, probabilmente dovuto al fatto che, consapevoli dei propri obblighi, tali Modelli statistici per l’analisi della transizione Università-lavoro 71 studenti hanno organizzato in maniera migliore i propri piani di studio (la forte relazione tra questa variabile e i tempi di durata è rilevata dalla V di Cramer pari a 0.37). Per quanto riguarda la soddisfazione sull’esperienza universitaria appena conclusa, coloro che ne danno un giudizio ottimo sono coloro che hanno impiegato meno tempo a concludere gli studi ( I d = 1.57), mentre coloro che impiegano più tempo non sono coloro che ne danno un giudizio pessimo, ma mediocre. Anche in questo caso, comunque, la V di Cramer assume un valore abbastanza alto (0.14). Relativamente all'ipotesi di reiscrizione all’Università, inoltre, sono coloro che vorrebbero reiscriversi allo stesso corso di laurea ad aver impiegato meno tempo alla conclusione degli studi ( I d = 1.76), mentre gli studenti che non vorrebbero reiscriversi all'Università sono coloro per cui si osserva il valore dell'indice di durata più elevato (1.96). Da segnalare, infine, il forte grado di associazione tra indice di durata e Facoltà (V di Cramer pari a 0.26) che risulta ancora più elevato quando si misura l’associazione tra durata e Corso di studi (V di Cramer pari a 0.36). 4. Il modello gerarchico a due livelli Come anticipato nell’introduzione, per procedere ad una più soddisfacente individuazione delle possibili determinanti dei tempi di conseguimento del titolo si è fatto ricorso ai modelli di regressione multilivello12. Nei due paragrafi precedenti è stato analizzato il fenomeno della durata degli studi nell’Ateneo fiorentino, sia relativamente al periodo 1980-2000 che ai laureati dell’anno solare 2000, facendo ricorso a tecniche statistiche sostanzialmente di tipo descrittivo, tecniche che non consentono di pervenire ad una misura dell’effetto netto delle determinanti (fattori esplicativi) del fenomeno di interesse che nel caso specifico è rappresentato dall’indice di durata. Tale possibilità è, invece, offerta, dai modelli di regressione e, in particolare, dai modelli di regressione di tipo multilivello. In proposito, vale la pena ricordare che il ricorso ad un modello di regressione multilivello è consigliabile ogni volta che le unità (dette unità di primo livello) su cui si rileva il fenomeno oggetto di studio risultano naturalmente aggregate in gruppi differenti (le unità di secondo livello), che a loro volta possono essere aggregate in unità di terzo livello e così via: in tali casi è ragionevole ritenere che la variabilità del fenomeno dipenda non solo da variabili esplicative individuali (o di primo livello), ma altresì dal fatto che un certo individuo appartenga ad un determinato gruppo avente caratte12 Al riguardo si possono consultare, tra gli altri, i volumi di Goldstein H. (2003) e Snijders A.B., Bosker R. J. (1999). 72 Un modello multilivello per l’analisi della durata degli studi universitari ristiche peculiari che lo contraddistinguono dagli altri gruppi; nel caso specifico trattato, gli studenti (unità di primo livello) risultano naturalmente aggregati in Corsi di laurea (unità di secondo livello). Come già sottolineato, la variabile risposta considerata è l’indice di durata. Il “vantaggio” principale che proviene dall’utilizzo di questo indicatore è che attraverso di esso è possibile effettuare un confronto tra tempi di laurea osservati in diverse Facoltà e diversi CdL; unico “svantaggio” nell’utilizzo della variabile continua ind_durata è che la sua distribuzione ha un andamento di tipo normale, ma troncato a sinistra (il valore minimo osservato è 1)13. I dati cui si farà riferimento sono quelli relativi ai laureati dell’anno solare 2000 (unità di primo livello), che si sono immatricolati per la prima volta nell’Ateneo fiorentino a partire dall’a.a. 1980/81 e che non hanno cambiato corso di studi. Come precedentemente illustrato, sono stati esclusi dall’analisi quei laureati che non hanno compiuto l’intero ciclo di studi nell’Ateneo fiorentino e nello stesso corso di laurea, ottenendo così una popolazione di riferimento di 3978 unità; l’insieme di dati così ottenuto è risultato, però, composto da numerosi records con dati mancanti relativi ad alcune variabili e, dato che il software utilizzato per l’applicazione del modello di regressione multilivello esclude questi records dall’analisi e volendo evitare di ricorrere a complicate tecniche di imputazione, si è proceduto a cancellare tali records, ottenendo così una popolazione di riferimento composta da 1896 osservazioni. Come unità di secondo livello sono stati scelti i Corsi di laurea in cui gli studenti hanno conseguito il titolo di studio e non le rispettive Facoltà di appartenenza in quanto si è ritenuto che solo dall’analisi di questi si potessero ottenere informazioni utili alla spiegazione del fenomeno dei tempi di laurea all’interno dell’Ateneo fiorentino. Infatti, è possibile osservare come spesso le Facoltà sono suddivise al loro interno in CdL con caratteristiche sostanzialmente differenti tra loro. Inoltre, come prevedibile, anche dall’analisi dei tempi medi di laurea è possibile osservare come i diversi CdL all’interno delle stesse Facoltà differiscono notevolmente tra loro; solo per fare un esempio relativo alla Facoltà di Economia, il CdL in Scienze Statistiche ed Attuariali ha un indice di durata pari a 1.60 mentre per Economia e Commercio si osserva un valore dell’indice addirittura pari a 1.97 (quasi il doppio della durata legale!). Un’ultima osservazione che conferma quanto appena descritto riguarda il già segnalato (cfr. par. 2) alto grado di associazione riscontrato sia tra i tempi di laurea degli studenti e le Facoltà frequentate, sia tra i tempi di laurea degli studenti ed i loro CdL: associazione molto forte nel primo caso, ma notevolmente più forte nel secondo. 13 Il fatto che la variabile ind_durata sia troncata a sinistra è una delle possibili cause della non normalità dei residui. Quest’ultimo aspetto ha comunque delle conseguenze soprattutto sul valore degli errori standard delle stime dei coefficienti di regressione e delle componenti di varianza (e di conseguenza sulla validità dei test utilizzati), e non su quello delle stime puntuali di tali parametri. Modelli statistici per l’analisi della transizione Università-lavoro 73 Coerentemente a quanto suggerito dalla teoria i passi della procedura di stima impiegata sono stati: stima del modello nullo, al fine di verificare, attraverso la stima della varianza dei residui di secondo livello, la ragionevolezza del ricorso ad un’analisi multilivello e di scomporre la variabilità del fenomeno tra variabilità entro i gruppi e variabilità tra gruppi. stima del modello a intercetta casuale comprendente tutte le variabili di primo livello (compresi termini quadratici e interazioni) risultate significative. stima del modello a intercetta casuale finale14 (due livelli) costituito dalle variabili di primo e secondo livello (compresi termini quadratici e interazioni) risultate significative. Di seguito verranno riportati e commentati soltanto i risultati relativi alla stima dei due Modelli a intercetta casuale comprendenti, rispettivamente, le sole variabili di primo livello e quelle di primo e secondo livello relative alla stima finale. Il modello utilizzato è un modello multilivello ad intercetta casuale del tipo: Yij = (γ 00 + γ 10 X ij + γ 01 Z j ) + (u oj + rij ) dove: rij ~ iid N(0,σ 2 ) , u 0 j ~ iid N(0, τ 00 ) ; i residui del modello, rij e u0j, sono indipendenti tra loro, j è l’indice utilizzato per descrivere i gruppi (corsi di laurea - j = 1, 2,...37 ), mentre i è l’indice che descrive le unità (laureati all’interno di ogni gruppo - i = 1,2,...n j ); la variabile risposta Yij (misurata al livello individuale) è rappresentata dall’indice di durata degli studi ed ha distribuzione di tipo normale troncata nella coda di sinistra (il valore minimo osservato è 1); Xij indicano le variabili esplicative, di primo livello mentre Zj rappresentano le variabili esplicative di secondo livello. I termini rij e u0j rappresentano gli errori residui del modello (ovvero quella parte di variabilità di Yij che non è catturata dalle variabili esplicative) rispettivamente a livello individuale ed a livello di gruppo Per l’applicazione del modello lineare gerarchico è stata utilizzata la PROC MIXED del software SAS15. 14 Si puntualizza che sono stati testati anche modelli con coefficienti casuali; in questo caso, però, l’algoritmo utilizzato non ha mai raggiunto la convergenza. 15 La procedura PROC MIXED permette di scegliere i metodi di stima dei parametri. Nel contesto dei modelli multilivello gli stimatori maggiormente impiegati sono quelli di Massima Verosimiglianza (Maximum Likelihood, ML) e quelli della Massima Verosimiglianza residua (Residual Maximum Likelihood, REML). Questi due metodi danno risultati molto simili per quanto riguarda la stima dei coefficienti di regressione mentre differiscono maggiormente nella stima delle componenti della varianza; inoltre, la devianza calcolata attraverso il metodo REML può essere utilizzata nei test del rapporto di verosimiglianza solo se i due modelli comparati sono composti dalla stessa parte fissa e differente parte casuale. Per tale motivo in questa applicazione è stato scelto di calcolare le stime dei coefficienti di regressione attraverso il metodo della Massima Verosimiglianza (specificando l’argomento METHOD=ML nella procedura PROC MIXED). 74 4.1 Un modello multilivello per l’analisi della durata degli studi universitari Il modello stimato ed i risultati ottenuti Come già segnalato, il primo passo della procedura prevede la stima di un modello di regressione a due livelli senza variabili esplicative, ossia del cosiddetto modello nullo. In particolare, attraverso il modello nullo è stato possibile esplicitare il coefficiente di correlazione intra-classe ρ , che misura il grado di omogeneità tra osservazioni appartenenti allo stesso gruppo: in questo caso, quasi il 40% della varianza totale dell’indice di durata è dovuta all’effetto del Corso di Laurea. Inoltre, è stato calcolato il valore della devianza - ovvero il grado di “non adattabilità” del modello (Hox J.J., 2002) - che è stato successivamente utilizzato come benchmark per il confronto di differenti modelli. Una volta verificata l’effettiva esistenza di un’organizzazione dei dati su due livelli di analisi, lo studio è proseguito con la stima del modello multilivello (completo) contenente le variabili esplicative. Relativamente alle variabili categoriche introdotte nel modello, si è reso necessario individuare per ciascuna di esse una modalità base o di riferimento nei confronti della quale valutare l’effetto di tutti gli altri livelli esistenti16, come in una normale regressione. Relativamente a tale aspetto si è scelto di considerare come modalità base di ciascuna covariata la caratteristica più diffusa nella popolazione di studio, secondo i risultati ottenuti attraverso l’analisi descrittiva preliminare; l’individuo che possiede tutte queste caratteristiche verrà denominato individuo-base. Per quanto riguarda le variabili continue, per semplificare l’interpretazione dei risultati, si è scelto di centrare le variabili continue di primo livello rispetto alla loro media di gruppo e quelle di secondo livello rispetto alla loro media totale17. Si è scelto dunque di utilizzare l’approccio group mean centering, che consente di considerare il cosiddetto “frog-pond effect” (Hox J.J., 2002). Nel caso qui considerato, ad esempio, scegliendo come variabile esplicativa il voto al diploma riportato dagli studenti (voto), studiare questo effetto vuol dire analizzare come varia la relazione tra tempo di conseguimento del titolo e la variabile voto, in dipendenza dal voto medio al diploma osservabile nello specifico corso di laurea. Le variabili esplicative utilizzate per la selezione del modello sono state scelte in base ai suggerimenti forniti dalla conoscenza del fenomeno e alle conclusioni risultanti dall’analisi descrittiva svolta. 16 Dovendo utilizzare queste variabili ai fini dell’applicazione ai dati del modello multilivello, si è scelto talvolta di adottare classificazioni delle variabili meno dettagliate rispetto a quelle presentate durante l’analisi descrittiva. Naturalmente, un’analisi che tenga presente classificazioni più dettagliate delle variabili potrà essere spunto per approfondimenti successivi. 17 Il calcolo della media di gruppo e della media totale delle medie di gruppo, come suggerito da Snijders e Bosker (1999), è stato effettuato su tutti i valori individuali a disposizione per la determinata variabile analizzata prima della procedura di cancellazione dei records aventi dati mancanti relativi ad altre variabili. Modelli statistici per l’analisi della transizione Università-lavoro 75 Le variabili di primo livello, riportate in Tabella 1, possono essere classificate in tre gruppi, ognuno dei quali riguarda un differente aspetto della vita dello studente: variabili legate ai caratteri strutturali (variabili 1-4) variabili legate alla preparazione preuniversitaria (variabili 5-7) variabili legate all’esperienza universitaria (variabili 8-14). Tabella 1. Variabili esplicative di primo livello n. Nome variabile 1 sesso 2 3 4 Descrizione Sesso residenza Residenza tit_gen Titolo di studio dei genitori18 Classe sociale della cl_sociale famiglia di origine Tipo di diploma di scuola superiore 5 diploma 6 Voto al diploma di voto_dipl scuola superiore (in sessantesimi) Modalità di risposta 1= maschi 2= femmine 1= fuori Toscana 2= altra provincia Toscana 3= Po - Pt - Ar 4= Firenze 1= al più un diploma inferiore 2= almeno un genitore con diploma superiore 3= almeno un genitore con laurea 1= borghesia 2= classe operaia 3= classe media impiegatizia o piccola borghesia 1= altro 2= tecnico 3= liceale Categoria di riferimento Femmine Firenze Almeno un genitore con laurea Classe media impiegatizia o piccola borghesia Liceale Variabile centrata rispetto alla media di gruppo 1= maggiore di 19 anni (percorso di studi non regolare) 2= minore o uguale a 19 anni (percorso di studi regolare) Percorso di studi regolare 7 eta_dipl Età al diploma di scuola superiore 8 rit_iscr Tempo tra l’esame di 1= maggiore o uguale a 1 anno maturità e l’iscrizio0 anni 2= 0 anni ne all’Università 18 Per questa variabile è stata scelta come categoria di riferimento non la modalità più frequente (che sarebbe stata “almeno un genitore con diploma superiore”), ma quella ritenuta più significativa per studiare il contributo del livello di istruzione presente in famiglia sui tempi di laurea dello studente. 76 n. Un modello multilivello per l’analisi della durata degli studi universitari Nome variabile Descrizione 1= non regolare Frequenza alle lezio2= regolare ad almeno alcuni ni corsi Tipo di esperienze 1= stabile 10 esp_lav lavorative durante gli 2= non stabile studi universitari19 Tirocinio o stage 1= sì svolto per il comple11 tiroc 2= no tamento degli studi Votazione media ri12 voto_30 portata agli esami (in trentesimi) Tempo impiegato per 13 tempo_tesi la stesura della tesi (in mesi) 1= svolto durante gli studi uniServizio militare o versitari 14 militare civile svolto durante 2= non svolto durante gli studi gli studi universitari. 9 frequenz Categoria di riferimento Modalità di risposta Frequenza regolare Non stabile No Variabile centrata rispetto alla media di gruppo Variabile centrata rispetto alla media di gruppo Non svolto durante gli studi universitari Nella tabella, per ogni variabile sono stati indicati: un nome convenzionale, una breve descrizione del suo significato, le modalità di risposta ricodificate e la categoria di riferimento (categoria riferita all’individuo-base). Da quanto indicato nella Tabella 1 emerge il profilo dell’individuo-base che risulta essere: femmina residente a Firenze almeno un genitore con laurea appartenenza alla classe media impiegatizia o alla piccola borghesia diploma di tipo liceale voto al diploma medio all’interno del proprio CdL percorso di studi pre-universitari regolare iscritto subito all’Università frequenza regolare alle lezioni universitarie 19 La scelta di inserire come variabile di primo livello il tipo di esperienze lavorative avute durante gli studi universitari e non il fatto di aver avuto o meno tali esperienze è dovuta al fatto che tutti i laureati appartenenti alla popolazione analizzata hanno indicato di aver avuto almeno un’esperienza di tipo lavorativo durante gli studi. Modelli statistici per l’analisi della transizione Università-lavoro 77 esperienza di lavoro non stabile nessuna attività di tirocinio o stage per il completamento degli studi votazione media agli esami pari alla media nel proprio CdL tempo medio all’interno del proprio CdL per la stesura della tesi Le variabili di secondo livello (Tabella 2) utilizzate sono di tipo contestuale, ovvero variabili che si riferiscono a caratteristiche proprie di ogni corso di laurea, espresse attraverso il valore della media di gruppo delle variabili di primo livello20. Tabella 2. Variabili esplicative di secondo livello n. Nome variabile Descrizione 1 maschi_CdL 2 noliceali_CdL 3 voto_dipl_CdL 4 frequenz_CdL 5 tiroc_CdL Percentuale di maschi nel CdL Percentuale di studenti con un diploma superiore diverso dal diploma liceale Voto medio nel CdL riportato dagli studenti al diploma di scuola superiore (in sessantesimi) Percentuale di studenti che non frequentano regolarmente tutte o quasi tutte lezioni Percentuale di studenti che hanno svolto attività di tirocinio o stage per il completamento degli studi 6 7 8 20 Modalità di risposta Votazione media nel CdL voto_30_CdL riportata agli esami (in trentesimi) Tempo medio nel CdL impietempo_tesi_CdL gato per la stesura della tesi (in mesi) Presenza nel CdL di limitazioni 1= sì numchiuso all’accesso 2= no Valore di riferimento Variabile centrata rispetto alla media totale Variabile centrata rispetto alla media totale Variabile centrata rispetto alla media totale No Nel caso in cui le variabili di primo di livello sono categoriche, le rispettive variabili di secondo livello sono espresse dalla percentuale di studenti in ogni CdL per cui si osserva una modalità di risposta diversa da quella base. 78 Un modello multilivello per l’analisi della durata degli studi universitari Seguendo la strategia di selezione21 sopra descritta si è ottenuto il modello: ind _ durij = γ 00 + γ 10 j sesso ij + γ 20 j tit _ gen ij + γ 30 j diploma ij + γ 40 j voto _ dipl ij + + γ 50 j frequenz ij + γ 60 j esp _ lav ij + γ 70 j tiroc ij + γ 80 j voto _ 30 ij + γ 90 j tempo _ tesi ij + + γ 10, 0 j militare ij + γ 11, 0 j sesso * tempo _ tesi ij + γ 12, 0 j sesso * voto _ 30 ij + + γ 13, 0 j diploma * tit _ gen ij + γ 14, 0 j voto _ dipl * tempo _ tesi ij + (u 0 j + rij ) I risultati ottenuti sono riportati nella Tabella 3; i coefficienti riportati in quarta colonna indicano quanto cambia il tempo di laurea di uno studente iscritto ad un corso di laurea di durata quadriennale al variare di un’unità delle variabili esplicative corrispondenti. L’intercetta γ 00 = 1.65 indica il valore dell’indice di durata (che per un corso di laurea di durata quadriennale corrisponde a circa 6 anni e 7 mesi) quando le variabili esplicative di primo livello assumono un valore pari a 0 e gli errori di primo e di secondo livello sono nulli, ovvero quando è osservato il tempo di conseguimento del titolo del cosiddetto individuo-base all’interno di un CdL-base. Tra le variabili di primo livello che non sono risultate significative (residenza, cl_sociale, eta_dipl, rit_iscr) vi è la residenza dello studente. Tale risultato conferma le osservazioni svolte in precedenza: la residenza degli studenti non sembra incidere in maniera così netta sul valore dell’indice di durata anche se, come già segnalato, la variabile da considerare dovrebbe essere il domicilio e non la residenza degli studenti. Le stime dei coefficienti di regressione che hanno un valore positivo sono quelle riguardanti la relazione tra indice di durata e le variabili tit_gen, diploma, frequenz, esp_lav, tempo_tesi, militare: questo significa che “allontanandosi” dal profilo base si ha un incremento dell’indice di durata e quindi un aumento dei tempi di laurea. La variabile diploma è significativa se presa nel suo insieme ma, dall’analisi dei risultati riportati in Tabella 3, il passaggio da una situazione in cui lo studente ha una preparazione preuniversitaria di tipo liceale ad una situazione in cui il tipo di scuola superiore frequentata ricade nella categoria “altro” (né liceale, né tecnica) non sembra avere influenza sui tempi di laurea degli studenti, mentre significativo è avere una preparazione tecnica rispetto a quella liceale22. 21 Si è provveduto a migliorare di volta in volta il modello inserendovi differenti variabili esplicative e le loro interazioni e togliendo quelle covariate non risultate significative attraverso l’analisi del test di Wald al livello di significatività del 5%. Per un confronto tra modelli ottenuti attraverso l’inserimento di parametri aggiuntivi ci si è basati sul test della devianza al livello di significatività del 5%; nonostante il software proceda in automatico al calcolo della statistica della devianza, il test ad esso relativo è stato calcolato manualmente. Inoltre, per confrontare modelli con differenti parametri, è stato utilizzato l’indice di adattamento AIC (Akaike’s Information Criterion). 22 Si segnala che sono state utilizzate anche altre classificazioni interne della variabile diploma, ma nessuna di queste ha apportato dei miglioramenti complessivi al modello. Modelli statistici per l’analisi della transizione Università-lavoro 79 Tabella 3. Effetti fissi: coefficienti di regressione Effetto Categorie Intercetta 1.647 STIMA (espressa in mesi) 79.08 -0.102 -4.891 Stima Errore standard Valore t Pr > |t| 0.0567 29.05 <.0001 0.0233 -4.38 0.0001 sesso 1 sesso 2 0 0 . . . tit_gen 1 0.188 9.010 0.0294 6.39 <.0001 tit_gen 2 0.109 5.251 0.0281 3.9 0.0002 tit_gen 3 0 0 . . . diploma 1 0.0243 1.164 0.0577 0.42 0.6759 diploma 2 0.180 8.664 0.0571 3.16 0.0027 diploma 3 0 0 . . . -0.011 -0.513 0.0014 -7.65 <.0001 voto_dipl frequenz frequenz 1 0.083 4.00 0.0352 2.37 0.0319 2 0 0 . . . esp_lav 1 0.132 6.350 0.0224 5.91 <.0001 esp_lav 2 0 0 . . . tiroc 1 -0.140 -6.730 0.0323 -4.34 0.0002 tiroc 2 0 0 . . . voto_30 -0.011 -0.544 0.0095 -1.19 0.2338 tempo_tesi 0.013 0.647 0.0022 5.98 <.0001 0.228 10.944 0.0265 8.6 <.0001 militare 1 militare 2 0 0 . . . sesso*tempo_tesi 1 0.009 0.419 0.0033 2.65 0.0082 sesso*tempo_tesi 2 0 0 . . . sesso*voto_30 1 -0.032 -1.561 0.0128 -2.53 0.0114 sesso*voto_30 2 0 0 . . . diploma*tit_gen 1*1 0.056 2.683 0.0662 0.84 0.4026 diploma*tit_gen 1*2 0.057 2.720 0.0705 0.8 0.4257 diploma*tit_gen 1*3 0 0 . . . diploma*tit_gen 2*1 -0.181 -8.688 0.0638 -2.84 0.0068 diploma*tit_gen 2*2 -0.190 -9.106 0.0666 -2.85 0.0065 diploma*tit_gen 2*3 0 0 . . . diploma*tit_gen 3*1 0 0 . . . diploma*tit_gen 3*2 0 0 . . . diploma*tit_gen 3*3 0 0 . . . 0.001 0.030 0.0003 2.37 0.0177 voto_dipl*tempo_tesi 80 Un modello multilivello per l’analisi della durata degli studi universitari Molto interessante, inoltre, è osservare che, assunto come casuale l’effetto del corso di laurea, essere maschio ha un effetto positivo sui tempi di laurea. Qualora le altre variabili esplicative abbiano valore pari a 0, si avrà: ind _ dur j (maschio) = 1,65 − 0,10(maschio = 1)ij + (u 0 j + rij ) e ind _ durj ( femm) = 1,65 − 0,10( femm = 0)ij + (u0 j + rij ) , ossia un valore dell’indice di durata di circa 1.55 (che per un corso di laurea di durata quadriennale corrisponde a circa 6 anni e 2 mesi) per i maschi e 1.65 per le femmine (corrispondente a circa 6 anni e 7 mesi). Una volta inserite nel modello le variabili esplicative di primo livello e le loro interazioni, sono state aggiunte anche le variabili esplicative di secondo livello. Il modello di regressione specificato separatamente per i singoli gruppi risulta, pertanto, espresso dall’equazione: Yij = β 0 j + ∑ β pj X pij + rij p dove: β 0 j = γ 00 + ∑ γ 0 q Z qj + u 0 j q Seguendo la strategia di selezione del modello sopra descritta, per il coefficiente β 0 j si è ottenuta l’equazione: β 0 j = γ 00 + γ 01voto _ dipl _ CdL + γ 02 numchiuso + u 0 j Quindi, il modello completo assume la forma: ind _ durij = γ 00 + γ 10 j sesso ij + γ 20 j tit _ gen ij + γ 30 j diploma ij + γ 40 j voto _ dipl ij + + γ 50 j frequenz ij + γ 60 j esp _ lav ij + γ 70 j tiroc ij + γ 80 j voto _ 30 ij + γ 90 j tempo _ tesi ij + + γ 10, 0 j militare ij + γ 11, 0 j sesso * tempo _ tesi ij + γ 12, 0 j sesso * voto _ 30 ij + + γ 13, 0 j diploma * tit _ gen ij + γ 14, 0 j voto _ dipl * tempo _ tesi ij + + γ 01 voto _ dipl _ CdL + γ 02 numchiuso + (u 0 j + rij ) Nella Tabella 4 sono riportati i risultati ottenuti. L’intercetta γ 00 = 1.69 indica il valore dell’indice di durata (che per un corso di laurea di durata quadriennale corrisponde a circa 6 anni e 9 mesi) quando tutte le variabili esplicative hanno un valore pari a 0 e gli errori di primo e di secondo livello sono nulli, ovvero quando si osserva il tempo di conseguimento del titolo del cosiddetto individuo-base all’interno di un CdL-base. Modelli statistici per l’analisi della transizione Università-lavoro 81 Tabella 4. Effetti fissi: coefficienti di regressione Effetto Categorie Intercetta sesso sesso tit_gen tit_gen tit_gen diploma diploma diploma voto_dipl frequenz frequenz esp_lav esp_lav tiroc tiroc voto_30 tempo_tesi militare militare sesso*tempo_tesi sesso*tempo_tesi sesso*voto_30 sesso*voto_30 diploma*tit_gen diploma*tit_gen diploma*tit_gen diploma*tit_gen diploma*tit_gen diploma*tit_gen diploma*tit_gen diploma*tit_gen diploma*tit_gen voto_dipl*tempo_tesi voto_dipl_CdL numchiuso numchiuso 1 2 1 2 3 1 2 3 1 2 1 2 1 2 1 2 1 2 1 2 1*1 1*2 1*3 2*1 2*2 2*3 3*1 3*2 3*3 1 2 Stima 1.689 -0.096 0 0.168 0.089 0 -0.002 0.170 0 -0.011 0.085 0 0.127 0 -0.149 0 -0.010 0.013 0.209 0 -0.035 0 0.009 0 0.070 0.073 0 -0.174 -0.176 0 0 0 0 0.001 -0.050 -0.378 0 STIMA (espressa in mesi) 81.058 -4.612 0 8.050 4.291 0 -0.109 8.150 0 -0.513 4.068 0 6.086 0 -7.162 0 -0.479 0.625 10.042 0 -1.674 0 0.442 0 3.342 3.527 0 -8.338 -8.462 0 0 0 0 0.029 -2.418 -18.154 0 Errore standard Valore T Pr > |t| 0.0500 0.0229 . 0.0291 0.0278 . 0.0570 0.0563 . 0.0014 0.0347 . 0.0221 . 0.0317 . 0.0094 0.0022 0.0262 . 0.0127 . 0.0032 . 0.0652 0.0695 . 0.0629 0.0657 . . . . 0.0003 0.0155 0.0521 . 33.78 -4.19 . 5.77 3.21 . -0.04 3.01 . -7.75 2.44 . 5.75 . -4.7 . -1.06 5.85 7.97 . -2.76 . 2.83 . 1.07 1.06 . -2.76 -2.68 . . . . 2.29 -3.26 -7.26 . <.0001 0.0002 . <.0001 0.002 . 0.9685 0.004 . <.0001 0.0275 . <.0001 . <.0001 . 0.288 <.0001 <.0001 . 0.0059 . 0.0047 . 0.2915 0.2961 . 0.0083 0.0101 . . . . 0.0221 0.0025 . . 82 Un modello multilivello per l’analisi della durata degli studi universitari I coefficienti di regressione delle covariate voto_dipl_CdL e numchiuso esprimono l’effetto di queste due variabili di secondo livello sulla media tra gruppi dell’indice di durata. Il fatto che il coefficiente γ 01 sia negativo indica che all’aumentare del voto medio che gli studenti hanno ottenuto al diploma migliorano i tempi di laurea medi all’interno del gruppo. Ancora più interessante, inoltre, è analizzare il coefficiente di regressione della variabile numchiuso. Quando u0 j = 0 , si ha: β 0 j = 1.69 − 0.37(numchiuso ) quindi: β 0 j (numchiuso = 1) = 1.32 β 0 j (numchiuso = 0) = 1.69 Questo vuol dire che il valore medio dell’indice di durata risulta inferiore di 0.37 (corrispondente a circa 1 anno e quasi 6 mesi per un corso di laurea di durata quadriennale) per quei CdL in cui vi è il cosiddetto numero chiuso rispetto a quelli in cui non esiste nessuna limitazione all’accesso per le immatricolazioni. Le variabili di secondo livello che singolarmente sono risultate significative, ma che successivamente, attraverso l’applicazione del test della devianza e il calcolo dell’indice di adattamento AIC sono state escluse dal modello, sono state: noliceali_CdL, frequenz_CdL, tempo_tesi_CdL. Questo indica che vi è una relazione tra il tipo di preparazione preuniversitaria degli studenti che si iscrivono in un determinato CdL, la loro frequenza media e il tempo medio richiesto per la stesura della tesi e i tempi medi di laurea osservati all’interno dello specifico CdL, ma che le variabili voto_dipl_CdL e numchiuso spiegano una maggior variabilità del fenomeno risposta. Passando all’analisi dei coefficienti di regressione delle variabili di primo livello e delle loro interazioni si rileva come questi sostanzialmente non siano cambiati rispetto al modello precedentemente presentato. Inoltre, ancora una volta, le stime dei coefficienti di regressione che hanno un valore positivo sono quelle riguardanti la relazione tra indice di durata e le variabili tit_gen, diploma, frequenz, esp_lav, tempo_tesi, militare. Infine, è stata svolta un’analisi dei residui sia di primo che di secondo livello per verificare alcune ipotesi poste alla base del modello. In particolare, è risultato che il valore della varianza di entrambe le componenti residue sono inferiori rispetto a quelli stimati attraverso il modello nullo: parte della variabilità della variabile risposta dovuta sia all’effetto individuale che a quello di gruppo è stata spiegata attraverso l’inserimento delle variabili esplicative. Inoltre, è stato calcolato il coefficiente residuo di correlazione intra-classe; comparando tale valore con quello calcolato attraverso il modello vuoto, si osserva come attraverso l’inserimento delle variabili esplicative vi sia stata una diminuzione della percentuale della varianza totale dell’indice di durata dovuta all’effetto del Corso di Laurea. Modelli statistici per l’analisi della transizione Università-lavoro 83 L’analisi dei residui di secondo livello relativi al modello nullo ed al modello finale ha permesso, tra le altre cose, di ottenere interessanti informazioni per quanto riguarda il cosiddetto “effetto corso di laurea” sui tempi di conseguimento del titolo degli studenti; infatti, è stato possibile costruire una sorta di “graduatoria” dei corsi di laurea in termini di efficacia dovuta esclusivamente alle loro peculiarità. In particolare, è stato rilevato che parte della variabilità dei tempi di laurea degli studenti che attraverso una prima analisi di natura descrittiva sembrava dovuta all’effetto proprio dei diversi corsi di laurea è in realtà spiegabile altrimenti. Solo per far un esempio, presupponendo come casuale l’effetto proprio del gruppo, i corsi di laurea in Medicina e Chirurgia ed in Odontoiatria e protesi dentaria sono risultati molto efficienti in termini di tempi di conseguimento del titolo degli studenti mentre dopo l’inserimento nel modello delle variabili esplicative tale effetto positivo è in qualche modo “scomparso”. Questo può essere spiegato dal fatto che i due CdL considerati godono degli effetti positivi nei confronti dei tempi di laurea esercitati dalla presenza delle limitazioni all’accesso delle immatricolazioni, effetti che sono stati controllati inserendo nel modello la variabile esplicativa relativa alla presenza del numero chiuso all’interno del corso di studi. Inoltre, si rileva che sia presupponendo la totale casualità dell’effetto del corso di laurea sia cercando di spiegarlo attraverso l’utilizzo delle variabili esplicative, gli effetti “estremamente” positivi e quelli “estremamente” negativi dei CdL rimangono gli stessi: solo per fare un esempio, i CdL ad avere un effetto migliore sono Psicologia, Scienze Forestali e Scienze dell’Educazione, mentre quelli ad avere effetti peggiori sono Materie Letterarie e Lingue e Letterature Straniere Moderne. 5. Conclusioni In questa nota sono stati descritti molto sinteticamente i risultati di un’analisi dei tempi di conseguimento del titolo dei laureati dell’Ateneo fiorentino soffermando l’attenzione sui laureati dell’anno solare 2000; su tali dati si è anche proceduto alla stima di un modello multilivello. Obiettivo dell’applicazione è stato quello di esaminare i comportamenti individuali degli studenti universitari per quanto riguarda i tempi di laurea in funzione di variabili esplicative di primo e secondo livello, dove le unità di primo livello sono gli studenti e quelle di secondo livello sono i Corsi di laurea. I risultati dell’analisi possono essere utili ai fini di una miglior comprensione di un fenomeno considerato unanimemente una criticità assoluta del sistema universitario italiano. Il modello a cui si è giunti è un modello lineare gerarchico ad intercetta casuale, in cui si suppone un effetto costante tra gruppi delle variabili esplicative sulla variabile risposta (Yij). 84 Un modello multilivello per l’analisi della durata degli studi universitari Le covariate di primo livello che sono risultate significative nello spiegare i tempi di laurea degli studenti sono state sia variabili legate ai loro caratteri strutturali (genere, titolo di studio dei genitori), sia variabili legate alla loro preparazione preuniversitaria (il tipo di scuola superiore frequentata, la votazione riportata all’esame di maturità), sia variabili legate alla loro carriera universitaria (frequenza alle lezioni, il tipo di esperienze lavorative avute durante gli studi, lo svolgimento o meno di un tirocinio, la votazione riportata agli esami, il tempo impiegato per la stesura della tesi, lo svolgimento o meno del servizio militare o civile durante gli studi); inoltre, è stato possibile rilevare come il fenomeno “tempi di laurea” è spiegato anche da alcune interazioni tra le variabili di primo livello. A livello di corso di laurea, i tempi impiegati dagli studenti per il conseguimento del titolo dipendono sia dal voto medio riportato dagli stessi all’esame di maturità, sia dalla presenza o meno del cosiddetto “numero chiuso” all’interno del CdL. Naturalmente, le politiche universitarie d’intervento che dovrebbero essere messe in atto ai fini della risoluzione del problema dell’eccessiva durata degli studi potranno riguardare solo variabili legate alla vita universitaria degli studenti che in qualche modo “agiscono” sui tempi di laurea degli stessi. Dall’analisi di tali variabili è possibile rilevare come queste si trovano in relazione con l’organizzazione interna dei corsi di studi: il tipo di frequenza richiesta, il fatto di lasciar tempo o meno per diversi tipi di esperienze lavorative (stabili o non stabili), il tempo richiesto per la stesura tesi, l’obbligatorietà o meno di svolgere attività di tirocinio o stage, possono essere considerati indici di una “buona o cattiva” organizzazione interna della corso di studi. Anche il fatto che dall’applicazione del modello sia risultato significativo il cosiddetto “numero chiuso” nello spiegare le differenze tra CdL rileva come una miglior organizzazione del corso incida sui tempi di laurea degli studenti. Infatti, generalmente, la limitazione all’accesso delle immatricolazioni, convogliando all’interno dei Corsi di laurea solo un circoscritto numero di studenti solitamente molto motivati, ha degli effetti positivi sull’organizzazione della didattica, sulla gestione dei servizi agli studenti, sul numero dei docenti per studente, ecc. Anche l’inserimento nei curricula di attività di tirocinio o stage può avere degli effetti positivi sui tempi di laurea degli studenti agendo positivamente sull’organizzazione interna dei piani di studi dei CdL. I risultati delle analisi svolte, molto sommariamente richiamati in questa nota, giustificano ampiamente, a nostro parere, il ricorso ai modelli multilivello quando si procede all’analisi di dati che riguardano gli studenti universitari23; infatti, è del tutto 23 In tale direzione si sta movendo da tempo il gruppo VALMON (Valutazione e Monitoraggio). Il gruppo, coordinato da B.Chiandotto e costituito da laureandi, dottorandi e docenti del Dipartimento di Statistica dell’Università degli Studi di Firenze, da diversi anni svolge attività di studio e ricerca nel contesto della valutazione e del monitoraggio dei processi formativi che si svolgono nell’Ateneo fio- Modelli statistici per l’analisi della transizione Università-lavoro 85 evidente la natura gerarchica dei dati: le unità di primo livello sono gli studenti o i laureati/diplomati, mentre le unità di secondo livello sono i corsi di studio. Ovviamente la gerarchizzazione può essere estesa ad un numero di livelli più elevato: ad esempio le Facoltà possono rappresentare il terzo livello e gli Atenei il quarto livello. Riferimenti bibliografici BULGARELLI G. (2002) Esito degli studi degli immatricolati dell’Ateneo Fiorentino dal 1980/81 al 1997/9, Università degli Studi di Firenze, consultabile anche sul sito www.unifi.it/aut_dida/indexval.html. CHIANDOTTO B. (2002) Valutazione dei processi formativi: cosa, come e perché, in Valutazione della Didattica e dei Servizi nel Sistema Università.In D’ESPOSITO M.R. (a cura di) Valutazione della Didattica e dei Servizi nel Sistema Università. CUSL, Salerno 2002. CHIANDOTTO B., BACCI S., BERTACCINI B. (2004) I laureati e diplomati dell’Ateneo Fiorentino dell’anno 2000: profilo e sbocchi professionali, Università degli Studi di Firenze. CHIANDOTTO B., BERTACCINI B. (2003) I laureati e diplomati dell’Ateneo Fiorentino dell’anno 1999: profilo e sbocchi professionali, Università degli Studi di Firenze. COBALTI A., SCHIZZEROTTO A. (1994) La mobilità sociale in Italia, Il Mulino, Bologna. GOLDSTEIN H. (2003) Multilevel Statistical Models, Edward Arnold, London. HOX J.J. (2002) Multilevel Analysis: Techniques and Applications, LAWRENCE ERLBAUM ASSOCIATES, Mahwah (New Jersey), London. SAS INSTITUTE INC. (1999) SAS/STAT® User’s Guide, Version 8, SAS Institute Inc., Cary NC. SNIJDERS T., BOSKER R. (1999) An Introduction to Basic and Advanced Multilevel Modeling, Sage, London. VARRIALE R. (2004) Tempi di conseguimento del titolo nell’Università degli Studi di Firenze nel periodo 1980-2000 e applicazione di un modello lineare gerarchico ai laureati nell’anno solare 2000, Tesi di laurea, Università degli Studi di Firenze. rentino. Tale interesse è testimoniato, tra l’altro, da altri due lavori presentati in questa sede: “Un modello multilivello per l’analisi della condizione occupazionale dei laureati” (Chiandotto B. e Bacci S.); “L’abbandono degli studi universitari” (Chiandotto B. e Giusti C.). 86 Un modello multilivello per l’analisi della durata degli studi universitari A multilevel model for the analysis of university students’ time to degree Summary. This paper deals with the analysis of the time that students need to graduate, since this topic represents one of the most critical aspects of the Italian University System. The analysis is conducted using data concerning the students enrolled at the University of Florence in the academic years from 1980 to 2000, focusing on the data concerning the graduates during the calendar year 2000. The aim of the work is to find out the predictors that explain the time that students need to graduate. The initial analysis is conducted by descriptive statistical methods, then the work is accomplished by applying a hierarchical linear model on students’ graduation time. The use of a multilevel analysis was suggested by the two-level data structure: the first level units are identified by the students; the second level units are the degree courses in which these students graduated. The level-1 predictors that result in being significant to explain the time that students need to graduate are variables regarding students’ structural characteristics, their educational background and their university career. At level-2 (degree courses), the time that students need to graduate depends on the average high school final grade and the presence of limits of the maximum number of students allowed in that specific degree course. Keywords: Time needed to graduate, Multilevel models, Hierarchical linear regression. Valutazione della qualità della formazione universitaria percepita dai laureati e diplomati dell’Ateneo fiorentino: un’applicazione del modello ECSI1 Bruno Chiandotto, Matilde Bini, Bruno Bertaccini Dipartimento di Statistica “G. Parenti”, Università degli Studi di Firenze Riassunto. Nell’ambito del sistema universitario, gli studenti rappresentano gli utenti e gli attori principali dei servizi formativi offerti dagli Atenei. Una misura della loro percezione di qualità del servizio fruito risulta essenziale in vista dell’obiettivo dell’attivazione di possibili interventi tesi all’innalzamento dei livelli qualitativi dei servizi stessi. Tale constatazione ha suggerito di procedere ad una sperimentazione della metodologia ECSI (European Customer Satisfaction Index), che trova il suo sostanziale fondamento nell’implementazione di un modello ad equazioni strutturali capace di rappresentare la soddisfazione degli studenti/utenti sulla base di certe determinanti, tipicamente latenti, che vengono valutate attraverso uno specifico insieme di indicatori direttamente osservabili. La tecnica proposta, già sperimentata in relazione ad indagini sulla qualità percepita dagli studenti, viene estesa anche ad informazioni acquisite intervistando laureati e diplomati che svolgono un’attività lavorativa ad oltre un anno dal conseguimento del titolo. La popolazione oggetto di riferimento dell’analisi è costituita da coloro che hanno conseguito il titolo presso l’Università degli Studi di Firenze nell’anno solare 2000. Parole chiave: Customer satisfaction, ECSI, Modelli ad equazioni strutturali, Qualità della formazione universitaria. 1 Il presente lavoro è stato finanziato nell’ambito del PRIN 2002, cofinanziato dal MIUR “Transizioni Università-lavoro e valorizzazione delle competenze professionali dei laureati: modelli e metodi di analisi multidimensionali delle determinanti”. Coordinatore nazionale è Luigi Fabbris, coordinatore del gruppo di Firenze è Bruno Chiandotto (titolo del progetto dell’unità di ricerca locale “Valutazione del processo formativo universitario, sbocchi professionali e pianificazione dei percorsi formativi: modelli e metodi”). L’idea iniziale, la struttura e l’impostazione del lavoro sono dovuti al contributo dei tre autori, mentre le elaborazioni e l’implementazione del modello sono da attribuire a M. Bini e B. Bertaccini. 88 Valutazione della qualità della formazione universitaria percepita dai laureati... 1. Introduzione Se la customer satisfaction è intesa come una valutazione complessiva delle prestazioni di un’azienda, ente o istituzione, relative alla produzione di un bene o all’erogazione di un servizio (Fornell, 1992; Fornell et al, 1996), si deve a ragione ritenere di qualità quel prodotto/servizio che risponde alle esigenze e alle attese dei potenziali clienti/utenti cui è destinato. Risulta pertanto chiaro come l’adozione di opportuni interventi volti al miglioramento della qualità, rappresenti una delle principali strategie delle varie organizzazioni produttrici/erogatrici tese all’acquisizione di più elevati livelli di produttività e maggiori vantaggi competitivi (Montgomery, 1996). Gli studi sulla soddisfazione devono, pertanto, essere necessariamente volti ad acquisire informazioni utili all’innalzamento della qualità di quanto è stato prodotto o erogato, prestando particolare attenzione alla comprensione delle determinanti e delle conseguenze di un’esperienza di consumo o di fruizione. Negli ultimi decenni, le analisi di customer satisfaction hanno assunto rilevanza a livello nazionale con l’introduzione di indici (CSI – Customer Satisfaction Indices) e barometri volti alla valutazione della soddisfazione di interi mercati se non della produzione complessiva di un intero paese. La genesi di queste particolari strumentazioni è da ricercarsi nelle due diverse prospettive che originano le analisi relative alla soddisfazione: transaction-specific satisfaction e cumulative satisfaction (Johnson M.D. et al, 2000). Da un interesse originariamente rivolto al primo approccio, basato sul singolo episodio di consumo, è stata rivolta negli ultimi anni una crescente attenzione a tutti quegli aspetti prettamente psicologici che inducono a definire la soddisfazione come l’esperienza complessiva che il consumatore/fruitore matura con il prodotto/servizio o con l’organizzazione produttiva/erogatrice nel corso del tempo. Valutazioni di questo tipo scaturiscono quindi da più atti di transazione e non si limitano al singolo episodio, dato che il consumatore/fruitore procede ad un continuo aggiornamento della sua esperienza di consumo/fruizione (Johnson et al., 2000). Il primo modello in tale direzione è stato il barometro proposto in Svezia nel 1989 (SCSB – Swedish Customer Satisfaction Barometer) seguito, a distanza di qualche anno, dall’indice americano (ACSI – American Customer Satisfaction Index, 1994), dal barometro norvegese (NCSB – Norwegian Customer Satisfaction Barometer, 1996) e dall’indice proposto nell’ambito dalla Comunità Europea (ECSI – European Customer Satisfaction Index, 1999). Basati su teorie sviluppate e convalidate nel corso degli anni, relative al comportamento dei consumatori, alla loro soddisfazione e alla qualità dei prodotti acquistati, i nuclei centrali di questi modelli si sostanziano in nessi causali attesi tra un certo numero di fattori latenti ognuno dei quali è deputato a “spiegare” le determinazioni di uno specifico insieme di indicatori (o variabili di misura) direttamente osservabili. La loro struttura è costantemente sotto revisione e soggetta a modificazioni in Modelli statistici per l’analisi della transizione Università-lavoro 89 relazione ai contesti di applicazione; pertanto, le differenze tra le varie proposte presenti in letteratura sono esclusivamente ascrivibili sia al numero di fattori latenti coinvolti nell’analisi, sia al numero dei nessi causali in essa previsti. Obiettivo del presente lavoro è sperimentare gli indici CSI nell’ambito della formazione universitaria. In particolare, la scelta è stata indirizzata sul modello ECSI, dato che la sua parte strutturale, per il tipo di fattori latenti previsti, è quella più consona alla realtà oggetto d’analisi. Al fine di delineare un quadro il più completo possibile delle determinanti della qualità delle proposte formative adottate dagli Atenei, sono stati intenzionalmente introdotti nell’analisi anche alcuni aspetti relativi alla situazione lavorativa e all’opinione dei laureati e diplomati che risultano occupati ad oltre un anno dal conseguimento del titolo, quali conseguenza diretta dell’esperienza di fruizione del servizio ricevuto. Tale strategia ha condotto a risultati incoraggianti, che dimostrano la validità dell’approccio d’analisi nel porre in luce quegli elementi di criticità del sistema universitario che si riflettono sulla qualità della didattica e dei servizi ad essa correlati. Lo strumento ritenuto più appropriato alla stima degli effetti previsti in questi modelli, data l’articolazione della parte strutturale che li contraddistingue, è l’approccio proposto nel contesto della teoria dei Modelli ad Equazioni Strutturali (acronimo SEM dall’inglese Structural Equation Models). In proposito si deve sottolineare che la tecnica inizialmente suggerita per pervenire alla stima delle variabili latenti presenti nei modelli CSI (Fornell, 1992) è il cosiddetto metodo Partial Least Squares (PLS, Wold, 1975)2. Tuttavia si è scelto di ricorrere all’approccio di stima proprio dei modelli ad equazioni strutturali, il quale, essendo basato su procedure di stima di massima verosimiglianza, abbina ad una maggiore “libertà nella specifica dei parametri la possibilità di verificare la significatività di quelli omessi (es. covarianza degli errori). Infine, ma non ultimo in ordine di rilevanza, i recenti contributi di Müthen & Müthen (2003) ne hanno aumentato l’efficienza dal punto di vista computazionale e la flessibilità di implementazione. Il lavoro si articola in sei paragrafi di cui il secondo è dedicato ad una descrizione dei modelli ACSI/ECSI, il terzo alla rassegna delle fonti utilizzate ed il quarto ad una descrizione sintetica dei modelli ad equazioni strutturali; nel quinto vengono commentati i risultati ottenuti mentre nel sesto sono riportate alcune considerazioni conclusive. 2 Questa proposta trovava fondamento nella constatazione che gli alternativi approcci di stima per variabili latenti erano caratterizzati da ipotesi di specificazione più restrittive, principalmente riguardanti il requisito di normalità delle osservazioni. A favore dell’approccio PLS si può osservare che nonostante la comprovata distorsione degli stimatori, tale metodo di stima è in grado di fornire predizioni ottimali della variabile dipendente; in aggiunta verifiche empiriche ne hanno dimostrato la sua bontà di comportamento sia nel caso di piccoli campioni che di distribuzioni asimmetriche. 90 Valutazione della qualità della formazione universitaria percepita dai laureati... 2. Struttura dei modelli ACSI / ECSI Il nucleo di un modello CSI è costituito da un certo numero di fattori latenti, ognuno dei quali è deputato a motivare le variazioni rilevate da indicatori multipli, tipicamente osservabili. Le potenzialità dell’approccio risiedono nei legami ipotizzati tra i fattori latenti, che prendono origine da un sistema di cause ed effetti tra quelle che sono le possibili determinanti della soddisfazione e le sue conseguenze. Il modello ECSI costituisce un’evoluzione del modello ACSI. Le aspettative del consumatore/fruitore, la qualità e il valore percepito, la soddisfazione e il concetto di fedeltà assumono nel modello ECSI una configurazione strutturale del tutto analoga a quella prevista per l’indice americano. Ci sono però due fondamentali differenze fra questi modelli: il modello ECSI non prevede l’incidenza del comportamento di reclamo quale conseguenza della soddisfazione. Inoltre include la corporate image come variabile latente e si ipotizza che quest’ultima abbia effetti diretti sulle aspettative, sulla soddisfazione e sulla fedeltà del consumatore. In dettaglio, le determinanti della soddisfazione previste in questi modelli sono: Qualità Percepita: si riferisce alla valutazione delle recenti esperienze di consumo/fruizione relative agli attributi del prodotto/servizio (perceived quality of hardware - QUAHW) e alle attività di supporto fornite sia durante che dopo l’esperienza di consumo/fruizione (perceived quality of humanware QUAUW). Si suppone che entrambi i fattori abbiano un diretto e positivo effetto sulla soddisfazione complessiva (overall satisfaction); Valore (Value - VALU): rappresenta il valore della qualità percepita in relazione al prezzo pagato. Si ritiene che tale fattore causi positivamente la soddisfazione complessiva e sia influenzato dalla qualità percepita; Immagine (Image - IMAG): riguarda la sfera delle sensazioni derivanti dall’associazione prodotto/marca/azienda. Si ipotizza che questo fattore incida positivamente sul valore, sulla soddisfazione complessiva e sulla fedeltà; alcuni autori inoltre ritengono che l’immagine possa produrre un effetto diretto anche sulla qualità percepita, sebbene il modello ECSI classico consideri questi due aspetti come fattori esogeni; Aspettative (Expectations - EXPE): è il livello di qualità che l’acquirente/fruitore si attende di ricevere ed è generalmente il risultato di precedenti esperienze di consumo/fruizione. Anche questo è ritenuto un fattore esogeno capace di incidere positivamente sia sul valore che sulla soddisfazione complessiva. Le conseguenze della soddisfazione sono: Reclami (Complaints - COMP): questo fattore si riferisce al tipo e all’intensità dei reclami e, soprattutto, al modo con cui questi vengono trat- Modelli statistici per l’analisi della transizione Università-lavoro 91 tati. Nel modello ACSI ci si attende che un incremento del livello complessivo di soddisfazione produca una diminuzione dell’incidenza dei reclami; Fedeltà (Loyalty - LOYA): è l’ultimo fattore presente nei modelli ed è ritenuta una proxy della capacità di profitto dell’organizzazione, in quanto determinante di indicatori quali le intenzioni di riacquisto, la tolleranza alle variazioni di prezzo, le intenzioni di raccomandare il prodotto o servizio ad altri. Si ipotizza che elevati livelli di immagine e di soddisfazione complessiva siano in grado di attivare nel consumatore quello che viene definito processo di fidelizzazione. In Figura 1 viene riproposto graficamente quanto sopra richiamato, cioè le variabili latenti e le relazioni previste espresse in termini di nessi di causalità. Figura 1. Modello ACSI / ECSI: parte strutturale e relazioni attese IMAG + + LOYA + EXPE + + VALU + -/+ SATI + + QUAHW + QUAUW + COMP In relazione agli scopi preposti si è intenzionalmente deciso di adottare la versione europea dell’indice di customer satisfaction, in quanto ritenuta la più idonea a rappresentare il fenomeno di interesse date le fonti disponibili, fonti che verranno illustrate nel paragrafo successivo. Sulla base delle informazioni disponibili e delle analisi preliminari condotte e, soprattutto, sulla base della conoscenza pregressa del fenomeno, la parte strutturale del modello di riferimento per le analisi che seguono è quella rappresentata in Figura 2. 92 Valutazione della qualità della formazione universitaria percepita dai laureati... Figura 2. Modello ECSI atteso per la valutazione della qualità della formazione universitaria IMAG EXPE VALU SATI LOYA QUAHW QUAUW determinanti conseguenze 3. La base dati utilizzata Gli studi di customer satisfaction sono generalmente basati su schemi di indagine che prevedono l’impiego di questionari ad hoc, volti a rilevare tutti quegli aspetti che sono ritenuti in qualche modo correlati alle determinanti e/o alle conseguenze di un’esperienza di consumo/fruizione. Nel contesto in esame - la valutazione della qualità della formazione universitaria quale servizio erogato dall’Ateneo fiorentino -, l’indisponibilità di un simile strumento di misura ha di fatto condotto alla creazione di una base dati contenente informazioni provenienti sia dall’indagine ALMALAUREA sul “Profilo dei Laureati” al conseguimento del titolo, che dalla rilevazione sugli ‘Sbocchi occupazionali dei laureati dell’Università degli Studi di Firenze nell’anno solare 2000’, realizzata dal Gruppo VALMON3 in collaborazione con il Dipartimento di Statistica ‘G. Parenti’ 3 Il gruppo, coordinato da B. Chiandotto e costituito da laureandi, dottorandi e docenti del Dipartimento di Statistica dell’Università degli Studi di Firenze, da diversi anni svolge attività di studio e ricerca nel contesto della valutazione e del monitoraggio dei processi formativi che si svolgono nell’Ateneo fiorentino. Modelli statistici per l’analisi della transizione Università-lavoro 93 quale integrazione della stessa effettuata sempre nell’ambito del progetto ALMALAU4 . In particolare, quest’ultima è stata condotta tramite interviste telefoniche della durata massima di 20 minuti e ricorrendo alla tecnica C.A.T.I. (Computer Aided Telephone Interviewing). La scelta di tale strumento di rilevazione è ovviamente giustificata dalla riduzione dei tempi d’indagine e dagli elevati tassi di risposta ottenibili rispetto alle altre modalità di intervista5. Risulta in questa sede superfluo dilungarsi oltre sulle esigenze conoscitive che hanno condotto alla pianificazione di queste due rilevazioni6, esigenze ovviamente del tutto differenti rispetto a quelle dettate da una valutazione di customer satisfaction. Quello che invece è importante sottolineare è l’ampiezza della gamma di informazioni desumibili dai due questionari utilizzati, informazioni che hanno consentito di derivare un quadro completo di quella che è la qualità del prodotto finito dell’Ateneo. In particolare, la completa disponibilità di queste fonti ha consentito di ipotizzare un modello di valutazione complessiva della qualità della formazione universitaria che contempla non solo informazioni relative alla percezione dell’esperienza di studio al momento del conseguimento del titolo, ma anche informazioni relative alla percezione della qualità dell’attività lavorativa svolta nonché dell’esperienza di studio valutata alla luce di tale attività. L’allettante prospettiva di poter abbinare informazioni rilevate al conseguimento del titolo con quelle rilevate ad oltre un anno dallo stesso e relative anche ad alcuni aspetti dell’occupazione svolta ha, però, di fatto comportato l’esclusione dall’analisi di tutti quei soggetti che ad oltre un anno dal termine degli studi universitari risultavano non occupati. Le variabili derivate dai questionari relativi alle indagini suddette, ritenute potenzialmente in grado di misurare aspetti inerenti la soddisfazione, sono: i motivi di iscrizione all’Università e al corso di studi; la valutazione dei rapporti con il personale docente, gli assistenti, il personale non docente, gli studenti; REA 4 Le indagini sugli Sbocchi Occupazionali condotte da AlmaLaurea, come è noto, coinvolgono i laureati della sola sessione estiva, che vengono monitorati nei tre anni (o cinque anni) successivi alla conclusione degli studi; l’Ateneo fiorentino ha pertanto ritenuto opportuno estendere le rilevazioni condotte negli anni 1998, 1999, 2000 e 2001 a poco più di un anno dal conseguimento del titolo, al collettivo dei laureati e diplomati di tutte le sessioni dell’intero anno solare corrispondente. Queste rilevazioni rientrano nella sfera delle iniziative adottate negli ultimi anni dall’Università degli Studi di Firenze, volte essenzialmente alla misura dell’efficacia (interna ed esterna) dei percorsi didattici intrapresi. 5 Il disegno d’indagine ha previsto anche l’invio postale di un questionario opportunamente adattato a tutti coloro che non sono stati contattati durante la fase telefonica della rilevazione, al solo scopo di accertare eventuali differenze sostanziali sui temi centrali dell’indagine con coloro che, invece, erano già stati raggiunti telefonicamente. 6 Chi è interessato può utilmente consultare il volume Chiandotto B., Bacci S., Bertaccini B. (2004). “Profilo e Sbocchi occupazionali dei laureati e diplomati dell’Ateneo fiorentino nell’anno 2000”. Università degli Studi di Firenze. 94 Valutazione della qualità della formazione universitaria percepita dai laureati... la valutazione delle strutture universitarie (aule, laboratori, biblioteche, mense); la soddisfazione espressa in relazione sia ad alcuni aspetti dell’attività lavorativa svolta (coerenza con gli studi fatti, rispondenza ai propri interessi culturali, acquisizione di professionalità) sia in termini complessivi; i pareri espressi in merito alla prospettata ipotesi di reiscrizione sia all’università che allo stesso corso di studi; la manifestata intenzione di proseguire gli studi e le attività formative svolte. Quasi tutte le variabili menzionate sono di tipo dicotomico o ordinale, qualora derivino da risposte valutate su scale 1 – 5. Data la mole di informazioni ed il numero di soggetti intervistati non si è ritenuto opportuno eseguire procedure finalizzate all’imputazione dei dati mancanti, optando per la rimozione di tutti i casi con informazione incompleta; il sottoinsieme dei casi selezionati è pertanto risultato pari a 1753 unità. Nella Tavola 1 viene proposta la parte di misura del modello ECSI ipotizzato, in cui sono rappresentate le presunte relazioni tra le variabili direttamente osservate ed i costrutti latenti previsti . Tavola 1. Descrizione della parte di misurazione del modello ECSI ipotizzato Costrutti latenti IMAG: EXPE: QUAHW: QUAUW: Variabili osservate Motivi iscrizione Università: MOTISCR1, MOTISCR2, MOTISCR3 Motivi iscrizione allo specifico Corso di Studi: MOTCOR1, MOTCOR2, MOTCOR3, MOTCOR4, MOTCOR6 Valutazione aule, biblioteche, laboratori e mense (scala 1 - 5): STRAULE, STRBIB, STRLIB, STRMENSE Valutazione rapporti con docenti, assistenti, non docenti, studenti e complessiva(scala 1 - 5): RAPDOC, RAPCOL, RAPNDOC, RAPSTUD, GIUDIZIO VALU: SATI: LOYA: Soddisfazione per coerenza con gli studi, rispondenza ai propri interessi culturali (scala 1 - 5): SODDCOER, SODDICUL Soddisfazione per l’acquisizione di professionalità e complessiva (scala 1 - 5): SODDPROF, SODDTOT, Ipotesi di reiscrizione, intenzione di proseguimento degli studi e attività formative svolte: IPREISC, OKUNIV, OKCOR, INTSTUD, ATTFORM Modelli statistici per l’analisi della transizione Università-lavoro 95 4. Cenni sui Modelli ad Equazioni Strutturali I modelli ad equazioni strutturali si sono caratterizzati negli ultimi anni per un crescente e costante sviluppo sia sul versante teorico che su quello applicativo7. I più recenti contributi metodologici sono, in particolare, testimoni di un allargamento degli ambiti disciplinari di applicazione, con risvolti notevoli sugli approcci analitici e sulle tecniche di stima. I modelli ad equazioni strutturali derivano dalla convergenza di due specifiche tradizioni scientifiche: quella econometrica, dalla quale hanno preso il concetto della rete di relazioni causali tra variabili (nel contesto del più generale problema di traduzione empirica del processo di causazione), e quella psicometrica, dalla quale hanno assunto la nozione di variabile latente (nel più generale contesto dei problemi di misura). Data questa loro genesi, alla quale si devono aggiungere i contributi della sociologia (con la path analysis), i modelli di equazioni strutturali hanno trovato, e trovano, sempre più ampia applicazione in medicina, biometria, psicometria, sociologia, scienze dell'educazione, economia, scienze politiche. Nell'espressione modelli ad equazioni strutturali sono sintetizzati due concetti. In primo luogo l'esistenza di un modello, cioè dell'espressione formalizzata di una teoria. In secondo luogo la formalizzazione della struttura di tale modello mediante un sistema di equazioni che ne rappresentano gli ipotetici nessi causali. Il modello, come tale, appartiene all'ambito teorico, in quanto espressione semplificata e formalizzata di una teoria; in altre parole, la formulazione modellistica di una teoria implica sempre da un lato la sua semplificazione concettuale e, dall'altro, la formalizzazione della sua formulazione. Nei modelli ad equazioni strutturali questa formalizzazione avviene mediante un sistema di equazioni. Da qui la definizione di “modelli ad equazioni strutturali” (noti anche con l’acronimo inglese SEM - Structural Equation Models). È possibile quindi affermare che il modello ad equazioni strutturali rappresenta una espressione semplificata e formalizzata dei nessi causali che si suppone esistano nella realtà, dove riduzione della complessità della teoria e formulazione secondo un insieme sintattico di simboli ne rappresentano i due elementi qualificanti (Corbetta, 2002). Generalmente, nel considerare i modelli ad equazioni strutturali con variabili latenti si fa riferimento al cosiddetto modello LISREL (LInear Structural RELationship), sviluppato dalla scuola psicometrica svedese, insieme all’omonimo software (Jöreskog, 1973; Jöreskog, 1990; Jöreskog e Sörbom, 1984). Come noto il modello LISREL si caratterizza per la presenza di due componenti: un modello strutturale, deputato a spiegare i nessi causali tra le variabili latenti, ed un modello di misurazio7 Ne fanno fede la nascita, nel 1994, di una rivista trimestrale specificamente riferita a questa prospettiva metodologica (Structural Equation Modeling: a Multidisciplinary Journal), la fondazione negli stessi anni di una rete e di un bollettino elettronico finalizzato allo scambio scientifico fra gli studiosi, ed infine il fiorire di nuovi software loro dedicati, indicatori questi che più di altri segnalano l'esistenza di una domanda crescente e variegata di applicazione di questa strumentazione. 96 Valutazione della qualità della formazione universitaria percepita dai laureati... ne atto alla loro valutazione mediante le variazioni rilevate sulle variabili osservate. Ricorrendo alla usuale notazione, il modello LISREL può essere espresso con: η = Β η + Γξ + ζ parte strutturale x = Λ xξ + δ y = Λ yη + ε parte di misurazione con una struttura di covarianza indicata da: e con le seguenti restrizioni: Cov(ζ ) = Ψ Cov(ξ ) = Φ Cov(ε ) = Θε Cov(δ ) = Θδ E (η ) = E (ζ ) = 0 E (ξ ) = 0 E (ε ) = 0 E (δ ) = 0 E (ξζ ' ) = 0 E (ηε ' ) = 0 E (ξδ ' ) = 0 variabili indipendenti ed errori tra loro incorrelati nella stessa equazione E(ηδ ' ) = 0 E (ξε ' ) = 0 variabili indipendenti ed errori tra loro incorrelati fra equazioni E (ζε ' ) = 0 E(ζδ ' ) = 0 E (εδ ' ) = 0 errori delle diverse equazioni tra loro incorrelati dove y e x sono vettori di variabili osservate rispettivamente endogene ed esogene, η e ξ i vettori delle variabili latenti rispettivamente sottostanti, Β, Γ, Λy e Λx le matrici dei coefficienti ed ε e δ i termini di errore della parte di misura (per approfondimenti si veda Bollen, 1989; Corbetta, 2002). Adattare un modello SEM ai dati significa quindi risolvere un sistema di equazioni. Nei SEM si assume solitamente che i dati campionari seguano una distribuzione normale multivariata, così che il vettore delle medie e la matrice di covarianza contengano tutta l’informazione necessaria al procedimento di stima: gli algoritmi per la stima degli effetti seguono, in tal caso, procedure sofisticate che, tenendo conto di tut- Modelli statistici per l’analisi della transizione Università-lavoro 97 te le restrizioni sopra esposte, massimizzano il grado di adattamento del modello minimizzando la distanza tra la matrice di varianza e covarianza osservata rispetto a quella attesa indicata dal sistema di equazioni. Il metodo più ampiamente utilizzato per la stima è, in questo caso, quello di massima verosimiglianza ML (Maximum Likelihood), che richiede però una dimensione campionaria di almeno 200 osservazioni. Esistono comunque una varietà di procedure di stima che possono essere utilizzate in presenza di dati continui di tipo non normale; in tal caso, il vettore delle medie e la matrice di covarianza non rappresentano la totalità dell’informazione e tali procedure alternative necessitano di tutta la matrice dei dati grezzi. Tra queste procedure, la più comune è quella denominata ADF (Asymptotically Distribution Free) o WLS (Weighted Least Sqares). Studi di simulazione mostrano che con dati che non si distribuiscono normalmente, le stime ADF posseggono proprietà ottimali solo per campioni di elevata numerosità (almeno 1000 casi). Da sottolineare che, anche in queste situazioni, la stima ML continua a mostrare proprietà ottimali, sebbene siano necessarie almeno 400 osservazioni (Hox, 1998). Un problema diverso sorge in presenza di dati categorici ordinali. In tali situazioni, risulta usuale considerare le varie modalità rilevate come osservazioni ‘imprecise’ provenienti da variabili continue distribuite normalmente. Sotto quest’ipotesi è possibile calcolare le cosiddette correlazioni policoriche, il cui termine sta ad indicare le correlazioni stimate tra variabili normali non osservate. Tali correlazioni costituiscono l’informazione di base della procedura di stima, che generalmente si avvale dell’algoritmo ADF per la valutazione degli effetti. Ancora una volta, requisito essenziale per l’adozione di tale procedura è una numerosità campionaria sufficientemente elevata. In alternativa si può ignorare la natura categorica delle variabili, purché il numero delle modalità non sia limitato (almeno 5) ed i dati abbiano una distribuzione approssimativamente normale. Le statistiche test deputate alla verifica del grado d’adattamento presentano il problema di dipendenza della loro potenza alla dimensione campionaria; in altri termini, se il campione è molto grande, una statistica test basata sul chi-quadro risulterà quasi sicuramente significativa, suggerendo di respingere il modello anche nel caso in cui questo stia descrivendo i dati in maniera più che soddisfacente. Specularmente, nel caso di dimensioni campionarie limitate, il rischio in cui si incorre è quello di accettare sempre il modello, anche in presenza di un pessimo adattamento. Appurata l’elevata sensibilità della statistica chi-quadro alla dimensione campionaria, in letteratura è stata proposta una serie di indici atti a misurare il grado di vicinanza delle osservazioni al modello ipotizzato, indici che spesso tengono conto non solo dell’effettivo livello d’adattamento, ma anche del grado di semplicità, o parsimonia, evidenziata dal modello stesso8. Pertanto, se due modelli evidenziano lo stes8 Un modello saturo, che contempla tutte le possibili relazioni tra le variabili, si adatta sempre perfettamente ai dati, ma ha lo svantaggio di essere caratterizzato da un livello di complessità pari soltanto a quello mostrato dai dati osservati. 98 Valutazione della qualità della formazione universitaria percepita dai laureati... so livello d’adattamento, si tenderà a preferire il più parsimonioso tra i due; esiste quindi una sorta di trade-off tra semplicità del modello e sua capacità rappresentativa. Tra gli altri, Jöreskog e Sörbom hanno introdotto due indici denominati GFI (Goodness of Fit) e AGFI (Adjusted GFI); quest’ultimo è una variante del precedente e consente di trattare in maniera più efficiente la complessità del modello. Altre due misure ben note in letteratura (Tucker e Lewis, 1973) sono il Tucker e Lewis Index TLI, conosciuto anche come NNFI (NonNormed Fit Index), ed il NFI (Normed Fit Index – Bentler e Bonett, 1980), entrambi aggiustati a seconda della complessità del modello. Studi di simulazione dimostrano che tutti questi indici dipendono in qualche modo dalla numerosità campionaria, eccezion fatta per il TLI che evidenzia il comportamento migliore. Se il modello si adatta perfettamente, tutti questi indici devono assumere valore 1. Convenzionalmente, il valore di 0.90 è ritenuto la soglia per l’accettazione del modello, mentre valori superiori a 0.95 consentono di giudicare come ottimale l’adattamento. Un approccio alternativo è quello di comprendere come un dato modello sia in grado di approssimarsi al reale modello probabilistico che genera i dati. Secondo quest’ottica, l’indicatore più appropriato, proposto in letteratura, è il RMSEA (Root Mean Square Error of Approximation). Valori piccoli di tale indice (inferiori a 0,05) corrispondono ad un ottimo livello di approssimazione del modello (Hox, 1998). 5. Il modello ECSI per la valutazione della qualità della formazione universitaria Come spesso suggerito in letteratura (Bollen, 1989), un modello di analisi fattoriale confermativa dovrebbe essere preliminarmente utilizzato per validare lo strumento, cioè per valutare la qualità degli indicatori utilizzati quale misura delle componenti latenti ed, al contempo, eliminare quegli aspetti che includono anche altre fonti di variabilità oltre a quelle considerate. Tuttavia l’impiego di tale procedura non risulta essere appropriato nel contesto d’analisi oggetto di questo lavoro: l’indisponibilità di un questionario ad hoc suggerisce piuttosto l’applicazione di una preliminare analisi fattoriale esplorativa per l’identificazione dell’adeguato numero di costrutti latenti e degli item più idonei alla loro misurazione. Una volta definita la parte di misurazione del modello tramite l’identificazione delle corrispondenti relazioni, si procede ad una sua ottimizzazione mediante l’applicazione di un’analisi fattoriale di tipo confermativo, per poi passare alla stima degli effetti individuati. Modelli statistici per l’analisi della transizione Università-lavoro 99 5.1. Analisi fattoriale esplorativa (EFA) Come già accennato, il duplice obiettivo di questa fase, date le informazioni a disposizione, è quello di individuare il numero ottimale di fattori latenti e, al contempo, identificare il sottoinsieme di variabili che si dimostrano più appropriate alla loro misurazione. Sono state eseguite analisi fattoriali esplorative che prevedevano da 5 a 8 fattori ed il numero ottimale è risultato essere il 7. Nella Tavola 2 sono riportati i relativi pesi fattoriali. Le variabili che non si rivelano correlate con i fattori sono quelle contrassegnate da un asterisco. Si osservi che tutte le altre variabili mostrano una correlazione evidente con un solo fattore, eccezion fatta della soddisfazione per la coerenza dell’attività lavorativa con gli studi svolti (SODDCOER). Questa particolare favorevole situazione, ha consentito un’identificazione preliminare della parte di misurazione del modello (cfr. Tavola 3), quale base delle analisi successive. Tavola 2. Pesi fattoriali relativi all’analisi fattoriale esplorativa con 7 fattori * * * * 100 Valutazione della qualità della formazione universitaria percepita dai laureati... Tavola 3. Parte di misurazione suggerita dall’analisi fattoriale esplorativa qualità rapporti con docenti, assistenti, personale non docente, compagni valutazione aule, biblioteche, laboratori e mense grado di utilizzo delle competenze acquisite all’università motivi di iscrizione all’Università e al corso di studi pareri in relazione ad ipotesi di reiscrizione al corso e all’università intenzione di proseguimento degli studi e attività formative svolte soddisfazione per coerenza con gli studi, rispondenza ai propri interessi culturali, G acquisizione di professionalità, soddisfazione complessiva per il lavoro svolto A B C D E F 5.2. Analisi fattoriale confermativa (CFA) Una tipica configurazione di analisi fattoriale confermativa (cfr. Figura 3) altro non è che un modello ad equazioni strutturali completo, in cui sono previsti tutti i possibili legami di covarianza tra i costrutti latenti. Lo scopo di questa analisi è valutare la qualità della struttura di misurazione del modello, identificata durante la fase precedente. Ricorrendo all’algoritmo di stima WLSMV (Weighted Least Square Mean and Variance) consigliato dal software MPlus (cfr. Manuale Utente Mplus 3.0) in base alla tipologia degli indicatori considerati, il modello suggerito dall’analisi fattoriale esplorativa non riesce a raggiungere il punto di convergenza; ciò nonostante le stime prodotte vengono impiegate quali valori di partenza per tutti i modelli contemplati durante le fasi successive. Figura 3. Modello di analisi fattoriale confermativa Modelli statistici per l’analisi della transizione Università-lavoro 101 Tavola 4. Modello CFA modificato su base EFA: descrizione della parte di misurazione IMAG: MOTISCR1 MOTISCR2*-0.68 MOTISCR3*0.264 EXPE: MOTCOR2 MOTCOR4 MOTCOR6 QUAHW: STRAULE STRBIB*1.06 STRLAB*0.817 SERMENSE*0.568 QUAUW: RAPDOC RAPCOL*0.98 RAPNDOC*0.815 RAPSTUD*0.554 VALU: SODDCOER SODDICUL*0.884 SODDPROF*0.876 SODDTOT*.755 SATI: OKUNIV OKCOR*1.006 IPREISC*.913 LOYA: INT_STUD ATTFORM*1.163 In alternativa, si è scelto di effettuare un’analisi fattoriale confermativa tenendo conto dei risultati ottenuti da quella esplorativa, ma con alcune modificazioni apportate sulla base delle considerazioni che hanno guidato l’implementazione del modello ECSI ipotizzato in partenza (cfr. Tavola 4). I valori riportati dagli usuali indici di adattamento denotano un modello capace di descrivere il fenomeno in questione in maniera più che soddisfacente (TFI = 0.984 e RMSEA = 0.028). Questo risultato ha consentito di ritenere sufficientemente affidabile la parte di misurazione individuata e, conseguentemente, di concentrare l’attenzione sulla sola parte strutturale, ipotizzando dei nessi di causalità tra le componenti latenti identificate, in modo da poter verificare la presenza e l’intensità delle relazioni inizialmente attese illustrate in Figura 2. 5.3. Modelli ad Equazioni Strutturali Il modello CFA è stato dunque riparametrizzato in un modello ECSI - SEM completo specificando le equazioni di regressione tra le componenti latenti. Il termine ‘completo’ intende denotare la particolare configurazione assunta dei nessi causali tra componenti latenti, data la sequenzialità temporale che le definisce e caratterizza. In altre parole, nel modello completo si suppone che ogni fattore presente alla sinistra del grafo sia potenzialmente in grado d’esercitare un’azione diretta e indiretta su tutti i fattori presenti alla sua destra; ad esempio tutte le ipotetiche determinanti dell’esperienza di consumo (IMAG, EXPE, QUAHW, QUAUW) sono ritenute capaci di spiegare sia le componenti proprie della soddisfazione (VALU e SATI) sia la fedeltà quale sua immediata conseguenza (LOYA). Ancora, essendo ragionevole presumere che l’esperienza di consumo attivi un processo cognitivo che attribuisce un valore al bene/servizio “acquistato” prima dell’insorgere del vero e proprio sentimento di soddisfazione, risulta naturale ipotizzare un’azione diretta di VALU su SATI e LOYA. 102 Valutazione della qualità della formazione universitaria percepita dai laureati... Figura 4. Modello ECSI - SEM completo: parte strutturale con l’evidenziazione delle relazioni aggiunte IMAG EXPE VALU SATI LOYA QUAHW QUAUW L’implementazione di un modello completo ha reso necessario l’aggiunta di alcune relazioni al modello inizialmente ipotizzato (cfr. Figura 4 - in neretto sono evidenziate le relazioni aggiunte). Come era verosimile attendersi dato l’elevato livello di complessità della parte strutturale, il modello ECSI - SEM completo non converge entro un numero accettabile di iterazioni. Le stime prodotte dal software utilizzato costituiscono, comunque, ancora una volta un’utile guida al miglioramento del modello stesso, suggerendo quelli che sono i nessi causali da eliminare. Semplificazioni sulla parte strutturale operate per fasi successive hanno condotto al modello raffigurato in Figura 5. I valori riportati dagli usuali indici di adattamento denotano, anche in questo caso, un modello efficace nel descrivere la realtà in esame (TFI = 0.982 e RMSEA = 0.029). Nella consapevolezza che tale operazione sia notevolmente delicata e soggetta a critiche, con l’obiettivo dell’individuazione di un modello più soddisfacente dal punto di vista interpretativo, si è proceduto per passi successivi alla rimozione delle relazioni che sono risultate non significative.In questa sede, non verranno illustrati tutti i risultati conseguiti durante questa fase, ma ci si limiterà al commento del solo risultato prescelto; al riguardo basti osservare che gli indici di adattamento hanno sempre evidenziato modificazioni sensibili verso il valore rappresentante l’adattamento perfetto. Modelli statistici per l’analisi della transizione Università-lavoro 103 Figura 5. Struttura del primo modello ECSI – SEM a convergenza IMAG EXPE VALU LOYA SATI QUAHW QUAUW Figura 6. Struttura del primo modello ECSI – SEM finale IMAG EXPE 0,26 0,26 VALU 0,20 0,20 QUAHW 0,09 0,09 QUAUW 0,53 0,53 SATI 0,15 0,15 LOYA 104 Valutazione della qualità della formazione universitaria percepita dai laureati... In Figura 6 è rappresentato il modello ECSI – SEM finale, cioè il modello per il quale non sono risultati apprezzabili ulteriori miglioramenti. Sulle frecce del grafo, rappresentanti i nessi causali significativamente diversi da zero, sono riportati i valori dei coefficienti stimati: si osservi che gli effetti sono tutti nella direzione attesa. Si segnala che in tale grafo non vengono riportate le relazioni di correlazione comunque esistenti tra le varie componenti latenti. Ancora una volta, la bontà d’adattamento del modello è testimoniata dai valori assunti dagli indici TLI (0.985) e RMSEA (0.027). 6. Conclusioni Il tema della valutazione delle attività formative si è sviluppato nell’ambito del sistema universitario italiano a seguito dell’introduzione di leggi specifiche (n° 168/89 e n°537/93) che prevedono forme di controllo interno sull’efficienza e sui risultati, tecnicamente denominati efficacia interna ed esterna -, della gestione degli atenei. Tali forme di controllo sono necessarie sia per rispondere a quesiti di corretto impiego delle risorse sia per verificare la validità dei percorsi formativi offerti. Durante tutto il decennio ma soprattutto in questi ultimi anni, anche a seguito di una nuova legge (L. 19 ottobre, n. 370 – G.U. n. 252 del 26.10. 1999) che dispone norme volte a disciplinare, più compiutamente, la valutazione del sistema universitario italiano, sono stati proposti e realizzati diversi progetti di valutazione della qualità della formazione universitaria misurata proprio in termini di efficienza e di efficacia. Riguardo a quest’ultimo aspetto, si può ragionevolmente ritenere che la valutazione del successo conseguito nel mondo del lavoro dai giovani in possesso di un titolo di studio universitario sia una accettabile misura della qualità (efficacia esterna) dei processi formativi. Successo che può essere connotato da valutazioni sia oggettive, quali la remunerazione e l’avanzamento della carriera, che soggettive, quali la soddisfazione per il lavoro svolto nelle sue diverse articolazioni. Il presente lavoro costituisce un primo studio applicativo dei modelli ECSI-SEM all’analisi della qualità della formazione universitaria vista secondo questo aspetto. I risultati ottenuti dall’analisi svolta non solo confermano la validità della modellistica ECSI-SEM nello specifico contesto applicativo, ma stimolano anche l’interesse per l’implementazione di analisi particolareggiate che, partendo dalla pianificazione di indagini finalizzate alla stima di una tale tipologia di modelli, consentano anche lo sviluppo di aspetti teorico-metodologici ad essi inerenti. In prima analisi si potrebbe pensare di predisporre un questionario ad hoc per la raccolta delle opinioni relative alla soddisfazione, in sostituzione delle schede di rilevazione utilizzate che riguardano indagini pianificate per altri scopi conoscitivi. Per quanto riguarda invece gli aspetti teorico-metodologici, si può procedere (com’è nell’intenzione degli autori del presente contributo) ad una valutazione degli Modelli statistici per l’analisi della transizione Università-lavoro 105 effetti causati dall’eventuale presenza di osservazioni anomale, mediante un applicazione mirata dell’algoritmo forward search, nonché all’implementazione di nuovi modelli per gruppi di laureati/studenti appartenenti alla stessa facoltà, e/o corso di studi, al fine di verificare la presenza di peculiarità che determinano relazioni di causalità specifiche o situazioni specifiche di soddisfazione. Riferimenti bibliografici BOLLEN K.A. (1989) Structural Equation with Latent Variables. Wiley, New York. CHIANDOTTO B., BERTACCINI B. (2003). Profilo e Sbocchi occupazionali dei laureati e diplomati dell’Ateneo fiorentino nell’anno 1999. Gruppo VALMON - Università degli Studi di Firenze. CHIANDOTTO B., BACCI S., BERTACCINI B. (2004) Profilo e Sbocchi occupazionali dei laureati e diplomati dell’Ateneo fiorentino nell’anno 2000. Gruppo VALMON - Università degli Studi di Firenze (in fase di realizzazione). CORBETTA P. (2002) Metodi di analisi multivariata per le scienze sociali. I Modelli di Equazioni Strutturali. Il Mulino, Bologna. ECSI Technical Committee (1998) European Customer Satisfaction Index: Foundation and Structure for Harmonized National Pilot Projects. Report prepared for the ECSI Steering Committee, October. FORNELL C. (1992) A National Customer Satisfaction Barometer, the Swedish Experience, Journal of Marketing 56: 6-21. FORNELL C., JOHNSON M. D., ANDERSON E. W., CHA J., and BRYANT B. E. (1996) The American Customer Satisfaction Index, Nature, Purpose and Findings, Journal of Marketing 60: 7-18. HOYLE R.H. (1995) Structural Equation Modeling. Concepts, Issues and Application. SAGE Publications, Thousand Oaks (CA). HOX J.J., BECHGER T.M. (1998) An introduction to Structural Equation Modeling. Family Science Review, n° 11: 354-373. JOHNSON M. D., GUSTAFSSON A., ANDREASSEN T. W., LERVIK L. and CHA J. (2001) The Evolution and Future of National Customer Satisfaction Index Models, Journal of Economic Psychology 22: 217-245. JÖRESKOG K. G. (1973) A General Method for Estimating a Linear Structural Equation System, in GOLDBERGER A.S. and DUNCAN O.D., Structural Equation Models in the Social Sciences, New York, Academic Press: 85-112). JÖRESKOG K. G. (1990) New Developments in LISREL. Analysis of Ordinal Variables Using Polychoric Correlations and Weighted Least Squares, Quality and Quantity 24: 387-404. 106 Valutazione della qualità della formazione universitaria percepita dai laureati... JÖRESKOG K. G. and SÖRBOM D. (1993) New Features in PRELIS2, Chicago, IL, Scientific Software International. KLINE R.B. (1998) Principles and Practice of Structural Equation Modeling. Guilford Press, New York. KRISTENSEN K., MARTENSEN A., GRØNHOLDT L. and ESKILDSEN J.K. (2000) Measuring student oriented quality in higher education: Application of the ECSI methodology. Sinergie Rapporti di Ricerca, no. 9: 371-383. KRISTENSEN K., MARTENSEN A., GRØNHOLDT L. and ESKILDSEN J.K. (1999) Benchmarking student satisfaction in higher education based on the ECSI methodology. Sinergie Rapporti di Ricerca, no. 9: 385-402. MARCOULIDES G.A., RAYKOV T. (2000) A First Course in Structural Equation Modeling. L. Erlbaum Associates, Mahwah (NJ). MONTGOMERY D. (1997) Introduction to statistical quality control. Wiley, NewYork. MÜTHEN & MÜTHEN (2003) MPlus 3.0 User Guide. WOLD H. (1975) Path Models with Latent Variables, the NIPALS Approach, in BLALOCK H.M., AGANBEGIAN A., BORODKIN F.M., BOUDON R. and CAPPECCHI V., 28 Quantitative Sociology. International Perspectives on Mathematical and Statistical Modeling, New York, Academic Press: 307-353. Evaluating the quality of University educational process: an application of the ECSI model Summary. In the university system, the students represent the end-user as well as the principal actors of the formative services offered to them by the institution. A measure of their perceived quality is essential for planning changes that would increase the level of the quality of these services. This perceived quality, is generally analyzed by the ECSI methodology (European Customer Satisfaction Index), that is based on the implementation of a structural equation model. The model should be able to represent the satisfaction of the students/end-user with some variables, typically, latent variables, that will be gauged through a set of directly observable indicators. We decided to extend this methodology to information obtained by a survey of former students of the university of Florence (Italy) that graduated in the year 2000 and that have a job one year after graduation. Keywords: Customer satisfaction, ECSI, Structural equation models, Quality of the university education. Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati dell’Università di Padova Anna Boaretto, Luigi Fabbris, Gilda Rota, Ilaria Silvestri1 Università degli Studi di Padova Riassunto. In questa nota si applicano alcuni modelli statistici per interpretare il ricorso dei neo-laureati ai cosiddetti “legami deboli”, vale a dire alle conoscenze personali informali, finalizzato ad ottenere una posizione lavorativa. Sociologi ed economisti del lavoro considerano queste conoscenze uno dei canali più efficaci per l’ottenimento di un lavoro. I legami sono analizzati con riferimento alla ricerca della prima attività da parte dei laureati e dei diplomati dell’Università di Padova tramite le conoscenze di tipo familiare o di amicizia e quelle dei professori universitari. Con riferimento alla ricerca di una posizione di lavoro più consona all’investimento formativo, si esamina anche la conoscenza di opportunità di miglioramento della posizione trasmesse ai laureati occupati dai colleghi di lavoro. Muovendo dall’ipotesi che i neolaureati ricorrano alle conoscenze personali in modo differenziato, si segmenta, con un metodo multivariato, il campione distinguendo per facoltà di provenienza e, all’interno della facoltà, secondo le caratteristiche curriculari e sociali dei laureati. Parole chiave: Legami deboli; Ricerca di lavoro; Conoscenze familiari; Conoscenze di professori; Conoscenze di colleghi; Laureati e diplomati; Università di Padova. 1. Reti di legami “deboli” Riprendendo una fortunata locuzione di Granovetter (1973), si dicono “deboli” i legami informali ed extraistituzionali che una persona è in grado di attivare per ottenere un lavoro. Il termine comprende sia le persone che l’individuo conosce, o a cui sa di potersi rivolgere, sia quelle effettivamente attivate per ottenere un lavoro, indipendentemente dall’esito. 1 Il presente lavoro è stato finanziato nell’ambito del PRIN “Transizioni Università-Lavoro e valorizzazione delle competenze professionali dei laureati: modelli e metodi di analisi multidimensionale delle determinanti”, cofinanziato dal MIUR. Coordinatore nazionale del PRIN e del gruppo di Padova è Luigi Fabbris. La nota è stata redatta da G. Rota per il Paragrafo 2, da A. Boaretto per il Paragrafo 3, da I. Silvestri per i Paragrafi 4 e 5 e da L. Fabbris per i Paragrafi 1 e 6. 108 Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati... Che il reticolo di legami – quelli di cui è dotata la persona socialmente radicata per meriti propri o per origine – sia veicolo di opportunità dal punto di vista occupazionale non è certo una scoperta recente e neppure è un mistero che agiscono nella stessa direzione in tutto l’universo noto (Katz, 1958; Lin et al., 1981; Smelser e Swedberg, 1994). I legami deboli hanno assunto la dignità di canale di ricerca di lavoro da quando gli economisti del lavoro e i sociologi economici ne hanno esaltato la rilevanza come meccanismi alternativi o supplementari al sistema istituzionale, pubblico o privato, a disposizione del singolo per cercare lavoro. Ricercatori di varie parti del mondo (Flap e De Graaf, 1986; Fevre, 1989; Watanabe, 1994; Bian e Ang, 1997) hanno trovato che i legami informali sono in grado di generare o di corroborare opportunità, in un certo senso che sono deboli solo perché sono meno apparenti (e meno confessati) dei legami formali e di quelli istituzionali. Con un gioco di parole, i legami deboli si sono dimostrati spesso più forti di quelli formali. Un laureato che si presenta ad un’azienda per un lavoro si configura, agli occhi della mente del datore di lavoro – o di chi per lui seleziona il personale – come un insieme di conoscenze, abilità finalizzabili e disponibilità ad operare nel contesto per cui si candida. Se il laureato fa presente il proprio corredo di legami personali, anche questi sono integrati nella sua rappresentazione funzionale complessiva. L’eventuale raccomandazione di una persona o di un’organizzazione prestigiosa che il laureato produca per facilitare l’assunzione è immaginata come un nodo della rete di relazioni che la persona o l’istituzione evoca. Quindi, non solo il datore di lavoro sa che, assumendo il laureato, acquisisce un certo credito nei confronti di chi l’ha segnalato, ma sa anche di poter legare in questo modo la propria rete di conoscenze con almeno una parte di quella del candidato. La rete di legami deboli, se osservata dalla prospettiva del laureato, si presenta come unidirezionale. Diventa sostanzialmente bidirezionale quando produce i frutti sperati. Per la precisione, un legame debole è efficace nel momento in cui diventa sostanzialmente bidirezionale giacché sia chi lo propone, sia chi lo accredita, si aspettano un vantaggio dall’assunzione. Dal punto di vista di chi li “possiede”, i legami informali sono strumenti che agiscono sia come sensori delle possibilità occupazionali sul mercato, sia come garanzie delle sue qualità professionali e umane. Ai legami informali non si associa, neppure in questa nota, un valore socialmente negativo al fenomeno, ma li si considera generatori di opportunità per i singoli e di risultati per il sistema produttivo. Naturalmente, il giudizio morale sulla raccomandazione che miri a porre in testa alla graduatoria dei candidati chi la esibisce, indipendentemente dalle sue capacità, è condizionato alla scala di valori individuale. I legami sono valutati in rapporto al potenziale di ottenimento di un’attività lavorativa da parte di neo-laureati e neo-diplomati dell’Università di Padova e di Modelli statistici per l’analisi della transizione Università-lavoro 109 cambiamento dell’attività da parte di coloro che, avendone una, sono interessati ad un miglioramento professionale o organizzativo della propria posizione. Gli aspetti che si esaminano sono i seguenti: i) le modalità dell’impiego dei legami informali ai fini della ricerca di un lavoro. Ci si chiede, in modo particolare, se esistano categorie di laureati che cercano un lavoro professionalmente qualificato utilizzando con particolare intensità questi legami. Inoltre, si vuole verificare se l’utilizzazione di legami deboli è esclusiva, ossia se siano l’unico canale di ricerca, oppure se servano a corroborare, magari dopo qualche tentativo a vuoto, i tentativi per vie ufficiali. ii) La forza dei legami nel reperimento di un lavoro. Sono, per esempio, più efficaci nel far trovare un lavoro rispetto ai canali formali o istituzionali di collocamento? Oppure sono efficaci solo nella difesa di posizioni già acquisite per altre vie? Oppure, ancora, sono efficaci per ottenere posizioni basse, quelle che non comportano rischio per il datore di lavoro, o, invece, facilitano l’acquisizione di posizioni di prestigio, quelle per le quali è necessaria un’empatia totale tra l’assunto e l’azienda? La letteratura sull’argomento è cospicua2. Nel Par. 2 si esaminano le ipotesi sulle caratteristiche delle persone che fanno ricorso ai legami informali per la ricerca di lavoro. Si vagliano, in modo particolare, le seguenti ipotesi: - Se lo status sociale sia correlato a conoscenze sul lavoro, nel senso che quanto più questo è qualificato, tanto più è probabile che il neo-laureato proveniente da strati sociali espressione del capitalismo produttivo, della borghesia intellettuale, della politica professionale, sia a conoscenza delle possibilità offerte dal mercato delle professioni superiori e sia in grado di far balenare al possibile datore di lavoro l’opportunità di agganciarsi alla rete di legami che possiede. - Se il genere sia legato ad un ricorso differenziale al sistema dei legami informali. La donna, in quanto tradizionalmente meno sicura nel proporsi per un lavoro, sembra più incline ad appoggiarsi alla rete di legami informali nella fase di ricerca di lavoro. Una delle ipotesi è, infatti, che questi legami costituiscano una rete di protezione per i più esposti, piuttosto che una dote da esibire in quanto criterio di connessione a – o di identificazione di – status sociali elevati. L’ipotesi che la donna vi faccia un ricorso più frequente è controversa (Follis, 1998). È altresì controverso se il ricorso sia causato da un retaggio culturale avverso, da debolezza oggettiva della formazione3, o semplicemente da inerzia culturale. Comunque sia, va assodato se l’eventuale ricorso differenziale delle 2 Per avere un’idea dell’interesse che l’idea diffusa da Granovetter (1974) ha avuto tra gli studiosi di scienze sociali ed economiche si può consultare Follis (1998). 3 Nell’università italiana le donne sono più orientate ad una formazione umanistica o sociale, i maschi ad una più tecnica. In quasi tutti i corsi di studi le donne hanno, tuttavia, risultati scolatici migliori degli uomini. 110 Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati... neo-laureate, rispetto ai colleghi maschi, valga ceteris paribus, ossia a parità di titolo di studio e di curriculum, e per quali posizioni. - Se il titolo di studio determini un comportamento differenziale. Va innanzitutto distinto il comportamento dei diplomati universitari da quello dei laureati. Sull’entità del ricorso interferiscono sia la diversa composizione sociale e di genere dei laureati (rispetto ai diplomati), sia le diverse attese professionali implicite nella gerarchia tra le due classi di titoli4. Una seconda distinzione riguarda la facoltà presso la quale il titolo è stato conseguito. Siccome la scelta della facoltà dipende sia dallo status sociale dello studente (censo, tradizioni di famiglia, ecc.), sia dalla speranza occupazionale alla fine del percorso, va verificato se ricorre ai legami informali di più chi si sente meno forte o, invece, chi ha un’attesa di lavoro più elevata proprio perché parte da posizioni sociali più alte della media. - Se il curriculum scolastico condizioni il ricorso. Le variabili che rappresentano il curriculum universitario sono l’età e il voto alla laurea. Un’età più giovane, ceteris paribus, indica un curriculum più efficiente. Inoltre, il voto di laurea è il miglior segnalatore di impegno negli studi. Per quanto concerne il curriculum si può fare un discorso simile a quello del titolo di studio e cioè, sono i curriculum più deboli a farsi proteggere dai legami informali o, invece, sono quelli migliori a chiedere entrature per posizioni di maggiore prestigio? Il ricorso ai legami deboli da parte di laureati che hanno curriculum diversi va comunque valutato al netto del possibile effetto del corso di studi. Per coloro che già lavorano e che cercano una migliore collocazione delle proprie capacità, va verificato se l’anzianità di servizio, in quanto espressione del tempo avuto a disposizione per legare con i “pari”, sia correlata alla frequenza del ricorso ai legami per ottenere un lavoro altrove, oppure se valga l’ipotesi di Corcoran et al. (1980), Lin et al. (1981), Flap e de Graaf (1986), Marsden e Hulbert (1988) che, con l’aumentare dell’anzianità di servizio, le ambizioni e i contatti perdano d’importanza. I legami deboli che si analizzano nel seguito sono quelli rilevati con l’indagine sui laureati e i diplomati dell’Università di Padova a sei mesi dal conseguimento del titolo. I dati analizzati costituiscono la prima occasione di rilevazione su un complesso di sei programmate per essere svolte ogni sei mesi dopo il conseguimento del titolo, fino a un totale di tre anni di osservazione (Fabbris, 2003). I legami rilevati riguardano: 4 Che il ricorso alle segnalazioni a datori di lavoro diminuisca con l’aumentare del livello di istruzione è testimoniato da numerose esperienze. Si vedano, tra le altre, Corcoran et al. (1980), Lin et al. (1981), Flap e De Graaf (1986), Marsden e Hurlbert (1988), ISTAT (1997). Tuttavia, la relazione tra istruzione e ricorso ai legami informali non è lineare. Boxman e collaboratori propongono una relazione a U. La relazione rimane comunque senza risposta (Follis, 1998). Modelli statistici per l’analisi della transizione Università-lavoro 111 le conoscenze di familiari e amici (Par. 3), ossia i legami sociali della famiglia o del gruppo omogeneo d’appartenenza. La natura dei legami non è trasparente nel nostro lavoro, non si sa, cioè, se si tratta di legami affettivi, politici, religiosi, sindacali, o altro; le conoscenze di professori (Par. 4), ossia le persone con cui è in contatto per regioni di ricerca o di didattica in modo particolare il professore con il quale i laureati o diplomati hanno svolto la tesi finale; le conoscenze di colleghi di lavoro (Par. 5), ossia i legami sviluppati sul lavoro da parte di coloro che già lavoravano al momento del conseguimento del titolo e di coloro che, avendo trovato un’occupazione dopo il titolo, vogliono cambiarla con una più soddisfacente dal punto di vista economico o delle prospettive professionali o, più semplicemente, con una più vicina a casa. Il campione di laureati e diplomati sottoposto ad analisi, composto da coloro che hanno cercato lavoro nei primi sei mesi dal conseguimento del titolo, è di 2057 unità (pari al 73% circa dei laureati/diplomati intervistati). 2. L’efficacia dei legami deboli nella ricerca di lavoro Per assumere un lavoratore, un’azienda cerca di identificare un numero ragionevole di candidati validi tra cui setacciare il più appropriato. D’altra parte, chi cerca un lavoro vorrebbe conoscere i posti vacanti del tipo desiderato tra cui scegliere quello migliore (La Mendola, 1995). Attraverso le segnalazioni di parenti, conoscenti e professori universitari non solo si soddisfano entrambe le esigenze delle aziende e dei neolaureati, ma si ottengono informazioni che l’invio diretto alle aziende del curriculum non permetterebbe di ottenere. Il ricorso al canale informale nella ricerca di lavoro si aggira intorno al 40% dei laureati, vale a dire il 53% di coloro che hanno svolto almeno un tentativo di ricerca di lavoro5 (Tab.1). Tra i laureati che hanno esperito almeno un canale informale, circa un quarto ha utilizzato solo questa opportunità, il resto ha utilizzato la segnalazione come rinforzo di altre azioni di ricerca. I laureati che maggiormente utilizzano i canali informali nella ricerca di lavoro provengono da Scienze della Formazione, tra coloro che lavoravano, e da Agraria, Lettere e Filosofia, Scienze della Formazione, Psicologia, Giurisprudenza, Scienze Politiche ed Economia, tra coloro che sono alla prima esperienza di lavoro. I laureati delle facoltà di Farmacia e Scienze Statistiche e i diplomati di Medicina e Chirurgia e di Ingegneria utilizzano, invece, quasi esclusivamente sistemi formali di ricerca. 5 Non hanno svolto azioni di ricerca coloro che, conseguito il titolo, hanno mirato esclusivamente al proseguimento degli studi, all’espletamento dell’obbligo militare, o a costituirsi una famiglia. 112 Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati... Tabella 1. Distribuzione percentuale dei laureati e dei diplomati dell’Università di Padova non occupati al conseguimento del titolo, secondo l’utilizzazione dei legami deboli nella ricerca di lavoro a sei mesi dal conseguimento, titolo di studio e facoltà Azioni nella ricerca di lavoro Legami Informali Solo altro Nessuna Titolo informali e altro tipo azione Totale n=174 n=623 n=686 n=497 n=1.980 Laurea 13,3 40,0 27,6 19,1 100,0 Agraria Diploma 5,3 42,1 36,8 15,8 100,0 Totale 12,1 40,3 29,0 18,6 100,0 Economia Totale 6,7 38,2 38,2 16,9 100,0 Farmacia Totale 9,4 19,4 44,6 26,6 100,0 Laurea 6,8 19,2 22,6 51,4 100,0 Giurisprudenza Diploma 5,6 33,3 38,9 22,2 100,0 Totale 6,7 20,5 24,1 48,7 100,0 Laurea 15,9 34,5 35,6 14,0 100,0 Ingegneria Diploma 7,3 26,8 46,3 19,5 100,0 Totale 14,8 33,4 37,0 14,8 100,0 Lettere e Filosofia Totale 4,6 37,8 40,1 17,5 100,0 Medicina e chirurgia Diploma 12,1 24,1 53,5 10,3 100,0 Medicina veterinaria Totale 21,2 9,1 24,2 45,5 100,0 Psicologia Totale 8,9 15,4 21,3 54,4 100,0 Scienze Formazione Totale 8,0 47,8 35,4 8,8 100,0 Laurea 6,5 36,0 29,6 27,9 100,0 Scienze MM.FF.NN. Diploma 0,0 27,6 44,8 27,6 100,0 Totale 5,9 35,3 31,0 27,8 100,0 Scienze Politiche Totale 6,8 34,2 41,9 17,1 100,0 Laurea 8,0 38,7 44,0 9,3 100,0 Scienze Statistiche Diploma 4,4 34,8 43,5 17,4 100,0 Totale 7,1 37,8 43,9 11,2 100,0 Laurea 9,5 30,3 32,8 27,3 100,0 Università di Padova Diploma 8,2 27,4 48,1 16,3 100,0 Totale 9,4 30,0 34,4 26,2 100,0 Quindi, i canali informali sono percorsi in maggior misura dai laureati delle facoltà umanistiche e sociali e dai laureati della Facoltà di Agraria. Questi ultimi sono un caso particolare generato dalla tipicità dell’attività a cui sono vocati. Probabilmente, nell’assenza di una voce specifica, molti laureati di Agraria che hanno trovato lavoro nell’azienda di famiglia hanno indicato di aver fatto ricorso ai legami parentali. In definitiva, con la probabile eccezione di quelli di Agraria, sono i laureati che si sentono particolarmente deboli per il lavoro a fare ricorso alla segnalazione di parenti e amici. Modelli statistici per l’analisi della transizione Università-lavoro 113 Tabella 2. Distribuzione percentuale dei laureati e dei diplomati dell’Università di Padova non occupati al conseguimento del titolo, secondo l’utilizzazione dei legami deboli nella ricerca di lavoro a sei mesi dal conseguimento del titolo, sesso e facoltà Azioni nella ricerca di lavoro Legami Informali Solo altro Nessuna Totale informali e altro tipo azione n=174 n=623 n=686 n=497 n=1.980 M 11,8 38,8 29,4 20,0 100,0 Agraria F 12,8 43,6 28,2 15,4 100,0 M 6,8 34,1 45,5 13,6 100,0 Economia F 6,7 42,2 31,1 20,0 100,0 M 6,5 29,0 41,9 22,6 100,0 Farmacia F 10,2 16,7 45,4 27,8 100,0 M 5,9 13,2 26,5 54,4 100,0 Giurisprudenza F 7,1 24,4 22,8 45,7 100,0 M 13,9 32,7 37,2 16,2 100,0 Ingegneria F 20,5 38,5 35,9 5,1 100,0 M 5,9 35,3 26,5 32,3 100,0 Lettere e filosofia F 4,4 38,2 42,6 14,8 100,0 Medicina e chirurgia M 18,2 9,1 54,6 18,2 100,0 (diplomi) F 10,6 27,7 53,2 8,5 100,0 M 9,1 18,2 27,3 45,5 100,0 Medicina veterinaria F 27,3 4,6 22,7 45,5 100,0 M 6,9 17,2 10,3 65,5 100,0 Psicologia F 9,3 15,0 23,6 52,1 100,0 Scienze della M 25 50,0 0,0 25,0 100,0 Formazione F 7,3 47,7 36,7 8,3 100,0 M 9,7 26,6 28,6 35,1 100,0 Scienze politiche F 2,4 43,2 33,1 21,3 100,0 Scienze M 10,3 29,3 39,7 20,7 100,0 MM.FF.NN. F 3,4 39,0 44,1 13,6 100,0 M 4,7 25,6 55,8 14,0 100,0 Scienze statistiche F 9,1 47,3 34,6 9,1 100,0 M 11,2 29,2 34,5 25,1 100,0 Università di Padova F 8,0 30,7 34,3 27,1 100,0 Nel complesso dei laureati, le reti informali vengono utilizzate in misura quasi uguale da maschi e femmine (Tab. 2). La propensione delle laureate delle facoltà di Scienze MM.FF.NN., Veterinaria, Ingegneria, e Scienze Statistiche è leggermente superiore a quella dei laureati delle stesse facoltà (10% circa). Siccome si tratta di facoltà a carattere scientifico, ciò significa che, quantunque il mercato del lavoro sia 114 Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati... oggi sicuramente più aperto alle donne che nel passato, le laureate continuano a sentirsi più indifese dei colleghi maschi nel domandare lavoro e rinforzano le proprie possibilità con segnalazioni. L’età e il voto di laurea incidono nell’utilizzo dei legami deboli nella ricerca del lavoro. Infatti, coloro che si laureano dopo i 26 anni e coloro che hanno un voto di laurea basso ricorrono in proporzione più alta a questo tipo di legami (Tabelle 3 e 4). Tabella 3. Distribuzione percentuale dei laureati e dei diplomati dell’Università di Padova non occupati al conseguimento del titolo, secondo l’utilizzazione dei legami deboli nella ricerca di lavoro a sei mesi dal conseguimento del titolo, titolo di studio e voto di laurea Azioni nella ricerca di lavoro Voto Legami Informali Solo altro Nessuna Totale n informali e altro tipo azione Fino a 89 12,1 28,9 41,6 17,4 100,0 132 Laurea 90-99 10,7 33,3 32,6 23,4 100,0 550 100-110 8,8 29,0 31,4 30,8 100,0 866 110 lode 7,6 28,7 32,5 31,2 100,0 244 Totale 9,5 30,3 32,8 27,3 100,0 1792 Fino a 89 0,0 27,9 50,4 21,7 100,0 16 Diploma 90-99 6,9 29,1 46,4 17,5 100,0 75 100-110 12,8 27,8 46,9 12,5 100,0 79 110 lode 0,0 39,5 41,9 18,6 100,0 11 Totale 8,2 27,4 48,1 16,3 100,0 181 Tabella 4 Distribuzione percentuale dei laureati e dei diplomati dell’Università di Padova non occupati al conseguimento del titolo, secondo l’utilizzazione dei legami deboli nella ricerca di lavoro a sei mesi dal conseguimento del titolo, titolo di studio e età alla laurea Azioni nella ricerca di lavoro Età titolo Legami Informali Solo altro Nessuna Totale (anni) n informali e altro tipo azione < 24 4,6 30,8 40,2 24,5 100,0 57 Laurea 24-26 9,0 28,7 32,0 30,4 100,0 776 26-28 9,7 29,7 31,2 29,3 100,0 950 28-30 14,0 30,5 30,4 25,1 100,0 407 > 30 7,2 28,8 32,5 31,6 100,0 312 < 24 11,9 22,4 42,3 23,4 100,0 146 24-26 7,8 19,4 57,2 15,7 100,0 96 Diploma 26-28 1,9 41,2 41,3 15,5 100,0 36 13,0 33,9 33,6 19,4 100,0 28-30 21 > 30 100,0 12 26,1 11,7 38,4 23,7 Modelli statistici per l’analisi della transizione Università-lavoro 115 Che vi facciano ricorso coloro che si sentono più deboli per inserirsi nel mercato del lavoro è, quindi, fuori discussione. Un discorso a parte va fatto per le segnalazioni dei professori universitari. Di queste segnalazioni beneficiano, infatti, soprattutto i neolaureati delle facoltà scientifiche, giovani alla laurea e con un buon voto di laurea. I motivi sono facilmente immaginabili: i docenti di discipline scientifiche hanno più rapporti con aziende ed enti pubblici dei docenti di altre discipline e il docente non può che segnalare, tra gli studenti che conosce, i più brillanti, quelli che gli fanno “fare bella figura”. La segnalazione del docente si caratterizza, rispetto ad altre segnalazioni, perché le aziende riconoscono ad essa una certificazione quasi scientifica della qualità del segnalato. In ogni caso, i canali informali sono utili nell’ottenimento di un lavoro? Per quanto riguarda i laureati dell’Università di Padova, il ricorso a questi canali risulta vincente qualsiasi corso di laurea si esamini, però un po’ di più per i diplomati che si presentano con minori pretese di posizione lavorativa (Tab. 5). Tabella 5. Percentuale di laureati o diplomati dell’Università di Padova che lavorano a 6 mesi dal conseguimento del titolo, secondo l’utilizzazione dei legami deboli nella ricerca di lavoro, il titolo di studio e lo status lavorativo al conseguimento Totale Azioni nella ricerca di lavoro Titolo n=1.692 Legami Informali e Solo altro Nessuna informali altro tipo azione n=193 n=578 n=660 n=261 Laurea 88,5 81,3 76,8 75,1 81,0 Occupati Diploma 100,0 94,0 93,5 81,2 91,3 Totale 90,7 82,7 86,1 75,8 82,6 Laurea 69,4 62,5 58,8 11,3 48,1 Non occupati Diploma 95,9 70,3 92,7 25,5 75,8 Totale 71,7 63,3 63,7 12,2 50,9 Tabella 6. Distribuzione percentuale di laureati e dei diplomati dell’Università di Padova che hanno trovato lavoro dipendente o con contratto “atipico” a sei mesi dal conseguimento del titolo secondo che abbiano utilizzato legami deboli nella ricerca e coerenza tra l’attività trovata e il titolo posseduto Solo legami Legami informali e Solo altro Informali altro metodo Metodo Coerente? n=146 n=433 n=432 Per niente 6,0 9,6 9,3 Poco 12,3 12,9 15,9 Abbastanza 50,8 50,0 48,2 Molto 30,8 27,5 26,6 Totale 100,0 100,0 100,0 116 Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati... Chi ricorre ai legami informali, non solo riesce ad inserirsi con più facilità, ma ottiene posizioni mediamente più favorevoli e più coerenti con il percorso di studi svolto (Tab. 6). Infatti, il 40 % degli intervistati che ha utilizzato esclusivamente il canale delle conoscenze (rispetto a 33% di chi ha utilizzato solo canali formali) afferma che il lavoro richiede un titolo universitario e addirittura l’82% (rispetto al 75% di chi ha utilizzato solo canali formali) svolge un’attività coerente con il titolo posseduto (Tab. 7). Da questo più pertinente inserimento dei laureati/diplomati che hanno utilizzato i canali informali derivano anche maggiori aspettative di crescita professionale ed economica rispetto ai colleghi che si sono inseriti solo con le proprie forze e che partono da posizioni leggermente inferiori (Tab. 8). Pochi sono i laureati che cercano lavoro percorrendo un solo canale. I tentativi di trovare lavoro si muovono in varie direzioni. Tuttavia, è illusorio pensare che Tabella 7. Distribuzione percentuale di laureati e dei diplomati dell’Università di Padova che hanno trovato lavoro dipendente o con contratto “atipico” a sei mesi dal conseguimento del titolo, secondo che abbiano utilizzato legami deboli nella ricerca e secondo che l’attività possa essere svolta da un diplomato di scuola superiore o anche meno Solo legami Legami informali Solo altro Potrebbe essere svolta informali e altro metodo metodo Anche da diplomato 44,3 45,4 49,5 Anche da non diplomato 14,9 17,3 16,8 Solo titolo universitario 40,8 37,3 33,7 Totale 100,0 100,0 100,0 Tabella 8. Percentuale di laureati e dei diplomati dell’Università di Padova che hanno trovato lavoro dipendente o con contratto “atipico” a sei mesi dal conseguimento del titolo secondo che abbiano utilizzato legami deboli nella ricerca e secondo le attese per il futuro professionale a due anni avanti Solo legami Legami informali Solo altro informali e altro metodo Attese professionali Pochi o nulli cambiamenti 4,6 11,2 8,5 Miglioramenti economici 14,2 6,8 5,2 Progressione di carriera 13,3 21,0 28,9 Allargam. ambito operativo 21,4 6,6 15,8 Istituzionalizzazione profes 5,1 1,4 3,9 Riconoscimento sociale 2,2 0,0 4,0 Altro 39,2 52,9 33,6 Totale 100,0 100,0 100,0 Modelli statistici per l’analisi della transizione Università-lavoro 117 quanti più tentativi si fanno, tanto più le probabilità di successo aumentano. Anzi. chi cerca o con le solo proprie forze, o con le reti informali trova più facilmente di chi percorre ambedue le vie. Chi cerca lavoro sia per vie canoniche, sia per quelle informali lo fa perché si sente in difficoltà. Per esempio, i diplomati universitari che si muovono in tutte le direzioni hanno risultati inferiori in termini di occupazione a quelli che si fanno segnalare o che si propongono solo per vie canoniche (Tab. 4). Si può, pertanto, argomentare che l’essere inseriti in reti relazionali ampie, l’essere in contatto con molte persone e non isolati in “reticoli” chiusi, anche se intensi, risulta vincente per trovare lavoro. Se ne deduce che l’appartenenza ad un determinato ceto sociale influenza non solo la scelta del percorso universitario ma anche l’inserimento nel lavoro (Luderin et al., 1997). 3. Le conoscenze di familiari e amici Per tracciare un profilo più fine dei fruitori di canali di ricerca informali, si è applicata l’analisi di segmentazione binaria del campione (Fabbris, 1997) considerando come variabile criterio il logit della probabilità condizionata di ricorrere alle conoscenze di familiari e amici. L’analisi è stata svolta secondo i criteri esposti da Fabbris e Martini (2002) e incorporati nel package LAID-OUT (Schievano, 2002), vale a dire che, ad ogni passo dell’analisi, si cerca la massima differenza tra i logit delle proporzioni nei sottocampioni che si formano con una scissione stepwise del campione: [logit (πˆ (Y | X1 ) ) − logit (πˆ (Y | X 0 ) )] , dove π(Y|X) denota il valore della variabile dipendente Y condizionato dal predittore dicotomizzato (X) e logit(.) indica il logaritmo naturale dell’argomento entro parentesi rapportato al suo complemento a uno. I predittori considerati per la segmentazione sono: facoltà frequentata6, titolo di studio (laurea/diploma), sesso, età alla laurea (in 6 classi ordinali)7, voto di laurea (superiore/inferiore alla media), condizione occupazionale precedente (lavorava/non lavorava al momento del conseguimento del titolo). 6 Le facoltà dell’Università di Padova sono: 1-Agraria, 2-Economia, 3-Farmacia, 4-Giurisprudenza, 5-Ingegneria, 6-Lettere e Filosofia, 7-Medicina e chirurgia, 8-Medicina Veterinaria, 9-Psicologia, 10Scienze della Formazione, 11-Scienze Matematiche, Fisiche e Naturali (MM.FF.NN.), 12-Scienze politiche, 13-Scienze statistiche. 7 Le classi di laurea considerate sono: laurea conseguita prima dei 22 anni, dai 22 ai 23 anni, dai 24 ai 25, dai 26 ai 27, dai 28 ai 29 e laurea a 30 anni o più. 118 Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati... Per l’analisi di segmentazione si è deciso di: forzare come primo predittore la variabile “lavorava al momento del conseguimento del titolo”; - scegliere la segmentazione ternaria nei casi in cui sia manifestamente migliore di una serie di segmentazioni binarie; - limitare a 50 unità la dimensione minima dei gruppi. Dall’applicazione (Fig. 1 e Tab. 9) risulta che gli aspetti generali che condizionano il ricorso alle conoscenze personali e familiari sono, a parità di condizione occupazionale antecedente al conseguimento del titolo, la facoltà di provenienza, il genere, l’età alla laurea e il voto di laurea. La facoltà di provenienza è legata alla richiesta dell’intervento di parenti e conoscenti nella ricerca di lavoro, sia per chi già lavorava, che per chi non lavorava al momento del conseguimento del titolo. Essendo la scelta della facoltà spesso correlata al background sociale e familiare, si può considerare l’effetto indiretto dello status sociale sull’utilizzo di canali extra-istituzionali nella ricerca di lavoro. Quanto più il contesto socio culturale del laureato è connesso da reticoli, tanto maggiore dovrebbe essere il ricorso a legami informali. Tra gli occupati al conseguimento del titolo mobilitano maggiormente (63,3% dei casi) le conoscenze personali i laureati della facoltà di Scienze della formazione. - Figura 1: Albero di segmentazione per la variabile “cerca lavoro tramite conoscenze personali, familiari” y=48.9% n=2057 Lavorava Non lavorava y=52.1% n=574 Facoltà=10 y=63.3% n=92 Facoltà=11-6-5-1-12-13 y=53.2% n=346 y=47.7% n=1483 Facoltà=2-3-4-7-8-9 y=39.7% n=136 Facoltà=10-1-9-4-6-12-2 Facoltà=11-8-5 y=45% n=511 y=52.9% n=731 Femmina Facoltà=13-3-7 y=37.3% n=241 Maschio y=51.1% n182 y=41.6% n=329 Laurea entro 26 anni y=29.7% n=101 Laurea dopo i 26 anni y=46.9% n=228 Voto di laurea basso y=51.5% n=134 Voto di laurea alto y=40.4% n=94 Modelli statistici per l’analisi della transizione Università-lavoro 119 Tabella 9. Percentuale di occupati, soddisfazione media e percentuali di intervistati che dichiarano il loro lavoro molto coerente col percorso formativo in base ai gruppi individuati con l’analisi di segmentazione Gruppo n % occupati 1 2 3 4 5 6 7 8 9 Ateneo 92 346 136 731 241 182 101 134 94 2817 90,2 83,6 87,4 54,0 80,5 68,7 74,4 76,8 66,6 60,7 Soddisfazione media 7,1 7,0 7,3 7,1 7,4 7,3 7,5 7,4 7,6 7,3 % molto coerenti con gli studi 38,3 17,1 41,0 19,7 34,3 41,1 39,6 43,7 37,2 28,4 Legenda relativa ai gruppi (foglie dell’albero di segmentazione) individuati: Gruppo 1: occupati al momento del conseguimento del titolo, facoltà di Scienze della Formazione Gruppo 2: occupati al conseguimento del titolo, facoltà di Scienze MMFFNN, Ingegneria, Lettere e Filosofia, Agraria, Scienze Politiche, Scienze Statistiche Gruppo3: occupati al conseguimento del titolo, facoltà di Economia, Farmacia, Giurisprudenza, Medicina e Chirurgia, Medicina Veterinaria, Psicologia Gruppo 4: inoccupati al conseguimento del titolo, facoltà di Scienze della Formazione, Agraria, Psicologia, Giurisprudenza, Lettere, Scienze Politiche, Economia Gruppo 5: inoccupati al conseguimento del titolo, facoltà di Scienze Statistiche, Farmacia, Medicina Gruppo 6: inoccupati al conseguimento del titolo, facoltà di Scienze MMFFNN, Ingegneria, Med. Veterinaria, femmine Gruppo 7: inoccupati al conseguimento del titolo, facoltà di Scienze MMFFNN, Ingegneria, Medicina Veterinaria, maschi, laureati entro 26 anni Gruppo 8: inoccupati al conseguimento del titolo, facoltà di Scienze MMFFNN, Ingegneria, Medicina Veterinaria, maschi, laureati dopo i 26 anni con voto di laurea basso Gruppo 9: inoccupati al conseguimento del titolo, facoltà di Scienze MMFFNN, Ingegneria, Medicina Veterinaria, maschi, laureati dopo i 26 anni con voto di laurea alto Si tratta di educatori, insegnanti, formatori che utilizzano i rapporti consolidatisi nel corso dell’iter lavorativo per migliorare la propria posizione all’interno di strutture private, come asili o strutture socio-sanitarie. Il tasso di occupazione a sei mesi è del 90,2%, la soddisfazione media è leggermente inferiore alla media (7,1 contro una media di 7,3) come si verifica, in genere, per coloro che conseguono un titolo lavorando (Fabbris et al., 2002) e la percentuale di intervistati che dichiara di svolgere un lavoro molto coerente col titolo di studio è del 38,3% (media di tutti i laureati/diplomati dell’Ateneo 28,4%). 120 Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati... Sempre tra gli occupati al momento del conseguimento del titolo, i laureati/diplomati che fanno meno ricorso ai legami “deboli” provengono dalle facoltà di Economia, Farmacia, Giurisprudenza, Medicina e chirurgia (diploma), Medicina veterinaria e Psicologia (media delle facoltà: 39,7% di ricorso). Il 41% ritiene il proprio lavoro molto coerente con gli studi terminati, l’87,4% è occupato. Sebbene a queste facoltà si iscrivano studenti appartenenti a contesti socio-culturali superiori, il ricorso ai legami deboli è minore rispetto a quelli di Scienze della formazione. Tra i neolaureati/neodiplomati che hanno cercato lavoro non avendone uno fanno maggiormente ricorso ai legami deboli (52,9%) le facoltà di Scienze della formazione, Agraria, Psicologia, Giurisprudenza, Lettere, Scienze politiche ed Economia. Queste facoltà appartengono alle aree umanistiche e sociali, tipicamente con livelli di occupazione più bassi rispetto all’area tecnico-scientifica. Le facoltà di Agraria ed Economia potrebbero sembrare fuori posto, non essendo né umanistiche, né sociali, però sono tra quelle tecniche che hanno maggiori difficoltà di occupazione. Infatti, per questo insieme di laureati/diplomati la percentuale di occupazione è pari al 54%, la più bassa tra i laureati e diplomati dell’Università di Padova. Il genere discrimina i laureati delle facoltà di Ingegneria, Veterinaria e Scienze matematiche fisiche e naturali. Le laureate cercano lavoro attraverso legami deboli nel 51,1% dei casi, contro il 41,6% dei maschi. In facoltà “forti” dal punto di vista occupazionale le laureate cercano una tutela in più. Ciò può dipendere dall’immagine mascolina della professionalità che le laureate immaginano di possedere – e quindi delle minori chances che reputano di avere nella fase in cui si presentano per un’occupazione – proprio a causa dell’essersi formate in facoltà prevalentemente frequentate da maschi. All’interno di queste stesse facoltà i laureati si comportano nella ricerca di lavoro in modi che dipendono dal voto di laurea e dall’età al conseguimento del titolo8: il ricorso a conoscenze personali e familiari è maggiore (51,5%) per coloro che hanno conseguito la laurea in tempi più lunghi e che hanno ottenuto un voto di laurea basso, rispetto a coloro che si sono laureati in tempi brevi (ricorre ai legami informali il 17% in meno) o con voto di laurea alto (11% in meno). I legami deboli vengono, in questo caso, in soccorso ad un curriculum formativo meno brillante. Tuttavia, il livello di occupazione di queste categorie apparentemente meno dotate è del 76,8% e la percentuale che dichiara il proprio lavoro coerente con gli studi è 43,7%, tra le più alte nei gruppi ottenuti dalla segmentazione. 8 L’età al conseguimento del titolo e il voto di laurea sembrano non influire sui comportamenti dei laureati occupati al momento del conseguimento del titolo. Modelli statistici per l’analisi della transizione Università-lavoro 4 121 Le conoscenze dei professori Tra i laureati o diplomati che hanno cercato lavoro entro sei mesi dal conseguimento del titolo il 12,6% è ricorso anche o solamente ai contatti con i professori che ha avuto modo di incontrare durante la propria permanenza nell’ateneo patavino. Dall’analisi di segmentazione (Fig. 2 e Tab. 10) si nota che, tra chi lavorava al momento del conseguimento del titolo, ricorrono di meno alla conoscenza di professori coloro che hanno ottenuto il titolo di laurea o diploma universitario a 30 anni o più (2,8%), indipendentemente dalla facoltà di provenienza. Non sorprende che i laureati ultratrentenni che già lavorano abbiano scarsa familiarità con i professori, considerato che non cercano nuove attività, ma che è il titolo inseguito, e finalmente ottenuto, ad aprire loro progressioni di carriera. Sono persone che hanno conseguito un lasciapassare professionale e non un segnalatore di qualità degli studi. Da studenti erano raramente presenti in facoltà, hanno avuto poche o nulle occasioni di costruire una rete di contatti nell’università. Tra i gruppi individuati dalla partizione, è quello con la più bassa soddisfazione media (6,7) e con il più basso indice di coerenza professionale con gli studi universitari svolti (solo il 15,7% svolge attività lavorativa molto coerente contro una media del 28,4%). Figura 2. Albero di segmentazione per la variabile “cerca lavoro attraverso conoscenze di professori” Non lavorava y=12.6% n=2057 Lavorava y=14.1% n=1483 Facoltà=1-8-5-11-2-13 Facoltà=3-7-6-9-10 Facoltà=12-4 y=20.3% n=773 y=8.7% n=513 y=3.6% n=197 Laureato y=21.8% n=684 Voto di laurea alto y=27.7% n=325 y=8.7% n=574 Diplomato y=9% n=89 Voto di laurea basso y=16.4% n=359 Voto di laurea alto Voto di laurea basso y=11.2% n=294 y=5.5% n=219 Laurea entro 30 anni Facoltà=5-1-2 y=20.2% n=104 y=10.1% n=466 Facoltà=9-7 Laurea a 30 anni o più y=2.8% n=108 Facoltà=3-4-6-8-10-11-12-13 y=11.4% n=70 y=6.2% n=292 Laurea tra i 26 e i 29 anni y=8% n=190 Laurea tra i 26 e i 27 anni y=10.3% n=117 Laurea entro 26 anni y=2.9% n=102 Laurea tra i 28 e i 29 anni y=4.1% n=73 122 Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati... Tabella 10. Percentuale di occupati, soddisfazione media (su scala 1-10) e percentuale di laureati o diplomati che considerano il loro lavoro molto coerente col percorso formativo in base ai gruppi individuati con l’analisi di segmentazione Soddisfazione % molto coerenti Gruppo N % occupati media con gli studi 1 197 43,6 7,5 19,8 2 108 88,3 6,7 15,7 3 89 78,8 7,4 30,7 4 294 60,0 7,2 25,7 5 219 69,6 6,9 21,3 6 104 89,5 7,4 27,5 7 70 89,7 7,5 45,7 8 325 69,1 7,5 41,1 9 359 71,3 7,4 26,7 10 102 82,9 7,1 33,4 11 117 79,8 6,8 24,6 12 73 90,3 7,2 21,1 Ateneo 2.817 60,7 7,3 28,4 Legenda relativa ai gruppi (foglie dell’albero di segmentazione) individuati: Gruppo 1: Inoccupati al conseguimento del titolo, facoltà di Giurisprudenza e Scienze Politiche Gruppo 2: Occupati al conseguimento del titolo, laureati a 30 o più Gruppo 3: Inoccupati al conseguimento del titolo, facoltà di Agraria, Economia, Medicina veterinaria, Ingegneria, Scienze MMFFNN e Scienze Statistiche, diplomati. Gruppo 4: Inoccupati al conseguimento del titolo, facoltà di Farmacia, Medicina e chirurgia, Lettere, Psicologia e Scienze della formazione, laureato o diplomato con voto alto. Gruppo 5: Inoccupati al conseguimento del titolo, facoltà di Farmacia, Medicina e chirurgia, Lettere, Psicologia e Scienze della formazione, laureati o diplomati con voto basso. Gruppo 6: Occupati al conseguimento, laureati a meno di 30 anni, facoltà di Ingegneria, Agraria, Economia. Gruppo 7: Occupati al conseguimento, laureati a meno di 30 anni, facoltà di Psicologia e Medicina Gruppo 8: Inoccupati al conseguimento del titolo, facoltà di Agraria, Economia, Medicina veterinaria, Ingegneria, Scienze MMFFNN e Scienze Statistiche, laureati, con voto di laurea alto. Gruppo 9: Inoccupati al conseguimento del titolo, facoltà di Agraria, Economia, Medicina veterinaria, Ingegneria, Scienze MMFFNN e Scienze Statistiche, laureati, con voto di laurea basso. Gruppo 10: Occupati al conseguimento del titolo, facoltà di Farmacia, Giurisprudenza, Medicina Veterinaria, Lettere, Scienze MMFFNN, Scienze politiche e Scienze della formazione, entro i 26 anni. Gruppo 11: Occupati al conseguimento del titolo, facoltà di Farmacia, Giurisprudenza, Medicina Veterinaria, Lettere, Scienze MMFFNN, Scienze politiche e Scienze della formazione, 26-27 anni. Gruppo 12: Occupati al conseguimento del titolo, facoltà di Farmacia, Giurisprudenza, Medicina Veterinaria, Lettere, Scienze MMFFNN, Scienze politiche e Scienze della formazione, 28-29 anni. Modelli statistici per l’analisi della transizione Università-lavoro 123 Tra coloro che già lavoravano, hanno utilizzato di più la conoscenza dei professori i laureati con meno di 30 anni in Agraria, Economia, Ingegneria (20,2%). Tra chi non lavorava al conseguimento del titolo, ricorrono di meno alla conoscenza di professori i laureati in Scienze politiche o Giurisprudenza (3,6%), mentre vi ricorrono più spesso i laureati con voto di laurea alto in Agraria, Economia, Ingegneria, Medicina Veterinaria, Scienze MM.FF.NN., Scienze Statistiche (27,7%). Per questo ultimo gruppo l’indice di coerenza tra studi e lavoro è particolarmente alto (41,1%) e la soddisfazione per il lavoro svolto superiore alla media (7,5). Gli elementi che possono indurre gli studenti delle diverse facoltà a coltivare un rapporto privilegiato con i loro professori sono i seguenti: - l’affollamento della facoltà, ossia il rapporto numerico tra discenti e docenti che influisce sulla possibilità effettiva di stabilire contatti fiduciari tra le due categorie; - il carattere sperimentale delle tesi di laurea nell’ambito delle discipline scientifiche. La sperimentazione, svolta non raramente su temi e con metodi che sono parte dell’interesse scientifico del professore, richiede la stretta collaborazione tra il laureando e il futuro relatore della tesi; - l’apertura dei docenti che operano nella facoltà al mondo extra–accademico e, in particolar modo, al mondo delle imprese. Questi elementi, eventualmente combinati tra loro, favoriscono di gran lunga le facoltà scientifiche rispetto a quelle umanistiche come luogo di contatto tra studenti e professori. Il genere non contribuisce alla segmentazione, mentre il tipo di titolo (laurea o diploma), il voto e l’età alla laurea influiscono sensibilmente sul ricorso ai legami informali con il professore, rendendo più disponibili i professori a segnalazioni degli studenti più meritevoli (che si laureano presto e con voti superiori alla media). 5 Le conoscenze dei colleghi di lavoro per cambiare attività La propensione a rivolgersi ai propri colleghi di lavoro nelle azioni di ricerca di una diversa attività da parte dei neo-laureati e neo-diplomati che lavorano9 è stata valutata rispetto all’ottenimento di indirizzi a cui inviare il curriculum vitae. Come possibili variabili predittive nell’analisi di segmentazione sono state aggiunte a quelle considerate nelle due analisi precedenti “posizione lavorativa” (superiore o inferiore a quella di impiegato), “settore di attività dell’azienda” (pubblico o privato), “la dimensione dell’azienda” (numero di addetti maggiore o minore di venti). I risultati dell’analisi sono presentati nella Fig. 3 e nella Tab. 11. 9 La numerosità campionaria di coloro che lavorano e cercano una diversa attività è di 480 tra laureati e diplomati universitari. 124 Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati... Figura 3. Albero di segmentazione per la variabile dipendente “È ricorso alla segnalazione di colleghi o conoscenti per l’invio del curriculum” Facoltà: 2-3-4-6 y=30% y=30% n=480 n=480 y=18,6% y=18,6% n=113 n=113 y=32,2% y=32,2% n=367 n=367 Laurea entro i 28 anni inferiore a impiegato y=40,3% y=40,3% n=159 n=159 y=33,6 y=33,6 n=107 n=107 Laurea dopo i 28 anni y=53,8 y=53,8 n=52 n=52 settore pubblico Facoltà: 1-5-7-8-910-11-12-13 impiegato o superiore y=26% y=26% n=208 n=208 y=17,3 y=17,3 n=52 n=52 Laurea entro i 26 anni settore privato y=28,8 y=28,8 n=156 n=156 y=19,6 y=19,6 n=51 n=51 y=33,3 y=33,3 n=105 n=105 Laurea dopo i 26 anni Tabella 11. Soddisfazione media e tasso di coerenza tra lavoro svolto e percorso formativo in base ai gruppi individuati con l’analisi di segmentazione Gruppo N Soddisfazione media % molto coerenti con gli studi 1 2 3 4 5 6 Ateneo 113 107 52 52 51 105 2.817 7,0 7,2 6,8 7,6 7,3 6,8 7,3 17,4 35,8 33,5 33,4 41,4 8,8 28,4 Legenda relativa ai gruppi (foglie dell’albero di segmentazione) individuati: Gruppo 1: Laureati o diplomati in Economia, Farmacia, Giurisprudenza, Lettere e filosofia Gruppo 2: Laureati o diplomati nelle restanti facoltà, con posizione inferiore a impiegato o senza posizione, che hanno conseguito il titolo entro i 28 anni Gruppo 3: Laureati o diplomati nelle restanti facoltà, con posizione inferiore a impiegato o senza posizione, che hanno conseguito il titolo dopo i 28 anni Gruppo 4: Laureati o diplomati nelle restanti facoltà, con posizione di impiegato o superiore, che lavorano nel settore pubblico. Gruppo 5: Laureati o diplomati nelle restanti facoltà, con posizione di impiegato o superiore, che lavorano nel settore privato e che hanno conseguito il titolo entro i 26 anni. Gruppo 6: Laureati o diplomati nelle restanti facoltà, con posizione di impiegato o superiore, che lavorano nel settore privato e che hanno conseguito il titolo dopo i 26 anni. Modelli statistici per l’analisi della transizione Università-lavoro 125 Ricorrono in maggior misura (il 53,8%) alle conoscenze e ai colleghi i laureati o diplomati di quasi tutte le facoltà (sono escluse Economia, Farmacia, Giurisprudenza e Lettere) inseriti in una posizione professionale di ripiego, addirittura inferiore a quella di impiegato (insegnanti, operai, commercianti, artigiani, contratto atipico) e che si sono laureati relativamente tardi, dopo i 28 anni. Si tratta di persone “in fuga” dall’attività che svolgono e che si sentono deboli sul piano professionali. Infatti, non solo svolgono attività che possono essere considerate di ripiego, ma dichiarano anche una soddisfazione piuttosto inferiore alla media (6,8). Vi ricorrono di meno, invece, i laureati o diplomati con una posizione di impiegato, funzionario o dirigente nelle amministrazioni pubbliche, i quali svolgono un’attività già abbastanza coerente con ciò che hanno appreso durante gli studi (33,4%, contro una media del 28,4%) e che dà loro il più alto livello di soddisfazione per l’attività svolta (7,6) tra tutti i gruppi ottenuti con l’analisi di segmentazione. L’anzianità alla laurea è, inoltre, direttamente proporzionale alla propensione a fare uso dei legami che si instaurano nell’ambito professionale privato: chi consegue il titolo più tardi ha avuto il tempo di consolidare la propria rete di relazioni nell’ambiente di lavoro. Questa differenza tra le età alla laurea non emerge invece tra i lavoratori del settore pubblico che abbiano una posizione uguale o superiore a quella di impiegato. 6 Conclusioni Nel presente studio sono state esplorate alcune ipotesi sull’entità e sull’efficacia del ricorso al sistema dei reticoli informali, da parte di neo-laureati e neo-diplomati dell’Università di Padova, al fine di cercare lavoro. Si può iniziare con l’affermare che la rete di conoscenze è impiegata da almeno un laureato o diplomato ogni due che si sono mossi per cercare lavoro. Non è impossibile che, in contesti meno effervescenti del Veneto dal punto di vista delle opportunità occupazionali, questa proporzione sia persino superiore a quella constatata. È opportuno distinguere tra le segnalazioni dei professori e le conoscenze di familiari e amici. Le prime sono opportunità offerte al neo-laureato direttamente da un professore, spesso come contropartita di una buona prova dimostrata nello svolgimento della tesi. Di fronte a una proposta come questa il laureato può solo dire che accetta o che non accetta. Se non accetta, l’opportunità è offerta ad un altro, essendo il legame di stretta pertinenza del professore. Quelle nate in ambito accademico sono, quindi, opportunità molto concrete, spendibili per un’unica posizione lavorativa, sfruttabili in un tempo breve, asimmetriche nella direzione, dal professore verso lo studente-laureato. 126 Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati... Le seconde sono opportunità multiple che chi è in grado di citare sfrutta a proprio vantaggio. Sono acquisizione proprie del laureato/diplomato, certamente condivise con altri della famiglia o dell’ambiente sociale di appartenenza, ma che il singolo può spendere se e quando ne intravede l’utilità per sé. Grosso modo, su cinque raccomandazioni esercitate nella ricerca di lavoro, quattro sono di tipo sociofamiliare e una è di ambito accademico. Quali categorie di laureati fanno ricorso ai reticoli sociali nella ricerca di lavoro appena dopo il conseguimento del titolo? Giova ribadire che le analisi svolte riguardano un insieme omogeneo di persone, tutte caratterizzate dal possesso di titoli di studio elevati e di età relativamente simile, quindi le eventuali distinzioni rispetto al titolo di studio e all’età vanno interpretate tenendo conto del contesto prefigurato. Si nota, innanzitutto, che per poter utilizzare le conoscenze è necessario disporne. Le segnalazioni da parte di professori avvengono quasi esclusivamente a vantaggio dei laureati che hanno svolto una buona tesi a carattere sperimentale. Ciò limita fortemente l’ambito di applicazione di questo tipo di legami agli studenti che sviluppano un curriculum qualificato, che non lavorano, e che hanno seguìto corsi di studio caratterizzati sul piano della formazione professionale. L’entità delle conoscenze familiari e amicali varia, invece, considerevolmente secondo il background sociale del neolaureato/neodiplomato. Le classi sociali più elevate dispongono di più legami sociali che contano nella ricerca di lavoro. Tuttavia, non tutti i laureati li spendono con la stessa intensità e frequenza, bensì chi sente di averne più bisogno, chi è in maggiori difficoltà nella ricerca, vi fa maggiormente ricorso. Vi ricorrono, quindi, di più i laureati di area umanistica e sociale, coloro che ottengono il titolo alla fine di percorsi formativi o con percorsi esistenziali accidentati, coloro che temono di essere svantaggiati. Tra coloro che temono di essere svantaggiati si trovano numerose laureate, le quali utilizzano la raccomandazione sistematicamente di più dei colleghi di pari titolo, ma di meno quella accademica, vale a dire con il professore-relatore della tesi. La cosa interessante è che vi ricorrono di più anche se possiedono un titolo di studio di tutto riposo per la ricerca di lavoro, come una laurea in Ingegneria o in una disciplina scientifica elitaria. È, quindi, evidente che i legami informali sono chiamati a fare da scudo quando il laureato/diplomato si sente indifeso, quando vuole parificare con un intervento “esterno” le opportunità di successo nella ricerca di lavoro che – secondo la sua percezione – la nascita, la vita vissuta e il percorso scolastico hanno reso impari. Se questa affermazione fosse vera, il reticolo di relazioni informali squalifica sul piano etico chi lo usa per riguadagnare posizioni che crede perdute. Da qualsiasi parte si analizzino questi dati, si percepisce che chi usa il reticolo personale, sentendosi debole, rischia implicitamente un giudizio morale, mentre chi ha un curriculum che testimonia la sua professionalità gioca prevalentemente questa carta a proprio vantaggio. Modelli statistici per l’analisi della transizione Università-lavoro 127 Naturalmente, da questo giudizio sono esclusi coloro che hanno allacciato legami nel contesto lavorativo in cui operano e che li utilizzano al solo fine di conoscere prima dei possibili concorrenti le opportunità offerte dal mondo del lavoro per migliorare la propria posizione professionale. Va, tuttavia, ricordato che l’informalità non è considerata un danno da parte delle imprese e dei selezionatori. Innanzitutto, perché riduce il margine di incertezza nella scelta: il selezionatore trae dalla segnalazione maggiori informazioni sulla persona. Poi, dalla complicità implicita nella segnalazione trae motivo di garanzia del comportamento dell’assunto, nel senso che questi risponde non solo al datore di lavoro, ma anche a chi l’ha segnalato. I giudizi morali sulla segnalazione come istituzione sono, dunque, relativi. Per concludere, ci piacerebbe sondare, ma i dati disponibili non lo rendono possibile, l’ipotesi che le componenti etico-culturali condizionino il ricorso ai legami informali per trovare lavoro. Si è, infatti, visto che, a parità di status sociale e di curriculum, alcuni fanno ricorso al reticolo sociale e altri no. Quanto il sistema di valori dell’individuo freni questa propensione potrebbe aiutare nell’esprimere un giudizio più definitivo su questa pratica sociale. Infine, l’analisi è stata limitata ai laureati a sei mesi dal conseguimento del titolo. Ciò ha permesso di rispondere alla domanda se i laureati fanno ricorso alla rete di legami per cercare un lavoro. La ristrettezza del periodo esaminato non permette di verificare, con la dovuta attendibilità, l’ipotesi se le conoscenze siano utili, ed eventualmente per chi, anche per progredire nella carriera. Tale ipotesi è verificabile attendendo le rilevazioni successive che, come si è detto nel Par. 1, si estendono nel tempo fino a tre anni dal conseguimento del titolo. 128 Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati... Riferimenti bibliografici BIAN Y., ANG S. (1997) Guanxi Networks and Job Mobility in China and Singapore, Social Forces, 75: 981-1005 CORCORAN M., DATCHER L., DUNCAN G.J. (1980) Information and influence networks in labor markets. In: DUNCAN G.J., MORGAN J.N. (eds) Five Thousand American Families: Pattern of Economic Progress. vol. VIII, Institute for Social Research, University of Michigan, Ann Arbor, MI: 1-37 FABBRIS L. (1997) Statistica multivariata. Analisi esplorativa dei dati, McGrawHill, Milano FABBRIS L. (2003) Il monitoraggio dell’inserimento occupazionale e professionale dei laureati e dei diplomati dell’Università di Padova, Quaderno PHAROS n. 6/2003, Osservatorio sul mercato locale del lavoro, Università degli Studi di Padova, CLEUP, Padova FABBRIS L., MARTINI M.C. (2002) Analisi di segmentazione con una variabile dipendente trasformata in logit. In: CARLI SARDI L., DELVECCHIO F. (a cura di) Indicatori e metodi per l’analisi dei percorsi universitari e postuniversitari, CLEUP, Padova: 195-214 FABBRIS L., MARTINI M.C., ROTA G. (2002) Il valore di mercato dei titoli di laurea e diploma di Padova a sei mesi dal conseguimento del titolo. In: CARLI SARDI L., DELVECCHIO F. (a cura di) Indicatori e metodi per l’analisi dei percorsi universitari e post-universitari, CLEUP, Padova: 171-194 FEVRE R. (1989) Informal Practices, Flexible Firms and Private Labour Markets, Sociology, 23: 91-109 FLAP H.D., De Graaf N.D. (1986) Social Capital and Attainment Occupational Status, Netherlands Journal of Sociology, 22: 124-132 FOLLIS M. (1998) Perché contano i contatti personali nel mercato del lavoro? I micro fondamentali della funzione economica pubblica dei reticoli sociali e il problema dell’embeddedness. In: GRANOVETTER M., FOLLIS M (a cura di) La forza dei legami deboli e altri saggi, Liguori Editore, Napoli: 7-114 GRANOVETTER M. (1973) The Strength of Weak Ties, The University of Chicago Press, Chicago GRANOVETTER M. (1974, 1995) Getting a Job: a Study of Contacts and Careers, The University of Chicago Press, Chicago GRANOVETTER M., FOLLIS M (a cura di) (1998) La forza dei legami deboli e altri saggi, Liguori Editore, Napoli ISTAT (1997) Rapporto sull’Italia. Edizione 1997, Il Mulino, Bologna KATZ F.E. (1958) Occupational Contact Networks, Social Forces, 37: 252-258 LA MENDOLA S. (1995) Con gli occhi di Caronte, CLUEB, Bologna Modelli statistici per l’analisi della transizione Università-lavoro 129 LIN N., VAUGHN J.C., ENSEL W.M. (1981) Social Resources and Occupational Status Attainment, Social Forces, 59: 1163-1181 MARSDEN P.V., HURLBERT J.S. (1988) Social resources and mobility outcomes, Social Forces, 66: 1083-1095 SAS Inc. (2000) Getting Started with Enterprise MinerTM Software Release 4.1, SAS Inc. Gary SCHIEVANO C. (2002) LAID-OUT.1: un programma per l’analisi di segmentazione binaria con riferimento ad una variabile dicotomica trasformata in logit. In: PUGGIONI G. (a cura di) Modelli e metodi per l’analisi di rischi sociali e sanitari, CLEUP, Padova, 21-36 SMELSER N.J., SWEDBERG R (eds) The Handbook of Economic Sociology, Princeton University Press, Princeton, NJ, Russel Sage Foundation, New York WATANABE S. (1994) Strength of Ties and Job-Searching in Japan, American Sociological Review, 56: 60-71 130 Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati... Multidimensional Networks of “Weak” Links for Job Search of Padua University Graduates Summary. In this paper, we apply a model for the interpretation of graduates’ job search through the so-called “weak ties”, i.e. personal links through which a work position may be obtained. Economists and Sociologists consider these links one of the most effective routes for job finding. We analyse weak ties with reference to the first job search by University of Padua graduates through family, friendship and university teachers links. To obtain a working position more coherent with his/her educational investment, we analyse the information about job opportunities which are communicated to employed graduate by their colleagues. By hypothesizing that graduates use their personal links in a different proportion, we segment, by means of a multivariate method, the sample according to the faculty and, within faculty, according to the curricular and social characteristics of graduates. Keywords. Weak ties; Job Search; Familial links; Teacher links; Colleague links; Graduates; Padua University. L’effetto degli studi universitari sull’occupazione: un’applicazione dell’approccio degli “strati principali” all’analisi causale Leonardo Grilli, Fabrizia Mealli1 Dipartimento di Statistica “G. Parenti” - Università degli Studi di Firenze Riassunto. Il lavoro mostra come valutare l’efficacia di due corsi di laurea rispetto allo status occupazionale usando l’approccio degli “strati principali” all’inferenza causale. L’applicazione riguarda la coorte 1992 degli iscritti ai corsi di laurea in Economia e Commercio e in Scienze Politiche presso l’Università di Firenze. L’articolo illustra un uso innovativo dei limiti non parametrici nell’ambito degli “strati principali”, esaminando il ruolo di alcune assunzioni in ordine alla riduzione dell’incertezza. La seconda fase dell’analisi si basa su un modello parametrico adattato con la massima verosimiglianza. In quel contesto si discutono alcune rilevanti questioni relative alla modellizzazione, delineando una strategia generale per la specificazione del modello. Parole chiave: effetti causali, efficacia, risultati potenziali, strati principali. 1. Introduzione Le tradizionali analisi dell’effetto dei corsi di laurea sullo stato occupazionale (chiamate anche analisi di efficacia esterna) sono condotte soltanto sulla base degli studenti laureati, trascurando il fatto che l’insieme degli studenti che sono in grado di laurearsi in un dato corso di laurea è, in generale, diverso dall’insieme di studenti che sono in grado di laurearsi in un altro corso di laurea. In alter parole, due diversi corsi di laurea possono selezionare diverse tipologie di studenti, con differenti attitudini, capacità e prospettive lavorative. Un’analisi dello stato occupazionale basata soltanto sugli studenti laureati mescola l’effetto “diretto” del corso di laurea sull’occupazione con l’effetto “indiretto” che passa attraverso il raggiungimento della laurea. 1 Il presente lavoro è stato finanziato nell’ambito del progetto “Transizioni università-lavoro e valorizzazione delle competenze professionali dei laureati: modelli e metodi di analisi multidimensionale delle determinanti”, cofinanziato dal MIUR (Coordinatore nazionale Luigi Fabbris, coordinatore del gruppo di Firenze Bruno Chiandotto). La nota è frutto del lavoro congiunto dei due autori ed è stata redatta da F. Mealli per quanto concerne i paragrafi 1, 2, 3 e 7 e da L. Grilli per i paragrafi 4, 5 e 6. 132 L’effetto degli studi universitari sull’occupazione:... Da un punto di vista di politica dell’istruzione, scomporre i due effetti è molto importante. Per esempio, se esiste un effetto diretto sull’occupazione, allora il corso di laurea con minore efficacia dovrebbe modificare i propri contenuti al fine di soddisfare le richieste del mercato del lavoro. Se invece il successo sul mercato del lavoro di un corso di laurea è dovuto soltanto ai diversi criteri di selezione (ad es., un corso di studi risulta più difficile di un altro e quindi seleziona studenti migliori), allora il problema diventa un tema di politica dell’istruzione (nell’esempio posto, se sia o meno auspicabile per la società il permettere che si laureino studenti con minori capacità o permettere l’esistenza di corsi di laurea con diversi livelli di difficoltà). Al fine di studiare l’effetto diretto dei corsi di laurea sull’occupazione, evitando distorsioni dovute ad un diverso processo di selezione/laurea, è necessario pianificare uno studio congiunto dei processi che conducono alla laurea e al lavoro. A questo proposito un approccio appropriato può essere quello della stratificazione principale (Frankgakis & Rubin, 2002), un importante sviluppo dell’approccio dei risultati potenziali all’inferenza causale (Rubin, 1974). L’approccio della stratificazione principale è stato recentemente utilizzato in Barnard et al. (2003) per l’analisi di un complesso esperimento casualizzato nell’ambito dell’istruzione. Nella presente applicazione, la variabile di trattamento è la variabile indicatrice di un corso di laurea (vs. un altro), mentre la variabile intermedia (post-trattamento) che definisce gli strati principali è la laurea (laureato/non laureato). Il punto cruciale è che, se uno studente non si laurea, la variabile risultato, che è lo stato occupazionale, non è definita se l’obiettivo è quello di studiare l’efficacia dei corsi di laurea rispetto al mercato del lavoro. Questo è un esempio della cosiddetta censura per morte, discussa in Zhang & Rubin (2004) nel caso ipotetico di un esperimento casualizzato riguardante due programmi educativi nella scuola superiore, dove la variabile intermedia è l’abbandono e la variabile risultato è il punteggio su un test finale. In questo lavoro, l’approccio di Zhang & Rubin (2004) è applicato ad un caso di studio reale, che differisce dal loro esempio in molti aspetti: (i) il trattamento non è casualizzato; (ii) i due trattamenti sono sullo stesso piano, ovvero non vi è un trattamento attivo da confrontare con un trattamento di controllo; (iii) la variabile risultato è binaria e soggetta a non risposta; (iv) alcune covariate rilevanti sono disponibili. La presente analisi è limitata al confronto di due soli corsi di laurea. L’estensione a più corsi comporta alcune difficoltà tecniche, ma l’approccio concettuale rimarrebbe essenzialmente inalterato. I due corsi di laurea messi a confronto sono Economia e Commercio e Scienze Politiche, che sono piuttosto simili, almeno in Italia, rispetto ai contenuti dei corsi e alle opportunità lavorative. Alla luce di tali similarità, per un dato livello delle covariate osservate, la scelta di iscriversi ad un determinato corso è verosimilmente poco associata a caratteristiche osservabili che potenzialmente influiscono anche sulle chance di laurea e il successivo status occupazionale; quindi l’assunzione di ignora- Modelli statistici per l’analisi della transizione Università-lavoro 133 bilità dell’assegnazione al trattamento discussa più aventi sembra ragionevole. Si noti che la variabile binaria che identifica il corso di laurea a cui uno studente è iscritto sarà chiamata indicatore di trattamento, in modo da conformarsi all’usuale linguaggio dell’analisi causale, sebbene nella presente applicazione non vi sia alcuna randomizzazione e, inoltre, I due corsi di laurea sono sullo stesso piano, non essendoci un trattamento attivo vs. uno di controllo. 2. I dati Un’analisi congiunta dei processi che conducono alla laurea e al successo sul mercato del lavoro richiede di unire due archivi di dati: un database amministrativo riguardante una (o più) coorte di studenti e i dati relative ad un indagine che rilevi lo stato occupazionale sui laureati di quella stessa coorte. In questo lavoro, riguardante corsi di laurea offerti dall’Università di Firenze le due fonti di dati sono: • L’archivio amministrativo dalla coorte di matricole iscritte nel 1992 ad uno dei due corsi di laurea Economia e Commercio e Scienze Politiche; • Tre indagini esaustive sullo stato occupazionale dei laureati negli anni 1998, 1999 e 2000. I dataset sono stati uniti attraverso il numero di matricola. Le matricole della coorte esaminata sono 1941: 1068 iscritte a Economia e Commercio e 873 a Scienze Politiche. La scelta della coorte è stata motivata dalla disponibilità di dati da indagine per i laureati dal 1998 al 2000: la coorte 1992 è parsa la scelta migliore poiché solo 21 studenti di tale coorte si sono laureati prima del 1998, mentre la maggior parte degli studenti che non hanno abbandonato si sono laureati proprio nel triennio 1998-2000. La carriera accademica degli studenti alla fine dell’anno 2000 è riassunta nella Tabella 1. Per gli studenti ancora iscritti, così come per gli abbandoni, non disponiamo di dati relativi al loro status occupazionale. Quindi, ai fini della presente analisi, la laurea è definita come “laurea entro nove anni dall’iscrizione. Questa restrizione nella definizione dello status di laureato non pare eccessivamente dannosa per l’analisi, considerato anche il fatto che il raggiungimento della laurea dopo nove anni coinvolge molti studenti che hanno già un lavoro regolare svolto durante gli studi. Lo stato occupazionale al momento dell’intervista per il sottoinsieme di studenti laureati è riportato nella Tabella 2. Tutti gli studenti intervistati hanno risposto alle domande sullo stato occupazionale. Fatta eccezione per i 21 studenti laureati prima del 1988, che erano fuori target dell’indagine, quasi tutti le interviste mancanti sono dovute a mancati contatti. La variabile di risultato per l’analisi è la variabile indicatrice del possesso di una lavoro permanente al momento dell’intervista, ovvero da uno a due anni dopo la 134 L’effetto degli studi universitari sull’occupazione:... Tabella 1. Carriera accademica degli studenti della coorte 1992 alla fine dell’anno 2000 Status Economia e Commercio Scienze Politiche Abbandonato Laureato Ancora iscritto 545 270 253 51.0% 25.3% 23.7% 532 176 165 60.9% 20.2% 18.9% Totale 1068 100.0% 873 100.0% Tabella 2. Status occupazionale al momento dell’intervista Status Laureati Intervistati Lavoro permanente * Intervistati/Laureati Economia e Commercio Scienze Politiche 270 176 187 97 69.3%* 51.9%** 99 36 56.2%* 36.4%** **Lavoro permanente/Intervistati Tabella 3. Medie campionarie delle covariate per corso di laurea Economia e Commercio Covariate (n=1068) Femmina 0.41 Residenza a Firenze 0.23 Liceo 0.34 Voto alto 0.37 Iscrizione con ritardo 0.06 Scienze Politiche (n=873) 0.54 0.31 0.45 0.25 0.22 laurea. La natura permanente del lavoro dipende dal tipo di contratto per I lavoratori dipendenti, mentre deriva da un’autovalutazione per i lavoratori autonomi. I lavori temporanei sono ignorati. I dati amministrativi includono informazioni aggiuntive sull’intera coorte, che sono state utilizzate per definire cinque covariate binarie, successivamente rappresentate per ogni studente dal vettore xi: genere, residenza (a Firenze vs. altro), diploma di maturità (Liceo vs. altro), Voto di maturità (voto alto 5060 vs. voto basso 36-49), Iscrizione in ritardo. Nella Tabella 3 sono riportate le medie campionarie delle covariate. Le covariate hanno distribuzione diversa nei due corsi di laurea, evidenziando come l’assegnazione al trattamento non sia completamente casuale. In particolare, il voto di maturità è più elevato tra gli studenti di Economia e Commercio; la differenza maggiore riguarda l’iscrizione in ritardo, che è piuttosto rara per gli studenti di Economia e Commercio, ma raggiunge il 22% tra gli studenti iscritti a Scienze Poli- Modelli statistici per l’analisi della transizione Università-lavoro 135 tiche, plausibilmente per la presenza di molti studenti lavoratori che decidono di iscriversi all’Università in un momento distante dall’ottenimento del diploma di maturità. 3. L’approccio degli Strati Principali Sia n il numero totale di individui oggetto dello studio, ovvero la dimensione della coorte di immatricolati a Economia e Commercio e Scienze Politiche nel 1992. La variabile di trattamento Zi è quindi definita come: • Zi = 1 se lo studente i è iscritto a Economia e Commercio; • Zi = 0 se lo studente i è iscritto a Scienze Politiche. Sia adesso zi il valore osservato di Zi e sia z il vettore degli zi per tutti gli n individui. Nell’approccio dei risultati potenziali ogni variabile post-trattamento dipende dal vettore dei trattamenti assegnati z. Tuttavia, nella presente applicazione è ragionevole fare la seguente assunzione, che esclude la possibilità di interazioni tra individui: Assunzione 1 (SUTVA - Stable Unit Treatment Value Assumption): Per ogni individuo i ogni variabile post-trattameno dipende da z soltanto attraverso zi. Data l’ipotesi SUTVA, ogni variabile post-trattamento ha tante versioni “potenziali” quanti sono i possibili trattamenti (due nel nostro caso). Quindi, le variabili post-trattamento possono essere definite come segue. La prima variabile post-trattamento è la variabile intermedia Si(z): • Si (z) = 1 se lo studente i si è laureato entro la fine del 2000 (ovvero entro 9 anni) se iscritto al corso z; • Si (z) = 0 se lo studente i non si è laureato entro la fine del 2000 (ovvero entro 9 anni) se iscritto al corso z. Un’altra variabile post-trattamento è l’indicatore di risposta Ri(z): • Ri (z) = 1 se lo studente i ha risposto alla domanda sullo stato occupazionale se iscritto al corso z e si è laureato; • Ri (z) = 0 se lo studente i non ha risposto alla domanda sullo stato occupazionale se iscritto al corso z e si è laureato. L’ultima variabile post-trattamento è la variabile risultato Yi (z): • Yi (z) = 1 se lo studente i, se iscritto al corso z e si è laureato, aveva un lavoro permanente al momento dell’intervista; • Yi (z) = 0 se lo studente i, se iscritto al corso z e si è laureato, non aveva un lavoro permanente al momento dell’intervista. 136 L’effetto degli studi universitari sull’occupazione:... Poiché per ogni individuo la variabile di trattamento assume un solo valore, per ogni variabile post-trattamento solo una delle due versioni potenziali può essere osservata. È quindi utile introdurre la seguente notazione: Siobs = Si (Zi), Riobs = Ri (Zi), Yiobs = Yi (Zi). Essendo binarie sia la variabile di trattamento che la variabile intermedia, è possibile definire 4 strati principali identificati dai valori della variabile latente Li: • Li = ‘GG’ (Laureato, Laureato) se Si(1)=1 e Si(0)=1: studenti che sono in grado di laurearsi in entrambi i corsi di laurea; • Li = ‘GN’ (Laureato, Non laureato) se Si(1)=1 e Si(0)=0: studenti che sono in grado di laurearsi se iscritti ad Economia e Commercio ma che non sono in grado di laurearsi se iscritti a Scienze Politiche; • Li = ‘NG’ (Non laureato, Laureato) se Si(1)=0 e Si(0)=1: studenti che non sono in grado di laurearsi se iscritti ad Economia e Commercio ma che sono in grado di laurearsi se iscritti a Scienze Politiche; • Li = ‘NN’ (Non laureato, Non laureato) se Si(1)=0 e Si(0)=0: studenti che non sono in grado di laurearsi in nessuno dei due corsi di laurea. Si noti che ogni studente appartiene ad un singolo strato, sebbene i dati non siano in grado di rivelare in generale quale sia il suo strato di appartenenza. In altre parole, gli strati principali sono classi latenti e i dati permettono soltanto di stimare le probabilità che un dato studente appartenga ad una certa classe latente. Si noti che gli strati principali sono definiti da coppie di valori potenziali della variabile intermedia, quindi non sono influenzati dal trattamento e possono quindi essere considerati come covariate pre-trattamento non osservabili. La relazione tra i gruppi osservati, definiti da Zi e Siobs, e gli strati principali è descritta nella tabella 4, insieme ai corrispondenti supporti di Riobs e Yiobs. Per le variabili post-trattamento S e Y le proporzioni campionarie nei due gruppi risultano: • PS,1 = 0.253: la proporzione campionaria di laureati tra gli studenti iscritti a Economia (Zi=1); • PS,0 = 0.202: la proporzione campionaria di laureati tra gli studenti iscritti a Scienze Politiche (Zi =0); Tabella 4. Gruppi osservati e strati principali Gruppo osservato Zi Siobs Riobs O(Z, Sobs) O(1,1) 1 1 ∈ {0,1} O(1,0) 1 0 non definito O(0,1) 0 1 ∈ {0,1} O(0,0) 0 0 non definito Yiobs ∈ {0,1} non definito ∈ {0,1} non definito Gruppo latente Li (strato principale) GG o GN NG o NN GG o NG GN o NN Modelli statistici per l’analisi della transizione Università-lavoro 137 • PY,1 = 0.516: la proporzione campionaria di individui con un’occupazione permanente tra gli studenti iscritti a Economia (Zi=1) che si sono laureati (Siobs = 1) e hanno risposto all’intervista (Riobs = 1); • PY,0 = 0.364: la proporzione campionaria di individui con un’occupazione permanente tra gli studenti iscritti a Scienze Politiche (Zi =0) che si sono laureati (Siobs = 1) e hanno risposto all’intervista (Riobs = 1). Tali proporzioni mostrano come ad Economia il tasso di laurea sia più elevato, così come il tasso di occupazione permanente tra i laureati. L’analisi dovrebbe permettere di valutare se la migliore performance di Economia sia da attribuirsi ad un effetto causale positivo. Poiché l’obiettivo dello studio è quello di valutare l’efficacia dei corsi di laurea rispetto al mercato del lavoro, la variabile di risultato Y è definita solo per i laureati. Quindi l’effetto causale Yi(1)-Yi(0) sull’occupazione è definito in modo appropriato solo per lo strato GG, ovvero per gli studenti che sono in grado di laurearsi in entrambi i corsi di studio. In generale, se i dati fossero disponibili, la variabile occupazione potrebbe essere definita per tutti gli studenti iscritti, anche se ai fini di valutare l’effetto del possesso di una laurea o di un’altra sull’occupazione ciò non sarebbe così rilevante. Nella presente analisi l’effetto causale di principale interesse è l’effetto causale medio per lo strato GG. Quando l’interesse è rivolto solo alla popolazione effettivamente osservata, questo effetto è semplicemente la differenza tra le medie dei due risultati potenziali Y(1) e Y(0) per gli individui che appartengono allo strato GG: YGG (1) − YGG (0) . Tuttavia, in quanto segue, l’interesse è rivolto al più generale processo di generazione dei dati, e quindi i risultati sono implicitamente riferiti ad una superpopolazione ed espressi in termini di probabilità: la differenza tra le probabilità di avere un lavoro permanente sempre per lo strato GG: E (YGG (1)) − E (YGG (0)) = P (YGG (1) = 1) − P(YGG (0) = 1) . Poiché Z non è casualizzato ci potrebbero essere delle variabili di confondimento che influiscono contemporaneamente su Z e S o su Z e Y: in questo caso l’effetto di Z su Y non potrebbe essere interpretato come un effetto causale. Le covariate disponibili xi, descritte in Tabella 3, possono aiutare ad alleviare questo problema, nel modo contenuto nella seguente assunzione: Assunzione 2 (Assenza di confondimento dell’assegnazione del trattamento): Zi ⊥ Si (0), Si (1), Yi (0), Yi (1) | xi . Nella presente applicazione, questa assunzione sarebbe violata se studenti a parità di caratteristiche osservate basassero la loro decisione di iscriversi ad un corso di laurea, piuttosto che ad un altro, su valutazioni circa le proprie chances di laurea e di lavoro, confrontando le chances di laurea e lavoro di studenti simili anche relati- 138 L’effetto degli studi universitari sull’occupazione:... vamente a caratteristiche non osservate ma influenti su entrambi i risultati. Tuttavia tale comportamento appare poco plausibile. I dati sui risultati dei laureati soffrono anche del problema delle mancate risposte: infatti, la variabile Y è disponibile solo per coloro che hanno risposto all’intervista. Nel seguito assumiamo che l’informazione su Y sia mancante a caso: Assunzione 3 (Missing at random): Ri (z) ⊥ Yi (z)| xi , Si(z)=1 per ogni z=0,1. Sotto l’assunzione 3, il meccanismo di risposta è ignorabile, quindi l’analisi si può basare sui dati disponibili (condizionatamente alle variabili osservate). Poiché i dati mancanti sono dovuti principalmente a mancati contatti ed è verosimile che la difficoltà di contatto sia maggiore per le persone che lavorano, una possibile conseguenza potrebbe essere la sottostima del tasso di occupazione. Tuttavia le ripercussioni sull’effetto di interesse, che è una differenza tra probabilità, dovrebbero essere trascurabili. Assunzioni alternative sul meccanismo di mancata risposta sono discusse in Mealli et al. (2004). 4. La struttura probabilistica Sotto le assunzioni 1-3 il processo generatore dei dati può essere definito in base ai due seguenti gruppi di probabilità: A. Probabilità degli strati principali: • π GG:i = Pr( Li = ' GG ' | xi ) • π GN :i = Pr( Li = ' GN ' | xi ) • π NG:i = Pr( Li = ' NG ' | xi ) • π NN :i = Pr( Li = ' NN ' | xi ) . Per esempio, π GN :i è la probabilità che lo studente i appartenga allo strato principale GN, ovvero lo studente è in grado di laurearsi entro nove anni a Economia ma non a Scienze Politiche. B. Probabilità della variabile riposta, condizionata allo strato principale: • γ 1,GG:i = Pr(Yi obs = 1| Z i = 1, Li = ' GG ', xi ) = Pr(Yi (1) = 1| Li = ' GG ', xi ) • γ 0,GG:i = Pr(Yi obs = 1| Z i = 0, Li = ' GG ', xi ) = Pr(Yi (0) = 1| Li = ' GG ', xi ) • γ 1,GN :i = Pr(Yi obs = 1| Z i = 1, Li = ' GN ', xi ) = Pr(Yi (1) = 1| Li = ' GN ', xi ) • γ 0, NG:i = Pr(Yi obs = 1| Z i = 0, Li = ' NG ', xi ) = Pr(Yi (0) = 1| Li = ' NG ', xi ) . Modelli statistici per l’analisi della transizione Università-lavoro 139 Per esempio, γ 1,GG:i è la probabilità che lo studente i abbia un lavoro permanente se appartiene allo strato principale GG , si è iscritto e laureato in Economia e Commercio (Zi=1). Si noti che le probabilità che corrispondono a combinazioni tra corsi di laurea e strati principali diverse dalle quale presentate non sono definite nella presente applicazione. La struttura probabilistica è analoga a quella dei modelli a classi latenti, fatta eccezione per il fatto che in questo caso l’appartenenza ad una certa classe latente non soltanto influisce sulla distribuzione di probabilità di Y, ma anche sulla sua esistenza, ovvero se Y sia o meno definita. Le quantità oggetto di stima sono le differenze (o una loro sintesi) tra le probabilità di Y relative agli individui appartenenti allo strato GG, γ 1,GG:i − γ 0,GG:i , una per ogni combinazione delle covariate. Inoltre, anche probabilità degli strati principali (π GG:i , π NG:i , π GN :i , π NN :i ) sono interessanti poiché esse fanno luce sulle dinamiche del processo che conduce alla laurea nei due corsi di laurea. Infatti, l’effetto causale sulla probabilità di laurea è dato da Pr( Si (1) = 1) − Pr( Si (0) = 1) = (π GG:i + π GN :i ) − (π GG:i + π NG:i ) = π GN :i − π NG:i . (1) Quindi la probabilità π GG:i di appartenenza allo strato GG è irrilevante per l’effetto causale sulla laurea, nonostante il suo valore possa descrivere scenari anche molto diversi. In particolare, quando π GG:i diminuisce, i laureati dei due corsi di laurea tendono ad essere più eterogenei tra loro e quindi ci saranno maggiori opportunità di incrementare i tassi di laurea attraverso appropriate politiche di orientamento. Anche nel caso di una popolazione omogenea, le probabilità π e γ non sono direttamente stimabili dai dati senza assunzioni aggiuntive. Infatti, risultano tre π non ridondanti e quattro γ , a fronte di sole quattro proporzioni campionarie (PS,1, PS,0, PY,1, PY,0). In particolare, nel paragrafo successivo si mostra come i PS,1 e PS,0 permettono di ottenere una stima puntuale dei π soltanto dopo avere fissato uno di loro, assumendo che i π siano gli stessi in entrambi i gruppi di trattamento. Inoltre, i γ non possono essere direttamente stimati, poiché sono definiti condizionatamente agli strati principali. I dati tuttavia permettono di stimare (attraverso PY,1 e PY,0) le seguenti probabilità: • γ 1:i = Pr(Yi obs = 1| Z i = 1, Siobs = 1, xi ) = Pr(Yi (1) = 1| Si (1) = 1, xi ) • γ 0:i = Pr(Yi obs = 1| Z i = 0, Siobs = 1, xi ) = Pr(Yi (0) = 1| Si (0) = 1, xi ) . Queste probabilità sono infatti misture di probabilità condizionate allo strato principale: γ 1:i = γ 1,GG:i π GG:i π GN :i + γ 1,GN :i π GG:i + π GN :i π GG:i + π GN :i (2) 140 L’effetto degli studi universitari sull’occupazione:... γ 0:i = γ 0,GG:i π GG:i π NG:i + γ 0, NG:i , π GG:i + π NG:i π GG:i + π NG:i (3) e quindi la stima richiede qualche scomposizione della mistura. 5. Limiti non parametrici asintotici Come primo passo dell’analisi è utile determinare l’insieme dei valori ammissibili delle probabilità degli strati principali alla luce dei dati disponibili e determinare i corrispondenti limiti dell’effetto causale di interesse, che è una sintesi di γ 1,GG:i - γ 0,GG:i (in particolare, una media marginale o condizionata). I calcoli sono effettuati sotto l’assunzione che il trattamento sia assegnato a caso e che la popolazione sia omogenea, per cui il deponente i viene omesso. Nella presente applicazione ci sono quattro strati principali, la cui distribuzione è definita da tre probabilità non ridondanti. Quando il trattamento è assegnato a caso la distribuzione degli strati principali è la stessa per ogni livello del trattamento; pertanto, con l’aggiunta di un vincolo, le probabilità degli strati principali possono essere stimate a partire dalle due proporzioni osservate di laureati nei due corsi di laurea, PS,1 e PS,0. Quando il campione è sufficientemente grande gli errori campionari possono essere trascurati, per cui si ottengono le seguenti equazioni: PS ,1 =π GG + π GN ; 1 − PS ,1 =π NG + π NN ; PS ,0 =π GG + π NG ; 1 − PS ,0 =π GN + π NN . Da queste equazioni segue che π GG è compreso nell’intervallo max( PS ,0 + PS ,1 − 1, 0) ≤ π GG ≤ min( PS ,0 , PS ,1 ). (4) Fissando π GG a uno dei suoi valori ammissibili le probabilità degli altri strati principali sono π GN = PS ,1 − π GG ; π NG = PS ,0 − π GG ; π NN = 1 − PS ,1 − PS ,0 + π GG . (5) La Figura 1 mostra le quattro probabilità degli strati principali come funzioni di π GG per i dati a disposizione, dove π GG può variare tra 0 e 0.202. Si noti che la differenza tra le due rette parallele discendenti, π GN − π NG , è l’effetto causale sulla laurea definito dall’equazione (1) e stimato da PS,1- PS,0. Pertanto la Figura 1 può essere vista come la rappresentazione di diversi scenari caratterizzati dallo stesso effetto causale stimato sulla laurea. In particolare, il massimo valore ammissibile di π GG corrisponde allo scenario in cui gli strati GN e NG sono al loro minimo ammissibile, cioè π GN = PS,1- PS,0 e π NG =0. Modelli statistici per l’analisi della transizione Università-lavoro 141 Figura 1. Valori ammissibili delle probabilità degli strati principali 0.8 Probabilità degli strati principali 0.7 0.6 0.5 prob GG prob GN 0.4 prob NN 0.3 prob NG 0.2 0.1 0.0 0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0.18 0.20 Probabilità dello strato GG (πGG) I limiti dell’effetto causale medio nello strato GG, γ 1,GG − γ 0,GG , sono calcolati per ogni valore fissato di π GG considerando gli scenari migliori e peggiori. Dall’equazione (2) segue che γ − γ (1 − ϕ1,GG ) γ 1,GG = 1 1,GN , (6) ϕ1,GG dove ϕ1,GG = π GG / (π GG + π GN ) . Allora γ 1,GG raggiunge il suo minimo quando γ 1,GN = 1 e il suo massimo quando γ 1,GN = 0 , dando luogo ai seguenti limiti: 1− γ1 γ max 1 − , 0 ≤ γ 1,GG ≤ min 1 ,1 . ϕ ϕ 1,GG 1,GG (7) Questi limiti dipendono da due quantità ignote che devono essere stimate: ϕ1,GG è stimato tramite le equazioni (5), per cui dipende dal valore ipotizzato di π GG e dalla proporzione campionaria della variabile intermedia per Z=1, PS,1 ; d’altra parte, γ 1 è stimato dalla proporzione campionaria della variabile risposta per Z=1, PY,1 . 142 L’effetto degli studi universitari sull’occupazione:... In modo analogo, l’equazione (3) implica che i limiti per γ 0,GG siano dati da 1− γ 0 γ max 1 − , 0 ≤ γ 0,GG ≤ min 0 ,1 , ϕ ϕ 0,GG 0,GG (8) dove ϕ 0,GG = π GG / (π GG + π NG ) dipende dal valore ipotizzato di π GG e dalla proporzione campionaria della variabile intermedia per Z=0, PS,0, mentre γ 0 è stimato dalla proporzione campionaria della variabile risposta per Z=0, PY,0 . Infine, i limiti dell’effetto causale nello strato GG, γ 1,GG − γ 0,GG , derivano dai limiti (7) e (8): 1− γ1 γ max 1 − , 0 − min 0 ,1 ≤ γ 1,GG − γ 0,GG ϕ 1,GG ϕ 0,GG (9) γ1 1− γ 0 ≤ min ,1 − max 1 − , 0. ϕ ϕ 0,GG 1,GG Questi limiti sono simili a quelli derivati da Zhang & Rubin (2004): la differenza è che questi Autori utilizzano una variabile Y continua e calcolano i limiti per mezzo di una procedura basata sui valori ordinati di Y; tuttavia, quando Y è binaria, come nel caso presente, la loro procedura fornisce gli stessi risultati della nostra, a meno di approssimazioni dovute alla natura discreta dei dati. Si noti inoltre che Zhang & Rubin (2004) analizzano i dati di un esperimento in cui sono presenti veri trattamenti e controlli, per cui studiano i limiti come funzioni di π NG , mentre nella nostra applicazione, dato che i due trattamenti sono sullo stesso piano, è più naturale studiare i limiti come funzioni di π GG . I limiti (9), stimati dalle proporzioni campionarie, sono disegnati come funzioni di π GG in Figura 2 con la dizione “Limiti generali”. Si noti che i limiti si allargano mano a mano che π GG diventa più piccolo: per valori elevati di π GG (tra 0.196 e il massimo 0.202) gli estremi sono entrambi positivi, per cui il segno dell’effetto causale è determinato; poi i limiti si allargano fino a raggiungere l’intervallo [-1,1], diventando inutili. I limiti appena calcolati sono asintotici, nel senso che in grandi campioni stimano i veri limiti quasi senza errore e non c’è bisogno di considerare esplicitamente bande di confidenza rappresentanti l’incertezza dovuta alla stima. In generale, sia i limiti superiori che quelli inferiori dovrebbero essere inclusi in bande di confidenza: questo permetterebbe di tenere in considerazione la possibilità che un dato modello fornisca una stima dell’effetto causale medio che cade al di fuori dei limiti calcolati. Nella presente applicazione le bande di confidenza non sono mostrate, poiché l’uso principale dei limiti è quello di esplorare i dati e di giudicare qualitativamente la plausibilità dei risultati prodotti dal modello. Modelli statistici per l’analisi della transizione Università-lavoro 143 Figura 2. Limiti dell’effetto causale medio nello strato GG Limiti dell'effetto causale medio nello strato GG (γ 1,GG-γ 0,GG) 1,0 0,8 0,6 0,4 0,2 0,0 0,00 -0,2 — Limiti generali --- Limiti sotto dominanza stocastica 0,02 0,04 0,06 0,08 0,10 0,12 0,14 0,16 0,18 0,20 -0,4 -0,6 -0,8 π GG = π NG + π GN -1,0 Probabilità dello strato GG (π GG) I limiti sintetizzano l’incertezza che caratterizza la stima dell’effetto causale medio nello strato GG indipendentemente dalla dimensione campionaria: il messaggio è che persino in un grande campione c’è un intero intervallo di valori ammissibili per la quantità oggetto di stima, la cui ampiezza dipende dalla struttura della popolazione, in particolare dalla dimensione dello strato GG. I limiti possono essere ristretti facendo opportune assunzioni sulle probabilità degli strati principali o sulle probabilità della variabile risultato. Per quanto riguarda le probabilità degli strati principali, un’assunzione standard è quella di monotonicità, ovvero la non esistenza del gruppo NG, cioè π NG = 0 . Questa assunzione viene fatta spesso in studi in cui si confrontano un trattamento attivo con un placebo poiché, rispetto alla variabile intermedia S, il gruppo NG ha una performance negativa (Si = 0) sotto il trattamento attivo (Zi = 1) e una performance positiva (Si = 1) sotto il controllo (Zi = 0). Tuttavia nell’applicazione presente i due gruppi di trattamento sono sullo stesso piano, per cui è verosimile che entrambi i gruppi NG e GN siano presenti. L’assunzione di monotonicità è dunque poco plausibile. Un vincolo sulle probabilità degli strati principali che sembra ragionevole nel presente contesto è che gli studenti in grado di laurearsi in entrambi i corsi, π GG , siano una maggioranza nel gruppo degli studenti in grado di laurearsi in almeno uno dei 144 L’effetto degli studi universitari sull’occupazione:... corsi, cioè nel gruppo con probabilità π GG + π NG + π GN . Questo porta a formulare la seguente assunzione: Assunzione 4 (Maggioranza relativa dello strato GG): per ogni i, π GG:i ≥ π NG:i + π GN :i . Assumendo omogeneità della popolazione e casualizzazione del trattamento, dalle equazioni (5) segue che l’Assunzione 4 equivale a 3π GG − ( PS ,1 + PS ,0 ) ≥ 0 . Poiché i limiti si ampliano mano a mano che π GG diminuisce, i limiti più ampi che soddisfano l’Assunzione 4 corrispondono a quell’unico valore di π GG per il quale la disuguaglianza diviene un’uguaglianza, cioè π GG = ( PS ,1 + PS ,0 ) / 3 , purché tale valore di π GG sia ammissibile. Questo caso è rappresentato in Figura 2 dalla linea verticale passante attraverso π GG = 0.152. I corrispondenti limiti sono [-0.290, 0.708], ovviamente molto più informativi dell’intervallo [-1,1]. Per quanto riguarda le probabilità della variabile risposta, è ragionevole assumere che gli studenti in grado di laurearsi in entrambi i corsi (strato GG) abbiano più probabilità di ottenere un lavoro permanente rispetto agli studenti in grado di laurearsi in un corso ma non nell’altro (strati NG e GN). Questa considerazione porta alla seguente assunzione: Assunzione 5 (Dominanza stocastica): per ogni i, e per ogni numero reale t, Pr(YGG :i(1) ≤ t) ≤ Pr(YGN :i(1) ≤ t) ; Pr(YGG :i(0) ≤ t) ≤ Pr(YNG :i(0) ≤ t) . Questa assunzione viene utilizzata da Zhang & Rubin (2004) nel caso di una variabile risultato continua. Nel contesto attuale la variabile risultato Y è binaria, per cui in termini di probabilità di occupazione, la dominanza stocastica è equivalente a γ 1,GG:i ≥ γ 1,GN :i e γ 0,GG:i ≥ γ 0, NG:i . Assumendo la dominanza stocastica i limiti sono più stretti che nel caso generale, poiché l’espressione (9) diviene γ0 γ 1 − min ϕ 0,GG γ ,1 ≤ γ 1,GG − γ 0,GG ≤ min 1 ,1 − γ 0 ϕ 1,GG (10) Si noti che, quando π GG = π NG + π GN , i limiti stimati (10) sono [0.030, 0.494], per cui l’effetto causale medio è necessariamente positivo. Questo è un risultato interessante, poiché mostra che due assunzioni deboli, come la 4 e la 5, possono essere sufficienti a determinare il segno dell’effetto senza bisogno di affidarsi ad un modello parametrico. Modelli statistici per l’analisi della transizione Università-lavoro 145 I limiti qui calcolati sono validi solo se l’assunzione di non confondimento (Assunzione 2) vale marginalmente (cioè, non condizionatamente alle covariate). Nel caso presente non vi è casualizzazione e il trattamento è stato liberamente scelto dagli individui, per cui marginalmente il non confondimento potrebbe non valere. Una possibile miglioria, basata sull’assunzione meno restrittiva che il non confondimento valga condizionatamente alle covariate, è di derivare i limiti per ogni cella definita dalle covariate e poi ricostruire i limiti non condizionati attraverso una media pesata con le frequenze di cella. L’applicazione di tale tecnica ai nostri dati non porta a cambiamenti di rilievo. 6. Analisi basata su modello Un modo efficiente di sfruttare l’informazione insita nelle covariate, al costo di aggiungere altre assunzioni, è quello di costruire un modello parametrico, che può essere adattato ai dati sia con metodi frequentisti che con metodi Bayesiani. La specificazione del modello e la stima sono compiti impegnativi, poiché nell’approccio degli strati principali i gruppi latenti portano a misture di distribuzioni difficili da scomporre. Le covariate sono estremamente utili per identificare il modello: l’identificazione può essere raggiunta attraverso diversi tipi di vincoli la cui plausibilità deve essere valutata caso per caso, come illustrato da Jo (2002) nel caso particolare di noncompliance con due gruppi latenti. Tuttavia, la funzione di verosimiglianza è solitamente piuttosto piatta, per cui la sua massimizzazione non è agevole. L’approccio Bayesiano (Imbens & Rubin, 1997) può aiutare a superare queste difficoltà, ma, a parte la complessità computazionale, la scelta di appropriate distribuzioni a priori è tutt’altro che facile. Nella presente applicazione effettuiamo un’analisi di massima verosimiglianza, che risulta efficace per il problema allo studio. Come notato nella Sezione 4, il processo generatore dei dati può essere definito in termini di due insiemi di probabilità: i π, che danno origine al sottomodello relativo agli strati principali, e i γ, che danno origine al sottomodello relativo alla variabile risultato. Le variabili disponibili per ogni individuo sono Zi, Siobs, Riobs, Yiobs (se Riobs =1) e il vettore di covariate xi. Nella presente applicazione i 19 individui con valori mancanti delle covariate sono semplicemente eliminati, per cui le covariate sono trattate come completamente osservate. Estensioni per gestire valori mancanti delle covariate sono state sviluppate da Barnard et al. (2003). Raccogliamo ora i parametri nel vettore θ e le variabili per gli n individui nei vettori Z, Sobs, Robs and Yobs e nella matrice X. La verosimiglianza può essere scritta come prodotto sui quattro gruppi osservabili definiti da Zi e Siobs, dove i∈O(k,h) sta per Zi =k e Siobs=h: 146 L’effetto degli studi universitari sull’occupazione:... ( ) L θ | Z, S obs , R obs , Y obs , X = R R Yiobs Yiobs 1−Yiobs i 1−Yiobs i γ γ 1 1 − + − π γ π γ ( ) ( ) ( ) ( ) GG:i 1,GG:i ∏ GN i GN i GN i 1,GG:i : 1, : 1, : i∈O (1,1) × ∏ {π NG:i + π NN :i } obs obs i∈O (1,0) Yi π GG:i (γ 0,GG:i ) i∈O (0,1) × ∏ {π GN :i + π NN :i } × ∏ obs (1 − γ ) 1−Yi 0,GG:i obs Riobs + π NG:i (γ 0, NG:i ) Yi obs (1 − γ ) 1−Yi 0, NG:i obs Riobs (11) i∈O (0,0) Il modello è basato sulle Assunzioni da 1 a 3 (SUTVA, non confondimento del trattamento e missing at random). Nella verosimiglianza (11) gli individui che non hanno risposto all’intervista (Riobs =0) non contribuiscono alla stima dei γ, ma contribuiscono comunque alla stima dei π. In generale, i π sono stimati a partire da tutti gli individui del campione, mentre l’informazione sui γ è fornita solo dagli individui che si sono laureati e che sono stati intervistati (15% del campione), per cui l’informazione per la stima dei γ è limitata. Come nella maggior parte delle attuali applicazioni dell’approccio degli strati principali, le variabili trattamento e intermedia sono entrambe binarie, originando quattro strati principali. Tuttavia, mentre in molti contesti è ragionevole assumere che certi strati siano vuoti (ad es. l’assunzione di assenza di defiers in un esperimento con noncompliance), nel contesto attuale tali assunzioni non sono plausibili alla luce della simmetria dei due trattamenti, per cui tutti gli strati in principio sono non vuoti. Questo livello di generalità comporta un notevole incremento della complessità del modello poiché, come risulta chiaro dalla verosimiglianza (11), ogni gruppo osservato O(k,h) è generato da una mistura di due distribuzioni che deve essere scomposta. Le probabilità degli strati principali π sono soggette ad alcuni vincoli poiché devono stare nell’intervallo [0,1] e la loro somma deve essere uguale a uno. Pertanto per modellare la dipendenza di tali probabilità dalle covariate è utile operare una trasformazione in un insieme di parametri non vincolati, usando la specificazione logistica multinomiale (dove NN è la categoria di riferimento): Modelli statistici per l’analisi della transizione Università-lavoro π GG:i = π exp(ηGG :i ) π π 1 + exp(ηGG:i ) + exp(ηGN :i ) + exp(η πNG:i ) π GN :i = π exp(ηGN :i ) π π π 1 + exp(ηGG:i ) + exp(ηGN :i ) + exp(η NG :i ) π NG:i 147 π exp(η NG :i ) = π π 1 + exp(ηGG:i ) + exp(ηGN :i ) + exp(η πNG:i ) π NN :i = 1 . π π 1 + exp(ηGG:i ) + exp(ηGN ) exp( + ) η :i NG:i π Per le probabilità della variabile risultato γ la trasformazione in un insieme di parametri non vincolati si può ottenere con specificazioni logistiche separate: γ 1,GG:i = 1 1 + exp(−η1,γ GG:i ) γ 0,GG:i = 1 1 + exp(−η0,γ GG:i ) γ 1,GN :i = 1 1 + exp(−η1,γ GN :i ) γ 0, NG:i = 1 . 1 + exp(−η0,γ NG:i ) Si assume poi che i parametri ηπ e ηγ dipendano linearmente dalle covariate. Nella versione più generale del modello ognuno di questi parametri ha il suo insieme distinto di coefficienti di regressione. Nell’applicazione corrente la versione più generale del modello è caratterizzata da una specificazione lineare non vincolata degli ηπ, π π π ηGG :i = α GG + β GG ' x i π π π ηGN :i = α GN + β GN ' x i (12) π π π η NG :i = α NG + β NG ' x i e da una particolare specificazione lineare degli ηγ, η1,γ GG:i = α1,γ GG + βγ ' xi η0,γ GG:i = α 0,γ GG + βγ ' xi η1,γ GN :i = α1,γ GN + βγ ' xi η0,γ NG:i = α 0,γ NG + βγ ' xi . (13) 148 L’effetto degli studi universitari sull’occupazione:... La specificazione degli ηγ è particolare perché assume che ogni covariata abbia lo stesso effetto in ogni strato principale e che l’effetto causale sulla scala logistica, α1,γ GG − α 0,γ GG , sia additivo, cioè lo stesso per tutti i valori delle covariate. Nella nostra applicazione questa specificazione sembra ragionevole. Altre specificazioni potrebbero essere adottate (Jo, 2002), ma nel caso presente la loro adozione è ostacolata dalla scarsità dell’informazione campionaria. L’identificazione del modello è possibile solo con un adeguato numero di covariate. Denotando con k il numero di covariate, il modello definito dalle espressioni (12) e (13) ha 3(k+1) parametri per i π e (4+k) parametri per i γ, per un totale di (7+4k) parametri. D’altra parte, se il trattamento e le k covariate sono tutte variabili binarie, allora ci sono 2(k+1) celle con al più due proporzioni campionarie, una per la variabile intermedia S e una per la variabile risultato Y, per cui il massimo numero di proporzioni campionarie è 2(k+2). È importante notare che alcune celle potrebbero essere completamente o parzialmente vuote, per cui il numero effettivo di proporzioni campionarie, e di conseguenza il numero di gradi di libertà, deve essere controllato caso per caso. Comunque sono necessarie almeno due covariate per rendere possibile l’identificazione. Nella nostra applicazione (k=5) il modello ha 27 parametri, mentre il trattamento e le cinque covariate danno luogo a 64 celle e 128 proporzioni campionarie teoriche. Poiché 3 celle sono completamente vuote e altre 23 celle hanno la risposta mancante solo per la variabile risultato, le proporzioni campionarie disponibili sono 99, ben oltre il numero di parametri. Tuttavia uno sguardo ai valori delle proporzioni campionarie fa prevedere dei problemi di stima legati all’alto numero di proporzioni campionarie uguali a zero oppure ad uno: infatti, su 61 proporzioni campionarie disponibili per la variabile intermedia, 19 sono zero e 1 è uno, mentre su 38 proporzioni campionarie disponibili per la variabile risultato, 5 sono zero e 3 sono uno. La stima di massima verosimiglianza è stata ottenuta per mezzo della procedura NLMIXED del SAS (SAS Institute, 1999). Come suggerito dal nome, tale procedura è designata alla stima di modelli non lineari misti e, in effetti, una delle componenti essenziali è l’algoritmo per l’integrazione numerica. Tuttavia la NLMIXED è anche una procedura generale di massimizzazione della verosimiglianza, poiché può gestire funzioni di verosimiglianza arbitrarie scritte dall’utente. Per la presente applicazione è sufficiente scrivere la verosimiglianza usando il linguaggio SAS e lanciare la procedura senza integrazione numerica. La procedura ha diversi algoritmi di massimizzazione, fra cui quello di default è di tipo quasi-Newton con aggiornamento BFGS (Broyden, Fletcher, Goldfarb e Shanno) del fattore di Cholesky della matrice hessiana approssimata. La verosimiglianza del modello più generale, cioè del modello definito dalle equazioni (12) e (13) senza ulteriori vincoli, è piuttosto piatta. Per affrontare un π π π compito così difficile alcuni dei valori iniziali (quelli di α GG ,α GN ,α NG ) sono stati Modelli statistici per l’analisi della transizione Università-lavoro 149 scelti attraverso una ricerca su griglia. Inoltre sono stati provati diversi algoritmi di stima: nonostante si ottenesse sempre la convergenza, gli algoritmi fornivano risultati sensibilmente diversi per un sottoinsieme di parametri legati ai π e caratterizzati da valori stimati molto negativi ed errori standard elevati. Questo significa che per certi valori delle covariate alcuni strati principali sono vuoti. In particolare, per l’individuo base, che è quello con la configurazione di covariate più frequente nel campione e caratterizzato dall’avere il valore zero in tutte le covariate, lo strato NG sembra vuoto, poiché il corrispondente valore sulla scala logistica multinomiale è -7.826 (errore standard 14.763). Pertanto, al fine di seguire una strategia di selezione del modello semplice e chiara, abbiamo ridefinito la codifica della covariata in modo da ottenere un nuova definizione dell’individuo base con probabilità sensibilmente diverse da zero in tutti gli strati. Questo obiettivo è stato conseguito semplicemente invertendo la codifica della covariata Iscritto con ritardo, che d’ora in avanti chiameremo Iscritto senza ritardo. I risultati della stima ottenuti con l’algoritmo di default e basati sulla nuova codifica sono riportati in Tabella 5 nella colonna denominata “Modello iniziale”. Sei dei β π stimati sono inferiori a –5, con errori standard enormi o non disponibili: ciò significa che quando la covariata passa da zero a uno il corrispondente strato principale scompare. In particolare, con l’eccezione di alcuni studenti iscritti con ritardo, lo strato NG risulta vuoto. Questo non è sorprendente, poiché la proporzione complessiva di laureati è modesta ed è minore per Zi =0, per cui lo strato NG (“Non laureato” se Zi =1 e “Laureato” se Zi =0) è necessariamente molto limitata. Anche lo strato GN contrapposto sembra essere vuoto in certi casi. La selezione del modello prosegue fissando a −∞ i suddetti β π e porta ai risultati mostrati in Tabella 5 nella colonna denominata “Modello finale”. La riduzione da 27 a 21 parametri comporta una riduzione irrilevante della devianza, mentre gli altri parametri ed errori standard sono sostanzialmente invariati. Alcuni dei β π sono non significativi ai livelli convenzionali, per cui il sottomodello degli strati principali potrebbe essere ulteriormente semplificato. Tuttavia la selezione del modello è stata arrestata a questo punto, poiché avere un sottomodello degli strati principali con pochi parametri non è un obiettivo di interesse sostanziale ed ha uno scarso effetto sulla precisione delle stime del sottomodello della variabile risultato. Nel sottomodello della variabile risultato i β γ non sono significativi ai livelli convenzionali, sebbene due di loro (Liceo e Iscrizione senza ritardo) abbiano valori elevati: servirebbero più dati per stabilire l’influenza delle covariate sulla variabile risultato. Nonostante ciò, l’oggetto principale dell’inferenza, cioè l’effetto causale su scala logistica, α1,γ GG − α 0,γ GG , ha una stima pari a 0.666 con errore standard 0.301, per cui è significativamente diverso da zero al livello 5%. 150 L’effetto degli studi universitari sull’occupazione:... Tabella 5. Stime dei parametri (ed errori standard) dell’analisi basata su modello Modello iniziale Modello finale Numero di parametri 27 21 Devianza (-2logL) 2231.8 2231.8 Sottomodello strati principali (π ’s) π α GG -4.403 (0.449) -4.402 (0.448) π α GN -2.644 (0.749) -2.647 (0.752) π α NG -3.207 (0.835) -3.206 (0.836) π βGG ,liceo 1.275 (0.157) 1.275 (0.157) π βGN ,liceo -5.757 (n.d.) -∞ π β NG ,liceo -15.041 (n.d.) -∞ π βGG ,votoalto 1.204 (0.146) 1.205 (0.146) π β GN , voto alto 1.113 (0.653) 1.113 (0.652) π β NG , voto alto -8.092 (114.022) -∞ π β GG ,iscrizione senza ritardo 2.024 (0.425) 2.023 (0.425) π βGN ,iscrizione senza ritardo -0.009 (0.792) -0.012 (0.788) π β NG ,iscrizione senza ritardo -8.140 (64.473) -∞ π βGG , femmina 0.117 (0.137) 0.117 (0.137) π βGN , femmina -0.617 (0.753) -0.622 (0.755) π β NG , femmina 0.988 (1.112) 0.991 (1.111) π βGG , Firenze 0.280 (0.144) 0.280 (0.144) π β GN , Firenze -13.499 (559.599) -∞ π β NG , Firenze -10.353 (533.855) -∞ Sottomodello risultato (γ ’s) γ α1,GG 1.262 (1.241) 1.257 (1.240) γ α0,NG -1.365 (1.568) -1.357 (1.561) γ α 0,GG 0.593 (1.185) 0.596 (1.185) γ α1,GN 0.498 (1.057) 0.484 (1.058) γ βliceo -0.410 (0.374) -0.405 (0.374) γ βvoto alto -0.035 (0.262) -0.036 (0.263) γ βiscrizione senza ritardo -0.933 (0.979) -0.932 (0.979) γ β femmina 0.072 (0.272) 0.070 (0.272) γ β Firenze 0.106 (0.333) 0.104 (0.333) γ γ Effetto causale α1,GG − α0,GG 0.664 (0.301) 0.666 (0.301) Modelli statistici per l’analisi della transizione Università-lavoro 151 Tabella 6. Probabilità stimate(%) per alcune configurazioni delle covariate Probabilità π GG:i π GN :i π NG:i π NN :i γ 1,GG:i γ 0,GG:i γ 1,GN:i γ 0, NG:i Effetto causale γ 1,GG:i − γ 0,GG:i 00000 00100 00110 00101 01100 10100 11100 11111 8.0 9.1 10.9 20.3 24.9 52.5 62.2 1.1 6.3 6.0 3.3 0.0 14.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 3.6 89.0 86.0 87.6 89.1 65.7 75.1 47.5 37.8 77.9 58.2 59.9 60.7 57.3 48.0 47.1 51.5 64.5 41.7 43.4 44.2 40.8 32.2 31.4 35.3 61.9 39.0 40.7 41.5 38.1 29.8 29.0 32.8 20.3 9.1 9.7 10.0 8.9 6.3 6.1 7.1 13.5 16.5 16.5 16.4 16.5 15.8 15.7 16.2 Nota: la configurazione ( x1, x2 , x3 , x4 , x5 ) sta per: Liceo = x1 ,Voto alto = x2 , Iscrizione senza ritardo = x3 , Femmina = x4 , Firenze = x5 . Per aiutare l’interpretazione dei risultati, la Tabella 6 riporta le probabilità stimate dal modello finale per alcune configurazioni delle covariate, con le configurazioni in ordine crescente di π GG:i . Le proporzioni stimate di studenti appartenenti al gruppo GG variano molto con le covariate, da un minimo dell’1.1% a un massimo del 62.2%. Inoltre, le proporzioni stimate di studenti appartenenti ai gruppi GN e NG (cioè studenti in grado di laurearsi in un solo corso di laurea) tendono a diminuire mano a mano che lo strato GG cresce, nonostante che lo strato NN diminuisca. Ad un estremo, l’individuo con tutte le covariate uguali a uno (una femmina residente a Firenze, proveniente da un liceo, con un voto elevato e iscrizione senza ritardo) ha un’alta probabilità di laurearsi (62.2%), interamente attribuita al gruppo GG; all’altro estremo, l’individuo di base (un maschio residente fuori Firenze, proveniente da un liceo, con voto basso e iscrizione con ritardo) ha una bassa probabilità di laurearsi in almeno uno dei due corsi di laurea (11.0%), attribuita principalmente ai gruppi GN e NG. Poiché la differenza tra i due corsi di laurea in termini di tassi di laurea è originata dai gruppi GN e NG, essendo π GN :i − π NG:i come spiegato nella Sezione 4, segue che i due corsi di laurea hanno un diverso effetto sulla probabilità di laurea solo per gli studenti che hanno un background debole. Le politiche di orientamento dovrebbero quindi essere indirizzate in modo particolare a questo tipo di studenti. Dall’analisi basata su modello sembra che l’assunzione di maggioranza relativa dello strato GG (Assunzione 4: π GG:i ≥ π NG:i + π GN :i ), usata nella costruzione dei limiti, valga in generale, con l’eccezione degli individui che si sono iscritti con ritardo. 152 L’effetto degli studi universitari sull’occupazione:... Guardando ora all’effetto sull’occupazione, ci sono alcuni risultati da sottolineare. Innanzitutto, l’assunzione di dominanza stocastica (Assunzione 5), usata per derivare alcuni dei limiti, sembra essere soddisfatta: infatti, condizionatamente alle covariate, gli studenti appartenenti ai gruppi GN e NG hanno una probabilità di essere occupati sempre inferiore a quella degli studenti del gruppo GG. Il livello della probabilità di occupazione varia molto con le covariate, oscillando tra 47.1% e 77.9% per i laureati in Economia, e tra 31.4% e 64.5% per i laureati in Scienze Politiche. L’effetto causale sull’occupazione per il gruppo GG, che si è ipotizzato costante sulla scala logistica per evitare problemi di identificazione, genera un differenziale pari a circa 15% nelle probabilità di occupazione. Naturalmente l’affidabilità e anche l’importanza sostanziale di tale differenziale dipende dall’ampiezza dello strato GG: ad esempio, l’effetto causale nello strato GG ha poca rilevanza per l’individuo base, che ha una probabilità di appena 1.1% di essere GG. 7. Conclusioni In questo lavoro abbiamo confrontato due corsi di laurea dell’Università di Firenze al fine di valutare la loro efficacia rispetto allo status occupazionale dopo la laurea. L’approccio degli strati principali all’inferenza causale è stato usato per definire un quadro concettuale per l’analisi di questo fenomeno, con una definizione precisa delle quantità di interesse. In questo quadro sono stati derivati dei limiti non parametrici per l’effetto causale di interesse: i limiti non parametrici permettono di restringere lo spettro delle possibili inferenze sulla base di un insieme minimo di assunzioni, la cui validità deve essere giudicata caso per caso. La successiva analisi basata su modello, condotta in un contesto frequentista, ha consentito di sfruttare in modo efficiente l’informazione insita nelle covariate, al costo di aggiungere alcune ulteriori assunzioni. La strategia di selezione del modello ha richiesto alcune accortezze per includere la possibilità che alcuni strati principali siano vuoti. Naturalmente, i risultati sono più informativi di quelli ottenuti per mezzo dei limiti non parametrici. In particolare, l’effetto causale per lo strato GG (ossia gli studenti in grado di laurearsi in entrambi i corsi di laurea) è positivo (ovvero in favore di Economia) e statisticamente significativo, rinforzando le impressioni ottenute con l’analisi non parametrica. Inoltre, il modello consente di approfondire l’analisi, poiché mostra come la struttura degli strati principali cambi con le covariate: questa informazione è cruciale per capire il processo di laurea ed anche per interpretare in modo consapevole l’effetto causale stimato (in quanto riferito ad uno specifico strato). Purtroppo, a causa della limitatezza dell’informazione campionaria sulla condizione occupazionale, molti parametri del sottomodello per la variabile risultato so- Modelli statistici per l’analisi della transizione Università-lavoro 153 no risultati non significativi; per questo motivo è risultato impossibile costruire un sottomodello più sofisticato per la variabile risultato. In alternativa, l’analisi basata su modello può essere sviluppata con metodi Bayesiani, che comportano diverse difficoltà (specificazione delle distribuzioni a priori, problemi computazionali), ma offrono alcuni vantaggi che divengono cruciali nel caso di modelli molto complessi, come in Barnard et al. (2003). Riferimenti bibliografici BARNARD J., FRANGAKIS C.E., HILL J.L. & RUBIN D.B. (2003) Principal Stratification Approach to Broken Randomized Experiments: A Case Study of School Choice Vouchers in New York City, Journal American Statistical Association, 98: 299-323. FRANKGAKIS C.E. & RUBIN D.B. (2002) Principal stratification in causal inference, Biometrics, 58: 21-29. IMBENS G.W. & RUBIN D.B. (1997) Bayesian inference for causal effects in randomized experiments with noncompliance, Annals of Statistics, 25: 305-327. JO B. (2002) Estimation of intervention effects with noncompliance: alternative model specifications, Journal of Educational and Behavioral Statistics, 27: 385-409. MEALLI F., IMBENS G.W., FERRO S. & BIGGERI A. (2004). Analyzing a randomized trial on breast self-examination with noncompliance and missing outcomes, Biostatistics, 5: 207-222. RUBIN D.B. (1974) Estimating causal effects of treatments in randomized and nonrandomized studies, Journal of Educational Psychology, 66: 668-701. SAS INSTITUTE (1999) SAS/STAT User’s Guide Version 8. SAS Institute Inc, Cary. ZHANG J. & RUBIN D.B. (2004) Estimation of causal effects when some outcomes are censored by death, In corso di stampa su Journal of Educational and Behavioral Statistics. 154 L’effetto degli studi universitari sull’occupazione:... The effect of university studies on job opportunities: an application of the principal strata approach to causal inference Summary. The paper shows how to evaluate the effectiveness of two degree programmes with respect to the employment status using the principal strata approach to causal inference. The application concerns the 1992’s cohort of freshmen of the University of Florence enrolled in the degree programmes of Economics and Political Science. The paper shows an innovative use of non parametric bounds in the principal strata framework, examining the role of some assumptions in reducing the uncertainty. The second phase of the analysis relies on a parametric model fitted by maximum likelihood. In that context we discuss some relevant modelling issues, sketching a general strategy for model building. Keywords: causal effects, effectiveness, potential outcomes, principal strata. Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione dei laureati nell’Università di Foggia 1 Corrado Crocetta*, Francesco d’Ovidio** *Dipartim. di Scienze Economiche, Matematiche e Statistiche - Università di Foggia **Dipartimento di Scienze Statistiche - Università di Bari Riassunto: Nel presente lavoro si intende effettuare uno studio sulle strategie utilizzate dai laureati dell’Università di Foggia per entrare nel mondo del lavoro. Usando variabili sia quantitative che qualitative, quantificate mediante tecniche di optimal scaling, è stato costruito un modello ad equazioni strutturali per analizzare le relazioni fra le variabili latenti legate alle esperienze effettuate durante gli anni universitari, alla preparazione, alle aspettative, alla flessibilità, alle modalità di ricerca del lavoro ecc.. Si è verificato inoltre che la struttura di correlazione di tali variabili latenti rimane invariata considerando separatamente i laureati e le laureate. Parole chiave: Laureati, Mercato del lavoro, Università di Foggia, Analisi fattoriale, Modelli ad equazioni strutturali, Optimal Scaling, CATPCA, LISREL. 1. Introduzione Con la presente nota si vuol fornire un contributo allo studio delle modalità di ingresso dei laureati nel mercato del lavoro. La nostra analisi, per motivi legati alla disponibilità dei dati, considera solo l’offerta di lavoro (tralasciando, quindi, la domanda da parte di imprese e istituzioni), per cui può apparire parziale ed incompleta; ma il nostro obiettivo non è la costruzione di un modello econometrico in grado di studiare le dinamiche del mercato del lavoro, bensì l’individuazione di alcune variabili (misurabili o latenti) che influiscono sul placement dei laureati e, di seguito, lo studio delle 1 Il presente lavoro è stato realizzato nell'ambito del progetto “Transizioni Università-Lavoro e valorizzazione delle competenze professionali dei laureati: modelli e metodi di analisi multidimensionale delle determinanti”, cofinanziato dal MIUR; coordinatore nazionale è Luigi Fabbris, coordinatore del gruppo di Bari è Francesco Delvecchio. Del lavoro, opera congiunta dei due autori, va attribuita a C. Crocetta la redazione finale dei paragrafi 1, 2, 4, 5 e 6, a F. d’Ovidio quella dei paragrafi 3 e 7. Gli autori desiderano, inoltre, ringraziare i referee per i loro preziosi suggerimenti migliorativi. 156 Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione… relazioni causali tra le variabili prese in considerazione, avendo come funzione obiettivo la situazione lavorativa (occupato/non occupato). Come è emerso da precedenti lavori (fra gli altri, Crocetta e d’Ovidio, 2004), molte delle informazioni comunemente rilevate nelle indagini possono essere considerate come proxy di variabili latenti, particolarmente utili per descrivere un fenomeno (non direttamente misurabile) come quello del comportamento dei laureati di fronte al problema della ricerca di un lavoro. Nel caso presente, dobbiamo gestire contestualmente sia variabili quantitative che variabili nominali non ordinabili. Per questo motivo viene utilizzata una procedura di Scaling Ottimale, nota con l’acronimo CATPCA (CATegorical Principal Component Analysis), in grado di determinare la quantificazione ottimale, nello spazio fattoriale, di tutte le variabili considerate (cfr., ad es., De Leeuw, 1984; Meulman and Heiser, 1999). Si conduce quindi una serie di analisi volte a verificare: 1) quali e quante siano le variabili latenti da considerare; 2) quali siano le relazioni esistenti tra dette variabili; 3) se, utilizzando tali variabili, sia possibile costruire un modello in grado di spiegare le cause dell’occupazione/non occupazione dei laureati; 4) valutare se vi siano altre variabili, non considerate nel modello elaborato, che concorrano, a spiegare il fenomeno occupazione; 5) se, considerando separatamente i due sottogruppi dei laureati e delle laureate, la struttura di correlazione fra le variabili latenti cambia in modo significativo. 2. L’indagine sui laureati dell’Università di Foggia Ai fini dell’analisi, i dati disponibili nell’archivio delle segreterie studenti dell’Ateneo di Foggia sono stati integrati con quelli raccolti attraverso interviste telefoniche effettuate, sulla base dell’intera popolazione di coloro che si sono laureati presso l’Ateneo di Foggia2 a partire dal 1994. Il questionario è articolato in quattro parti distinte, rispettivamente dedicate ai laureati che stanno già lavorando, a quelli che sono in cerca di occupazione, alle diverse esperienze formative effettuate o in corso e, infine, alla soddisfazione rispetto ai servizi ricevuti, con un giudizio sulla qualità della preparazione conseguita. 2 L’obiettivo di partenza era di riuscire a contattare tutti i 2.924 laureati del giovane Ateneo di Foggia a partire dall’istituzione delle diverse facoltà. Per ciascun laureato sono stati fatti sino a sette tentativi di contatto in fasce orarie diverse, prima di considerarlo irraggiungibile. Il questionario utilizzato per le interviste telefoniche era strutturato in modo che l’intervista avesse una durata di non oltre 10-15 minuti. Sono state realizzate ben 2.133 interviste valide, pari al 72,3% del totale. Modelli statistici per l’analisi della transizione Università-lavoro 157 Tabella 1. Intervistati laureati nelle Facoltà dell’Ateneo foggiano e percentuali di laureati occupati al momento dell’indagine, per triennio di laurea. Triennio di laurea 1994-96 1997-99 2000-02 Totale 1994-96 1997-99 2000-02 Totale Facoltà Lettere e Giurispru- Medicina e Economia Agraria Filosofia denza Chirurgia 43 6 50 219 40 333 16 526 42 9 778 71 788 88 9 1.161 87 Percentuali di occupati sul totale della coorte di laureati 93,0 100,0 84,0 77,2 77,5 72,7 37,5 48,3 40,5 11,1 24,4 15,5 58,8 61,4 11,1 40,8 19,5 Totale 99 608 1.426 2.133 88,9 73,7 33,2 47,3 Nella Tab. 1 sono riportati i dati relativi ai laureati intervistati, distinti secondo la loro situazione lavorativa al momento dell’indagine, per facoltà e periodo in cui si sono laureati. Da essa si evince che hanno dichiarato di svolgere un’attività lavorativa l’88,9% di coloro che si sono laureati presso l’Università di Foggia nel triennio 1994-96. In particolare, i 6 laureati in Agraria risultano tutti occupati, mentre vi sono alcuni laureati in Economia e in Giurisprudenza (rispettivamente 3 ed 8 persone) che dopo più di 8 anni dalla laurea non svolgono alcuna attività lavorativa3. Prendendo in considerazione gli individui laureati da 5 a 8 anni prima dell’indagine, si nota che la percentuale di quanti lavorano scende al 73,7%. I laureati in Agraria ed in Economia presentano un leggero vantaggio rispetto ai loro colleghi di Giurisprudenza nel trovare lavoro, mentre risultano occupati solo 6 dei 16 medici laureati nel periodo 1997-99. Se si considerano, infine, i laureati dal 2000 al 2003, si nota che la quota di occupati è poco meno di un terzo del totale, con significative differenze fra le diverse facoltà, presumibilmente legate alle loro differenti tempistiche di qualificazione post-laurea. Nel complesso, i laureati in Economia sembrano essere i più avvantaggiati nel trovare lavoro entro 3 anni dalla laurea (48,3%) rispetto ai loro colleghi di Agraria (40,5%), di Giurisprudenza (24,4%) e di Medicina e Chirurgia (15,5%). Queste ultime differenze si spiegano facilmente se si pensa agli sbocchi occupazionali offerti ai laureati delle diverse Facoltà ed alle diverse modalità di ingresso nel mercato del lavoro. Infatti, mentre per i laureati in Economia e Agraria vi sono diverse possibilità di chiamata diretta o di colloqui di selezione da parte di aziende private, per i laureati in Giurisprudenza è molto frequente il ritardo legato al tirocinio per l’Esame di Stato, 3 Va osservato che i 9 intervistati con laurea in Lettere e Filosofia (tutti nella sessione di giugno-luglio 2003) rappresentano l’intera popolazione dei laureati in questa Facoltà, essendo i primi dall’istituzione della Facoltà, e saranno esclusi dalle analisi successive, per via della loro esiguità numerica. 158 Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione… in quanto, oltre all’espletamento di pubblici concorsi, sbocco privilegiato di detti laureati è la libera professione. Per quanto riguarda la laurea in Medicina e Chirurgia, invece, è noto che spesso questa è solo un punto di partenza per l’ulteriore formazione specialistica, prima della quale per un medico è difficile, se non impossibile, intraprendere una qualche attività. A causa di tali peculiarità, che influiscono senz’altro sui tempi di accesso ad una occupazione, è opportuno nel seguito mantenere sempre la distinzione dei laureati per Facoltà. Non risultano, invece, esservi differenze significative nei tempi medi di inserimento lavorativo fra le successive coorti di laureati presso la stessa Facoltà. L’indicatore occupato/disoccupato, tuttavia, è piuttosto semplicistico, perché non tiene conto del tipo di occupazione e della sua stabilità. Per questo motivo è opportuno anche tener conto della distribuzione degli intervistati occupati secondo il tipo di occupazione (Tab. 2). All’aumentare del tempo trascorso dal conseguimento della laurea cresce il numero degli occupati stabili, ossia con un contratto di lavoro a tempo indeterminato. Questa situazione riguarda la totalità dei laureati da oltre 8 anni in Agraria, il 92,5% dei laureati in Economia e l’83,3% dei laureati in Giurisprudenza. Considerando invece i laureati nel periodo 1997-99, si nota che i dottori in Medicina e Chirurgia hanno il più alto tasso di occupazione stabile (83,3%) seguiti dai colleghi di Economia (75,6%) e Giurisprudenza (74,7%), mentre appena il 67,7% dei laureati in Agraria di Tabella 2. Distribuzione percentuale degli intervistati occupati laureati presso l’Università di Foggia, per triennio di laurea e Facoltà, secondo il tipo di occupazione. Facoltà Giuri- Medicina e Economia Agraria Situazione lavorativa Totale sprud. Chirurgia Laureati del triennio 1994-96 occupati Occupati stabili (a tempo pieno o part time) 92,5 100,0 83,3 88,6 Occupati a tempo determ. o in form. lavoro 5,0 9,5 6,8 Occupati saltuariamente o in altra situazione 2,5 7,1 4,5 Laureati del triennio 1997-99 occupati Occupati stabili (a tempo pieno o part time) 75,6 67,7 74,7 83,3 74,7 Occupati a tempo determ. o in form. lavoro 11,9 29,0 12,4 16,7 13,5 Occupati saltuariamente o in altra situazione 12,5 3,2 12,9 11,9 Laureati del triennio 2000-02 occupati Occupati stabili (a tempo pieno o part time) 61,2 58,8 56,1 70,0 59,3 Occupati a tempo determ. o in form. lavoro 27,2 41,2 30,2 30,0 28,9 Occupati saltuariamente o in altra situazione 11,6 13,8 11,8 Complesso dei laureati occupati Occupati stabili (a tempo pieno o part time) 69,2 68,5 68,0 75,0 68,7 Occupati a tempo determ. o in form. lavoro 19,7 29,6 19,3 25,0 20,1 Occupati saltuariamente o in altra situazione 11,1 1,9 12,7 11,2 Modelli statistici per l’analisi della transizione Università-lavoro 159 tale periodo è stabilmente occupato. Ottenere un lavoro stabile non è poi difficilissimo, anche per gli occupati che hanno conseguito la laurea da meno di 3 anni, visto che il 59,3% di questi ultimi si trova in tale condizione. Anche in questo caso i laureati in Medicina e Chirurgia (70,0%) presentano un leggero vantaggio rispetto ai laureati in Economia (61,2%), in Agraria (58,8%) ed in Giurisprudenza (56,1%), ma va considerato il numero esiguo di medici occupati. Fortunatamente l’incidenza dei laureati occupati a tempo determinato o in formazione-lavoro tende a diminuire con l’aumentare degli anni trascorsi dalla laurea. Un certo periodo di lavoro precario o di formazione-lavoro, tuttavia, sembra essere fisiologico, soprattutto per i laureati in Agraria (29,6%) ed in Medicina (25,0%). I laureati di queste due facoltà, al contrario dei loro colleghi di Economia e di Giurisprudenza, tendono a non accettare occupazioni di tipo occasionale o provvisorio. Presumibilmente, il fatto che i laureati delle due facoltà scientifiche non siano molto numerosi evita che, fra loro, vi siano quelle situazioni di concorrenza che spesso inducono ad accettare anche lavori di tipo occasionale o poco qualificanti. 3. Analisi delle componenti categoriali del modello Per poterci districare fra le numerose informazioni rilevate, abbiamo effettuato dapprima un’analisi critica e descrittiva del fenomeno individuando quelle variabili che sembravano essere più legate dal punto di vista logico e statistico al problema considerato. Per una ulteriore conferma in merito alla scelta delle variabili, è stato stimato, dopo una analisi loglineare (necessaria per individuare, fra le numerose informazioni disponibili, quelle maggiormente connesse all’oggetto dell’indagine), un modello logit avente, come variabile risposta, la posizione lavorativa dicotomizzata in occupati e non occupati. Tramite questo modello, sono state selezionate le variabili i cui coefficienti sono risultati significativi al livello del 5% anche per una sola modalità. Le variabili così selezionate sono le seguenti: Variabili quantitative ▪ Voto di laurea. ▪ Voto di maturità. ▪ Età al momento della laurea. ▪ Numero di anni trascorsi tra la maturità e l’immatricolazione. ▪ Numero di anni fuori corso. ▪ Numero di mesi trascorsi tra la laurea ed il primo impiego. ▪ Punteggio globalmente attribuito alla adeguatezza della preparazione ricevuta rispetto al lavoro svolto o cercato. Variabili nominali ▪ Facoltà. ▪ Tipo di maturità. ▪ Esperienze lavorative pre-laurea. ▪ Ramo di attività economica attualmente svolta o cercata. ▪ Posizione professionale attuale o cercata. ▪ Abilitazione all’esercizio della professione o all’insegnamento .▪ Modalità di ricerca del lavoro. ▪ Conoscenza prospettive post laurea (variabile nominale ordinabile). 160 Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione… Alcune variabili sono di tipo quantitativo (come, ad esempio, il punteggio, su scala 0-100, attribuito all’adeguatezza della formazione universitaria ricevuta) o misurate su scala ordinale, ma molte altre variabili sono di tipo dicotomico, come il conseguimento dell’abilitazione alla professione o all’insegnamento, o qualitative sconnesse, come la classificazione delle carenze riscontrate nelle competenze fornite nel corso della formazione universitaria. Dovendo utilizzare un modello LISREL per le successive analisi e poiché i modelli ad equazioni strutturali, a causa dell’assunzione di normalità delle variabili latenti4, non prevedono l’uso di variabili categoriali, si è resa necessaria una quantificazione delle variabili osservate tramite un metodo di Optimal Scaling. Data una popolazione di n soggetti descritta da un insieme di m variabili x1...xj....xm, l'Optimal Scaling è una procedura che, per ogni variabile xj perviene alla quantificazione categoriale ωj, che consente di applicare tecniche statistiche valide solo per dati quantitativi (virtualmente continui)5. I metodi O.S. si basano generalmente sulla minimizzazione di una loss function specificata ad hoc rispetto ai parametri di interesse (categorie) e si differenziano tra loro per la funzione obiettivo. Viene definito innanzitutto uno scalare gijh che assume il valore 1 oppure 0 a seconda che l'i-esimo individuo rientri o non rientri nella h-esima categoria della variabile xj; il vettore gjh è dato da tale scalare esteso a tutti gli individui in relazione alla categoria h di xj. Considerando tutte le categorie di xj, i vettori colonna gjh originano la matrice-indicatore Gj di dimensioni n×kj. Estendendo la procedura a tutte le m variabili categoriali otteniamo la matrice-indicatore completa o disgiuntiva completa G = [G1...Gj...Gm], di ordine n×K, ove K = ∑j kj . In tal modo, ogni variabile categoriale osservata viene specificata come prodotto di una matrice-indicatore (nota) e di un vettore ωj = [ωj1…ωjh...ωjkj]' di parametri di scaling che, una volta stimati (ω̂jh), originano le variabili quantitative ricercate: os xj = Gj ω̂ j o, equivalentemente, os xos xj j = kj ∑ g jh ω̂ jh (j=1, 2, ..., p) h=1 (ove l’apice “OS” indica la variabile “optimal scaled”). Estendendo la procedura a tutti gli n elementi della popolazione ed a tutte le variabili, si ottiene la matrice dei punteggi individuali “optimally scaled” osX=(osX1, osX2, …, osXm). 4 In tali casi, le stime dei parametri del modello LISREL con il metodo della massima verosimiglianza sono asintoticamente distorte, a causa della violazione dell’ipotesi di normalità delle variabili latenti e, implicitamente, delle variabili osservate (Browne, 1984). Tale problema viene parzialmente superato con l’uso di funzioni di perdita non parametriche, come WLS (minimi quadrati pesati), GLS (minimi quadrati generalizzati) ULS (minimi quadrati non pesati). Per una più esauriente disamina delle problematiche legate all’uso dei modelli ad equazioni strutturali in presenza di variabili osservate categoriali, ordinali o comunque per variabili latenti non normali, cfr., ad esempio, Lovaglio, 2000. 5 Le variabili xj e ωj sono definite con notazione vettoriale, le prime perché riferite agli n individui, le altre perché composte da kj categorie. Modelli statistici per l’analisi della transizione Università-lavoro 161 La stima dei vettori ωj avviene generalmente massimizzando una funzione obiettivo, con vincoli di identificazione, o, come si è detto, minimizzando una funzione di perdita. Per un approccio più coerente e concettualmente solido (cfr., ad es., Vittadini, 1999), è opportuno stimare simultaneamente le quantificazioni delle variabili categoriali ed i parametri del modello6, ottimizzando direttamente la funzione obiettivo oppure rispetto ai parametri di scaling ed al modello prescelto, come fanno i metodi ALSOS, acronimo di Alternative Least Squares Optimal Scaling (De Leeuw, Young and Takane, 1976; Young, Takane and De Leeuw, 1978). Fra le diverse procedure ALSOS disponibili, abbiamo utilizzato la CATPCA (CATegorical Principal Component Analysis), un algoritmo non parametrico utilizzante come metodo di quantificazione le componenti principali delle variabili trasformate, ottimizzate nello spazio fattoriale p-dimensionale (p≤m). (De Leeuw and Meulman, 1986; Meulman and Heiser, 1999) La procedura di ottimizzazione, nel caso più semplice (nessuna ponderazione per casi o variabili, niente variabili supplementari o multiple), stima in modo iterativo i parametri di scaling ωj minimizzando la funzione m σ (Y; Ω) = n −1 ∑ tr ( Y − G j Ω j )' M j ( Y − G j Ω j ) , [ ] j ove la matrice Mj è una matrice diagonale (di rango n×n) i cui elementi diagonali valgono 0 se l’i.ma osservazione è mancante, 1 altrimenti, mentre Y (d’ordine n×p) rappresenta le variabili riscalate in p dimensioni (punteggi fattoriali), con i vincoli di normalizzazione e di centratura (ponendo u vettore unità di dimensione n e M=∑j Mj): Y' M Y = n Ip, u' M Y = 0 . [1] L’algoritmo parte da una stima iniziale di Y che soddisfi tali vincoli (salvo diversamente specificato, numeri casuali standardizzati e centrati); i pesi fattoriali iniziali aj sono calcolati come prodotto incrociato fra Ŷ e le variabili originali (codifiche categoriali) centrate e riscalate: cxj = [In-Mjuu'/(u'Mju)] xj, con j= 1, 2, ..., m (De Leeuw, Young and Takane, 1976; Meulman and Heiser, 1999). Il primo passo dell’iterazione consiste, posta Dj = diag(G'jGj), nel calcolare Ω̂ j = Dj-1Gj' Ŷ . [2] Si ottengono così le prime quantificazioni di categoria7, che vengono poi ˆ ⊥j = ω ˆ j n (ω ˆ 'j D j ω ˆ j ) allo scopo di calcolare i nuovi pesi fatnormalizzate con ω ˆ ⊥j ) / n . Tramite la matrice normalizzata delle stime di scaling toriali: a j = (Ω'j D j ω 6 Come mostrato da vari autori (Bradley et al., 1962; Kruskal, 1965; de Leeuw et al., 1976), infatti, l’approccio adottato per lo scaling non è separabile dagli scopi della ricerca, cosicché la quantificazione va ottenuta all’interno di un modello statistico specificato a priori. 7 Se si tratta di variabili categoriali, si usano direttamente i pesi fattoriali: ω̂ j = Ω̂ j aj; se le variabili originarie sono ordinali, le ω̂ j sono ottenute tramite una regressione monotona delle Ω̂ j aj ponderata con gli elementi diagonali di Dj, mentre se sono numeriche viene utilizzata una regressione lineare ponderata. 162 Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione… ˆ ⊥ =ω ˆ ⊥j a'j si può ora calcolare la matrice Ŷ = [In-Muu'/(u'Mu)] (∑ MjGj Ω̂ ⊥j ). DoΩ j po la verifica della convergenza della funzione obiettivo al minimo, si procede a chiudere il ciclo oppure a riprendere l’algoritmo, dopo aver ortogonalizzato Ŷ tramite Singular Value Decomposition (cfr., ad es., Delvecchio 1992), ripartendo dalla [2]. Le stime ω̂ j relative all’ultima iterazione costituiscono, finalmente, le quantificazioni cercate delle varie categorie, tramite cui calcolare le variabili osx. Prima di eseguire la procedura di scaling, per facilitare l’interpretazione dei risultati, le singole modalità delle variabili categoriali sconnesse sono state disposte in ordine non decrescente rispetto alla percentuale di occupati. Il risultato di tale operazione è mostrato in Tab. 3. Tabella 3. Distribuzione percentuale degli intervistati secondo la condizione lavorativa, in base ad alcune loro caratteristiche*. Condizione lavorativa Condizione lavorativa Caratteristiche Non occupato Occupato Caratteristiche Non occupato Occupato Facoltà di laurea Ramo di attività attuale o cercato Medicina e Chirurgia 80,4 19,6 n.d. 85,0 15,0 Giurisprudenza 59,4 40,6 Pubbl. Amministrazione 64,9 35,1 Economia 42,3 57,7 Industria 64,1 35,9 Agraria 39,6 60,4 Commercio 46,8 53,2 Tipo di diploma superiore Agricoltura 29,3 70,7 Linguistico 90,9 9,1 Altro settore 28,2 71,8 Altro diploma 71,4 28,6 Servizi 26,0 74,0 Classico 60,4 39,6 Posizione professionale attuale/cercata Scientifico 55,2 44,8 n.d. 98,1 1,9 Magistrale 51,6 48,4 Libero professionista. 61,5 38,5 Tecnico Commerciale 50,3 49,7 Imprenditore 50,0 50,0 Professionale 48,7 51,3 Impiegato/Dirigente 41,0 59,0 Tecnico Geometri 33,3 66,7 Lavoratore autonomo 35,0 65,0 Conoscenza prospettive post-laurea (ordinale) Altra posizione 14,5 85,5 Sì, abbastanza bene 49,3 50,7 Docente/ricercercatore 11,3 88,7 Sì, in modo generico 59,9 41,1 Modalità di ricerca lavoro No 48,4 51,6 n.d. 92,0 8,0 Lavoro prima della laurea Giornali/Internet 86,3 13,7 Mai lavorato in preced. 56,5 43,5 Agenzie specializzate 80,9 19,1 Ha lavorato in preced. 48,1 51,9 Ufficio territor. impiego 79,7 20,3 Abilitazione professionale/insegnamento Invio curriculum 40,1 59,9 Non abilitato 60,0 40,0 Concorsi/selezioni 36,8 63,2 Abilitato 31,5 68,5 Contatti personali 29,0 71,0 Altre modalità di ricerca 13,6 86,4 Segnalazioni 9,8 90,2 Chiamate dirette 100,0 In complesso 53,0 47,0 * Le percentuali di occupati/non occupati complessive non corrispondono a quelle della Tab 1 in quanto riferite ai soli 2.084 intervistati delle Facoltà considerate che hanno fornito coerente risposta alle domande. Modelli statistici per l’analisi della transizione Università-lavoro 163 La procedura di scaling ottimale ha permesso, in conclusione, di quantificare ogni modalità qualitativa, nello spazio vettoriale definito da queste e dall’insieme delle variabili quantitative, ottimizzando il risultato ai fini della spiegazione della varianza originaria da parte delle prime componenti principali. Come si evince dalla Tab. 4, soltanto cinque componenti fanno rilevare autovalori maggiori dell’unità, e risultano quindi più significative delle variabili originarie che le compongono; ognuna di esse spiega oltre il 7% della variabilità complessiva e tutte insieme giungono a spiegarne il 56% (che è la quota di variabilità spiegata più bassa che è qui opportuno prendere in considerazione). Per la migliore definizione ed identificazione delle variabili latenti, o fattori, si è proceduto ad una rotazione degli assi fattoriali, con metodo Varimax. Il primo fattore, nello spazio fattoriale ruotato, spiega da solo il 15,1% della variabilità, mentre il quarto ed il quinto fattore, singolarmente, spiegano circa l’8% della variabilità. Proviamo ora ad identificare queste cinque variabili latenti con l’ausilio della Tab. 5, in cui sono riportati i coefficienti fattoriali maggiori di 0,33 in valore assoluto. Il primo fattore è correlato con il voto di laurea e di maturità, mentre presenta una correlazione opposta con l’età alla laurea ed il numero di anni fuori corso al momento della laurea. In pratica, il primo fattore viene influenzato direttamente dalle valutazioni ricevute dall’intervistato, inversamente dal numero di anni impiegati per conseguire la laurea. Il primo fattore può essere quindi identificato con la preparaTabella 4. Varianza spiegata dalle componenti principali e dai fattori ruotati*. Pesi delle componenti non ruotate Pesi dei fattori ruotati % varianza % varianza Componenti Autovalori % di varianza Autovalori % di varianza cumulata cumulata 1 2,55 17,0 17,0 2,28 15,2 15,2 2 1,94 12,9 30,0 1,89 12,6 27,8 3 1,68 11,2 41,2 1,81 12,1 39,9 4 1,13 7,5 48,7 1,25 8,3 48,2 5 1,10 7,3 56,0 1,17 7,8 56,0 6 0,98 6,5 62,6 7 0,91 6,1 68,7 8 0,83 5,5 74,2 9 0,71 4,8 78,9 10 0,71 4,7 83,7 11 0,66 4,4 88,0 12 0,58 3,9 91,9 13 0,46 3,1 95,0 14 0,41 2,8 97,7 15 0,34 2,3 100,0 * Estrazione con Analisi delle componenti principali. Rotazione con Metodo Varimax. 164 Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione… Tabella 5. Coefficienti ottenuti con l’analisi fattoriale delle variabili optimally scaled tramite CATPCA per gli intervistati laureati nelle Facoltà dell’Ateneo foggiano. ComuComponente Variabili nalità 1 2 3 4 5 Età alla laurea 0,70 -0,70 -0,44 Anni trascorsi fra laurea e primo lavoro 0,65 0,75 Abilitazione a professione/insegnamento 0,64 0,67 -0,37 N. di anni fuori corso 0,63 -0,68 -0,34 Voto di laurea 0,62 0,77 Anni di sospensione fra diploma e immatricolaz. 0,60 -0,73 Conoscenza prospettive post-laurea 0,59 0,77 Posizione professionale attuale/cercata 0,55 0,71 Modalità di ricerca lavoro 0,55 0,66 Voto di maturità 0,54 0,70 Ramo di attività attuale/ricercato 0,53 0,50 0,45 Lavoro prima della laurea 0,53 -0,68 Facoltà 0,52 0,67 Tipo di diploma 0,43 0,52 Punteggio adeguatezza preparazione universitaria 0,34 -0,47 zione dei laureati e con il tempo utilizzato per completare il percorso di studio, ovvero con il curriculum formativo dei laureati intervistati. Il secondo fattore è molto legato agli anni trascorsi tra laurea e primo lavoro, al possesso di una abilitazione professionale o all’insegnamento, alle modalità di ricerca del lavoro; in modo meno rilevante, è legato anche al ramo di attività economica in cui si è trovato oppure cercato lavoro. Tutte queste variabili hanno in comune il fatto di essere connesse ad azioni intraprese dopo il conseguimento della laurea, per cui detto fattore può essere denominato attività post-laurea. Il terzo fattore, invece, risulta connesso direttamente con la posizione professionale conseguita o cercata, con la facoltà ed il tipo di diploma, e, in misura inferiore, con il ramo di attività. Risulta, quindi, fortemente influenzato dall’iter formativo seguito, ma anche dall’orientamento in campo lavorativo, per cui si è ritenuto opportuno denominarlo orientamento formativo-professionale. Il quarto fattore è correlato in misura cospicua con la conoscenza, al momento dell’immatricolazione, delle prospettive post laurea del corso di studi scelto, ma anche, nel senso opposto, con il fatto che l’intervistato svolgesse o meno una attività lavorativa prima di laurearsi8. Per questo motivo abbiamo pensato di denominarlo progetto lavorativo. 8 Invero, come altrove verificato (cfr. Crocetta, d’Ovidio, 2003), l’aver svolto una attività lavorativa durante gli anni universitari aiuta molto nella ricerca del lavoro; nel caso in cui si trattasse di lavoro precedente all’iscrizione universitaria, tuttavia, si tenderà spesso a mantenere il posto di lavoro, tentando eventualmente di procedere nella carriera, ma senza sperimentare nuove strade. Modelli statistici per l’analisi della transizione Università-lavoro 165 Il quinto fattore è molto legato al numero di anni trascorsi fra il conseguimento della maturità e l’immatricolazione ed, in minor misura, all’età dell’intervistato al momento della laurea ed al punteggio attribuito all’adeguatezza degli studi compiuti rispetto all’attività lavorativa. È noto che gli studenti che si iscrivono all’università a distanza di tempo dal conseguimento della maturità hanno minori probabilità di conseguire la laurea in tempi brevi e che, comunque, il fattore età è importante per l’ottenimento del primo impiego (si pensi, ad esempio, ai numerosi bandi di concorso che prevedono un limite di età, nonché agli incentivi previsti in favore delle aziende che assumono lavoratori al disotto di un certa età). Una eventuale difficoltà nell’accedere ad un lavoro adatto alle proprie aspettative può, in costoro, influenzare la valutazione sull’adeguatezza della preparazione universitaria conseguita. Per questo motivo si è pensato di denominare detto fattore discontinuità negli studi. I cinque fattori latenti sopra descritti sono stati il punto di partenza per la costruzione di un modello LISREL, che ha consentito di evidenziare le relazioni causali esistenti fra le variabili rilevate ed i fattori latenti e, soprattutto, fra questi ultimi. 4. I modelli con equazioni strutturali I modelli LISREL rientrano nella categoria dei modelli con equazioni strutturali e sono molto utilizzati nello studio delle scienze sociali, in quanto utili per individuare l’azione di variabili latenti, non osservabili in modo diretto, su un determinato fenomeno: tipicamente, comportamenti, scelte, opinioni . Di solito i sistemi di equazioni strutturali vengono costruiti da relazioni molto semplici, aggiungendo di volta in volta variabili per rendere sempre più realistico il modello. Uno degli scopi per cui si costruiscono detti modelli è lo studio delle relazioni di causa-effetto del sistema studiato. Utilizzando la Path Analysis (Wright, 1934) è possibile rappresentazione del modello tramite diagrammi di flusso in cui le variabili rilevate sono rappresentate mediante rettangoli, mentre le variabili latenti e le componenti erratiche sono racchiuse in forme ellittiche. Tali figure geometriche possono essere collegate con delle frecce indicanti l’esistenza di una relazione9. Si distinguono i modelli di misurazione, che servono ad identificare e misurare le variabili latenti tramite le variabili osservate, dai modelli strutturali, che spiegano le relazioni causali tra le variabili latenti. Queste ultime possono essere di tipo “esogeno” se sono variabili di tipo esplicativo o “endogeno” se possono essere inter9 Per le relazioni di dipendenza il carattere antecedente è quello rappresentato nella figura da cui parte la freccia, mentre quello conseguente è quello indicato nel riquadro ove è puntata la freccia. Le relazioni di interdipendenza, invece, sono rappresentate con archi di circonferenza aventi frecce ad entrambe le estremità. 166 Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione… pretate anche come variabili risposta. Il modello LISREL (cfr., ad es., Jöreskog, 1973, 1977; Wiley, 1973; Bollen, 1989) è definito come η=Βη+Γξ+ζ, con le equazioni di misurazione date da x = Λx ξ + δ e y= Λy η + ε . In detto modello, le quantità ξ e η sono, rispettivamente, le variabili causa ed effetto e di solito sono variabili latenti, non direttamente osservabili. Le quantità x e y, che invece possono essere osservate e misurate, sono variabili legate linearmente a ξ e η attraverso le matrici dei pesi fattoriali Λx e Λy ; Γ è la matrice dei coefficienti della variabile causa nella relazione strutturale, ζ è il vettore dei disturbi casuali nella relazione strutturale tra η e ξ, mentre δ e ε sono i vettori degli errori di misurazione, rispettivamente, di x e di y. Inoltre ζ, ε e δ sono incorrelati fra loro, ζ è incorrelato con ξ, ε è incorrelato con η e δ è incorrelato con ξ. Si hanno, poi, le seguenti posizioni: E(ζ) = E(ε) = E(δ) = E(ξ) = E(η) = 0 , Cov(ζ) = Ψ , Cov(ε) = Θε , Cov(δ) = Θδ , Cov(ξ) = Φ , ove Φ è la matrice k×k di covarianza dei fattori latenti e Θ sono matrici diagonali di sole varianze. Per la stima dei coefficienti e delle matrici di varianze e covarianze si possono usare varie tecniche. Gli stimatori più spesso utilizzati sono quelli di massima verosimiglianza proposti da Jöreskog (1973) e dei minimi quadrati generalizzati FGLS (Jöreskog e Goldberger, 1975; Browne, 1974). Detti stimatori sono efficienti, consistenti ed invarianti (non dipendendo né dalla scala delle variabili osservate né dalla loro origine). Nel caso presente abbiamo utilizzato stimatori GLS perché più robusti quando non sia presumibile che la distribuzione delle variabili latenti sia normale (Browne, 1984)10. I modelli LISREL possono essere utilizzati per analizzare contemporaneamente i dati provenienti da più sottogruppi consentendo quindi di effettuare confronti con gruppi di controllo o con gruppi sottoposti a trattamenti differenti. Tali analisi sono molto utili per determinare se la struttura del modello LISREL varia al variare dei diversi sottogruppi considerati. È possibile imporre vincoli su alcuni o su tutti i parametri considerati, in modo che siano uguali fra tutti i gruppi. Se vogliamo effettuare un confronto fra due sottopopolazioni, per poter stimare ciascun gruppo separatamente è necessario che non vi siano vincoli; se invece i dati devono essere analizzati simultaneamente, per poter avere delle stime efficienti vanno imposti vincoli incrociati fra i gruppi (cfr., ad es., Bollen, 1989; Kline, 1998; Civardi e Zavarrone, 2000, 2002). 10 La quantificazione di ogni variabile categoriale, ottenuta con la procedura di Optimal Scaling, è riferita ad un numero limitato di modalità per cui è sconsigliabile assumere l’ipotesi di normalità delle variabili latenti. Modelli statistici per l’analisi della transizione Università-lavoro 167 La prima cosa da fare è verificare se le matrici di covarianza o di correlazione delle variabili osservate sono uguali per i due gruppi considerati. Per verificare l’uguaglianza delle matrici di correlazione di x, si deve imporre che Θi;δ = 0 e che le Λi;x siano matrici diagonali delle deviazioni standard di x, dove i=1, 2 indica il sottogruppo e 0 è un matrice nulla. Testare l’ipotesi di uguaglianza tra le matrici di correlazione equivale a verificare che Ψ1 = Ψ2, con Ψi matrici di correlazione tra i fattori latenti. Se si rifiuta l’ipotesi di invarianza del modello senza alcuna restrizione si possono imporre dei vincoli via via più restrittivi per verificare le cause della mancata equivalenza. Si può innanzitutto testare l’ipotesi di invarianza dei pesi fattoriali iniziali per il modello di misura in ciascuno dei 2 gruppi considerati, oppure, nel caso in cui tale ipotesi non sia accettabile, si può testare la prima ipotesi classica sul modello strutturale, che prevede l’invarianza dei pesi fattoriali tra i gruppi. In caso di rifiuto delle ipotesi precedenti si può testare la seconda ipotesi classica del modello strutturale, ossia l’invarianza della covarianza dei fattori unici e dei pesi fattoriali. La terza ipotesi classica prevede, invece, il test di invarianza delle covarianze dei fattori unici e delle varianze dei fattori comuni e dei pesi fattoriali. Volendo rendere ancora meno rigide le ipotesi, si può utilizzare la prima ipotesi aggiuntiva del modello strutturale, che prevede matrici di covarianza dei fattori unici invarianti e simmetriche con alcuni elementi uguali. Infine si può testare il caso con più vincoli, in cui le matrici di covarianza dei fattori unici sono invarianti e simmetriche con alcuni elementi uguali a zero. Questo caso è noto in letteratura come seconda ipotesi aggiuntiva del modello strutturale. 5. Un modello strutturale per la valutazione della modalità lavorativa dei laureati Utilizzando i risultati discussi nel paragrafo 3, è stato costruito, per passi successivi, un modello LISREL per spiegare in un’ottica di placement le diverse variabili latenti evidenziate dall’analisi fattoriale realizzata sulle variabili sottoposte all’optimal scaling. Ovviamente detti risultati rappresentano solo il punto di partenza dell’analisi, in quanto per poter ottenere un modello con stime convergenti è stato necessario apportare piccole modifiche. Come si evince dalla Fig. 1, le variabili latenti utilizzate corrispondono ai fattori individuati tramite l’analisi fattoriale con la sola eccezione della variabile discontinuità degli studi, la cui importanza è stata ridimensionata avendo considerato le relazioni fra le variabili latenti (esogene ed endogene). Le variabili di partenza, invece, sono sempre quelle ottenute dalla quantificazione effettuata con la procedura di optimal scaling. 168 Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione… Figura 1. Modello LISREL per la descrizione della modalità lavorativa dei laureati presso l’Università di Foggia. e2 1 0,49 1 e7 ,32 ,20 e13 -,23 ,95 ,45 e9 ,22 e10 ,17 -,24 e6 e4 Tempo laurea-lavoro ζe2 ,95 1 1 Ramo di attività Attività post-laurea ,42 1 Abilitazione 1 ,28 Posizione professionale ,25 ,20 1 Modal.ricerca lavoro 1 ,39 Età alla laurea 1 Anni f.c. Percorso form./prof. ,73 ,39 1 ,47 -,35 e1 ,27 -,33 e11 ,13 e3 ,38 e5 e8 ,16 e16 e14 e15 1 Facoltà -,78 1 Diploma di maturità -,70 1 Voto di laurea ,431 Voto di maturità 1 1 1 1 ,38 Curriculum formativo 1 -,35 Irregolarità degli studi ζ1 ec ,10 Adeguatezza preparazione Lavoro pre-laurea 1 Conoscenza prospettive ,32 -,69 1 Progetto lavorativo ,29 Il modello risultante dalla presente analisi11 è configurato come una vera rete di relazioni ed è particolarmente complesso; perciò considereremo prima le principali correlazioni tra le variabili osservate inserite nel modello, per poi analizzare le singole componenti, iniziando dalle relazioni fra le variabili rilevate e le variabili latenti. 11 Per la quale si è fatto riferimento sia alle risultanze dell’analisi esplorativa, sia alle relazioni suggerite dai modification indices forniti dal programma. Modelli statistici per l’analisi della transizione Università-lavoro 169 In un secondo momento ci soffermeremo sulle relazioni causali individuate tra queste ultime. Fra le variabili osservate, quelle maggiormente correlate fra loro sono l’età alla laurea ed il tempo trascorso fra laurea ed primo lavoro (r=0,95); quest’ultima variabile è connessa anche al ramo di attività in cui il laureato cerca o trova lavoro (r=0,49) ed all’irregolarità negli studi (r=0,41). È interessante anche la relazione fra il voto di laurea ed il voto di maturità (r=0,38), nonché la correlazione fra il tipo di maturità conseguita e il tempo fra laurea e primo lavoro (r=0,35). Le altre correlazioni considerate sono inferiori a 0,33 in valore assoluto, sono tutte significative e vanno mantenute nel modello per consentirne la convergenza o per migliorarne l’adattamento. I pesi di regressione standardizzati riportati in figura mostrano il senso e l’intensità delle relazioni fra le variabili latenti e quelle rilevate. Tali relazioni sono leggermente diverse da quelle rivenienti dall’analisi esplorativa, a causa delle relazioni causali ipotizzate fra le variabili latenti e del mutamento di struttura dei fattori medesimi. La prima componente trovata nel corso dell’analisi fattoriale era stata denominata curriculum formativo poiché correlata al voto di laurea ed al voto di maturità, ed in modo opposto all’età alla laurea e al numero di anni fuori corso; nel modello strutturale mantiene le stesse relazioni, a cui però si aggiunge una leggera connessione con la valutazione espressa sull’adeguatezza della preparazione universitaria e con l’irregolarità degli studi. Questa variabile latente è influenzata dal progetto lavorativo del laureato e, a sua volta, influenza le attività post-laurea. La variabile latente percorso formativo-professionale viene misurata principalmente attraverso la Facoltà di appartenenza (con un peso di regressione pari a 0,73), mentre meno rilevante è il legame con il tipo di diploma di maturità, con la posizione professionale acquisita o cercata ed il ramo di attività della stessa. Il fattore progetto lavorativo presenta un peso di regressione standardizzato positivo per il fattore conoscenza delle prospettive post laurea ed uno negativo (0,69) per quanto riguarda il lavoro pre–laurea. Ha, inoltre, un’influenza non trascurabile (0,32) sulla variabile non osservata curriculum formativo. Il fattore attività post laurea influenza tre variabili osservate: il tempo trascorso fra il conseguimento della laurea e l’inizio dell’attività lavorativa (0,95), il possesso di una abilitazione all’insegnamento o all’esercizio di una professione (0,42) e, in misura minore ma ancora sensibile, le modalità di ricerca del lavoro12. A sua volta è influenzato direttamente dai fattori curriculum formativo (0,47) e percorso formativo-professionale (0,25) ed è quindi una variabile esogena del nostro modello. 12 Rispetto all’analisi fattoriale esplorativa, mancano il ramo di attività, che qui effettivamente risulta avere una relazione più affidabile con il percorso formativo-professionale, e il numero di anni fuori corso. 170 Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione… In definitiva, l’occupabilità dei laureati di foggia risulta essere fortemente influenzata dalle attività poste in essere dopo la laurea, dal curriculum formativo e dalle esperienze lavorative maturate. Ovviamente lo scopo di tale modello è di ottenere una rappresentazione semplificata della realtà, in cui siano evidenziate le relazioni principali fra i diversi fattori e rappresenta il punto di partenza per una serie di analisi più approfondite. Infatti, se si volessero ottenere delle stime attendibili sui tassi di occupazione o sulle probabilità di ingresso nel mondo del lavoro di laureati con determinate caratteristiche, si dovrebbero utilizzare metodologie più sofisticate e sarebbero necessarie informazioni più dettagliate. Il modello ottenuto ha un buon adattamento, come indicato dalle statistiche riportate nella Tab. 6. L’indice ECVI (dato dal rapporto fra il criterio informativo di Akaike ed il numero di gradi di libertà) è molto più vicino al valore minimo relativo al modello saturo (0,12) che non a quello di indipendenza (1,21), indicando che l’indice di discrepanza è piuttosto basso. Il goodness of fit index (GFI) è dato dal complemento ad 1 del rapporto fra il minimo della funzione di discrepanza fra il modello ed il campione, nell’ipotesi che la variabilità dei gruppi sia nulla. Tale indice varia fra 0 e 1, ove il valore 1 indica il caso di adattamento perfetto. Il presente modello risulta quindi vicinissimo al massimo adattamento. Il test AGFI (adjusted goodness of fit test) verifica l’adattamento del modello tenendo conto dei gradi di libertà disponibili per testare il modello; nel nostro caso, il valor 0,95 è molto vicino al valore 1, che indica un adattamento perfetto. L’indice RMR (root mean square residual) è dato dalla radice quadrata della media degli scarti al quadrato fra la varianza campionaria e la sua stima ottenuta sotto l’ipotesi che il modello sia corretto. Ovviamente, quanto minore è tale indice tanto Tabella 6. Indici di adattamento del modello LISREL per la modalità lavorativa dei laureati presso l’Università di Foggia. Modelli Indici di adattamento Stimato Saturo di indipendenza ECVI (Expected Cross-Validation Index) 0,26 0,12 1,21 GFI (Goodness of Fit Index) 0,97 1,00 0,84 AGFI (Adjusted Goodness of Fit Index) 0,95 0,82 RMR (Root Mean Square Residual) 0,06 0,00 0,21 RMSEA (Root Mean Square error of Approximation) 0,05 0,11 CMIN (Minimum value of discrepancy) 450,70 2494,50 Gradi di libertà 72 105 N critico di HOELTER (α=0,05) 429 109 Modelli statistici per l’analisi della transizione Università-lavoro 171 migliore è l’adattamento. Nel nostro caso, anche RMR è molto più vicino al valore del modello saturo (0) di quanto lo sia al modello di indipendenza (0,21). L’indice RMSEA non tiene conto della complessità del modello e quindi favorisce l’utilizzo di modelli più complessi, ma di regola un indice RMSEA pari o inferiore a 0,05 indica un buon accostamento dei dati al modello. Nel caso presente l’accostamento risulta molto buono (RMSEA=0,05). Il valore dell’indice di discrepanza CMIN è statisticamente significativo e la statistica N di Hoelter (1983), per un livello di significatività del 5%, è notevolmente maggiore della soglia critica raccomandata dall’autore (N=200), mentre per il modello di indipendenza tale statistica risulta molto inferiore al livello consigliato. In conclusione, il modello elaborato appare ben rappresentare le relazioni esistenti nel sistema. 6. Un modello strutturale di invarianza fra i sessi Una variabile che sembra spesso influire in modo considerevole sulle possibilità occupazionali dei laureati meridionali, nella fattispecie dei laureati dell’Università di Foggia, è il genere. All’interno del gruppo di laureati da noi analizzato, in effetti, lavora il 54,3 % dei maschi ed il 41,8% delle laureate13. Il genere non può essere considerato, di per sé, come uno dei fattori determinanti l’occupazione ma è connesso ad una serie di ostacoli di tipo socio-economico che di fatto rendono più difficile l’ingresso nel mondo del lavoro delle donne, rispetto agli uomini. Il sesso appare, quindi, una proxy di fattori frenanti, come una minor possibilità di accettare o vedersi affidare ruoli di responsabilità, che richiedono un impegno totalizzante, oppure frequenti spostamenti e cambi di residenza, implicando anche una maggiore discontinuità dovuta ad assenze per motivi familiari (gravidanze, malattie infantili, ecc.). In tale accezione, il genere influenza gli studenti universitari persino nella scelta del percorso formativo e della sede universitaria: vi sono facoltà, come quella di Lettere e Filosofia, con un tasso di mascolinità decisamente basso che testimonia una minor propensione dei maschi verso gli sbocchi occupazionali offerti da questo percorso di studi. Un altro aspetto legato in qualche modo al sesso è la sede di iscrizione: da alcune indagini precedenti (Antonucci, Crocetta e Meccariello, 2002) è emersa una 13 Si tenga conto che, in una analisi di segmentazione in tema di placement occupazionale dei laureati di Foggia (Crocetta, d’Ovidio, 2003), detta variabile appariva, in un ramo dell’albero di classificazione, già al terzo livello, descrivendo appunto una situazione di maggior occupazione maschile. Tale situazione può essere ascritta, tuttavia, all’interazione della variabile “genere” con altre variabili. 172 Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione… maggiore propensione delle donne a scegliere la sede universitaria più vicina al comune di residenza. Per questi motivi abbiamo deciso di verificare se il modello LISREL, definito nel paragrafo precedente, è invariante rispetto al genere. L’applicazione della medesima struttura dei due gruppi di maschi e femmine ha prodotto immediatamente la convergenza del modello. La prima ipotesi sottoposta a test prevede l’invarianza della struttura di correlazione tra i modelli stimati utilizzando separatamente i dati rilevati per i laureati (41,7% del campione) e quelli per le laureate (58,3%): ciò equivale a non porre alcun vincolo ad esclusione di quelli di base (Θi;δ = 0; Λi;x = Ip; Φ matrice con tutti gli elementi della diagonale principale φj,h=1). Verificando questa ipotesi mediante il valore minimo della funzione di discrepanza, che, com’è noto, si distribuisce come un χ2, si rileva un valore di CMIN pari a 44,1 con 11 g.d.l., che corrisponde ad un p-value<0,0001: l’ipotesi di invarianza delle strutture di correlazione (ossia del modello di misura) va pertanto respinta. Si deve passare pertanto a verificare l’ipotesi di invarianza dei pesi fattoriali iniziali, ed in questo caso l’indice di discrepanza è CMIN=5,6 con 3 g.d.l. (p=0,134), per cui può essere accettata l’ipotesi di invarianza del modello strutturale. Facendo riferimento agli indici di adattamento della Tab. 7, riferiti ai due modelli stimati congiuntamente ed indicati con la locuzione “modello di invarianza”, appare evidente che l’adattamento rispetto al modello saturo non è peggiorato in modo sensibile, pur se la numerosità dei gruppi si è all’incirca dimezzata (la numerosità del subcampione femminile ammonta infatti a 1.215 laureate, mentre i loro colleghi maschi sono appena 869). Benché le relazioni fra le variabili latenti e quelle osservate siano cambiate in qualche misura, come evidenziato nella successiva Tab. 8, la struttura fattoriale da noi identificata, dunque, può essere considerata invariante. Tabella 7. Indici di adattamento del modello LISREL di invarianza dei pesi strutturali (rispetto al modello saturo ed al modello di indipendenza) per l’analisi della modalità lavorativa dei laureati e delle laureate presso l’Università di Foggia. Modelli Indici di adattamento di invarianza saturo di indipendenza ECVI (Expected Cross-Validation Index) 0,34 0,23 1,26 GFI (Goodness of Fit Index) 0,97 1,00 0,84 AGFI (Adjusted Goodness of Fit Index) 0,95 0,81 RMR (Root Mean Square Residual) 0,07 0,00 0,22 RMSEA (Root Mean Square error of Approximation) 0,04 0,07 CMIN (Minimum value of discrepancy) 524,40 2565,60 Gradi di libertà 147 210 N critico di HOELTER (α=0,05) 701 200 Modelli statistici per l’analisi della transizione Università-lavoro 173 Tabella 8. Pesi di regressione standardizzati delle variabili osservate del modello LISREL per l’analisi della modalità lavorativa dei laureati e delle laureate presso l’Università di Foggia. Variabili osservate Progetto lavorativo Conoscenza delle prospettive post laurea Lavoro pre laurea Pesi standard. Pesi standard. M F Variabili osservate M F Percorso form./professionale Facoltà 0,78 0,72 0,26 0,35 Posizione prof. attuale/cercata 0,43 0,39 -0,78 -0,56 Diploma di maturità 0,35 0,37 Ramo attività attuale/cercata 0,21 0,16 Curriculum formativo Voto di laurea 0,44 Voto di maturità 0,35 Adeguatezza preparazione 0,05 Irregolarità degli studi -0,45 Numero di anni fuori corso -0,64 Età alla laurea -0,75 Componenti latenti della variabile Curriculum formativo Progetto lavorativo 0,33 0,40 0,36 0,13 -0,19 -0,84 -0,80 Attività post laurea Numero di anni trascorsi tra 0,90 la laurea ed il primo lavoro Abilitazione ad esercizio pro0,45 fessione / insegnamento Modalità di ricerca del lavoro 0,32 Componenti latenti della variabile Attività post laurea 0,27 0,49 Curriculum formativo Percorso form./professionale 0,29 0,90 0,46 0,28 0,47 0,21 * Le variabili latenti evidenziate in grassetto sono endogene. I due gruppi di laureati appaiono differenziarsi per pochi aspetti, come, ad esempio, il lavoro pre-laurea (più legato con la variabile latente progetto lavorativo per i maschi rispetto alle loro colleghe), le prospettive post-laurea (ove la situazione si presenta invertita), l’irregolarità degli studi ed il numero di anni fuori corso. Le relazioni fra le variabili latenti differiscono in modo quasi insensibile tra i due sessi, come appurato nel corso della verifica dell’invarianza strutturale. L’analisi sembra quindi confermare che l’approccio al mercato del lavoro dei laureati di sesso maschile è molto simile a quello delle laureate, mentre si notano differenze nell’atteggiamento verso la formazione universitaria, in quanto le donne si dedicano allo studio con più regolarità. 8. Conclusioni Il presente lavoro ha cercato di fornire risposte alla domanda su quali possano essere le variabili, legate al percorso formativo ed alle competenze personali, che maggiormente influenzano tempi e modi di accesso al lavoro da parte dei laureati. I modelli 174 Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione… stimati in base alle caratteristiche dei laureati dell’Università di Foggia ci hanno permesso di misurare l’efficacia esterna della formazione universitaria e di studiare, in termini non monetari, gli effetti delle scelte compiute dai soggetti sulle loro opportunità di inserimento nel mercato del lavoro14. Poiché, come è noto, la relazione tra formazione e lavoro è molto comples15 sa , abbiamo ritenuto opportuno porre maggiore attenzione al risultato osservato a livello di singolo studente (grado di apprendimento, capacità di inserimento nel lavoro, ammontare del capitale umano), ossia lo scopo finale a cui tende la didattica universitaria nell’attuale sistema socio-economico (Gori 2003). In quest’ottica, è particolarmente utile un modello in grado di considerare contestualmente, grazie ad una opportuna procedura di scaling ottimale, variabili quantitative, ordinali e categoriali, nonché di analizzare le variabili latenti che influiscono sulla transizione Università-lavoro. I modelli elaborati, sia quello stimato per l’intero campione sia quelli stimati per verificarne l’invarianza rispetto al genere, hanno evidenziato la robustezza delle stime, registrando un buon livello di accostamento, il che ci consente di porre una ragionevole fiducia nell’attendibilità delle nostra analisi e nelle ipotesi proposte. L’analisi ha posto in luce che la variabile latente più influente sul placement e sul successo nel mondo lavorativo è l’attività post laurea, che a sua volta dipende dal percorso formativo-professionale scelto, dal curriculum ed, indirettamente, dal progetto lavorativo. Risultati che, peraltro, non risultano significativamente differenti fra maschi e femmine. Ciò non vuol dire, tuttavia, che scelte e vincoli siano esattamente uguali fra i sessi, ma solo che le relazioni fra loro e le variabili latenti sono del medesimo ordine, e che la struttura mentale che è alla base delle decisioni è simile fra laureati e laureate. 14 Ciò in quanto, nel porre in relazione la professionalità dei laureati con le esigenze del mercato del lavoro, hanno significato soprattutto “l’ampiezza e la solidità delle competenze della figura professionale formata, l’adattabilità alle situazioni in cui si inserisce, la propensione ad imparare dall’esperienza, la propensione ad evolvere per favorire il passaggio da mansioni realizzative a mansioni dirigenziali” (Fabbris, 2003). 15 Il grado di conoscenza determinato dal processo formativo ed il conseguente incremento di capacità d’inserimento lavorativo sono “experience goods”, il cui effetto, in genere, è valutabile solo ex-post e a diversi intervalli temporali (Gori e Vittadini, 1999). I risultati del processo di formazione (ad es., qualifica e tipologia di occupazione conseguita), così come le risorse possono essere misurati in quantità monetarie o fisiche (ad es., ore di lezione, numero di laureati ecc.), così da costruire indici di produttività per processi, strutture, risultati, estendendo al caso universitario tecniche aziendalistiche tipiche dei processi industriali (Bini, 1999). Tuttavia, un maggior numero di lezioni, esercitazioni ecc. non significa necessariamente un maggior livello di apprendimento dello studente ed una migliore qualificazione del laureato nel mondo del lavoro (Vittadini, 2001). Modelli statistici per l’analisi della transizione Università-lavoro 175 Riferimenti bibliografici BINI M. (1999) Valutazione dell’ efficacia dell’ istruzione universitaria rispetto al mercato del lavoro, Rapporto di Ricerca 3/99, Comitato Nazionale per la Valutazione del Sistema Universitario. MIUR, Roma. BOLLEN K. A. (1989) Structural Equations with Latent Variables, Wiley & Sons, New York-Toronto. BRADLEY R.A., KATTY S.K., COONS I.J., (1962), Optimal scaling for ordered categories, Psychometrika, 27: 355-374. BROWNE M. W. (1974) Generalized least-squares estimators in the analysis of covariate structures, South African Statistical Journal, 8: 1-24. BROWNE M. W., (1984) Asymptotically Distribution-Free Methods for the Analysis Of Covariance Structures, British Journal of Math.Stat.Psychology, 37: 62-83 BYRNE B.M. (2001) Structural equation modeling with AMOS: Basic concepts, applications and programming, Erlbaum, Mahwah, NJ. ANTONUCCI L., CROCETTA C., MECCARIELLO I. (2002) La popolazione studentesca e l’Università di Foggia, Indagine sulle aspettative degli studenti dopo la riforma, Uniongrafica Corcelli ed., Bari. CIVARDI M., ZAVARRONE E. (2000) Il ricorso a modelli invarianti per valutare la qualità della didattica. In: M. CIVARDI e L. FABBRIS (a cura di), Valutazione della didattica con sistemi computer assisted, CLEUP, Padova: 179-189. CIVARDI M., ZAVARRONE E. (2002) Modelli strutturali multigruppo per l’analisi dei tempi di permanenza nel sistema universitario. In: G. PUGGIONI (a cura di), Modelli e metodi per l’analisi di rischi sociali e sanitari, CLEUP, Padova: 1-20. CROCETTA C., D’OVIDIO F. (2003) La valutazione dell’inserimento lavorativo dei laureati all’Università di Foggia attraverso un’analisi di segmentazione. In: M. Civardi (a cura di), Transizione Università-Lavoro: la definizione delle competenze, CLEUP, Padova: 111-132. CROCETTA C., D’OVIDIO F. (2004) La soddisfazione nella transizione Universitàlavoro - Un modello ad equazioni strutturali. In: E. AURELI CUTILLO (a cura di), Strategie metodologiche per lo studio della transizione UniversitàLavoro, CLEUP, Padova: 159-187. DE LEEUW J. (1984), Canonical Analysis of categorical data, 2nd ed. DSWO Press, Leiden (NL). DE LEEUW J., MEULMAN J.J. (1986). Principal component analysis and restricted multidimensional scaling. In: W. GAUL & M. SCHADER (Eds.), Classification as a tool of research, Amsterdam (NL): 83-96. 176 Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione… DE LEEUW J., VAN RJKEVORSEL J. (1980), Homals e Princals, Some Generalizations of Components Analysis. In: E. DIDAY, Y. ESCOUFIER, L. LEBART, J. P. PAGES, Y. SCHEKTMAN, R. TOMASSONE (eds.), Data Analysis and Informatics, Amsterdam (NL): 231-241. DE LEEUW J., YOUNG F.W., TAKANE Y. (1976) Additive Structure in Qualitative Data: an Alternative Least Squares Method with Optimal Scaling Features, Psychometrika, 41: 471-504. FABBRIS L. (1997) Statistica multivariata. Analisi esplorativa dei dati, McGrawHill, Milano. FABBRIS L. (2003) Il monitoraggio dell’inserimento occupazionale e professionale dei laureati e dei diplomati dell’Università di Padova, Quaderno Pharos n.6, Osservatorio sul Mercato Locale del lavoro, CLEUP, Padova. GORI E., VITTADINI G. (1999) (a cura di) Qualità e valutazione nei servizi di pubblica utilità, ETAS, Milano. GORI E. (2003) Quali prospettive dalla ricerca sulla qualità e l’efficacia della scuola per la costruzione di sistemi di accountability dell’istruzione, Non Profit n. 2, Maggioli, Rimini. HOELTER J. W. (1983) The analysis of covariance structures, Sociological Methods and Research, 11: 325-344. KLINE R. B. (1998) Principles and practice of structural equation modeling, The Guilford Press, New York. KRUSKAL J. B. (1964) Multidimensional scaling by optimizing goodness of fit to a nonmetric hypothesis, Psichometrika, 29: 1-27. KRUSKAL J. B. (1965) Analysis of factorial experiments by estimating monotone trasformations of the data, 1965, Journal of Royal Statistical Society, Series B, 27: 251-263. JÖRESKOG K. G. (1973) A general method for estimating a linear structural equation system, in A S. GOLDBERGER AND O. D. DUNCAN, (eds), Structural equation Models in the Social Sciences, Academic Press, New York: 85-112. JÖRESKOG K. G. (1977) Structural equation models in the social sciences, in P.R. KRISHNAIAH (ed.), Application of Statistics, Amsterdam (North Holland): 265-287. JÖRESKOG K. G., GOLDBERGER A. S. (1975) Estimation of a model with multiple indicators and multiple causes of a single latent variable, Journal of the American Statistical Association, 70: 631-639. LOVAGLIO P. G. (2000), Modelli con variabili latenti e indicatori di tipo misto, tesi per Dottorato di Ricerca in Statistica Metodologica, Università degli Studi di Trento. MEULMAN J. J., HEISER W. J. (1999). Categories 10.0. SPSS Inc., Chicago. SÖRBOM D. (1989) Model modification, Psychometrika, 54: 371-384. Modelli statistici per l’analisi della transizione Università-lavoro 177 VITTADINI G. (1989) Indeterminacy problems in the Lisrel Model, Multivariate Behavioral Research, vol.24, 4: pp.397-414. VITTADINI G. (1999), Analysis of Qualitative Variables in Structural Models with Unique Solutions. In: M. VICHI, O. OPITZ (eds.), Classification and Data Analysis: Theory and Application, Series Classification Data Analysis and Knowledge Organization, Springer Verlag, Heidelberg. VITTADINI G. (2001), Linee guida per la valutazione dell’efficienza esterna della didattica mediante il Capitale Umano. In: E. AURELI CUTILLO (a cura di), Strategie metodologiche per lo studio della transizione Università-Lavoro, CLEUP, Padova: 375-395. WILEY D.E. (1973) The identification problem for structural equation models with unmeasured variables, in A.S. GOLDBERGER AND O.D. DUNCAN, (eds), Structural equation Models in the Social Sciences, New York, Academic Press: 69-83. WRIGHT S. (1934), The methods of Path Coefficients, Annals of Mathematical Statistics, 5: 161-215. YOUNG F.W., TAKANE Y., DE LEEUW J. (1978) The Principal Component of Mixed Measurement Level Multivariate Data: an Alternating Leasts Squares Method with Optimal Scaling Features, Psychometrika, 43: 279-281. ZAVARRONE E. (2003) Ricerca di fattori latenti per il rischio di abbandono degli studi universitari. In: L. FABBRIS (a cura di), LAID-OUT scoprire i rischi con l’analisi di segmentazione, Cleup, Padova: 41-54. 178 Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione… A structural equation model to analyse the determinants of the employment of graduates in the University of Foggia Summary: The purpose of this study is to investigate the strategies used by graduates of the University of Foggia to enter the labour market. Using both quantitative and qualitative variables, quantified by means of optimal scaling, a structural equation model has been created to analyse the relations between latent variables tied to the university experience, preparation, expectations, flexibility, methods of job searching, etc. Furthermore, we have verified that the correlation structure between these latent variables remains constant if female and male graduates are considered separately. Keywords: Graduates, Labour market, University of Foggia, Factorial analysis, Structural equation models, Optimal Scaling, CATPCA, LISREL. La durata della ricerca del primo impiego è un buon indicatore di efficacia della formazione universitaria? Dalit Contini Dipartimento di Statistica e Matematica Applicata alle Scienze Umane Università di Torino Riassunto. L’efficacia esterna della formazione universitaria è frequentemente valutata con riferimento alla durata della ricerca del primo impiego dopo il conseguimento del titolo o alla condizione occupazionale in un momento dato. Obiettivo di questa nota è evidenziare i limiti dell’impiego di indicatori di efficacia basati sul lavoro tout court in questo contesto. Il punto di partenza è la specificazione di un semplice modello probabilistico di ricerca del lavoro, fondato sull’ipotesi che gli individui compiano le loro scelte sulla base dell’utilità derivante dalle opzioni alternative. Si dimostra che, se i criteri di scelta differiscono tra laureati, né la velocità di uscita dalla condizione di ricerca della prima occupazione, né la probabilità di avere un posto di lavoro al tempo t sono necessariamente più elevate (ceteris paribus) per i laureati provenienti dai corsi di studio che offrono migliori prospettive lavorative. La velocità con cui le persone trovano un posto di lavoro che raggiunge uno standard di qualità dato non dipende, invece, dai comportamenti di chi cerca lavoro, ma solo dalle opportunità. La possibilità concreta di impiego dei diversi indicatori dipende però dalla natura dei dati. Parole chiave: transizione università-lavoro, efficacia esterna, modello di scelta del lavoro, funzione di rischio. 1. Introduzione Il processo di integrazione dei giovani nel mondo del lavoro è un problema diffuso a livello internazionale (OECD, 1998), come testimoniano i tassi di disoccupazione giovanile persistentemente elevati in molti paesi. La transizione scuola-lavoro costituisce quindi un tema di ricerca al quale è dedicata oggi grande attenzione. In un’ottica comparata, la valutazione del ruolo assunto dai sistemi scolastici nazionali nel processo di transizione verso il mondo del lavoro è uno dei filoni di studio più in- 180 La durata della ricerca del primo impiego è un buon indicatore di efficacia... teressanti in questo ambito (Muller e Shavit, 1998; Van der Velden e Wolbers, 2001; Iannelli, 2001; Brauns, Gangl e Sherer, 2001). Altri studi sono focalizzati sull’effetto dei diversi livelli di istruzione e programmi educativi presenti nei singoli paesi (Nguyen e Taylor, 2003) o sui rendimenti dell’istruzione1 (Angrist e Krueger, 1991; Harmon e Walzer, 1994; Colussi, 1997; Checchi, 1997). In una diversa prospettiva, gli esiti occupazionali sono oggetto di studio come indicatori di efficacia esterna di percorsi scolastici alternativi (Gori, Mealli e Rampichini, 1993; Biggeri, Bini e Grilli, 2001; Rampichini e Petrucci, 2001; Bratti, McKnight, Naylor e Smith, 2004). Tra gli obiettivi, la costruzione di graduatorie di efficacia2 di corsi di formazione professionale, scuole, università o specifici corsi di studio universitari, in relazione alla loro capacità di favorire l’inserimento lavorativo dei giovani che hanno concluso il percorso formativo. L’obiettivo ideale dovrebbe essere quello di stimare l’impatto netto della frequenza di un corso rispetto a corsi alternativi3: per questo motivo gli esiti occupazionali sono valutati al netto delle caratteristiche individuali e del contesto economicoambientale4. Il problema (Rossi e Freeman, 1989) è quello di cercare, per quanto possibile, di tenere sotto controllo i potenziali fattori confondenti. Tra questi, gli effetti dovuti a selezione non casuale, che ha luogo se la propensione a scegliere un programma di studi piuttosto che un altro dipende da attributi che rendono le persone di per se stesse più o meno interessanti per i potenziali datori di lavoro, anche in assenza del programma stesso5. Per valutare l’efficacia esterna della formazione universitaria o scolastica in generale, diversi autori (Biggeri, Bini e Grilli, 2001; Rampichini e Petrucci, 2001; Nguyen e Taylor, 2003; Porcu e Tedesco, 2004) impiegano come indicatore la durata della ricerca della prima occupazione dopo il conseguimento del titolo. Altri studi (Giommi e Pratesi, 2001; Bratti, McKnight, Naylor e Smith, 2004) sono focalizzati sulla probabilità di essere occupati in un momento dato successivo alla conclusione della formazione. Alla base dell’impiego di questi indicatori risiede l’assunto (implicito) che a migliori prospettive occupazionali corrispondano tempi di ingresso nel mondo del lavoro mediamente più brevi, e quindi una proporzione più elevata di occupati. Come vedremo, il presupposto è però confutabile. 1 L’effetto dell’istruzione sulle retribuzioni. L’approccio, che ha avuto origine dalla richiesta crescente di accountability delle attività del settore pubblico, è particolarmente diffuso (ma anche ampiamente criticato) in Gran Bretagna, dove tutte le istituzioni scolastiche di ogni ordine e grado sono sottoposte a valutazione comparativa. I risultati, vere e proprie graduatorie (league-tables) di performance indicator, sono facilmente accessibili al pubblico (http://education/guardian.co.uk). Per una interessante analisi critica dell’approccio, si veda Goldstein e Spiegelhalter (1996). 3 Il riferimento è dunque al concetto di “efficacia relativa”. 4 Il termine “impatto netto” deriva dalla letteratura sulla valutazione delle politiche di matrice econometrica. Nell’ambito della letteratura sulle league table si parla, invece, di “value added” (valore aggiunto). 5 Ovviamente, il problema diventa di più difficile risoluzione se tali caratteristiche sono non osservabili. 2 Modelli statistici per l’analisi della transizione Università-lavoro 181 Con la presente nota ci si pongono i seguenti obiettivi: (a) Evidenziare i limiti degli esiti occupazionali definiti in relazione al lavoro di per se stesso come indicatori di efficacia esterna della formazione universitaria. L’idea si basa su una considerazione molto semplice. Avere un posto di lavoro significa: (i) che si è presentata una opportunità di lavoro; (ii) che si è scelto di accettare tale opportunità. Il tempo di attesa al lavoro dipende quindi sia dalla domanda di lavoro, sia dall’offerta di lavoro, e quindi dall’effettiva disponibilità dei laureati a ricoprire i ruoli che vengono loro proposti. L’ipotesi è che gli individui prendano le decisioni in relazione al valore dell’utilità del lavoro. A partire da un semplice modello probabilistico si dimostra che la durata della ricerca della prima occupazione non è necessariamente più breve (in media) per i laureati con migliori prospettive lavorative, se questi sono più selettivi degli altri. (b) Valutare la validità di indicatori di efficacia esterna alternativi, basati su esiti occupazionali definiti in relazione allo svolgimento di una attività lavorativa che raggiunge un certo standard di qualità. La possibilità di impiego dei diversi indicatori dipende dalla natura delle informazioni rilevate: in particolare, se si tratta di dati riguardanti il lavoro svolto al momento dell’intervista, o riferiti invece all’intera storia lavorativa osservata in un periodo dato. Il lavoro si svolge come segue. Nel paragrafo 2 viene presentato il modello sulla base del quale vengono successivamente derivati i risultati che costituiscono l’oggetto di questa nota. Il modello riproduce un “mondo” caratterizzato da meccanismi operativi molto semplici. L’obiettivo, si ribadisce, non è quello di proporre una specificazione innovativa dei processi che regolano a livello micro l’incontro tra domanda/offerta di lavoro, ma piuttosto quello di mettere in evidenza come i presupposti che sottendono l’impiego del tempo di attesa del primo lavoro e della probabilità di essere occupati al tempo t come indicatori di efficacia esterna della formazione universitaria, non siano corretti in generale. I risultati teorici presentati nei paragrafi 3-5 possono essere visualizzati per mezzo di batterie di simulazioni nel paragrafo 6. Le storie di lavoro corrispondenti a laureati di corsi di studio diversi sono generate sotto ipotesi alternative conformi al modello proposto. Seguono le conclusioni. 2. Il modello Il processo che regola la ricerca di lavoro ha come protagonisti due categorie di attori: il soggetto che cerca impiego e l’insieme dei potenziali datori di lavoro. Questi ultimi scelgono se, e a chi, rendere disponibili i lavori, mentre il primo sceglie se accettare o meno le proposte che riceve. Il modello proposto in questa nota si basa 182 La durata della ricerca del primo impiego è un buon indicatore di efficacia... sull’idea - mutuata dalla letteratura economica - che le scelte compiute dalle persone siano basate sul confronto tra i valori assunti dalla funzione di utilità6 corrispondenti alle differenti opzioni. L’utilità può assumere in questa nota una connotazione molto generale, discostandosi da quanto tipicamente ipotizzato nei modelli di job-search, che rinviano al guadagno economico (Eckstein e Wolpin, 1995; Jensen e Westergard-Nielsen, 1987). Il riferimento ideale è alla molteplicità degli aspetti che caratterizzano i lavori: tipo di contratto, coerenza con il titolo di studio, necessità del titolo, utilizzazione delle competenze acquisite, retribuzione, in sostanziale accordo con il concetto di qualità del lavoro definito in AlmaLaurea7 (2002). Il modello è così caratterizzato. Ad ogni offerta di lavoro8 corrisponde un valore della funzione di utilità9. Si suppone che il criterio di valutazione sia lo stesso per tutti: l’utilità attribuita ad un lavoro non dipende quindi da quale laureato sta formulando il giudizio, ma esclusivamente dalle caratteristiche del lavoro stesso. L’insieme delle offerte di lavoro che ciascun laureato potenzialmente può ricevere varia invece tra soggetti. L’ipotesi è che per ciascuno soggetto i, si presenti ad ogni t una e una sola opportunità, con valore di utilità descritto dalla v.c.: IPOTESI 1 U L i (t ) ∼ g i (u L (t )) = g (u L | x ) dove X è il vettore delle caratteristiche individuali che il potenziale datore di lavoro è in grado di osservare. Per fissare le idee, X potrebbe indicare il genere, il grado di motivazione o intelligenza del laureato, la classe sociale della famiglia (come proxy delle reti sociali), il bagaglio di conoscenze/competenze acquisite durante la formazione universitaria (rappresentate dall’area disciplinare e dal particolare corso di studi). Le U L i (t ) sono variabili casuali i.i.d. al variare di t: qualità e quantità delle proposte di lavoro non cambiano nel tempo, e non dipendono dalle offerte precedenti o future10. 6 Il concetto di utilità si basa sull’idea che gli individui traggono soddisfazione dal consumo di beni e dal tempo libero: l’utilità è una misura di questa soddisfazione (Borjas, 1999). La decisione di lavorare o non lavorare (e quanto lavorare), dipende dunque dal salario orario e dalle preferenze degli individui (espresse dalla cosiddetta “curva di indifferenza”). Il livello retributivo al di sotto del quale l’individuo decide di non lavorare è detto “salario di riserva”. 7 Nell’indagine AlmaLaurea il lavoro viene valutato ex-post, mentre in questo contesto viene valutato ex-ante, cioè sulla base di quanto esplicitato nella proposta di lavoro. 8 Per “offerta di lavoro” si intende il lavoro che verrebbe offerto al laureato se questi si proponesse all’azienda, e quindi non necessariamente una proposta di impiego in senso stretto. Diamo qui il medesimo significato anche ai termini “opportunità” e “proposta” di lavoro. 9 Generalizzando la specificazione da manuale, sia U=f(C,L,altre caratteristiche), dove U è l’utilità, C il consumo e L il tempo libero. Ad ogni posto di lavoro - contraddistinto da un salario e da un orario di lavoro (quindi da un valore di C ed uno di L ) e dalle altre caratteristiche che vengono valutate dal laureato (tipo di contratto, coerenza con il titolo di studio ecc…) - corrisponde quindi un ben definito valore dell’utilità. 10 Per rendere più agevole l’esposizione, ci si astiene dal considerare esplicitamente la dipendenza dalle condizioni del mercato del lavoro locale, che induce una dipendenza dal tempo storico (l’ipotesi di di- Modelli statistici per l’analisi della transizione Università-lavoro 183 L’ipotesi che ad ogni t si presenti una e una sola offerta di lavoro11 non esclude che le persone possano ricevere proposte con cadenza differente. L’assenza di offerte al tempo t corrisponde all’arrivo di una offerta di utilità nulla, che si può ottenere imponendo che P(U L (t ) = 0 ) > 0. Ogni individuo sceglie se accettare o rifiutare una occasione di lavoro in relazione alla soglia uS, il livello di utilità minimo che questi è disposto ad accettare. Il criterio di scelta è il seguente: IPOTESI 2 accettare il lavoro se uL ≥ uS rifiutare il lavoro se uL < uS. Si suppone che la soglia non si modifichi nel tempo12 (fino all’inizio del primo episodio lavorativo, come preciseremo più avanti). Detta soglia è descritta dalla v.c. US , dipendente dalle caratteristiche individuali Z: IPOTESI 3 U S i ∼ f i (u S ) = f (u S | z ) In linea di principio, i fattori X e Z che influenzano opportunità e scelte sono distinti, in quanto determinati da attori differenti – essendo le opportunità scelte dei potenziali datori di lavoro – (Logan, 1996). E’ però assai plausibile che gli elementi che caratterizzano tali fattori siano in buona parte gli stessi. Se gli individui si comportano in modo razionale, chi ha buone aspettative di lavoro futuro avrà un comportamento tendenzialmente più selettivo, e viceversa13. Questo può valere, ad esempio, per soggetti particolarmente abili, o di classe sociale elevata, o per chi ha frequentato un corso di studi (CdS) che consente l’acquisizione di competenze molto richieste sul mercato. La dipendenza di UL e US da fattori comuni comporta che esse siano generalmente correlate (positivamente). Si ipotizza però che: IPOTESI 4 U L (t ) ⊥ U S | X , Z stribuzioni identicamente distribuite verrebbe quindi a cadere). Deve essere rilassata anche l’ipotesi di indipendenza delle UL(t) al variare di t, se le opportunità di lavoro diminuiscono al crescere della durata trascorsa nello stato di disoccupazione, per effetto, ad esempio, della perdita di skills o di indebolimento delle reti sociali. 11 Nei modelli di scelta discreta (Mc Fadden, 1974) e di job-search si fa tipicamente riferimento alla situazione in cui gli individui devono scegliere tra un insieme di opportunità di lavoro (e la condizione di non-lavoro o di attesa di un lavoro futuro). Il modello qui presentato può essere ricondotto ad una circostanza di quel tipo, se si ipotizza che UL(t) rappresenti l’utilità corrispondente alla migliore offerta che arriva al tempo t. 12 La condizione è troppo restrittiva se, con il passare del tempo senza lavoro, le persone diventano meno selettive. Ciò potrebbe accadere per effetti di scoraggiamento. 13 Jensen e Westergard-Nielsen (1987) - in un ambiente a razionalità perfetta, in cui la distribuzione della offerte di lavoro è nota al laureato - derivano il salario di riserva ottimale, che risulta dipendere esplicitamente dalla distribuzione delle offerte di lavoro. Eckstein e Wolpin (1995), pur osservando correlazione positiva tra salario di riserva stimato e salario medio delle offerte di lavoro, sostengono che la relazione di dipendenza non è però teoricamente necessaria. 184 La durata della ricerca del primo impiego è un buon indicatore di efficacia... cioè che la correlazione sia spuria. La ragione è che le offerte di lavoro non possono dipendere in senso causale dalla soglia individuale, essendo questa non osservabile dal potenziale datore di lavoro. Nell’ottica di valutare l’efficacia esterna dei diversi corsi di studio, è opportuno precisare il ruolo che questi assumono nella determinazione della soglia e delle opportunità di lavoro. Ipotizziamo che i CdS possano essere ordinati in relazione al “valore aggiunto” che potenzialmente offrono allo studente in termini di competenze spendibili sul mercato. Se il corso di studi A è preferibile a B ( A f B ) in questo senso, si assume che, ceteris paribus: IPOTESI 5 G A (u L ) > G B (u L ) ∀u L IPOTESI 6 F A (u S ) ≥ F B (u S ) ∀u S dove G (u L ) = P(U L ≥ u L ) e F (u S ) = P(U S ≥ u S ) . I CdS “migliori” offrono quindi migliori prospettive di impiego e inducono comportamenti più selettivi da parte dei loro laureati. Si conclude con una precisazione. Sia S l’insieme dei possibili CdS. Siano A e B due elementi qualsiasi di S, con A preferibile a B nel senso sopra indicato. Sia I un indicatore di esito occupazionale. Diciamo che I è un indicatore di efficacia esterna della formazione universitaria valido se, ceteris paribus: E A ( I ) > E B (I ) E A (I ) < E B (I ) ∀A, B ∈ S | A f B ∀A, B ∈ S | A f B oppure (1) Cioè, l’indicatore deve essere sempre in grado di discriminare tra CdS diversi, se uno dei due è “migliore” dell’altro, dando conto delle differenze in termini di esiti occupazionali. Se l’indicatore è rappresentato da una durata - ad esempio, la durata della ricerca del primo lavoro dopo la laurea - la (1) diventa: P A (T = t | T ≥ t ) > P B (T = t | T ≥ t ) (2) dove T è la durata medesima e P(T = t | T ≥ t ) è la funzione di rischio corrispondente, con una specificazione in tempo discreto. Se la condizione risulta verificata, la velocità di uscita dalla disoccupazione è superiore per A rispetto a B, e la durata media risulta più breve per il CdS “migliore”. Se l’indicatore è una v.c. binaria L(t ) , che indica, per esempio, se il soggetto è occupato al tempo t, la condizione (1) corrisponde alla: P A (L(t ) = 1) > P B (L(t ) = 1) cioè, che la probabilità di lavorare al tempo t sia più elevata per A che per B. (3) Modelli statistici per l’analisi della transizione Università-lavoro 3. 185 La durata della ricerca del primo impiego La funzione di rischio di uscita dalla condizione di ricerca del primo lavoro dopo la laurea per un generico individuo può essere così espressa: P(T = t | T ≥ t ) = P(U L (t ) ≥ U S | U L (t − 1) < U S ,...U L (1) < U S ) . (4) Partendo dal caso particolare in cui l’utilità soglia sia una v.c. degenere (e quindi completamente determinata dalle caratteristiche Z) si ottiene: P(T = t | T ≥ t ) = P(U L (t ) ≥ u S | U L (t − 1) < u S ,...U L (1) < u S ) = P(U L ≥ u S ) (5) per l’ipotesi che le utilità delle offerte di lavoro in tempi successivi siano i.i.d. Si può notare che il rischio rimane costante al crescere della durata della disoccupazione. Prendiamo ora due soggetti, identici per tutte le altre caratteristiche rilevanti, che hanno conseguito l’uno la laurea A, l’altro la laurea B. Se A è preferibile a B, per l’ipotesi 6 si avrà u S A ≥ u S B . La (2) è verificata se P U L A ≥ u S A > P U L B ≥ u S B , cioè se G A u S A > G B u S B . Come si evince dalla Fig. 1, però, tenuto conto dell’ipotesi 5 e in assenza di altre assunzioni, non è possibile dimostrarne la generalità. ( ) ( ( ) ( ) ) ( ) ( ) ( ) ( ) Figura 1. G A u S A > G B u S B oppure G A u S A < G B u S B ? G L (u ) B A u … possibili valori di usB us A Consideriamo ora il caso generale in cui la v.c US sia non degenere. Dalla (4) si deriva che: P(T = t | T ≥ t ) = (6) ∫u S P(U L (t ) ≥ u S | U S = u S ,U L (1) < U S ,...)P(U S = u S | U L (1) < U S ,...)du S 186 La durata della ricerca del primo impiego è un buon indicatore di efficacia... Per t=1 si ottiene: P(T = 1) = P(U L (1) ≥ U S ) = ∫ uS P(U L (1) ≥ u S | U S = u S )P(U S = u S )du S P(U L ≥ u S )P(U S = u S )du S . uS =∫ (7) Figura 2. Fattori della funzione integranda nella (7). A P(UL ≥ us) B uS PB(US = us) uS PA(US = us) uS Analizzando separatamente i due fattori della funzione integranda (si veda la Fig. 2), si osserva che: - P(U L ≥ u S ) decresce con uS: per l’ipotesi 5, fissato uS, la probabilità è più elevata per A che per B; - P(U S = u S ) dà più peso ai valori grandi di uS per A, ai valori piccoli di uS per B, per l’ipotesi 6. Anche in questo caso, senza fare altre ipotesi, la (2) non può essere dimostrata. Infatti: quale somma di prodotti (nel caso discreto) assume valore più grande? Quella che corrisponde a P A (T = 1) o a P B (T = 1) ? Un ragionamento molto simile si può fare per il generico valore di t nella (6). Una precisazione: mentre la (5) descrive una funzione di rischio costante nel tempo, la (4) sottende un andamento di tipo decrescente. Ciò è dovuto ad un effetto Modelli statistici per l’analisi della transizione Università-lavoro 187 di selezione: al crescere della durata nella disoccupazione, l’insieme dei soggetti a rischio di uscita dalla condizione di ricerca di lavoro è composto progressivamente da persone più esigenti, che hanno, a parità di prospettive di lavoro, tempi medi di attesa più lunghi. In questo senso, US è una componente di eterogeneità non osservata. Se US fosse noto, potremmo ragionare dato US: P(T = t | T ≥ t ,U S = u S ) = P (U L (t ) ≥ u S | U L (t − 1) < u S ,...U L (1) ≥ u S ,U S ) = = P(U L (t ) ≥ u S | U S ) = P(U L ≥ u S | U S ) nel qual caso la funzione tornerebbe ad essere indipendente da t. La conoscenza di US elimina quindi l’effetto di dipendenza spuria dalla durata, ma non sposta i termini del problema: la (2) resta ancora non dimostrabile. In conclusione, non esiste un legame di dipendenza necessario tra qualità della formazione e tempo di ingresso nel mondo del lavoro. La durata della ricerca del primo impiego non è quindi un valido indicatore di efficacia esterna, nel senso indicato nel par. 2. 4. Probabilità di lavorare al tempo t Il modello descritto nel paragrafo 2 specifica come ha inizio il primo episodio lavorativo dopo la laurea, ma non formula assunzioni sulla sua durata, né su come possono avere inizio eventuali periodi di occupazione successivi. La condizione occupazionale al tempo t dipende però anche da questi fattori. Data l’esigenza di mantenere basso il livello di complessità del modello - e limitatamente a questo paragrafo - si formula la seguente ipotesi aggiuntiva14: IPOTESI 7 Il primo episodio lavorativo ha durata minima pari a t In questo quadro, il laureato risulta occupato al tempo t se entro tale data gli viene proposto almeno un lavoro con utilità superiore alla propria soglia di accettazione. Si ha quindi: P (L (t ) = 1) = P{max [U L (1),U L (2 )...U L (t )] ≥ U S } = = ∫ P{max [U L (1),U L (2 )...U L (t )] ≥ u S | U S uS = 1− = u S }P (U S = u S )du S = ∫ [P (U L (1) < u S )P (U L (2 ) < u S )...P (U L (t ) < u S )]P (U S = u S )du S = uS 14 L’ipotesi, poco realistica in una realtà in cui il lavoro a tempo determinato è sempre più diffuso, ha l’effetto di produrre una sovrastima della P(L(t ) = 1) , in particolare per il CdS B. 188 La durata della ricerca del primo impiego è un buon indicatore di efficacia... ∫ [P (U L < u S )] P (U S t = 1− = u S )du S uS La validità della (3) non può essere dimostrata. L’argomentazione è del tutto simile quella addotta con riferimento alla (7), per la durata della ricerca del primo lavoro. 5. Indicatori basati sul lavoro di qualità Come abbiamo visto, gli indicatori basati sulla presenza di un lavoro tout-court non sono validi indicatori di efficacia esterna della formazione universitaria, nel senso descritto nel paragrafo 2, perché a corsi di studio che offrono prospettive di impiego migliori non corrispondono sempre valori più favorevoli dell’indicatore medesimo. Ciò accade perché i comportamenti possono variare tra soggetti (di fronte ad una nuova opportunità di impiego, laureati diversi possono effettuare scelte diverse). L’impatto dei comportamenti individuali si attenua se si considerano indicatori basati sullo svolgimento di un lavoro che raggiunge determinati standard di qualità. Tali standard possono essere definiti con riferimento alle stesse dimensioni impiegate per connotare il concetto di utilità: tipo di contratto, retribuzione, coerenza con la formazione universitaria, necessità del titolo di studio, grado di impiego delle competenze acquisite. Un “buon lavoro” o “lavoro di qualità” è quindi un lavoro che raggiunge un livello minimo di utilità prefissato. Denotiamo questo valore con u0. Per valutare la dipendenza tra formazione universitaria e durata della ricerca di un lavoro di qualità, è necessario aggiungere due ipotesi a quelle formulate nel par. 2: IPOTESI 8 u S i ≤ u0 ∀i secondo cui tutti i laureati sono disposti ad accettare i lavori che raggiungono lo standard. IPOTESI 9 Quando il laureato i-esimo trova un impiego, u S i si modifica e prende il valore dell’utilità del lavoro in corso. Ciò significa che, se messe di fronte ad opportunità con utilità superiore a quella del lavoro in corso, le persone cambiano lavoro15. In questo quadro, indicando con TQ il tempo al primo lavoro di qualità, si ha che: 15 Ipotizzando che non vi siano costi di passaggio da un lavoro ad un altro. Modelli statistici per l’analisi della transizione Università-lavoro ( 189 ) P TQ = t | TQ ≥ t = P(U L (t ) ≥ u 0 | U L (t − 1) < u 0 ,...U L (1) < u 0 ) = P(U L ≥ u 0 ) essendo le U L (t ) i.i.d. per ipotesi. La velocità con cui le persone trovano un buon lavoro, pertanto, varia solo in relazione alle opportunità di lavoro, e non ai criteri di scelta individuali. Quindi, se A è un CdS “migliore” di B, G A (u 0 ) > G B (u 0 ) per l’ipotesi 5, e il tempo di attesa per A sarà quindi mediamente più breve di quello per B. La durata della ricerca del lavoro che raggiunge un certo standard di qualità si presta dunque bene per la valutazione dell’efficacia esterna dei singoli percorsi di studio16. Consideriamo ora la probabilità di svolgere un lavoro di qualità al tempo t. Sia LQ (t ) la v.c. che assume valore 1 in caso favorevole e 0 altrimenti. Si vuole verificare se è vero che: ( ) ( ) P LQ A (t ) = 1 ≥ P LQ B (t ) = 1 (8) Un laureato svolgerà un buon lavoro al tempo t se entro tale data gli arriva una offerta di lavoro con utilità superiore ad u0. Quindi: ( ) P LQ (t ) = 1 = P{max [U L (1),U L (2 )...U L (t )] ≥ u 0 } = 1 − [P (U L (1) < u 0 )P (U L (2 ) < u 0 )...P (U L (t ) < u 0 )] = 1 − [P (U L < u 0 )]t = 1 − [1 − G (u 0 )]t Per l’ipotesi 5, G A (u 0 ) > G B (u 0 ) . La (8) risulta dunque verificata. 6. Simulazioni I risultati teorici descritti nei par. 3-5 possono essere visualizzati effettuando delle simulazioni. Sulla base del modello delineato nel paragrafo 2, sotto varie specificazioni delle distribuzioni di U S A , U S B , U L A (t ) e U L B (t ) - che definiscono le varie “situazioni”- sono generate le “storie di lavoro” di 1000 individui. Tali situazioni sono descritte in Tab.1. 16 Considerazioni analoghe valgono anche per lo studio della transizione dalla condizione di ricerca di lavoro al lavoro di qualità, nell’ottica dei modelli competing risks, nei quali l’oggetto di analisi è dato dalla probabilità di trovare un primo lavoro di qualità al tempo t, data la sopravvivenza fino a t: P(T = t , destinazione = lavoro di qualità | T ≥ t ) . 190 La durata della ricerca del primo impiego è un buon indicatore di efficacia... Tabella 1. Situazioni simulate: ipotesi distributive; 1000 simulazioni per situazione; u0=3. USA USB ULA situazione 1 Uniform(2,3) Uniform(2,3) Uniform(0,4) 0 con p = 0.25 ( ) Uniform 0 , 3 . 2 altrimenti situazione 2 Uniform(2,3) Uniform(1,2) Uniform(0,4) 0 con p = 0.25 Uniform(0,3.2) altrimenti situazione 3 Uniform(2,3) Uniform(1.5,2.5) Uniform(0,4) 0 con p = 0.25 ( ) Uniform 0 , 3 . 2 altrimenti situazione 4 Uniform(2,3) situazione 5 Uniform(2,3) situazione 6 Uniform(2,3) Uniform(1,2) Uniform(0,4) 0 con p = 0.25 ( ) Uniform 0 , 4 altrimenti situazione 7 Uniform(2,3) Uniform(1,2) Uniform(0,4) 0 con p = 0.50 Uniform(0,4) altrimenti Uniform(1,2) ULB Uniform(0,3.5 0 con p = 0.25 Uniform(0,3.2) altrimenti Uniform(1,5,2.5) Uniform(0,3.5 0 con p = 0.25 Uniform(0,3.2) altrimenti Nota. Il CdS A è sempre preferibile a B. Nella situazione 1, le differenze tra A e B riguardano le opportunità di lavoro, ma non il criterio di scelta; nelle situazioni 2-7, entrambi gli aspetti. Durata della ricerca del primo impiego I tempi medi di attesa risultano (Tab. 2), a seconda delle situazioni, superiori per A o per B. La differenza è nettamente a favore di A solo nella prima situazione, corrispondente al caso in cui il CdS non ha effetto sui criteri di scelta dei laureati. Negli altri casi le differenze sono più contenute. Tabella 2. Durata della ricerca del primo lavoro: statistiche descrittive. MEDIA situazione 1 situazione 2 situazione 3 situazione 4 situazione 5 situazione 6 situazione 7 A 2.85 2.83 2.88 3.86 4.13 2.71 2.95 B 7.62 2.56 3.65 2.51 3.84 2.17 3.18 S.Q.M. MEDIANA A 2 2 2 2 3 2 2 B 5 2 3 2 3 2 2 A 2.4 2.5 2.4 4.1 4.7 2.2 2.6 B 9.1 2.0 3.3 2.1 3.6 1.7 2.4 Modelli statistici per l’analisi della transizione Università-lavoro 191 Durata della ricerca del lavoro di qualità Le differenze tra CdS appaiono qui molto più evidenti. In tutti i casi presi in considerazione, i tempi medi corrispondenti ad A sono nettamente inferiori a quelli di B. Ciò accade anche nelle situazioni 2, 4, 5, 6, dove la relazione non valeva per il tempo di attesa al primo lavoro. Tabella 3. Durata della ricerca del lavoro di qualità: statistiche descrittive. MEDIA MEDIANA S.Q.M. A B A B A B 4.0 21.1 3 15 3.5 20.0 situazioni 1-3 6.8 22.2 5 17 6.5 20.6 situazioni 4-5 4.1 5.4 3 4 3.6 4.9 situazione 6 3.8 7.7 3 6 3.3 7.6 situazione 7 Probabilità di lavorare al tempo t La percentuale di soggetti occupati 6 unità di tempo dopo il conseguimento della laurea non appare uniformemente più alta per il A rispetto a B, in accordo con quanto derivato nel paragrafo 4. Anche qui – come per la durata della ricerca del primo lavoro - la differenza è fortemente a favore di A solo nella situazione 1. Tabella 4. Probabilità di lavorare sei unità di tempo dopo la laurea % CHE LAVORA DOPO SEI UNITÀ DI TEMPO A B 92.6 60.6 situazione 1 93.4 93.8 situazione 2 94.6 84.5 situazione 3 83.4 94.2 situazione 4 83.7 85.2 situazione 5 92.8 97.8 situazione 6 92.4 89.5 situazione 7 Probabilità di svolgere un lavoro di qualità al tempo t Conformemente ai risultati teorici, in tutte le situazioni prese in esame la percentuale di laureati che svolge un lavoro di qualità al tempo t=6 è sensibilmente più elevata tra coloro che hanno conseguito una laurea di tipo A. 192 La durata della ricerca del primo impiego è un buon indicatore di efficacia... Tabella 5. Probabilità di svolgere un lavoro di qualità sei unità di tempo dopo la laurea. % CHE HA UN LAVORO DI QUALITÀ DOPO SEI UNITÀ DI TEMPO A B 81.3 22.2 situazioni 1-3 59.6 23.6 situazioni 4-5 81.7 67.7 situazione 6 80.9 55.8 situazione 7 7. Considerazioni conclusive Se dal punto di vista teorico la superiorità degli indicatori basati sul lavoro che raggiunge uno standard di qualità rispetto a quelli che fanno riferimento allo svolgimento di un lavoro qualunque è stata evidenziata, rimane il fatto che il fabbisogno informativo corrispondente ai diversi indicatori è assai diverso (Tab. 6). La durata della ricerca del lavoro di qualità è l’indicatore più esigente sotto questo profilo. Esso richiede dati di tipo event history (Fig. 3), che riguardano la scansione temporale di tutti gli episodi di occupazione e le caratteristiche dei lavori Tabella 6. Fabbisogno informativo di indicatori di efficacia esterna INDICATORE FABBISOGNO INFORMATIVO Probabilità di lavorare al tempo t Condizione occupazionale al momento dell’intervista. Durata della ricerca del primo lavoro (Momento di inizio della ricerca di lavoro). Momento di inizio del primo episodio di lavoro. Probabilità di svolgere un lavoro di Condizione occupazionale al momento qualità al tempo t dell’intervista. Caratteristiche del lavoro svolto. Durata della ricerca del lavoro di qualità Inizio e fine di tutti i lavori svolti. Caratteristiche di tutti i lavori svolti. Modelli statistici per l’analisi della transizione Università-lavoro 193 che si susseguono nel periodo di osservazione. Disporre di questo tipo di informazioni è tanto più importante considerato il ruolo assunto dai contratti atipici e la perdita di importanza del “posto fisso” conseguente alle profonde trasformazioni che hanno investito il mercato del lavoro negli ultimi anni. Le indagini sul lavoro dei laureati più consolidate in Italia, condotte dall’ISTAT e dal Consorzio AlmaLaurea, non sono però predisposte per questo tipo di rilevazione17. La valutazione della velocità del conseguimento di un buon lavoro appare dunque per il momento di difficile realizzazione su ampia scala. Tali indagini prevedono, invece, la raccolta di informazioni dettagliate sul lavoro svolto al momento dell’intervista, consentendo di valutare (almeno in via approssimativa) la qualità del lavoro stesso. Da quanto si è detto, in assenza di dati sul tempo di attesa del lavoro di qualità, anziché ripiegare sulla durata della ricerca del primo impiego, appare assai più conveniente valutare l’efficacia esterna dei diversi percorsi formativi con riferimento alla probabilità di svolgere un lavoro di qualità al tempo t. Figura 3. La valutazione del tempo al lavoro di qualità richiede dati event history. Università lavoro qualità lavoro qualità bassa lavoro qualità tempo al lavoro di qualità 17 Nell’indagine condotta da AlmaLaurea viene rilevato il tempo di attesa al primo lavoro (non le sue caratteristiche). 194 La durata della ricerca del primo impiego è un buon indicatore di efficacia... Riferimenti bibliografici ALMALAUREA (2002) Condizione occupazionale dei laureati. Indagine 2001. ANGRIST J., KRUEGER, A. (1991) Does compulsory attendance affect schooling and earnings? Quarterly Journal of Economics, vol 106, n. 4: 979-1014. BIGGERI L., BINI M., GRILLI L. (2001) The transition from university to work: a multilevel approach to the analysis of the time to obtain the first job, J.R.S.S. A, 164, Part 2: 293-305. BORJAS G. J. (1999) Labor Economics, McGraw Hill. BRATTI M., MC KNIGHT A., NAYLOR R., SMITH J. (2004) Higher education outcomes, graduate employment and university performance indicators, J.R.S.S. A, 167, Part 3: 475-496. BRAUNS H., GANGL M., SHERER S. (2001) Education and unemployment: patterns of labour market entry in France, the United Kingdom and West Germany. TSER Project: Comparative Analysis of Transitions from Education to Work in Europe, http://www.mzes.uni-mannheim.de/projekte/catewe. CHECCHI D. (1997) La diseguaglianza. Istruzione e mercato del lavoro, Laterza, Bari. COLUSSI A. (1997) Il tasso di rendimento dell’istruzione in Italia. In ROSSI N. (a cura di) L’istruzione in Italia: solo un pezzo di carta? Il Mulino, Bologna: 255-275. ECKSTEIN Z., WOLPIN K. I. (1995) Duration to first job and the return to schooling: estimates from a search matching model, Review of Economic Studies, Vol. 62, n. 2: 263-286. GIOMMI A., PRATESI M. (2001) Speranza differenziale di occupazione dei laureati e dei diplomati di scuola superiore a Firenze. In: FABBRIS L. (a cura di) Captor 2000: Qualità della didattica e sistemi computer-assisted, CLEUP, Padova: 273-284. GOLDSTEIN H., SPIEGELHALTER D. J. (1996) League tables and their limitations: statistical issues in comparisons of institutional performance, J.R.S.S. A, 159, Part 3: 385-443. GORI E., MEALLI F., RAMPICHINI C. (1993) Indicatori di efficienza ed efficacia per la valutazione dell’attività di formazione professionale, Statistica, n. 3: 501533. HARMON C., WALKER I. (1995) Estimates of the economic returns to schooling, American Economic Review, vol. 85, n. 5: 1278-1286. IANNELLI C. (2001) School effects on youth transitions in Ireland, Scotland and the Netherlands. TSER Project: Comparative Analysis of Transitions from Education to Work in Europe, http://www.mzes.uni-mannheim.de/projekte/catewe. ISTAT (2004) I laureati e lo studio. Inserimento professionale dei laureati. Indagine 2001. Collana Informazioni, n. 8-2004, Roma. Modelli statistici per l’analisi della transizione Università-lavoro 195 JENSEN P., WESTERGARD-NIELSEN N. C. (1987) A search model applied to the transition from education to work, Review of Economic Studies: 461-472. LOGAN J. A. (1996) Opportunity and choice in socially structured labor markets, American Journal of Sociology, Vol 102, n. 1: 114-160. MCFADDEN D. (1974) The measurement of urban travel demand, Journal of Public Economics, 3: 303-328. MULLER W., SHAVIT Y. (1998) The institutional embeddedness of the stratification process. In SHAVIT Y., MULLER W. (eds) From school to work: A comparative study of educational qualifications and occupational destinations, Clarendon Press, Oxford. NGUYEN A. N., TAYLOR J. (2003) Transition from school to first job: the influence of educational attainment, Lancaster University Management School, Working Paper 2003/009 OECD (1998) Employment Outlook, OECD, Paris. PORCU M., TEDESCO N. (2004) Dall’Università al lavoro: analisi dei tempi di passaggio dei laureati dell’Ateneo di Cagliari. In: AURELI-CUTILLO E. (a cura di) Strategie metodologiche per lo studio della transizione Università-lavoro, CLEUP, Padova: 281-296. RAMPICHINI C., PETRUCCI A. (2001) La ricerca della prima occupazione: un modello di durata per i laureati dell’Ateneo fiorentino. In: FABBRIS L. (a cura di) Captor 2000: Qualità della didattica e sistemi computer-assisted, CLEUP, Padova: 257-272. ROSSI P. H., FREEMAN H. E. (1989) Evaluation. A systematic approach, Sage Publications, USA. VAN DER VELDEN R. K. W., WOLBERS M. H. J. (2001) The integration of young people in the labour market within the European Union: the role of institutional settings. TSER Project: Comparative Analysis of Transitions from Education to Work in Europe, http://www.mzes.uni-mannheim.de/projekte/catewe. 196 La durata della ricerca del primo impiego è un buon indicatore di efficacia... Is duration to first job a valid measure of performance of university programs? Summary. Evaluation of the external efficacy of university educational programs is frequently carried out with respect to duration to first job, or to the working status at a given time after graduation. Aim of this paper is to show that labour-market outcomes related to having a job (any job) are not valid measures of the relative impact of different programs. A very simple job-search model is developed. Graduates decide whether to accept a job offer with respect to the utility of the different options. If people differ in the choice criteria, it can be shown that neither the rate of exit from unemployment, nor the probability to be employed at time t are bound to be higher for people coming from “the best” university programs. However, taking into account the features of occupational destinations, duration of search of a “good job” does not depend on individual behaviour, but only on working opportunities. The real possibility to use specific outcome measures depends on the nature of the data as well. Keywords: transition from university to work, external effectiveness, job-search model, hazard function. Determinanti dell’inserimento professionale dei laureati. Analisi delle interazioni Mariano Porcu, Giuseppe Puggioni, Nicola Tedesco1 Dipartimento di Ricerche Economiche e Sociali - Università degli Studi di Cagliari Riassunto: Negli studi sull’inserimento professionale dei laureati risulta oggetto di interesse la definizione di un insieme di predittori dell’evento dicotomico lavorare/non lavorare. È del tutto evidente che i predittori esercitano la loro azione sulla variabile risposta non solo singolarmente ma interagendo fra essi. Con il presente lavoro ci si propone di studiare queste azioni congiunte attraverso l’applicazione di una tecnica di analisi di recente introduzione (Boolean logit) supportando la stessa con analisi esplorative basate su segmentazioni binarie. Parole chiave: Inserimento professionale, determinanti, segmentazione, Boolean regression, logit. 1. Premessa La ricerca delle determinanti che influiscono sul conseguimento di un’occupazione da parte dei laureati è uno dei temi più importanti affrontati in sede di valutazione dell’efficacia del sistema di formazione universitario; esso è stato studiato da diversi autori e secondo differenti approcci metodologici (Chiandotto, 2004; CivardiZavarrone, 2004). Fra questi, di un certo rilievo per la loro diffusione e la loro valenza esplicativa, sono quelli basati sulle relazioni di dipendenza causale di tipo logit. L’evento lavorare/non-lavorare può essere considerato, quindi, come una variabile risposta binaria il cui valore dipende da un insieme di variabili predittrici y = f ( x1 , K , x p ) . I predittori influiscono sulla risposta singolarmente, in maniera congiunta e combinandosi fra loro e secondo i loro diversi livelli. Tale azione sulla risposta prospetta un quadro di analisi riconducibile a quelle che sono le categorie concettuali 1 Il presente lavoro è stato finanziato nell’ambito del progetto “La ricerca di determinanti del rischio mediante analisi di segmentazione di campioni”, cofinanziato dal MIUR. Coordinatore nazionale è Luigi Fabbris, coordinatore del gruppo di Cagliari è Giuseppe Puggioni. Il lavoro è opera comune degli autori. In particolare si possono attribuire a M. Porcu i parr. 1, 2, 5 e 6, a G. Puggioni il par. 3 e a N. Tedesco il par. 4. 198 Determinanti dell’inserimento professionale dei laureati. Analisi delle interazioni della causazione complessa. “Concrete definitions of causal complexity are difficult to come by, perhaps because the concept is so slippery”. In sostanza, “multiple causes interact with one other and the way in which they interact is described by the logical operators and and or” (Braumoeller, 2003). Come è noto sono diversi i concetti che possono essere compresi come esempi di causazione complessa: • X1 and X2 and X3 causano Y (causazione congiunta multipla); • X1 or X2 or X3 causano Y (sostituibilità); • X2 causa Y ma solo in presenza di X1 (contestualità); • X1 and X2 causano Y, X1 or X2 causano Y (condizioni necessarie e sufficienti); • (X1 and X2) or (X3 and X4) causano Y (condizioni INUS2). I meccanismi di causazione complessa sono problematici per la maggior parte delle tecniche statistiche standard. Essi, infatti, implicano delle forme di non addittività che provengono dal processo cumulativo dell’influenza delle variabili indipendenti sulla variabile dipendente. Da un punto di vista applicativo sorge, quindi, il problema di come fare per catturare con i metodi statistici le implicazioni causali complesse o multiple. In questo campo le proposte metodologiche sono molteplici ed è costante l’attenzione che viene dedicata al problema (Frosini, 2004). Anche facendo riferimento all’evento dicotomico lavorare/non-lavorare, si può osservare come in numerosi studi si sia asserito che l’evento è l’esito di un rapporto di causazione complessa o di percorsi causali multipli (Granovetter, 1974; Reyneri, 2002). 2. Modellare l’interazione Il noto modello di regressione logistica viene frequentemente impiegato per modellare la probabilità di un particolare evento come funzione di un insieme di variabili esplicative. L’influenza delle esplicative sulla variabile risposta viene considerata lineare su una scala logit log(π / (1 − π )) = β 0 + β 1 X 1 + β 2 X 2 Per tenere conto dei possibili effetti congiunti esercitati dai predittori si inseriscono dei termini aggiuntivi riferiti al prodotto fra le covariate prese in esame (Hosmer e Lemeshow, 1989) log(π / (1 − π )) = β 0 + β 1 X 1 + β 2 X 2 + β 3 {X 1 × X 2 } . 2 L’acronimo INUS è stato creato da Mackie (Braumoeller, 2003) come definizione di un particolare tipo di relazione causale, riferendosi a “an insufficient but necessary part of a condition which is itself unnecessary but sufficient for the result”. Modelli statistici per l’analisi della transizione Università-lavoro 199 Questo modo di precedere obbliga il ricercatore a mantenere le interazioni fra variabili ad un livello piuttosto elementare, al massimo si considerano interazioni del primo o del secondo ordine sia per ragioni tecniche (sparsità dei dati, potenza dei test) che teoriche (il principio di parsimonia). Come conseguenza, si inseririscono nel modello solo gli effetti principali nonostante siano gli effetti di interazione che dovrebbero essere più utili ai fini predittivi o per isolare gruppi di osservazioni, soprattutto in contesti applicativi quali quelli delle indagini in ambito sociale. 2.1 Il Boolean logit Un metodo che tiene conto delle relazioni di complessità causale è il “Boolean logit” proposto da Braumoeller (2003). Tale metodo consente di stimare l’influenza sulla variabile Y esercitata dall’interazione fra le variabili indipendenti del modello. Viene postulato che la risposta binaria Y sia prodotta da una combinazione Booleana o logica di alcune condizioni A1, …, Ak, …, del tipo, ad esempio: A1 and (A2 or A3) → Pr(Y=1) = π = Pr(A1)×Pr(A2 ∪ A3) la probabilità che si verifichi ciascuna condizione Pr(AK) = pk viene espressa per mezzo di un modello logit o probit (Braumoeller 2003): exp( β k X ) pk = 1 + exp( β k X ) dove k sta ad indicare che ogni “condizione” dipende dalle sue variabili esplicative X = {Xj} attraverso i parametri βk ad esse associati. La stessa Xj può essere inserita in diversi pk senza indurre multicollinearità nel modello (ovviamente, se la “condizione” è solo una il Boolean logit si riduce allo standard logit). Il Boolean logit trova impiego nella soluzione di problemi statistici di stima in presenza di situazioni di complessità causale. Il ricercatore deve postulare un modello di causazione per π; quindi, π viene espressa come funzione di un insieme di variabili esplicative e relativi parametri attraverso le diverse probabilità pk. Ad esempio, se si è assunto che π = Pr(A1)×Pr(A2) logit ( p1 ) = x1,β1 e logit ( p 2 ) = x ,2 β 2 il modello assumerà la forma πi = p1i × p2i e la verosimiglianza ad esso associata sarà: n Lik (β 1 , β 2 ) = ∏ ( p1i × p2 i ) i (1 − p1i × p 2 i ) i =1 y 1− y i 200 Determinanti dell’inserimento professionale dei laureati. Analisi delle interazioni Quindi, una volta che l’esito di un evento viene “spiegato” nel linguaggio della causazione complessa, le ipotesi conseguenti potranno essere espresse in termini di calcolo probabilistico3. 3. I dati I dati analizzati provengono da un’indagine CATI realizzata nel novembre del 2003 dall’Università degli Studi di Cagliari. Sono stati intervistati 1.112 laureati dell’Ateneo che hanno conseguito il loro titolo negli anni 1999 e 2000. Al termine dell’indagine gli intervistati sono stati classificati rispetto al loro status occupazionale come occupati (823), disoccupati (108), ancora impegnati nella formazione (137), in cerca di prima occupazione (42) e inoccupati (2). L’insieme degli occupati è stato poi distinto in due sotto-gruppi, quello di chi ha iniziato a lavorare dopo la laurea (756) e di chi aveva già un’occupazione prima della laurea (67). Il totale degli intervistati che non lavorano (disoccupati + in cerca di prima occupazione) è di 150. Per le finalità del presente lavoro si è deciso di fissare i seguenti criteri di eleggibilità: condizione professionale di: • occupato; • disoccupato o in cerca di prima occupazione; per gli occupati: • aver iniziato a lavorare dopo il conseguimento della laurea; • non aver impiegato più di 36 mesi per trovare l’impiego. Sulla base di questi criteri, per le successive analisi in cui verranno studiati i predittori dell’evento “Y” lavorare/non-lavorare, sono state prese in considerazione 837 osservazioni delle quali 687 riferite ad occupati (Y=1) e 150 a non occupati (Y=0). Nell’indagine, sono state raccolte numerose informazioni sulle caratteristiche demo-sociali degli intervistati e sono state registrate le loro valutazioni sui percorsi formativi e sulle eventuali esperienze lavorative e i relativi tempi di inserimento (Porcu-Tedesco, 2004; Porcu-Puggioni, 2004). Con riferimento a queste informazioni sono state condotte delle analisi esplorative che hanno portato ad isolare un insieme di variabili da noi ritenute particolarmente informative ai fini di questo lavoro: •sesso •età alla laurea •tipo di diploma •voto di laurea •voto di diploma •frequenza corsi post-lauream •tipo di laurea4 •scolarità dei genitori. 3 Un metodo alternativo per modellare l’interazione fra le variabili, anch’esso di recente proposta, è quello della Logic Regression (Ruczinski et al., 2003). Modelli statistici per l’analisi della transizione Università-lavoro 201 Tabella 1. Misure di associazione per coppie delle variabili considerate Variabili Sesso Voto di diploma1 Tipo di diploma2 Tipo di laurea3 Voto di laurea4 Età alla laurea5 Corsi post-lauream6 Anni scuola genitori7 1 0,547 0,194 17,443 148,988 10,197 11,956 16,079 Voto di Tipo di Tipo di diploma diploma laurea 6,302 28,901 40,538 14,652 0,534 0,675 7,979 1,338 6,197 3,163 27,888 6,629 69,207 4,059 0,013 Voto di laurea 14,660 18,758 21,263 Età alla Corsi postlaurea lauream 3,408 9,617 0,013 2 ≤ 90/100, > 90/100; Liceo classico e scientifico, altro tipo di scuola secondaria; Corso di laurea scientifico, altro tipo di facoltà; 4< 108/110 , > 108/110; 5 ≤ 26 anni, > 26 anni; 6 7 Frequenza, non frequenza; < 26 anni di scuola, ≥ 26 anni di scuola. Numero di osservazioni valide 837 per tutti i caratteri e 815 per il carattere “Anni di scuola dei genitori” 3 Nelle successive analisi verrà esclusa la variabile “scolarità dei genitori” in quanto il suo impiego isolato (ad esempio, dalla professione) appare, allo stato delle nostre ricerche, non assumere adeguatamente il ruolo di proxy dell’estrazione socioeconomica del laureato. Nella Tabella 1, nella quale le variabili sono state dicotomizzate per motivi di coerenza con le applicazioni che verranno di seguito presentate, sono riportate alcune misure relative ai legami associativi fra le coppie di variabili considerate. Dall’esame dei valori ottenuti della statistica X2 emerge, con tutta evidenza, che si è di fronte a relazioni funzionali complesse, per cui un simile approccio può fornire solo delle indicazioni di massima. In altri termini, pur prendendo atto della significatività statistica di alcune associazioni, da tali risultanze non è possibile cogliere le eventuali interrelazioni che possono esistere fra le diverse variabili in quanto ciascuna associazione così osservata non tiene conto dei valori assunti dalle restanti. 4. La scelta dei gruppi di variabili per lo studio delle interazioni Il problema della scelta dei criteri con cui formare gruppi di predittori per costruire il modello di regressione Booleano rappresenta, verosimilmente, l’aspetto “debole” di questa metodologia. Evidentemente, una buona scelta di raggruppamento può essere realizzata sulla base di convinzioni od opinioni del ricercatore, basate sulla propria 4 Le tipologie di laurea sono state classificate nel modo seguente: Gruppo Economico-GiuridicoSociale (EGS): Economia, Giurisprudenza e Scienze Politiche. Gruppo Scientifico-Tecnico (SCT): Ingegneria, Fisica, Matematica, Chimica e Geologia. Gruppo Scienze della Vita-Salute (SVS): Medicina, Biologia, Scienze Naturali, Farmacia. Gruppo Umanistico-Educazione-Comportamento (UEC): Lettere, Lingue e Scienze della Formazione (Pedagogia e Psicologia). 202 Determinanti dell’inserimento professionale dei laureati. Analisi delle interazioni esperienza nei riguardi dell’oggetto della ricerca. Tuttavia l’indeterminatezza o la soggettività di questo approccio rischia di indebolire il modello finale. Inoltre, i modelli booleani sono particolarmente avidi di risorse computazionali, per cui calcolare numerosi modelli per poi confrontarli potrebbe richiedere un tempo eccessivo. La proposta che si fa in questo lavoro è di operare la scelta dei gruppi di predittori seguendo i risultati di una procedura di analisi esplorativa dei dati basata sulla segmentazione binaria che, come è noto, è in grado di fornire informazioni sull’importanza dell’influenza sulla variabile risposta esercitata dai diversi predittori e sull’esistenza di eventuali interazioni tra essi. Anche in questo caso, tuttavia, i risultati che si possono ottenere varieranno in funzione del tipo di segmentazione scelto (in particolare il tipo di funzione criterio adottata), ma si ritiene che la scelta di un metodo di segmentazione binario basato sulla funzione criterio del rapporto di verosimiglianza, possa rappresentare una scelta di buon senso in quanto libera il ricercatore dalla necessità di scegliere una misura di distanza (Tedesco, 2002). In aggiunta, la segmentazione è pur sempre una rappresentazione della complessità causale delle variabili osservate in riferimento al campione utilizzato e, quindi, si ritiene opportuno in sede di costruzione dei gruppi Booleani, non perdere questa importante informazione. Sostanzialmente non si vuole far prevalere l’idea astratta del ricercatore rispetto alle informazioni che il campione può fornire. Il software impiegato per la segmentazione è RECPAM5, il criterio scelto è, come accennato, quello della massimizzazione del rapporto di verosimiglianza del logit lavorare/non-lavorare rispetto a tutte le combinazioni, a due a due, tra le diverse modalità delle covariate, mentre si è scelto di avere per ogni nodo/foglia almeno 40 soggetti di cui almeno 10 occupati. La suddivisione è avvenuta ad un livello α del 5%, piuttosto restrittivo, al fine di avere un albero sintetico e non troppo articolato. L’obiettivo, infatti, è quello di esplorare i dati per la costruzione dei gruppi booleani. Le variabili inserite nella segmentazione, oltre alla dicotomica lavora/non lavora, sono: Frequenza corsi post-lauream (Sì/No), sesso (M/F), tipo di diploma (Liceo/Non Liceo), tipo di laurea (SCT, EGS, SVS, UEC), voto di diploma (in centesimi), voto di laurea (110-mi), età alla laurea (in anni compiuti). Si è deciso di lasciare le ultime tre variabili nella loro scala di misura continua al fine di ottenere soglie di suddivisione determinate direttamente dai dati campionari. L’albero ottenuto mostra risultati interessanti. Innanzitutto vi è una forte asimmetria, dovuta al fatto che i laureati in discipline del gruppo scientifico presentano un elevato tasso di occupazione (94,8%) e non si suddividono più. Ciò significa che per questi laureati il tipo di laurea è l’unico e fondamentale fattore di occupazione, senza distinzioni particolari tra i due sessi, per voto o tipo di diploma e per voto o età alla laurea. Al contrario, per tutti gli altri laureati, il tasso di occupazione appare 5 RECPAM è una macro utilizzabile in ambiente SAS, realizzata da F. Carinci (2001) su idea di A. Ciampi (1991). Cfr., ad es., Tedesco (2002). Modelli statistici per l’analisi della transizione Università-lavoro 203 decisamente inferiore (77,8%), ma raggiunge valori piuttosto alti per particolari profili di soggetti. Nella fattispecie, tra i laureati giovani (< 27 anni), il non frequentare corsi post-lauream (89,9%), mentre tra i laureati meno giovani (≥ 27 anni) appare piuttosto penalizzante la bassa votazione al diploma, la frequenza di corsi postlauream e la bassa votazione alla laurea. Figura 1. Albero di segmentazione 204 Determinanti dell’inserimento professionale dei laureati. Analisi delle interazioni Appare evidente, quindi, che tra i laureati in materie non del gruppo scientifico, conta in via prioritaria la giovane età alla laurea, requisito sempre molto apprezzato da chi offre lavoro, piuttosto che la formazione aggiuntiva, evidentemente perché questa è fornita direttamente dalle aziende, almeno quelle di medie–grandi dimensioni6. Interessante appare, poi, l’importanza del voto di diploma, che interviene più volte nella segmentazione, rispetto alla totale assenza del tipo di diploma e del sesso. Ciò sembra suggerire che la “qualità” di un laureato non è solo il prodotto del processo degli studi universitari, ma affonda le radici nella formazione secondaria che, se fatta bene, forma un individuo in maniera efficace. Sempre tra i laureati in discipline non scientifiche, giovani e che hanno un titolo post-lauream, colpisce la non utilità del voto di laurea (l’87,8% è occupato con un voto laurea ≤ 106), mentre tra i migliori (voto laurea > 106) sembra influire la votazione al diploma. In conclusione, tenendo conto anche dei valori dell’indice GPI (Tabella 2)7, appare evidente che il voto di diploma e l’età alla laurea hanno un effetto congiunto sulla variabile risposta, ma solo tra i laureati in discipline non scientifiche. Tabella 2. Valori del GPI Covariate Voto diploma Tipo laurea Età laurea Voto laurea Corso PL Tipo diploma Sesso 6 GPI 100 96 90 60 55 28 27 A tal proposito occorre ricordare come è apparso evidente (Porcu-Tedesco, 2004) che sovente la formazione PL sia più una forma di prolungamento del “parcheggio” in attesa di un’occupazione, piuttosto che la reale esigenza di incrementare le proprie competenze. 7 Si ricorda che il GPI (Global Predictive Index) è un indice che misura il grado di predittività di una covariata sulla base della somma degli incrementi nel valore della LRS per ogni covariata ad ogni nodo, rispetto al valore della LRS senza quel predittore; in buona sostanza è una misura del guadagno di informazione dovuto all’i-esimo predittore. Determinate tutte le i somme (una per ciascuna covariata), si pone uguale a 100 quella maggiore e, quindi, le altre sono calcolate in rapporto a questa. Per tale motivo la covariata che ha il potere predittivo più grande, ha un valore del GPI pari a 100 (Ciampi, 1991). Modelli statistici per l’analisi della transizione Università-lavoro 5. 205 Modellare l’evento Y “lavorare/non-lavorare” Per modellare l’evento lavorare (Y=1) vs non-lavorare (Y=0), sono state prese in esame, anche in considerazione dei risultati dell’analisi di segmentazione, le seguenti variabili dicotomiche 1/0 (1=Sì): •sesso maschile (SEXM); •diploma di liceo classico o scientifico (LICCS); •voto di diploma ≥90/100 (DIP90); •laurea del Gruppo Scientifico-Tecnico (SCIEN); •laurea entro i 26 anni (LAU26); •voto di laurea ≥108 (VOTOHIGH); •ha fatto formazione post-lauream (CORPOST). Di seguito verranno presentati, dapprima i risultati dell’adattamento di uno standard logit, successivamente quelli dell’applicazione del Boolean logit. 5.1 Adattamento di un logit standard I risultati dell’applicazione sono riportati nella Tabella 3. Dal suo esame (valori negativi di βˆ indicano una minore probabilità per l’evento) si può rilevare che le sole variabili che paiono esercitare un effetto significativo (α = 0,05) sulla risposta siano DIP90, SCIEN, LAU26 e CORPOST. Tabella 3. Stime puntuali ( βˆ ) e corrispondenti z-score (z= βˆ / SE ( βˆ ) ) per il modello logit standard di base Covariate SEXM LICCS DIP90 SCIEN LAU26 VOTOHIGH CORPOST LogLik βˆ |z|-score 0,1967 -0,2801 0,5453 1,4855 0,6134 -0,2575 -0,4493 0,916 1,417 2,068 4,315 2,875 1,301 2,309 -362,937 Adattando un modello che teneva conto delle interazioni del primo ordine fra le variabili, è stato osservato come nessuna di esse influenzi significativamente la risposta. 206 Determinanti dell’inserimento professionale dei laureati. Analisi delle interazioni Tabella 4. Stime puntuali ( βˆ ) e corrispondenti z-score (z= βˆ / SE ( βˆ ) ) per alcuni modelli logit standard. Covariate SEXM LICCS DIP90 SCIEN LAU26 VOTOHIGH CORPOST SEXM × SCIEN logLik Mod. Base βˆ |z|-score 0,1967 0,916 -0,2801 1,417 0,5453 2,068 1,4855 4,315 0,6134 2,875 -0,2575 1,301 -0,4493 2,309 − − -362,937 Senza SCIEN βˆ |z|-score 0,5464 0,916 -0,2030 1,417 0,8068 2,068 − − 0,5251 2,470 -0,3212 1,633 -0,5115 2,668 − − -374,985 Con SEXM × SCIEN βˆ |z|-score 0,1780 0,787 -0,2770 1,398 0,5454 2,069 1,3758 2,544 0,6128 2,873 -0,2579 1,303 -0,4445 2,274 0,1778 0,256 -362,904 Come è noto, relazioni di tipo causale, come quella appena descritta, pongono al ricercatore dei problemi di interpretazione degli effetti esercitati dal complesso dei predittori sulla risposta Y. Ad esempio, se dal modello base della Tabella 3 viene escluso il predittore SCIEN si osserva come la variabile SEXM acquisti un significativo potere predittivo (anche se, in termini di logLik, il modello è meno soddisfacente). Tuttavia, adattando un altro modello che comprende il termine di interazione fra SCIEN e SEXM si riscontra la non significatività statistica dello stesso. 5.2 Adattamento di un Boolean logit Per l’adattamento del modello Boolean logit8 sono state considerate le stesse variabili prese in esame per lo standard logit (SEXM, LICCS, DIP90, SCIEN, LAU26, VOTOHIGH, CORPOST). Come detto nel § 2.1, per procedere all’adattamento di un modello Boolean logit è necessario ipotizzare preliminarmente alcune condizioni; anche sulla base delle indicazioni date dai risultati della segmentazione binaria (§ 4) tali condizioni sono state definite come: - A1 = “Possesso di requisiti vincenti per il mondo del lavoro” - A2 = “Possesso di alcuni fattori caratterizzanti la formazione” A1 è definita da un insieme di covariate riferite a ciò che caratterizza in maniera più incisiva chi si candida ad entrare nel mondo del lavoro e, cioè, l’età e le competenze possedute: LAU26 e SCIEN. 8 Per il calcolo dei parametri è stata utilizzata la libreria “Boolean” in ambiente R (http://www.Rproject.org). Modelli statistici per l’analisi della transizione Università-lavoro 207 A2 è definita da un insieme di covariate riferite al profilo formativo del laureato alle quali si aggiunge la variabile “sesso”: SEXM, DIP90, LICCS, VOTOHIGH e CORPOST. La probabilità di essere occupato, Pr(Y=1) = π viene modellata come interazione fra A1 e A2, cioè: π = Pr(A1)×Pr(A2) Le condizioni A1 e A2 vengono espresse come funzioni additive delle esplicative in esame: - A1 = LAU26 + SCIEN - A2 = SEXM + DIP90 + LICCS + VOTOHIGH + CORPOST Come si può ricavare dalla Tabella 5 i risultati ottenuti sono simili a quello dello standard logit in termini di log verosimiglianza e di stima dei parametri. Tuttavia, i modelli che li hanno prodotti sono sostanzialmente differenti. Infatti, nel modello logit standard, nessuno dei termini di interazione ha mostrato di esercitare effetti significativi sulla variabile risposta, risultato questo che implica, da un punto di vista sostanziale, che ciascuna variabile influenza la probabilità di conseguire un’occupazione indipendentemente dalle altre variabili. Nel modello Boolean logit, invece, la risposta Y è prodotta dall’interazione fra i vettori di covariate. Ciò implica che l’essere o meno occupato dipende congiuntamente da A1 e A2: i parametri assumono, quindi, un “tacito” significato di interazione. Come si può vedere i parametri DIP90 e CORPOST mostrano ora di non influenzare in maniera significativa la risposta Y e ciò sta a significare che interagendo con le altre queste covariate perdono il loro potere predittivo. Tabella 5. Stime puntuali ( βˆ ) e corrispondenti z-score (z= βˆ / SE ( βˆ ) ) per il modello logit standard e per due modelli Boolean Covariate LAU26 SCIEN LICCS SEXM DIP90 VOTOHIGH CORPOST LICCS logLik Standard |z|-score βˆ 0,6134 2,875 1,4855 4,315 -0,2801 1,417 0,1967 0,916 0,5453 2,068 -0,2575 1,301 -0,4493 2,309 − − -362,937 Boolean 1 |z|-score βˆ 1,0330 2,996 2,2442 2,813 -1,4221 1,094 0,5035 0,796 1,3693 1,715 -1,2291 1,251 -1,6930 1,066 − − -360,640 Boolean 2 |z|-score βˆ 1,0363 1,904 2,2573 1,192 0,0070 0,008 0,4973 0,501 1,3640 1,326 -1,2127 0,527 -1,6632 0,408 -1,4294 0,904 -360,639 208 Determinanti dell’inserimento professionale dei laureati. Analisi delle interazioni Come detto, il Boolean logit permette di adattare modelli in cui la stessa covariata viene inserita in più di una “condizione”. Ad esempio, la variabile provenienza dal liceo classico o scientifico potrebbe essere inserita tanto nella condizione A1 che nella condizione A2. I risultati dell’adattamento di questi modello sono riportati nella Tabella 5 nelle colonne intestate “Boolean 2”; nonostante la non significatività statistica della variabile LICCS è interessante osservare come essa agisca in direzioni opposte in A1 e in A2. 6. Conclusioni L’impiego dello standard logit per modellare la probabilità di un evento dicotomico come effetto di un rapporto causale di dipendenza rispetto a un insieme di esplicative offre al ricercatore notevoli vantaggi. Essi risiedono principalmente nell’interpretazione sostantiva dei parametri stimati; la loro lettura in termini di log-odds ratio permette di valutare direttamente l’influenza di ogni parametro sulla variabile risposta “controllando” il livello delle altre covariate prese in esame. In un contesto come quello della modellazione della probabilità di conseguire o meno un’occupazione per i laureati considerato in questo studio, lo standard logit consente di evidenziare l’esistenza di alcuni fattori frenanti che intervengono abbassando la probabilità dell’evento occupazione. Fra essi, appaiono di un certo interesse quelli relativi al possesso di un voto alto alla laurea e all’aver frequentato dei corsi di specializzazione dopo il conseguimento del titolo; verosimilmente, essi possono essere visti come fattori che influiscono sull’età con cui ci si presenta sul mercato del lavoro innalzandola e rendendo in questo modo meno competitivo lo stesso laureato. Altri fattori, si è visto, agiscono in direzione contraria (contribuiscono ad aumentare la probabilità dell’evento) e fra essi si distinguono quelli riferiti al possesso di una laurea di tipo scientifico-tecnico e, non inaspettatamente, quelli relativi alla giovane età del laureato. Sempre in termini sostantivi, però, non va dimenticato che un modello logit standard quale quello adattato, non tenendo in considerazione le relazioni esistenti fra le covariate prese in esame, implica una forma di dipendenza causale additiva che non permette di “catturare” appieno la complessità del fenomeno. Il Boolean logit, non deve essere inteso come alternativo (e, tantomeno, superiore) al modello logit standard. Il vantaggio che offre rispetto a quest’ultimo risiede nel fatto che esso permette al ricercatore di adattare dei modelli in cui viene preso in considerazione un rapporto di causazione complessa. I meccanismi di causazione complessa permettono (Braumoeller, 2003) di migliorare il potere predittivo dei modelli adattati per spiegare un determinato evento risposta. Modelli statistici per l’analisi della transizione Università-lavoro 209 Il principale limite di un modello Boolean risiede nelle scelte soggettive che si operano per la definizione degli statements (condizioni) Booleani, anche se la possibilità di ricorrere a criteri basati sulla verosimiglianza mitiga questa soggettività. In questo senso, ricorrere a metodi di segmentazione binaria del tipo di quelli adottati in questo lavoro, può realmente aiutare il ricercatore ad operare scelte meno soggettive e più coerenti con le informazioni che il campione fornisce. Altro notevole limite è quello che deriva dalla non interpretabilità dei parametri stimati in termini di log-odds ratio rispetto alla risposta modellata ed, infine, non va sottovalutato che l’algoritmo di stima è “avido” sia di dati (data consumpting) sia di tempo computazionale. Tuttavia, tenendo in considerazione i risultati ottenuti in questa e in altre applicazioni (Muggeo-Porcu, 2004), si può concludere che il Boolean logit si candida per essere un utile strumento per implementare analisi di sensibilità di altri modelli per risposte causali e quindi impiegabile per rafforzare le evidenze emerse sul significato sostantivo delle esplicative prese in esame. Riferimenti bibliografici AGRESTI A. (2002) Categorical Data Analysis, Wiley-Interscience, Hoboken NJ. AKAIKE H. (1973), Information theory and an extension of the maximum likelihood principle, in Proceedings of the Second International Symposium on Information Theory, B.N. Petrov & Csaki, eds. Akademiai Kiado, Budapest: 267-281. BRAUMOELLER B.F. (2003), Causal Complexity and the study of politics, Political Analysis, 11: 209-233. CARINCI F., PELLEGRINI F. (2001), RECPAM/SAS (Recursive Partitioning and Amalgamation): a statistical tool for criterion-driven data-mining, Technical Report, in http://med.monash.edu.au\publichealt. CHIANDOTTO B. (2004), “La situazione occupazionale dei laureati: dall’indagine alla pianificazione degli interventi sui percorsi formativi”, in M. CIVARDI (a cura di), Transizione Università-Lavoro: la definizione delle competenze, vol. 4, CLEUP, Padova: 1-18. CIAMPI A. (1991), Generalized Regression Tree, Comput. Stat. Data Analysis, 12. CIVARDI M., ZAVARRONE E. (2004), “Proposta di un modello generatore delle competenze acquisite attraverso la formazione universitaria”, in: E. AURELI CUTILLO (a cura di), Strategie metodologiche per lo studio della transizione Università-Lavoro, vol. 5, CLEUP, Padova: 141-152. FROSINI B.V. (2004), Causality and Causal Models, in Atti della XLII Riunione della Società Italiana di Statistica, v. 1, Bari: 3-32. 210 Determinanti dell’inserimento professionale dei laureati. Analisi delle interazioni GRANOVETTER M. (1974), Getting a Job: a Study of Contacts and Careers, Harvard University Press, Cambridge MA. HOSMER D.W., LEMESHOW S. (1989) Applied Logistic Regression, John Wiley & Sons, New York. MUGGEO V, PORCU M.. (2004), Factors that Cause University Students to Drop Out. An Alternative Modelling of Interaction Terms in Logistic Regression Models, in Atti della XLII Riunione della Società Italiana di Statistica, v. 2, Bari: 511-514. PORCU M., PUGGIONI G. (2004), “L’esportazione del capitale umano: prima valutazione del fenomeno per i laureati dell’Ateneo di Cagliari” (in corso di stampa). PORCU M., TEDESCO N. (2004), “Dall’Università al Lavoro: analisi dei tempi di passaggio dei laureati dell’Ateneo di Cagliari”, in: E. AURELI CUTILLO (a cura di), Strategie metodologiche per lo studio della transizione UniversitàLavoro, vol. 5, CLEUP, Padova: 281-295. REYNERI E. (2002), Sociologia del Mercato del Lavoro, il Mulino, Bologna. RUCZINSKI I., KOOPERBERG C., LEBLANC M. (2003), Logic Regression, Journal of Computational and Graphical Statistics, 12:. 475-511. R DEVELOPMENT CORE TEAM (2003), R: A language and environment for statistical computing, R Foundation for Statistical Computing, Vienna; http://R-project.org. TEDESCO N. (2002), “Analisi di segmentazione di una coorte di immatricolati dell’Università di Cagliari”, in: G. PUGGIONI (a cura di), Modelli e metodi per l’analisi dei rischi sociali e sanitari, vol. 2, CLEUP, Padova: 141-160. Determinants of occupational placement of graduates. An analysis of interactions Summary. In the analysis of occupational placement of graduates it is interesting to define the role paid by some covariates assembled to predict the dichotomous event occupation/not-occupation. It is well known that these covariates influence the response not only singularly but also jointly. This work propose an evaluation of this joint effect by means of a recently introduced technique named Boolean logit. An exploratory binary segmentation is also presented to support the analysis. Keywords. Occupational placement, determinants, segmentation, Boolean regression, logit. Un modello multilivello per l’analisi della condizione occupazionale dei laureati 1 Bruno Chiandotto, Silvia Bacci Dipartimento di Statistica “G. Parenti” - Università degli Studi di Firenze Riassunto. Oggetto del contributo è l’analisi della condizione occupazionale dei laureati dell’Ateneo fiorentino nell’anno solare 2000 a un anno e mezzo/due anni e mezzo dal conseguimento del titolo. Lo scopo perseguito è relativo all’individuazione delle possibili determinanti del fenomeno indagato, sia a livello individuale (quali genere, residenza, diploma di scuola superiore, voto di laurea, …) che a livello istituzionale (in termini di caratteristiche distintive dei diversi corsi di studio). L’impiego di analisi descrittive è propedeutico per l’applicazione di un modello di regressione logistica con intercetta casuale a due livelli di aggregazione, il cui utilizzo è giustificato dalla necessità di tenere in debito conto la struttura gerarchica dei dati oggetto di studio: infatti, come unità di primo livello sono stati considerati i laureati dell’Ateneo fiorentino, mentre come unità di secondo livello i rispettivi corsi di laurea. Parole chiave: Modelli multilivello, Regressione logistica, Sbocchi occupazionali, Probabilità di occupazione. 1. Introduzione L’analisi dei profili e degli sbocchi occupazionali dei laureati e dei diplomati, che può essere condotta da tutte le Università che aderiscono al Consorzio ALMA- 1 Il presente lavoro è stato finanziato nell’ambito del PRIN 2002, cofinanziato dal MIUR “Transizioni Università-lavoro e valorizzazione delle competenze professionali dei laureati: modelli e metodi di analisi multidimensionali delle determinanti”. Coordinatore nazionale è Luigi Fabbris, coordinatore del gruppo di Firenze è Bruno Chiandotto (titolo del progetto dell’unità di ricerca locale “Valutazione del processo formativo universitario, sbocchi professionali e pianificazione dei percorsi formativi: modelli e metodi”). L’idea iniziale, la struttura e l’impostazione del lavoro sono dovuti al contributo di entrambi gli autori, mentre le elaborazioni e l’implementazione del modello vanno attribuite a S. Bacci. 212 Un modello multilivello per l’analisi della condizione occupazionale dei laureati LAUREA2, consente di pervenire ad una misura di efficienza (interna) e di efficacia (interna ed esterna) della qualità dei servizi formativi offerti dagli Atenei. Com’è noto, le rilevazioni effettuate direttamente da AlmaLaurea coinvolgono i laureati della sola sessione estiva ad uno, due e tre anni dal conseguimento del titolo (dall’anno 2003, sempre limitatamente alla sola sessione estiva, vengono intervistati i laureati/diplomati ad uno, tre e cinque anni dal conseguimento del titolo). L’Ateneo Fiorentino, a partire dal 1998, ha deciso di estendere l’indagine all’intero collettivo dei laureati dell’anno solare3 al fine di pervenire ad una migliore comprensione di quella che è la qualità del prodotto finito (i laureati e diplomati) della propria attività formativa, anche attraverso l’acquisizione pressoché completa dei dati a livello di singolo corso di laurea; l’indagine è stata ripetuta per tutti i laureati degli anni 1999, 2000, 2001 e 20024. I risultati dell’analisi dei dati relativi agli studenti che hanno conseguito un titolo di studio presso l’Università degli Studi di Firenze durante l’anno solare 2000 sono contenuti in un volume di recente pubblicazione (Chiandotto B., Bacci S. e Bertaccini B., 2004). 2 Il consorzio interuniversitario ALMALAUREA nasce nel 1994 per iniziativa dell’Osservatorio Statistico dell’Università di Bologna ed attualmente è gestito dalle Università aderenti con il sostegno del Ministero dell’Istruzione, dell’Università e della Ricerca. I principali obiettivi dei servizi offerti da ALMALAUREA sono, da una parte, quelli di assicurare agli organi di governo degli atenei appartenenti al consorzio, ai nuclei di valutazione, alle commissioni impegnate nella didattica e nell’orientamento, attendibili e tempestive basi documentarie e di verifica, volte a favorire i processi decisionali e la programmazione delle attività; dall’altra di creare una sempre più stretta collaborazione tra università e mondo produttivo, facilitando, attraverso la propria banca dati, l’accesso dei giovani al mercato del lavoro italiano ed internazionale. Per ulteriori informazioni, si può consultare il sito Internet: www.almalaurea.it. 3 La rilevazione effettuata dall’Università di Firenze si caratterizza, rispetto ad AlmaLaurea, per gli aspetti di seguito riportati: - l’inserimento nella scheda di rilevazione di due ulteriori quesiti sulle motivazioni dell'iscrizione all'università; - nei quesiti a risposta multipla (per rendere possibili adeguate elaborazioni statististiche) viene richiesta la manifestazione delle priorità; - al quesito generico sull'utilizzo delle competenze acquisite durante la formazione universitaria della scheda AlmaLaurea è stato aggiunto un quesito molto articolato sulle diverse tipologie di competenze acquisite, sul loro utilizzo e sulle modalità di acquisizione delle stesse (insegnamenti universitari, attività di tirocinio, corsi di specializzazione, corsi di formazione professionale, acquisizioni sul posto di lavoro, ...). 4 Chi fosse interessato ad un approfondimento conoscitivo sui risultati delle analisi svolte può consultare: Bulgarelli G. (2002), Bertaccini B. (2000), Chiandotto B. (2002), Chiandotto B. e Bertaccini B. (2003). Modelli statistici per l’analisi della transizione Università-lavoro 213 In questa nota vengono presentati sinteticamente5 alcuni dei risultati conseguiti soffermando l’attenzione sulle conclusioni cui si è pervenuti a seguito di una applicazione di un modello logistico a due livelli (dove i laureati sono le unità di primo livello ed i corsi di studio le unità di secondo livello) nel quale la variabile dipendente di riferimento è la condizione occupazionale dei laureati a un anno e mezzo/due anni e mezzo dal conseguimento del titolo e l’obiettivo che si vuol conseguire è quello dell’individuazione e della misura dell’effetto netto delle sue possibili determinanti (fattori esplicativi). Il secondo paragrafo di questa nota è dedicato alla illustrazione dei risultati dell’analisi, sostanzialmente di natura descrittiva, finalizzata alla individuazione dell’eventuale influenza esercitata sulla condizione occupazionale dei laureati/diplomati presso l’Università di Firenze nell’anno solare 2000 da caratteristiche individuali, quali genere, residenza, diploma di scuola superiore, ecc. Per pervenire alla misura dell’effetto “netto” eventualmente esercitato da possibili determinanti (sia individuali che istituzionali) della condizione occupazionale si è fatto ricorso ai modelli gerarchici o di regressione multilivello che, com’è noto, hanno la principale caratteristica di tenere in considerazione la struttura gerarchica dei dati oggetto di studio. I risultati delle analisi condotte sono riportati nei paragrafi successivi, mentre alcune considerazioni conclusive completano la nota. 2. Condizione occupazionale dei laureati nell’Ateneo fiorentino nell’anno 2000 Nell’anno solare 2000, hanno concluso gli studi con successo nell’Università degli Studi di Firenze 4846 laureati e 399 diplomati, per un totale di 5245 studenti che costituiscono la popolazione di riferimento delle analisi condotte6. Per un quadro d’insieme sulla condizione occupazionale del contingente analizzato, disaggregata per facoltà e per corsi di laurea, si osservino i dati riportati nella Tavola 1. 5 La trattazione completa è riportata nel suddetto volume di recente pubblicazione: “ I laureati e diplomati dell’Ateneo fiorentino dell’anno 2000: Profilo e sbocchi occupazionali (Chiandotto B., Bacci S. e Bertaccini B., 2004). 6 Le indagini sugli Sbocchi Occupazionali sono state condotte nel periodo giugno-luglio 2002 tramite interviste telefoniche ricorrendo alle tecniche C.A.T.I. (Computer Aided Telephone Interviewing). Il disegno d’indagine ha anche previsto l’invio postale di un questionario opportunamente adattato ai laureati non contattati durante la fase telefonica della rilevazione, fornendo la possibilità di un’eventuale compilazione tramite e-mail. Il contingente dei laureati/diplomati è stato, pertanto, contattato in un arco temporale che varia dai 15 mesi (per i laureati in luglio) ai 30 mesi (per i laureati in gennaio). A livello complessivo si registra un tasso di risposta pari all’82,6% (4330 interviste su un collettivo di 5245 individui); se si escludono le interviste postali, i laureati e diplomati contattati telefonicamente sono stati circa il 76,9% del totale (3736 laureati e 296 diplomati). 214 Un modello multilivello per l’analisi della condizione occupazionale dei laureati Al momento dell’intervista il 76,5% degli intervistati (2889 laureati e 307 diplomati)7 si dichiara occupato. Tra i non occupati, soltanto il 9,5% manifesta l’intenzione di cercare lavoro, mentre il 14,0% dichiara di non lavorare e non cercare lavoro. Pertanto, il tasso occupazionale netto, calcolato escludendo quest’ultimo contingente - di fatto costituito da giovani inattivi sul mercato del lavoro e quindi da non considerarsi come disoccupati - sale all’89,0%. Se si escludono dall’analisi le facoltà di Giurisprudenza e Medicina e Chirurgia, nelle quali, notoriamente, la partecipazione ad attività formative non è generalmente dovuta alla libera scelta del laureato ma è spesso originata da obblighi istituzionali e statutari, i tassi di occupazione generale e netto (cioè calcolato escludendo gli inattivi) salgono rispettivamente all’83,0% e al 90,1% . Val la pena segnalare l’altissimo livello occupazionale registrato per i diplomati intervistati (94,5%), soprattutto alla luce del fatto che oltre l’83,0% di questo contingente (pari al 87,9% degli occupati) svolge un lavoro iniziato dopo il conseguimento del titolo, mentre i laureati occupati che non proseguono il lavoro iniziato prima del completamento degli studi sono pari soltanto al 60,3% del totale laureati (ovvero l’80,4% degli occupati). Tavola 1. Laureati occupati e non occupati al momento dell’intervista per Facoltà e Corso di studi Non lavora AGRARIA Scienze agrarie Scienze forestali Scienze forestali ed ambientali Scienze agrarie tropicali e subtropicali Scienze e tecnologie agrarie ARCHITETTURA Architettura ECONOMIA Economia aziendale Economia e commercio Scienze statistiche ed attuariali Scienze statistiche ed economiche FARMACIA Chimica e tecnologia farmaceutica Farmacia GIURISPRUDENZA Giurisprudenza 7 16 2 7 2 3 2 114 114 84 1 82 1 6 4 2 272 272 % 18,0 12,5 20,6 10,0 33,3 20,0 17,0 17,0 14,4 5,3 15,5 11,1 8,5 12,5 5,1 58,6 58,6 Lavora 73 14 27 18 6 8 558 558 498 18 448 24 8 65 28 37 192 192 % Laureati 82,0 87,5 79,4 90,0 66,7 80,0 83,0 83,0 85,6 94,7 84,5 100,0 88,9 91,5 87,5 94,9 41,4 41,4 89 16 34 20 9 10 672 672 582 19 530 24 9 71 32 39 464 464 Si segnala che in questo paragrafo si richiamano alcune conclusioni relative all’analisi condotta considerando sia i laureati che i diplomati, mentre per la stima del modello sono stati presi in considerazione soltanto i dati relativi ai laureati. Modelli statistici per l’analisi della transizione Università-lavoro 215 Tavola 1 (segue) Non lavora INGEGNERIA Ingegneria civile Ingegneria elettronica Ingegneria meccanica Ingegneria informatica Ingegneria per l'ambiente e il territorio Ingegneria delle telecomunicazioni LETTERE E FILOSOFIA Filosofia Lettere Lingue e letterature straniere Lingue e letterature straniere moderne Storia MEDICINA E CHIRURGIA Medicina e chirurgia Odontoiatria e protesi dentaria SCIENZE della FORMAZIONE Lingue e letterature straniere Lingue e letterature straniere (europee) Materie letterarie Pedagogia Psicologia Scienze della educazione SCIENZE POLITICHE Scienze politiche SMFN Chimica Fisica Matematica Scienze biologiche Scienze della informazione Scienze geologiche Scienze naturali TOTALE 32 4 9 5 6 5 3 139 22 77 19 12 9 70 68 2 60 2 3 5 5 19 26 73 73 101 14 7 10 42 14 14 967 % Lavora % 9,3 4,6 8,9 6,8 26,1 11,6 18,8 28,6 38,6 29,4 21,6 23,1 33,3 48,3 59,6 6,5 16,2 11,1 18,8 17,9 11,1 29,7 13,1 23,6 23,6 31,2 26,4 30,4 27,8 36,2 30,4 36,8 25,1 312 90,7 95,4 91,1 93,2 73,9 88,4 81,3 71,4 61,4 70,6 78,4 76,9 66,7 51,7 40,4 93,5 83,8 88,9 81,3 82,1 88,9 70,3 86,9 76,4 76,4 68,8 73,6 69,6 72,2 63,8 100,0 69,6 63,2 74,9 83 92 69 17 38 13 347 35 185 69 40 18 75 46 29 310 16 13 23 40 45 173 236 236 223 39 16 26 74 12 32 24 2889 Laureati 344 87 101 74 23 43 16 486 57 262 88 52 27 145 114 31 370 18 16 28 45 64 199 309 309 324 53 23 36 116 12 46 38 3856 Gli elevati valori (cfr. Tavole 2 e 3) assunti dalla V di Cramer (0,37 per il contingente comprendente tutti i laureati e 0,40 per quello relativo ai soli laureati che non lavoravano al momento della laurea) evidenziano una forte associazione tra corso di laurea frequentato e probabilità che ha il laureato stesso di essere occupato a un anno e mezzo / due anni e mezzo dal conseguimento del titolo. Oltre la tipologia del titolo di studio conseguito, altri caratteri possono, ovviamente, influenzare la probabilità di occupazione; ad esempio, l’analisi del quadro occupazionale, disaggregato per genere, evidenzia differenze rilevanti nei due sessi, soprattutto per quanto riguarda alcune facoltà. 216 Un modello multilivello per l’analisi della condizione occupazionale dei laureati Tavola 2. Misure di associazione relative ai laureati occupati e non occupati al momento dell’intervista Statistiche d’associazione per Percentuale di laureati che lavorano vs Corso di laurea in cui è stato conseguito il titolo Statistica Valore Chi-quadro 533,9860 V di Cramer 0,3721 GdL Prob 38 < 0,0001 Tavola 3. Misure di associazione relative ai laureati occupati e non occupati al momento dell’intervista che non lavoravano alla laurea Statistiche d’associazione per Percentuale di laureati che lavorano vs Corso di laurea in cui è stato conseguito il titolo Statistica Valore Chi-quadro 427,2321 V di Cramer 0,4003 GdL Prob 38 < 0,0001 Un’altra possibile determinante della condizione occupazionale al momento dell’intervista è il tempo di conseguimento del titolo. Le analisi svolte evidenziano il trend crescente del tasso occupazionale all’aumentare del tempo di conseguimento, da un 72,7% dei laureati e diplomati in tempi brevi per raggiungere un 80,0% di coloro che si laureano in tempi medio lunghi. Questo risultato sembra contraddire la convinzione diffusa che tempi rapidi di acquisizione del titolo conducano ad un rapido inserimento nel mondo del lavoro ed è facilmente spiegabile se si guarda ai tassi di partecipazione ad attività formative post-laurea, che risultano superiori proprio per i laureati in tempi brevi. La stessa analisi, condotta per classi di voto al conseguimento del titolo, mostra una proporzionalità diretta, per quanto riguarda i corsi di laurea, tra la percentuale di occupati ed il giudizio finale conseguito, se si eccettua il calo evidenziato dai laureati che hanno riportato un voto pari a 110/110 e lode: infatti, soltanto il 71,5% dei laureati con il massimo dei voti risulta occupato. Tale valore apparentemente anomalo, peraltro non rilevato per i diplomati, trova però giustificazione nel tasso di partecipazione ad almeno un’attività formativa in corso, che per questa categoria di soggetti risulta il più elevato. È quindi verosimile ritenere che i laureati in tempi brevi e con votazioni elevate siano maggiormente propensi alla prosecuzione degli studi. Relativamente alla possibile influenza del titolo di studio dei genitori non emerge una tendenza particolarmente netta, fatta eccezione per il dato interessante secondo cui i giovani con entrambi i genitori laureati presentano il tasso occupazionale più basso rispetto alle altre categorie (63,8%). Tale fatto, accompagnato dall’elevata percentuale di giovani con entrambi i genitori in possesso di laurea che non hanno mai lavorato (24,2%), è coerente con quanto osservato nello studio svolto a proposito della maggiore propensione a svolgere attività formative post-titolo da parte di questa tipologia di laureati (l’80,6% dichiara di aver già concluso o di stare Modelli statistici per l’analisi della transizione Università-lavoro 217 ancora svolgendo almeno un’attività di formazione post-laurea contro il 66,7% di coloro i cui genitori sono in possesso al più della licenza elementare). Un’ulteriore variabile analizzata è la zona di residenza degli intervistati: il tasso di occupazione maggiore, pari all’82,8%, si registra nelle regioni del Centro– Nord (eccettuata la Toscana), mentre il tasso più basso, pari al 60,7%, risulta al Sud e nelle Isole. Il Sud Italia e le Isole presentano altresì la percentuale più alta di disoccupati che non hanno mai lavorato (29,1%). 3. Il modello gerarchico a due livelli Come anticipato nell’introduzione, per procedere ad una più soddisfacente individuazione delle possibili determinanti della condizione occupazionale si è fatto ricorso ai modelli di regressione multilivello8. La finalità che s’intende perseguire attraverso il ricorso ai modelli di regressione multilivello è quella dell’individuazione delle variabili maggiormente esplicative della condizione occupazionale di un laureato a un anno e mezzo / due anni e mezzo dalla laurea (cioè al momento dell’intervista) e di misurarne l’effetto netto. La variabile risposta (indicata con lavora) presa in considerazione è, dunque, la condizione occupazionale del laureato al momento dell’intervista; le modalità che essa può assumere sono due (si tratta quindi di una variabile dicotomica): il laureato non lavora (lavora=0) oppure il laureato lavora (lavora=1)9. Trattandosi di una variabile binaria, il modello prescelto è stato il modello di tipo logistico (a due livelli), preferito ad un modello di tipo probit per la maggiore facilità di interpretazione dei risultati attraverso il calcolo degli odds10. Si è proceduto alla stima del modello prendendo in considerazione come unità di primo livello tutti i 3856 laureati che hanno partecipato all’indagine11, di cui il 8 Al riguardo si possono consultare, tra gli altri, i volumi di Goldstein H. (2003) e Snijders A.B., Bosker R. J. (1999). 9 In un primo momento si era pensato di usare una variabile risposta politomica (non ordinale) che tenesse conto del fatto che il laureato non occupato fosse in cerca di lavoro (quindi le possibili modalità sarebbero state: il laureato lavora, il laureato non lavora e non cerca lavoro, il laureato non lavora e cerca lavoro). Purtroppo, i software al momento disponibili non hanno consentito lo sviluppo di modelli multilivello con variabili risposta politomiche non ordinali. 10 Gli odds sono dati dal rapporto tra la probabilità che un laureato lavori rispetto alla probabilità che lo stesso laureato non lavori al momento dell’intervista. 11 Considerato che lo scopo finale dell’analisi è capire che cosa influenza il tasso di neo-occupazione dei laureati (piuttosto che il tasso generale di occupazione), nel volume Chiandotto B., Bacci S. e Bertaccini B. (2004) viene presentato il modello che assume come unità di primo livello soltanto i 2666 laureati dell’anno 2000 che non lavoravano al momento della laurea.; tra le due applicazioni non sono state riscontrate differenze di particolare rilievo. 218 Un modello multilivello per l’analisi della condizione occupazionale dei laureati 74,9% è occupato al momento dell’intervista e il 25,1% risulta non occupato; mentre come unità di secondo livello sono stati scelti i 39 corsi di laurea in cui sono suddivisi i laureati dell’anno 200012. La scelta delle unità di secondo livello è ricaduta sui corsi di laurea e non sulle facoltà a ragione delle differenze che di fatto sussistono, in maniera più o meno accentuata, tra corsi di laurea diversi all’interno di una stessa facoltà, differenze che hanno un’evidente ricaduta sui tassi di occupazione come evidenziato dai dati riportati in Tavola 1. 4. Variabili esplicative di primo livello e di secondo livello Le variabili esplicative prese in considerazione per la stima del modello sono state scelte sulla base delle analisi descrittive svolte, di cui molto sommariamente si è dato conto nel secondo paragrafo, e sulla base della conoscenza del fenomeno. In particolare, come covariate di primo livello sono state incluse, almeno in una fase iniziale, le seguenti: Variabili esplicative di primo livello continue • • • 12 Tempo intercorso tra la laurea e l’inizio della ricerca di un lavoro (tempolavoro): l’unità di misura di tale variabile è il numero di mesi e il valore minimo che essa può assumere è 0, nel caso in cui l’intervistato abbia iniziato a cercare un lavoro immediatamente dopo il conseguimento del titolo. Tempo intercorso tra la laurea e l’intervista (tempointerv): l’unità di misura di tale variabile è il numero di mesi e assume valori compresi tra 15 e 30 mesi. Voto di laurea (votolau): è il voto di laurea espresso in 110-mi e assume valori tra 66 e 113 (corrispondente al 110 e lode). Considerato che le variabili relative al voto di laurea e al voto medio agli esami sono fortemente correlate – risultando, infatti, un indice di correlazione di Pearson pari a 0,84 – si è preferito non inserirle entrambe nel modello per evitare fenomeni di multicollinearità. La scelta è caduta sul voto di laurea, piuttosto che sul voto medio agli esami, in quanto nel relazionarsi col mercato del lavoro (sia privato che pubblico) è il voto finale di laurea il principale elemento distintivo del neo-laureato. A causa dell’esiguo numero di laureati (2) in Agricoltura tropicale e subtropicale e in Economia Politica, è stato deciso di accorpare questi due corsi di laurea con, rispettivamente, Scienze agrarie tropicali e subtropicali ed Economia e commercio, in modo da non inficiare la significatività delle stime. Anche i due corsi di laurea in Lingue e letterature straniere di Lettere e Filosofia e di Scienze della Formazione sono stati considerati come un unico corso. Modelli statistici per l’analisi della transizione Università-lavoro • • 219 Età alla laurea (etalau): tale variabile assume valori da un minimo di 21,9 anni ad un massimo di 67,6 anni. Nel modello non è invece stata inclusa la variabile relativa all’indice di durata13 sia a causa dell’elevata correlazione rispetto all’età alla laurea (indice di correlazione di Pearson pari a 0,58) sia perché, rispetto al mercato del lavoro così come rispetto alla scelta di proseguire ulteriormente la formazione, ha più importanza l’età a cui il laureato consegue il titolo, piuttosto che il numero di anni che esso ha impiegato per completare gli studi. Voto di maturità (votodip): è il voto di maturità espresso in 60-esimi e varia da un minimo di 36/60 al massimo di 60/60. Variabili esplicative di primo livello discrete • Sesso (sesso): è una variabile binaria con modalità “femmina” (femmina) e “maschio” (maschio). Essendo le femmine laureate il 56,4%, come riferimento è stata assunta la modalità femmina14. • Esperienze lavorative durante gli studi (lav1): è una variabile binaria con modalità “no” (lav1_no – il laureato non ha avuto esperienze lavorative durante gli studi) e “sì” (lav1_sì – il laureato ha avuto esperienze lavorative durante gli studi). In tal caso, benché la maggior parte dei laureati abbia avuto esperienze lavorative durante gli studi, si è deciso di assumere come riferimento la modalità “no”: infatti, trattandosi di una variabile binaria con modalità sì/no risulta di più facile e immediata interpretazione un coefficiente di regressione relativo alla modalità “sì” (indicante la presenza della variabile). • Svolgimento di uno stage o tirocinio per il conseguimento del titolo (tirocin): è una variabile binaria con modalità: “tirocinio non svolto” (tirocin_no) e “tirocinio svolto” (tirocin_sì). Oltre l’83% dei laureati ha dichiarato di non aver svolto nessun tirocinio, quindi come riferimento è stata assunta la modalità “tirocinio non svolto”. • Frequenza alle lezioni (frequenza): è una variabile binaria che può assumere le modalità: “frequenza elevata” (elevata) e “frequenza bassa” (bassa). Come riferimento è stata scelta la modalità “frequenza elevata”, essendo risultata leggermente più elevata dell’altra. Si puntualizza che la frequenza elevata caratterizza il laureato che ha frequentato regolarmente tutti o quasi tutti i corsi, mentre la frequenza bassa caratterizza il laureato che ha frequentato soltanto alcuni corsi saltuariamente oppure non ha mai frequentato alcun corso. • Tipo di maturità conseguita (tipmat): le modalità assumibili da tale variabile sono: “classica” (classica), “scientifica” (scientifica), “tecnica” (tecnica), “altra 13 L’indice di durata è definito come rapporto tra durata effettiva degli studi universitari svolti e durata legale. 14 Tranne le poche eccezioni segnalate nel testo, come regola generale si è scelto di adottare come riferimento per le variabili esplicative discrete la modalità con la frequenza osservata più elevata. 220 • • • • • • Un modello multilivello per l’analisi della condizione occupazionale dei laureati maturità” (altramat). Come riferimento è stata adottata la modalità “scientifica”, essendo quella che si presenta con la maggior frequenza. Classe sociale di appartenenza (p_socgen): le modalità assumibili da tale variabile sono: “borghesia” (borghesia), “classe media impiegatizia” (impiegatizia), “piccola borghesia” (picc_borgh), “classe operaia” (operaia). La modalità presa come riferimento è “borghesia”. Titolo di studio dei genitori (tit_stud): in una prima fase sono state considerate le modalità “al più licenza elementare” (elementare), “licenza media inferiore” (media), “diploma di scuola superiore” (superiori), “un genitore con laurea” (unalau), “entrambi i genitori laureati” (duelau); “diploma di scuola superiore” è stato assunto come riferimento. In una seconda fase, poiché, da una parte, la variabile nel suo complesso è risultata significativa sulla base del test di Wald multivariato, ma, dall’altra, soltanto alcune delle singole modalità sono risultate tali, si è deciso di procedere ad un raggruppamento delle suddette modalità, in modo da facilitare l’interpretazione del risultato finale. In particolare, la variabile tit_stud è stata ricondotta ad una variabile binaria con modalità “al più scuola dell’obbligo” (tit_basso) e “almeno diploma di scuola superiore” (tit_alto) – modalità quest’ultima presa come riferimento . Regione di residenza (macroreg): anche in questo caso, per gli stessi motivi esposti al punto precedente, la variabile è stata trasformata da politomica in dicotomica. Le modalità iniziali – “province di Firenze e Prato” (Fi_Po), “altra provincia Toscana” (altraToscana), “altra regione del Centro-Nord” (CentroNord), “Sud e Isole” (Sud), “estero” (estero) – sono state raggruppate nelle due modalità “residente al Centro-Nord o all’estero” (resid_nosud) – modalità assunta come riferimento - e “residente al Sud” (resid_sud). Conoscenza della lingua inglese (ling1_gb): le modalità assumibili da tale variabile sono “nessuna/scarsa” (ingl_scarso), “sufficiente” (ingl_suff), “buona” (ingl_buono), “ottima” (ingl_ottimo). La maggior parte degli intervistati dichiara una buona conoscenza dell’inglese, quindi questa modalità è stata assunta come riferimento. Conoscenza di word processor (info3_wp): le modalità considerate sono le stesse della variabile ling1_gb (conoscenza della lingua inglese); la modalità più frequente risulta essere quella relativa ad una buona conoscenza di word processor (wp_buono). Conoscenza di fogli elettronici (info4_fe): stesse modalità di cui sopra; come riferimento è stata assunta la scarsa o inesistente conoscenza dell’uso di fogli elettronici, risultando questa la più diffusa. La conoscenza di altri strumenti informatici non è stata presa in considerazione, in quanto trattasi di strumenti peculiari soltanto per alcuni gruppi di laureati (per es. l’uso di CAD per gli archi- Modelli statistici per l’analisi della transizione Università-lavoro 221 tetti o la conoscenza di Database per gli ingegneri e gli informatici) e, quindi, richiesti eventualmente soltanto per specifiche tipologie di lavori. Con riferimento alle covariate discrete, il laureato – base è una persona di sesso femminile, non ha avuto esperienze lavorative durante gli studi, ha conseguito la maturità scientifica, proviene da una famiglia appartenente alla classe borghese, i genitori sono in possesso del diploma di scuola superiore, risiede nelle province di Firenze o Prato, ha una buona conoscenza della lingua inglese e dei programmi di scrittura su PC, mentre ha scarse conoscenze dell’uso di fogli elettronici. Entrando nel merito delle variabili esplicative di secondo livello, ideale sarebbe stato poter disporre di un indicatore diretto delle differenze tra corsi di laurea. Non avendo a disposizione nessuna variabile di questo tipo, si è deciso di creare variabili che, in qualche modo, fossero in grado di evidenziare le diverse caratteristiche dei corsi di laurea dell’Ateneo, ricorrendo all’aggregazione per singoli corsi di alcune variabili di primo livello (livello individuale) ritenute più adatte a tale scopo. In particolare, le covariate di secondo livello impiegate sono: • Percentuale di maschi per corso di laurea (maschi_corsi) • Percentuale di laureati che hanno svolto il tirocinio per il conseguimento del titolo per corso di laurea (tiroc_corsi) • Percentuale di laureati che hanno lavorato durante gli studi per corso di laurea (lav1_corsi) • Percentuale di laureati con maturità non liceale per corso di laurea (tipmat_corsi) • Voto medio di maturità per corso di laurea (votodip_corsi): per ogni corso è stata calcolata la media dei voti di maturità dei laureati ad esso afferenti • Voto agli esami medio per corso di laurea (votoesami_corsi): per ogni corso è stata calcolata la media dei voti conseguiti agli esami dai rispettivi laureati. Mentre tra le variabili di primo livello si è scelto di impiegare il voto di laurea piuttosto che il voto medio agli esami per i motivi suddetti, tra le variabili di secondo livello si è preferito ricorrere al voto agli esami, in quanto presenta, rispetto al voto di laurea, una distribuzione maggiormente diversificata e, quindi, è in grado di fornire una rappresentazione migliore delle differenze tra corsi di laurea15. 15 In un secondo momento il modello è stato stimato sostituendo alla variabile votoesami_corsi il voto di laurea medio per corso di laurea, che però non è risultato significativo. 222 Un modello multilivello per l’analisi della condizione occupazionale dei laureati 5. Stima del modello relativa a tutti i laureati dell’anno 2000 Il modello è stato stimato facendo ricorso alla PROC NLMIXED16 del software SAS17 con impiego dell’algoritmo di ottimizzazione Dual Quasi–Newton18 e del metodo di quadratura Gaussiana (non adattiva). Per la stima del modello si è seguito quanto suggerito dalla teoria in materia. In primo luogo, si è proceduto alla stima del modello vuoto (cioè privo di covariate), al fine di verificare, attraverso l’analisi della varianza dei residui di secondo livello, la ragionevolezza del ricorso ad un’analisi multilivello. In secondo luogo, è stato stimato il modello a intercetta casuale comprendente tutte le variabili di primo livello e, a questo punto, la selezione del modello è avvenuta eliminando progressivamente quelle covariate risultanti non significative (ad un livello di significatività del 10%) sulla base del test di Wald e confrontando tra loro i diversi modelli ottenuti tramite i risultati del test del rapporto di verosimiglianza e i valori assunti dagli indici AIC e BIC (cfr. nota 22). Infine, seguendo la medesima procedura, sono state selezionate le covariate di secondo livello, pervenendo dunque ad un modello a intercetta casuale19 finale a due livelli di aggregazione. Di seguito verranno riportati e commentati soltanto i risultati relativi alla stima del modello a intercetta casuale comprendente le sole variabili di primo livello (compresi termini quadratici e interazioni) e quelli relativi alla stima finale, cioè, quelli relativi alla stima del Modello a intercetta casuale nel quale sono presenti le sole variabili di primo e secondo livello significative. Il modello a intercetta casuale in presenza di covariate (variabili esplicative) assume, per ogni gruppo – corso di laurea - j (j=1, 2,……., 39), la seguente forma generale: 16 Si tratta di una procedura specifica per la stima di modelli multilivello (con due soli livelli di aggregazione) con variabili risposta discrete (binarie, ordinali, poissoniane ecc.); in altri termini tale procedura tratta dei modelli GLM (Generalized Linear Models) in versione multilivello. 17 Merita sottolineare che il SAS, durante una elaborazione, elimina automaticamente tutte le risposte mancanti (missing), fatto questo che ha comportato una notevole riduzione del contingente considerato. Una possibile soluzione per evitare fenomeni di questo genere consiste nel procedere ad imputazioni, che siano il più logiche possibile, dei dati mancanti. In realtà, tale procedura può rivelarsi piuttosto pericolosa in termini di correttezza di stima di un modello, soprattutto se le imputazioni a cui si procede sono numerose e la variabilità di ciascuna covariata è notevole. Quindi, per evitare di inserire elementi di eccessiva discrezionalità nella stima del modello, si è preferito ignorare i missing. 18 In letteratura sono stati sviluppati numerosi algoritmi di ottimizzazione: la scelta è caduta sull’algoritmo Dual Quasi-Newton in quanto è in grado di creare un bilanciamento appropriato tra velocità di calcolo e stabilità per la maggior parte dei modelli gerarchici non lineari. 19 Si puntualizza che sono stati testati anche modelli con coefficienti casuali che, però, non hanno dato risultati degni di attenzione, in quanto, nella maggior parte dei casi, o l’algoritmo di massimizzazione della funzione di verosimiglianza non ha raggiunto la convergenza oppure i coefficienti stimati non sono risultati significativi. Modelli statistici per l’analisi della transizione Università-lavoro 223 Yij = Pij + ε ij , dove Yij è il valore assunto dalla variabile risposta per l’i-esimo individuo del j-esimo gruppo, Pij indica la probabilità di essere occupato per un laureato estratto casualmente da un generico corso di laurea, mentre ε ij rappresenta la componente residua di I livello avente, per ipotesi, media pari a zero e varianza strettamente dipendente dalla probabilità media di successo per ogni gruppo j. Usualmente, il modello viene presentato in funzione di una opportuna trasformazione di Pij, detta trasformazione logit: Pij log it ( Pij ) = log 1− P ij s m = β 0 j + ∑ β k ⋅ x kij + ∑ β t ⋅ z tj . t =1 k =1 Più precisamente, essendo l’intercetta β 0 j variabile in funzione del gruppo j, cioè β0 j = γ 0 + U 0 j , il modello assume la seguente forma: s m Pij = γ 0 + ∑ β k ⋅ x kij + ∑ β t ⋅ z tj + U 0 j , log it ( Pij ) = log 1− P t =1 k =1 ij dove si è indicato con γ 0 la parte fissa dell’intercetta, con xk la k-esima variabile esplicativa di I livello, con zt la t-esima variabile esplicativa di II livello e con β k e β t i corrispondenti coefficienti di regressione20, mentre U 0 j rappresenta la compo- nente residua di II livello (in altri termini, la parte variabile dell’intercetta). La ragionevolezza dell’assunzione di tale modello risiede nell’ipotesi di distribuzione normale dei residui di II livello con media pari a 0 e varianza costante21. La forma esplicita assunta dal modello, considerando in primo luogo soltanto le covariate di I livello, è la seguente: 20 Si ricorda che nel modello logistico ciascun coefficiente di regressione è uguale al logaritmo dell’odds ratio associato ad un incremento pari ad 1 della corrispondente variabile esplicativa. In particolare, gli odds ratio non sono altro che il rapporto tra gli odds di due diverse categorie di soggetti; per esempio, possono rappresentare la probabilità di occupazione rispetto alla probabilità di non occupazione per i maschi rapportata alla probabilità di occupazione rispetto alla probabilità di non occupazione per le femmine. 21 Si fa notare che una condizione fondamentale per l’adozione di un modello multilivello è la significatività della componente di varianza di II livello, condizione questa che è risultata sempre verificata nel corso delle elaborazioni svolte. 224 Un modello multilivello per l’analisi della condizione occupazionale dei laureati log it(Pij ) = γ 0 + β1 ⋅ tempolavoroij + β2 ⋅ tempo int ervij + β3 ⋅ votolauij + β4 ⋅ etalauij + +β5 ⋅ votodipij + β6 ⋅ sessoij + β7 ⋅ lav1ij + β8 ⋅ tirocinij + β9 ⋅ frequenzaij + β10 ⋅ classicaij + +β11 ⋅ tecnicaij + β12 ⋅ altramatij + β13 ⋅ impiegatiziaij + β14 ⋅ picc _ borghij + β15 ⋅ operaiaij + +β16 ⋅ tit _ bassoij + β17 ⋅ resid _ sudij + β18 ⋅ ingl _ scarsoij + β19 ⋅ ingl _ suffij + +β20 ⋅ ingl _ ottimoij + β21 ⋅ wp _ scarsoij + β22 ⋅ wp _ suffij + β23 ⋅ wp _ ottimoij + +β24 ⋅ fe _ suffij + β25 ⋅ fe _ buonoij + β26 ⋅ fe _ ottimoij +U0 j Nella Tavola 4 sono riportati i risultati della stima del modello. Le variabili più significative - con p-value inferiore a 0,0001 - sono tempolavoro e resid_sud. Riguardo a tempolavoro, l’effetto sulla probabilità di occupazione è molto tenue, ma comunque negativo (variazione negli odds ratio pari 0,98): ciò indica che quanto maggiore è il tempo che un laureato lascia intercorrere tra la laurea e l’inizio della ricerca di un lavoro, tanto inferiore è la probabilità di risultare occupato al momento dell’intervista. Riguardo a resid_sud, l’effetto esercitato sulla probabilità di occupazione è, invece, molto più forte: per i laureati residenti al Sud o nelle Isole la probabilità di occupazione rispetto a quella di non occupazione è soltanto il 30% circa della probabilità di occupazione rispetto a quella di non occupazione che si rileva per i laureati residenti al Centro Nord (o all’estero). Con un p-value pari a 0,0075, il titolo di studio dei genitori (tit_stud) risulta una delle variabili più significative del modello; la variazione negli odds ratio pari a 1,64 conferma quanto già rilevato in sede di analisi descrittiva: i laureati i cui genitori hanno al più la licenza di scuola dell’obbligo mostrano una probabilità di occupazione di oltre 1,6 volte rispetto ai colleghi con genitori almeno diplomati. Seguono, con livelli di significatività intorno all’1,5%, le covariate sesso (p-value=1,54%) e votodip (p-value=1,79%). Riguardo al sesso, la probabilità di occupazione per i laureati maschi rispetto alla probabilità di non occupazione è di circa il 43,0% superiore a quella delle laureate; relativamente a votodip, l’effetto stimato risulta debole, anche se positivo, indicando che a voti di maturità più elevati corrispondono tendenzialmente maggiori probabilità di occupazione. Altre due variabili risultate significative sono votolau (p-value=5,59%) e lav1 (p-value=8,85%); l’effetto del voto di laurea è molto debole, ma negativo - al contrario del voto di maturità – indicando che a voti di laurea più alti corrisponde tendenzialmente una minore probabilità di occupazione. L’effetto stimato per lav1 è, invece, più consistente, risultando una variazione negli odds ratio pari a 1,27, esplicativa di una maggiore probabilità di occupazione per i laureati che hanno già avuto esperienze lavorative durante gli studi rispetto a quelli che non ne hanno mai avute. Nessuna delle altre variabili inserite nel modello risulta significativa. Modelli statistici per l’analisi della transizione Università-lavoro 225 Tavola 4. Modello a intercetta casuale con tutte le variabili esplicative di primo livello Errore Variazione Riferimento Stima Valore t p-value Standard odds ratio Effetti fissi Intercetta -2,56660 1,51810 1,69 0,0991 -0,9742 --0,02611 0,00195 -13,42 <,0001 Tempolavoro -0,01387 0,01260 1,1 0,278 1,0140 Tempointerv --0,02287 0,01159 -1,97 0,0559 0,9774 Votolau 0,4095 0,9768 --0,02345 0,02813 -0,83 Etalau 2,48 0,0179 1,0252 -0,02486 0,01004 Votodip 0,36100 0,14220 2,54 0,0154 1,4348 Sesso femmina 1,75 0,0885 1,2678 0,23730 0,13570 lav1 lav1_no 0,19550 0,21040 0,93 0,3586 1,2159 Tirocin tirocin_no 0,04945 0,14380 0,34 0,7327 1,0507 Frequenza elevata -0,15750 0,17250 -0,91 0,3671 0,8543 Classica scientifica 1,08 0,2881 1,2173 0,19660 0,18250 Tecnica scientifica 0,19980 0,20180 0,99 0,3285 1,2212 Altramat scientifica 0,99 0,3270 1,1725 0,15910 0,16030 Impiegatizia borghesia -0,27100 0,20200 -1,34 0,1877 0,7626 picc_borgh borghesia -0,35760 0,24340 -1,47 0,1499 0,6994 Operaia borghesia 0,49170 0,17400 2,83 0,0075 1,6351 tit_basso tit_alto 0,3159 -1,15230 0,24910 -4,63 <,0001 resid_sud resid_nosud -0,06570 0,22190 -0,3 0,7688 0,9364 ingl_scarso ingl_buono 1,01 0,3204 1,1633 0,15130 0,15030 ingl_suff ingl_buono 0,15510 0,19610 0,79 0,4339 1,1678 ingl_ottimo ingl_buono 0,18560 0,21020 0,88 0,3829 1,2039 wp_scarso wp_buono 0,04030 0,17770 0,23 0,8219 1,0411 wp_suff wp_buono 0,61 0,5429 1,1222 0,11530 0,18770 wp_ottimo wp_buono 0,28500 0,17630 1,62 0,1143 1,3298 fe_suff fe_scarso fe_buono 1,72 0,0934 1,4185 0,34960 0,20310 fe_scarso 1,37 0,1773 1,4586 0,37750 0,27470 fe_ottimo fe_scarso Effetti casuali 3,4 0,0016 0,26200 0,07699 Var(U0j) -Test di Wald multivariato GdL Valore F di Fisher p-value 38 1,26 0,3015 Tipmat 38 1,92 0,1432 p_socgen 38 0,61 0,6143 ling1_gb 38 0,34 0,7958 info3_wp 38 1,43 0,2491 info4_fe L’eliminazione delle covariate non significative e l’analisi dei possibili termini quadratici nonché dei plausibili effetti d’interazione hanno portato alla individuazione del seguente modello: 226 Un modello multilivello per l’analisi della condizione occupazionale dei laureati log it ( Pij ) = γ 0 + β1 ⋅ tempolavoroij + β 2 ⋅ votodipij + β 3 ⋅ sessoij + β 4 ⋅ lav1ij + + β 5 ⋅ tit _ bassoij + β 6 ⋅ resid _ sud ij + β 7lav1× tempolavoro + U 0 j I risultati conseguiti attraverso la procedura di stima sono riportati nella Tavola 5. Rispetto al modello iniziale, la differenza più rilevante risiede nell’esclusione del voto di laurea dalle covariate significative: in pratica ciò è indice della sostanziale perdita di potere discriminatorio da parte del giudizio finale, a causa essenzialmente dell’eccessiva concentrazione dello stesso intorno ai valori più elevati. Per quanto riguarda le variabili esplicative risultate significative, gli effetti sulla probabilità di occupazione esercitati sia dal tempo intercorso tra la laurea e l’inizio della ricerca di un lavoro (tempolavoro) che dal voto conseguito alla maturità (votodip) risultano sostanzialmente immutati rispetto al modello iniziale. Per contro, per le rimanenti covariate presenti in entrambi i modelli l’effetto stimato mostra variazioni sensibili, benché la “direzione” di tali variazioni rimanga immutata; l’unica variabile aggiuntiva, rispetto al modello iniziale, risultata significativa è l’interazione tra lav1 e tempolavoro. Per tener conto in maniera adeguata della natura gerarchica dei dati si è infine proceduto all’inserimento delle variabili esplicative di II livello citate precedentemente, così da pervenire ad un modello definitivo. In realtà, a seguito di alcune semplici considerazioni che verranno esposte nelle righe successive, si è preferito concentrare l’attenzione su due possibili modelli alternativi, che differiscono per una sola variabile di secondo livello: la variabile votoesami_corsi è stata sostituita dalla variabile maschi_corsi. Tavola 5. Modello a intercetta casuale con le variabili esplicative di primo livello significative e un effetto di interazione Riferimento Effetti fissi intercetta tempolavoro votodip sesso lav1 tit_basso resid_sud lav1*tempolavoro Effetti casuali Var(U0j) ---femmina lav1_no tit_alto resid_nosud --- Stima Errore Variazione Valore t p-value odds ratio Standard 0,86910 -0,03310 0,01580 0,32410 0,26210 0,32810 -0,79200 0,01157 0,39200 0,00210 0,00762 0,11590 0,12410 0,11220 0,19660 0,00353 2,22 -11,41 2,07 2,80 2,11 2,92 -4,03 3,28 0,0327 <0,0001 0,0451 0,0081 0,0413 0,0058 0,0003 0,0022 0,41290 0,08024 5,15 <0,0001 -0,9675 1,0159 1,3828 1,2997 1,3883 0,4529 1,0116 Modelli statistici per l’analisi della transizione Università-lavoro 227 Modello A (Modello B) log it ( Pij ) = γ 0 + β 1 ⋅ tempolavoroij + β 2 ⋅ votodipij + β 3 ⋅ sessoij + β 4 ⋅ lav1ij + + β 5 ⋅ tit _ bassoij + β 6 ⋅ resid _ sud ij + β 7 ( lav1 × tempolavoro )ij + + β 8 ⋅ votodip _ corsi j + β 9 ⋅ ( votoesami _ corsi ) j ⇐ ( maschi _ corsi ) j + U 0 j Tavola 6. Modello A: modello a intercetta casuale con variabili esplicative di primo e secondo livello significative e un effetto di interazione Errore Variazione Riferimento Stima Valore t p-value odds ratio Standard Effetti fissi intercetta --0,01130 2,58150 0,00 0,9965 -0,9679 --0,03261 0,00294 -11,08 <0,0001 tempolavoro -0,01468 0,00788 1,86 0,0701 1,0148 votodip 0,29750 0,11830 2,52 0,0162 1,3465 sesso Femmina 1,2766 0,24420 0,12490 1,95 0,0580 lav1 lav1_no 0,33650 0,11290 2,98 0,0050 1,4000 tit_basso tit_alto 0,4068 0,19960 -4,51 <0,0001 resid_sud resid_nosud -0,89950 1,0118 0,01170 0,00358 3,27 0,0023 lav1*tempolavoro -0,14200 0,04092 3,47 0,0013 1,1526 votodip_corsi --0,23090 0,06306 -3,66 0,0008 0,7938 votoesami_corsi -Effetti casuali 0,42750 0,07939 5,39 <0,0001 Var(U0j) -Tavola 7. Modello B: modello a intercetta casuale con variabili esplicative di primo e secondo livello significative e un effetto di interazione (maschi_corsi al posto di votesami_corsi) Errore Variazione Riferimento Stima Valore t p-value odds ratio Standard Effetti fissi intercetta --5,65490 1,93010 -2,93 0,0057 ---0,03260 0,00294 -11,09 <0,0001 0,9679 tempolavoro -0,01458 0,00787 1,85 0,0717 1,0147 votodip 0,29410 0,12080 2,44 0,0197 1,3419 sesso Femmina 0,23800 0,12450 1,91 0,0635 1,2687 lav1 lav1_no 0,32530 0,11250 2,89 0,0063 1,3844 tit_basso tit_alto 0,19950 -4,60 <0,0001 0,3998 resid_sud resid_nosud -0,91690 0,01203 0,00357 3,37 0,0017 1,0121 lav1*tempolavoro -0,12360 0,04187 2,95 0,0054 1,1316 votodip_corsi -0,84440 0,35030 2,41 0,0209 2,3266 maschi_corsi -Effetti casuali 0,31660 0,06388 4,96 <0,0001 Var(U0j) -- 228 Un modello multilivello per l’analisi della condizione occupazionale dei laureati In un confronto tra i due modelli, gli indici AIC e BIC22, assumono valori inferiori per il Modello A (AIC = 2324 e BIC = 2343) rispetto al Modello B (AIC = 2332 e BIC=2350); ciò induce a concludere per una migliore bontà di adattamento del Modello A a scapito del Modello B. D’altra parte, osservando i valori della varianza della componente residua di secondo livello ci si accorge che per il Modello A si ottiene un valore pari a 0,43 che, da una parte, risulta sostanzialmente uguale all’analogo valore ottenuto per il modello privo di variabili di secondo livello e, dall’altra, è comunque superiore alla varianza degli errori di secondo livello del Modello B, pari a 0,32. In base a tali risultati sembra, dunque, che l’inserimento della variabile maschi_corsi al posto di votoesami_corsi riesca a spiegare una quota maggiore della variabilità del fenomeno, benché l’adattamento del modello risulti leggermente peggiore. Alla luce di queste considerazioni si è ritenuto più opportuno presentare entrambi i modelli. Il motivo che ha indotto a non inserire le due variabili maschi_corsi e votoesami_corsi in un unico modello è da ricercarsi nella loro elevata correlazione (–0,47)23, l’inserimento di entrambe le variabili nello stesso modello avrebbe comportato (come infatti è successo) la selezione di una sola delle due. In entrambi i modelli, delle sei variabili di secondo livello prese in considerazione inizialmente, soltanto due risultano significative: il voto medio agli esami o la percentuale di maschi, appunto, e il voto medio di maturità per corso di laurea. Ri22 Il criterio d’informazione di Akaike (Akaike’s Information Criterion – AIC) e il criterio d’informazione bayesiano di Schwarz (Schwarz’s Bayesian Information Criterion – BIC) sono due grandezze impiegate ogni volta che si è interessati ad un confronto tra modelli contenenti diverse variabili esplicative. Per un generico modello M i due indici vengono così definiti: AIC = DevM + 2k BIC = DevM + k ln( N ) dove DevM è il doppio prodotto della differenza tra la log-verosimiglianza del c.d. modello saturo – vale a dire il modello contenente un parametro per ciascuna osservazione e, quindi, dotato della massima capacità di adattamento ai dati osservati (e della minima capacità di sintesi delle informazioni) – e la log-verosimiglianza del modello M, k è il numero complessivo di parametri stimati e N è il numero di unità di secondo livello. Dal momento che quanto più piccola è la devianza del modello tanto migliore è la sua bontà di adattamento ai dati osservati (in tal caso infatti si riduce la “distanza” tra il modello M ed il modello saturo) e dal momento che al diminuire della devianza anche i valori dei due indici diminuiscono (a parità di k), in un confronto tra due o più modelli diversi possiamo ritenere migliore, in termini di bontà di adattamento, quello che presenta il valore AIC o BIC più basso di tutti gli altri. Si osservi, però, che entrambi gli indici aumentano all’aumentare di k, cioè del numero di parametri inseriti nel modello, anche se questi potrebbero non essere significativi: è, quindi, necessario ricorrere con cautela all’impiego di questi due indicatori, accertandosi in via preventiva che i parametri inseriti nei modelli posti a confronto raggiungano il livello di significatività desiderato. 23 I corsi di laurea dove prevale la presenza maschile (es. i corsi della facoltà di Ingegneria) sono caratterizzati da votazione media più bassa, mentre nei corsi di laurea a prevalenza femminile (es. i corsi della facoltà di Lettere e Filosofia) i voti medi agli esami sono più alti. Modelli statistici per l’analisi della transizione Università-lavoro 229 guardo al voto medio agli esami per corso di laurea si osserva un effetto negativo sulla probabilità di occupazione, risultando una variazione negli odds ratio pari a 0,79: in altri termini, un laureato proveniente da un corso di laurea caratterizzato da voti medi elevati ha circa il 20% in meno di possibilità di occupazione rispetto ad un laureato proveniente da un corso di laurea caratterizzato da voti medi più bassi. Per comprendere meglio si pensi ai corsi di laurea attivati a Ingegneria e a quelli attivati a Lettere e Filosofia: le analisi svolte hanno evidenziato come i voti medi agli esami di Ingegneria siano di gran lunga inferiori a quelli di Lettere e Filosofia, mentre i tassi di occupazione sono sicuramente più elevati nel primo caso che non nel secondo. Coerentemente, il Modello B mostra che per un laureato proveniente da un corso di laurea a prevalenza maschile la probabilità di occupazione rispetto a quella di non occupazione è di oltre 2,3 volte la stessa probabilità per un laureato proveniente da un corso di laurea a prevalenza femminile. Riguardo al voto medio di maturità per corso di laurea (votodip_corsi), si rileva un effetto positivo: quanto più sono “bravi” gli studenti di un certo corso di laurea e tanto maggiore è la probabilità che gli stessi, una volta laureati, risultino occupati nel breve termine; più precisamente, all’aumentare del voto medio di maturità per corso di laurea, la probabilità di occupazione rispetto a quella di non occupazione aumenta di 1,13-1,15 volte (rispettivamente Modello B e Modello A). Riguardo, infine, alle stime dei coefficienti delle variabili di primo livello comprese nei due modelli, non si rilevano particolari differenze né tra il Modello A e il Modello B (anche in termini di significatività delle variabili), né tra ciascuno di questi due rispetto al modello privo di variabili di secondo livello. A completamento dell’analisi, per ognuno dei 39 corsi di laurea sono stati stimati i relativi odds sulla base del modello a intercetta casuale con variabili esplicative di primo e secondo livello24. Dal momento che gli odds vengono stimati tenendo conto delle caratteristiche individuali e di contesto di ciascun corso di laurea, a livello interpretativo il valore assunto, per un particolare corso di laurea, dal relativo odd esprime la probabilità di occupazione rispetto alla probabilità attesa di non occupazione a un anno e mezzo / due anni e mezzo dalla laurea per il laureato medio proveniente da quel corso. Quella che si ottiene è una graduatoria esplicativa della diversa capacità di ciascun corso di creare occupazione nel breve termine (cfr. Figura 1). In generale, gli odds che si ottengono assumono valori molto elevati, elemento questo che indica come i laureati dell’Ateneo fiorentino non incontrino particolari difficoltà di inserimento nel mondo del lavoro (l’odd stimato per l’intero ateneo risulta pari a 7,3); tuttavia, le differenze tra i singoli corsi di laurea risultano essere 24 Per non appesantire troppo la lettura, i risultati commentati in queste note conclusive si riferiscono soltanto al Modello A, cioè al modello contenente la variabile di secondo livello votoesami_corsi; si puntualizza, comunque, che le stesse analisi svolte per il Modello B non hanno posto in evidenza differenze particolari e, dunque, non avrebbero condotto a conclusioni sostanzialmente diverse. 230 Un modello multilivello per l’analisi della condizione occupazionale dei laureati Figura 1. Odds medi previsti per ogni corso di laurea, stimati sulla base del Modello A (tutti i laureati) 25 Odds medi previsti 20 15 10 5 0 Ingegneria civile Ingegneria meccanica Scienze della informazione Odontoiatria e protesi dentaria Ingegneria elettronica Ingegneria per l'ambiente e il territorio Scienze statistiche ed attuariali Economia aziendale Farmacia Chimica e tecnologia farmaceutiche Lingue e letterature straniere (europee) Architettura Ingegneria delle telecomunicazioni Matematica Economia e commercio Scienze statistiche ed economiche Ingegneria informatica Scienze della educazione Scienze forestali ed ambientali Fisica Chimica Scienze e tecnologie agrarie Lingue e letterature straniere Scienze agrarie Scienze politiche Scienze forestali Scienze biologiche Lingue e letterature straniere moderne Scienze agrarie tropicali e subtropicali Scienze naturali Scienze geologiche Psicologia Lettere Materie letterarie Filosofia Storia Pedagogia Medicina e chirurgia Giurisprudenza Corsi di laurea piuttosto consistenti. A tal proposito si individuano quattro gruppi principali: un primo gruppo comprende quei corsi con odds inferiori a 5; un secondo gruppo comprende corsi con odds superiori a 5 e inferiori a 10; al terzo gruppo appartengo i corsi con odds superiori a 10 e inferiori a 15; infine, dell’ultimo gruppo fanno parte i corsi con odds superiori a 15. In particolare, al primo gruppo appartengono, tra gli altri, i corsi di laurea in Giurisprudenza e Medicina e chirurgia, che con gli odds in assoluto più bassi (pari a 1,5) confermano ampiamente quanto già sottolineato riguardo all’alto numero di laureati in tali discipline impegnati in attività di formazione e specializzazione postlaurea. Modelli statistici per l’analisi della transizione Università-lavoro 231 Per contro, i due corsi di laurea che fanno registrare odds superiori a 15 appartengono alla Facoltà di Ingegneria (Ingegneria meccanica e Ingegneria civile con odds rispettivamente pari a 19,7 e 24,6); facoltà questa che presenta, per tutti i corsi di laurea, valori superiori alla media di Ateneo, essendo infatti Ingegneria informatica il corso con odd più basso (lievemente superiore a 7,3). 6. Considerazioni conclusive I risultati delle analisi svolte consentono di concludere che la probabilità di occupazione rispetto alla probabilità di non occupazione per un laureato risulta maggiore per i maschi che non per le femmine, per coloro che hanno avuto esperienze lavorative durante gli studi piuttosto che per chi non ne ha mai avute, per coloro che provengono da famiglie con basso profilo culturale rispetto ai laureati i cui genitori sono in possesso per lo meno di un diploma di scuola superiore, per coloro che risiedono nelle regioni del Centro-Nord piuttosto che per i residenti nel Sud Italia. Inoltre, la probabilità di occupazione è tanto maggiore quanto più elevato è il voto di maturità e quanto più breve è il tempo che il laureato lascia intercorrere tra il conseguimento del titolo e l’inizio della ricerca di un lavoro, variabile questa il cui effetto dipende altresì dal fatto che il laureato abbia avuto precedenti esperienze di lavoro durante gli studi. Infine, a parità di valori assunti dalle variabili individuali, la probabilità di occupazione è maggiore per i laureati che provengono da corsi di laurea caratterizzati da elevate percentuali di maschi, che si distinguono per voti medi agli esami relativamente bassi e che attirano gli studenti più bravi, cioè con voti di maturità più elevati. I risultati delle analisi svolte, molto sommariamente richiamati in questa nota, giustificano, a nostro parere, ampiamente il ricorso ai modelli multilivello quando si procede all’analisi di dati che riguardano gli studenti universitari25; infatti, è del tutto 25 In tale direzione si sta movendo da tempo il gruppo VALMON (Valutazione e Monitoraggio). Il gruppo, coordinato da B. Chiandotto e costituito da laureandi, dottorandi e docenti del Dipartimento di Statistica dell’Università degli Studi di Firenze, da diversi anni svolge attività di studio e ricerca nel contesto della valutazione e del monitoraggio dei processi formativi che si svolgono nell’Ateneo fiorentino. Testimoniano, tra l’altro, tale interesse altri due lavori presentati in questa sede: “L’abbandono degli studi universitari” (Chiandotto B. e Giusti C.); “Un modello multilivello per l’analisi della durata degli studi universitari” (Chiandotto B. e Varriale R.), il già citato volume “I laureati e diplomati dell’Ateneo fiorentino dell’anno 2000: profilo e sbocchi occupazionali (Chiandotto B., Bacci S. e Bertaccini B.; 2004) che, oltre a contenere una versione molto più dettagliata dell’analisi svolta ed i cui risultati sono stati qui riassunti, tratta anche dell’applicazione del modello di regressione logistica ordinale a due livelli dove la variabile di interesse di cui si vogliono individuare le possibili determinanti è rappresentata dall’utilizzo sul posto di lavoro delle competenze acquisite 232 Un modello multilivello per l’analisi della condizione occupazionale dei laureati evidente la natura gerarchica dei dati: le unità di primo livello sono i laureati o i diplomati, mentre le unità di secondo livello sono i corsi di studio. Ovviamente la gerarchizzazione può essere estesa ad un numero di livelli più elevato: ad esempio le facoltà possono rappresentare il terzo livello e gli atenei il quarto livello. Riferimenti bibliografici BERTACCINI B. (2000) I laureati dell’Ateneo Fiorentino dell’anno 1998 – Profilo e sbocchi occupazionali, Università degli Studi di Firenze, Firenze. BIGGERI L., BINI M. (1999) A multilevel logistic model for the analysis of the Italian universities effectiveness, Proceedings of the Annual Meeting of the American Statistical Association, Baltimore (agosto 1999). BIGGERI L., GRILLI L., BINI M. (2001) The transition from university to work: a multilevel approach to the analysis of the time to obtain the first job, Journal of the Royal Statistical Society - Series A, 162(2): 293-305. BINI M., PRATESI M. (2001) Un modello multi-livello per stimare l’efficacia esterna della formazione universitaria con un disegno di campionamento complesso, Atti del Convegno “Processi e Metodi Statistici di Valutazione”, Roma, 4-6 giugno 2001, Società Italiana di Statistica. BINI M. (1999) Valutazione della Efficacia dell'Istruzione Universitaria rispetto al Mercato del Lavoro, RdR 03/99, Osservatorio per la Valutazione del Sistema Universitario MURST – Roma, consultabile anche sul sito www.cnvsu.it/publidoc/comitato/default.asp. BULGARELLI G. (2002) I laureati dell’Ateneo Fiorentino dell’anno 1997 – Profilo e sbocchi occupazionali, Università degli Studi di Firenze, Firenze. CHIANDOTTO B. (2002) Profilo e condizione occupazionale dei laureati dell’Ateneo Fiorentino ad uno, due e tre anni dal conseguimento del titolo, Università degli Studi di Firenze, Firenze. CHIANDOTTO B., BACCI S., BERTACCINI B. (2004) I laureati e diplomati dell’Ateneo Fiorentino dell’anno 2000: profilo e sbocchi professionali, Università degli Studi di Firenze, Firenze. CHIANDOTTO B., BERTACCINI B. (2003) I laureati e diplomati dell’Ateneo Fiorentino dell’anno 1999: profilo e sbocchi professionali, Università degli Studi di Firenze, Firenze. FIELDING A., YANG M., GOLDSTEIN H. (2003) Multilevel ordinal models for examination grades, Statistical modelling, vol. 3, n. 2: 127 - 153. all’università. Nello stesso contesto si colloca il volume di Bini M. (1999): “Valutazione della Efficacia dell'Istruzione Universitaria rispetto al Mercato del Lavoro”. Modelli statistici per l’analisi della transizione Università-lavoro 233 FOTOUHI A. R. (2004) Comparisons of estimation procedures for nonlinear multilevel models, http://www.jstatsoft.org/v08/i09/Paper.pdf. GOLDSTEIN H. (2003) Multilevel statistical models, Arnold Publishers, London. HECK R. H., THOMAS S.L. (2000) An Introduction to Multilevel Modelling Techniques, LEA, London. HEDEKER D. (2004) Multilevel Models for Ordinal and Nominal Variables, http://tigger.uic.edu/~hedeker/ml.html. SINGER J.D. (1998) Using SAS PROC MIXED to Fit Multilevel Models, Hierarchical Models, and Individual Growth Models, Journal of educational and Behavioral Statistics, vol.24, n. 2: 323 - 355. SNIJDER A.B., BOSKER R. J. (1999) Multilevel analysis. An introduction to basic and advanced multilevel modelling, Sage Publications, London. 234 Un modello multilivello per l’analisi della condizione occupazionale dei laureati A multilevel model for analysing the graduate employment Summary. The subject of this contribution is an analysis of the employment state of graduates from the University of Florence during the year of 2000, up to one and a half/ two years and a half from the date of graduation. The relative aim is pursued by detecting the possible determining factors of the phenomenon under study at both an individual (such as sex, place of residence, high school diploma, final marks towards the degree) and an institutional (in terms of the distinctive characteristics of the various courses of studies) level. The use of descriptive analyses is preparatory for the application of a model of logistic regression with random intercept having two levels of aggregation, recourse to which is justified by the need to make due allowances for the hierarchical structure of the data that are the subject of the study. In fact, graduates of the University of Florence were considered as a first-level unit, while the respective degree courses were considered as a second-level unit. Keywords: Multilevel models, Logistic regression, Employment opportunities, Probability of employment. Le componenti della soddisfazione rispetto al lavoro svolto: un’indagine sui laureati dell’Università degli Studi di Bari 1 Furio Camillo°*, Francesco CampobassoL, Corrado CrocettaK Angelo di Francia*, Giulia SallustioL ° Dipartimento Scienze Statistiche “Alma Mater Studiorum”, Università di Bologna L Dipartimento Scienze Statistiche, Università degli Studi di Bari K Dipartimento Scienze Econ. Mat. e Statistiche, Università degli Studi di Foggia * Consorzio Interuniversitario AlmaLaurea Riassunto. Obiettivo di questo lavoro è individuare le componenti della soddisfazione lavorativa dei laureati nella sessione estiva 2002 dell’Università degli Studi di Bari, intervistati nell’ambito dell’indagine condotta dal Consorzio interuniversitario AlmaLaurea. Dapprima sono stati individuati gli aspetti che spiegano meglio la soddisfazione complessiva sul lavoro svolto. In particolare, segmentando gli intervistati con un algoritmo E-CHAID, sono emersi sottogruppi che differiscono fra loro soprattutto in termini di soddisfazione per l’acquisizione di professionalità, per la rispondenza del lavoro ai propri interessi culturali e per le prospettive di guadagno. Successivamente è stato stimato un modello MIMIC per studiare la struttura causale delle variabili osservate e latenti. Si è così verificato che la soddisfazione lavorativa dipende prevalentemente dall’ambiente di lavoro e dalla crescita professionale. Parole chiave: Laureati, Università di Bari, Soddisfazione lavorativa, Analisi di segmentazione, E-CHAID, Modello ad equazioni strutturali, LISREL, MIMIC. 1. Introduzione Le numerose ricerche sulle modalità di erogazione dei servizi hanno consentito di mettere a punto metodologie statistiche ad hoc per misurare le relative performance. In generale il concetto di performance si identifica nelle accezioni di efficacia (Biggeri, 1983) e di efficienza. Con riferimento all’istruzione universitaria, la prima ac1 Del presente lavoro, opera congiunta degli autori, è attribuibile a F. Camillo e A. di Francia la redazione del paragrafo 2, a F. Campobasso quella dei paragrafi 1,4, 5 e 7, a C. Crocetta quella dei paragrafi 6, 8 e 9 ed a G. Sallustio quella del paragrafo 3. 236 Le componenti della soddisfazione rispetto al lavoro svolto: un’indagine sui laureati... cezione diventa più rilevante della seconda, ove si pensi all’importanza dei risultati prodotti dalla formazione nel contesto socio-economico primario in cui essa si innesta: il mercato del lavoro. In un simile contesto la valutazione dell’efficacia non può basarsi esclusivamente su dati oggettivi, ma deve considerare anche gli aspetti soggettivi legati alla soddisfazione dei laureati. Evidentemente la misura della soddisfazione varia a seconda delle scale di preferenza di ciascun intervistato e dipende anche dall’ambito culturale di appartenenza. La domanda a cui intendiamo rispondere è: in che modo i laureati occupati giudicano la loro attività lavorativa e quali sono gli aspetti che influiscono maggiormente sul loro giudizio? Tali aspetti, infatti, vengono spesso trascurati da quanti studiano il placement di chi consegue un titolo accademico e finiscono con l’essere ignorati in fase di programmazione dell’offerta formativa delle Università. Il collettivo esaminato è quello dei laureati nella sessione estiva 2002 dell’Università degli Studi di Bari, intervistati nel corso dell’indagine telefonica condotta dal Consorzio interuniversitario AlmaLaurea, che hanno dichiarato di essere occupati. Si noti che abbiamo concentrato la nostra attenzione solo su questo sottogruppo - e non anche su quello dei disoccupati - perché in tal caso sarebbe stata necessaria la conoscenza di ulteriori informazioni non rilevate dall’indagine AlmaLaurea, la quale è concepita essenzialmente per valutare l’inserimento lavorativo dei laureati. 2. L’indagine AlmaLaurea sui laureati L’indagine sui laureati condotta dal Consorzio AlmaLaurea fornisce una puntuale fotografia del capitale umano formato dalle università italiane e costituisce un riferimento molto particolare per tutti coloro che guardano al sistema d’istruzione superiore come ad un settore nevralgico dello sviluppo. Il Consorzio, attualmente (dicembre 2004) costituito da 40 Atenei, fornisce una serie di servizi volti a favorire l’inserimento lavorativo dei laureati e l’analisi periodica e tempestiva delle caratteristiche e dell’impatto sul mercato del lavoro dei neolaureati delle Università consorziate. Per il presente studio sono stati utilizzati in modo integrato i dati provenienti dagli archivi amministrativi dell’Università degli Studi di Bari, le informazioni del questionario compilato dai laureati alla vigilia del conseguimento del titolo e le risposte fornite dagli stessi nel corso dell’indagine telefonica condotta, ad un anno dalla laurea, dal Consorzio AlmaLaurea. L’integrazione della documentazione amministrativa con le informazioni ricavate dai questionari somministrati agli studenti al termine del loro percorso universitario consente l’analisi di un ampio spettro di variabili. In particolare, il dato amministrativo è utilizzato per approfondire aspetti quali il Profilo Anagrafico, gli Studi secondari superiori e la Riuscita negli studi universitari, mentre gli approfondimenti Modelli statistici per l’analisi della transizione Università-lavoro 237 su variabili appartenenti ai gruppi: Origine sociale, Come si studia all’università, Valutazione dell’esperienza universitaria e delle strutture universitarie, Conoscenze linguistiche e informatiche, Lavoro durante gli studi, Prospettive di studio e Prospettive di lavoro sono condotti sul collettivo dei laureati di cui si dispone delle informazioni restituite dal questionario. L’indagine telefonica riprende molte delle informazioni contenute nel questionario suddetto, aggiornandole alla luce delle esperienze lavorative o formative maturate dopo la laurea. La struttura della rilevazione, oltre che lo status occupazionale (lavora, non lavora ma non cerca, non lavora e cerca), consente di misurare altri attributi significativi quali, la tipologia contrattuale, la partecipazione ad attività di formazione post-laurea, i canali ed i tempi utilizzati per trovare lavoro, i rami di attività economica prevalenti rispetto al percorso di studi completato, le differenze territoriali e di genere. Il rendimento sul mercato del lavoro dei diversi titoli di studio è espresso attraverso alcuni elementi di sintesi: l’efficacia, ottenuta sintetizzando le opinioni dei laureati circa l’utilizzazione delle competenze acquisite durante gli studi e la necessità formale e sostanziale del titolo sul mercato del lavoro. Si chiede, inoltre, di attribuire un punteggio - in una scala crescente di numeri naturali da 1 a 10 - alla soddisfazione complessiva rispetto all’attività svolta ed anche ai suoi diversi aspetti quali: le prospettive di guadagno e di carriera, la stabilità e la sicurezza del lavoro, la coerenza con gli studi fatti, l’acquisizione di professionalità, la rispondenza con i propri interessi culturali, l’indipendenza e l’autonomia sul lavoro, il tempo libero, il luogo di lavoro ed i rapporti con i colleghi sul luogo di lavoro. La scelta della scala 1-10 è frutto di un compromesso fra l’esigenza di semplicità dell’intervista telefonica e l’esigenza di avere una gradazione sufficientemente dettagliata per poter sintetizzare efficacemente un fenomeno distribuito su un continuum psicologico, variabile da individuo ad individuo. Dei 1813 laureati presso l’Ateneo barese nella sessione estiva 2002 (maggioluglio), ben 1505 sono stati intervistati nel corso dell’indagine telefonica realizzata da AlmaLaurea nel periodo settembre-novembre 2003, con un tasso di risposta pari all’83%. Tutti gli intervistati appartenevano al vecchio ordinamento e perciò non vi sono laureati triennali. In particolare, tra loro 565 hanno dichiarato di essere occupati, 342 di non lavorare e di non cercare lavoro, mentre 598 laureati non lavoravano ed erano in cerca di un’occupazione. 3. Analisi delle risposte fornite dai laureati occupati. In questo paragrafo concentreremo la nostra attenzione sui 565 dottori che, al momento dell’intervista, hanno dichiarato di essere occupati. 238 Le componenti della soddisfazione rispetto al lavoro svolto: un’indagine sui laureati... Come si vede dalla Tab. 1, la maggior parte degli intervistati ha iniziato a lavorare come dipendente o con contratti di collaborazione, mentre solo il 9,6% ha deciso di rischiare in proprio avviando una attività autonoma. Tabella 1. Laureati occupati intervistati per tipologia di rapporto lavorativo. % Rapporto lavorativo Occupati Lavoratori dipendenti 323 57,2 Lavoratori autonomi 54 9,6 Collaboratori 137 24,2 Senza contratto 49 8,6 Non risponde 2 0,4 Totale 565 100,0 Tabella 2. Laureati occupati intervistati per tipologia di contratto lavorativo. Contratto lavorativo Occupati % Stabile 202 35,8 Atipico 244 43,2 Formazione lavoro 68 12,0 Senza contratto 49 8,6 Non risponde 2 0,4 Totale 565 100,0 Tabella 3. Laureati occupati intervistati per luogo di lavoro. Luogo di lavoro Occupati % Nella provincia di residenza 394 69,7 Fuori dalla provincia di residenza 170 30,1 Non risponde 1 0,2 Totale 565 100,0 Tabella 4. Media e variabilità dei singoli aspetti della soddisfazione lavorativa. Aspetti della Voto Scarto Coefficiente di Soddisfazione medio quadratico medio variazione (%) Rapporto con i colleghi 8,0 1,6 19,6 Professionalità 7,5 1,8 24,6 Indipendenza 7,4 1,8 24,6 Luogo di lavoro 7,4 1,8 24,5 Interessi culturali 7,0 2,3 32,7 Sicurezza lavoro 6,5 2,4 37,4 Coerenza studi fatti 6,5 2,7 42,0 Guadagno 6,4 2,0 31,8 Carriera 6,4 2,4 37,3 Tempo libero 6,1 2,4 38,5 Soddisfazione complessiva 7,1 1,9 26,8 Modelli statistici per l’analisi della transizione Università-lavoro 239 I contratti atipici e di formazione lavoro rappresentano il canale preferenziale per l’ingresso nel mondo produttivo (Tab. 2). Generalmente, infatti, un contratto a tempo indeterminato arriva solo dopo alcuni anni di esperienza lavorativa maturata in condizioni precarie. La maggior parte degli intervistati riesce a trovare lavoro nella propria provincia di residenza, ma non è trascurabile la percentuale di laureati che decidono di trasferirsi per motivi di lavoro (Tab. 3). L’indagine sulle componenti della soddisfazione complessiva rispetto al lavoro svolto prende le mosse da una analisi delle medie e della variabilità dei diversi aspetti considerati, così come sintetizzati nella Tab. 4. Si noti che le osservazioni disponibili vengono scremate, da ora in poi, di quei 34 laureati che non hanno espresso il proprio giudizio in ordine a tutti e 10 tali aspetti. Analizzando le risposte fornite dai laureati intervistati, si nota che il voto medio varia da un minimo di 6,1 per il tempo libero ad un massimo di 8,0 per il rapporto con i colleghi. La differenza fra questi due voti è di appena 1,9 punti. Per coloro che operano nelle istituzioni universitarie rileva che, sempre in termini medi, la soddisfazione per la coerenza con gli studi fatti (pari a 6,5) risulti leggermente inferiore a quella complessiva (pari a 7,1) e presenti il coefficiente di variazione più alto. Pur senza entrare ancora nel merito di quanto l’una incida sull’altra, è possibile affermare sin d’ora la necessità di adeguare i percorsi formativi alle esigenze del mondo produttivo in continua evoluzione. Analizzando la correlazione tra la soddisfazione complessiva e quella per i singoli aspetti, qui di seguito riepilogata, emerge che la stessa è abbastanza alta con riferimento agli aspetti legati alla crescita professionale ed economica, è mediamente presente con riferimento agli aspetti legati alla vivibilità della condizione lavorativa ed invece è praticamente assente nel caso del tempo libero. Tabella 5. Correlazione dei singoli aspetti della soddisfazione lavorativa tra di loro e con la soddisfazione complessiva. Aspetti della soddisfazione Aspetti della soddisfazione 1 2 3 4 5 6 7 8 9 10 1 1 Guadagno 0,6 1 2 Carriera 0,4 0,5 1 3 Sicurezza lavoro 0,3 0,4 0,3 1 4 Coerenza studi fatti 0,4 0,5 0,3 0,6 1 5 Professionalità 0,3 0,4 0,3 0,6 0,6 1 6 Interessi culturali 0,4 0,4 0,3 0,3 0,4 0,4 1 7 Indipendenza 0,1 -0,0 0,1 0,0 -0,0 0,1 0,2 1 8 Tempo libero 0,3 0,2 0,2 0,2 0,3 0,3 0,4 0,2 1 9 Luogo lavoro 0,2 0,2 0,2 0,2 0,3 0,3 0,3 0,2 0,4 1 10 Rapporto colleghi 0,5 0,5 0,4 0,5 0,6 0,6 0,5 0,0 0,3 0,3 S Soddisfaz. complessiva 240 Le componenti della soddisfazione rispetto al lavoro svolto: un’indagine sui laureati... Passando ad osservare la correlazione tra i singoli aspetti della soddisfazione, emerge che i coefficienti maggiori sono quelli fra le variabili prospettive di “guadagno” e di “carriera” e fra la rispondenza agli “interessi culturali” e l’acquisizione di “professionalità” e fra questa ultima e la “coerenza con gli studi fatti”. La più bassa riguarda il “tempo libero” con quasi tutti gli altri aspetti. In sintesi, dunque, sembrano abbastanza concordi tra loro rispettivamente i due aspetti legati alla crescita economica ed i tre aspetti legati alla crescita professionale. 4. L’analisi dell’effetto “facoltà di provenienza” sui diversi aspetti della soddisfazione per il lavoro svolto Per verificare se la facoltà di provenienza influenzi in qualche modo la soddisfazione lavorativa, è preliminarmente necessario escludere dall’esame quelle il cui numero di intervistati è così esiguo da mettere in discussione l’attendibilità dei risultati che ne scaturirebbero. In particolare non vengono presi in considerazione 10 laureati di Agraria, 6 di Medicina e Chirurgia ed 1 di Medicina Veterinaria. La Tab. 6 riporta le medie, gli scarti quadratici medi e i coefficienti di variazione dei punteggi assegnati alla soddisfazione complessiva dagli intervistati delle 8 facoltà considerate. Le facoltà scientifiche presentano una media un poco più alta ed un coefficiente di variazione un poco più basso delle altre; del resto l’idea che la diversa provenienza dei laureati non incida più di tanto sulla soddisfazione complessiva è confermata dal livello di significatività osservato del test F relativo all’analisi della varianza ad un criterio, che risulta all’incirca pari a 0,07. Tabella 6. Media e variabilità della soddisfazione lavorativa complessiva per facoltà di provenienza. N. Scarto Coefficiente di Media Facoltà osservazioni quadratico medio variazione (%) 40 7,8 1,4 18,5 Farmacia 53 7,4 1,8 24,0 Scienze mm.ff.nn. 72 7,2 1,7 24,4 Scienze formazione 138 7,1 1,7 26,8 Economia 54 7,0 1,8 26,6 Lettere e filosofia 61 6,9 1,8 26,7 Giurisprudenza 54 6,8 2,0 28,7 Scienze politiche 42 6,5 2,3 35,6 Lingue straniere Università di Bari 531 7,1 1,9 26,8 Modelli statistici per l’analisi della transizione Università-lavoro 241 Anche il tentativo di analizzare l’effetto “facoltà di provenienza” mediante un modello multilivello (che presenti almeno intercette aleatorie eteroschedastiche, in aggiunta ai dieci aspetti considerati quali regressori) è risultato vano, proprio perché la soddisfazione complessiva non varia in modo significativo da una facoltà all’altra. Peraltro la scarsità di osservazioni disponibili, a fronte di un cospicuo numero di parametri incogniti, condurrebbe a stime poco stabili. Passando ad esaminare i valori medi e gli indici di variabilità dei singoli aspetti della soddisfazione lavorativa per facoltà di provenienza riportati in Tab. 7, si nota che la distribuzione della soddisfazione lavorativa media risulta molto difforme da quella relativa al tempo libero, a confermare l’indicazione già desunta dall’osservazione del corrispondente coefficiente di correlazione. Non prendendo dunque in considerazione il tempo libero, si rileva che tutti gli altri aspetti della soddisfazione (compresa quella complessiva) assumono i valori medi più bassi in corrispondenza della facoltà di Lingue e di Scienze politiche, ad eccezione della sicurezza del lavoro. E’ singolare, infatti, che i laureati in Scienze politiche presentino una media della soddisfazione per la sicurezza del lavoro pari a 7,1 (la seconda più alta dopo quella che caratterizza la facoltà di Farmacia), mentre i laureati in Lettere una media pari a 5,6 (la più bassa di tutte). Una possibile spiegazione risiede nel fatto che molti laureati in Scienze Politiche sono già occupati al momento del conseguimento del titolo accademico. Invero è anche singolare che i laureati in Lingue presentino una media della soddisfazione per l’acquisizione di professionalità pari a 7,4, che è la terza più alta dopo quelle che caratterizzano le facoltà di Farmacia e Scienze della formazione. Tabella 7. Distribuzione dei singoli aspetti medi della soddisfazione lavorativa per facoltà di provenienza. UniFacoltà versiAspetti della Sc. mm. Scienze Lettere e Scienze Economia Giurispr. Lingue Farmacia Formaz. filosofia ff.nn. politiche soddisfazione tà 8,7 8,2 8,0 7,9 8,1 7,9 8,0 7,8 8,0 Rapporto colleghi 8,1 7,6 7,3 7,4 7,5 7,1 7,5 6,8 7,5 Indipendenza 8,5 7,3 7,7 7,4 7,4 7,0 6,9 7,4 7,4 Professionalità 7,9 7,6 7,3 7,2 7,7 7,1 7,5 7,0 7,4 Luogo lavoro 8,1 7,2 7,5 6,8 7,0 6,8 6,2 6,2 7,0 Interessi culturali 7,6 6,8 6,0 6,5 5,6 6,7 7,1 5,9 6,5 Sicurezza lavoro 8,0 7,0 6,8 6,7 5,7 5,9 5,2 5,5 6,5 Coerenza studi 7,5 6,6 5,8 6,6 6,2 6,1 6,3 5,8 Guadagno 6,4 7,2 6,5 6,1 6,7 6,1 6,2 6,2 5,6 6,4 Carriera 6,2 6,7 6,4 5,2 6,7 6,3 6,3 6,6 6,1 Tempo libero 7,4 7,2 7,1 7,0 6,9 6,8 6,5 7,1 Soddisf. complessiva 7,8 242 Le componenti della soddisfazione rispetto al lavoro svolto: un’indagine sui laureati... Data la contestuale insoddisfazione dei laureati in Lingue rispetto alla coerenza con gli studi fatti (la cui media è pari a 5,5), si deve ritenere che essi accettino primi impieghi nei quali imparano mansioni non strettamente pertinenti con la loro formazione. D’altro canto i laureati in Scienze della formazione, che presentano una media della soddisfazione complessiva tra le più alte (pari a 7,4), sono però meno soddisfatti degli altri rispetto alle prospettive di guadagno (media pari a 5,8) e alla sicurezza del lavoro (media paria a 6,0). In generale i laureati nelle due facoltà scientifiche (Farmacia e Scienze mm.ff.nn.) sono i più soddisfatti con riferimento a tutti gli aspetti, mentre i laureati nelle facoltà umanistiche (Scienze della formazione, Economia, Lettere, Giurisprudenza, Scienze Politiche, Lingue), che lo sono un po’ meno, presentano alcune anomalie (descritte in precedenza) con riferimento ai singoli aspetti. La Tab. 8 riporta le medie e gli indici di variabilità della soddisfazione per la coerenza con gli studi fatti per facoltà di provenienza: il fatto che l’intervallo di variazione delle medie sia il più ampio (compreso tra 5,2 e 8) tra tutti gli aspetti presi in considerazione induce a riflettere in ordine all’adeguatezza di alcuni specifici percorsi formativi. L’ordine delle facoltà rimane più o meno lo stesso di quello relativo alla soddisfazione complessiva, ma le differenze tra una facoltà e l’altra sono più marcate. Del resto l’incidenza della facoltà di provenienza sulla soddisfazione per la coerenza con gli studi fatti è confermata dal fatto che il livello di significatività osservato del test F relativo all’analisi della varianza ad un criterio risulta inferiore a 0,00. In particolare i laureati in Farmacia presentano la media più alta (pari a 8,0) e la variabilità più bassa di questo aspetto, mentre i laureati in Scienze politiche, Lingue straniere, Lettere e filosofia e Giurisprudenza presentano tutti una media inferiore a 6, nonché una variabilità piuttosto alta. Tabella 8. Media e variabilità della soddisfazione per la coerenza con gli studi fatti per facoltà di provenienza. Facoltà Farmacia Scienze mm.ff.nn. Scienze della formazione Economia Giurisprudenza Lettere e filosofia Lingue e letterature straniere Scienze politiche Università di Bari Media 8,0 7,0 6,8 6,7 5,9 5,7 5,5 5,2 6,5 Scarto quadratico medio 1,9 2,1 2,5 2,6 2,9 3,1 3,1 2,7 2,7 Coefficiente di variazione (%) 23,3 30,0 36,0 38,3 55,0 49,2 52,4 56,1 42,0 Modelli statistici per l’analisi della transizione Università-lavoro 5. 243 Singoli aspetti che spiegano la soddisfazione complessiva per il lavoro svolto in un’analisi di segmentazione Al fine di individuare quegli aspetti che meglio degli altri spiegano la soddisfazione lavorativa complessiva, è stata effettuata un’analisi di segmentazione delle osservazioni disponibili. I 531 laureati che hanno dichiarato di essere occupati vengono così suddivisi in sottogruppi, il più possibile omogenei al loro interno ed eterogenei l’uno dall’altro rispetto a tale soddisfazione. La segmentazione è stata operata per livelli successivi, suddividendo il gruppo preso in considerazione in ciascun livello nei due o più sottogruppi che differiscono tra loro nel modo più significativo. Tale suddivisione, in particolare, viene realizzata mediante le seguenti operazioni: con riferimento ad ogni singolo aspetto, si aggregano le coppie di modalità più simili tra loro (nel contesto di un’analisi della varianza della soddisfazione complessiva) in classi sempre più ampie; tra le aggregazioni successive di tutti gli aspetti esaminati, si sceglie quella più significativa. L’analisi termina quando tutti i sottogruppi individuati sono di numerosità inferiore a 30 ed anche quando ulteriori segmentazioni darebbero vita a sottogruppi non significativamente differenti tra loro (ad un livello del 5%) ovvero di numerosità inferiore a 20. Questo approccio alla segmentazione (denominato “Exaustive Chi-squared Automatic Interaction Detector”), che esamina per l’appunto in modo esaustivo tutte le possibili aggregazioni di classi di modalità dei singoli aspetti ad ogni livello, garantisce una migliore suddivisione del collettivo di partenza rispetto all’approccio denominato “Chi-squared Automatic Interaction Detector”. Peraltro, a fronte di una validazione incrociata dell’albero (che opera suddividendo il gruppo originario in 10 gruppi più piccoli di pari numerosità e generando altrettante classificazioni sulla scorta delle osservazioni di tutti i gruppi, ad eccezione di uno alla volta), si riscontra una stima della varianza infragruppo relativamente bassa (pari ad 1,3 circa). Nella Fig. 1 viene riportato l’albero ottenuto dalla segmentazione dei 531 laureati intervistati. Gli aspetti che spiegano meglio la soddisfazione complessiva, intervenendo nella segmentazione, sono l’acquisizione di professionalità, la rispondenza ai propri interessi culturali, le prospettive di guadagno ed il luogo di lavoro. I primi due aspetti sono i più correlati alla soddisfazione complessiva tra i dieci osservati; non altrettanto correlato è il luogo di lavoro, che pure suddivide - a seconda che sia inferiore o no ad 8 - un gruppo di laureati al terzo livello caratterizzato dalla soddisfazione complessiva media pari a 7,8 circa. Si noti al riguardo che la selezione di un aspetto durante l’ennesima iterazione condiziona in qualche modo la scelta degli aspetti successivi. Figura 1. Segmentazione dei 531 laureati intervistati tramite analisi con algoritmo “E-Chaid”. 244 Le componenti della soddisfazione rispetto al lavoro svolto: un’indagine sui laureati... Modelli statistici per l’analisi della transizione Università-lavoro 245 Sembra rilevante che 85 laureati (ovvero il 16,0% del collettivo), caratterizzati da una soddisfazione complessiva media non superiore a 5,4 circa, presentino una soddisfazione per l’acquisizione di professionalità generalmente non superiore a 5, ma pari anche a 6, se congiunta ad una soddisfazione per la rispondenza ai propri interessi culturali non superiore a 5. D’altro canto 161 laureati (ovvero il 30,3% del collettivo), caratterizzati da una soddisfazione complessiva media non inferiore a 8,3 circa, presentano alternativamente: - una soddisfazione per l’acquisizione di professionalità pari a 10; - una soddisfazione per l’acquisizione di professionalità pari a 9, se congiunta ad una soddisfazione per le prospettive di guadagno maggiori di 6; - una soddisfazione per l’acquisizione di professionalità pari a 8, se congiunta ad una soddisfazione per la rispondenza ai propri interessi culturali pari a 10; - una soddisfazione per l’acquisizione di professionalità pari a 8, se congiunta ad una soddisfazione per la rispondenza ai propri interessi culturali pari a 8 o 9 e ad una soddisfazione per il luogo di lavoro maggiore di 8. In definitiva livelli elevati (bassi) di soddisfazione complessiva sembrano non poter prescindere soprattutto da livelli elevati (bassi) di soddisfazione per l’acquisizione di professionalità e per la rispondenza ai propri interessi culturali. 6. Un modello LISREL per lo studio dei diversi aspetti della soddisfazione lavorativa Dopo aver visto quali sono gli aspetti più influenti sulla soddisfazione lavorativa, si passa ora a verificare la eventuale presenza di fattori latenti in grado sintetizzare i diversi aspetti dell’attività lavorativa considerati. A questo scopo useremo un modello ad equazioni strutturali, meglio noto con il nome di LISREL (Joreskog, 1973, 1977, Wiley, 1973; Jöreskog e Sörbom, 1984; Bollen, 1989). Tale modello viene costruito partendo da relazioni molto semplici ed inserendo un numero sempre crescente di variabili e di equazioni, in modo da approssimare sempre più la realtà. In genere le equazioni strutturali sono particolarmente utili in quei casi in cui si ritiene che il fenomeno oggetto di studio non dipenda direttamente dalle variabili osservate ma sia più facilmente spiegabile attraverso delle variabili latenti. Queste ultime si dicono esogene se fungono da variabili esplicative, ovvero endogene se hanno anche il ruolo di variabili risposta. Il modello completo comprende: variabili osservate (esogene o endogene), variabili latenti (esogene o endogene), coefficienti strutturali fra variabili legate da 246 Le componenti della soddisfazione rispetto al lavoro svolto: un’indagine sui laureati... nessi causali, componenti residuali, varianze delle variabili latenti e delle variabili osservate ed infine covarianze delle variabili latenti e degli errori. Il modello LISREL è composto da una equazione strutturale e da due modelli di misura: η=Βη+Γξ+ζ, [1] x = Λx ξ + δ , y= Λy η + ε , [2] dove ξ è il vettore delle variabili latenti esogene η è il vettore delle variabili latenti endogene, x è il vettore delle variabili esogene osservabili mentre y è il vettore delle variabili endogene misurabili, Γ è la matrice di regressione delle variabili latenti endogene su quelle esogene e Β è la matrice degli effetti diretti tra gli elementi di η . Si noti che x e y sono legati linearmente a ξ e η attraverso le matrici dei coefficienti Λx e Λy e che ζ è il vettore degli errori dell’equazione strutturale, mentre δ e ε sono gli errori di misura delle variabili x e y. Le ipotesi alla base del modello LISREL sono: E(x) = E(y) = E(η) = E(ξ) = 0 [3] Le variabili esogene nei modelli [1] e [2] sono incorrelate con gli errori e, nei modelli di misura, anche con gli errori dell’altra equazione: E(ξ ζ’) = E(η ε’) = E(ξ δ ’)= 0 e E(η δ’) = E(ξ ε’) = 0. [4] Allo stesso modo gli errori delle diverse equazioni sono incorrelati tra loro: E(ζ δ’) = E(ζ ε’)= E (δ ε’) = 0. Inoltre si suppone che tutte le equazioni del modello strutturale, che esprimono η come variabili endogene, siano indipendenti fra loro. Infine si ha: Cov(ζ) = Ψ , Cov(ε) = Θε , Cov(δ) = Θδ , [5] Cov(ξ) = Φ. Per la stima dei parametri incogniti si possono usare varie tecniche, tuttavia gli stimatori più usati sono quelli di massima verosimiglianza (Jöreskog, 1973) e dei minimi quadrati generalizzati (Jöreskog e Goldberger, 1975; Browne, 1974). Trattasi di stimatori efficienti e consistenti con buone proprietà di invarianza (non dipendendo né dalla scala delle variabili osservate né dalla loro origine). Gli stimatori di massima verosimiglianza però sono più robusti quando la distribuzione delle variabili osservate presenta code spesse. Questa proprietà ci tornerà molto utile per la stima del nostro modello, per cui faremo riferimento esclusivamente a stimatori di massima verosimiglianza. Un caso particolare del modello LISREL è il modello MIMIC (Multiple Indicators Multiple Cause Models) proposto da Jöreskog e Goldberger (1975), con cui studieremo le relazioni esistenti fra le diverse variabili osservate e latenti. Modelli statistici per l’analisi della transizione Università-lavoro 247 La costruzione di un modello MIMIC partendo da un modello LISREL è molto semplice, basta infatti imporre che Λx sia una matrice identica e che Θδ sia una matrice nulla, ovvero che le variabili osservate coincidano con le variabili latenti cause del modello LISREL. Per agevolare la lettura e l’interpretazione dei modelli LISREL spesso si usano dei diagrammi di flusso, meglio noti come path diagram, in cui, per convenzione, le variabili osservabili vengono racchiuse in una figura geometrica rettangolare e le variabili latenti in figure ellittiche. Particolarmente importanti sono le frecce che collegano le diverse figure fra la loro. Le frecce unidirezionali servono ad indicare un rapporto di causa effetto fra le due variabili in cui il verso delle freccia indica che la variabile origine è la causa, mentre quella di destinazione è l’effetto. 7. La ricerca delle variabili latenti Al fine di individuare le variabili da utilizzare nel modello LISREL, abbiamo effettuato un’analisi fattoriale esplorativa dei giudizi espressi sui singoli aspetti della soddisfazione lavorativa, impiegando il metodo delle componenti principali. Tale analisi consente nello specifico di individuare quattro componenti, che insieme spiegano il 71,8% della variabilità totale: la prima di esse, in particolare, ne spiega ben il 39,4%, mentre le altre tre, essendo associate ad autovalori della matrice delle correlazioni più bassi e non molto diversi fra loro, contribuiscono ad una percentuale prossima al 10% ciascuna. La scelta di prendere in considerazione anche la quarta componente, il cui corrispondente autovalore risulta inferiore ad uno, è motivata dal fatto che essa consente di spiegare comunque l’8,3% della variabilità complessiva. Le quattro dimensioni così individuate sono state poi ruotate ortogonalmente tramite il procedimento cosiddetto “varimax” (Kaiser, 1958), al fine di migliorarne la separazione e quindi l’interpretazione. Tabella 9. Percentuale di varianza totale spiegata dalle prime 4 componenti principali e corrispondenti autovalori della matrice delle correlazioni. Componenti Componenti ruotate % varianza % varianza % varianza % varianza Autovalori spiegata cumulata spiegata cumulata 3,7 39,4 39,4 22,8 22,8 1 1,2 13,1 52,5 21,9 44,7 2 1,0 11,0 63,5 16,7 61,4 3 0,8 8,3 71,8 10,4 71,8 4 248 Le componenti della soddisfazione rispetto al lavoro svolto: un’indagine sui laureati... Tabella 10. Coefficienti di correlazione di ciascuna componente principale ruotata con i singoli aspetti della soddisfazione lavorativa. Aspetti della soddisfazione Coerenza studi fatti Interessi culturali Professionalità Carriera Guadagno Sicurezza del lavoro Rapporto con i colleghi Luogo lavoro Indipendenza Tempo libero 1 Crescita professionale 0,87 0,84 0,76 0,28 0,16 0,14 0,11 0,18 0,29 0,00 Componenti ruotate 2 3 Prospettive di Ambiente carriera di lavoro 0,15 0,08 0,21 0,19 0,30 0,22 0,82 0,09 0,81 0,15 0,72 0,11 0,08 0,84 0,14 0,77 0,40 0,47 0,00 0,13 4 Tempo Libero 0,03 0,08 -0,10 -0,09 0,09 0,00 -0,04 0,17 0,22 0,97 A ciascuna dimensione ruotata viene attribuita una valenza, dopo averne analizzato i coefficienti di correlazione con i singoli aspetti della soddisfazione lavorativa (si veda la Tab. 10). La prima componente attiene alla soddisfazione per la crescita professionale, dal momento che presenta una correlazione non inferiore a 0,76 con la soddisfazione per l’acquisizione di professionalità, per la coerenza con gli studi fatti e per la rispondenza agli interessi culturali, mentre una correlazione non superiore a 0,29 con la soddisfazione per tutti gli altri aspetti esaminati. La seconda componente attiene alla soddisfazione per le prospettive di carriera, dal momento che presenta una correlazione non inferiore a 0,72 con la soddisfazione per le prospettive di guadagno, per le prospettive di carriera e per la sicurezza del lavoro, mentre una correlazione pari a 0,40 con la soddisfazione per l’indipendenza ed infine una correlazione non superiore a 0,30 con la soddisfazione per tutti gli altri aspetti esaminati. La terza componente attiene alla soddisfazione per l’ambiente di lavoro, dal momento che presenta una correlazione non inferiore a 0,77 con la soddisfazione per il luogo di lavoro e per il rapporto con i colleghi, mentre una correlazione pari a 0,47 con la soddisfazione per l’indipendenza ed infine una correlazione non superiore a 0,22 con la soddisfazione per tutti gli altri aspetti esaminati. Il fatto che la soddisfazione per l’indipendenza sia correlata tanto alla seconda quanto alla terza componente non deve stupire se si riflette proprio sulla valenza di entrambe. La quarta componente, che spiega solo il 10,4% della variabilità totale, attiene alla soddisfazione per il tempo libero, dal momento che presenta una correlazione pari a 0,97 per l’appunto con la soddisfazione per il tempo libero ed una correlazione Modelli statistici per l’analisi della transizione Università-lavoro 249 non superiore a 0,22 in valore assoluto con la soddisfazione per tutti gli altri aspetti esaminati. 8. Il modello MIMIC stimato L’analisi fattoriale sin qui condotta ci fornisce le indicazioni necessarie per la costruzione di un modello MIMIC che ci consente di studiare simultaneamente sia le cause (ovvero i singoli aspetti della soddisfazione lavorativa considerati) che gli effetti (le variabili osservate qualità e soddisfazione complessiva) della variabile latente denominata soddisfazione tout court (Zavarrone, 2003). La misura della soddisfazione è una operazione piuttosto complessa, poiché, come si è visto nel corso dell’analisi di segmentazione, vi sono alcuni aspetti della soddisfazione lavorativa più influenti rispetto ad altri e le scale di preferenza sono di natura soggettiva e quindi difficilmente confrontabili. Nel nostro modello abbiamo assunto che la variabile soddisfazione non sia osservabile direttamente, ma che in qualche modo sia influenzata dei primi tre fattori individuati nel paragrafo precedente: Crescita professionale, Prospettive di carriera e Ambiente di lavoro e che a sua volta sia in grado di influenzare due variabili osservate: l’indice relativo alla qualità del lavoro svolto ed il punteggio attribuito dagli intervistati alla soddisfazione complessiva relativa all’ambito lavorativo. Avendo considerato le relazioni casuali fra i diversi fattori, la variabile Tempo libero ha perso parte del contributo informativo che aveva nell’analisi fattoriale esplorativa e non è risultata più significativa. Le variabili osservate, utilizzate come proxy della soddisfazione, sono l’indice relativo alla qualità del lavoro svolto, misurato su scala 0-100, ed il giudizio sulla soddisfazione lavorativa complessiva dichiarata, espresso sotto forma di punteggio da 0 a 10. Il modello è stato stimato utilizzando le risposte fornite dai 531 laureati considerati per la nostra analisi. Per consentire la convergenza del modello sono stati imposti dei vincoli sia sugli errori che su alcuni pesi di regressione, per cui il modello stimato ha 32 gradi di libertà, ottenuti come differenza fra i 78 momenti campionari ed i 46 parametri da stimare. Per analizzare meglio la Fig. 2 considereremo, dapprima, le relazioni fra le variabili osservate e le cause latenti. Come già evidenziato dall’analisi fattoriale, la variabile latente crescita professionale influenza le variabili osservate acquisizione di professionalità, coerenza con gli studi fatti e interessi culturali con pesi di regressione standardizzati pari rispetti- 250 Le componenti della soddisfazione rispetto al lavoro svolto: un’indagine sui laureati... Figura 2 Grafico delle relazioni fra le variabili utilizzate per il modello MIMIC. Coerenza studi fatti Professionalità Crescita professionale Interessi culturali Qualità del lavoro Guadagno Carriera Prospettive carriera Sicurezza lavoro Soddisfazione Indipendenza Luogo lavoro Ambiente lavoro Rapporto colleghi Tempo libero Soddisfazione lavorativa compl. dichiarata vamente a 0,80, 0,79 e 0,75. Le variabili osservate coerenza studi e interessi culturali risultano essere correlate fra loro. La variabile latente prospettive di carriera è invece legata alla carriera (con peso di regressione 0,83), alle prospettive di guadagno (0,75) ed alla stabilità ed alla sicurezza del lavoro svolto (0,62). Non trascurabile è la correlazione tra le prospettive di guadagno e la sicurezza del lavoro. Un altro fattore che contribuisce a spiegare la soddisfazione rispetto all’attività lavorativa svolta è l’ambiente di lavoro. Tale fattore è legato, oltre che al livello di indipendenza lavorativa (peso di regressione 0,52), anche al luogo di lavoro (0,36) ed ai rapporti con i colleghi (0,34). Fra le diverse correlazioni fra le variabili osservate, considerate dal modello, spiccano quelle fra le variabili indipendenza e luogo di lavoro (r=0,29) e tra quest’ultima ed i rapporti tra colleghi (r=0,35). Passando a considerare i legami tra le variabili latenti si nota che le prospettive di carriera sono correlate all’ambiente di lavoro (r=0,81) ed alla crescita professionale (r=0,61). Molto forte è il legame tra l’ambiente lavorativo e la soddisfazione sulle prospettive di crescita professionale (r=0,95). Considerando le relazioni fra le variabili latenti cause e la variabile latente endogena soddisfazione si nota come questa è fortemente influenzata dall’ambiente di lavoro (0,88) dalla crescita professionale (0,14) ed in modo marginale dalle prospettive di carriera (-0,02). Modelli statistici per l’analisi della transizione Università-lavoro 251 Tabella 11 Pesi di regressione standardizzati per le variabili osservabili e latenti, endogene ed esogene, del modello LISREL. Variabili Pesi di regressione standardizzati Crescita professionale Acquisizione di professionalità 0,80 Coerenza con gli studi fatti 0,79 Interessi culturali 0,75 Prospettive di carriera Carriera 0,83 Prospettive di guadagno 0,75 Stabilità e sicurezza del lavoro 0,62 Ambiente di lavoro Indipendenza 0,52 Luogo di lavoro 0,36 Rapporti con i colleghi 0,34 Soddisfazione Soddisfazione complessiva dichiarata 0,80 Qualità del lavoro 0,72 0,88 Ambiente di lavoro 0,14 Crescita professionale -0,02 Prospettive di carriera Le variabile osservabili che contribuiscono alla stima della soddisfazione sono la qualità del lavoro (0,80) ed il livello soddisfazione complessiva dichiarata (0,72). Queste due variabili sono correlate negativamente tra loro (r=-0,18). Il modello stimato evidenzia una complessa rete di relazioni fra i fattori latenti esogeni e quello endogeno ed una buona congruenza fra quest’ultimo ed i punteggi espressi dagli intervistati sulla qualità del lavoro svolto e sul livello di soddisfazione lavorativa complessiva dichiarata. Nella Tab. 12 abbiamo riportato alcuni indici di adattamento relativi al modello stimato. Avendo utilizzato il metodo della massima verosimiglianza, per valutare la bontà del modello è opportuno verificare, innanzitutto, il minimo valore della funzione di discrepanza con il test chi-quadrato. Tenendo conto del fatto che si hanno 32 gradi di libertà, l’indice CMIN, che si distribuisce appunto come un χ2, risulta significativo (P<0,0001). L’indice ECVI, pari a 0,36, è prossimo al valore minimo relativo al modello saturo (0,31), indicando che l’indice di discrepanza è molto basso. Il goodness of fit index (GFI) è vicino al valore massimo, indicando che il livello di adattamento del modello è buono. Il test AGFI, a differenza del GFI, è standardizzato rispetto ai gradi di libertà, ed anch’esso indica un buon accostamento. L’indice RMR è molto più vicino ai valori del modello saturo (0,00) rispetto a quelli del modello di indipendenza (7,31). Infine anche l’indice RMSEA (pari a 0,06) indica che il modello stimato si adatta abbastanza bene al fenomeno studiato. 252 Le componenti della soddisfazione rispetto al lavoro svolto: un’indagine sui laureati... Tabella 12 Indici di adattamento del modello ad equazioni strutturali per la soddisfazione rispetto all’attività lavorativa svolta. Indici di adattamento CMIN g.d.l. ECVI (Expected Cross-Validation Index) GFI (Goodness of Fit Index) AGFI (Adjusted Goodness of Fit Index) RMR (Root Mean Square Residual) RMSEA (Root Mean Square error of Approximation) 9. Valori 91,42 32 0,36 0,97 0,93 0,12 0,06 Conclusioni In un mercato del lavoro caratterizzato da una forte disoccupazione giovanile lo studio del placement dei laureati assume grande rilevanza. E’ noto, infatti, che il possesso di un titolo accademico aumenta le probabilità di trovare lavoro, ma spesso i neolaureati si devono accontentare di lavori precari e non adeguati al livello di preparazione posseduto. Per questo è molto importante non limitarsi a considerare le percentuali di occupati, ma analizzare più in dettaglio il problema considerando i giudizi espressi dai laureati occupati sui diversi aspetti della soddisfazione lavorativa. Dalle nostre analisi è emerso che i laureati occupati dell’Università di Bari sono nel complesso soddisfatti anche se vi sono delle lievi differenze a seconda della facoltà di provenienza. Fra i diversi aspetti della soddisfazione lavorativa considerati quelli legati all’ambiente di lavoro ed alla crescita professionale hanno fatto registrare i punteggi medi più alti, mentre quelli relativi alle prospettive di guadagno e di carriera sono risultati leggermente inferiori, anche se al di sopra della sufficienza. Come si è visto dall’analisi di segmentazione la soddisfazione complessiva dichiarata è fortemente influenzata dalla soddisfazione per l’acquisizione di professionalità e per i propri interessi culturali. Queste due variabili da sole sono in grado di identificare i nodi finali che racchiudono quasi il 50% dei soggetti considerati. Segno questo che i laureati antepongono le prospettive di crescita professionale e cultuale agli aspetti economici. Sono quindi disposti a fare dei sacrifici, accettando lavori meno remunerati e stabili pur di investire sul proprio futuro intraprendendo percorsi lavorativi con prospettive di piena realizzazione nel medio lungo termine. Il modello MIMIC stimato ha confermato i risultati dell’analisi di segmentazione indicando che fra le 3 variabili esogene legate alla soddisfazione latente l’ambiente di lavoro è sicuramente la più influente. Il modello stimato ha un buon adat- Modelli statistici per l’analisi della transizione Università-lavoro 253 tamento per cui possiamo affermare che le relazioni fra le numerose variabili considerate sono suffragate dai dati rilevati. Possiamo quindi concludere che le analisi effettuate hanno consentito di rispondere con sufficiente precisione ai quesiti iniziali, ovvero i laureati dell’Università di Bari sono abbastanza soddisfatti della loro attività lavorativa ed il loro giudizio è fortemente influenzato dall’ambiente di lavoro e dalle prospettive di crescita professionale offerte dalla propria attività lavorativa. Tale risultato ci deve indurre a riflettere sull’importanza della formazione per il futuro lavorativo dei laureati e a disegnare dei percorsi formativi equilibrati in cui gli studenti possano trovare risposta al loro desiderio di sviluppare i propri interessi culturali e di acquisire le professionalità necessarie per le mansioni che andranno a ricoprire nel mondo del lavoro, facendo tesoro delle nozioni acquisite durante gli anni universitari. Riferimenti bibliografici BIGGERI L. (1983), La produttività della pubblica amministrazione, Città e Regione, 4. BIGGS D., DE VILLE B., SUEN E. (1991) A metod of choosing multiway partitions for classification and decision trees, Journal of Applied Statistics, 18: 49-62. BOLLEN K. A. (1989) Structural Equations with Latent Variables, Wiley & Sons, New York-Toronto. BREIMEN L., FREIDMAN J.H., OLSHEN R.A., STONE C.J. (1984) Classification and regression trees, Wadsworth Inc., Belmont California. BROWNE M. W. (1974) Generalized least-squares estimators in the analysis of covariate structures, South African Statistical Journal, 8: 1-24. CHIANDOTTO B. (2003) La situazione occupazionale dei laureati: dall’indagine alla pianificazione degli interventi sui percorsi formativi, in: M. Civardi (a cura di), Transizione Università-Lavoro: la definizione delle competenze, CLEUP, Padova: 1-18. CROCETTA C., DELVECCHIO G. (2003) Una misura fuzzy della formazione universitaria per l'ingresso nel mondo del lavoro, in M. Civardi (a cura di), Transizione Università-Lavoro: la definizione delle competenze, CLEUP, Padova: 148-169. FABBRIS L. (1997) Statistica multivariata. Analisi esplorativa dei dati, McGrawHill, Milano. GORI E., VITTADINI G. (1999) (a cura di) Qualità e valutazione nei servizi di pubblica utilità, Etas, Milano. JÖRESKOG K. G. (1973) A general method for estimating a linear structural equation system, in A S. Goldberger and O. D. Duncan, (eds), Structural equation Models in the Social Sciences, Academic Press, New York: 85-112. 254 Le componenti della soddisfazione rispetto al lavoro svolto: un’indagine sui laureati... JÖRESKOG K. G. (1977) Structural equation models in the social sciences, in P.R. KRISHNAIAH (ed.), Application of Statistics, Amsterdam, North Holland: 265287. JÖRESKOG K. G., GOLDBERGER A. S. (1975) Estimation of a model with multiple indicators and multiple causes of a single latent variable, Journal of the American Statistical Association, 10: 631-639. JÖRESKOG K. G., SÖRBOM D.(1984) LISREL VI Analysis of Linear Structural Relation by Maximum Likelihood, Instrumental Variables, and Least Square Methods, User’s guide, Department of Statistics, University of Uppsala, Sweden. KAISER H.F. (1958), The varimax criterion for analytic rotation in factor analysis, Psychometrika, 23: 187-200 WILEY D.E. (1973) The identification problem for structural equation models with unmeasured variables, in A.S. Goldberger and O.D. Duncan, (eds), Structural equation Models in the Social Sciences, New York, Academic Press: 69-83. ZAVARRONE E. (2003) Ricerca di fattori latenti per il rischio di abbandono degli studi universitari, in: L. Fabbris (a cura di), LAID-OUT scoprire i rischi con l’analisi di segmentazione, Cleup, Padova: 41-54. Work satisfaction components: a research on graduates from the University of Bari Summary: The aim of this paper is to find the work satisfaction components for the graduates from the 2002 summer session at the University of Bari, interviewed by the “AlmaLaurea” inter-university union. At first we singled out those aspects that better explain overall work satisfaction. In particular, by segmenting the interviewed graduates by means of an E-CHAID algorithm, we obtained subgroups differing from each other especially in terms of satisfaction for the acquisition of professional skills, for the correspondence between work activity and cultural interests and for developing prospects for higher incomes. Successively a LISREL model was estimated in order to examine the causal structure of observed and latent variables. In this way we were able to verify that the opinion on work satisfaction depends above all on professional growth. Keywords: Graduates, University of Bari, Work satisfaction, Segmentation Analysis, E-CHAID, Structural Equation Model, LISREL. Un modello con tecniche fuzzy neuro-adattative per la classificazione dei laureati dell’Università di Bari secondo l’occupazione a un anno dalla laurea Giuseppe Delvecchio, Francesco d’Ovidio 1 Università degli Studi di Bari Riassunto: Nel presente lavoro si propone una nuova metodologia per migliorare la precisione dell’attribuzione dell’esito lavorativo ottenibile, con tecniche statistiche, a partire da un insieme di caratteristiche inerenti il percorso formativo universitario o relative alla ricerca di occupazione. Lo scopo di partenza è l’identificazione di alcune caratteristiche dei laureati (nello specifico, laureati dell’Università di Bari nel periodo 1995-2000) in grado di favorire l’inserimento lavorativo entro un anno dalla laurea. In quest’ottica viene sottoposto ad analisi di segmentazione un campione di laureati provenienti da detta popolazione, ottenendo risultati affetti da un consistente errore di classificazione. Si procede, quindi, ad implementare le regole risultanti dall’analisi di segmentazione in un sistema di reti neurali, utilizzando anche tecniche fuzzy, allo scopo di individuare possibili miglioramenti dell’impianto di regole e di definire l’importanza di una determinata configurazione di covariate e/o di dati. I risultati ottenuti verificano in modo più puntuale l’influenza, ai fini del placement, di caratteristiche personali e competenze acquisite. Parole chiave: Inserimento lavorativo, Laureati, Università di Bari, Analisi di segmentazione, Tecniche fuzzy neuro-adattative, ANFIS. 1. Introduzione Scopo del lavoro che qui si presenta è individuare una metodologia per migliorare la precisione della “previsione” dell’esito della ricerca lavorativa ottenibile, con tecniche statistiche, a partire da un insieme di caratteristiche inerenti il percorso formativo 1 Il presente lavoro è stato realizzato nell'ambito del progetto "Transizioni Università-Lavoro e valorizzazione delle competenze professionali dei laureati: modelli e metodi di analisi multidimensionale delle determinanti", cofinanziato dal MIUR; coordinatore nazionale è Luigi Fabbris, coordinatore del gruppo di Bari è Francesco Delvecchio. Della nota in oggetto, opera congiunta dei due autori, va attribuita a F. d'Ovidio la redazione finale dei paragrafi 1 e 2, a G. Delvecchio quella dei paragrafi 3, 4 e 5. 256 Un modello con tecniche fuzzy neuro adattative per la classificazione dei laureati... universitario o relative alla ricerca di occupazione. La motivazione iniziale di detta scelta può essere fatta risalire alla constatazione che, sottoponendo ad analisi di segmentazione i dati rivenienti da un’indagine appositamente condotta su un campione di laureati dell’Università di Bari, con strategie simili a quelle utilizzate in un precedente lavoro (Crocetta e d’Ovidio, 2003), i risultati, per quanto interessanti, denunciavano un errore di classificazione elevato. In una siffatta analisi, invero, l’errore di classificazione è in parte giustificabile, considerando che le variabili esplicative sono legate soprattutto ai percorsi formativi ed alla soddisfazione, mentre la variabile risposta (dicotomica) su cui si è investigato è l’aver trovato lavoro entro un anno di tempo dalla laurea (al netto del servizio militare eventualmente adempiuto dopo il conseguimento del titolo). Com’è ovvio, infatti, sulla variabile risposta hanno grande rilevanza anche fattori legati al mercato del lavoro non rilevati nell’indagine campionaria, molti dei quali comunque non rilevabili per propria natura. 2. Una prima analisi statistica delle determinanti dell’occupazione dei laureati presso l’Ateneo di Bari Fra dicembre 2003 ed aprile 2004 è stata effettuata una rilevazione telefonica su un campione di laureati, allo scopo di verificare, a distanza di almeno tre anni dal conseguimento del titolo, la loro situazione dal punto di vista lavorativo2. Il questionario utilizzato per l’indagine telefonica, appositamente realizzato per essere completato in non oltre quindici minuti, è articolato in sezioni distinte destinate a raccogliere le caratteristiche socio-anagrafiche salienti dell’intervistato, informazioni sui soggetti non occupati, informazioni sui soggetti attualmente disoccupati ed informazioni sui soggetti attualmente occupati. A queste informazioni sono state poi fatte corrispondere altre numerose informazioni, relative al curriculum formativo degli intervistati, disponibili presso gli archivi amministrativi dell’Università. La popolazione di riferimento è composta da coloro che hanno conseguito la laurea presso l’Università di Bari dal 1995 al 2000, nelle seguenti 11 Facoltà3: Agra- 2 Si ringraziano, in proposito, i dott. B. Amenduni, V. Ferrandes, L. Milone e C. Triggiani per la pazienza e la costanza con cui hanno effettuato la rilevazione ed il Centro Servizi Informativi dell’Università di Bari, nella persona del sig. G. Melchiorre, per l’affidabilità dimostrata nella fornitura di dati il più possibile corretti, necessari sia a reperire i laureati da intervistare, sia ad integrare le informazioni rilevate telefonicamente con quelle disponibili in archivio. 3 Fra le quali non è compresa la Facoltà di Scienze biotecnologiche, di recente istituzione, né, ovviamente, le Facoltà di Ingegneria ed Architettura, afferenti ad altro Ateneo (Politecnico di Bari). Modelli statistici per l’analisi della transizione Università-lavoro 257 ria, Economia, Farmacia, Giurisprudenza, Lettere e Filosofia, Lingue e letterature straniere, Medicina e Chirurgia, Medicina veterinaria, Scienze della formazione, Scienze politiche, Scienze matematiche, fisiche e naturali. Dalla suddetta popolazione è stato estratto, con procedimento casuale, un campione stratificato proporzionale per corso di laurea e per genere. Il piano di campionamento prevedeva, per ottenere una buona rappresentatività ed un ridotto intervallo di confidenza delle stime, la rilevazione di oltre 3.000 interviste. La difficile reperibilità dei soggetti (anche utilizzando elenchi di riserva), unitamente alla estrema incompletezza di molte interviste, escluse quindi dall’indagine, ha portato il campione a 2.785 unità, comunque sufficientemente rappresentative della popolazione. Per motivi legati alla più difficile reperibilità e forse alla fretta degli intervistati di concludere l’intervista, ciò ha portato ad una minore quota di campionamento per i laureati delle Facoltà di Economia e di Giurisprudenza, per le quali si ha, quindi, una certa sottostima dei tassi di occupazione post-laurea (in quanto le interviste errate o non giunte a buon esito sono, presumibilmente, relative soprattutto a chi ha meno tempo e voglia di collaborare perché lavora oppure è in fase di tirocinio). Nella Tab. 1 è riportata la composizione finale del campione, distinta per Facoltà e genere, a valle del procedimento di controllo. Va qui sottolineata l’informazione relativa allo sbilanciamento fra i sessi (fenomeno che, nonostante l’errore campionario su descritto, si ripropone fedelmente nella popolazione): in particolar modo in Facoltà quali Lettere e filosofia, Lingue e letterature straniere e Scienze della formazione, ove le laureate ammontano all’85% del totale ed oltre (fino al 92% dell’ultima Facoltà citata), mentre uno sbilanciamento speculare si rileva soltanto fra i laureati della Facoltà di Agraria, quasi l’80% dei Tabella 1. Distribuzione del campione di laureati presso l’Ateneo barese per Facoltà e genere. Quota di campionamento per Facoltà. Quota di Genere campion. F M MF Facoltà Agraria 11 42 53 14,6 Economia 239 195 434 9,1 Farmacia 53 25 78 11,6 Giurisprudenza 356 244 600 8,9 Lettere e filosofia 298 55 353 13,2 Lingue e letterature straniere 207 20 227 13,6 Medicina e chirurgia 108 110 218 13,2 Medicina veterinaria 12 13 25 14,2 Scienze della formazione 198 17 215 12,9 Scienze matematiche, fisiche e naturali 221 150 371 13,4 Scienze politiche 113 98 211 12,8 Università di Bari 10,6 1.816 969 2.785 dal 1995 al 2000, % per genere F M MF 20,8 79,2 100,0 55,1 44,9 100,0 67,9 32,1 100,0 59,3 40,7 100,0 84,4 15,6 100,0 91,2 8,8 100,0 49,5 50,5 100,0 48,0 52,0 100,0 92,1 7,9 100,0 59,6 40,4 100,0 53,6 46,4 100,0 65,2 34,8 100,0 258 Un modello con tecniche fuzzy neuro adattative per la classificazione dei laureati... quali è di genere maschile. Un tale sbilanciamento può avere qualche rilevanza nelle analisi successive per via di alcune particolarità del mercato del lavoro, in special modo nel Mezzogiorno4. A distanza di vari anni dalla laurea, la situazione lavorativa degli intervistati appare abbastanza definita, pur tenendo conto della cospicua quota di essi che si dichiara ancora in formazione5 (10,2%); al momento dell’intervista, infatti circa il 77% dei laureati dell’Ateneo barese aveva un’occupazione (il 51,1% a tempo indeterminato), mentre poco meno del 10% aveva perso un lavoro e non ne aveva ancora trovati altri; la piccola quota restante (7,1%) era ancora in cerca di prima occupazione. Sussistono consistenti differenze fra i sessi, soprattutto in termini di accesso a occupazioni a tempo indeterminato, e fra laureati di Facoltà diverse6. Tuttavia, questi dati costituiscono una fotografia, per quanto interessante, poco esplicativa della realtà, essendo riferiti a coorti di laureati abbastanza spaziate nel tempo (i laureati del 1995, infatti, sono nel mercato del lavoro da circa otto-nove anni, mentre quelli del 2000 da appena tre-quattro). Ben più significativa è la situazione prospettata nella Tab. 2, che riporta le percentuali di laureati che hanno trovato lavoro entro un determinato tempo dalla laurea (tipicamente, 12, 24 e 36 mesi) e, complementariamente, quelle di chi non ha mai lavorato fra la laurea ed il tempo limite di tre anni. Si tenga conto che, per i soli laureati che hanno espletato il servizio militare obbligatorio dopo la laurea, allo scopo di rendere più comparabili i risultati, il calcolo è stato corretto sottraendo 12 mesi al tempo di inoccupazione dichiarato dagli intervistati. Il 55,2% dei laureati dell’Università di Bari risulta essere occupato entro un anno dal conseguimento del titolo (comprendendo in tale quota, ovviamente, anche coloro che già lavoravano prima di laurearsi), mentre solo il 22,6% dopo tre anni è ancora in condizione non professionale: in cerca di lavoro, in formazione o, in pochi casi, inattivo. A causa della “flessibilità” lavorativa con cui da sempre i neo-laureati 4 Ove le donne spesso trovano o conservano un lavoro meno facilmente della controparte maschile, a causa di una maggiore discontinuità dovuta ad assenze per motivi familiari che la natura o gli usi associano alla figura femminile (gravidanze, malattie infantili, ecc.). 5 Si pone in evidenza che, per quanto riguarda i laureati in Medicina e Chirurgia che hanno ottenuto l’iscrizione ai corsi di Specializzazione previsti nel loro ordinamento didattico, si è presa la decisione di non inserirli nel novero delle persone “in formazione”, bensì fra gli occupati a tempo determinato, poiché nel loro caso il rapporto con la struttura formativa assume a tutti gli effetti, anche contributivi, caratteristiche simili appunto a quelle dei contratti di lavoro a tempo determinato, essendo l’acquisizione di una “borsa di studio” condizione necessaria, precisamente regolamentata (cfr. decreto legislativo 8 agosto 1991, n. 257), per l’accesso alla specializzazione. 6 E, al loro interno, anche fra i corsi di laurea (anche molto differenti fra loro) che li compongono: si pensi, ad esempio, alla Facoltà di Scienze MM.FF.NN, ove si ritrovano lauree molto richieste dal mercato del lavoro, come Informatica, ed altre meno favorite. Purtroppo, a causa della numerosità campionaria abbastanza ridotta a cui l’indagine è stata costretta ad adeguarsi, il dettaglio per corso di laurea è talora riferito a numerosità esigue e, quindi, non significative dal punto di vista statistico. Modelli statistici per l’analisi della transizione Università-lavoro 259 Tabella 2. Distribuzione percentuale dei laureati secondo il tempo intercorso fra laurea e prima occupazione (al netto dell’eventuale servizio militare adempiuto dopo la laurea), per Facoltà e genere dell’intervistato. Tempo netto fra laurea e primo lavoro fino a 12 Non occupati 13-24 mesi 24-36 mesi Totale mesi entro 36 mesi Facoltà Agraria 90,6 3,8 5,7 100,0 Economia 74,4 13,4 2,3 9,9 100,0 Farmacia 78,2 6,4 2,6 12,8 100,0 Giurisprudenza 27,3 17,5 22,3 32,8 100,0 Lettere e filosofia 44,2 24,1 11,3 20,4 100,0 Lingue e letterature straniere 68,7 15,9 3,5 11,9 100,0 Medicina e chirurgia 18,8 2,3 1,8 77,1 100,0 Medicina veterinaria 60,0 12,0 28,0 100,0 Scienze della formazione 69,8 14,4 3,7 12,1 100,0 Scienze matem., fisiche e nat. 76,3 9,4 3,5 10,8 100,0 Scienze politiche 66,4 11,8 4,7 17,1 100,0 Genere Femmine 52,6 15,1 9,1 23,1 100,0 Maschi 60,1 11,9 6,5 21,6 100,0 Università di Bari 55,2 14,0 8,2 22,6 100,0 devono confrontarsi (anche se un tempo si chiamava più onestamente “precariato”) una buona parte di costoro è poi entrata nel gruppo dei disoccupati. Pur senza scendere nel dettaglio dell’analisi, si vuole qui far presente che oltre il 90% dei laureati in Agraria ha trovato lavoro entro un anno dalla laurea, pur se, presumibilmente, per buona parte di essi si trattava di lavoro a tempo determinato, in quanto al momento della rilevazione si è registrato un livello di disoccupazione superiore al 20%. L’occupazione entro l’anno è un traguardo che è stato raggiunto anche dal 78,2% dei laureati in Farmacia, dal 76,3% di quelli in Scienze MM.FF.NN. e dal 74,4% dei laureati in Economia, mentre le quote più esigue di laureati occupati entro il medesimo termine competono a Medicina Veterinaria (18,8%), per esigenze di formazione, ed a Giurisprudenza (27,3%), per i cui laureati, invece, assume molta importanza la necessità del tirocinio presso uno studio allo scopo di sostenere l’Esame di Stato, anche perché le competenze da essi acquisite prevedono la libera professione come sbocco preferenziale. Fermando l’attenzione proprio sul risultato (peraltro abbastanza interessante) che oltre il 55% degli intervistati aveva un’occupazione di qualche tipo entro un anno dalla laurea, si è deciso di identificare, fra i potenziali elementi della formazione universitaria noti dall’indagine o dai dati amministrativi, i fattori che hanno potuto influenzare detto risultato, e la forza esplicativa di tali relazioni. Definendo, quindi, una variabile risposta dicotomica basata sull’evento “Lavoro entro un anno dalla lau- 260 Un modello con tecniche fuzzy neuro adattative per la classificazione dei laureati... Tabella 3. Presumibili determinanti dell’occupazione dei laureati e relative scale di misura. Scala di Scala di Variabili Variabili misura misura Punteggio per la qualità degli Discreta Livello delle Ordinale insegnamenti specialistici (0-100) conoscenze informatiche (1-4) Punteggio per la qualità delle Discreta Livello di conoscenza Ordinale attività professionalizzanti (0-100) dell’inglese (1-4) Punteggio per la qualità delle Discreta Costanza nella frequenza Ordinale attività pratiche (0-100) delle lezioni (1-4) Punteggio per realizzazione del Discreta Corso di laurea Categoriale prestigio sociale (0-100) di tipo applicativo dicotomica Punteggio per realizzazione della Discreta Avere conseguito abilitazione Categoriale sicurezza e stabilità lavoro (0-100) all’insegnamento dicotomica Punteggio per realizzazione della Discreta Avere conseguito abilitazione Categoriale vicinanza alla famiglia (0-100) all’esercizio della professione dicotomica Punteggio per realizzazione della Discreta Avere svolto tirocinio Categoriale disponibilità di tempo libero (0-100) post-laurea dicotomica Discreta Avere svolto formazione Categoriale Numero di colloqui di lavoro (0-99) post-laurea dicotomica Discreta Avere lavorato Categoriale Voto di laurea (80-110L) durante gli studi universitari dicotomica Categoriale Età alla laurea Discreta Genere (M / F) dicotomica (in anni compiuti) (23-60) Numero di lingue Discreta Laurea era un requisito Categoriale parlate almeno discretamente (0 - 5) per il lavoro dicotomica rea”, sono state applicate, seguendo una procedura ormai consueta7, tecniche di analisi loglineare e logit per individuare le presumibili determinanti dell’occupazione a medio-breve periodo. Le variabili la cui influenza sulla risposta, in base all’analisi loglineare, è statisticamente significativa sono brevemente descritte nella Tab. 3; si sottolinea la presenza di elementi soggettivi di valutazione, espressi dagli intervistati attribuendo punteggi da 0 a 100 ad alcuni aspetti della qualità della formazione universitaria ai fini dell’attività lavorativa e ad altri aspetti specifici del lavoro svolto. Sulla base di dette presumibili variabili esplicative, è stato elaborato un modello logit per la previsione del lavoro a breve-medio periodo, con procedura stepwise basata sul rapporto di massima verosimiglianza (con livello di significatività pari al 5% per l’inserimento di ogni esplicativa e del 10% per la sua rimozione). Il subcampione su cui è stata effettuata l’analisi è quello dei 2.414 intervistati che, dopo la 7 Detta procedura parte da un modello log-lineare saturato per tabelle di contingenza multidimensionali per poi eliminare, uno per volta, gli effetti non significativi mediante il test G2 = –2lnΛ; prendendo in considerazione solo le interazioni fra la variabile risposta qui considerata e le altre, si è poi costruito un appropriato modello di regressione logit. Modelli statistici per l’analisi della transizione Università-lavoro 261 Tabella 4. Effetti significativi del modello logit a risposta dicotomica “Occupazione entro un anno dalla laurea” relativo ai laureati dell’Università di Bari che lavorano o hanno lavorato dopo la laurea (1995-2000) Odds Stime dei Errori p-value Effetti significativi parametri standard ratio Intercetta -2,034 0,566 <0,01 0,13 Frequenza saltuaria lezioni -1,144 0,406 <0,01 0,32 Corso di laurea di tipo applicativo -0,319 0,098 <0,01 0,73 Avere svolto formazione post-laurea -0,283 0,160 0,08 0,75 Genere M ∩ Età alla laurea -0,082 0,034 0,01 0,92 Frequenza saltuaria ∩ Numero colloqui di lavoro -0,046 0,021 0,03 0,96 Laurea requisito lavoro ∩ Punt. per disp. tempo libero -0,012 0,005 0,01 0,99 Punt. realizzazione per disponibilità di tempo libero -0,008 0,002 <0,01 0,99 Punteggio qualità degli insegnamenti specialistici -0,007 0,003 0,02 0,99 Punteggio realizzazione per sicurezza/stabilità lavoro 0,009 0,002 <0,01 1,01 Punteggio realizzazione per prestigio sociale 0,011 0,004 <0,01 1,01 Frequenza saltuaria ∩ Punteggio insegn. specialistici 0,012 0,006 0,06 1,01 Punteggio qualità delle attività professionalizzanti 0,013 0,002 <0,01 1,01 Genere M ∩ Punteggio per prestigio sociale 0,014 0,007 0,03 1,01 Numero di colloqui di lavoro 0,017 0,011 0,10 1,02 Età alla laurea 0,067 0,017 <0,01 1,07 Numero di lingue parlate 0,228 0,068 <0,01 1,26 Frequenza saltuaria ∩ Laurea requisito per il lavoro 0,642 0,252 0,01 1,90 Genere (M) 1,635 1,007 0,10 5,13 Laurea requisito per il lavoro 1,769 0,303 <0,01 5,87 laurea, hanno trovato occupazione, sia che l’abbiano poi cessata, sia che ancora lavorino, escludendo quindi coloro che hanno proseguito il proprio percorso formativo. Del modello di regressione logit identificato, si riportano qui solo i coefficienti significativi in ordine di influenza, da negativa a positiva (Tab. 4), senza entrare nello specifico delle relazioni trovate in quanto, nell’economia del presente lavoro, si ha interesse soprattutto a verificare quali variabili sono interessate. Tuttavia, in detto modello va sottolineato l’incremento della probabilità nel trovar lavoro entro un anno legato all’orientarsi verso professioni che richiedono la laurea (pari a quasi sei volte quella relativa al caso opposto) o al fatto di essere maschio, e di non dover, quindi, combattere con la nota ritrosia dei datori di lavoro ad assumere donne, per la loro caratteristica (spesso negativa dal punto di vista del profitto d’impresa) di avere o di poter avere in futuro figli che sottraggono tempo ed attenzione agli impegni professionali. Sfavorevole alla probabilità di inserirsi in breve nel mondo del lavoro è, invece, l’aver conseguito una laurea di tipo applicativo (categoria intermedia fra lauree “scientifiche” ed “umanistiche”, da noi qui definita per tener conto delle particolarità di Facoltà come Economia, Scienze Politiche o Giurisprudenza, comunemente considerate umanistiche), presumibilmente per la necessità, 262 Un modello con tecniche fuzzy neuro adattative per la classificazione dei laureati... per alcuni laureati, di effettuare un praticantato per poter poi conseguire l’abilitazione professionale. Ancor più negativo si rivela l’aver frequentato saltuariamente i corsi universitari. Per quanto riguarda l’influenza delle variabili di valutazione (che, essendo espresse su scala 0-100, presentano coefficienti prossimi a zero ma comunque significativi), va sottolineata l’influenza negativa della realizzazione lavorativa per disponibilità di tempo libero e della valutazione assegnata agli insegnamenti universitari specialistici (salvo per coloro che, presumibilmente perché studenti-lavoratori, frequentavano saltuariamente) e l’influenza positiva delle attività professionalizzanti svolte nel corso degli studi. Al fine di identificare gli elementi del processo di formazione che forniscono i migliori outcomes, sono stati poi sperimentati vari metodi di segmentazione (C@rt, CHAID esaustivo, LAID-OUT8), riferendosi a diversi insiemi di variabili esplicative, nella cui costruzione si è tenuto conto anche dei risultati dell’analisi logit, È opportuno qui ricordare brevemente il fondamento metodologico dell’analisi di segmentazione: essa, infatti, parte dal complesso dei dati del campione, che viene suddiviso in gruppi (nodi) via via più omogenei al proprio interno in termini di relazioni fra la variabile risposta nota (dipendente) e le variabili assunte come esplicative. Tale procedimento produce una “regola di classificazione”. La migliore segmentazione, fra tutte quelle possibili, è quella che meglio risponde al criterio di omogeneità interna dei gruppi generati (purity): nella condizione ottimale, tutti i casi di ogni singolo nodo finale dovrebbero presentare una stessa modalità della variabile risposta. Ai fini esplorativi, però, è talvolta necessario sacrificare una struttura efficiente, ma di difficile interpretazione, per una più chiara pur se dotata di minore purezza. Il procedimento di espansione dell’albero di classificazione si arresta, comunque, quando si verifica una delle regole di arresto predefinite, ossia quando: 1. tutti i casi di un nodo fanno rilevare per i predittori valori statisticamente identici; 2. tutti i casi del nodo hanno il medesimo valore della variabile risposta (nodo puro); 3. viene rilevata una dimensione minima, in genere fissata dal ricercatore, per il nodo “genitore” (da cui si diparte l’ulteriore classificazione) o il nodo “figlio”, che può essere, a sua volta. genitore; 4. la profondità dell’albero ha raggiunto un valore massimo, anch’esso definito in base alle necessità della ricerca. Per non espandere troppo l’albero di classificazione e mantenerne una certa interpretabilità, si è posto pari a 10 il massimo numero di livelli di segmentazione, fissando a 30 il numero minimo di casi per i nodi “genitore” e a 10 quello per i nodi “figlio”. Si è fatto anche uso di procedure di sfoltimento (pruning), ossia di eliminazione, a posteriori, di nodi superflui o ridondanti dal punto di vista della classificazione, pur se di qualche interesse dal punto di vista descrittivo. 8 Per i quali si rimanda a: Breiman et al., 1991; Fabbris 1997; Fabbris e Martini, 2002; Kass 1980; Schievano 2002, 2003; Sonquist 1970. Modelli statistici per l’analisi della transizione Università-lavoro 263 Purtroppo, l’errore di classificazione risultante dalle procedure utilizzate, a seconda dell’algoritmo utilizzato, si è rivelato pari o superiore al 34% (in altri termini, l’attribuzione della condizione di “occupato entro un anno” o di quella opposta risulta corretta per non oltre il 66% degli intervistati). Sembra logico, quindi, giungere alla conclusione (peraltro non sorprendente) che le variabili disponibili relative al processo formativo ed all’offerta di lavoro, sono insufficienti a descrivere il fenomeno del placement dei laureati in assenza di informazioni sul lato della domanda. Ciò, d’altra parte, non fa che confermare alcune conclusioni a cui si era pervenuti nel citato lavoro di Crocetta e d’Ovidio (2003), riguardante, nella fattispecie, i laureati dell’Università di Foggia. Tuttavia, è sorto il dubbio che parte dell’errore di classificazione potesse dipendere dalla definizione stessa delle variabili di partenza, oppure dalla struttura dei vari sottogruppi da esse definiti: invero, cosa succederebbe se gli insiemi individuati dalla segmentazione non avessero i contorni netti, ma velati, sfuocati (fuzzy)? Si è deciso, perciò, di tentare di migliorare la precisione della classificazione facendo uso di tecniche fuzzy neuro-adattative, utilizzando i risultati dell’analisi di segmentazione come regole iniziali a cui applicare la procedura di ottimizzazione. 3. Cenni sull’approccio fuzzy proposto Come precedentemente esposto, l’idea di fondo è di sfruttare l’albero di segmentazione per ricavare le regole di un sistema fuzzy. In particolare, usando un insieme di dati input/output, il metodo “regola” i parametri delle funzioni membership tramite una rete neurale, in maniera tale da migliorare il sistema fuzzy stesso. A causa delle caratteristiche matematiche dei metodi fuzzy, per poter implementare una chiara attribuzione delle membership si è stabilito di delimitare nel modo seguente la tipologia di analisi di segmentazione da usare per la definizione delle regole: 1) variabile risposta dicotomica (non trasformata in logit); 2) alberi binari o al più ternari; 3) per evitare una complicazione delle regole eccessiva ed inutile (ai fini dell’ottimizzazione fuzzy), nel modello di classificazione sono inserite solo covariate al più ordinali con non oltre quattro modalità oppure continue (o anche ordinali assimilabili a continue). Tali limitazioni hanno portato a creare un modello di segmentazione con metodo C@rt avente un errore di classificazione abbastanza rilevante (oltre il 35%, con 31 nodi finali), ma più suscettibile di miglioramenti rispetto ad altri. Nei paragrafi che seguono si spiegherà brevemente il metodo proposto. 264 3.1 Un modello con tecniche fuzzy neuro adattative per la classificazione dei laureati... Cenni sull’ANFIS: Adaptive Neuro Fuzzy Inference System La tecnica ANFIS (adaptive neuro-fuzzy inference system) permette ad un sistema fuzzy di apprendere le informazioni contenute in un insieme di dati. Questo metodo è molto simile a quello utilizzato all’interno delle reti neurali, ed è stato descritto per la prima volta da Jang (1993): alle funzioni membership di un sistema fuzzy sono associati dei parametri, i quali sono “regolati” tramite un processo iterativo di apprendimento basato su un insieme di dati di tipo “input/output”, in maniera tale da adattare la risposta del sistema fuzzy ai dati stessi (il metodo, in sostanza, minimizza la somma dei quadrati delle differenze fra gli output dell’insieme di dati, e gli output ottenuti applicando gli input dell’insieme di dati al sistema fuzzy). Accenniamo brevemente a questa tecnica. Per semplicità, assumeremo che il sistema inferenziale fuzzy abbia due input, x ed y, ed un solo output, f. Supporremo, inoltre, che il sistema abbia due regole fuzzy del tipo di Takagi e Sugeno9 del primo ordine (Takagi and Sugeno, 1983): regola 1: se x è A1 e y è B1, allora f1=p1 x+q1 y+r1 , regola 2: se x è A2 e y è B2, allora f2=p2 x+q2 y+r2 . ove Ai e Bi sono i sottoinsiemi fuzzy associati a termini linguistici (ad es., piccolo, medio, grande, ecc.) attivati rispettivamente dagli input non fuzzy (numeri reali) x ed y; pi, qi e ri sono invece opportuni parametri. Il sistema fuzzy è mostrato in Fig. 1: i pesi wi sono generalmente ottenuti adoperando due tecniche di attivazione dei sottinsiemi fuzzy, ovvero la correlation product encoding e la correlation minimun encoding (Delvecchio, 2002). Figura 1. Rappresentazione di un generico sistema inferenziale fuzzy con due input, x ed y, ed un solo output, z (modello di Takagi e Sugeno). 9 Le principali tecniche di inferenza fuzzy sono il “metodo di Mamdani” e il “metodo di Sugeno”. Il primo (Mamdani and Assilian, 1975) rappresenta la metodologia più applicata: ha i vantaggi di essere intuitivo, diffusamente accettato, e ben adattabile agli input umani. Il secondo (Sugeno, 1985) può essere usato per modellare qualsiasi sistema di inferenza in cui le funzioni membership in output sono lineari o costanti: ha i vantaggi di essere computazionalmente efficiente, di lavorare bene con tecniche lineari e con tecniche di ottimizzazione e adattative, e di adattarsi bene all’analisi matematica (AA.VV., 1999, pp. 2-36, 2-37 e 2-91). Modelli statistici per l’analisi della transizione Università-lavoro 265 Figura 2. Architettura ANFIS del sistema inferenziale fuzzy di Figura 1: i nodi quadrati (o nodi adattativi) hanno parametri da “regolare”, mentre i nodi circolari (o nodi fissi) non ne hanno. L’architettura ANFIS corrispondente al sistema fuzzy di Fig. 1 è mostrata in Fig. 2. In quest’ultima, sono evidenziati i cinque layer contenenti i nodi funzione (di forma quadrata o circolare), i quali applicano una particolare funzione ai loro ingressi o ai parametri in essi contenuti. In particolare, i nodi quadrati (o nodi adattativi) in Figura 2 hanno parametri da “regolare”, mentre i nodi circolari (o nodi fissi) non ne hanno. Nel seguito descriveremo i cinque layer della rete neurale riportata in Fig. 2. 3.1.1 Layer 1 Ogni nodo in questo layer è un nodo quadrato con una funzione nodo del tipo: Oi(1) = µ Ai ( x) dove x è l’input del nodo i-esimo, e Ai è il termine linguistico (ad es., piccolo, medio, grande, ecc.) associato alla funzione di questo nodo. In altre parole, Oi(1) è la funzione membership di Ai (funzione indicata con µ Ai (x) ), e perciò specifica il grado con cui una dato valore x appartiene ad Ai. Si noti che µ Ai (x) è una funzione continua, differenziabile a pezzi, come ad esempio una funzione trapezoidale oppure triangolare, identificata da parametri da “regolare”. 3.1.2 Layer 2 Ogni nodo in questo layer è un nodo circolare, etichettato con ∏ in Fig. 2. Applicando la regola del correlation product encoding (Delvecchio, 2002), tale nodo moltiplica fra loro i suoi ingressi e restituisce in uscita il loro prodotto. Nel nostro esempio, wi = µ Ai ( x) × µ Bi ( x), i = 1, 2 . Applicando, invece, la regola del correlation minimun encoding, tale nodo restituisce in uscita il minimo dei suoi ingressi, ovvero wi = min µ Ai ( x), µ Bi ( x) , i = 1, 2 . ( ) 266 Un modello con tecniche fuzzy neuro adattative per la classificazione dei laureati... 3.1.3 Layer 3 Ogni nodo in questo layer è un nodo circolare, etichettato con N in Fig. 2. L’i-esimo nodo calcola: wi wi = i = 1, 2 . ∑ wi i Per convenzione, l’output di questo layer è chiamato normalized firing strength. 3.1.4 Layer 4 Ogni nodo in questo layer è un nodo quadrato con una funzione nodo del tipo: Oi( 4) = wi fi = wi ( pi x + qi y + ri ) i = 1, 2 , dove wi è l’output del layer 3, e {pi, qi, ri} sono i parametri da “regolare” del nodo iesimo, chiamati consequent parameters. 3.1.5 Layer 5 L’unico nodo in questo layer è un nodo circolare, etichettato con ∑ in Fig. 2, che effettua la somma degli output del layer 4: ∑ wi fi ( 5) ( 4) O1 = ∑ Oi = ∑ wi fi = i i = 1, 2 . ∑ wi i i i 3.1.6 L’addestramento della rete Assumendo che un insieme di P dati sia usato per addestrare la rete, l’errore di misura (o funzione energia) per il generico dato p-esimo (1≤p≤P) è dato da: ( E p = T p − O1(,5p) ) 2 dove Tp è il valore output del p-esimo elemento dell’insieme di dati di addestramento, e O1(,5p) è invece il corrispondente valore in output fornito dalla rete (in output al layer 5). Perciò, l’errore di misura totale è: P E = ∑ Ep . p =1 Brevemente, ad ogni iterazione l’algoritmo10 calcola, per l’insieme di dati di addestramento, l’energia E e il valore dei parametri (da adoperare per l’iterazione successiva) che riducono tale energia. A tal proposito, adattando ciò che Jang ha dimostrato (1993), se indichiamo: con αi il parametro generico di una determinata rete neuro adattativa, risulta: 10 Esistono in realtà due tipi di algoritmo per l’ottimizzazione dei parametri del sistema fuzzy: backpropagation (basato sul metodo del gradiente, il quale sfrutta il gradiente per avvicinarsi alla soluzione ad ogni iterazione), e metodo ibrido (che combina il metodo del gradiente con il metodo dei minimi quadrati). Modelli statistici per l’analisi della transizione Università-lavoro 267 ∂E ∂α i ove η denota il tasso di apprendimento (learning rate): k η= ; 2 ∂E ∑ ∂α i i k è un opportuno parametro che influisce sulla velocità di convergenza dell’algoritmo P ∂E ∂E p ∂E p ∂O (*) ∂E p =∑ = ∑ , ∂α i p =1 ∂α i ∂α i O (*) ∈S ∂O (*) ∂α i ∆α i = − η ove S è l’insieme di nodi O(*) il cui output dipende da αi. Indicato con #(k) il numero di nodi del layer k-esimo e con Oi(,kp) il nodo funzione del layer k-esimo alla posizione i-esima in corrispondenza del dato p-esimo, si ha ( k +1) #( k +1) ∂E ∂E p p ∂O p ; = ∑ ( k +1) ∂Oi(,kp) ∂Oi(,kp) m =1 ∂Om , p si noti che il layer 5 ha un solo nodo, e pertanto il corrispondente nodo funzione viene indicato con O (p5) : ( 5) ∂E p ∂O p ∂E p = ( 4) ( 5) ( 4) ∂O p ∂O i , p ∂O i , p L’algoritmo si arresta quando E raggiunge un minimo prefissato. Tutto ciò premesso, è noto (Delvecchio, 2002) che per identificare il sistema fuzzy adoperato occorre ancora conoscere: - il tipo di sistema e la modalità di attivazione dei sottoinsiemi fuzzy (cfr. par. 3.2); - le membership associate alle grandezze in ingresso al sistema (cfr. par. 3.3). Nel seguito del paragrafo si presentano e si commentano gli aspetti del sistema fuzzy che è stato adottato. 3.2 Il sistema fuzzy adoperato Il sistema fuzzy adoperato in questo lavoro si basa sulla tecnica di inferenza fuzzy conosciuta in letteratura come “metodo di Sugeno di ordine zero”, ovvero “metodo di Takagi-Sugeno di ordine zero” (Takagi e Sugeno, 1983, Sugeno, 1985). In particolare, una generica regola ha la forma (cfr. par. 3.1): se x è Ai e y è Bi, allora fi= ri . Nel nostro caso, inoltre, si è applicata la regola Correlation minimum encoding (cfr. par. 3.1.2). Figura 3. Esempio di attivazione delle 31 regole (una ogni riga della figura) nello schema fuzzy proposto, così come visualizzate nel software implementato. 268 Un modello con tecniche fuzzy neuro adattative per la classificazione dei laureati... Modelli statistici per l’analisi della transizione Università-lavoro 269 In Fig. 3 si riporta un esempio di attivazione delle 31 regole (una per ogni riga della figura), ricavate dall’albero della segmentazione, nello schema fuzzy proposto, così come visualizzate nel software implementato in Matlab. In ascissa vengono riportati gli input (genere, età alla laurea, voto di laurea, ecc.), mentre in basso a destra vi è il sottoinsieme in output, ottenuto “consolidando” i sottoinsiemi dell’ultima colonna, in output alle 31 regole (cfr., ad es., Crocetta e Delvecchio, 2003). In particolare si noti che si sono ripetute come input le variabili che compaiono più volte in una stessa regola, altrimenti il Matlab non avrebbe permesso di inserirle. 3.3 Membership associate alle grandezze in ingresso al sistema Distingueremo il caso di variabile ordinale da quella nominale. 3.3.1 Membership di variabile ordinale Nella logica classica, la funzione di appartenenza dell’insieme “età alla laurea > 29” avrebbe valore 1 per una età maggiore di 29, e 0 altrimenti: pertanto la sua rappresentazione grafica avrebbe una tipica forma a “gradino”. Per tale motivo, nell’approccio fuzzy per le membership di variabili ordinali si sono adoperate funzioni tipo sigmoide (cfr. Fig. 4). Figura 4. Rappresentazione della membership Figura 5. associata alla variabile ordinale “età alla laurea > 29”, così come visualizza nel software implementato. Rappresentazione delle membership associate alle variabili nominali, così come visualizzate nel software implementato. 3.3.2 Membership di variabile nominale Le variabili nominali (genere, attività lavorativa durante il corso di laurea, conoscenze informatiche, ecc.) in realtà presentano valori delle membership pari a 0 oppure 1, e quindi non hanno quel grado di “sfumatura” tipico delle variabili fuzzy. Ai fini dell’implementazione in Matlab, tuttavia, si sono dovute comunque adoperare funzioni membership, in particolare sono state scelte funzioni triangolari (cfr. Fig. 5) perché molto semplici ed usualmente adoperate (Kosko, 1995). 270 Un modello con tecniche fuzzy neuro adattative per la classificazione dei laureati... In particolare, si noti in figura che, poiché i valori in ingresso alle funzioni membership sono pari a 0 oppure 1, analogamente i valori assunti da tali funzioni saranno soltanto 0 ed 1. 3.4 La rete neurale In Fig. 6 si riporta la rappresentazione della rete neurale ricavata dall’albero della segmentazione, così come visualizzate nel software implementato in Matlab. Dal confronto di tale figura con la Fig. 2, in particolare si noti che: il secondo strato di neuroni di Fig. 6 rappresenta il layer 1 di Fig. 2, il terzo strato i layer 2 e 3, il quarto strato il layer 4, ed il quinto strato (neurone singolo) il layer 5. Figura 6. Rappresentazione della rete neurale, così come visualizzate nel software implementato. 4. Risultati ottenuti con l’applicazione della nuova metodologia proposta Passiamo ora a descrivere l’albero di segmentazione ottenuto ed a considerare i nodi relativi alle diverse variabili che influenzano il tempo di inserimento lavorativo dei laureati dell’Università di Bari. Per motivi tipografici abbiamo diviso l’albero di segmentazione in più parti, riportate nelle successive Figure 7-9. Modelli statistici per l’analisi della transizione Università-lavoro 271 Figura 7. Albero di segmentazione ottimizzato dei laureati dell’Università di Bari secondo la condizione di occupazione entro un anno dalla laurea - Prima ramificazione. Totale laureati (di cui occupati in meno di 1 anno = 54,9%) Attiv. lavorative durante i corsi Nodo 1 Nodo 2 Svolte attività lavorative Occupati=74,8% Nessuna attiv. lavorativa Occupati=47,4% valutaz. sicurezza posto lavoro qualità attività pratiche nei cdl Nodo 3 Nodo 4 Nodo 5 Nodo 6 fino a 77,5 / 100 Occupati=69,6% > 77,5 / 100 Occupati=81,8% fino a 7,5 / 100 Occupati=30,0% > 7,5 / 100 Occupati=69,6% qualità attiv. profess. tirocini / stage abilitaz. insegnam. Continua in Fig. 8 Nodo 7 Nodo 8 fino a 0,5 / 100 Occupati=26,8% > 0,5 / 100 Occupati=59,0% sicurezza lavoro età alla laurea Continua in Fig. 9 Nodo 13 Nodo 14 Nodo 15 Nodo 16 fino a 99,5/100 Occup.=24,7% > 99,5 / 100 Occup.=55,3% > 25,5 anni Occup.=75,0% fino a 25,5 Occup.=48,6% genere form.post-laurea Nodo 23 Nodo 24 Nodo 25 Nodo 26 Femminile Occup.=26,3% Maschile Occup.=84,2% Nessuna Occup.=60,7% Svolta form. Occup.=11,1% La Fig. 7 evidenzia le variabili più influenti per l’analisi effettuata. Come si vede, nel complesso la percentuale dei laureati occupati entro un anno dalla laurea (54,9%) risulta solo di poco superiore rispetto a quella dei non occupati. Il nostro obiettivo è verificare come la presenza di certe caratteristiche possa modificare tale equilibrio fornendo più o meno informazioni sulle possibilità di ingresso nel mondo del lavoro a particolari categorie di laureati. Tale segmentazione pone al primo livello, come variabile discriminante, l’avere o no lavorato durante il corso degli studi: evento che, ovviamente, accomuna sia giovani che hanno compiuto esperienze professionalizzanti, sia lavoratori più anziani 272 Un modello con tecniche fuzzy neuro adattative per la classificazione dei laureati... che si sono laureati per scopi di progressione di carriera (gruppo numericamente valutabile intorno al 10% del campione). Più interessanti sono le osservazioni che si traggono dal secondo livello dell’albero, ove sono poste le valutazioni fornite dagli intervistati a due aspetti diversissimi fra loro: per chi ha lavorato durante i corsi, infatti, ad un’alta realizzazione della stabilità lavorativa (punteggio superiore a 77,5/100)11 corrispondono le quote più elevate di occupati; fra chi non ha lavorato da studente, invece, la quota maggiore di occupati entro un anno si legge per coloro che valutano in modo comunque superiore allo zero (> 7,5/100) le attività pratiche apprese durante i corsi. Fra coloro che hanno dato alla qualità delle attività pratiche un voto prossimo a zero e che hanno valutato “zero” anche la qualità delle attività professionalizzanti, peraltro, la quota di occupati in tempi brevi è molto bassa (26,8%). Altre variabili discriminanti da valutare con attenzione sono l’età alla laurea (i più giovani trovano infatti lavoro più facilmente), il genere (essendo come sempre favoriti i maschi) e la formazione post-laurea, che ovviamente influisce negativamente sull’occupazione in tempi brevi: infatti, chi deve svolgere tirocini, master o altro ha meno tempo per dedicarsi alla ricerca di occupazione. Nel secondo e nel terzo ramo di segmentazione (Figure 8 e 9) vi sono altre relazioni interessanti, che solo per motivi di spazio non è possibile qui approfondire. Si sottolinea in questa sede soltanto la minore occupazione in tempi brevi fatta rilevare, per gli stessi motivi su esposti, da chi ha sostenuto gli esami per l’abilitazione all’insegnamento, mentre chi non aveva bisogno di tale titolo ha messo a frutto la laurea in un lavoro più o meno adeguato. Proprio l’adeguatezza del lavoro trovato è un altro fattore discriminante evidenziato in Fig. 8, a ridosso dell’età alla laurea: fra i laureati intervistati, infatti, è ben più elevata rispetto alla media la quota di occupati che valutano in modo abbastanza negativo (con un punteggio non superiore a 45/100) la coerenza del lavoro svolto con il proprio titolo: tale quota è infatti pari all’84,6%, mentre fra i laureati che hanno trovato un lavoro coerente con il proprio percorso formativo gli occupati entro un anno ammontano a meno del 50%. La flessibilità e la capacità di far fronte a compiti per cui l’Università non ha fornito formazione è quindi un fattore vincente. La Fig. 9, oltre al consueto ed intrinseco ritardo dovuto a corsi di abilitazione e formazione post-laurea, pone in evidenza (già al quarto livello nello schema generale, ma in seconda linea nella figura) la minore possibilità occupazionale legata al possesso di una laurea umanistica: 29,1% contro il 61,7% dei laureati d’altro orientamento. 11 Come si è accennato in precedenza, agli intervistati è stato chiesto di assegnare un punteggio, da 0 a 100, alla propria soddisfazione per quanto riguarda aspetti dell’attività lavorativa, fra cui la stabilità dell’occupazione, ed aspetti riguardanti la propria formazione universitaria. Al presente, per quanto riguarda la stabilità lavorativa, ai fini della purezza del nodo (cfr. paragrafo 2) il punto discriminante, che corrisponde alla maggiore discretizzazione possibile dei risultati dell’ottimizzazione ottenuta con le tecniche fuzzy, è appunto il punteggio di 77,5 su 100. Modelli statistici per l’analisi della transizione Università-lavoro 273 Figura 8. Albero di segmentazione ottimizzato dei laureati dell’Università di Bari secondo la condizione di occupazione entro un anno dalla laurea - Seconda ramificazione. Nodo 3: Sicurezza lavoro, valutazione fino a 77,5/100 abilitazione insegnamento Nodo 11 Nodo 12 Nessuna abilitazione Occupati=75,1% Abilitazione ottenuta Occupati=56,8% età alla laurea Nodo 21 Nodo 22 fino a 31,5 anni Occupati=53,9% Oltre 31,5 anni Occupati=100,0% coerenza laurea/lav. Nodo 33 Nodo 34 fino a 45 / 100 Occupati=84,6% Oltre 45 /100 Occupati=49,4% qualità insegn. spec. Nodo 41 Nodo 42 fino a 57,5 / 100 Occupati=80,0% Oltre 57,5 /100 Occupati=45,6% dispon. tempo libero Nodo 47 Nodo 48 fino a 72,5 / 100 Occupati=28,1% Oltre 72,5 /100 Occupati=57,5% voto di laurea Nodo 52 Nodo 53 fino a 103,5 Occupati=100,0% Oltre 103,5 Occupati=51,2% coerenza laurea/lav. Nodo 56 Nodo 57 fino a 95 / 100 Occupati=39,3% Oltre 95 /100 Occupati=76,9% 274 Un modello con tecniche fuzzy neuro adattative per la classificazione dei laureati... Figura 9. Albero di segmentazione ottimizzato dei laureati dell’Università di Bari secondo la condizione di occupazione entro un anno dalla laurea - Terza ramificazione. Nodo 6: Qualità attività pratiche nel c.d.l. > 7,5 / 100 tirocini / stage Nodo 9 Nodo 10 Nessuno Occupati=69,1% Svolto Occupati=41,6% abilitazione insegnamento tipo di c.d.l. Nodo 17 Nodo 18 Nodo 19 Nodo 20 Abilitato/a Occup.=44,6% Non abilitato/a Occup.=73,0% cdl umanistico Occup.=29,1% cdl non uman. Occup.=51,7% qualità ins. spec. tipo di c.d.l. abilitaz. profess. Nodo 21 Nodo 22 Nodo 23 Nodo 24 Nodo 31 Nodo 32 fino a 72,5/100 Occup.=32,5% Oltre 72,5/100 Occup.=55,8% cdl scientifico Occup.=81,5% cdl non scientif. Occup.=65,3% Non abilitato/a Occup.=59,5% Abilitato/a Occup.=36,7% tipo di c.d.l. qualità ins. spec. qualità ins. spec. Nodo 35 Nodo 36 Nodo 37 Nodo 38 Nodo 39 Nodo 40 cdl scientifico Occup.=30,8% cdl non scient. Occup.=66,7% fino a 99 / 100 Occup.=66,7% Oltre 99 / 100 Occup.=14,3% Oltre 67,5 /100 Occup.=26,3% fino a 67,5/100 Occup.=63,6% coerenza laurea qual. attiv. prat. Nodo 43 Nodo 44 Nodo 45 Nodo 46 fino a 77,5 / 100 Occup.=59,6% Oltre 77,5 / 100 Occup.=75,2% fino a 65 / 100 Occup.=13,6% Oltre 65 /100 Occup.=69,2% qualità attiv. prof. Nodo 49 Nodo 50 Nodo 51 Fino a 5 / 100 Occup.=46,7% 5 - 75 / 100 Occup.=66,3% Oltre 75 / 100 Occup.=22,2% voto di laurea sicurezza lavoro Nodo 54 Nodo 55 Nodo 54 Nodo 55 fino a 109,5 Occup.=36,0% Oltre 109,5 Occup.=100,0% fino a 45/100 Occup.=46,2% Oltre 45/100 Occup.=72,8% Modelli statistici per l’analisi della transizione Università-lavoro 275 Tabella 8. Tempi di occupazione osservati e previsti per i laureati che hanno lavorato dopo la laurea (verifica delle regole di segmentazione ottimizzate). Tempi di occupazione osservati Fino a un anno Oltre un anno Totale Tempi di occupazione previsti Fino a 1 anno 1060 335 1395 Oltre 1 anno 272 747 1019 Totale 1332 1082 2414 Tabella 9. Analisi dell’errore di classificazione. Occupati Esito della previsione tramite entro un anno l’analisi di segmentazione % classificazione esatta 79,6 % classificazione errata 20,4 Non occupati entro un anno 69,0 31,0 Totale 74,9 25,1 In definitiva, riportando al database di partenza le regole ottenute tramite la presente ottimizzazione ed attribuendo così ai laureati la qualifica “prevista” di occupati o non occupati entro 12 mesi, si può calcolare, per confronto con il corrispondente ammontare di effettivi occupati/non occupati (Tab. 8), si ottiene un errore di classificazione poco superiore al 25%, con un miglioramento di oltre 10 punti percentuali rispetto a quelli dell’albero di segmentazione utilizzato per la definizione delle regole (Tab. 9). Il risultato appare quindi interessante, soprattutto tenendo conto dei limiti tecnici che si è dovuto affrontare, ma soprattutto è suscettibile di sviluppi sia metodologici che interpretativi. La forma delle membership (le quali esprimono l’importanza, per una qualsiasi unità rilevata, di appartenere ad una fra due o più classi adiacenti dell’albero di segmentazione individuato) con i parametri ottimizzati potrebbe, inoltre, fornire ulteriori informazioni all’indagine: una pendenza molto ripida della sigmoide esemplificata in Fig. 4, tanto da farla assomigliare maggiormente ad un “gradino”, potrebbe essere dovuta a qualche evento particolare verificatosi nel periodo considerato (ad esempio, una “manovra finanziaria” contemplante il blocco delle assunzioni nel settore pubblico). L’applicazione del metodo, tuttavia, ha trovato non poche difficoltà in quanto il toolbox Matlab adoperato non permette di escludere dall’analisi i parametri delle membership delle variabili nominali (cfr. 3.3.2). Ciò ha comportato, in fase di addestramento della rete neurale, frequenti arresti dell’algoritmo in minimi relativi e non assoluti dell’energia (cfr. 3.1.6). Il metodo potrebbe, pertanto, essere migliorato implementando un programma ad hoc. Gli Autori ritengono, inoltre, di poter ridurre ulteriormente l’errore di classificazione con un modello di Sugeno del primo ordine (cfr. 3.1). 276 Un modello con tecniche fuzzy neuro adattative per la classificazione dei laureati... 5. Conclusioni I risultati della metodologia proposta dagli Autori nel presente lavoro, pur se non ottimali, si presentano come una buona base di partenza per migliorare la precisione dell’attribuzione dell’esito lavorativo a partire da informazioni pregresse, e più in generale per risolvere problemi di previsione nella classificazione. La variabile risposta (dicotomica) su cui si è investigato è l’aver trovato lavoro entro un anno di tempo dalla laurea. Sono stati sperimentati vari metodi di segmentazione, che però hanno fatto rilevare errori di classificazione di circa il 35%; tale cospicuo livello di errore è presumibilmente dovuto al fatto che la metodologia di segmentazione, anche quando contempli tecniche di look-ahead (Fabbris 1997), fa tuttora uso di metodi matematici di ricerca di minimi funzionali di tipo hillclimb, efficienti con funzioni unimodali ma non altrettanto con quelle polimodali (cfr. Delvecchio 2004). Gli Autori hanno tentato, perciò, di migliorare la precisione della classificazione facendo uso di tecniche fuzzy neuro adattative. In particolare, l’albero di segmentazione ricavato con algoritmo C@rt è stato utilizzato per ricavare le regole di un sistema fuzzy. Successivamente, tramite una rete neurale, sono stati aggiustati i parametri delle funzioni membership, in maniera tale da migliorare il sistema fuzzy stesso. Si è ottenuto, in tal modo, un miglioramento dell’errore di classificazione di oltre il 10% rispetto a quanto ottenuto con gli usuali algoritmi di segmentazione. L’albero di segmentazione risultante fornisce informazioni di interesse immediato, anche se a volte prevedibili: ad esempio, a posteriori appare logico che chi ha scelto di proseguire la propria formazione professionale con tirocini o stage, dopo aver fatto proprie le nozioni eminentemente teoriche impartite all’Università, ha avuto meno tempo e occasioni di inserirsi nel mondo del lavoro. Ciò che può essere importante, e che ci si ripromette di approfondire in altra occasione, è definire quali possano essere le sottopopolazioni di laureati che con queste regole sono classificate meglio, indagando quindi i motivi del residuo errore di classificazione in modo da accrescere ancora la capacità previsiva del metodo. Modelli statistici per l’analisi della transizione Università-lavoro 277 Bibliografia AA.VV. (1999), Fuzzy Logic Toolbox for Use with MATLAB, User’s Guide Version 2, MathWorks, Inc.. BREIMAN L., FRIEDMAN J.H. OLSHEN R.A., STONE C.J. (1984) Classification and Regression Trees, Wadsworth Inc., Belmont California. CROCETTA C., D’OVIDIO F. (2003) La valutazione dell’inserimento lavorativo dei laureati all’Università di Foggia attraverso un’analisi di segmentazione, in: M. CIVARDI (a cura di) Transizione Università-Lavoro: la definizione delle competenze, CLEUP, Padova: 111-132. CROCETTA C., DELVECCHIO G. (2003) Una misura fuzzy della soddisfazione della formazione universitaria per l’ingresso nel mondo del lavoro, in: M. CIVARDI (a cura di) Transizione Università-Lavoro: la definizione delle competenze, CLEUP, Padova: 148-169. DELVECCHIO G. (2002) Un approccio fuzzy per la valutazione del rischio da mobbing, in: G. PUGGIONI (a cura di) Modelli e metodi per l’analisi di rischi sociali e sanitari, vol. 2, CLEUP, Padova: 248-266. DELVECCHIO G. (2004) Gli algoritmi genetici per la determinazione dei massimi e minimi vincolati nello studio della quantificazione delle mutabili ordinali, in: E. AURELI CUTILLO (a cura di), Strategie metodologiche per lo studio della transizione Università-lavoro, CLEUP, Padova: 177-198. FABBRIS L. (1997) Statistica multivariata. Analisi esplorativa dei dati, McGrawHill, Milano. FABBRIS L., MARTINI M. C. (2002) Analisi di segmentazione binaria con una variabile dipendente trasformata in logit, in: G. PUGGIONI (a cura di) Modelli e metodi per l’analisi di rischi sociali e sanitari, CLEUP, Padova: 21-36. JANG J. S. R. (1993) ANFIS: Adaptive Network Based Fuzzy Inference System, IEEE Transactions on Systems, Man, and Cybernetics, Vol. 23 (maggio 1993), 3: 665-685. KASS G. (1980) An exploratory technique for investigating large quantities of categorial data, Applied Statistics, 29.2: 119-127. KOSKO B. (1992) Neural Networks and Fuzzy Systems: a Dynamical System Approach to Machine Intelligence, Prentice-Hall, Englewood Cliffs. KOSKO B. (1995) Il fuzzy-pensiero, teoria e applicazioni della logica fuzzy, Baldini & Castoldi, Milano. MAMDANI E. H., ASSILIAN S. (1975) An experiment in linguistic synthesis with a fuzzy logic controller, International Journal of Man-Machine Studies, Vol. 7, n. 1: 1-13. SCHIEVANO C. (2002) LAID-OUT.1: un programma per l’analisi di segmentazione binaria con riferimento ad una variabile dicotomica trasformata in logit, in: G. 278 Un modello con tecniche fuzzy neuro adattative per la classificazione dei laureati... PUGGIONI (a cura di) Modelli e metodi per l’analisi di rischi sociali e sanitari, CLEUP, Padova: 21-36. SCHIEVANO C. (2003) Determinazione della numerosità minima dei gruppi nell’analisi di segmentazione con una variabile dipendente trasformata in logit, in: L. FABBRIS (a cura di) LAID-OUT: scoprire i rischi con l’analisi di segmentazione, CLEUP, Padova: 395-400. SONQUIST J. A. (1970) Multivariate Model Building. The Validation of a Search Strategy, Institute for Social Research, The University of Michigan, Ann Arbor (Mich.). SUGENO M. (1985), Industrial Applications of Fuzzy Control, Elsevier Science Publications Co.. TAKAGI T., SUGENO M. (1983) Derivation of fuzzy control rules from human operator’s control actions, Proceedings of the IFAC Symposium On Fuzzy Information, Knowledge Representation and Decision Analysis (luglio 1983): 55-60. Fuzzy neural-adaptive methodologies to classify the graduates of the University of Bari by employment one year after graduation Summary: This study proposes a new methodology to improve the accuracy of a ‘positive’ evaluation of job placement possibilities, using statistical methods, on the basis of a set of characteristics inherent to the university degree programme or related to the search for employment. The primary aim is to identify some graduate characteristics (specifically, graduates of the University of Bari in 1995-2000) capable of favouring job placement within one year from graduation. For this purpose, a segmentation analysis is carried out on a sample of graduates from the abovementioned population, the results of which are affected by a considerable classification error. Subsequently the rules resulting from the segmentation analysis are implemented into a neural network system, also using fuzzy methodologies, in order to identify possible improvements in the system of rules and to define the importance of a given configuration of covariates and/or data. The results obtained verify, with greater precision, the impact of personal characteristics and acquired competencies in terms of job placement. Keywords: Job placement, Graduates, University of Bari, Segmentation analysis, Fuzzy neural-adaptive methodologies, ANFIS. Rilevanza delle analisi di misture di distribuzioni nelle valutazioni di efficacia con metodi di inferenza causale Andrea Mercatanti1 Dipartimento di Statistica e Matematica Applicata all’Economia – Università di Pisa Riassunto. Alcune problematiche metodologiche relative all’indebolimento delle usuali condizioni di applicabilità dei metodi di inferenza causale riguardano l’analisi di misture di distribuzioni. In particolare il presente contributo intende prendere in considerazione la questione dell’eliminazione dei vincoli di esclusione nell’utilizzo di variabili strumentali ai fini della valutazione dell’efficacia di una variabile di tipo binario sotto l’ipotesi che la variabile di risposta sia distribuita secondo una normale. Rispetto alle usuali analisi su misture di distribuzioni si evidenzia un maggiore contenuto informativo riguardo alle probabilità di appartenenza ai gruppi componenti le misture. Di converso emergono però maggiori difficoltà inferenziali connesse alla plurimodalità della funzione di verosimiglianza prodotta dalla presenza di più misture con componenti comuni. Il contributo prende inoltre in considerazione una procedura di massimizzazione vincolata della verosimiglianza che sfrutta le maggiori informazioni relative alle probabilità di appartenenza ai gruppi, al fine di risolvere i problemi legati alla plurimodalità della funzione di verosimiglianza. Parole chiave: misture di distribuzioni normali, variabili strumentali, vincolo di esclusione. 1. Introduzione L’importanza delle applicazioni di inferenza causale alle problematiche della valutazione di efficacia è ormai consolidata, e spazia dall’utilizzazione delle variabili strumentali e dei propensity score alle stratificazioni principali solo per citare alcune me1 Il presente lavoro è stato realizzato nell'ambito del progetto “Transizioni Università-Lavoro e valorizzazione delle competenze professionali dei laureati: modelli e metodi di analisi multidimensionale delle determinanti”, cofinanziato dal MIUR; coordinatore nazionale è Luigi Fabbris, coordinatore del gruppo di Firenze è Bruno Chiandotto. 280 Rilevanza delle analisi di misture di distribuzioni nelle valutazioni di efficacia… todologie di largo uso. Nelle analisi riguardanti la valutazione delle transizione Università-lavoro, i suddetti metodi possono trovare applicazione ad esempio nella valutazione dell’effetto del conseguimento di una laurea su di un outcome post-laurea quali ad esempio il tempo di disoccupazione, il reddito, la soddisfazione professionale, o la congruenza tra le materie di studio e le competenze necessarie alla professione svolta. Da un punto di vista più strettamente metodologico si può mettere in evidenza che alcune problematiche relative all’indebolimento delle condizioni di applicabilità dei modelli causali riguardano l’analisi delle misture di distribuzioni. In particolare questo concerne la rimozione del cosiddetto vincolo di esclusione nell’uso delle variabili strumentali a fini causali. Nella loro applicazione più semplice le variabili strumentali possono essere introdotte per la valutazione dell’efficacia di una certa variabile binaria su di un outcome di qualsiasi tipo (Imbens e Angrist, 1994). Tra le condizioni necessarie all’identificazione di effetti causali con l’ausilio di variabili strumentali una delle più problematiche e difficili da soddisfare è il vincolo di esclusione in base al quale la variabile strumentale non può avere effetti diretti sull’outcome di interesse. La problematica sorge, ad esempio, nella valutazione dell’effetto scolarizzazione sul reddito mediante l’uso di variabili strumentali legate alla coorte di nascita. In questi casi (Card e Lemieux, 2001) la teoria microeconomica suggerisce, in base a modelli con imperfetta sostituibilità tra individui con scolarizzazione simile, che l’effetto della scuola sul reddito riflette anche variazioni nell’offerta relativa di individui con scolarizzazione simile tra le varie coorti di nascita. Ecco presentarsi quindi una critica microeconomica all’uso di variabili strumentali legate alla coorte di nascita nella valutazione del return to schooling. La suddetta motivazione si basa sul concetto di equilibrio economico generale e inficia la soddisfazione del vincolo di esclusione poiché la coorte di nascita ragionevolmente agisce sul reddito oltre che in base al trend storico della scolarizzazione anche in base a questioni di mercato legate alla numerosità delle coorti. In altre parole si può ragionevolmente ipotizzare che in questo caso esista un effetto diretto della variabile strumentale sull’outcome. Il presente contributo, di tipo metodologico, si basa su di una impostazione parametrica dell’analisi causale con variabili strumentali, ossia su di una formulazione della funzione di verosimiglianza per un esperimento randomizzato con noncompliance che mette in particolare evidenza la presenza di misture di distribuzioni. Sulla base di una proposta di massimizzazione vincolata della verosimiglianza, viene svolta un’analisi di tipo simulativo finalizzata ad un primo giudizio sulla bontà e sui limiti della proposta stessa. Modelli statistici per l’analisi della transizione Università-lavoro 2. 281 Proposta di analisi vincolata della funzione di verosimiglianza Già a partire dal contributo di Imbens e Rubin (1997) si è data una formalizzazione di tipo parametrico al modello di regressione lineare semplice con variabili strumentali per l’identificazione e la stima di effetti causali, nel caso di variabile trattamento binaria. Il punto di vista filosofico causale preso in considerazione dagli autori nell’esplicitazione della funzione di verosimiglianza è quello basato sull’idea di controfattualità ed a questo vogliamo continuare ad attenerci nel presente lavoro. In termini formali, si fa riferimento alla struttura teorica di un’esperimento randomizzato per il quale indichiamo con yi la variabile di risposta, con Di il trattamento di tipo binario (0,1), e con Z i la variabile strumentale da intendersi come assegnazione al trattamento di tipo binario. Di conseguenza occorre ricordare che la popolazione complessiva si può dividere in quattro gruppi, denominati compliance status, ognuno dei quali si caratterizza per come gli individui reagiscono dal punto di vista controfattuale all’assegnazione al trattamento. Si parla infatti di always-takers per indicare il gruppo di individui che assumono sempre il trattamento (ossia presentano Di = 1 indipendentemente dal valore assunto dall’assegnazione al trattamento Z i ); di nevertakers per indicare gli individui che non assumono mai il trattamento (ossia presentano Di = 0 indipendentemente dal valore assunto dall’assegnazione al trattamento Z i ); di compliers per gli individui che assumono o meno il trattamento in base a quanto assegnatoli (ossia presentano Di = 1 se Z i = 1 , e Di = 0 se Z i = 0 ); e di defiers per gli individui che assumono il trattamento in maniera opposta all’assegnazione. Imbens e Angrist (1994) definiscono le condizioni in base alle quali un’analisi di regressione della variabile yi sul trattamento Di , supportata dalla variabile strumentale Z i , identifica l’effetto causale del trattamento per il gruppo dei compliers. Tra queste condizioni spicca per difficoltà di soddisfacimento il vincolo di esclusione, in base al quale la variabile Z i non può avere effetti diretti su yi . Al fine della rimozione completa del vincolo di esclusione e partendo dalla funzione di verosimiglianza proposta dai suddetti autori, si può arrivare mediante opportune riparametrizzazioni (Mercatanti, 2004) alla scrittura della stessa in una forma che ne permetta la massimizzazione vincolata ad un opportuno sottospazio parametrico. Questo risulta individuabile senza far ricorso ad informazioni aggiuntive rispetto alle ipotesi necessarie all’identificazione di effetti causali mediante variabili strumentali, a parte l’ipotizzata forma funzionale per la distribuzione dell’outcome, essendo in ambito parametrico. In estrema sintesi, si intende far riferimento alla seguente funzione di verosimiglianza: 282 Rilevanza delle analisi di misture di distribuzioni nelle valutazioni di efficacia… ∏ L ( θ) = ω a 0 ⋅ N ( yi | µ a 0 , σ a 0 ) × i∈( Di =1, Z i = 0) × ∏ ω n1 ⋅ N ( yi | µ n1 , σ n1 ) i∈( Di = 0, Zi =1) ∏ [ω a1 ⋅ N ( yi | µ a1 , σ a1 ) + ω c1 ⋅ N ( yi | µc1 , σ c1 ) ] i∈( Di =1, Zi =1) × ∏ [ω n0 ⋅ N ( yi | µ n 0 , σ n 0 ) + ω c 0 ⋅ N ( yi | µc 0 , σ c 0 ) ] , (1) i∈( Di = 0, Zi = 0) dove2 si è indicato: con ωtz la probabilità di appartenenza al gruppo di individui nel compliance status t=a (always-takers), n(never-takers), c(compliers) e con assegnazione al trattamento Z i = z ; con µtz e σ tz rispettivamente la media e lo standard error per il gruppo di individui nel compliance status t e con assegnazione al trattamento Z i = z . La presenza nella (1) di due misture di distribuzioni normali comporta problematiche di tipo analitico e computazionale nell'esecuzione di un'analisi MLE. Le misture di distribuzioni normali assumono infatti caratteristiche analitiche che le rendono di non facile analisi. I principali elementi perturbartivi in un'analisi MLE della (1) possono essere sintetizzati nei seguenti tre punti: - la (1) non è limitata sopra (Day, 1969) quindi in generale l'analisi MLE è mal posta poiché non esiste un massimizzatore assoluto; è stato però dimostrato che esiste un massimizzatore locale consistente, efficiente e asintoticamente normale (Kiefer, 1978) sul quale può quindi essere dirottata la ricerca; - la (1) è multimodale; - la massimizzazione locale della (1) produce massimi spuri, ossia punti di massimo locale tipicamente in corrispondenza di raggruppamenti di poche unità anomale; questi punti possono tuttavia essere facilmente individuati poiché presentano una componente di varianza prossima allo zero. Numerose proposte sono state avanzate in letteratura per l'analisi MLE di misture. Tra quelle che appaiono particolarmente convincenti si può citare un’approccio di tipo generale (Priebe, 1994), ossia la conduzione di una serie di massimizzazioni non vincolate seguite da un'analisi dei punti di massimo locali al fine di individuare e scartare quelli spuri. Successivamente la stima ML del vettore parametrico può essere considerata quella corrispondente al massimo tra i rimanenti punti. La proposta appare semplice e non introduce informazioni extra nell'analisi, anche se una ricerca sufficientemente esauriente dei punti di massimo locale si può rilevare particolarmente dispendiosa in termini di tempo di calcolo. 2 Le ipotesi in base alle quali vale la descritta funzione di verosimiglianza sono le seguenti: distribuzione normale per l’outcome; Stable Unit Treatment Value Assumption in base alla quale per ogni individuo i comportamenti controfattuali non dipendono dal trattamento degli altri individui; identica probabilità di assegnazione al trattamento per ogni individuo; inesistenza di defiers. Modelli statistici per l’analisi della transizione Università-lavoro 283 Oltre alle problematiche caratteristiche delle analisi di misture, l'analisi della (1) comporta delle complicazioni aggiuntive dovute al cosiddetto label switching, inconveniente dovuto ad eventuali permutazioni per alcune variabili indicanti l’appartenenza ai gruppi componenti le misture (etichette). La problematica del label switching concerne l'identificabilità delle misture di distribuzioni. E' risaputo infatti (Hjort, 1986) che in una mistura di distribuzioni appartenenti alla stessa famiglia pag rametrica, f (x; θ) = ∑ω j f j (x; θ j ) , il vettore parametrico θ non è identificato; vie- j =1 ne invece identificata una classe di distribuzioni in quanto f (x; θ) è invariante alle g! permutazioni nelle etichette delle componenti in θ . Il label switching sebbene non sia un problema rilevante nella stima MLE di una mistura di distribuzioni appartenenti alla stessa famiglia parametrica a fini di cluster analysis, lo diventa però in un’analisi MLE della (1). Occorre infatti considerare che gli effetti causali in un'ottica controfattuale sono definiti dalle tre differenze ∆ t = ( µt1 − µt 0 ) con t=a,n,c, di conseguenza l'identificazione degli effetti causali necessita dell'esatta etichettatura di tutte le componenti. Una diversa strategia di analisi della funzione di verosimiglianza (1) viene suggerita dalla considerazione che, senza l'aggiunta di ulteriori ipotesi, esiste la possibilità di stimare facilmente le probabilità di appartenenza ai gruppi componenti le misture anche al di fuori di un contesto di massima verosimiglianza. Questi elementi informativi possono essere sfruttati nella stima di massima verosimiglianza del vettore parametrico, vincolando la ricerca ad opportuni sottospazi parametrici. Sotto le ipotesi che hanno portato alla scrittura della (1) è infatti possibile stimare (Mercatanti, 2004) le probabilità ωtz , caratterizzanti le due misture, con le quantità φˆtz : φˆa1 = [# ( Di = 1, Z i = 0) / # ( Z i = 0) ] – [# ( Di = 1, Z i = 0) ⋅ N −1 ], φˆn 0 = [# ( Di = 0, Z i = 1) / # ( Z i = 1) ] – [# ( Di = 0, Z i = 1) ⋅ N −1 ], φˆc 0 = [# ( Di = 0, Z i = 0) ⋅ N −1 ] - φˆn 0 , φˆc1 = [# ( Di = 1, Z i = 1) ⋅ N −1 ] - φˆa1 . Al fine di sfruttare al massimo le informazioni disponibili risulta allora proponibile la massimizzazione della (1) vincolata ad un intorno del punto (φˆa1 , φˆn 0 , φˆc 0 , φˆc1 ) , ossia la ricerca del punto di massimo θ θ̂ soddisfacente, per un certo valore di k, le condizioni: φˆa1 − ωˆ a1 < k , φˆn 0 − ωˆ n 0 < k , φˆc1 − ωˆ c1 < k , φˆc 0 − ωˆ c 0 < k . 284 3. Rilevanza delle analisi di misture di distribuzioni nelle valutazioni di efficacia… Analisi esemplificativa basata su dataset artificiali La sezione presenta un’analisi di tipo simulativo condotta su dataset artificiali relativi ad esperimenti randomizzati con non-compliance e senza vincoli di esclusione; i dataset verranno estratti da popolazioni ipotetiche soddisfacenti le ipotesi espresse nella nota 3 della precedente sezione. L'obiettivo è la verifica empirica dell’uso della procedura di massimizzazione vincolata ad un intorno sferico del punto (φˆa1 , φˆn 0 , φˆc 0 , φˆc1 ) . Si consideri allora un primo campione artificiale composto da 10000 unità estratte da una popolazione ipotetica i cui parametri vengono riportati in Tabella 1. Al fine di identificare i punti di massima verosimiglianza locale sono state condotte 100 procedure di massimizzazione libera utilizzando l'algoritmo EM e partendo ogni volta con valori casuali del vettore parametrico. È stato inoltre identificato θ̂1 , come il punto al quale converge l'algoritmo EM partendo il massimo consistente, θ con il vero vettore parametrico. Come previsto la funzione è risultata multimodale, dalla Tabella 23, si può notare infatti come nelle 100 prove si sia ottenuto: θ̂1 , - per 22 volte convergenza al massimo consistente, θ - per 4 volte convergenza a massimi spuri, cioè punti con una componente di varianza prossima allo zero (θˆ 5 , θˆ 6 , θˆ 7 , θˆ 8 ) , - per 74 volte convergenza ad altri punti di massimo locale ( θˆ 2 , θˆ 3 , θˆ 4 ) , che vedremo rappresentano una tipologia di massimi spuri dovuti al label switching e anomala rispetto alle usuale analisi di misture. Da notare che in ogni soluzione le stime dei due parametri µ a 0 , µ n1 , sono identiche in quanto calcolate sempre come medie delle unità appartenenti ai gruppi ( Di = 1, Z i = 0) e ( Di = 0, Z i = 1) rispettivamente. Per analizzare le caratteristiche degli otto punti di massimo torna utile utilizzare le probabilità di imputazione calcolate durante l'ultimo E-step dell'algoritmo EM. Per probabilità di imputazione si intende la probabilità di appartenenza ad ognuno dei tre compliance-status (always-takers, never-takers, compliers) e che per ogni unità viene calcolata ad ogni iterazione durante il passo ''E'' dell'algoritmo EM. Dalle probabilità di imputazione è inoltre possibile calcolare l'imputation rate (Holgersson e Jorner, 1998) il quale rappresenta un'utile indice per la bontà della scissione di una mistura. L'imputation rate è dato dalla media della più alta probabilità di imputazione osservata per ogni unità. Nel nostro caso, l'imputation rate complessivo assume un valore molto alto in ogni soluzione e non consente quindi una discriminazione tra le stesse. 3 Per analogia con la parametrizzazione classica si sono riportate direttamente le stime delle probabilità di appartenenza ai compliance status (ω a , ω n , ω c ) ottenute come medie ponderate delle stime di massima verosmiglianza vincolate (ωˆ a 0 , ωˆ a1 , ωˆ n 0 , ωˆ n1 , ωˆ c 0 , ωˆ c1 ) . Per ragioni di spazio non vengono riportate le stime delle componenti di varianza σ tz . Modelli statistici per l’analisi della transizione Università-lavoro 285 Essendo però in ambito simulativo il compliance status di ogni singola unità è conosciuto. Il confronto tra i veri compliance status delle unità statistiche e le probabilità di imputazione agli stessi rende possibile verificare il grado e la bontà delle scissioni delle misture per ogni punto di massimo locale. Per rendere chiara l'idea consideriamo la Tabella 3 che riporta, per i gruppi (t,z), la media e lo scarto quadratico medio delle probabilità di imputazione ad ognuno dei tre compliance status calcolate all'ultima iterazione dell'algoritmo EM, per alcuni punti di massimo locale4. Tabella 1. Valori parametrici della popolazione ipotetica utilizzata per l’analisi simulativa. t ωt ( µt 0 , σ t 0 ) ( µ t1 , σ t 1 ) 0.4 a 0.25 n 0.35 c P ( Z i = 1) = 0.25 (0, 1) (1, 1.15) (6, 0.85) (1, 1.2) (2,1) (7, 0.7) Tabella 2. Punti di massimo locale identificati da 100 procedure di massimizzazione non vincolata. ωa ωn ωc µa 0 µ a1 µn0 µ n1 µc 0 µc1 θ θ̂1 θ θ̂2 θ θ̂3 θ θ̂4 θ θ̂5 θ θ̂6 θ θ̂7 θ θ̂8 0.400 0.387 0.400 0.387 0.387 0.400 0.486 0.387 0.250 0.250 0.323 0.323 0.062 0.512 0.512 0.062 0.349 0.361 0.276 0.288 0.549 0.087 0.001 0.549 -0.001 -0.001 -0.001 -0.001 -0.001 -0.001 -0.001 -0.001 1.074 6.999 1.076 6.998 7.002 1.093 3.854 7.002 1.022 1.020 5.993 5.994 -2.377 3.913 3.913 -2.431 2.076 2.076 2.076 2.076 2.076 2.076 2.076 2.076 5.988 5.987 1.032 1.035 3.913 2.377 -2.379 3.913 7.000 1.072 7.002 1.070 1.076 7.012 0.855 1.076 Log Lik. -30164 -30177 -30225 -30267 -32684 -33208 -33232 -32692 Imp. rate 0.9938 0.9970 0.9968 0.9968 0.9995 0.9995 0.9995 0.9997 4 Non vengono riportate le probabilità di imputazione ai gruppi (a,0) e (n,1) poichè per le unità appartenenti a questi due gruppi le informazioni a disposizione consentono un'esatta imputazione ai rispettivi compliance status fin dalla prima iterazione dell'algoritmo EM. 286 Rilevanza delle analisi di misture di distribuzioni nelle valutazioni di efficacia… Si osserva per il punto di massimo consistente θ θ̂1 una soddisfacente attribuzione delle unità ai compliance status. Ad esempio per le unità appartenenti al gruppo (a,1) la probabilità di imputazione al gruppo always-takers ha media 0.997 con s.e. di 0.036; questo significa che nel successivo M step le unità nel gruppo (a,1) vengono in sostanza correttamente considerate come always-takers. Analogamente per le unità nel gruppo (c,1) la probabilità di imputazione al gruppo compliers ha media 0.990 e s.e. 0.066, e quindi nel successivo M step queste unità vengono in sostanza correttamente considerate come compliers. Considerando che le unità nei gruppi (a,1) e (c,1) formano una delle due misture caratterizzanti la (1) ciò è indice di un'ottima scissione della mistura. Discorso analogo vale per le unità nei gruppi (n,0) e (c,0) e per la rispettiva mistura. θ̂2 dove a differenza della precedente Si consideri adesso il punto di massimo θ soluzione, θ θ̂1 , la scissione della mistura formata dai gruppi (a,1) e (c,1) non è più soddisfacente. Dalla Tabella 3 si vede infatti come le unità nel gruppo (a,1) vengano in sostanza erroneamente attribuite al gruppo dei compliers, e come le unità nel gruppo (c,1) vengano erroneamente attribuite al gruppo degli always-takers. Situazioni simili si riscontrano per le soluzioni θ θ̂3 e θ θ̂4 . Precisamente per la soluzione θ θ̂3 si osserva un'errata scissione della mistura formata dai due gruppi (n,0) e (c,0), e per θ̂4 l'errata scissione di entrambe le misture. Per questi punti (θˆ 2 , θˆ 3 , θˆ 4 ) la soluzione θ il valore dell'imputation rate resta comunque alto. Tabella 3. Probabilità di imputazione per alcuni punti di massimo locale. t soluzione (t,z) a n c media s.e. media s.e. media (a,1) 0.997 0.036 0 0 0.002 (n,0) 0 0 0.990 0.069 0.009 θ θ̂1 (c,0) 0 0 0.009 0.066 0.990 (c,1) 0.009 0.066 0 0 0.990 (a,1) 0.002 0.039 0 0 0.997 (n,0) 0 0 0.990 0.070 0.009 θ θ̂2 (c,0) 0 0 0.009 0.068 0.990 (c,1) 0.997 0.037 0 0 0.002 (a,1) 0.001 0.034 0 0 0.998 (n,0) 0 0 0.001 0.032 0.998 θ θ̂5 (c,0) 0 0 0.000 0.000 1 (c,1) 0.996 0.041 0 0 0.003 s.e. 0.036 0.069 0.066 0.066 0.039 0.070 0.068 0.037 0.034 0.032 0 0.041 Modelli statistici per l’analisi della transizione Università-lavoro 287 Finora l'errata scissione di una mistura si è concretizzata nell'attribuzione di tutte le unità al compliance status errato. I restanti punti di massimo locale assumono anche le caratteristiche dei punti di massimo spuri usualmente identificabili nelle analisi di misture. Infatti per questi l'errata scissione di una mistura si manifesta anche con l'attribuzione di quasi tutte le unità ad uno solo dei due compliance status. Per θ̂5 sempre in Tabella 3; si può oschiarire consideriamo il punto di massimo locale θ servare come le unità nella mistura formata dai due gruppi (n,0) e (c,0) vengono in sostanza attribuite quasi tutte al gruppo dei compliers. Lo stesso modo di scindere le misture si manifesta anche per i restanti punti di massimo θ θ̂6 e θ θ̂7 . L'errata attribuzione delle unità nelle misture produce conseguenze negative nella stima dei componenti del vettore parametrico. Tornando infatti a considerare la soluzione θ θ̂2 , si osservino i diversi valori delle stime delle probabilità (ω a , ω n , ω c ) rispetto a θ θ̂1 . Questo risultato deriva dal fatto che ad ogni iterazione dell'algoritmo EM le stime delle probabilità (ω a , ω n , ω c ) vengono calcolate durante il passo ''M'' come media delle probabilità di imputazione ai compliance status. Per esser chiari si faccia riferimento alla Tabella 4, la prima riga della quale riporta le quote relative di popolazione, ψ t , z , appartenenti ai sei gruppi (t,z) per un grande campione estratto dalla popolazione ipotetica considerata. Si osservi come le quote relative di popolazione appartenenti ai tre compliance status si possano facilmente ottenere come: ψ a = (ψ a ,0 + ψ a ,1 ) = (0.30 + 0.10) = 0.40, ψ n = (ψ n,0 + ψ n,1 ) = (0.1875 + 0.0625) = 0.25, ψ c = (ψ c ,0 + ψ c ,1 ) = (0.2625 + 0.0875) = 0.35. Questi valori corrispondono alle stime ωˆ a , ωˆ n , ωˆ c in θθ̂1 , a parte piccole differenze dovute sia alla variabilità campionaria che al fatto che le probabilità di imputazione osservate all'ultima iterazione dell’algoritmo EM non sono sempre esattamente binarie (vedi Tabella 2). I valori poc’anzi calcolati di ψ a ,ψ n ,ψ c costituiscono infatti dei valori limite delle medie aritmetiche delle probabilità di imputazione ai compliance status conseguenti ad una corretta scissione delle misture che caratterizzano la (1). Riconsiderando adesso la soluzione θθ̂2 , dalla Tabella 3 si osserva come le unità nel gruppo (a,1) vengono erroneamente attribuite al gruppo (c,1) e viceversa. Dopo l'errata scissione della mistura composta dai due suddetti gruppi, le quote relative Tabella 4. Quote relative di popolazione per compliance status, t, e assegnazione, z. ψ a0 ψ a1 ψ n0 ψ n1 ψ c0 ψ c1 θ θ̂1 0.30 0.10 0.1875 0.0625 0.2625 0.0875 θ θ̂2 0.30 0.0875 0.1875 0.0625 0.2625 0.10 288 Rilevanza delle analisi di misture di distribuzioni nelle valutazioni di efficacia… di popolazione nei gruppi (t,z) per un grande campione sono quelle riportate nella seconda riga della Tabella 4. Ora le quote relative di popolazione appartenente ai tre compliance status sono: ψ a = (ψ a ,0 + ψ a ,1 ) = (0.30 + 0.0875) = 0.3875, ψ n = (ψ n,0 + ψ n,1 ) = (0.1875 + 0.0625) = 0.25, ψ c = (ψ c ,0 + ψ c ,1 ) = (0.2625 + 0.10) = 0.3625, che, a parte piccole differenze, corrispondono alle stime ωˆ a , ωˆ n , ωˆ c in θθ̂2 . Considerazioni analoghe valgono per tutti gli altri punti di massimo locale. Oltre che sulle stime delle probabilità (ω a , ω n , ω c ) , l'errata scissione delle misture comporta conseguenze prevedibili anche sul resto degli elementi del vettore parametrico. Infatti le stime dei parametri µtz e σ tz di ogni gruppo (t,z) vengono calcolate durante il passo ''M'' dell'algoritmo EM come stime di massima verosimiglianza ponderata dove ogni unità ha peso uguale alla probabilità di imputazione al gruppo (t,z) calcolata al precedente passo ''E''. Avendo preso in considerazione outcome distribuiti secondo distribuzioni normali, e date le caratteristiche delle probabilità di imputazione già illustrate, allora è comprensibile come ad esempio per la soluzione θ θ̂2 si ottengano valori di stima dei parametri µ a1 , µc1 , σ a1 , σ c1 sostanzialmente scambiati rispetto alla soluzione θθ̂1 . Questo ragionamento vale per tutte le altre soluzioni. L'analisi delle probabilità di imputazione ha quindi permesso lo studio delle caratteristiche dei punti di massima verosimiglianza locale. Si è visto che oltre ai massimi spuri, facilmente identificabili poiché presentano sempre una componente di varianza prossima a zero, la plurimodalità della funzione di verosimiglianza sia dovuta al label switching. Si può anche mettere in evidenza come i punti di massimo spuri corrispondono a piccoli gruppi di outliers. Ad esempio, per il punto θθ̂5 , al gruppo (n,0) vengono assegnate soltanto due unità la cui media è -2.377 e la cui varianza è 0.053; per il punto θθ̂8 , al gruppo (n,0) viene assegnata soltanto una unità il cui valore è -2.431. La Tabella 5 mostra le performance della procedura di massimizzazione vincolata ad un intorno del punto (φˆa1 , φˆn 0 , φˆc 0 , φˆc1 ) proposta nella precedente sezione. Per alcuni valori del vincolo k (0.03, 0.01, e 0.005) sono state effettuate 100 procedure di massimizzazione vincolata ognuna su di un dataset di numerosità 10000 estratto sempre dalla medesima popolazione ipotetica. Ogni procedura di massimizzazione è stata iniziata con valori casuali del vettore parametrico ad eccezione delle componenti (ω a 0 , ω a1 , ω n 0 , ω n1 , ω c 0 , ω c1 ) che in partenza vengono sempre poste uguali a (φˆa 0 , φˆa1 , φˆn 0 , φˆn1 , φˆc 0 , φˆc1 ) . Si può osservare come la procedura di massimizzazione vincolata non sempre converge al punto di massimo consistente, ma ciò non costitui- Modelli statistici per l’analisi della transizione Università-lavoro 289 Tabella 5. Frequenze assolute dei vari tipi di massimo locale identificati dalla procedure di massimizzazione vincolata per alcuni valori di k (100 replicazioni per ogni valore di k). Convergenza Convergenza Convergenza a massimi spuri k al massimo a punti sulla con almeno una comp. dovuti al label ˆ consistente frontiera di Ωφk var. prossima a zero switching 0.03 25 73 2 0 0.01 30 68 2 0 0.005 35 63 2 0 sce un problema data la facile individuabilità degli altri punti di massimo locale. La Tabella 5 mostra infatti che l’algoritmo, oltre al punto di massimo consistente, converge anche a punti di massimo spuri con una componente di varianza prossima allo ˆ zero, e a punti sulla frontiera dello spazio parametrico vincolato Ωφk . Si osservi inoltre come, al diminuire di k, aumenta il numero di volte in cui la procedura converge al massimo consistente nelle 100 prove. Per valutare la bontà della procedura di analisi vincolata (1) presentata nella sezione precedente, sono poi stati estratti 100 dataset artificiali di numerosità 10000 sempre dalla stessa popolazione ipotetica. Per ognuno di questi dataset è stato identificato il punto di massimo interno ad un intorno sferico del punto ( φˆa1 , φˆn 0 , φˆc 0 , φˆc1 ) ponendo k=0.01. Sui vettori di stima così ottenuti si è poi provveduto al calcolo per ogni parametro della distorsione media, della radice quadrata dell'errore quadratico medio, dell'ampiezza media dell'intervallo di confidenza al 95% e della frazione di volte che tale intervallo contiene il vero valore del parametro. A fini comparativi sugli stessi dataset artificiali sono state applicate altre procedure standard che non necessitano dell'introduzione di informazioni ausiliarie. Precisamente, sono state calcolate anche: - le stime di massima verosimiglianza, ipotizzando l'esistenza del vincolo di esclusione in forma debole, ossia imponendo nella (1): µ a1 = µ a 0 , µ n1 = µ n 0 , σ a1 = σ a 0 , σ n1 = σ n 0 ; - la stima del C.A.C.E. (Compliers Average Causal Effect), µc1 − µc 0 , ottenuta con il metodo delle variabili strumentali. I risultati per alcuni parametri sono illustrati nella Tabella 6. Da evidenziare il fatto che sui campioni artificiali estratti dalla popolazione ipotetica l'analisi di massima verosimiglianza condotta sotto il vincolo di esclusione in forma debole non produce un'unica soluzione; per questa ragione anche in questo caso l'analisi è vincolata ad un intorno sferico di (φˆa 0 , φˆa1 , φˆn 0 , φˆn1 , φˆc 0 , φˆc1 ) . Com'era prevedibile l'analisi 290 Rilevanza delle analisi di misture di distribuzioni nelle valutazioni di efficacia… Tabella 6. Performance comparativa della procedura vincolata su 100 dataset ognuno di 10000 unità estratti dalla popolazione ipotetica di cui alla Tabella 1. Intervallo al 95% Parametro Stimatore Distorsione Grado di Ampiezza MSE Media copertura media 0.002 0.079 0.947 0.312 ML vincolata µc 0 µc1 ML* ML vincolata 0.204 0.002 0.220 0.024 0.240 0.991 0.306 0.072 σ c0 ML* ML vincolata 0.256 0.004 0.272 0.041 0.237 0.947 0.377 0.163 σ c1 ML* ML vincolata 0.042 -0.00049 0.088 0.054 0.846 0.940 0.156 0.224 ML* ML vincolata ML* IVE** -0.006 0.00011 0.051 -1.844 0.061 0.096 0.111 1.857 0.920 0.940 0.912 1.000 0.216 0.368 0.368 15.99 C.A.C.E. * stime di massima verosimiglianza ipotizzando l'esistenza del vincolo di esclusione in forma debole; ** stima del C.A.C.E. (Compliers Average Causal Effect) ottenuta con il metodo delle variabili strumentali. condotta assumendo il vincolo di esclusione in forma debole soffre di una distorsione media e di un errore quadratico medio sistematicamente maggiore rispetto all'analisi condotta senza vincoli di esclusione, in particolare per quanto riguarda le stime dei parametri relativi alle distribuzioni per i compliers. Ancora peggiore risulta la stima del C.A.C.E. calcolata con il metodo delle variabili strumentali, per la quale si ottiene un alto valore del grado di copertura degli intervalli di confidenza ma al costo di un'ampiezza media esagerata. 4. Considerazioni conclusive Il lavoro ha inteso mettere in evidenza come alcune problematiche relative all’indebolimento delle condizioni di applicabilità di una metodologia largamente utilizzata nelle valutazioni di efficacia (ossia l’impostazione parametrica all’analisi causale con variabili strumentali) possano essere affrontate facendo riferimento alla teoria delle misture di distribuzioni. In tal senso si è proposto l’uso di una procedura di analisi di massima verosimiglianza vincolata; una successiva analisi di tipo simu- Modelli statistici per l’analisi della transizione Università-lavoro 291 lativo ha poi consentito un primo giudizio sulla bontà della proposta. L’estrazione ripetuta di campioni causali semplici da una popolazione ipotetica ha evidenziato una buona performance anche comparativamente ad altri metodi usuali. Resta però il fatto che l’analisi simulativa è stata condotta basandosi su di una sola popolazione ipotetica di riferimento. Appare quindi interessante un’eventuale approfondimento basato su altre popolazioni ipotetiche che possa evidenziare aspetti più difficoltosi nelle analisi di misture, come ad esempio un peggior grado di scissione conseguente ad una maggiore vicinanza dei valori delle medie e delle varianze delle componenti le misture. Riferimenti bibliografici CARD D., T. LEMIEUX (2001) Can falling supply explain the rising return to college for younger men? A cohort-based analysis, Quaterly Journal of Economics, 116: 705-746. DAY N.E. (1969) Estimating the components of a mixture of normal distributions, Biometrika, 56: 463-474. HJORT N.L. (1986) Contribution to the discussion of paper by P.Dianconis and D.Freedman, The Annals of Statistics, 14: 49-55. HOLGERSSON M., U. JORNER (1998) Decomposition of a mixture into normal components: a review, International Journal of Biomedical Computing, 29: 367-392. IMBENS G.W., J.ANGRIST (1994) Identification and estimation of local average treatment effects; Econometrica, 62: 467-476. IMBENS G.W., D.R. RUBIN (1997) Bayesian inference for causal effects in randomized experiments with non-compliance, The Annals of Statistics, 25: 305327. KIEFER M. (1978) Discrete parameter variation: efficient estimation of a switching regression model, Econometrica, 46: 427-439. MERCATANTI A. (2004) Causal inference methods without exclusion restrictions: an economic application, Report n.250 del Dip. di Statistica e Matematica Applicata all’Economia, Università di Pisa.. PRIEBE C.E. (1994) Adaptive mixtures, J.A.S.A., 89: 796-806. 292 Rilevanza delle analisi di misture di distribuzioni nelle valutazioni di efficacia… The importance of Mixture models in efficacy evaluation with causal methods Summary: Some methodological issues regarding the weakening of the assumptions usually adopted for causal inference methods concern the analysis of mixture models. In particular, this paper considers the complete relaxation of the exclusion restriction when using the instrumental variables method for identifying and estimating causal effects. We are supposing a binary treatment and a normally distributed outcome. With respect to a standard analysis of mixture models, we can exploit a larger set of a priori information in particular as concerns the mixing proportions; conversely, the presence of common distribution mixtures produces a likelihood function having more than one maximum point. This paper also takes into account a constrained maximisation procedure that uses the greater information regarding the probability of group belonging, in order to resolve the problems tied to the multiple mode of the likelihood function. Keywords: Normal mixtures, instrumental variables, exclusion restriction. Ricerca delle componenti del rischio di handicap Giovanna Boccuzzo, Laura Visonà Dalla Pozza, Laura Salmaso, Paola Facchin1 Università degli Studi di Padova, Dipartimento di Pediatria Azienda Ospedaliera di Padova Riassunto. Lo scopo del presente studio è quello di cercare di cogliere i profili di handicap ai quali è associata una gravità maggiore, gravità intesa in senso globale e non ristretta a singole tipologie di handicap. A tale fine, si è definito un indice riassuntivo di gravità dell’handicap che consentisse di confrontare i soggetti e definire graduatorie di gravità complessiva. La “performance” di tale indice è stata valutata mediante validazione incrociata e analisi esplorative (mappe di Kohonen e analisi delle corrispondenze multiple). Infine, si sono ricercati le determinanti del rischio di handicap fra le menomazioni, le disabilità e il contesto socio-economico mediante una serie di regressioni lineari stepwise organizzate in tappe sequenziali che rispettano la sequenza Menomazione→Disabilità→Handicap. I risultati mostrano una associazione positiva tra il numero di menomazioni/disabilità e la gravità dell’handicap, ma anche diversi livelli di gravità a seconda del tipo di menomazioni e/o disabilità. Si riscontra, infatti, che le menomazioni psichiche impattano fortemente sulla gravità dell’handicap, comportando una situazione di massima gravità se associate a quelle fisiche. Queste ultime, invece, considerate singolarmente, impattano solo nel momento in cui si trasformano in disabilità. Infine, anche il contesto-socio economico influenza il manifestarsi dell’handicap: un più alto livello socio-economico è un fattore proteggente. Parole chiave: menomazione, disabilità, handicap, indice globale di gravità dell’handicap, mappe di Kohonen, analisi delle corrispondenze multiple, analisi di regressione lineare stepwise. 1. Introduzione Lo sviluppo psicofisico di ogni bambino è fortemente condizionato da diversi fattori che interagiscono tra di loro e sul bambino stesso in un equilibrio estremamente complesso e delicato, determinando quella che sarà la sua dimensione di futuro adul1 Il lavoro è frutto della riflessione comune delle autrici. La nota è stata redatta da: G. Boccuzzo per i Parr. 2 e 4, L. Visonà Dalla Pozza per i Parr. 3 e 5, L. Salmaso per il Par. 1 e P. Facchin per il Par. 6. 294 Ricerca delle componenti del rischio di handicap to. Su questo delicato meccanismo talora vengono ad agire elementi negativi che turbano l'equilibrio normale, quali la presenza di disabilità o di patologie croniche fortemente invalidanti. Poiché la soglia limite al di sopra della quale lo svantaggio si rende evidente dipende in qualche misura da ciò che ad ogni individuo è richiesto, l'evoluzione della società influenza e guida le disabilità, che si trasformano in handicap. 1.1 Definizione e classificazione dell’handicap Il processo che dalla patologia porta all’handicap si può riassumere in quattro stadi: 1. qualcosa di anormale si verifica nell’individuo: è il manifestarsi della malattia, della alterazione patologica nella struttura o nel funzionamento dell’organismo (malattia); 2. qualcuno si rende conto di questa evenienza: è l’esteriorizzazione della malattia, cioè il riconoscimento che qualcosa non va, che l’individuo non è sano (menomazione); 3. l’efficienza e il comportamento del soggetto possono essere alterati in conseguenza di questa consapevolezza: è l’oggettivazione dell’esperienza di malattia, cioè quanto la malattia incide sulle capacità dell’individuo di svolgere le comuni azioni della vita (disabilità); 4. tanto la consapevolezza della disabilità quanto l’alterazione nel comportamento o nell’efficienza cui essa da origine possono porre il soggetto in una situazione di svantaggio rispetto agli altri: è la socializzazione della malattia, cioè la risposta della società nei confronti dell’individuo ammalato; è il grado di svantaggio che una persona ammalata vive nel suo ambiente (handicap). Tale concezione del processo morboso sottende alla stesura della Classificazione Internazionale delle Menomazioni, Disabilità e Svantaggi Esistenziali (ICIDH), pubblicata nel 1980 dall’Organizzazione Mondiale della Sanità (OMS) al fine di fornire uno strumento univoco per la classificazione di tali eventi su scala mondiale (OMS, 1980), e recentemente evolutasi con l’ICF (OMS, 2002). A seguito di un evento morboso, sia esso una malattia (congenita o meno) o un incidente, una persona può subire una menomazione, ovvero la perdita o anomalia strutturale o funzionale, fisica o psichica. La menomazione può poi portare alla disabilità, ovvero alla limitazione della persona nello svolgimento di una o più attività considerate “normali” per un essere umano della stessa età. Infine, la disabilità può portare all’handicap, ovvero allo svantaggio sociale che si manifesta a seguito dell’interazione con l’ambiente. L’ICIDH è dunque una classificazione sia delle menomazioni, che delle disabilità e degli handicap. La sequenza descritta è sintetizzata in Figura 1. La sequenza, comunque, non è sempre così semplice: l’handicap può infatti essere conseguenza di una menomazione, senza la mediazione di uno stato di disabilità. Una deformità può ad esempio dare origine ad ostacoli nei normali tentativi di Modelli statistici per l’analisi della transizione Università-lavoro 295 Figura 1. Dalla malattia all’handicap: la logica dell’ICIDH Malattia Menomazione Disabilità Handicap instaurare dei rapporti sociali; essa determina l’handicap ma non la disabilità. Inoltre, la sequenza può essere interrotta. Una persona può essere menomata senza essere disabile e disabile senza essere handicappata. L’ICIDH prevede 9 gruppi (“assi”) di menomazioni, che sono a loro volta suddivisi in sottocategorie fino a giungere a una classificazione a tre cifre. Sono poi presenti 9 assi per la disabilità, suddivisi anch’essi nello stesso modo delle menomazioni, e 7 per gli handicap, ognuno dei quali è poi suddiviso in una scala di 9 categorie (Allegato 1). 1.2 Il punto di partenza: risultati di studi precedenti Studi precedenti (Facchin et al., 2002) indagavano i legami all’interno del percorso classificatorio che dalla menomazione porta alla disabilità e infine all’handicap. La sequenza analizzata Menomazione → Disabilità → Handicap è risultata essere molto complessa, poiché esistono molteplici percorsi classificatori dovuti al fatto che un soggetto può presentare più menomazioni, più disabilità e più handicap contemporaneamente. Esiste, infatti, correlazione fra i diversi assi di handicap, tra le diverse disabilità e tra le diverse menomazioni, ma anche tra menomazioni e disabilità. La compresenza di più handicap è la risultante di situazioni differenti: essa può essere dovuta ad una maggior presenza di menomazioni, o a una maggior presenza di disabilità o infine alla presenza contemporanea sia di disabilità che di menomazioni. Inoltre, una menomazione può portare a più disabilità e una disabilità a più handicap. Successivamente, gli studi sono proseguiti con la ricerca delle determinanti dell’handicap fra tutte le menomazioni e disabilità rilevate, nel tentativo sia di identificare i principali predittori dei diversi assi di handicap, sia di capire se vi siano alcune menomazioni o disabilità particolarmente rilevanti per qualsiasi tipologia di handicap. Si sono, quindi, identificati predittori specifici per ciascuna tipologia di handicap. L’handicap nell’indipendenza fisica trova come predittori fondamentali le menomazioni muscoloscheletriche e dismorfiche, queste ultime anche associate alle menomazioni generali, l’interazione fra menomazioni cognitive e psichiche e menomazioni psichiche e disabilità nella comunicazione. L’handicap nella mobilità vede 296 Ricerca delle componenti del rischio di handicap come principale predittore la disabilità locomotoria da sola e associata ad altre variabili, mentre l’handicap occupazionale vede fra i suoi principali predittori le menomazioni e disabilità relative all’area mentale. Nella ricerca delle determinanti dei diversi assi di handicap fra tutte le menomazioni e disabilità rilevate, i modelli multivariati spiegano meglio gli handicap connotati da una maggiore componente fisica (ad esempio handicap nella mobilità) rispetto a quelli connotati da una componente sociale (ad esempio handicap nell’integrazione sociale). È evidente che l’handicap nell’integrazione sociale non può essere spiegato solo dalle menomazioni e disabilità presenti, ma è necessario tener conto anche dell’impatto di altri fattori, quali il contesto sociale, culturale ed economico in cui la persona è inserita. Il limite principale di questo approccio sta nel fatto che esso spiega le determinanti di ogni singolo asse di handicap, ma la realtà è ben più complessa, poiché ogni soggetto non è quasi mai portatore di un solo handicap, ma di due o più. Di conseguenza, analizzare ogni singola tipologia di handicap è un punto di partenza, non di arrivo. Il percorso deve muoversi verso l’analisi dei soggetti e delle loro complessità, all’interno delle quali i vari handicap si associano nei modi e nelle misure più diversi. 2. Obiettivi del lavoro L’analisi precedente delle correlazioni e dei nessi causali tra menomazioni, disabilità e handicap (Facchin et al., 2002), nell’evidenziare la complessità del fenomeno, ha messo in luce l’esigenza di ricercare misure onnicomprensive di handicap, che siano in grado di fornire il livello complessivo di gravità dell’handicap dell’individuo. Si tratta di indagare sulla reale e globale situazione di handicap, includendo nell’analisi anche l’impatto dovuto al contesto sociale. Il primo obiettivo del presente studio è stato quello di ricercare un indice riassuntivo di gravità dell’handicap, che permettesse di mettere a confronto i soggetti e di definire delle graduatorie di gravità complessiva. In un secondo momento, si è passati ad un’analisi esplorativa e ad uno studio circa il comportamento di tale indice, e successivamente si è analizzato il rischio di handicap, inteso come gravità globale, ricercandone le determinanti in base sia alle relazioni con le menomazioni e le disabilità (in termini di quantità e di qualità) sia al contesto socio-economico in cui la persona è inserita. Gli interrogativi a cui si è cercato di fornire una risposta sono: 1. cosa determina la maggiore o minore gravità di handicap? 2. dipende da specifiche menomazioni e/o disabilità? 3. dipende dal numero di menomazioni e/o disabilità? 4. quanto dipende dal contesto socio-economico? Modelli statistici per l’analisi della transizione Università-lavoro 3. 297 Materiali Il lavoro si avvale dei dati prodotti mediante uno studio effettuato su una coorte retrospettiva di nati nell'anno 1988 iscritti alla nascita in uno dei Comuni costituenti le Aziende ULSS 13, 14, 15, 16 e 17 del Veneto, corrispondenti all'intera provincia di Padova, ai Comuni di Chioggia, Cavarzere e Cona e all'Azienda ULSS 13 di DoloMirano della provincia di Venezia (Facchin et al., 1997). Unità d’analisi sono tutti i soggetti compresi nella coorte dei nati nell'88 che abbiano presentato dalla nascita o successivamente ad essa e comunque entro il 31/12/96 una o più menomazioni disabilitanti. Le disabilità considerate devono essere tali da richiedere una presa in carico specifica, una certificazione per la frequenza scolastica e, più in generale, un danno della funzione di ordine medio-grave. Si è così giunti alla determinazione del numero di casi noti alla nascita e presenti al 31 dicembre '96. Tutti i casi selezionati (145) sono stati classificati: a. in base alla patologia presentata, utilizzando la classificazione internazionale delle malattie; b. in base al profilo di menomazione, disabilità e agli assi di handicap, utilizzando la classificazione ICIDH, in particolare: 9 tipi di menomazioni: cognitive, psichiche, della comunicazione, uditive e vestibolari, oculari, viscerali, muscoloscheletriche, dismorfiche, generali e della sensibilità. Per ogni gruppo di menomazione, è stata valutata la presenza di sottogruppi di menomazione (es: nelle menomazioni psichiche si valuta: stato di coscienza e veglia, percezione e attenzione, funzioni emotive e volontà, comportamento; ognuna di queste sottovoci ha a sua volta delle specifiche); 7 tipi di disabilità: comportamentale, nella comunicazione, nella cura personale, locomotorie, nella disposizione del corpo, di destrezza, situazionali. Per ogni gruppo di disabilità, è stata valutata la presenza di sottogruppi di disabilità (es: nella disabilità della comunicazione si valuta: linguaggio verbale, ascolto, visione, scrittura); 5 assi di handicap: dell’orientamento, nell’indipendenza fisica, nella mobilità, occupazionale, nell’integrazione sociale. Per ogni asse di handicap è valutata la gravità in una scala da 1 (meno grave) a 9 (più grave). Tali informazioni sono state compilate presso i servizi sanitari che avevano in cura i bambini. Informazioni relative al contesto familiare e socio-economico sono state, invece, raccolte mediante questionari alle famiglie. Il questionario familiare sonda la costituzione e il livello socio-economico della famiglia, la presenza di patologie croniche e/o disabilitanti fra i familiari e i parenti, i principali fattori di rischio prenatali, perinatali e postnatali. Ampio spazio viene riservato alla descrizione del percorso dia- 298 Ricerca delle componenti del rischio di handicap gnostico seguito, delle varie sue tappe, della diagnosi conosciuta e dei problemi più rilevanti, del percorso terapeutico, dei supporti informali e formali, dei giudizi. L’insieme di dati è particolarmente prezioso poiché consente di disporre contemporaneamente di variabili socio-demografiche e del percorso Menomazione → Disabilità → Handicap. 4. Metodi La prima parte del lavoro si concentra sulla ricerca di un indice riassuntivo di gravità dell’handicap. La classificazione ICIDH utilizzata nell’indagine identifica i diversi assi di handicap e per ognuno di essi riporta un punteggio di gravità. Non è previsto un indice generale di gravità riassuntivo di tutti gli assi. Si è pensato, quindi, di ricorrere ad un approccio che porti ad una riduzione delle dimensioni e di costruire un fattore riassuntivo delle gravità sui singoli assi di handicap. Il riferimento metodologico è dunque all’analisi delle componenti principali. Il presupposto di partenza è che l’indice di gravità dell’handicap sia una somma pesata delle gravità relative ai singoli assi. Mediante l’analisi delle componenti principali, si vuole ottenere la combinazione lineare ottimale delle singole gravità, ovvero quella che estrae il massimo della variabilità dalla matrice di varianzecovarianze (Fabbris, 1997). Si determinano in tal modo i pesi che verranno successivamente utilizzati per il calcolo dell’indice. Per garantire la linearità delle variabili, si è lavorato sui logaritmi naturali delle gravità dei singoli assi di handicap. Allo scopo di valutare la bontà della soluzione ottenuta, ossia la robustezza dei pesi ricavati, si è ritenuto opportuno adottare il seguente metodo di validazione dell’indice: si è suddivisa in due sottogruppi la casistica e si è applicata ad entrambi i gruppi la procedura di calcolo dell’indice di gravità; successivamente si è calcolata la gravità nel primo gruppo applicando i pesi dell’indice calcolati sul secondo gruppo e viceversa; infine, si sono valutate le differenze fra gli indici all’interno dei due gruppi (basse differenze implicano che i pesi ricavati considerando l’intera casistica sono robusti). La seconda parte del lavoro è consistita in un’analisi esplorativa e in uno studio del comportamento dell’indice riassuntivo di gravità, mediante un approccio multivariato. Dapprima si sono utilizzate le mappe di Kohonen con lo scopo di raggruppare i bambini in base al numero di menomazioni e disabilità presentate e di rappresentarli in uno spazio di dimensione ridotta, sul quale proiettare poi il valore medio dell’indice di gravità dell’handicap. Successivamente si è ricorsi all’analisi delle corrispondenze multiple con l’obiettivo di poter evidenziare strutture latenti, o pattern, sottostanti ai dati analizzati, esaminando le menomazioni e le disabilità in relazione alla gravità dell’handicap. Modelli statistici per l’analisi della transizione Università-lavoro 299 Le mappe di Kohonen (anche dette mappe SOM – Self-Organizing Map) sono una delle più famose applicazioni della teoria delle reti neurali. Una mappa SOM non è altro che una griglia di celle, dette neuroni, entro le quali vengono inserite le unità statistiche prese in considerazione. Attraverso l’assegnazione di ciascuna unità statistica al neurone che meglio la rappresenta, la SOM opera così una vera e propria cluster analysis fondata su particolari asserzioni. La SOM, a differenza delle classiche tecniche statistiche di cluster analysis, si rivela efficiente in presenza di dati mancanti: non costringe ad effettuare delle stime sui missing evitando in tal modo distorsioni. I gruppi vengono poi individuati dal ricercatore attraverso la valutazione della vicinanza/lontananza tra loro dei neuroni componenti la mappa (Ingrassia e Davino, 2002). Come software per l’analisi dei dati si è utilizzato “SAS Enterprise Miner” e si sono considerate le variabili riguardanti il numero di menomazione per asse (9 variabili) e il numero di disabilità per asse (7 variabili). Sui gruppi individuati si è successivamente proiettato il valore medio dell’indice di gravità, per verificare se ad un più elevato numero di menomazioni e disabilità viene effettivamente associata una più alta gravità dell’handicap. Sempre al fine di analizzare le caratteristiche dell’indice, lo studio è proseguito con l’analisi delle corrispondenze multiple: si sono prese in esame come variabili attive, opportunamente classificate, il numero totale di menomazioni, il numero totale di disabilità, il numero di assi di menomazioni presentate, la presenza di menomazione per i 9 assi e la presenza di disabilità per i 7 assi. Si è considerata come variabile descrittiva lo stato di gravità dell’handicap (classificato in 6 categorie). Mediante la proiezione di tale variabile sugli assi ortogonali è stato possibile darne una interpretazione in funzione delle variabili impiegate nell’analisi. La terza parte del lavoro ha indagato e ricercato le componenti del rischio di handicap, inteso come gravità globale; si è voluto indagare, cioè, cosa determina una maggiore o minore gravità dell’handicap in riferimento sia alle menomazioni e alle disabilità (in termini di quantità e di qualità) sia al contesto socio-economico in cui la persona è inserita. L’analisi è stata articolata in tre fasi mediante l’utilizzo di tre modelli di regressione lineare stepwise. La variabile studiata è la gravità globale dell’handicap del bambino. Le variabili introdotte come predittive sono: primo modello: le variabili relative al contesto socio-economico del bambino e dei genitori2: - sesso del bambino; - età della madre e del padre; - lavoro e titolo di studio del padre; - lavoro e titolo di studio della madre; 2 A causa della presenza di consistenti dati mancanti non è stato possibile considerare altre variabili relative al contesto socio-economico. 300 Ricerca delle componenti del rischio di handicap secondo modello: le variabili “entrate” nel primo modello; le variabili relative alle menomazioni: - numero totale di menomazioni; - la presenza di una singola menomazione (per i 9 assi); - la presenza di due menomazioni scelte opportunamente tra le possibili combinazioni (quelle che presentavano una maggiore associazione); terzo modello: le variabili “entrate” nel secondo modello; le variabili relative alle disabilità: - numero totale di disabilità; - la presenza di una singola disabilità (per i 7 assi); - la presenza di due disabilità scelte opportunamente tra le possibili combinazioni (quelle che presentavano una maggiore associazione). Ad ogni fase, vengono introdotte nel modello delle variabili relative ad un determinato contesto: le prime legate alla condizione socio-economica, le seconde alle menomazioni e le terze alla disabilità. Il procedere mediante fasi, conservando nel modello le variabili “entrate” nel modello precedente, serve per analizzare l’ordine di entrata delle variabili predittive e per valutare quali determinanti vengono soppiantate e quali, invece, rimangono nel modello dopo l’ingresso di altre logicamente successive. 5. Risultati 5.1 Il punto di partenza Dallo studio precedente (Facchin et al., 2002) risulta che gli assi di handicap sono tra loro correlati, alcuni di essi in maniera molto significativa (Tabella 1). Le correlazioni maggiori sono fra l’handicap nell’indipendenza fisica e l’handicap nella mobilità (0,54), l’handicap occupazionale e l’handicap nella mobilità (0,50) e l’handicap occupazionale e l’handicap nell’integrazione sociale (0,51). Osservando, poi, la distribuzione dei bambini in base al numero di handicap, si osserva che ben il 74,1% dei bambini presenta contemporaneamente più di una tipologia di handicap (il 34,3% ne presenta due, il 21,7% tre, il 18,2% quattro o cinque), mentre il 15,4% ne presenta solo una. Il 10,5% è privo di handicap (Figura 2). Modelli statistici per l’analisi della transizione Università-lavoro 301 Tabella 1. Correlazioni fra gli assi di handicap Handicap orientamento Handicap orientamento Handicap Indip.fisica Handicap mobilità Handicap occupazionale Handicap integr.soc. Handicap indip.fisica Handicap mobilità Handicap occupazionale Handicap integr.soc. 1 0,41 1 0,44 0,54 1 0,26 0,43 0,5 1 0,2 0,22 0,13 0,51 1 Figura 2. Distribuzione percentuale dei bambini in base alla presenza contemporanea di più tipi di handicap 4H 8,4% 5H 9,8% nessun H 10,5% 1H 15,4% 3H 21,7% 2H 34,3% 5.2 L’indice di gravità dell’handicap Partendo dal presupposto che l’indice di gravità dell’handicap sia una somma pesata delle singole gravità di handicap, mediante l’analisi delle componenti principali si sono ricavati i pesi ottimali da attribuire a tale somma. Analizzando le prime due componenti principali ottenute, si ricava che: la prima componente principale (I CP) spiega il 43% della varianza ed è una somma pesata delle singole gravità: I CP = 0,44 gravità handicap orientamento + 0,48 gravità handicap indipendenza fisica + 0,49 gravità handicap nella mobilità + 0,47 gravità handicap occupazionale + 0,34 gravità handicap integrazione sociale 302 Ricerca delle componenti del rischio di handicap la seconda componente principale (II CP) spiega il 23% della varianza e contrappone gli handicap “fisici” a quelli “mentali”: II CP = (-0,22) gravità handicap orientamento + (-0,36) gravità handicap indipendenza fisica + (-0,36) gravità handicap nella mobilità + 0,45 gravità handicap occupazionale + 0,70 gravità handicap integrazione sociale Si è concluso che è la prima componente principale a fornire i pesi da attribuire per il calcolo dell’indice riassuntivo di gravità dell’handicap. Per ottenere un indicatore compreso tra 0 e 1 si sottrae al valore dell’indice, calcolato mediante i pesi ricavati dalla prima componente principale, il minimo teorico e si divide il tutto per la differenza tra il massimo (4,81) e il minimo (-1,56) teorico: 0≤ (PRIMA C.P.) - (minimo teorico) ≤1 (massimo teorico) - (minimo teorico) Per la validazione dell’indice si è suddivisa la casistica in due campioni casuali composti rispettivamente da 72 e da 73 bambini ciascuno e si è applicata la stessa procedura di calcolo dell’indice di gravità nei due gruppi (si ricavano i due indici: I1 e I2). Successivamente si è calcolato l’indice nel primo campione applicando i pesi ottenuti dall’analisi delle componenti principali nel secondo campione (I1/2), e viceversa (I2/1). In Tabella 2 si riportano le differenze fra i due indici calcolati all’interno dei due campioni (I1-I1/2 ; I2-I2/1): media, deviazione standard, mediana e differenza massima. Come si può notare, le medie delle differenze sono molto basse e, quindi, si può concludere che la metodologia adottata per il calcolo dell’indice di gravità sia valida e per questo adottata nel proseguo del lavoro. Figura 3. Distribuzione dell’indice di gravità calcolato sui 145 bambini 35 numerosità 30 25 20 15 10 5 0 0-0.1 0.1-0.2 0.2-0.3 0.3-0.4 0.4-0.5 0.5-0.6 0.6-0.7 valore dell'indice 0.7-0.8 0.8-0.9 0.9-1 Modelli statistici per l’analisi della transizione Università-lavoro 303 Tabella 2. Media, deviazione standard, mediana e differenza massima tra le differenze fra gli indici di gravità calcolati all’interno dei due campioni All’interno del All’interno del CAMPIONE 2 DIFFERENZA CAMPIONE 1 (I1 - I1/2) (I2 - I2/1) 0,017 0,009 Media 0,029 0,028 Dev.St. 0,023 0,005 Mediana 0,062 0,068 Differenza max 5.3 Analisi esplorativa dell’indice di gravità dell’handicap La prima analisi esplorativa dell’indice di gravità dell’handicap è avvenuta mediante l’utilizzo delle mappe di Kohonen. In Figura 4 viene riportata la mappa SOM generata studiando le unità in base al numero di menomazioni e di disabilità presentate per ciascun asse: il colore più scuro nella mappa corrisponde ad una maggiore intensità di aggregazione delle unità in relazione alla loro somiglianza. Sta al ricercatore, dall’esame della distribuzione dei colori sulla griglia, separare ed individuare i gruppi finali. Si sono identificati 5 gruppi composti rispettivamente da 30, 23, 11, 46, 35 bambini. Figura 4. Mappa SOM con l’individuazione dei 5 gruppi e la proiezione della gravità dell’handicap 304 Ricerca delle componenti del rischio di handicap Figura 5. Rappresentazione grafica delle modalità attive e della gravità dell’handicap sul piano definito dai primi due assi della soluzione ottenuta mediante l’analisi delle corrispondenze multiple Legenda delle modalità attive: numero totale di menomazione 1_M_0-3=da 0 a 3 menomazioni 2_M_4-6=da 4 a 6 menomazioni 3_M_7-9=da 7 a 9 menomazioni 4_M_10-12=da 10 a 12 menomazioni 5_M_13_15=da 13 a 15 menomazioni numero totale di disabilità 1_D_0-3=da 0 a 3 disabilità 2_D_4-6=da 4 a 6 disabilità 3_D_7-9=da 7 a 9 disabilità 4_D_10-12=da 10 a 12 disabilità 5_D_13-15=da 13 a 15 disabilità 6_D_>15=più di 15 disabilità presenza di disabilità si_Dcomp=si dis.comportamento no_Dcomp=no dis.comportamento si_Dcomun=si dis.comunicazione no_Dcomun=no dis.comunicazione si_DcuraPer=si dis.cura persona no_DcuraPer=no dis.cura persona si_Dlocom=si dis.locomotorie no_Dlocom=no dis.locomotorie si_DdispC=si dis.disposizione corpo no_DdispC=no dis.disposizione corpo si_Ddestr=si dis.destrezza no_Ddestr=no dis.destrezza si_Dsituaz=si dis.situazionali no_Dsituaz=no dis.situazionali numero assi di menomazione 1_1M=solo un asse di menomazione 2_2M=2 assi di menomazione 3_3M=3 assi di menomazione 4_4M=4 assi di menomazione 5_5M=5 assi di menomazione 6_6M=6 assi di menomazione 7_>6M= più di 6 assi di menomazione presenza di menomazioni si_Mcognit=si men.cognitive no_Mcognit=no men.cognitive si_Mpsich=si men.psichiche no_Mpsich=no men.psichiche si_Mcomunic=si men.comunicazione no_Mcomunic=no men.comunicazione si_Muditive=si men.uditive no_Muditive=no men.uditive si_Moculari=si men.oculari no_Moculari=no men.oculari si_Mviscer=si men.viscerali no_Mviscer=no men.viscerali si_MmuscolSch=si men.muscoloscheletriche no_MmuscolSch=no men.muscoloscheletriche si_Mdismorf=si men.dismorfiche no_Mdismorf=no men.dismorfiche si_MgenSens=si men.gen.sensibilità no_MgenSens=no men.gen.sensibilità Modelli statistici per l’analisi della transizione Università-lavoro 305 Il passo successivo è stato quello di proiettare su tale mappa la gravità media dell’handicap presentato dai componenti di ciascun gruppo. Si riscontra che (Figura 4): al primo gruppo, che presenta un numero basso di menomazioni/disabilità, è associata una gravità bassa dell’handicap (con media=0,10); al secondo, che presenta un numero medio di menomazioni/disabilità, è associata una gravità media (con media=0,32); al terzo, che è composto da 11 bambini che presentano un numero elevato di menomazioni e disabilità, è associata una gravità alta (con media=0,57); al quarto, che presenta un numero medio-basso di menomazioni/disabilità, è associata una gravità mediobassa (con media=0,24); infine, al quinto gruppo, che presenta un numero medio-alto di menomazioni/disabilità, è associata una gravità medio-alta (con media=0,48). Risulta evidente, quindi, l’associazione tra numero di menomazioni/disabilità con la gravità calcolata dell’handicap: ad un più elevato numero di menomazioni e disabilità viene associato un più alto indice di gravità. L’analisi esplorativa è poi proseguita mediante l’analisi delle corrispondenze multiple. La Figura 5 mostra chiaramente un andamento a ferro di cavallo, che evidenzia un trend che ha come primo estremo (in basso a destra) i bambini che presentano un basso numero di menomazioni/disabilità (da 1 a 3) e come altro estremo (in alto a destra) quelli che presentano un alto numero di menomazioni/disabilità (più di quindici). Tale andamento a ferro di cavallo, anche detto effetto Guttman (Fabbris, 1997), è tipico dei fenomeni che sono descritti da un unico fattore predominante di natura ordinale che, nel nostro caso, è appunto dato dal numero di menomazioni/disabilità. La varianza spiegata è del 30%. Proiettando sul grafico lo stato di gravità dell’handicap classificato in sei modalità (alto, grave, medio-alto, medio-basso, lieve, basso), si nota come quest’ultimo segua l’andamento a forma di ferro di cavallo: alla diminuzione del numero di menomazioni e disabilità diminuisce l’indice dello stato di gravità totale di handicap. 5.4 Ricerca delle determinanti Per la ricerca delle determinanti di una maggior gravità dell’handicap si sono utilizzati tre modelli di regressione lineare stepwise. In prima battuta, analizziamo le variabili predittive nel modello che considera le variabili socio-economiche e le menomazioni. Esso presenta un Indice di Determinazione (R2) pari a 0,65 (Tabella 3). Rispetto al modello, che considera solo le variabili socio-demografiche del bambino e dei genitori, permane ancora come fattore protettivo il titolo di studio alto della madre, variabile ritenuta come proxy di un miglior contesto socio-economico (ISTAT, 1990; Costa e Faggiano, 1994). Comportano, invece, una maggiore gravità globale di handicap le menomazioni psichiche, prese singolarmente e ancor più quando sono associate a quelle muscoloscheletriche, le 306 Ricerca delle componenti del rischio di handicap Tabella 3. Risultati ottenuti dal secondo modello di regressione lineare stepwise: stima dei parametri e significatività (R2=0,65). Y=gravità globale dell’handicap VARIABILE intercetta titolo di studio ALTO della madre Men. Psichiche Men. Psichiche + Muscoloscheletriche Men. Comunicazione + Generali della sensibilità Men. Oculari + Muscoloscheletriche parametro 0,20 -0,16 0,09 0,16 0,43 0,12 p <,0001 0,0010 <,0001 0,0011 0,0003 0,0157 Tabella 4. Risultati ottenuti dal terzo modello di regressione lineare stepwise: stima dei parametri e significatività (R2=0,84). Y=gravità globale dell’handicap VARIABILE intercetta titolo di studio ALTO della madre Men. Psichiche Men. Psichiche + Muscoloscheletriche Dis. Locomotorie Dis. Comportamentali + Situazionali Dis. Comunicazione + Disposizione corpo Dis. Locomotorie + Situazionali parametro 0,07 -0,12 0,06 0,11 0,09 0,09 0,23 0,17 p 0,0136 0,0005 <,0001 0,0005 0,0013 0,0221 0,0003 0,0030 menomazioni della comunicazione associate a quelle generali della sensibilità ed, infine, quelle oculari associate alle muscoloscheletriche. Nel momento in cui vengono prese in considerazione anche le disabilità (Tabella 4), il modello migliora e spiega l’84% della varianza (R2=0,84). Permangono nel modello la variabile titolo di studio alto della madre (protettiva), le menomazioni psichiche considerate singolarmente e in associazione con le muscoloscheletriche (fattori di rischio). Vengono soppiantate, invece, le menomazioni fisiche, trasformatesi in disabilità (disabilità locomotorie, disabilità nella disposizione del corpo associate a quelle della comunicazione, disabilità comportamentali associate a quelle situazionali, e disabilità locomotorie associate a quelle situazionali). Modelli statistici per l’analisi della transizione Università-lavoro 6. 307 Conclusioni I percorsi che dalla menomazione portano all’handicap sono complessi, differenti da soggetto a soggetto e caratterizzati da molteplici interrelazioni. L’evidenza che ogni persona fosse generalmente caratterizzata dalla presenza di più handicap, ha reso necessaria l’elaborazione di una misura sintetica che comprendesse tutte le tipologie di handicap. Mediante l’indice riassuntivo di gravità è stato possibile esplicitare tale misura, in termini di gravità. L’indice è una somma pesata delle gravità dei singoli assi di handicap in cui i pesi sono stati ricavati dalla prima componente principale e normalizzati al campo di variazione 0-1. Il peso più alto è associato all’handicap nella mobilità (0,49) e il peso più basso all’handicap nell’integrazione sociale (0,34). Comunque i pesi sono piuttosto simili e si aggirano intorno allo 0,4. La validazione dell’indice ha poi fornito risultati buoni, permettendo l’applicazione del metodo per una formulazione unica ed estensibile di gravità dell’handicap. L’analisi esplorativa del comportamento dell’indice ha comprovato che esso è sensibile e ad un numero maggiore di menomazioni/disabilità porta un valore più alto di gravità dell’handicap. Si è, successivamente, indagato se la gravità, oltre che dal numero, dipendesse anche da tipologie specifiche di menomazioni o disabilità o dallo stesso contesto socio-economico in cui vive il bambino. Nella ricerca delle determinanti del rischio di handicap, inteso come gravità globale, le menomazioni psichiche impattano direttamente e duramente e, nel momento in cui si presentano associate a quelle fisiche, rappresentano la situazione di massima gravità. Le menomazioni fisiche, invece, non impattano direttamente, ma solo nel momento in cui si trasformano in disabilità. Ciò significa che una persona con menomazioni psichiche manifesta subito uno svantaggio che limita o impedisce il raggiungimento di una condizione sociale normale, ovvero un handicap indipendentemente dalle reali disabilità di cui è portatrice; mentre una persona con menomazioni fisiche manifesta tale svantaggio nel momento in cui la menomazione limita la persona nello svolgimento di una attività secondo i parametri considerati normali per un essere umano, ovvero quando la menomazione porta ad una disabilità. Poiché l’handicap rappresenta lo svantaggio che si vive nei rapporti con la società, sulla base dei risultati ottenuti possiamo dunque affermare che la società stessa fa ancora molta più fatica ad accettare la menomazione psichica rispetto a quella fisica. In tale contesto, l’ambiente socio-economico in cui il bambino si trova a vivere può prevenire o attenuare il manifestarsi dell’handicap: nel nostro studio ad un più alto livello socio-economico è associata una minor gravità. Infatti, la variabile titolo di studio della madre, proxy di uno stato socio-economico elevato, risulta essere un fattore protettivo come risulta dal fatto permane in tutti e tre i modelli di regressione 308 Ricerca delle componenti del rischio di handicap lineare stepwise, nonostante si considerino contestualmente dei fattori causali diretti dell’handicap. Riferimenti bibliografici COSTA G. E FAGGIANO F. (a cura di) (1994), L’equità nella salute in Italia. Rapporto sulle diseguaglianze sociali in sanità, Franco Angeli, Milano FABBRIS L. (1997), Statistica Multivariata – analisi esplorativa dei dati, McGrawHill, Milano FACCHIN P., BOCCUZZO G., VISONÀ DALLA POZZA L., SALMASO L. (2002), Il complesso percorso che dalla menomazione porta all’handicap: analisi delle correlazioni e dei nessi causali, in: PUGGIONI G. (a cura di) “Modelli e metodi per l’analisi di rischi sociali e sanitari”, CLEUP, Padova: 185-206 FACCHIN P., FURLANETTO A., BURATTO B., et al. (a cura di) (1997), Valutazione della prevalenza di invalidità infantile di origine sia congenita che acquisita. Rapporto sul progetto di ricerca “ Prevalenza dei fattori di rischio della salute materno-infantile” dell’Istituto Superiore di Sanità, Università degli Studi di Padova, Dipartimento di Pediatria, Unità di Epidemiologia e Medicina di Comunità INGRASSIA S. E DAVINO C. (2002), Reti neuronali e metodi statistici, Collana Scientifica FrancoAngeli, Milano ISTAT (1990), La mortalità differenziale secondo alcuni fattori socio-economici: anni 1981-82, Note e Relazioni No.2, ISTAT, Roma ORGANIZZAZIONE MONDIALE DELLA SANITÀ (1980), Classificazione internazionale delle menomazioni, delle disabilità e degli svantaggi esistenziali, Edizione italiana a cura del Centro Lombardo per L’Educazione Sanitaria ORGANIZZAZIONE MONDIALE DELLA SANITÀ (2002), Classificazione internazionale del Funzionamento, della Disabilità e della Salute, Edizioni Erickson, Trento Modelli statistici per l’analisi della transizione Università-lavoro 309 Investigating handicap risk determinants Summary. The aim of the present study is the identification of the most severe handicap profiles. Severity is considered as a whole and not as addressed to single handicap typologies. On this purpose it was defined an handicap severity index able to compare patients and to define global severity lists. The index performance has been evaluated through cross-validation and explorative analysis (Kohonen maps and analysis of multiple correspondence). Finally, impairment, disability and social context have been investigated as determinants of the handicap severity, through the performance of a series of linear stepwise regression analysis, according to the sequence Impairment→Disability→Handicap. Results show a positive association between the number of impairments/disabilities and handicap severity. For instance, it was verified that psychical impairments contribute heavily to handicap severity, mostly if associated with physical impairments. On the contrary, single physical impairments contribute to severity only when disabling. At the end, also the social context influences handicap severity: an higher socio-economic level represents a protective factor. Keywords. Impairment, disability, handicap, handicap severity index, SelfOrganizing Maps – SOM (Kohonen Maps), analysis of multiple correspondence, linear stepwise regression analysis. 310 Ricerca delle componenti del rischio di handicap ALLEGATO 1 Classificazione ICIDH delle menomazioni, delle disabilità e degli handicap per categorie a due cifre Categorie delle menomazioni 1. Menomazioni della capacità intellettiva 2. Altre menomazioni psicologiche 3. Menomazioni del linguaggio 4. Menomazioni auricolari 5. Menomazioni oculari 6. Menomazioni viscerali 7. Menomazioni scheletriche 8. Menomazioni deturpanti 9. Menomazioni generalizzate, sensoriali e di altro tipo Categorie delle disabilità 1. Disabilità nel comportamento 2. Disabilità nella comunicazione 3. Disabilità nella cura della propria persona 4. Disabilità locomotorie 5. Disabilità dovute all’assetto corporeo 6. Disabilità nella destrezza 7. Disabilità circostanziali 8. Disabilità in particolari attitudini 9. Altre limitazioni nell’attività Classificazione degli handicap 1. Handicap nell’orientamento 2. Handicap nell’indipendenza fisica 3. Handicap nella mobilità 4. Handicap occupazionali 5. Handicap nell’integrazione sociale 6. Handicap nell’autosufficienza economica 7. Altri handicap _______________________________________________________________________________________________________________ Stampato nel mese di Febbraio 2005 presso la C.L.E.U.P. Coop. Libraria Editrice Università di Padova Tipografia: Via Belzoni, 118/3 - Padova (Tel. 0498753496) [email protected] Redazione e Amm.ne: Via Belzoni, 118/3 - Padova (Tel. 049650261) [email protected] Libreria: Via Gradenigo, 2 - Padova (Tel. 0498071998) [email protected] www.cleup.it