Modelli statistici per l`analisi della transizione

Transcript

Modelli statistici per l`analisi della transizione
7
Determinazione e previsione di rischi sociali e sanitari
Modelli statistici per l’analisi
della transizione università-lavoro
a cura di
Corrado Crocetta
Selezione dagli atti del Workshop
organizzato a Mattinata (FG) da:
Dipartimento di Scienze Statistiche
dell’Università degli Studi di Bari
e
Dipartimento di Scienze Economiche Matematiche e Statistiche
dell’Università degli Studi di Foggia
Prima edizione: febbraio 2005
ISBN 88-7178-825-7
© Copyright 2005 by CLEUP sc
“Coop. Libraria Editrice Università di Padova”
Via G. Belzoni, 118/3 – Padova (Tel. 049 650261)
www.cleup.it
Tutti i diritti di traduzione, riproduzione e adattamento,
totale o parziale, con qualsiasi mezzo (comprese
le copie fotostatiche e i microfilm) sono riservati.
Prefazione
Le rilevazioni trimestrali sulle forze lavoro, effettuate dall’ISTAT, pongono in luce
che in Italia molti giovani trovano la loro prima occupazione stabile con uno sfasamento temporale di circa 4 anni rispetto all’uscita dal sistema scolastico e che i
tempi medi d’inserimento professionale tendono a diminuire al crescere del livello
d’istruzione. Le difficoltà d’inserimento nel mondo del lavoro sono, in parte, determinate dalla selettività delle offerte di lavoro da parte dei giovani, dalla scarsità di
canali d’informazione e comunicazione, da inefficienze del sistema pubblico di collocamento, dalla limitata mobilità territoriale.
È proprio per analizzare dette problematiche che nasce questa pubblicazione
contenente 15 contributi di autori che hanno studiato il problema da diverse angolazioni. Trattasi di una rassegna aggiornata, anche se non esaustiva, dei numerosi studi effettuati sul tema dalle principali Università italiane e da alcuni Istituti di ricerca.
I lavori pubblicati sono il frutto di una accurata selezione1 dei numerosi contributi presentati in occasione del convegno tenutosi a Mattinata, dal 16 al 18 settembre 2004 e costituiscono un percorso articolato che, partendo dal problema
dell’abbandono degli studi universitari, passa a valutare le opinioni dei laureati sulla formazione ricevuta, gli effetti che quest’ultima ha sull’occupazione e le determinanti dell’inserimento professionale dei laureati.
I primi 5 lavori riguardano la valutazione dei percorsi formativi in vista
dell’inserimento lavorativo e si concentrano sui seguenti aspetti: l’abbandono degli
studi universitari (Chiandotto, Giusti); l’analisi della student satisfaction, aggregata
per Facoltà (Scagni); la realizzazione di graduatorie di corsi di laurea basate
sull’efficacia formativa e occupazionale, attraverso metodi multicriterio (Enea, Giambalvo, Morreale); lo studio dei tempi di conseguimento della laurea con un approccio
multilivello (Chiandotto, Varriale); la valutazione della qualità della formazione universitaria da parte dei laureati, mediante modelli ECSI – SEM (Chiandotto, Bini, Bertaccini).
Il secondo gruppo di lavori affronta, in modo più specifico, il problema
dell’occupazione focalizzando l’attenzione sui seguenti argomenti: il ricorso dei neo
laureati ai cosiddetti “legami deboli” per la ricerca del lavoro (Boaretto, Fabbris,
Rota, Silvestri); il confronto dell’efficacia, dal punto di vista dell’occupazione, di
due diversi corsi di laurea, usando l’approccio degli “strati principali” all’inferenza
causale (Grilli, Mealli); le determinanti dell’occupazione mediante l’utilizzo di mo1
Tutti i lavori pubblicati sono stati sottoposti al doppio referaggio anonimo da parte di almeno un componente del comitato scientifico e di un esperto esterno. Un vivo ringraziamento va pertanto a tutti i referee per il loro prezioso contributo.
II
Indice del volume
delli strutturali (Crocetta, d’Ovidio); lo studio della validità d'indicatori di efficacia
esterna, alternativi rispetto alla durata della ricerca del primo impiego (Contini); la
valutazione delle interazioni fra le determinanti dell’inserimento lavorativo dei laureati attraverso analisi di tipo Boolean logit (Porcu, Puggioni, Tedesco); l’analisi
della condizione occupazionale dei laureati a un anno e mezzo/due anni dal conseguimento del titolo, attraverso modelli di regressione logistica a 2 livelli, per evidenziare l’effetto “netto” dei corsi di studio (Chiandotto, Bacci); le componenti della
soddisfazione lavorativa dei laureati mediante algoritmi di segmentazione e modelli
ad equazioni strutturali (Camillo, Campobasso, Crocetta, di Francia, Sallustio); lo
studio degli esiti occupazionali tramite algoritmi di segmentazione basati su tecniche
fuzzy neuro-adattative (Delvecchio, d’Ovidio); l’indebolimento delle usuali condizioni di applicabilità dei metodi di inferenza causale per la valutazione dell’efficacia
(Mercatanti); la costruzione di un indice per la misurazione della gravità
dell’handicap tramite reti neurali (Boccuzzo, Visonà Dalla Pozza, Salmaso, Facchin), utilizzabile anche nell’ambito della transizione Università-lavoro per il monitoraggio di situazioni di criticità.
In qualità di curatore del volume, desidero ringraziare il coordinatore nazionale del PRIN “Transizioni Università-lavoro e valorizzazione delle competenze professionali dei laureati: modelli e metodi di analisi multidimensionale delle determinanti”, nonché presidente del comitato scientifico, Luigi Fabbris, i membri del comitato
scientifico Enrica Aureli, Simona Balbi, Laura Carli Sardi, Bruno Chiandotto, Marisa Civardi, Corrado Crocetta, Francesco Delvecchio, Giovanni Girone, Giuseppe
Puggioni, Silio Rigatti Luchini, i membri del comitato organizzatore del convegno
che ho avuto l’onore di coordinare, Francesco Delvecchio, Ernesto Toma, Francesco d’Ovidio, Giulia Sallustio, Tiziano Rodolfo Roseto e Barbara Angelillis; inoltre
ringrazio Brunero Liseo per la brillante relazione di apertura su Modelli a frontiera
stocastica per la valutazione dell’efficienza delle Università.
Un ringraziamento particolare va anche ai Magnifici Rettori delle Università
di Bari e Foggia Giovanni Girone e Antonio Muscio, all’Assessore al Lavoro, alla
Pubblica Istruzione e al Diritto allo Studio della Regione Puglia Angelo Cera, alla
Presidente della SIS Daniela Cocchi, ai Presidi delle Facoltà di Economia di Foggia
e Bari Niccolò Abriani e Carlo Cecchi, al Direttore dell’EDISU di Foggia Raffaele
De Laurentis, al Direttore del Dipartimento di Scienze Economiche Matematiche e
Statistiche Lucia Maddalena, al Direttore del Dipartimento di Scienze Statistiche
Antonio Mastrodonato, che oltre al supporto finanziario fornito, hanno voluto testimoniare con la loro presenza alla cerimonia inaugurale la grande attenzione delle
istituzioni verso il tema della transizione Università-lavoro.
Il curatore
Corrado Crocetta
Indice del volume
Bruno Chiandotto, Caterina Giusti
L’abbandono degli studi universitari .......................................................................... 1
University student drop-out
Andrea Scagni
Le opinioni degli studenti sulla didattica in università: sono attendibili le differenze nei risultati aggregati di Facoltà? ......................................................................23
Student's opinions of university teaching: are differences among aggregate results
reliable?
Mario Enea, Ornella Giambalvo, Giovanni Morreale
La valutazione dei percorsi formativi dei laureati attraverso l’uso del modello
multicriterio Electre III ...............................................................................................39
The evaluation of educational training for graduates through the use of the Electre III
multiple criteria model
Bruno Chiandotto, Roberta Varriale
Un modello multilivello per l’analisi della durata degli studi universitari .................63
A multilevel model for the analysis of university students’ time to degree
Bruno Chiandotto, Matilde Bini, Bruno Bertaccini
Valutazione della qualità della formazione universitaria percepita dai laureati e
diplomati dell’Ateneo fiorentino: un’applicazione del modello ECSI .......................87
Evaluating the quality of University educational process: an application of the ECSI
model
Anna Boaretto, Luigi Fabbris, Gilda Rota, Ilaria Silvestri
Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati
dell’Università di Padova..........................................................................................107
Multidimensional Networks of “Weak” Links for Job Search of Padua University
Graduates
Leonardo Grilli, Fabrizia Mealli
L’effetto degli studi universitari sull’occupazione: un’applicazione dell’approccio degli “strati principali” all’analisi causale ..........................................................131
The effect of university studies on job opportunities: an application of the principal
strata approach to causal inference
VI
Indice del volume
Corrado Crocetta, Francesco d’Ovidio
Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione dei laureati nell’Università di Foggia..............................................................155
A structural equation model to analyse the determinants of the employment of graduates
in the University of Foggia
Dalit Contini
La durata della ricerca del primo impiego è un buon indicatore di efficacia della
formazione universitaria? .........................................................................................179
Is duration to first job a valid measure of performance of university programs?
Mariano Porcu, Giuseppe Puggioni, Nicola Tedesco
Determinanti dell’inserimento professionale dei laureati. Analisi delle interazioni ...197
Determinants of the occupational placement of graduates. An analysis of interactions
Bruno Chiandotto, Silvia Bacci
Un modello multilivello per l’analisi della condizione occupazionale dei laureati... 211
A multilevel model for analysing the graduate employment
Furio Camillo, Francesco Campobasso, Corrado Crocetta, Angelo di Francia,
Giulia Sallustio
Le componenti della soddisfazione rispetto al lavoro svolto: un’indagine sui laureati dell’Università degli Studi di Bari.......................................................................... 235
Work satisfaction components: a research on graduates from the University of Bari
Francesco d’Ovidio, Giuseppe Delvecchio
Un modello con tecniche fuzzy neuro-adattative per la classificazione dei laureati
dell’Università di Bari secondo l’occupazione a un anno dalla laurea ....................... 255
Fuzzy neural-adaptive methodologies to classify the graduates of the University of Bari
by employment one year after graduation
Andrea Mercatanti
Rilevanza delle analisi di misture di distribuzioni nelle valutazioni di efficacia con
metodi di inferenza causale .......................................................................................... 279
The importance of Mixture models in efficacy evaluation with causal methods
Giovanna Boccuzzo, Laura Visonà Dalla Pozza, Laura Salmaso, Paola Facchin
Ricerca delle componenti del rischio di handicap ....................................................... 293
Investigating handicap risk determinants
L’abbandono degli studi universitari1
Bruno Chiandotto, Caterina Giusti
Dipartimento di Statistica “G. Parenti” - Università degli Studi di Firenze
Riassunto. Nel lavoro si analizza il fenomeno dell’abbandono degli studi: una delle
maggiori criticità del sistema universitario italiano. Per cercare di individuare le possibili determinanti del fenomeno è stata svolta un’analisi dei dati individuali relativi
agli studenti immatricolati presso l’Ateneo fiorentino nel ventennio 1980-2000 e
nell’a.a. 2001/02. Su questi ultimi dati è stato applicato un modello di regressione
logistica con intercetta casuale a due livelli per valutare l’effetto “netto” esercitato
sia dai fattori individuali che da quelli istituzionali (variabili relative ai corsi di studio). Tale modello tiene conto del fatto che gli studenti (unità di primo livello) risultano naturalmente aggregati in corsi di laurea (unità di secondo livello). Nelle analisi
sono stati considerati abbandoni non solo le interruzioni effettive della carriera universitaria ed i trasferimenti verso altri Atenei, ma anche i passaggi tra corsi di laurea.
Parole chiave: Abbandoni universitari, Analisi per coorti, Modelli multilivello, Regressione logistica multilivello.
1.
Introduzione
Negli ultimi decenni il sistema universitario italiano si è caratterizzato, all’interno del
panorama internazionale dell’istruzione terziaria, per la presenza ed il progressivo
aggravamento di una serie di situazioni di particolare criticità; infatti, “qualunque sia
la misura presa a riferimento, a partire dalle risorse finanziarie fino al numero dei
laureati, il sistema universitario italiano appare debole ed arretrato, in sostanza non
ancora europeo”(Associazione TreeLLLe, 2003).
Un tale stato di cose non dipende tanto da una minore quota, rispetto agli altri
Paesi europei, di giovani diplomati che decidono di intraprendere gli studi universita1
Il presente lavoro è stato finanziato nell’ambito del PRIN 2002, cofinanziato dal MIUR “Transizioni
Università-lavoro e valorizzazione delle competenze professionali dei laureati: modelli e metodi di
analisi multidimensionali delle determinanti”. Coordinatore nazionale è L. Fabbris, coordinatore del
gruppo di Firenze è B. Chiandotto (titolo del progetto dell’unità di ricerca locale “Valutazione del
processo formativo universitario, sbocchi professionali e pianificazione dei percorsi formativi: modelli
e metodi”). L’idea iniziale, la struttura e l’impostazione del lavoro sono dovuti al contributo di entrambi gli autori, mentre le elaborazioni e l’implementazione del modello vanno attribuite a C. Giusti.
2
L’abbandono degli studi universitari
ri, quanto piuttosto dal fenomeno degli abbandoni: mediamente negli ultimi anni più
del 25% degli studenti ha lasciato l’Università in Italia dopo un solo anno di corso,
percentuale che s’incrementa notevolmente, come si avrà modo di verificare in
seguito, negli anni successivi al primo (MURST, 1998).
Il fenomeno degli abbandoni, tipico del sistema universitario italiano, appare
ancora più accentuato se si analizza la situazione dell’Università di Firenze; ciò induce a presumere che le conclusioni di un approfondimento conoscitivo su questo
fenomeno utilizzando i dati fiorentini possano essere ragionevolmente estese anche a
gran parte degli altri Atenei italiani.
Riguardo ai dati utilizzati si deve precisare che l’unità statistica di riferimento
considerata non è l’intero Ateneo ma il singolo corso di studi; pertanto, sono stati
considerati abbandoni non solo le interruzioni effettive della carriera universitaria ed
i trasferimenti verso altri Atenei, ma anche i passaggi tra Corsi di Laurea effettuati
all’interno dell’Università di Firenze. La motivazione alla base di tale scelta è che
anche un semplice passaggio può costituire, di fatto, un importante punto di rottura
della carriera universitaria di uno studente, comportando spesso una perdita di tempo
e di risorse, sia per lo studente stesso sia per il corso di studi da lui scelto, del tutto
simile a quella caratterizzante l’abbandono degli studi universitari.
L’individuazione delle possibili determinanti del fenomeno degli abbandoni
dovrebbe suggerire interventi finalizzati alla eliminazione di una tale criticità2.
Il secondo paragrafo di questa nota è dedicato ad una sintetica illustrazione dei
risultati dell’analisi finalizzata all’individuazione dell’eventuale influenza esercitata
sull’esito degli studi universitari sia dal Corso di Laurea che da caratteristiche individuali, quali genere, residenza, diploma di scuola superiore ecc.3, relativamente agli immatricolati presso l’Università di Firenze negli anni accademici dal 1980/81 al 2000/01.
Nel terzo paragrafo vengono riassunti, altrettanto sinteticamente, i risultati
della medesima analisi condotta relativamente ai 10053 studenti immatricolati presso
l’Università degli Studi di Firenze nell’a.a. 2001/024, anno in cui è entrata in vigore
la riforma dei cicli e degli ordinamenti didattici dell’Università italiana
2
Sul problema della valutazione dei processi formativi finalizzata all’eliminazione di eventuali criticità presenti nel sistema si veda Chiandotto B. (2002).
3
Una trattazione più dettagliata si trova in Giusti C. (2004), un altro significativo contributo
sull’argomento è stato fornito da Bulgarelli G. (2002).
4
Anche in questo caso si tratta di un’esposizione estremamente sintetica; maggiori dettagli si trovano
in Giusti C. (2004). Conviene in ogni caso precisare che i dati considerati per le analisi dei primi due
paragrafi provengono dall’archivio amministrativo dell’Università degli Studi di Firenze e sono stati
messi a disposizione dall’Ufficio Servizi Statistici e Controllo di Gestione dell’Ateneo. Attraverso tali
informazioni si è proceduto a classificare come “abbandoni” gli studenti che nei periodi di tempo considerati risultavano aver effettuato un passaggio di corso, un trasferimento ad altro Ateneo, aver presentato domanda di rinuncia agli studi o non aver rinnovato l’iscrizione nello stesso Corso di Laurea
(“abbandoni impliciti”).
Modelli statistici per l’analisi della transizione università-lavoro
3
Per pervenire alla misura dell’effetto “netto” eventualmente esercitato da possibili determinanti (sia individuali che istituzionali) del fenomeno degli abbandoni si
è fatto ricorso, facendo sempre riferimento agli immatricolati dell’a.a. 2001/02, ai
modelli gerarchici o di regressione multilivello che, com’è noto, hanno la principale
caratteristica di tenere in considerazione la struttura gerarchica dei dati oggetto di
studio. I risultati delle analisi condotte sono riportati nel quarto paragrafo; alcune sintetiche conclusioni completano la nota.
2.
Esito degli studi universitari degli immatricolati nell’Ateneo
fiorentino nel periodo 1980-2000
In questo paragrafo viene offerto un quadro descrittivo5 dell’esito degli studi degli
immatricolati presso l’Ateneo di Firenze negli anni accademici tra il 1980/81 ed il
2000/01, rivolgendo particolare attenzione al fenomeno degli abbandoni.
Per analizzare tutte le informazioni disponibili si sarebbero potuti seguire due
principali approcci: l’analisi “per contemporanei” o “trasversale” e l’analisi “per coorti” o “longitudinale”. In questa sede è stato adottato l’approccio longitudinale; scegliendo come evento di comune origine l’immatricolazione presso l’Università di Firenze in un determinato anno accademico, sono state individuate all’interno della popolazione oggetto di studio 21 distinte coorti.
A tale proposito bisogna osservare che l’analisi degli esiti delle carriere mette
in evidenza il principale difetto dell’approccio per coorti, ovvero la possibilità di valutare solamente i dati meno recenti, cioè quelli che si ottengono dopo aver osservato
ogni coorte per un certo numero di anni, in modo che ciascun individuo abbia avuto
il tempo di “sperimentare” il suo esito finale. In realtà, il fenomeno degli abbandoni
“colpisce soprattutto gli iscritti ai primi due anni che, insieme, raccolgono più della
metà delle mancate reiscrizioni complessive” (Istat, 2003); infatti, il Ministero
dell’Istruzione, dell’Università e della Ricerca, nell’indagine sull’abbandono universitario condotta nel 2001, ha scelto di quantificare tale fenomeno proprio attraverso il
numero di abbandoni tra il primo ed il secondo anno di corso. L’applicazione di tale
5
Gli studenti immatricolati, ovvero “iscritti per la prima volta al primo anno di un Corso di Laurea o
di Diploma Universitario” secondo la definizione dell’Istat, sono stati classificati in base al Corso di
Laurea di prima iscrizione; per tali studenti si dispone di informazioni classificabili in “variabili
d’ingresso” (principalmente dati anagrafici e relativi agli studi preuniversitari), “di soggiorno” (per
esempio informazioni su eventuali passaggi di corso, rinunce) e “d’uscita” (esito finale degli studi).
Le variabili d’ingresso e quelle “in itinere” rappresentano i fattori individuali, o variabili esplicative,
che si suppone possano influenzare l’esito e la durata degli studi. Tali informazioni risultano aggiornate, per ciascuna delle unità di analisi, al 31 luglio 2003.
4
L’abbandono degli studi universitari
Figura 1. Esito degli studi per i dieci a.a. successivi a quello di immatricolazione (valori %)
100%
80%
60%
40%
20%
0%
1
2
3
4
Abbandoni
5
6
7
Ancora iscritti
8
9
10
Laureati
metodologia d’analisi ha consentito, pertanto, di valutare il fenomeno dell’abbandono per tutte le 21 coorti considerate senza alcuna censura, dal momento che il tempo
minimo di osservazione risultava pari a tre anni (coorte 2000/01).
Se si considerano i soli 116841 studenti che si sono immatricolati dall’a.a.
1980/81 al 1993/94, ovvero le generazioni per le quali si dispone di almeno dieci anni di osservazione, risulta immediatamente evidente come il fenomeno
dell’abbandono del Corso di Laurea di prima immatricolazione assuma nell’Ateneo
fiorentino dimensioni alquanto preoccupanti; la percentuale media di studenti che
abbandonano il proprio CdL durante il primo anno è infatti pari al 27.8% (cfr. Figura
1), cioè a più di un quarto del totale degli iscritti. Se si considerano gli abbandoni nei
primi due anni, la quota di studenti che lasciano il proprio corso sale al 39.3%, mentre la percentuale degli abbandoni nei primi tre anni risulta pari al 45.2%.
A dieci anni di distanza dall’immatricolazione, si osserva una percentuale
media di studenti laureati nel Corso di Laurea di immatricolazione pari ad appena il
30.5% del contingente iniziale, mentre la quota complessiva di abbandoni è pari al
56.8% delle matricole; una frazione non trascurabile di studenti (12.7%) risulta infine
ancora iscritta allo stesso CdL dopo dieci anni di carriera universitaria.
Analizzando le percentuali di abbandono in ogni singolo anno (cfr. Figura 2),
si ottiene conferma del fatto che il fenomeno della mancata reiscrizione nel Corso di
Modelli statistici per l’analisi della transizione università-lavoro
5
Figura 2. Abbandoni nel periodo 1980-2000, per anno di corso (percentuali medie).
30
27.75
25
20
16.03
% 15
9.65
10
6.66
5
4.60
3.39
3.16
3.41
4.18
4.70
5
6
7
8
9
10
0
1
2
3
4
Figura 3. Tasso medio di abbandono dopo due anni nel periodo 1980-2000, per Facoltà.
Ateneo
39.7
Scienze Politiche
46.2
45.4
SMFN
Scienze della Formazione
45.3
Medicina e Chirurgia
24.5
41.8
Lettere e Filosofia
Ingegneria
42.2
Giurisprudenza
35.7
38.9
Farmacia
Economia
46.3
Architettura
28.7
42.1
Agraria
0
5
10
15
20
%
25
30
35
40
45
50
Laurea di prima immatricolazione riguardi prevalentemente il primo anno ed il secondo anno di corso.
Nella Figura 3 sono riportate le percentuali medie di abbandono, calcolate su
tutto il ventennio, nei primi due anni di corso. Rispetto ad un valore medio di Ateneo
pari al 39.7%, si osservano valori molto elevati per le Facoltà di Economia (46.3%),
Scienze Politiche (46.2%), SMFN e Scienze della Formazione (entrambe con valori
attorno al 45.5%).
All’opposto, i valori più bassi si osservano per Architettura (28.7%) e Medicina e Chirurgia (24.5%). La netta caratterizzazione di queste due Facoltà fa pensare
che le limitazioni al numero massimo di immatricolazioni, esistenti a Firenze proprio
6
L’abbandono degli studi universitari
per questi due indirizzi di studio (anche se non nell’intero ventennio), possano influenzare la probabilità di abbandono; infatti, poiché è necessario superare una prova
di ammissione prima di potersi iscrivere, si può supporre che gli studenti che vi riescono siano più motivati rispetto a quelli che si immatricolano ad un Corso di Laurea
ad accesso libero.
Studiando il fenomeno dell’abbandono più dettagliatamente6, si osservano
percentuali relative a Corsi di Laurea appartenenti alla stessa Facoltà anche molto diverse tra loro; l’analisi condotta a livello di Facoltà risulta perciò, in un certo senso,
“distorta”, in quanto i valori di Facoltà rappresentano una media tra tutti i CdL e non
consentono di cogliere le differenze esistenti fra i vari indirizzi di studio. Stato di fatto questo che suggerisce, naturalmente, un’analisi del fenomeno degli abbandoni a
livello di Corso di Laurea. Nel processo teso all’individuazione delle possibili determinanti del fenomeno degli abbandoni risulta di una certa utilità misurare il grado di
associazione tra la proporzione di studenti che hanno abbandonato gli studi nei primi
due anni di corso e altri caratteri ritenuti rilevanti ai fini dell’analisi condotta. Si è
pertanto proceduto al computo degli indici V di Cramer e Chi-quadro di Pearson; i
risultati delle elaborazioni effettuate sono riportati nella Tabella 1.
Tabella 1. Statistiche d’associazione: periodo 1980 - 2000.
Caratteri: esito dopo 2 anni vs
Anno d’immatricolazione
Facoltà
Corso di Laurea
Sesso
Voto di Maturità
Tipo di Maturità
Residenza
Regolarità studi superiori
Ritardo immatricolazione
6
Statistica
Chi-quadro
V di Cramer
Chi-quadro
V di Cramer
Chi-quadro
V di Cramer
Chi-quadro
V di Cramer
Chi-quadro
V di Cramer
Chi-quadro
V di Cramer
Chi-quadro
V di Cramer
Chi-quadro
V di Cramer
Chi-quadro
V di Cramer
Valore
481.1453
0.0526
3514.2521
0.1421
4635.6176
0.1632
274.1894
-0.0397
4033.9811
0.1542
9210.3959
0.2324
246.1852
0.0376
10507.1918
0.2457
6377.0199
0.1933
Per i dati relativi ai singoli Corsi di Laurea si rimanda a Giusti C. (2004).
GdL
Prob
20
<.0001
10
<.0001
41
<.0001
1
<.0001
12
<.0001
3
<.0001
5
<.0001
5
<.0001
7
<.0001
Modelli statistici per l’analisi della transizione università-lavoro
7
Dall’esame dei dati riportati nella tabella si rileva un discreto livello di associazione fra l’esito degli studi entro 2 anni dall’immatricolazione e la Facoltà di appartenenza dello studente; ancor più significativo risulta però il dato relativo alla relazione fra esito e Corso di Laurea, il che sottolinea ancora una volta come condurre
un’analisi al solo livello di Facoltà comporti necessariamente una perdita
d’informazioni. Non viene, invece, evidenziata alcuna relazione tra il sesso e l’esito
degli studi.
Il tipo di studi preuniversitari svolti ed il voto conseguito risultano fortemente
connessi al tasso di abbandono; infatti, la percentuale media di studenti che decidono
di abbandonare entro due anni gli studi nel Corso di Laurea di immatricolazione è
pari al 29.4% tra i liceali, mentre sale notevolmente tra i diplomati presso istituti tecnici e professionali, per i quali tale quota è pari rispettivamente al 52.7% e 60.2%.
Tali valori risultano pressoché stabili per tutte le coorti considerate.
Per quanto riguarda il voto alla maturità, si rileva che passando da una classe
di voto a quella superiore il tasso medio di abbandono diminuisce di quasi due punti
percentuali.
Meno significativa risulta invece l’analisi del tasso di abbandono condotta distinguendo gli studenti delle varie coorti in base alla propria residenza, come mostrato
anche dai valori delle due statistiche calcolate. L’unica rilevante differenza che si osserva è quella tra il dato relativo ai residenti fuori regione ed i toscani: mentre per i
primi la percentuale media di abbandoni è circa del 37%, per i residenti a Firenze o in
una qualsiasi delle altre province toscane è leggermente superiore, attorno al 40.2%.
Per quanto riguarda l’influenza di eventuali “irregolarità” sperimentate nel
percorso scolastico sull’esito degli studi universitari, emerge una netta distinzione tra
il tasso di abbandono entro due anni degli studenti “regolari” e non: tra coloro che
hanno conseguito la maturità a più di 19 anni si osserva una percentuale media di abbandono superiore di quasi il 20% rispetto ai diplomati entro i 19 anni, e tale differenza è pressoché costante per tutte le coorti analizzate.
Un’ulteriore conferma all’ipotesi che iniziare l’Università ad un’età più avanzata rispetto a quella normalmente prevista possa costituire un ostacolo al proseguimento degli studi deriva infine dall’analisi del tempo medio di attesa tra il conseguimento del diploma e l’immatricolazione all’Università (cfr. Figura 4).
Osservando la Figura 4 risulta evidente che coloro che abbandonano il proprio CdL hanno atteso prima dell’immatricolazione un tempo medio maggiore di coloro che invece sono ancora iscritti dopo 2 anni. Tale fenomeno appare differenziato
a livello delle singole facoltà, come evidenziato in figura. I valori del Chi-quadro di
Pearson e dell’indice V di Cramer (cfr. Tabella 1) confermano il significativo livello
di associazione che lega l’esito degli studi dopo due anni sia con l’età al conseguimento del diploma di maturità che con il tempo di attesa prima dell’immatricolazione, reso discreto attraverso la suddivisione in 8 classi distinte.
8
L’abbandono degli studi universitari
Figura 4. Tempo medio di attesa prima dell’immatricolazione, per Facoltà e esito.
Scienze Politiche
SMFN
Scienze della Formazione
Medicina e Chirurgia
Lettere e Filosofia
Ingegneria
Giurisprudenza
Farmacia
Economia
Architettura
Agraria
0
0.5
abbandoni
3.
1
1.5
2
2.5
3
immatricolati
Gli abbandoni degli immatricolati nell’a.a. 2001/02
Le matricole del 2001/02 che alla fine del giugno 2003 rientravano nella categoria
degli abbandoni dopo il primo anno di Università erano 2908 su 10053, ovvero il
28.9% del totale degli iscritti; tale valore è inferiore sia al 32.3% della coorte
2000/01 che al 29.9% di quella immediatamente precedente.
Come si è avuto modo di osservare nel corso del primo paragrafo, maggiori
indicazioni dovrebbero derivare dall’analisi del fenomeno condotta a livello delle
Facoltà e, soprattutto, dei singoli corso di studi. I dati a livello di Facoltà sono riportati nella Figura 5.
A livello di Facoltà le quote più elevate di mancate iscrizioni al secondo anno
sono state registrate a Farmacia (39.1%) ed a SMFN (38.4%); seguono Agraria, Economia e Lettere e Filosofia, tutte attorno al 32% di abbandoni, mentre per Giurisprudenza, Scienze della Formazione, Scienze Politiche, Ingegneria ed i corsi Interfacoltà
tale valore scende a circa il 28%. Le quote più basse si osservano infine per Architettura e Medicina e Chirurgia, rispettivamente con il 22.7% ed il 22%.
Per quanto riguarda i dati relativi ai singoli Corsi di Laurea7 si vede che le
percentuali di abbandono più elevate appartengono a Facoltà di indirizzo prevalen7
Per i dati relativi ai singoli Corsi di Laurea si rimanda a Giusti C. (2004).
Modelli statistici per l’analisi della transizione università-lavoro
9
Figura 5. Abbandoni dopo un anno degli immatricolati nell’a.a. 2001/02, per Facoltà (%).
Interfacoltà
27.7
Scienze della Formazione
28.0
31.4
Economia
28.0
Scienze Politiche
38.4
SMFN
22.0
Medicina e Chirurgia
31.3
Lettere e Filosofia
27.3
Ingegneria
29.3
Giurisprudenza
39.1
Farmacia
22.7
Architettura
32.4
Agraria
0
10
20
30
40
50
temente scientifico, anche se diversi CdL appartengono alla Facoltà di Lettere. Si osserva inoltre che molti di questi corsi di studio sono tra quelli di nuova istituzione; si
può allora ipotizzare che tali corsi siano riusciti ad “attirare” un numero piuttosto
consistente di studenti, che però si sono successivamente resi conto di non essere veramente interessati a quei percorsi di studio. Infine, l’estrema variabilità riscontrata
tra Corsi di Laurea della stessa Facoltà porta a concludere che anche per la coorte
dell’a.a. 2001/02 emerge la necessità di analizzare il fenomeno degli abbandoni dopo
un anno proprio a tale livello di osservazione.
Anche per questi dati si è proceduto alla misura del grado di associazione tra
proporzione di studenti che hanno abbandonato gli studi nel primo anno di corso e i
principali caratteri individuali; i risultati dell’elaborazioni effettuate sono riportati
nella Tabella 2.
Relativamente al sesso degli studenti, si osserva un valore significativo per
l’associazione di tale variabile con l’esito degli studi sia tra il totale degli studenti
che tra i soli abbandoni8; il valore della V di Cramer evidenzia però, in entrambi i casi, un’intensità di legame piuttosto bassa, indicando quindi che l’esito degli studi dopo un solo anno non sembra eccessivamente associato al sesso degli studenti.
8
Relativamente agli immatricolati nell’a.a. 2001/02, a differenza dell’elaborazione illustrata nel paragrafo precedente, è risultato possibile condurre le analisi distinguendo quattro diverse tipologie di abbandono: il passaggio di Corso di Laurea, il trasferimento ad altro Ateneo, la rinuncia formale agli
studi e la mancata reiscrizione al secondo anno di corso, categoria quest’ultima dei cosiddetti “abbandoni impliciti”.
10
L’abbandono degli studi universitari
Tabella 2. Statistiche d’associazione: anno accademico 2001/02.
Caratteri: esito dopo 1 anno vs
Genere (Tutti gli studenti)
Genere (Solo abbandoni)
Facoltà (Tutti gli studenti)
Facoltà (Solo abbandoni)
Residenza (Tutti gli studenti)
Residenza (Solo abbandoni)
Maturità (Tutti gli studenti)
Maturità (Solo abbandoni)
Voto Maturità (Tutti gli studenti)
Voto Maturità (Solo abbandoni)
Maturità (Tutti gli studenti)
Maturità (Solo abbandoni)
Voto Maturità (Tutti gli studenti)
Voto Maturità (Solo abbandoni)
Regolarità studi preuniv.
(Tutti gli studenti)
Ritardo immatricolazione
(Tutti gli studenti)
Ritardo immatricolazione
(Solo abbandoni)
Statistica
Chi-quadro
V di Cramer
Chi-quadro
V di Cramer
Chi-quadro
V di Cramer
Chi-quadro
V di Cramer
Chi-quadro
V di Cramer
Chi-quadro
V di Cramer
Chi-quadro
V di Cramer
Chi-quadro
V di Cramer
Chi-quadro
V di Cramer
Chi-quadro
V di Cramer
Chi-quadro
V di Cramer
Chi-quadro
V di Cramer
Chi-quadro
V di Cramer
Chi-quadro
V di Cramer
Chi-quadro
V di Cramer
Chi-quadro
V di Cramer
Chi-quadro
V di Cramer
Valore
49.1868
0.0699
6.3306
0.0467
86.3551
0.0927
262.3537
0.1734
320.3917
0.0927
273.5687
0.1771
414.5744
0.1172
258.3219
0.1721
328.5039
0.0917
119.1988
0.1189
414.5744
0.1172
258.3219
0.1721
328.5039
0.0917
119.1988
0.1189
423.8752
0.2054
188.8819
0.1371
282.3551
0.1799
GdL
Prob
4
<.0001
3
<.0001
11
<.0001
33
<.0001
16
<.0001
12
<.0001
12
<.0001
9
<.0001
32
<.0001
24
<.0001
12
<.0001
9
<.0001
32
<.0001
24
<.0001
4
<.0001
7
<.0001
21
<.0001
La Facoltà d’immatricolazione dello studente mostra, attraverso il calcolo
delle statistiche di associazione, un legame leggermente più forte con l’esito degli
studi rispetto a quanto osservato relativamente al sesso, e ciò risulta vero, in particolare, andando a distinguere tra i diversi tipi di abbandono.
Modelli statistici per l’analisi della transizione università-lavoro
11
Passando all’esame delle altre possibili determinanti degli abbandoni, si rileva che la residenza, così come era emerso anche dall’analisi relativa alle coorti di
immatricolati dal 1980/81 al 2000/01, non sembra esercitare una particolare influenza sull’esito degli studi.
Il tipo di maturità conseguita e la relativa votazione, come si è già avuto modo di rilevare, mostrano invece un’influenza molto significativa sull’esito degli studi
dopo un anno: la percentuale di studenti che hanno conseguito la maturità liceale,
classica o scientifica, è particolarmente bassa (23.7%) tra gli abbandoni impliciti, ed
è inferiore alla media osservata per tutti gli immatricolati anche tra coloro che hanno
presentato domanda di rinuncia (34.5%).
Ancora più interessante risulta l’analisi del voto conseguito alla maturità: gli
studenti che hanno abbandonato il Corso di Laurea presentano una distribuzione della votazione al diploma spostata verso le classi più basse di voto; infatti, la percentuale registrata per gli abbandoni è sempre superiore a quella generale nelle classi da
60 a 75 centesimi, con una differenza massima nella classe di votazione più bassa,
60-62; mentre la quota di studenti presenti nelle classi da 75 a 100 centesimi è invece
sempre inferiore per gli abbandoni e, anche in questo caso, la differenza massima si
osserva per la classe di voto estrema, quella dei 100/100.
L’utilità di distinguere gli studenti secondo il tipo di abbandono è particolarmente evidente proprio nell’analisi del voto di conseguimento del diploma: il voto
medio ottenuto è infatti superiore alla media generale, calcolata su tutti gli immatricolati, sia per i trasferiti che per i passati ad altro Corso di Laurea; inferiore alla media è invece il dato relativo ai rinunciatari ed agli impliciti.
La forte associazione della regolarità della carriera preuniversitaria con l’esito
degli studi alla fine del primo anno è confermata anche dal valore della V di Cramer,
piuttosto elevato (cfr. Tabella 2) sia fra tutti gli studenti che tra i soli abbandoni.
Un ultimo interessante aspetto da considerare riguarda il tempo di attesa tra il
conseguimento del diploma e l’iscrizione all’Università. È resumibile, infatti, che gli
studenti che si immatricolano nello stesso anno in cui conseguono la maturità abbiano un maggiore interesse verso la loro carriera universitaria, non avendo probabilmente nemmeno provato a cercare lavoro o ad intraprendere un altro percorso formativo. I dati (cfr. Figura 6) sembrano confermare questa ipotesi, dal momento che il
tempo medio di attesa passa dallo 0.88 degli ancora attivi dopo un anno all’1.13 osservato in media tra coloro che abbandonano. Ancor più interessante è il dato relativo
alle diverse tipologie di abbandono: coloro che lasciano il Corso di Laurea di immatricolazione effettuando un passaggio hanno un’attesa media molto bassa, addirittura
inferiore a quella degli ancora attivi. Opposto è invece il discorso riguardante coloro
che sospendono semplicemente gli studi, mentre un risultato intermedio si osserva
infine per gli studenti che abbandonano in seguito ad un trasferimento o alla presentazione di una rinuncia formale agli studi.
12
L’abbandono degli studi universitari
Figura 6. Anni medi di attesa prima di immatricolarsi, per stato di carriera dopo un anno.
3
2.45
2.5
2
1.29
1.5
1
0.88
0.59
0.5
0.18
0
Attivo
Non iscritto
Passato di corso Rinunciatario
T rasferito
Occorre tuttavia ricordare che è necessario essere molto cauti nel trarre conclusioni, poiché in questa analisi si classificano gli studenti in base al loro stato di
carriera dopo un solo anno di corso; la distribuzione che ne deriva ha quindi caratteristiche del tutto peculiari, e differisce sicuramente da quella che sarà possibile calcolare non appena saranno disponibili i dati relativi agli anni accademici successivi.
4.
Il modello gerarchico a due livelli
Come anticipato nell’introduzione, per procedere ad una più soddisfacente individuazione delle possibili determinanti degli abbandoni universitari si è fatto ricorso ai
modelli di regressione multilivello9.
Nei due paragrafi precedenti è stato analizzato il fenomeno degli abbandoni
degli studi universitari nell’Ateneo fiorentino sia relativamente al periodo 1980-2000
che all’a.a. 2001/02, utilizzando prevalentemente tecniche statistiche di tipo descrittivo; tali tecniche non consentono di pervenire ad una misura dell’effetto netto delle
determinanti (fattori esplicativi) del fenomeno di interesse, che nel caso specifico è
rappresentato dalla probabilità individuale di abbandonare il corso di studi di prima
immatricolazione. Tale possibilità è invece offerta dai modelli di regressione e, in
particolare, dai modelli di regressione di tipo multilivello.
In proposito vale la pena ricordare che il ricorso ad un modello di regressione
multilivello è consigliabile ogni volta che le unità su cui si rileva il fenomeno oggetto
di studio (dette unità di primo livello) risultano naturalmente aggregate in gruppi dif9
Al riguardo si possono consultare, tra gli altri, i volumi di Goldstein H. (2003) e Snijders T., Bosker
R. (1999).
Modelli statistici per l’analisi della transizione università-lavoro
13
ferenti (unità di secondo livello), che a loro volta possono essere aggregate in unità di
terzo livello e così via. In tali casi è ragionevole ritenere che la variabilità del fenomeno dipenda non solo da variabili esplicative individuali (o di primo livello), ma altresì dal fatto che un certo individuo appartenga ad un determinato gruppo avente caratteristiche peculiari che lo contraddistinguono dagli altri gruppi; nel caso specifico
trattato, gli studenti (unità di primo livello) risultano naturalmente aggregati in Corsi
di Laurea (unità di secondo livello).
La finalità che s’intende perseguire attraverso il ricorso ai modelli di regressione multilivello è, dunque, l’individuazione delle variabili maggiormente esplicative dell’abbandono degli studi misurando anche, nel contempo, l’incidenza del fenomeno stesso. I dati cui si farà riferimento sono quelli relativi agli immatricolati
dell’a.a. 2001/02, il che consente un approfondimento conoscitivo del fenomeno limitatamente agli abbandoni che si registrano ad un solo anno dall’immatricolazione.
La variabile risposta presa in considerazione è la situazione al 30/06/2003 degli
immatricolati dell’Ateneo fiorentino nell’a.a. 2001/02; le modalità che essa può assumere sono due: lo studente non si è reiscritto allo stesso corso di studi oppure lo studente
si è reiscritto allo stesso corso. Trattandosi di una variabile binaria, il modello prescelto
è stato il modello di tipo logistico a due livelli, preferito ad un modello di tipo probit per
la maggiore facilità di interpretazione dei risultati attraverso il calcolo degli odds10.
Per quanto riguarda le unità di primo livello, ovvero tutti gli studenti immatricolati per la prima volta all’Università di Firenze nell’a.a. 2001/02, si disponeva di
un totale di 10053 individui, ma per alcuni di questi studenti non si possedeva
l’informazione su due interessanti variabili di analisi, il titolo di studio di scuola superiore ed il relativo voto conseguito. Alla fine si è potuto disporre, quindi, di 9770
unità di primo livello, dal momento che gli individui con dati mancanti sono stati esclusi automaticamente dalla procedura.
Le unità di secondo livello sono i Corsi di Laurea attivati presso l’Ateneo fiorentino nell’a.a. 2001/02. Su un totale di 99 Corsi di Laurea sono state però considerate solo 83 unità, dal momento che alcune di esse possedevano un numero di studenti molto esiguo, addirittura inferiore a 10; si è allora deciso, per includere comunque
nell’analisi tali studenti, di aggregare tra loro alcuni dei Corsi di Laurea.
Coerentemente a quanto suggerito dalla teoria, i passi della procedura di stima impiegata sono stati:
• stima del modello nullo, al fine di verificare, attraverso la stima della varianza dei
residui di secondo livello, la ragionevolezza del ricorso ad un’analisi multilivello;
• stima del modello a intercetta casuale comprendente tutte le variabili di primo livello (comprese le interazioni) risultate significative11;
10
Gli odds sono dati dal rapporto tra la probabilità che uno studente abbandoni il corso di studi di
immatricolazione rispetto alla probabilità che lo stesso studente si reiscriva allo stesso corso.
11
Si segnala che, nel caso trattato, tutte le variabili inserite nel modello sono risultate significative.
14
L’abbandono degli studi universitari
• stima del modello a intercetta casuale finale12 (due livelli) costituito dalle sole
variabili di primo e secondo livello (comprese le interazioni) risultate significative.
Di seguito verranno riportati e commentati in forma estesa soltanto i risultati
relativi alla stima del modello a intercetta casuale finale, cioè del modello gerarchico
di regressione logistica a due livelli ad intercetta casuale:
y ij = logit ( Pij ) = γ 0 +
r
∑γ
h
X hij + U 0 j ,
U 0j ~ N(0, τ 02 )
h =1
La variabile risposta utilizzata è misurata al primo livello, il livello individuale, ed è dicotomica, ovvero
1 se lo studente i del CdL j abbandona
y ij = 
0 se non abbandona
mentre le variabili esplicative Xh sono sia di primo che di secondo livello (ovvero relative ai CdL) e sono sia continue che categoriche.
Pij indica la probabilità di abbandono dello studente i del CdL j, e quindi si ha:
yij | U 0j ~ Bernoulli ( Pij )
Gli U0j, che costituiscono l’elemento distintivo del modello gerarchico, rappresentano gli effetti casuali relativi alle unità di secondo livello. Tali entità, dunque, esprimono l’effetto residuo esercitato da ciascun CdL nei riguardi della variabile risposta, una volta controllato l’effetto delle covariate Xh. Relativamente a tali componenti
casuali si ipotizza una distribuzione normale, con media nulla e varianza costante τ 02 .
La procedura utilizzata per stimare il modello di regressione logistica a due
livelli è la PROC NLMIXED13 del software SAS-STAT.
12
Si puntualizza che sono stati testati anche modelli con coefficienti casuali; in questo caso però
l’algoritmo di massimizzazione della funzione di verosimiglianza non ha mai raggiunto la convergenza.
13
Tale procedura prevede la specificazione del predittore lineare, come funzione delle variabili esplicative, e della funzione link utilizzata. Quando la convergenza viene raggiunta con successo, l’output
di questa procedura fornisce la stima dei parametri, del loro errore standard e include inoltre, relativamente a ciascun singolo parametro, la verifica della sua significatività attraverso il test t di Wald.
Una migliore procedura di convergenza può essere assicurata dalla specificazione del valore iniziale
dei parametri da stimare, valori altrimenti posti uguali ad uno di default.
Per quanto riguarda la procedura di stima, è importante sottolineare che la PROC NLMIXED massimizza un’approssimazione numerica dell’esatta verosimiglianza marginale del modello non lineare,
attraverso il metodo di quadratura di Gauss-Hermite. Questo fa sì che la misura della Devianza fornita nell’output possa essere utilizzata per confrontare modelli diversi attraverso il test del Rapporto di
Verosimiglianza; bisogna rilevare, tuttavia, che la procedura non prevede la possibilità di calcolare tale tipo di test, che deve quindi essere calcolato “manualmente”. Una caratteristica interessante del metodo di quadratura utilizzato dalla PROC NLMIXED è che questo risolve l’integrale della verosimiglianza marginale utilizzando la cosiddetta versione adattiva del metodo di Gauss-Hermite. Tale versione fornisce un’approssimazione dell’integrale generalmente più accurata di quella che si otterrebbe
con la quadratura di Gauss-Hermite “standard” che utilizza il medesimo numero di punti di quadratura (SAS INSTITUTE INC., 1999).
Modelli statistici per l’analisi della transizione università-lavoro
15
4.1 Il modello stimato ed i risultati ottenuti
Come già segnalato, il primo passo della procedura ha previsto la stima di un modello di
regressione a due livelli senza variabili esplicative, ovvero del cosiddetto modello nullo:
logit (Pj ) = γ 0 + U 0 j
Attraverso tale modello è stato possibile valutare la significatività del parametro τ , che esprime la varianza dei residui di secondo livello U0j; si è provveduto infatti
a confrontare la Devianza (che corrisponde a meno due volte il logaritmo naturale della
verosimiglianza) del modello precedente con quella ottenuta per lo stesso modello ma
senza le componenti U0j, svolgendo il test del Rapporto di Verosimiglianza.
In particolare, con la stima del modello nullo si è ottenuta una Devianza pari a
11563; per il modello nullo di regressione logistica ad un solo livello si è ottenuta invece una Devianza pari a 11724: anche tale informazione è stata calcolata attraverso
la PROC NLMIXED, omettendo lo statement RANDOM relativo alle componenti
casuali di secondo livello. Il relativo test del Rapporto di Verosimiglianza è risultato
altamente significativo, indicando dunque che effettivamente il CdL di appartenenza
dello studente ha un effetto significativo nel determinare la probabilità di abbandono.
Una volta verificata l’effettiva esistenza di un’organizzazione dei dati su due
livelli di analisi, lo studio è proseguito con la stima del modello multilivello completo, ovvero contenente le variabili esplicative sia di primo che di secondo livello.
Relativamente alle variabili categoriche introdotte nel modello, si è reso necessario individuare per ciascuna di esse una modalità base o di riferimento nei confronti della quale valutare l’effetto di tutti gli altri livelli esistenti, come in una normale regressione logistica. Relativamente a tale aspetto si è scelto di considerare come modalità base di ciascuna covariata la caratteristica più diffusa nella popolazione
di studio, secondo i risultati ottenuti attraverso l’analisi descrittiva preliminare; l’individuo che possiede tutte queste caratteristiche verrà denominato individuo base14.
Le variabili esplicative prese in considerazione per la stima del modello completo sono state scelte sulla base delle analisi descrittive svolte, di cui molto sommariamente riferito nei paragrafi precedenti, e sulla base della conoscenza del fenomeno
che è basata anche su un’indagine telefonica rivolta agli immatricolati dell’a.a.
2001/02 che non risultavano iscritti allo stesso corso di studi al 30 giugno 200315.
2
0
14
Relativamente all’unica variabile continua disponibile, il voto di conseguimento del diploma di
scuola media superiore, si è scelto di calcolare per ciascuno studente lo scarto tra il voto da lui conseguito ed il valore medio calcolato all’interno del suo CdL. Si è scelto dunque di utilizzare l’approccio
group mean centering, che consente di considerare il cosiddetto “frog-pond effect” (Hox J.J., 2002).
In termini relativi all’istruzione, questa teoria si riferisce al fatto che uno studente dotato di media intelligenza può essere considerato molto intelligente se si trova in una classe in cui gli altri studenti sono molto scarsi, oppure poco intelligente se i suoi compagni sono tutti molto capaci.
15
Per comprendere i motivi all’origine della scelta di abbandonare dopo un solo anno il Corso di Laurea di immatricolazione da parte degli studenti iscrittisi nell’a.a. 2001/2002, nel luglio 2003 è stata ef-
16
L’abbandono degli studi universitari
In particolare, le caratteristiche individuali e le relative covariate di primo livello considerate nel modello sono state:
il genere: la variabile considerata (sesso) è dicotomica ed assume valore 0 se lo
studente è femmina, 1 se maschio;
il tipo di maturità: tale variabile è stata introdotta nel modello attraverso la creazione di tre dummy; avendo scelto come base la maturità di tipo liceale, le due
variabili presenti nel modello risultano essere quella relativa alla maturità tecnica o professionale (prof_tecnica) e alla maturità di altro tipo (altra_mat).
la residenza: anche in questo caso sono state create tre dummy, relative rispettivamente alla residenza a Firenze (variabile non presente nel modello), a Arezzo,
Pistoia o Prato (pendolari) e a qualsiasi altra residenza (altra_res).
regolarità degli studi preuniversitari: tale caratteristica è indicata dalla variabile dicotomica eta_mat, che assume valore 1 nel caso in cui lo studente abbia
conseguito la maturità ad età maggiore di 19 anni, 0 altrimenti;
ritardo nell’immatricolazione: anche in questo caso è una variabile dicotomica
(ritardo_imm) ad indicare la presenza dell’”irregolarità” di carriera, costituita da
un tempo di attesa tra il diploma e l’immatricolazione maggiore ad un anno;
regolarità carriera preuniversitaria: la variabile eta_per_ritardo esprime
l’interazione tra le due precedenti, ed è dunque una variabile dicotomica che assume valore 1 se eta_mat=1 e ritardo_imm=1, 0 altrimenti;
voto di maturità: per la variabile continua data dal voto riportato alla maturità
espresso in centesimi (voto_mat) si è effettuata la centratura rispetto alla media
del CdL cui appartiene lo studente.
Date tali variabili, si ha che l’individuo base, ovvero colui che possiede tutte
le modalità di riferimento scelte per le variabili di analisi:
− è femmina;
− possiede maturità liceale (scientifica o classica);
− risiede a Firenze;
− ha conseguito la maturità ad un’età minore o uguale a 19 anni (ovvero si può
supporre che non abbia mai sperimentato episodi di ripetenza);
− si è immatricolato all’Università nello stesso anno in cui ha conseguito il diploma di maturità;
− ha ottenuto un voto di maturità pari al voto medio del CdL in cui si è immatricolato.
Una delle caratteristiche più interessanti dei modelli multilivello è che gli
stessi permettono di considerare anche variabili esplicative relative al livello superiore di analisi. In questo modo si può cercare di ridurre la correlazione presente
fettuata un’apposita indagine telefonica, la prima realizzata nell’Ateneo fiorentino relativamente a tale
argomento. La speranza era quella di trarre indicazioni che potessero aiutare a comprendere meglio tale fenomeno e a capire quali politiche adottare, a livello di Ateneo ma soprattutto dei singoli Corsi di
Laurea. Una trattazione estesa dei risultati dell’indagine, che è stata di tipo censuario e che ha coinvolto 2715 studenti, si trova in Giusti C. (2004).
Modelli statistici per l’analisi della transizione università-lavoro
17
all’interno delle unità di secondo livello, tentando quindi di “spiegare” almeno in
parte la variabilità degli effetti casuali U0j. Il passo successivo dell’analisi è consistito dunque nel cercare di individuare variabili esplicative di secondo livello che risultassero esercitare un effetto significativo sul logit delle probabilità di abbandono.
Attraverso il test di Wald al livello di significatività del 5% si sono individuate due variabili esplicative significative misurate al livello dei CdL: la variabile dicotomica indicante la presenza del numero chiuso delle immatricolazioni, e la variabile
continua esprimente la percentuale di studenti con carriera preuniversitaria “irregolare” (maturità conseguita a più di 19 anni e/o attesa tra il diploma e l’immatricolazione pari ad almeno un anno).
Seguendo la medesima procedura utilizzata relativamente alle variabili di
primo livello, per la variabile indicante la presenza del numero chiuso si è scelto come modalità di riferimento l’assenza dello stesso, mentre per quanto riguarda l’altra
variabile di secondo livello, essendo questa continua, è stata centrata attorno alla media generale, calcolata fra i vari CdL.
Le variabili esplicative di secondo livello considerate sono state quindi:
numero chiuso: la variabile dicotomica num_chiuso assume valore pari ad 1 se
il CdL possiede limitazioni al numero di immatricolazioni, 0 altrimenti;
regolarità degli studi preuniversitari: la variabile continua esprimente la percentuale di studenti con irregolarità di carriera (eta_mat=1 e/o ritardo_imm=1)
iscritti al CdL è centrata rispetto alla media generale.
Introducendo le variabili esplicative di secondo livello la varianza degli U0j si
riduce, passando dal valore di 0.1869, ottenuto per il modello con le sole covariate di
primo livello, a τ 02 =0.1254 (cfr. Tabella 3). Di conseguenza si osserva anche una riTabella 3. Parametri stimati con il modello ad intercetta casuale “completo”.
Parametro fisso
intercetta
sesso
prof_tecnica
altra_mat
pendolari
altra_res
eta_mat
ritardo_imm
voto_mat
eta_per_ritardo
irreg_medio
num_chiuso
Parametro casuale
Stima
-1.6090
0.1114
0.5619
0.4265
-0.1724
0.1512
0.4389
0.4214
-0.0199
-0.3106
0.0058
-0.5749
Stima
Standard error
0.12000
0.05279
0.05482
0.06972
0.06275
0.05603
0.06426
0.08443
0.00209
0.11840
0.26580
0.17210
Standard error
p-value
<0.0001
0,0379
<0.0001
<0.0001
0,0074
0,0085
<0.0001
<0.0001
<0.0001
0.0104
0.0318
0.0013
p-value
Varianza τ 02
0.1254
0.03009
<0.0001
18
L’abbandono degli studi universitari
duzione della correlazione infragruppo, che risulta adesso pari a 0.037, contro lo
0.045 precedentemente ottenuto. Ancor più significativa risulta la riduzione della variabilità di secondo livello rispetto al modello nullo; il che induce a concludere che le
variabili relative ai CdL introdotte nel modello finale sono riuscite a spiegare il 33%
circa della variabilità degli U0j.
Per interpretare i risultati ottenuti per i parametri fissi, le stime sono state trasformate in probabilità di abbandono attraverso l’impiego della funzione logistica;
per esempio, la stima ottenuta per l’intercetta del modello implica una probabilità di
abbandono per l’individuo base iscritto ad un CdL base (ovvero senza numero chiuso
e con una percentuale di studenti con “irregolarità” di carriera uguale alla media generale) pari al 16.7%:
exp(−1.609)
)
π0 =
= 0.167
1 + exp(−1.609)
Utilizzando tale risultato è possibile interpretare le stime restanti andando a
vedere in che modo le varie caratteristiche modificano la probabilità di abbandono
dell’individuo base. I risultati delle trasformazioni sono riportati nella Tabella 4.
Si nota subito che essere maschio aumenta, seppur in modo limitato, la probabilità di abbandono: questo conferma quanto ottenuto in sede di analisi descrittiva,
Tabella 4. Interpretazione delle stime ottenute con il modello completo.
Parametro fisso
sesso
prof_tecnica
altra_mat
pendolari
altra_res
eta_mat
ritardo_imm
eta_per_ritardo
voto_mat
irreg_medio
num_chiuso
Probabilità di abbandono individuo base = 16,7%
Probabilità di Variazione %
Significato
Stima abbandono
rispetto al(%)
l’individuo base
maschio
0.1114
18,31
+9.63%
maturità professionale
26,02
+55.81%
0.5619
o tecnica
maturità di altro tipo
0.4265
23,5
+40.71%
Arezzo, Pistoia o Prato
-0.1724
14,44
-13.55%
altra residenza
0.1512
18,91
+13.24%
maturità conseguita
23,72
+42.05%
0.4389
ad età >19
immatricolazione almeno
23,41
+40.16%
0.4214
un anno dopo la maturità
interazione tra le due
12,81
-23.28%
-0.3106
variabili precedenti
maggiore di un’unità
16,42
-1.65%
-0.0199
rispetto alla media di CdL
maggiore dell’1% rispetto
16,78
+0.48%
0.0058
alla media generale
presente
-0.5749
10,13
-39.30%
Modelli statistici per l’analisi della transizione università-lavoro
19
dal momento che per le femmine si era individuata una quota di abbandoni alla fine
del primo anno di corso inferiore a quella dei maschi.
Per quanto riguarda il diploma di scuola superiore, possedere una maturità tecnica o professionale piuttosto che liceale aumenta in modo considerevole la probabilità di
abbandono; il valore ottenuto per l’effetto “maturità professionale o tecnica” è infatti il
più alto in valore assoluto tra quelli di livello individuale. Anche possedere un qualsiasi
altro tipo di diploma aumenta la probabilità di abbandonare, seppur in misura inferiore.
Risiedere nelle province di Arezzo, Pistoia o Prato, ovvero rientrare nella categoria dei cosiddetti “pendolari”, riduce la probabilità di abbandono, dal momento che
questa risulta inferiore rispetto a quella dell’individuo base, che risiede a Firenze.
L’effetto di una qualsiasi altra residenza agisce invece nel senso opposto, facendo cioè
aumentare la probabilità di interrompere gli studi nel CdL di prima immatricolazione.
Aver sperimentato una qualche irregolarità nella carriera scolastica preuniversitaria, fatto misurato in modo indiretto dall’età dello studente al conseguimento della maturità, ha un effetto negativo e piuttosto consistente sulla probabilità di abbandono. Tale effetto risulta poi del tutto simile ad un’altra possibile “irregolarità”, ovvero l’aver atteso un anno o più tra il superamento dell’esame di maturità e
l’immatricolazione all’Università. Il termine d’interazione di queste due ultime variabili indica poi che se uno studente ha sperimentato entrambi gli episodi di “irregolarità”, l’effetto negativo sulla sua probabilità di abbandono risulterà “mitigato” rispetto a quello che si avrebbe sommando semplicemente i due singoli effetti. Sempre
relativamente alle variabili misurate al livello individuale, si ha infine che
l’incremento di un’unità del voto di maturità rispetto alla media di CdL ha l’effetto di
ridurre la probabilità di abbandono individuale.
Per quanto riguarda le variabili di secondo livello, si osserva che la presenza
del numero chiuso comporta una variazione positiva assai consistente della probabilità
di abbandono individuale: in termini percentuali, infatti, questa variabile risulta esercitare l’effetto maggiore tra quelli stimati. Si può quindi affermare che, a parità di tutti
gli altri fattori, dover superare una prova di accesso per potersi immatricolare ad un dato CdL si tradurrà presumibilmente in una maggiore motivazione ed interesse a portare
aventi il percorso di studi intrapreso. Infine, un aumento dell’1% rispetto alla media
generale della percentuale di studenti del CdL che hanno sperimentato almeno una delle due “irregolarità” di carriera più volte citate avrà l’effetto di aumentare, seppur lievemente, le probabilità di abbandono individuali degli studenti di quel CdL.
Ovviamente non bisogna dimenticare l’effetto esercitato sulle probabilità di
abbandono dalle componenti casuali di secondo livello U0j. Le stime di tali residui,
dette stime di Bayes, possono essere impiegate, inoltre, sia per valutare il particolare
effetto esercitato da ciascuno dei CdL sulla probabilità di abbandono Pij, che per verificare l’ipotesi di normalità relativa alla distribuzione degli U0j stessi.
Se per esempio si indica con τ 0 la radice quadrata della varianza di secondo
livello, possiamo calcolare le variazioni di probabilità rispetto al valore base di 0.167
20
L’abbandono degli studi universitari
Tabella 5. Effetto dei parametri casuali
Ipotetico valore
Probabilità
dell’effetto casuale dell’individuo base ( % )
Variazione percentuale della
probabilità dell’individuo base
− 2τˆ0 = −0.708
− τˆ0 = −0.354
τˆ0 = 0.354
+ 2τˆ0 = 0.708
8,98
12,33
22,22
28,94
-46,2%
-26,15%
+33.07%
+73,27%
dovute ad alcune realizzazioni dell’effetto casuale U0j (cfr. Tabella 5). Risulta così
evidente che, a parità di caratteristiche sia di primo che di secondo livello, frequentare un CdL piuttosto che un altro può modificare notevolmente la probabilità di abbandono individuale.
L’impiego più interessante delle stime di Bayes consiste però nell’utilizzare
tali valori per confrontare tra loro i vari CdL, dal momento che il residuo U0j rappresenterà l’effetto esercitato sulle probabilità di abbandono individuali dal j-esimo
CdL, una volta controllato per l’effetto di tutte variabili esplicative.
Il corso nei confronti del quale si è ottenuta la stima di Bayes più elevata è
quello in Scienze Biologiche, seguito da Informatica, CdL che si distinguono quindi
per l’effetto particolarmente negativo che esercitano nei confronti dell’abbandono. È
interessante notare, inoltre, che se non si tiene conto delle covariate di secondo livello, facendo sì che la variabilità degli U0j non sia “controllata” in nessun modo, risultano esercitare un effetto significativamente positivo nel ridurre la probabilità di abbandono, contrariamente a quanto succede con il modello completo, i CdL in Medicina e Chirurgia, Odontoiatria, Progettazione della Moda e Architettura. Questi sono
quattro dei sette CdL per i quali è presente una qualche forma di numero chiuso: evidentemente, quindi, nel modello nullo questi CdL godono del fatto che le limitazioni
all’accesso contribuiscono a ridurre la probabilità di abbandono, mentre controllando
l’effetto di tale variabile (modello completo), gli U0j corrispondenti ne risultano “penalizzati” ed il loro valore aumenta.
5.
Conclusioni
Nella prima parte del presente lavoro si è proceduto all’analisi descrittiva, accompagnata dal calcolo di alcune statistiche di associazione, relativamente alle principali
caratteristiche individuali degli immatricolati presso l’Ateneo fiorentino tra l’a.a.
1980/81 ed il 2001/02, rivolgendo particolare attenzione al fenomeno degli abbandoni. Tali analisi sono risultate strumentali ad una prima comprensione del fenomeno
stesso ed alla successiva stima del modello multilivello.
Modelli statistici per l’analisi della transizione università-lavoro
21
Il modello gerarchico a due livelli ad intercetta casuale presentato ha consentito la valutazione del fenomeno dell’abbandono universitario secondo una nuova
prospettiva di analisi. È risultato possibile, infatti, valutare l’effetto netto esercitato
sulla probabilità di abbandono individuale degli studenti non solo dalle loro caratteristiche personali, ma anche da alcune variabili misurate a livello dei Corsi di Laurea
dell’Ateneo.
La PROC NLMIXED del software SAS ha inoltre consentito la stima delle
componenti casuali di secondo livello, permettendo di ottenere una sorta di “graduatoria” di efficacia relativa dei vari CdL nei confronti del fenomeno analizzato. Un risultato di questo tipo dovrebbe aiutare gli organi di governo di Ateneo a capire in
quale direzione concentrare maggiore attenzione e risorse per ridurre il fenomeno
dell’abbandono.
I risultati delle analisi svolte, molto sommariamente richiamati in questa nota,
giustificano ampiamente, a nostro parere, il ricorso ai modelli multilivello quando si
procede all’analisi di dati che riguardano gli studenti universitari16; infatti, è del tutto
evidente la natura gerarchica dei dati: le unità di primo livello sono gli studenti o i
laureati/diplomati, mentre le unità di secondo livello sono i corsi di studio. Ovviamente la gerarchizzazione può essere estesa ad un numero di livelli più elevato: ad
esempio le Facoltà possono rappresentare il terzo livello e gli Atenei il quarto livello.
Riferimenti bibliografici
ASSOCIAZIONE TREELLLE (2003) Università italiana, università europea? Dati,
proposte e questioni aperte, Quaderno n.3, Genova.
BULGARELLI, G. (2002) Esito degli studi degli immatricolati dell’Ateneo Fiorentino dal 1980/81 al 1997/98, Università degli Studi di Firenze, consultabile anche sul sito www.unifi.it/aut_dida/indexval.html.
CHIANDOTTO B. (2002) Valutazione dei processi formativi: cosa, come e perché,
in Valutazione della Didattica e dei Servizi nel Sistema Università. Atti della
giornata di Studio, Fisciano, 31 maggio 2002. CUSL, Salerno 2002.
16
In tale direzione si sta movendo da tempo il gruppo VALMON (Valutazione e Monitoraggio). Il
gruppo, coordinato da B. Chiandotto e costituito da laureandi, dottorandi e docenti del Dipartimento di
Statistica dell’Università degli Studi di Firenze, da diversi anni svolge attività di studio e ricerca nel
contesto della valutazione e del monitoraggio dei processi formativi che si svolgono nell’Ateneo fiorentino. Tale interesse è testimoniato, tra l’altro, da altri due lavori presentati in questa sede: “Un modello multilivello per l’analisi della condizione occupazionale dei laureati” (Chiandotto B. e Bacci
S.); “Un modello multilivello per l’analisi della durata degli studi universitari” (Chiandotto B. e Varriale R.).
22
L’abbandono degli studi universitari
GIUSTI C. (2004) L’abbandono degli studi nell’Ateneo fiorentino: evoluzione nel periodo 1980 - 2000 e applicazione di un modello gerarchico non lineare agli
immatricolati nell’a.a. 2001/02. Tesi di laurea, Università degli Studi di Firenze.
GOLDSTEIN H. (2003) Multilevel Statistical Models, Edward Arnold, London.
HOX J.J. (2002) Multilevel Analysis: Techniques and Applications, LAWRENCE
ERLBAUM ASSOCIATES, Mahwah (New Jersey), London.
ISTAT (2003) Università e lavoro 2003, consultabile sul sito internet
http://www.istat.it/Societ-/Istruzione (al 06/11/2003).
MURST (1998) L’evoluzione della domanda di formazione universitaria: studenti,
laureati e studenti equivalenti, consultabile sul sito internet:
http://www.murst.it/valutazionecomitato/attivnuc.htm (al 11/12/2003).
OCSE (2002) Education at a Glance – OECD Indicators 2002, consultabile sul sito
internet: http://www.oecd.org/ (al 03/11/2003)
SAS INSTITUTE INC. (1999) SAS/STAT® User’s Guide, Version 8, SAS Institute
Inc., Cary NC.
SNIJDERS T., BOSKER R. (1999) An Introduction to Basic and Advanced Multilevel Modeling, Sage, London.
University student drop-out
Summary. This work deals with the first year college drop-out rate, that represents
one of the most critical aspects of the Italian university system. To find out some possible causes, a descriptive analysis is carried out in the first part, concerning the
University of Florence’s freshmen of the period 1980-2000. This paper considers as
a drop-out not only the actual conclusion of the studies or the move to another University, but also the switch to a different degree programme within the University of
Florence. In the second part, to estimate each individual and institutional factors’ effect on dropping-out, a logistic two-level random intercept model is fitted to administrative data concerning the academic year 2001/02 freshmen. The use of a multilevel
analysis is suggested by the two-level data structure: the first level units are the students; the second level units are their original degree courses.
Keywords: Drop-out rate, Cohort analysis, Multilevel models, Multilevel logistic regression.
Le opinioni degli studenti sulla didattica in università:
sono attendibili le differenze
nei risultati aggregati di Facoltà?
Andrea Scagni
Dipartimento di Statistica e Matematica applicata alle scienze umane
Università degli Studi di Torino
Riassunto: Negli ultimi anni l'attività di indagine sulle opinioni degli studenti sulla
didattica nell'Università italiana si è andata profondamente trasformando, sia in relazione alle metodologie adottate che alle finalità implicite nel lavoro. Scopo dell'intervento è analizzare alcuni dei problemi di interpretazione e valenza dei dati raccolti, con riferimento al lavoro del Nucleo di Valutazione dell'Università di Torino. In
particolare l'attenzione è mirata alle cause e i significati delle differenze tra i risultati
aggregati delle facoltà di ambito disciplinare umanistico e scientifico.
L'analisi acquista grande importanza quando la crescente diffusione e standardizzazione dei metodi di indagine diviene incentivo ad un utilizzo dei risultati a fini di valutazione di intere strutture come le Facoltà o i Corsi di Laurea.
Il lavoro mostra, anche in base ad un'analisi delle componenti di devianza sui principali parametri di valutazione, le diverse chiavi di lettura di tali differenze. Si evidenzia la necessità di compendiare più elementi e approfondire la valutazione per comprenderne pienamente il significato.
Parole chiave: Qualità della didattica; Università; Indici di dispersione
1.
Introduzione
Negli ultimi anni l'attività di indagine sulle opinioni degli studenti sulla didattica nell'Università italiana si è andata profondamente trasformando, sia in relazione alle metodologie adottate che alle finalità implicite nel lavoro. L'adozione di un questionario
base comune ai diversi atenei, come quello del Doc. 9/02 del Comitato Nazionale per
la Valutazione del Sistema Universitario (già oggi utilizzato da più del 40% degli Atenei italiani), è il presupposto di un processo che amplia la valenza di tali indagini,
trasformandole potenzialmente in un ulteriore strumento di benchmarking quantitativo di cui, tuttavia, devono ancora essere valutate con attenzione e cautela l’attendibilità e la rilevanza.
24
Le opinioni degli studenti sulla didattica in università:sono attendibili le differenze ...
Un approccio che le interpreta come un esercizio di analisi della customer satisfaction dello studente/cliente va infatti incontro a numerose e valide obiezioni, legate tra l'altro a:
• la molteplicità di soggetti individuali e collettivi che fruiscono dei “prodotti” del
sistema universitario;
• il ruolo dello studente non fruitore passivo di un servizio ma partecipante attivo al
processo formativo;
• l'accentuata eterogeneità della aspettative individuali dei laureandi (l'interesse per
un “lasciapassare” per svolgere una certa professione; l'aspirazione ad una crescita
personale e culturale; l'attrazione per il mondo della ricerca e della scienza; il consolidamento di posizioni lavorative già acquisite; ecc.) e le inevitabili ricadute sul
modo di valutare la didattica.
A tali elementi strutturali di complessità si aggiungono diversi problemi organizzativi e metodologici relativi alla conduzione dell'indagine, tra cui:
• la natura microsistemica dei dati e la valenza di loro analisi aggregate;
• il problema della copertura potenziale e reale;
• la rilevanza degli aspetti organizzativi e dell'efficienza dei sistemi informativi dell'Ateneo;
• le cause e i significati delle differenze tra i risultati aggregati delle facoltà di ambito disciplinare umanistico e scientifico;
• l'opportunità e le prospettive di diversificazione e verifica incrociata dei risultati
mediante attività di valutazione di tipo diverso.
Da un approccio consapevole e condiviso a tali temi dipende in modo cruciale
il corretto avvio della riflessione sull’utilizzo esplicito dei risultati delle rilevazioni
da parte degli Atenei, ed ancor più del Ministero. Tale aspetto, già delicato in sé,
specialmente nel contesto dell'Università italiana, dove la capacità docimologica ha
tradizionalmente un ruolo marginale, presuppone infatti un riconoscimento chiaro del
significato dei dati raccolti, prima di tutto in termini di validità statistica e capacità di
rappresentare il fenomeno di interesse senza marcate distorsioni.
È d'altronde evidente che, sia per giustificare l'investimento di risorse necessario per le indagini, sia per evitare che esse si riducano, agli occhi di studenti e docenti, ad un mero adempimento amministrativo, risulta ormai urgente definire e rendere trasparenti procedure di follow-up coerenti e credibili.
Scopo di questo intervento è in particolare analizzare alcuni aspetti di interpretazione e valenza delle differenze riscontrabili nei risultati aggregati per facoltà,
anche in riferimento ai risultati della prima Indagine coordinata a livello di Ateneo
condotta dal N.d.V. dell'Ateneo dell'Università di Torino per l'a.a. 2002-2003. A tale
fine vengono proposte e discusse alcune tecniche di lettura dei dati basate sulla
scomposizione della dispersione relativa ai principali parametri di giudizio della qualità didattica.
Modelli statistici per l’analisi della transizione Università-lavoro
2.
25
La popolazione e la copertura: definizione e controllo
Una delle considerazioni critiche più comuni e rilevanti che vengono mosse all'indagine, in particolare alla luce dei risultati che ne derivano, è legata all'effettiva copertura della popolazione: gli studenti coinvolti dall'indagine non sono tutti quelli che
dovrebbero parteciparvi, in alcuni casi in modo macroscopico, e in particolare tale
discrepanza si potrebbe manifestare in modo diverso tra le facoltà, inficiando specificamente la possibilità di confronto tra risultati distorti in modo diseguale.
La definizione stessa della popolazione oggetto di indagine è, come già accennato, problematica: l'insieme degli studenti frequentanti è generalmente diverso
in ogni lezione; nella maggior parte dei casi, esso presenta dimensioni decrescenti
con l'avvicinarsi della fine dei corsi; infine è influenzato anche da elementi transienti
(concomitanza con appelli d'esame di altre discipline, sovrapporsi temporale delle lezioni ad altre attività didattiche pratico-sperimentali, ecc.) il cui pieno controllo richiede un impegno logistico locale estremamente accurato.
Inoltre è altrettanto difficile identificare in modo attendibile la popolazione
potenziale per ciascun insegnamento, comprendere cioè quanti studenti dovrebbero
frequentarne il corso durante un certo anno accademico. Per tenere sotto controllo tale fattore sarebbe necessario disporre del numero di studenti che ogni a.a. inseriscono
nel proprio Piano degli Studi ciascun insegnamento; tuttavia, di norma, la codifica
amministrativa delle unità didattiche non coincide con quella proposta dalle facoltà
per le indagini sulle opinioni degli studenti, rendendo problematico l'abbinamento
delle informazioni.
In tale situazione, l'estrema eterogeneità nel frazionamento delle unità didattiche nelle Facoltà rende impossibili valutazioni comparative della copertura in termini
di rapporti tra questionari potenziali e effettivamente compilati.
La Figura 1 mostra, a titolo d'esempio, l'apparente copertura per ciascuna Facoltà dell'Ateneo torinese in termini di “unità didattiche” valutate mediamente da ciascuno studente iscritto. In tale computo ogni Facoltà ha definito in modo autonomo
l'identificazione delle unità elementari soggette a distinta valutazione. Così ad esempio
il valore pari a 6,4 di Medicina Veterinaria riflette la nota polverizzazione delle attività
didattiche presso tale facoltà, con “corsi integrati” spesso costituiti dall'accorpamento
di molti brevi moduli di 10-15 ore ciascuno. Anche l'analisi di dettaglio tra i Corsi di
Studio di una stessa facoltà evidenzia quasi sempre forte eterogeneità.
La Figura 1 evidenzia inoltre un'ulteriore particolarità dell'indagine torinese;
per meglio adattarsi alle differenti modalità di organizzazione della didattica, sono
previsti due metodi alternativi di rilevazione dei dati, recependo le istanze delle Facoltà che negli anni precedenti li avevano sperimentati con successo:
- per singolo corso (in scuro nella Figura 1): un questionario distinto viene compilato
dallo studente per ciascun insegnamento o corso integrato frequentato, identificato
come unità didattica da un unico momento di verifica del profitto (un esame unico
con un voto finale unico, anche se eventualmente condotto in sequenza da più colla-
26
Le opinioni degli studenti sulla didattica in università:sono attendibili le differenze ...
Figura 1. N. di corsi o moduli didattici valutati per iscritto, disaggregazione per le Facoltà
dell'Università di Torino, indagine ’02-03
Agraria
2,3
Economia
1,8
Farmacia
3,6
Giurisprudenza
1,0
Lettere filosofia
1,1
Lingue
1,2
Medicina
1,3
Veterinaria
6,4
Psicologia
1,9
Sc. formazione
Unità didattiche rilevate:
0,9
Scienze M.F.N.
per singolo corso
2,5
Scienze politiche
“in batteria”
1,2
0,0
1,0
2,0
3,0
4,0
5,0
6,0
7,0
boratori alla docenza). Il singolo questionario prevede comunque la possibilità di esprimere con identiche modalità un giudizio su più docenti, collaboratori, esercitatori
ecc. fino ad un massimo di quattro soggetti, mentre sugli aspetti più generali del corso il giudizio resta unico. I questionari "per singolo corso" ben si adattano ai contesti
in cui lo studente si organizza in modo prevalentemente autonomo l'attività di frequenza e studio.
- per tutti i moduli didattici di un semestre "in batteria" (in chiaro nella Figura 1):
adatto ai Corsi di Studio caratterizzati da una programmazione didattica rigidamente
strutturata, prevede un momento unificato di rilevazione, di durata maggiore, in cui lo
studente è chiamato a fornire indicazioni per tutti i moduli didattici frequentati durante
il semestre in esame. Il questionario (di aspetto diverso da quello della rilevazione per
singolo corso) contiene un certo numero di domande con possibilità di fornire risposte
"in batteria" distinte per ciascun modulo, mentre le domande più generali sono unificate. In tal modo è possibile limitare sia l'impegno richiesto allo studente per la compilazione che il disturbo all'attività didattica. Tuttavia, nelle Facoltà in cui la strutturazione
della didattica non è rigida e i corsi non sono frequentati da coorti omogenee di studenti, è quasi inevitabile la somministrazione separata corso per corso.
Da un punto di vista metodologico la rilevazione "in batteria" si caratterizza
inevitabilmente per il maggiore sforzo di memoria richiesto ai rispondenti, che devono nello stesso momento effettuare valutazioni su un notevole numero di fenomeni, alcuni dei quali riferiti a moduli didattici che potrebbero essersi addirittura già
Modelli statistici per l’analisi della transizione Università-lavoro
27
conclusi da qualche tempo. Per contro, il momento unitario di rilevazione permette al
rispondente di valutare anche in termini effettivamente comparativi le valutazioni
fornite, dato che le risposte sui vari moduli fisicamente affiancate sullo stesso questionario rendono immediato il confronto tra i giudizi espressi per i medesimi. Con la
tradizionale rilevazione per singolo corso il rispondente difficilmente può ricordare
nel dettaglio le valutazioni espresse giorni prima su altri insegnamenti e molto più
forte è quindi il rischio di incoerenza trasversale nei giudizi dovuta a fattori contingenti e momentanei.
La scelta tra tali alternative di rilevazione ha comunque anch'essa influenzato
il livello di frazionamento delle unità didattiche, generalmente più spinto presso le
facoltà dove si è adottato l'approccio “in batteria”.
In conclusione, pur ricordando come la norma di legge richieda ai N.d.V. la
raccolta di informazioni sul grado di soddisfazione per la didattica dei soli studenti
frequentanti, è opportuna un'analisi accurata dei fattori macro e micro che determinano la dimensione della quota di studenti frequentanti: estremizzando, è evidente
che un corso valutato in modo eccellente, ma solo da una ristretta quota degli studenti che ne sosterranno poi l'esame non rappresenta necessariamente un caso di successo, per lo meno in relazione ad un efficiente impiego delle risorse umane e strutturali.
Inoltre, come discusso nel successivo paragrafo, dietro a situazioni di questo genere
si possono nascondere problemi di distorsione anche rilevanti.
3.
La copertura e gli effetti distorsivi sui dati
Il problema generale di copertura è in realtà legato non solo alla rappresentatività dei
dati raccolti rispetto all'intera popolazione studentesca, ma anche al rischio di distorsione dei risultati che le mancate risposte possono indurre.
L'esigenza di rilevare l'opinione dello studente verso la fine dei corsi, in modo
che questa sia espressa in modo consapevole, influisce ulteriormente sulla copertura,
dato che nella maggior parte dei casi la classe presenta dimensioni decrescenti con
l'avvicinarsi della fine dei corsi. In tal modo, alla mancata rilevazione delle opinioni
di coloro che non hanno mai frequentato, si aggiunge quella di chi ha rinunciato alla
frequenza dopo una o più lezioni.
I motivi di tale processo di autoselezione sono vari, e possono essere classificati come segue in relazione ai problemi posti all'analisi dei dati:
a) casi mancanti casualmente (missing at random), relativi a studenti che hanno deciso di non frequentare per fattori del tutto estranei ai temi che l'indagine studia;
b) casi mancanti non casualmente, relativi a studenti che non frequentano per motivi
legati direttamente o indirettamente agli aspetti valutati nell'indagine.
Nel primo caso non si evidenziano effetti distorsivi sui risultati, ma solo una
minore rappresentatività della popolazione. Nel secondo caso, invece, vi sono mag-
28
Le opinioni degli studenti sulla didattica in università:sono attendibili le differenze ...
giori rischi di produrre un quadro non completamente attendibile della situazione. Il
fattore più evidente in questo senso è l'insoddisfazione e/o lo scarso interesse che le
prime lezioni possono avere suscitato nello studente, inducendolo a non frequentare
più, oppure a rarefare la propria presenza con elevata probabilità di essere assente al
momento della somministrazione del questionario1.
Altro fattore rilevante è anche la percezione di utilità (o addirittura necessità)
della frequenza in funzione del superamento dell'esame. Ad esempio, un corso ritenuto generalmente poco interessante può risultare molto frequentato fino alla fine
perché si ritiene sia comunque difficile superare l'esame con una preparazione sui soli testi. La combinazione di tali fattori può comportare una distorsione nei risultati
apparenti dell'indagine in termini comparativi; si pensi alla contrapposizione tra:
1. un corso di studi che prevede corsi di lezione quasi tutti ritenuti “necessari” per l'esame, e che quindi “costringe” alla frequenza fino alla fine anche gli studenti insoddisfatti dalla qualità dei corsi;
2. un corso di studi dove molti corsi di lezione risultano superabili anche con una
preparazione sui soli libri di testo, e in cui quindi frequentano quasi sempre solo
gli studenti che ritengono interessanti e utili in sé le lezioni.
Con ogni probabilità l'indagine produrrà risultati più soddisfacenti per il corso
di studi 2; tuttavia, se fosse possibile coinvolgere per tale c.d.s. tutti gli studenti che
hanno partecipato alle prime lezioni i risultati potrebbero diventare equivalenti o addirittura inferiori a quelli emersi per il c.d.s. 12.
In conclusione può essere elevato il rischio di correlazione tra le scelte di frequenza e il livello di soddisfazione sui diversi aspetti legati all'erogazione della didattica: dove la frequenza è minore, e quindi anche la copertura dell'indagine è modesta,
gli studenti partecipanti all'indagine saranno più facilmente quelli convinti delle qualità positive del docente e del suo corso.
4.
Il significato delle differenze tra risultati aggregati: l'esempio
del contrasto tra ambito umanistico e scientifico
L'effetto descritto nel paragrafo precedente potrebbe spiegare, in proporzione anche
rilevante, le valutazioni aggregate meno positive delle Facoltà di ambito scientifico
rispetto a quelle di ambito umanistico, emerse anche a Torino nell'indagine 2002-03.
Per quantificare in modo sintetico le valutazioni, è stata applicata una codifica
1
2
In alcuni casi il diffondersi di opinioni negative tra gli studenti può portare a rinunciare alla frequenza sin dall'inizio, rendendo mancanti non casualmente anche alcuni degli studenti che non hanno
frequentano del tutto il corso.
Si tratta di un'ipotesi di difficile verifica empirica, dato che gli studenti che hanno smesso di frequentare dopo poche lezioni (spesso una o due solamente) potrebbero non essere in grado di valutare
il corso in modo comparabile a chi l'ha frequentato interamente.
Modelli statistici per l’analisi della transizione Università-lavoro
29
numerica arbitraria, con interi da 1 a 4, alla scala di risposte prevista dal CNVSU3.
Con tale codifica "naturale" la media dei giudizi può essere espressa in funzione delle sole frequenze relative4. Infatti, denominata X la variabile discreta così
ottenuta, k = 4 il numero di modalità possibili, ni le frequenze assolute con cui ogni
modalità è stata osservata nella popolazione di interesse di dimensione N, e definite:
i
ni
fi
fj
;
Fi
N
j 1
si ha:
k
k
x
k
xi f i
i 1
i Fi Fi
1
i 1
i 1
k 1
k 1
k
i Fi
i 1
k
i Fi
iFi
i 1 Fi k Fk
i 1
i Fi
1
i 2
k 1
i 1
k −1
i 1 Fi
i 1
k − ∑ Fi
i =1
k 1
La Figura 2 mostra, in base a tali valori medi calcolati per due tra le principali
domande di valutazione, la collocazione delle Facoltà dell'Ateneo torinese.
Un altro elemento di interesse è il confronto tra le collocazioni delle facoltà in
termini di valori medi e quelle in termini di variabilità interna dei giudizi. Per valutare tale aspetto può essere utilizzato un indice di dispersione per caratteri qualitativi
ordinali, come quello di diversità (Leti, 1983, pp. 290-297):
k 1
D 2
F i 1 Fi .
i 1
In alternativa può essere utilizzato lo scarto quadratico medio della variabile
ottenuta dalla codifica sopra descritta. In tal caso, infatti, i due indici hanno un comportamento molto simile, presentando lo stesso campo di variazione da 0 a (k−1)/2
(asintoticamente per N dispari nel caso di D). Si ha, infatti:
k
2
i 1
3
4
k
xi x
2
fi
xi
2
2
fi x ;
i 1
Decisamente no = 1; Più no che sì =2; Più sì che no = 3; Decisamente sì = 4. L'utilizzo della scala di
risposta proposta dal CNVSU nell'indagine è derivato dalla scelta dell'Ateneo di aderire in modo
completo alle indicazioni del DOC 9/02, anche al fine di contribuire al processo di armonizzazione a
livello nazionale delle procedure relative alla rilevazione delle opinioni degli studenti. In tal senso
non è stata effettuata un'analisi specifica della validità della rappresentazione delle opinioni rilevate
mediante tale scala. In realtà, il gruppo di lavoro composto dal N.d.V. e dai delegati di tutte le facoltà
aveva deciso, poche settimane prima della pubblicazione del DOC 9/02, di utilizzare una scala decimale esplicitamente numerica per tutte le domande, in base a considerazioni di natura metodologica.
La scelta di usare la semplice trasformazione in ranghi delle modalità di risposta, invece di tentare
più complessi approcci di approssimazione di una quantificazione ottimale, è dovuta a diversi motivi: la semplicità delle elaborazioni seguenti che essa rende possibile; la coerenza con i risultati delle
elaborazioni di base che vengono prodotte in via immediata dalla società che effettua la lettura dei
dati a livello di singolo insegnamento, di corso di laurea e Facoltà; le finalità non di quantificazione
assoluta ma di comparazione relativa tra aggregati che rendono meno urgente disporre di una traduzione quantitativa intrinsecamente attendibile.
30
Le opinioni degli studenti sulla didattica in università:sono attendibili le differenze ...
Figura 2. Media dei giudizi - disaggregazione per le Facoltà dell'Università di Torino, indagine 02-03
3,5
Lettere
Argomenti sono interessanti - Media
3,4
Lingue
3,3
Sc. formazione
Giurisprudenza
Agraria
3,2
3,1
Scienze politiche
Psicologia
Economia
Veterinaria
Farmacia
Scienze M.F.N.
3,0
Medicina
2,9
2,6
2,7
2,8
2,9
3,0
3,1
3,2
3,3
Soddisfazione complessiva insegnamento - Media
Il massimo di σ2, nel caso presente, si ha quando
fi
1
;i 1, k
2
k
2
max
2
1
2
f i 0 ;i 2,3 , .... , k 1
k 1
2
2
k
2
2k 1
4
k 1
2
2
max
k 1
2
Nel caso in esame ha quindi un significato preciso il concetto di scarto quadratico medio relativo, ottenuto dividendo il valore di definizione per il suo massimo:
r
max
k 1
2
Inoltre, su una variabile X come quella utilizzata in questa sede, l'indice di diversità D e lo scarto quadratico medio, anch'esso esprimibile in funzione delle sole Fi:
Modelli statistici per l’analisi della transizione Università-lavoro
k 1
k
2
Fi
k
i 1
i 1
k 1
k
2
2
2 1 2
k 1
2i 1 F i
31
k
i Fi
k
Fi
i 1
2
Fi
i 1
k 1
2
i 1
i 1
k 1
k 1
k 1k
Fi 2k 1
Fi
Fi
i 1
i Fi
i 1
i 1
2k
1 2
k 1
Fi
k 1
i 1
k 1
Fi 2k 1
1 2
2
k 1
1
1 2
1
2
Fj
i 1
i 1 j i
pur restando funzioni distinte, presentano un comportamento simile su tutto il campo
di variazione. Le Figure in Appendice mostrano i valori di σ e D ottenuti in una simulazione casuale di 130 distribuzioni multinomiali, ordinate in base al valore di σ, e in
una sequenza di distribuzioni ad hoc con crescente dispersione con N = 50; in entrambi i casi l'indice D risulta leggermente più sensibile, con valori prima inferiori a σ vicino a 0 e successivamente superiori.
Un'altra similarità rilevante dei due indici è la possibilità di scomposizione tra
gruppi della dispersione, nel modo usuale per la varianza e come evidenziato da Grilli
e Rampichini (2004) per l'indice di diversità. Infatti, distinta la popolazione di interesse in h sottogruppi di dimensione Nj (j=1,2,....,h), e indicate con Fi|j le frequenze cumulate relative fino alla modalità i nel gruppo j, si ha:
h
D 2
j 1
h
2
j 1
Nj
N
k 1
Nj
N
k 1
k 1
Fi j 1 Fi j
F i j Fi j F i
i 1
i 1
k 1
Dj
i 1
Fi
j
Fi
2
i 1
Nell'espressione il primo addendo rappresenta una media ponderata degli indici di dispersione "locali" Dj, mentre il secondo può essere visto come una misura della
dissomiglianza media tra la distribuzione sui singoli gruppi e quella sulla popolazione
complessiva.
La Figura 3 presenta, in modo simile alla Figura 2, i valori di σr per le 12 facoltà torinesi rispetto ai giudizi di tutti gli studenti per le domande indicate. Il confronto
tra i due grafici mostra che i due gruppi di Facoltà (rispettivamente scientifiche e umanistiche) che si evidenziano nel primo caso (Figura 2) si trovano in posizione ribaltata
nel secondo. In altre parole, dove la valutazione media è più bassa vi è però maggiore
varietà di giudizio; dove la media è invece più elevata, le opinioni sono più concordi.
Ciò potrebbe essere dovuto proprio al fatto che nelle Facoltà dove la frequenza è più
32
Le opinioni degli studenti sulla didattica in università:sono attendibili le differenze ...
Figura 3. Variabilità dei giudizi - disaggregazione per le Facoltà dell'Università di Torino,
indagine ’02-03
Argomenti sono interessanti - σr
0,64
Medicina
0,62
Psicologia
0,60
Scienze M.F.N.
Veterinaria
0,58
Sc. politiche
0,56
0,54
Agraria
Economia
Giurisprudenza
0,52
0,50
Farmacia
Sc. formazione
Lingue
0,48
0,52
Lettere
0,54
0,56
0,58
0,60
0,62
0,64
Soddisfazione complessiva insegnamento -σr
generalizzata partecipano maggiormente all'indagine, valutando negativamente i corsi,
anche studenti che in altri contesti avrebbero rinunciato alla presenza in aula.
Naturalmente si tratta di una interpretazione tutt'altro che univoca; altri effetti
potrebbero avere un ruolo significativo. Ad esempio, un esame delle componenti di
dispersione distinte5, all'interno di singole Facoltà o loro raggruppamenti, tra variabilità del giudizio medio tra i diversi insegnamenti (inter-corso) e variabilità dei giudizi dei singoli studenti per uno stesso insegnamento (intra-corso) evidenzia, passando
dalle Facoltà umanistico-letterarie a quelle di ambito scientifico, un incremento molto più sensibile della variabilità inter-corso rispetto a quella intra-corso. In altri termini, presso le Facoltà scientifiche si evidenzia non tanto un'eterogeneità di giudizi
maggiore tra gli studenti che valutano uno stesso insegnamento, quanto una maggiore presenza di insegnamenti “critici” in cui la valutazione di tutti i frequentanti converge su giudizi vicini al limite inferiore della scala.
Le Tabelle 1 e 2 e la Figura 4 dettagliano tale contrasto con riferimento sia alla varianza che all'indice D di Leti. Le indicazioni fornite dalla scomposizione dei
due indici sono pressoché identiche: si registra solo l'inversione nell'ordine delle facoltà di Economia e Sc. Politiche, comunque contigue. In modo analogo ai valori assunti, anche le percentuali di dispersione tra i corsi sono leggermente più discriminate dall'indice D, per cui la percentuale di variabilità inter-corso più elevata (Medicina, 27,5) è più del doppio della percentuale minore (Economia, 13,4).
5
Riferite alla domanda sulla Soddisfazione complessiva per come è stato svolto l'insegnamento.
Modelli statistici per l’analisi della transizione Università-lavoro
33
Tabella 1. Variabilità totale, inter-corso e intra-corso dei giudizi di Soddisfazione complessiva sul corso per le Facoltà dell'Università di Torino, indagine 2002-03
σ2 totale σ2 inter-corso σ2 intra-corso % inter-corso % intra-corso
Medicina
0,925
0,346
0,579
37,4
62,6
Veterinaria
0,777
0,268
0,509
34,5
65,5
Farmacia
0,850
0,275
0,575
32,3
67,7
Scienze M.F.N.
0,866
0,269
0,597
31,1
68,9
Psicologia
0,874
0,267
0,607
30,6
69,4
Agraria
0,821
0,203
0,618
24,8
75,2
Lettere
0,658
0,162
0,496
24,6
75,4
Lingue
0,652
0,148
0,504
22,7
77,3
Sc. formazione
0,649
0,134
0,515
20,7
79,3
Giurisprudenza
0,669
0,131
0,538
19,6
80,4
Economia
0,689
0,135
0,554
19,5
80,5
Sc. politiche
0,701
0,132
0,570
18,8
81,2
Fac. Umanistiche
0,725
0,170
0,555
23,5
76,5
Fac. Scientifiche
0,856
0,277
0,579
32,4
67,6
Figura 4. Composizione % della variabilità totale tra inter-corso e intra-corso dei giudizi di
soddisfazione complessiva sul corso per le Facoltà dell'Università di Torino, indagine 200203 - Varianza e Indice di diversità D
0 10 20 30 40 50 60 70 80 90 100
D intracorso
Medicina
Medicina
Veterinaria
Veterinaria
Farmacia
Farmacia
Scienze M.F.N.
Scienze M.F.N.
Psicologia
Psicologia
Agraria
Agraria
Lettere
Lettere
Lingue
Lingue
Sc. formazione
Sc. formazione
Giurisprudenza
Giurisprudenza
Sc. politiche
Economia
Economia
100%
90%
80%
70%
60%
50%
30%
20%
0%
Sc. politiche
D intercorso
40%
Varianza intracorso
10%
Varianza intercorso
34
Le opinioni degli studenti sulla didattica in università:sono attendibili le differenze ...
Tabella 2. Indice di diversità D totale, inter-corso e intra-corso dei giudizi di Soddisfazione
complessiva sul corso per le Facoltà dell'Università di Torino, indagine 2002-03
D totale D inter-corso D intra-corso % inter-corso % intra-corso
Medicina
1,037
0,285
0,752
27,5
72,5
Veterinaria
0,925
0,228
0,697
24,6
75,4
Farmacia
0,986
0,229
0,757
23,3
76,7
Scienze M.F.N.
0,994
0,226
0,768
22,8
77,2
Psicologia
1,000
0,223
0,776
22,3
77,7
Agraria
0,945
0,184
0,761
19,5
80,5
Lettere
0,831
0,147
0,683
17,7
82,3
Lingue
0,828
0,134
0,694
16,2
83,8
Sc. formazione
0,827
0,122
0,705
14,8
85,2
Giurisprudenza
0,839
0,117
0,722
13,9
86,1
Sc. politiche
0,865
0,120
0,745
13,9
86,1
Economia
0,861
0,115
0,746
13,4
86,6
Un riscontro della suddetta ipotesi è ricavabile dal computo dell'incidenza degli insegnamenti che ottengono un giudizio medio inferiore a 2 (cioè più critico della
moderata insoddisfazione, e con modesta eterogeneità dei pareri dato lo schiacciamento verso il limite inferiore della scala), con un 5,5% in area scientifica e un 1,7%
in area umanistica.
D'altro canto la relazione tra ambito disciplinare e livello della varianza intracorso potrebbe essere in parte spuria: in generale tra i corsi con classi di maggiori
dimensioni essa tende ad assumere peso maggiore, e questo avviene sia in ambito
umanistico che scientifico: il suo peso percentuale passa dal 72% al 91% per l'umanistico e dal 67% all'89% per lo scientifico, distinguendo tra le classi con meno di 50
frequentanti e le restanti. Tuttavia, essendo la dimensione media delle classi maggiore in ambito umanistico (45 studenti contro 32), la differenza della varianza intracorso tra i due ambiti disciplinari potrebbe essere in buona parte il riflesso della
maggiore dimensione delle classi in ambito umanistico. A sua volta, questa appare
difficile da interpretare, essendo sicuramente influenzato dalla prevalenza di impiego
del questionario per singolo corso nelle facoltà umanistiche e del questionario “in
batteria” tra quelle scientifiche.
5.
Conclusioni
Come evidenziato nelle riflessioni precedenti, numerosi fattori di carattere logistico, metodologico, interpretativo e psicologico rendono incerta l'attendibilità dei
dati ottenuti dalle indagini sulle opinioni degli studenti sulla qualità della didattica in
termini aggregati per “tastare il polso” di un corso di studio o di una intera facoltà.
L'esperienza di prima applicazione del Doc. 9/02 del CNVSU ha fornito al riguardo
Modelli statistici per l’analisi della transizione Università-lavoro
35
significativi elementi di valutazione e ha contribuito ad incrementare la consapevolezza della complessità di tali fattori. In questo senso due sono le principali direzioni
in cui si ritiene sia opportuno muoversi:
• sperimentazione e verifica di metodologie di indagine esplicitamente rivolte alla
valutazione degli aspetti aggregati, anche al fine di confrontarne i risultati con
quelle delle attuali indagini sulla qualità della didattica, verificando empiricamente
le eventuali distorsioni che queste ultime comportano;
• impulso verso il rafforzamento e razionalizzazione dei sistemi informativi sull'offerta didattica, come base di dati univoca ed attendibile su cui basare il lavoro di
indagine in modo efficiente e consapevole.
E' comunque opportuno ricordare che i risultati descritti, come molti altri dati
ricavati dall'indagine, potrebbero essere più utilmente inquadrati in un contesto nazionale in cui il ruolo del CNVSU è preminente. Tuttavia ad oggi sono solo parzialmente noti gli indirizzi di lavoro e analisi che il CNVSU sta perseguendo o intende
concretizzare nel prossimo futuro al riguardo. Su questi aspetti è sicuramente auspicabile una maggiore trasparenza sull'attività del Comitato Nazionale, nonché una
maggiore diffusione da parte del Comitato di informazioni relative allo status del lavoro di valutazione della didattica per il complesso del sistema universitario italiano.
Riferimenti bibliografici
Comitato Nazionale Valutazione del Sistema Universitario (CNVSU) (2002), Proposta di un insieme minimo di domande per la valutazione della didattica da
parte degli studenti frequentanti, DOC 09/02, Rapporto finale del gruppo di
lavoro approvato dal Comitato nella seduta del 26 luglio 2002.
GRILLI L. e RAMPICHINI C. (2002) Scomposizione della dispersione per variabili
ordinali, Statistica, anno LXII, 1: 111-116.
VIOLANI C. (2001), Rilevazione delle opinioni degli studenti sulla didattica nell'Università di Roma “La Sapienza”, CAPTOR 2000: Qualità della didattica e sistemi computer-assisted, Cleup, Padova: 11-26.
36
Le opinioni degli studenti sulla didattica in università:sono attendibili le differenze ...
Appendice A - Valori di D e σ su 130 distribuzioni multinomiali a 4 modalità simulate
σ
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
1,10
1,20
1,30
1,40
1,50
indice di Leti
sqm
mediante estrazione casuale dei valori delle frequenze, ordinate in base a
Modelli statistici per l’analisi della transizione Università-lavoro
37
Appendice B - Valori di D e σ su 130 distribuzioni multinomiali a 4 modalità simulate mediante estrazione casuale dei valori delle frequenze
indice di diversità D
σ
1,50
1,25
1,00
0,75
0,50
0,25
0,00
xi
ni
1
50
49
47
44
41
38
35
32
29
26
23
20
14
15
16
17
18
19
20
21
22
23
24
25
2
0
1
2
3
4
5
6
7
8
9
10
11
11
10
9
8
7
6
5
4
3
2
1
0
3
0
0
1
2
3
4
5
6
7
8
9
10
11
10
9
8
7
6
5
4
3
2
1
0
4
0
0
0
1
2
3
4
5
6
7
8
9
14
15
16
17
18
19
20
21
22
23
24
25
D di Leti
0,0000
0,0392
0,1520
0,3632
0,5520
0,7184
0,8624
0,9840
1,0832
1,1600
1,2144
1,2464
1,3064
1,3400
1,3704
1,3976
1,4216
1,4424
1,4600
1,4744
1,4856
1,4936
1,4984
1,5000
s.q.m.
0,0000
0,1400
0,3370
0,6000
0,7600
0,8754
0,9625
1,0284
1,0770
1,1107
1,1307
1,1377
1,1705
1,2042
1,2369
1,2689
1,3000
1,3304
1,3601
1,3892
1,4177
1,4457
1,4731
1,5000
38
Le opinioni degli studenti sulla didattica in università:sono attendibili le differenze ...
Student's opinions of university teaching: are differences
among aggregate results reliable?
Summary: In recent years, student's opinion surveys on teaching quality in Italian
Universities have changed considerably in methods and scope. This paper considers
the validity and meaning of the data from such surveys, with reference to the work
conducted by the "Nucleo di valutazione" (Evaluation Committee) of Turin University. Two sets of problems are of particular interest:
• the individual context of the data vs. their relevance in aggregate analysis;
• causes and meanings of the differences between aggregate results for nature sciences Faculties and human sciences Faculties.
The first item has great relevance due to the diffusion and standardization of survey
techniques, which encourages the assessment of whole Faculties and Courses based
on the collected data.
Regarding the second item, some of the possible factors behind such differences are
assessed and compared, also considering appropriate dispersion decomposition
techniques. It is shown how many effects must be considered to really understand the
nature of this phenomenon.
Keywords. Teaching quality; University; Dispersion indexes
La valutazione dei percorsi formativi dei laureati
attraverso l’uso del modello multicriterio Electre III
Mario Enea, Ornella Giambalvo, Giovanni Morreale1
Università degli studi di Palermo
Riassunto. La valutazione intesa come strumento strategico che ha la finalità di innescare un sistema di azioni e retroazioni teso al miglioramento dell'efficienza ed efficacia di un processo, ha assunto, in questi ultimi anni, un ruolo cruciale nel monitoraggio e miglioramento della qualità dei servizi, anche in ambito universitario.
L’obiettivo del presente lavoro è quello di effettuare delle graduatorie dei corsi di
laurea in termini di efficacia sia dal punto di vista formativo sia occupazionale, ottenute attraverso l'applicazione di metodi multicriterio (MCDM: Multiple Criteria Decision Making), quali l'Electre (ELimination Et Choix Traduisant la REalitè). I dati
utilizzati sono tratti dall'indagine sugli sbocchi occupazionali dei laureati negli anni
1997-2001, svolta dall'Ateneo di Palermo, finanziato dal Centro di Orientamento e
Tutorato.
Parole chiave: Valutazione, Metodo multicriterio, Electre.
1.
Premessa
Uno degli aspetti più delicati dell’odierna realtà accademica, a partire dall’avvio
dell’autonomia finanziaria delle Università (Art.5, legge n.537, 24 dicembre 1993), è
sicuramente quello riguardante la gestione delle risorse. Per affrontare e risolvere i
problemi legati ad un’efficace ed efficiente gestione delle risorse risulta
indispensabile tener conto della molteplicità degli obiettivi che l’organizzazione si
prefigge di raggiungere; ciò rende necessario che l’ente preposto a tale gestione
disponga di adeguati strumenti di supporto alle decisioni, che consentano una
razionalizzazione dei processi decisionali.
A tal fine, i modelli analitici a supporto delle decisioni sviluppati negli ultimi
decenni, rappresentano oggi una solida base da cui attingere per favorire l’introduzione di nuove tecniche di valutazione. L’implementazione di tali modelli su software di facile utilizzo, rende fruibili gli stessi anche da parte di utenti che non hanno il
1
La nota è stata redatta da M. Enea (Facoltà di Ingegneria) per i paragrafi 1, 3, 3.1, 3.2; da O. Giambalvo (Facoltà di Economia) per i paragrafi 2, 3.3 e da G. Morreale (CINAP) per i paragrafi 4 e 5.
La valutazione dei percorsi formativi dei laureati...
40
tempo o le competenze analitiche necessarie per approfondire le basi teoriche su cui
si fondano.
Tenendo ben presente che la scelta dei modelli più appropriati, in funzione
delle caratteristiche tecniche e decisionali del problema considerato, condiziona la
validità dei risultati conseguibili, si è deciso di applicare i metodi multicriteri in ambito universitario perché convinti che in realtà sia possibile trovare delle similitudini
tra la realtà accademica e la realtà aziendale nella quale tali metodi sono stati sperimentati. Tali metodi potrebbero, ad esempio, essere di supporto nel momento in cui è
necessario stabilire quale Corso di Laurea ha bisogno di maggiori risorse per migliorare le sue performance, o per “premiare” quel Corso di Laurea che si è distinto per i
risultati conseguiti.
Il lavoro si sviluppa in 3 paragrafi, di cui: il primo introduce i dati utilizzati
per l’analisi; il secondo propone una panoramica sulla metodologia utilizzata, partendo in generale dai metodi multicriteri, fino ad arrivare ai modelli di surclassamento; nel terzo viene presentata un’applicazione di tale metodologia alla realtà accademica palermitana. Il lavoro si chiude con delle riflessioni conclusive, nelle quali si
mettono in evidenza pregi e difetti della metodologia proposta e vengono proposte
delle nuove linee di sviluppo.
2.
I dati
Negli ultimi anni l’Ateneo palermitano ha avviato una iniziativa destinata a creare e
gestire un database aggiornato dei suoi laureati, attraverso il quale è possibile conoscerne gli sbocchi occupazionali, il grado di soddisfazione rispetto al percorso formativo seguito ed altre notizie utili al fine di attuare migliori strategie di programmazione ed indirizzo all’interno della struttura universitaria.
Tale iniziativa nasce dalla riflessione che compito istituzionale di una struttura didattica come l’Università è “produrre” laureati, sì capaci e preparati, ma che, altresì, siano richiesti dal mercato del lavoro.
I dati utilizzati in questo lavoro sono tratti dall'indagine pilota sugli sbocchi
occupazionali dei laureati dell’Ateneo di Palermo, finanziata dal Centro di Orientamento e Tutorato, che ha coinvolto i 4617 laureati delle facoltà di Economia ed Ingegneria dal 1997 al 2001. Agli ex studenti si chiedono, tra le altre, informazioni sulle
competenze ed abilità acquisite, sulla rispondenza degli studi effettuati al lavoro effettivamente svolto, sulla soddisfazione per la preparazione acquisita durante gli studi. Questi dati rappresentano un riscontro di ciò che l’Ateneo è riuscito a trasmettere
del suo progetto culturale. Infatti, le conoscenze ottenute, le competenze professionali raggiunte, sono frutto sia dell’impegno personale del singolo laureato, sia dell’ef-
Modelli statistici per l’analisi della transizione Università-lavoro
41
ficacia del progetto formativo. Misurare tale efficacia non è facile, è un obiettivo che
può essere raggiunto solo con approssimazioni successive. La valutazione espressa
dal laureato sul percorso formativo seguito costituisce sicuramente un dato soggettivo, ma non per questo meno importante, anzi rappresenta proprio il dato dal quale
partire per le riflessioni successive. Tali riflessioni possono anche basarsi su altro tipo di riscontro, quale, ad esempio, il giudizio espresso dalle aziende che vedono
all’opera i laureati ed hanno quindi modo di valutare con occhio più critico
l’efficacia professionale della formazione ricevuta dal laureato.
L’indagine si è svolta mediante invio, per posta, di un questionario, disponibile anche via web, strutturato in quattro sezioni: la prima sezione, di carattere generale, rivolta a tutti i laureati e diplomati, riguarda giudizi relativi all'esperienza universitaria (ai laureati più anziani, che hanno già avuto la possibilità di un riscontro della
propria preparazione nell'impatto col mondo del lavoro, sono state somministrate
delle domande aggiuntive, più specifiche, relative agli insegnamenti ed alla preparazione complessiva ricevuta all'Università). I questionari si differenziano, quindi, a
seconda che siano rivolti ai laureati da 1 o 2 anni (2000 e 2001) o ai laureati da più di
due anni (1997-1999). La seconda sezione è rivolta soltanto a coloro ancora in cerca
di prima occupazione; mentre la terza e la quarta sezione sono rivolte agli occupati e
ai disoccupati. L’immagine che emerge dalla ricerca è abbastanza positiva, pur non
mancando critiche e suggerimenti di cambiamento in diverse direzioni.
Nel presente lavoro ci limiteremo a considerare soltanto i laureati, trascurando i diplomati i cui percorsi formativi si differenziano talvolta in maniera sostanziale
rispetto a quelli dei laureati, ed in particolare i Corsi di Laurea delle facoltà di Economia ed Ingegneria nei quali si è registrato un sufficiente numero di rispondenti
(maggiore o uguale a 10). I Corsi di laurea considerati sono stati così codificati:
a1: “Economia e commercio”
a7: “Ingegneria edile”
a2: “"Scienze statistiche ed economiche”
a8: “Ingegneria elettrica”
a3: “"Ingegneria aeronautica”
a9: “Ingegneria elettronica”
a4: “"Ingegneria ambiente e territorio”
a10: “Ingegneria gestionale”
a5: “"Ingegneria chimica”
a11: “Ingegneria informatica”
a6: “Ingegneria civile”
a12: “Ingegneria meccanica”
In Figura 1 vengono riportati due boxplot che rappresentano la distribuzione
dei laureati nei suddetti Corsi rispetto agli anni impiegati per conseguire la laurea
(fig. 1A) e al voto di laurea (fig. 1B), suddivisi per Corso di laurea. E’ possibile osservare una notevole differenza tra i Corsi di laurea delle due facoltà: i Corsi di laurea della facoltà di Economia (a1 e a2), presentano un voto medio di laurea notevolmente inferiore rispetto a quello dei Corsi di laurea di Ingegneria; per quanto riguarda il numero medio di anni impiegati per conseguire la laurea si nota una sostanziale
uniformità, ma anche in questo caso bisogna tener conto del fatto che i Corsi di Economia sono quadriennali mentre quelli di Ingegneria quinquennali.
42
La valutazione dei percorsi formativi dei laureati...
Figura 1. Distribuzione dei laureati per Corso di laurea e Voto di laurea e Anni
impiegati per conseguire la laurea
Nelle figure 2, 3 e 4 vengono riportate le distribuzioni delle variabili utilizzate per
l’applicazione del modello Electre, distinte per facoltà2.
2
Per un approfondimento sui risultati delle analisi svolte si consulti: il rapporto: “Indagine sul profilo
e gli sbocchi occupazionali dei laureati dell'Ateneo di Palermo dal 1997 al 2001”, curato da Mario Enea, Ornella Giambalvo e Giovanni Morreale, in fase di pubblicazione; il sito del CINAP (Centro Informativo dell’Ateneo di Palermo), www.sif.unipa.it e (Enea, Giambalvo, 2002).
Modelli statistici per l’analisi della transizione Università-lavoro
43
Figura 2. Distribuzione dei laureati per facoltà e Voto di laurea, Anni impiegati per conseguire la laurea e condizione occupazionale
44
La valutazione dei percorsi formativi dei laureati...
Figura 3. Distribuzione dei laureati per facoltà e rispettivamente soddisfazione per
il percorso di studi, il lavoro svolto e l’utilità del percorso formativo
Modelli statistici per l’analisi della transizione Università-lavoro
45
Figura 4. Distribuzione dei laureati per facoltà e categoria di reddito annuo netto
percepito
3.
L’analisi multicriteri
La complessità della realtà circostante rende sempre più difficile il lavoro del policy
maker, il quale sente la necessità di individuare delle metodologie valutative che gli
siano di supporto nell’attività di selezione di progetti e di scelta delle strategie.
Molti approcci alla valutazione di progetti e strategie, in sostanza, fanno riferimento alla nota teoria dell’utilità che presuppone l’esistenza di una funzione di utilità univoca. Tuttavia, ricondurre il problema multiobiettivo alla massimizzazione di
una funzione di utilità pone problemi al decisore per quanto riguarda la normalizzazione dei fattori considerati e la scelta dei pesi che dovrebbero esprimere
l’importanza di ciascun criterio; inoltre, tale approccio mira all’individuazione della
“soluzione ottima”, non sempre ottenibile e, comunque, non sempre significativa.
Altra tipologia di approccio al problema si basa sull’impiego del metodo AHP
(Analytic Hierarchy Process) per la selezione delle alternative. Tuttavia, anche
l’AHP è un metodo compensativo e quindi può condurre a considerare migliore una
soluzione che lo è per tutti gli attributi, tranne per uno rispetto al quale è talmente
scadente da dovere invece essere considerata inaccettabile.
Di recente Yang. T. ed altri (2003) hanno proposto di impiegare AHP per la
valutazione dei criteri qualitativi accoppiato al metodo DEA (Data Envelopment Analysis) per la selezione delle soluzioni migliori tra quelle generate.
Nel presente lavoro è proposto l’impiego della tecnica Electre III (Roy B.
1978); tale approccio consente di tenere conto dell’imprecisione e dell’incertezza con
46
La valutazione dei percorsi formativi dei laureati...
la quale sono spesso valutati gli attributi e nello stesso tempo di evitare che una soluzione inaccettabile per un solo requisito possa prevalere su un’altra; ciò è ottenuto
attraverso l’uso di soglie di veto nel confronto tra due soluzioni per ciascun criterio
di valutazione considerato.
E’ all’inizio degli anni ’60, nell’ambito della ricerca operativa, che viene espressa, per la prima volta, la necessità di prendere in considerazione una molteplicità di criteri, anche conflittuali, per definire un problema e provare a fornire una soluzione. Questa soluzione non ha più le caratteristiche di “ottimo” della programmazione matematica; anche se è ancora una soluzione ammissibile del problema in esame, poiché rispetta tutti i vincoli che ne modellizzano la struttura, non è però
l’ottimo perché, avendo sostituito ad un singolo obiettivo da ottimizzare una pluralità
di obiettivi anche conflittuali, non esistono più le condizioni logico-matematiche per
garantire l’esistenza di una soluzione ottima. E’ stato, pertanto, introdotto il concetto
di dominanza della soluzione, per cui, date due alternative Ai e Ak, diremo che Ai
non è dominata da Ak se e solo se per ogni attributo il suo valore per Ai non è minore
del valore dello stesso attributo per Ak.
Si può dire che, in generale, non esiste una decisione possibile (una soluzione
del problema o comunque un’azione che possa essere intrapresa) che sia contemporaneamente la migliore da tutti i punti di vista ritenuti significativi per trattare il problema decisionale nella sua globalità.
Come specifico ambito disciplinare, l’analisi multicriteri si sviluppa soprattutto a partire dagli anni ’80, trovando applicazione in contesti di decisione sia individuali che collettivi. E’, quindi, una tecnica estremamente giovane, la quale deriva
essenzialmente da problematiche reali di varia natura e che si estrinseca in un insieme di metodologie diversificate e non ancora omogeneizzate in una comune base teorica. La ricerca più recente sta colmando il divario tra empirismo e sistematizzazione teorica nell’ambito di tale tipo di analisi.
Il paradigma dell’ottimizzazione è stato ormai abbandonato in molti ambienti
della ricerca teorica e viene spesso criticato nella recente letteratura; una di queste
critiche è stata mossa, ad esempio, da Herbert Simon (premio Nobel per l’economia
nel 1978), secondo il quale non è l’alternativa “migliore” che deve essere raggiunta
(anche perché potrebbe essere oggettivamente impossibile raggiungerla), ma devono
invece essere identificate alternative che “soddisfano” un certo numero di requisiti
esplicitamente definiti (approccio della scelta soddisfacente) (Simon H.A. (1997)).
Più di recente, è emerso un altro tipo di approccio, secondo il quale le soluzioni scelte devono essere “giustificate”. Tale approccio assume una particolare rilevanza nell’analisi multicriteri; infatti, le decisioni finali dipendono comunque dalle
condizioni iniziali poste dallo stesso decisore; è quindi importante che tali decisioni
possano essere definite e giustificate.
Modelli statistici per l’analisi della transizione Università-lavoro
47
3.1 Approccio al metodo multicriteri
Nell’analisi multicriteri la procedura decisionale sfocia, normalmente, nella scelta tra
diversi elementi che il decisore si trova ad esaminare e a valutare rispetto ad una serie di criteri. Tali elementi vengono detti azioni o alternative e costituiscono
l’insieme A delle azioni tra le quali il decisore si trova a dover operare una scelta. La
definizione di A non solo dipende dallo specifico problema che deve essere risolto e
dai soggetti coinvolti nella procedura di decisione, ma interagisce fortemente anche
con la modellizzazione delle preferenze, la definizione dei criteri, l’enunciazione del
problema e, infine, con la scelta dei metodi di aiuto alla decisione che vengono applicati.
Su ciascuna delle azioni vengono misurati degli attributi. Un attributo può
fornire direttamente indicazioni sul livello di un criterio (ad esempio, l’attributo “il
profitto netto” in euro rispetto al criterio “massimizzare il profitto”), ma in altri casi
un criterio può non avere un attributo direttamente corrispondente (ad esempio, il criterio “migliorare la qualità di un sistema di trasporto pubblico urbano”). Può esistere
in questi casi un attributo (o un insieme di attributi), detto Proxy Attribute o driver,
che, indirettamente, fornisce indicazioni su tale criterio (ad esempio, attributi quali il
“rapporto tra il tempo medio di percorrenza e la lunghezza del tragitto”).
Nell’analisi multicriteri entrano in gioco i seguenti componenti basilari: Criteri e relativi attributi; Decisore/i ed eventuali supporti per l’elaborazione
dell’informazione; Regola decisionale (decision rule), ovvero quella regola usata per
ordinare le alternative secondo le informazioni acquisite e le preferenze del decisore.
L’approccio generale ad un problema decisionale consiste nell’utilizzare le
informazioni note insieme ai giudizi espressi dal decisore per determinare una decisione di compromesso, ovvero aiutare il decisore a selezionare quella alternativa
maggiormente coerente con la sua struttura di preferenza.
3.2 Metodi di surclassamento
Tra i metodi multicriteri di supporto alla decisione merita particolare attenzione la
classe dei metodi di surclassamento, sviluppata per affrontare problemi di scelta (azione migliore tra più alternative), di classificazione (attribuzione delle azioni considerate a più classi di cui si conoscono le caratteristiche) e di ordinamento (costruzione di un ordine di preferenza sull’insieme di possibili azioni da intraprendere).
L’obiettivo è quello di fornire ai decisori strumenti per affrontare problemi decisionali caratterizzati da una molteplicità di punti di vista e, spesso, da un limitato livello
di strutturazione che si sviluppano in ambito organizzativo. Tali metodi mirano a costruire una relazione tra le azioni, detta di “surclassamento”, e ad utilizzare questa relazione per aiutare il decisore ad affrontare il problema specifico.
48
La valutazione dei percorsi formativi dei laureati...
In tutti i metodi di surclassamento coppie di azioni potenziali vengono confrontate su ogni singolo criterio per stabilire se una delle due è preferibile all’altra o
se sono indifferenti. Il problema dell’aggregazione dei risultati dei confronti è affrontato mediante la costruzione della relazione di surclassamento (S), intesa come
l’unione delle relazioni elementari di indifferenza (I), preferenza debole (Q) e preferenza stretta (P). E’ inoltre considerata anche l’eventualità dell’incomparabilità tra
azioni (N), diversa dall’indifferenza poiché causata dall’esistenza di preferenze contrastanti sui diversi criteri, che rendono impossibile stabilire quale delle due azioni
sia migliore, sapendo che non sono uguali.
Si può dire che l’azione a surclassa l’azione a ′ (aSa ′) se, in relazione a ciò
che si conosce delle preferenze del decisore ed alla qualità delle valutazioni delle azioni, “esistono ragioni sufficienti per ritenere che a sia almeno altrettanto buona di
a ′ e non esistono buone ragioni per rifiutare tale affermazione”. Il surclassamento si
basa sul principio di concordanza/discordanza3, cioè sulla verifica dell’esistenza di
una concordanza dei criteri a favore di un’azione piuttosto che di un’altra e sul controllo che non esistano situazioni di forte discordanza tra valutazioni, in grado di
mettere in discussione (espressione del veto) la concordanza.
Il surclassamento può essere:“definito” o “crisp”, quando la relazione aSa’
corrisponde ad un surclassamento certo e si può indicare con sicurezza la preferenza
di un’azione sull’altra, la loro indifferenza o l’incomparabilità; “sfumato o fuzzy”,
quando si associa al surclassamento un grado di credibilità compreso tra 0 ed 1, con
cui esprimere una differente credibilità nell’affermare che esiste una relazione di surclassamento tra due specifiche azioni.
Tutti i metodi di surclassamento propongono una stessa struttura in fasi, in
cui una è dedicata al confronto a coppie sui singoli criteri ed all’aggregazione di questi risultati con la modellizzazione del surclassamento (mediante test o elaborazione
di indici di concordanza e discordanza); la fase successiva utilizza le relazioni di surclassamento per arrivare ad un risultato finale, adottando una procedura che renda
operativa una regola di decisione coerente per affrontare il problema decisionale.
Esistono diversi metodi di surclassamento; la scelta tra i differenti metodi è
motivata da indicazioni connesse sia alla natura dei dati a disposizione e quindi dei
criteri che si possono utilizzare, che alla precisa regola di decisione che si vuole rendere operativa. Tra i metodi di surclassamento alcuni adottano criteri senza soglie,
altri con soglie, alcuni solo scale quantitative, altri ogni tipo di scala, permettendo
quindi di trattare sostanzialmente ogni situazione, mediante differenti procedure di
modellizzazione del surclassamento.
3
Gli indici di concordanza e discordanza utilizzati in questo tipo di modelli differiscono dagli usuali
indici di associazione utilizzati in statistica, nel senso che la concordanza non va intesa tra le variabili,
i criteri in questo caso, ma tra le alternative. Due alternative sono concordanti se risulta indifferente,
per il decisore la scelta dell’una o dell’altra, discordanti quando non sono confrontabili.
Modelli statistici per l’analisi della transizione Università-lavoro
49
Due sono le famiglie principali che costituiscono la categoria dei metodi di
surclassamento: i metodi Electre, orientati alla scelta (Electre I) o all’ordinamento
(Electre II, III e IV), ed i metodi di selezione/segmentazione, che affrontano la problematica della classificazione (come Electre Tri). I primi vengono utilizzati per analizzare e confrontare a coppie tutti gli elementi di un insieme A, finito, di azioni possibili, per identificare un sottoinsieme di azioni con le caratteristiche di efficienza,
per scegliere, o per ottenere una graduatoria che fornisca indicazioni a proposito di
tutte le azioni esaminate e che consenta, se necessario, la selezione di un ristretto insieme di azioni da sottoporre ad uno studio più dettagliato. I metodi di selezione/segmentazione analizzano un insieme di azioni che non sono necessariamente in
competizione tra di loro ma che devono essere attribuite a categorie definite. Le azioni, in questo caso, non sono confrontate le une con le altre, ma con gli elementi di
un insieme di riferimento che deve essere definito, tenendo conto ad esempio di
norme e procedure a vari livelli, di specifiche, livelli di aspirazione e modelli di rischio. Il confronto con il riferimento deve fornire indicazioni per accettare o rifiutare
l’azione candidata o per attribuirla ad una precisa classe.
3.3 I metodi Electre
I metodi Electre (ELimination Et Choix TRaduisant la REalitè) sono metodi multicriteri di aggregazione parziale delle preferenze mediante surclassamento e sono stati
sviluppati da Roy e dai suoi collaboratori dell’Università Dauphine di Parigi a partire
dalla fine degli anni ’60. Questi metodi si differenziano per le problematiche affrontate (scelta per il primo, ordinamento per gli altri), la natura dei dati trattati e quindi il
tipo di criteri (criteri per il primo ed il secondo, con scale cardinali il primo e cardinali o ordinali il secondo; pseudo-criteri invece per gli ultimi due, che utilizzano scale cardinali con soglie) e per la procedura di modellizzazione del surclassamento.
Tutti i metodi Electre sono strutturati in due fasi: nella prima (di modellizzazione del surclassamento) si confrontano a coppie le azioni su ogni criterio e si aggregano i risultati ottenuti, mediante la costruzione di indici o l’applicazione di test
che verificano la presenza di condizioni di concordanza e di non concordanza, alla
base del concetto di surclassamento; nella seconda fase si attiva la procedura di classificazione delle azioni relativa alla problematica in esame ed alla regola decisionale
modellizzata. La scelta tra i differenti metodi è motivata da indicazioni connesse sia
alla natura dei dati a disposizione, quindi dei criteri che si possono utilizzare, sia alla
precisa regola di decisione che si vuole rendere operativa.
La terza versione del modello rappresenta il primo tentativo di surclassamento sfumato apparso in letteratura e risale al 1978 (Roy B.). Per utilizzare il modello
Electre III, l’utente deve disporre sia dei dati di base del problema di scelta (alternative e criteri) che delle preferenze del decisore; tali preferenze si sostanziano in un
La valutazione dei percorsi formativi dei laureati...
50
peso e tre valori di soglia per ogni criterio. Il peso associato a ciascun criterio rappresenta un coefficiente di importanza relativa, che costituisce una delle parti più delicate del modello perché è l’espressione più diretta ed esplicita delle preferenze decisionali e può influenzare i risultati del metodo in modo significativo. Le soglie rappresentano dei valori che vengono introdotti per ridurre due tipi di rischio: quello di
considerare distinte due situazioni corrispondenti a condizioni e valutazioni molto
prossime e sostanzialmente equivalenti e quello di non considerare distinte situazioni
preferenziali differenti. In particolare: la soglia di indifferenza (qj) esprime la differenza minima, tra i valori assunti dal criterio j, a cui il decisore attribuisce significato
in termini di indifferenza. Ad esempio, se due Corsi di laurea differiscono di 2 punti
rispetto al voto di laurea medio e la soglia di indifferenza su tale criterio è pari a 3,
allora i due Corsi di laurea saranno, di fatto, indifferenti rispetto a tale criterio. Solo
una differenza superiore a 3 sarà considerata rilevante; la soglia di preferenza (sj) esprime la differenza minima, tra i valori assunti dal criterio j, a cui il decisore attribuisce significato in termini di preferenza stretta. Ad esempio, se due Corsi di Laurea
differiscono di 5 punti rispetto al voto di laurea medio e la soglia di preferenza fissata
dal decisore su tale criterio è pari a 4, allora il Corso di laurea con il voto più alto sarà strettamente preferito all’altro; la soglia di veto (vj) esprime la differenza minima,
tra i valori assunti dal criterio j, oltre la quale il decisore ritiene che il divario tra i
punteggi non sia più compensabile con le prestazioni degli altri criteri. Ad esempio,
se il Corso di laurea A supera il Corso di laurea B di 8 punti, rispetto al voto di laurea
medio, e la soglia di veto fissata dal decisore su tale criterio è pari a 5, allora B non
può surclassare A, qualunque sia il valore relativo degli altri attributi.
Questo metodo si distingue da Electre I e II principalmente perché utilizza gli
pseudo-criteri, cioè criteri a cui sono associabili elementi di incertezza informativa e
preferenziale, e quindi modellizza, nella prima fase del metodo, un surclassamento
sfumato, o “fuzzy”, che associa a ciascuna relazione, tra coppie ordinate di azioni,
una funzione caratteristica δ(a,a’), che esprime il grado di credibilità della relazione
di surclassamento.
Sia A={ai: iЄI} un insieme finito di alternative, valutate su una famiglia di
pseudo-criteri g={gj: jЄJ}. Sulla scala Ej di ogni criterio, vengono definite 3 soglie
( q j , s j , v j ):
0 ≤ qj ≤ sj ≤ vj
rispettivamente di indifferenza, di preferenza e di veto; ad ogni criterio viene assegnato
un peso, in modo da ottenere un vettore di pesi normalizzati p={ pj: j Є J }, tale che:
∀j
0 ≤ pj ≤1
e
∑p
j
=1
j∈J
Il modello Electre III si basa, nella prima fase, sulla definizione di indici marginali di
concordanza e discordanza per ogni criterio j Є J, e può essere così schematizzato:
Modelli statistici per l’analisi della transizione Università-lavoro
51
(a , a' ) ∈ A × A
g j (a) e g j (a' )
Per ogni j si calcola un indice marginale
Per ogni j si calcola un indice marginale
di discordanza :
di concordanza :
0 <= c j (a, a ' ) <= 1
0 <= d j (a, a' ) <= 1
Si calcola un indice di credibilità
Si calcola un indice aggregato
di concordanza :
del surclassamento :
0 <= δ (a, a ' ) <= 1
0 <= c(a, a' ) <= 1
Per ogni coppia di alternative (a, a') e per ogni criterio, l’indice marginale di concordanza è definito in base al confronto tra l’ampiezza degli scarti di valutazione
g j (a) − g j (a' ) e le soglie qj ed sj, distinguendo i casi in cui il criterio è crescente
(all’aumentare dei valori del criterio migliora il giudizio sull’alternativa) e decrescente (all’aumentare dei valori del criterio peggiora il giudizio sull’alternativa).
Se il criterio è crescente, allora:
g j (a)
g j (a) + q j
g j (a) + s j
se g j (a' ) ≤ g j (a) + q j ⇒ c j (a, a' ) = 1 le due alternative sono indifferenti;
se g j (a' ) ≥ g j (a) + s j ⇒ c j (a, a' ) = 0 l’alternativa a' surclassa l’alternativa a;
se g j (a) + q j < g j (a' ) < g j (a) + s j si procede ad una interpolazione e si può affermare
che l’alternativa a' surclassa “debolmente” l’alternativa a. Considerando, ad esempio, tra le possibili interpolazioni, una interpolazione di tipo lineare si avrà:
s j − (g j (a' ) - g j (a))
c j (a, a' ) =
sj − qj
Se, invece, il criterio è decrescente, allora:
g j (a) − s j
g j (a) - q j
g j (a) - q j
La valutazione dei percorsi formativi dei laureati...
52
se g j (a' ) ≥ g j (a) − q j ⇒ c j (a, a' ) = 1 le due alternative sono indifferenti;
se g j (a' ) ≤ g j (a) − s j ⇒ c j (a, a' ) = 0 l’alternativa a' surclassa l’alternativa a;
se g j (a) − s j < g j (a' ) < g j (a) − q j si procede ad una interpolazione e si può affermare
che l’alternativa a' surclassa “debolmente” l’alternativa a. Considerando sempre una
interpolazione di tipo lineare si avrà:
g j (a' ) - (g j (a) - s j )
c j (a, a' ) =
sj − qj
In questo modo si ottiene una matrice di concordanza per ognuno dei criteri considerati; gli elementi di ogni matrice sono i coefficienti di concordanza tra tutte le coppie
di alternative, rispetto al criterio considerato.
Analogo il ragionamento per quanto riguarda gli indici marginali di discordanza, con l’unica differenza che in questo caso viene introdotta la soglia di veto.
Se il criterio è crescente, allora:
g j (a)
g j (a) + s j
g j (a) + v j
se g j (a' ) ≤ g j (a) + s j ⇒ d j (a, a' ) = 0 le due alternative sono indifferenti;
se g j (a' ) ≥ g j (a) + v j ⇒ d j (a, a' ) = 1 l’alternativa a non può surclassare la a' ;
se g j (a) + s j < g j (a' ) < g j (a) + v j si procede all’interpolazione e si può affermare che
l’alternativa a' surclassa “debolmente” l’alternativa a. Considerando l’interpolazione
lineare si avrà:
(g j (a' ) - g j (a)) − s j
d j (a, a' ) =
vj −sj
Se, invece, il criterio è decrescente, allora:
g j (a) - v j
g j (a) − s j
g j (a)
se g j (a' ) ≥ g j (a) − s j ⇒ d j (a, a' ) = 0 le due alternative sono indifferenti;
se g j (a' ) ≤ g j (a) − v j ⇒ d j (a, a' ) = 1 l’alternativa a non può surclassare la a' ;
Modelli statistici per l’analisi della transizione Università-lavoro
53
se g j (a) − v j < g j (a' ) < g j (a) − s j si procede alla solita interpolazione e si può affermare che l’alternativa a' surclassa “debolmente” l’alternativa a. Con l’interpolazione
lineare si avrà:
(g j (a) - g j (a' )) - s j )
d j (a, a' ) =
vj −sj
Una volta ottenute J matrici di concordanza e J matrici di discordanza, entrambe di dimensione I×I, si procede al calcolo della matrice di concordanza aggregata, sempre di dimensioni I×I, i cui elementi sono la somma ponderata, con i pesi
inizialmente assegnati ai criteri, degli indici marginali di concordanza:
c ( a, a ' ) = ∑ p j c j ( a, a ' )
j∈J
A partire dalla matrice di concordanza aggregata e dalle singole matrici di discordanza si procede al calcolo della matrice di credibilità del surclassamento, i cui
elementi sono così ottenuti:
se ∀j d j (a, a' ) = 0 ⇒ δ(a, a' ) = c(a, a' ) ;
se ∃j : d j (a, a' ) > 0 allora :
se d j (a, a' ) < c(a, a' ) ⇒ δ(a, a' ) = c(a, a' )
 1 - d j* (a, a' ) 

se d j (a, a' ) >= c(a, a' ) ⇒ δ(a, a' ) = c(a, a' ) × ∏ 
j*∈J* 1 − c(a, a' ) 
A questo si procede con la costruzione del preordine finale, ossia l’ordinamento globale delle alternative. A tal fine viene impiegato un algoritmo di distillazione4 che, a partire dall’individuazione di una soglia di discriminazione s (δ ) cioè la
distanza massima tra due credibilità, in modo da essere ancora considerate dello stesso ordine di grandezza, permette di estrarre dalla matrice di credibilità le alternative
che entreranno a far parte dell’ordinamento. In realtà vengono applicati due algoritmi
di distillazione, uno dall’alto, che estrae dalla matrice le alternative, dalla migliore
alla peggiore, ed uno dal basso che le estrae invece dalla peggiore alla migliore. Si
ottengono, quindi, due preordini; soltanto dall’intersezione di questi due preordini sarà possibile pervenire all’ordinamento finale.
Per l’estrazione delle alternative si individua, nella matrice di credibilità del
surclassamento, il grado di credibilità massimo δ 0 , pari a:
δ 0 = max δ (a, a' )
( a , a ')∈Ai
4
Con questo termine si indica la procedura di estrazione delle alternative dalla matrice di credibilità
del surclassamento e di collocazione delle stesse in una graduatoria.
La valutazione dei percorsi formativi dei laureati...
54
cioè il massimo tra i valori δ (a, a' ) al passo i-esimo (Ai è la matrice di credibilità al
passo i); esso determina un “valore di credibilità” tale che saranno considerati solo i
valori di δ (a, a' ) che sono sufficientemente vicini a δ 0 . Si sottrae, quindi, la soglia
di discriminazione s (δ ) e così si calcola δ 0' :
δ 0' = δ 0 − s(δ )
e si calcola il primo livello di separazione, δ i , relativo all’insieme Ai:
δ i = max δ (a, a' )
( a , a ' )∈Ω
dove Ω = {(a, a' ) : δ (a, a' ) < δ } , e si definisce la qualificazione di ogni azione q(ai)
come il numero di azioni che sono surclassate dall’azione ai meno il numero di azioni
che la surclassano, cioè:
q(a i ) = p(a i ) - d(a i ) dove:
p(a i ) = {a'∈ A i : δ(a, a' ) > δ1 e ( δ(a, a' ) - δ(a' , a) ) > s( δ )}
'
0
d(a i ) = {a'∈ A i : δ(a, a' ) > δ1 e ( δ(a' , a) - δ(a, a' ) ) > s( δ )}
L’algoritmo di distillazione dall’alto classifica le azioni in base alla qualificazione massima, secondo la regola:
q + = max q(a i )
a i ∈A i
ottenendo il seguente sottoinsieme di Ai:
D1+ = {a i ∈ A i : q(a i ) = q + }
dove D1+ sarà il primo distillato dall’alto, ed ogni classe Ci+ sarà costruita partendo
dall’alto su questo distillato. Qualora D1+ contenga soltanto una azione, si pone Ci+=
D1+ e si ripete la procedura finora descritta sull’insieme delle azioni rimanenti per
l’iterazione successiva, altrimenti si applica l’algoritmo all’insieme delle azioni di
D1+ generando così una sottodistillazione finché esso non conterrà che un’azione. La
procedura è poi ripetuta partendo da Ai+1 e termina quando non c’è più alcun elemento dell’insieme A delle azioni che non sia stato attribuito ad una classe. Il risultato ottenuto è la distillazione dall’alto. Nella distillazione dal basso, il procedimento è simile al precedente però la selezione è effettuata in base alla qualificazione minima
secondo la regola:
q − = min q(a i )
a i ∈A i
D1- = {a i ∈ A i : q(a i ) = q − }
In questo caso D1- sarà il primo distillato dal basso, e ciascuna classe Ci- sarà
costruita partendo dal basso. Ottenuti i due preordini P(A)+ e P(A)- dagli algoritmi di
distillazione, si procederà all’individuazione del preordine finale. Il procedimento
proposto da Schärlig (1996) per definire un preordine finale è una “intersezione”, se-
Modelli statistici per l’analisi della transizione Università-lavoro
55
condo il significato della teoria degli insiemi, che si basa sulle seguenti tre regole:
un’azione del preordine finale non può essere posta prima di un’altra se non nel caso
in cui essa è prima di quest’ultima in uno dei due preordini P(A)+ o P(A)- e prima di
questa oppure ex aequo nell’altro; due azioni non possono essere ex aequo nel preordine finale se non nel caso in cui appartengono alla stessa classe in entrambe le classificazioni dall’alto e dal basso; due azioni sono incomparabili nel preordine finale se
l’una è prima dell’altra in una classificazione (o dall’alto o dal basso) e la segue
nell’altra. Il risultato può essere rappresentato sotto forma di un grafo.
4.
Un’applicazione
Il metodo Electre III è stato applicato ai corsi di Laurea (cfr. par.2), valutandoli rispetto ai seguenti criteri: g1: Voto di laurea; g2: Durata effettiva del Corso di studi;
g3: Percentuale di occupazione; g4: Soddisfazione per il percorso formativo; g5:
Soddisfazione per il lavoro svolto; g6: Utilità del percorso formativo seguito per trovare occupazione; g7: Reddito annuo.
Da notare che la durata effettiva del Corso di studi è calcolata come rapporto
tra la media del numero di anni impiegati per conseguire la laurea e la durata legale
del Corso di studi. La matrice delle performance ottenuta è la seguente:
a1
a2
a3
a4
a5
a6
a7
a8
a9
a10
a11
a12
g1
102,8
104,2
107,8
109,5
106,4
106,7
107,2
107,7
107,8
105,9
109,2
107,2
g2
1,86
1,81
1,59
1,15
1,52
1,57
1,47
1,81
1,77
1,53
1,47
1,42
g3
49,10
48,48
49,28
48,82
48,83
48,96
48,93
49,29
51,35
49,82
48,63
49,47
g4
g5
2,0
2,0
1,0
1,5
2,0
2,0
3,0
2,0
2,0
2,0
2,0
2,0
g6
3
2
3
3
2
2
3
3
3
3
3
2
3
3
2
3
3
2
3
2
3
3
3
3
g7
13.240
13.150
15.590
10.830
17.350
13.640
11.580
16.750
18.270
17.080
19.440
17.580
Per quanto riguarda g1, g2 e g7 si è considerato il valore medio; per g4, g5 e g6
si è considerato il valore mediano dei giudizi espressi dai laureati sul questionario,
giudizi espressi su una scala da 1 a 5, con valori che vanno da “Totalmente soddisfatto” a “Per niente soddisfatto”.
La valutazione dei percorsi formativi dei laureati...
56
La matrice dei pesi e delle soglie associate ai criteri è, invece, la seguente5:
Verso
Peso
Soglia di indifferenza (q)
Soglia di preferenza (s)
Soglia di veto (v)
g1
C
0,04
1
2
4
g2
D
0,08
0,2
0,4
0,6
g3
C
0,17
5
15
25
g4
D
0,21
1
2
3
g5
D
0,17
1
2
3
g6
D
0,21
1
2
3
g7
C
0,12
1.200
2.400
3.000
I pesi e le soglie sono stati attribuiti sulla base di considerazioni che scaturiscono dalla conoscenza del territorio, sia dal punto di vista del mercato del lavoro
che dal punto di vista universitario (Enea e Giambalvo, 2002).
A partire dalla matrice delle performance, e tenendo conto delle soglie fissate
rispetto a ciascun criterio, vengono calcolati gli indici di concordanza e di discordanza marginali tra tutte le possibili coppie di alternative, rispetto a ciascun criterio.
In relazione al criterio g1, voto di laurea, con verso di preferenza crescente e
soglie q1=1 e s1=2, supponiamo di voler calcolare gli indici c1(a1, ai) rispetto al sottoinsieme (a1, a2, a4, a8). I valori del criterio g1 su tutte le alternative sono riportate
nella tabella sottostante:
Alternative
g1(ai)
a1
102,8
a2
104,2
a4
109,5
a8
107,7
La figura 5 mostra le alternative ed i corrispondenti stati di valutazione sulla
scala associata al criterio.
La Figura 6 mostra, invece, come si dispongono le valutazioni al fine di ottenere gli indici di concordanza c1(a1,ai). In essa compaiono: la valutazione di a1 sul
criterio g1 (g1(a1)=102,8) ed i valori ottenuti aggiungendo le soglie:
g1(a1)+q1(a1)=102,8+1=103,8
g1(a1)+s1(a1)=102,8+2=104,8.
Figura 5. Alternative valutate sul criterio g1
a2
a1
a8
102,8
107,7
104,2
5
C=crescente, D=decrescente
a4
g1
109,5
Modelli statistici per l’analisi della transizione Università-lavoro
57
Figura 6. Indici marginali di concordanza
c1 (a 1 , a i )
(1)
(3)
(2)
102,8
103,8
g 1 (a 1 )
g 1 (a 1 ) + q 1 (a 1 )
104,8
g1
g 1 (a 1 ) + s1 (a 1 )
Al variare della posizione delle altre alternative (zone 1, 2, 3), si ottengono i
seguenti valori per gli indici di concordanza marginale:
Zona (1): alternative per cui lo scarto tra le valutazioni non è tale da superare la soglia di indifferenza, in questo caso c1(a1,ai)=1. Nell’esempio considerato,
nessuna delle alternative si trova in questa zona.
Zona (2): alternative debolmente migliori rispetto ad a1, il cui scarto è compreso tra
soglia di indifferenza e la soglia di preferenza, 0<c1(a1,ai)<1. Nell’esempio
considerato, si trova nella zona (2) l’alternativa a2; si procede, pertanto,
all’interpolazione lineare, ottenendo:
c1 (a 1 , a 2 ) =
s1 (a 1 ) − (g1 (a 2 ) − g1 (a 1 )) 2 − (104,2 − 102,8)
= 0,6
=
s1 (a 1 ) − q1 (a 1 )
2 −1
Zona (3): alternative migliori di a1 con uno scarto tra le valutazioni superiore alla soglia di preferenza, c1(a1,ai)=0. Nell’esempio considerato, si trovano in questa zona le alternative a4 ed a8, per cui c1(a1,a4)=0 e c1(a1,a8)=0.
Dalle matrici di concordanza marginale, tenendo conto dei pesi specificati inizialmente dal decisore, si costruisce la matrice di concordanza aggregata (Tabella
1), i cui elementi sono, come abbiamo visto, la somma ponderata degli indici di concordanza marginale.
Gli elementi della matrice di concordanza aggregata vengono poi utilizzati,
insieme alle matrici di discordanza marginale per calcolare gli indici di credibilità del
surclassamento (Tabella 2), che servirà come base di partenza per la costruzione
dell’ordinamento finale.
58
La valutazione dei percorsi formativi dei laureati...
Tabella 1. Matrice degli indici di concordanza aggregata
a1
a2
a3
a4
a5
a6
a7
a8
a1
0,00 0,98 0,81 0,87 0,77 0,92 0,87 0,83
a2
1,00 0,00 0,82 0,87 0,80 0,94 0,90 0,83
a3
1,00 1,00 0,00 0,89 0,94 1,00 1,00 1,00
a4
0,87 0,88 0,87 0,00 0,87 0,87 1,00 0,87
a5
1,00 1,00 0,98 0,88 0,00 1,00 1,00 0,99
a6
1,00 1,00 0,92 0,87 0,87 0,00 1,00 0,87
a7
0,95 0,96 0,67 0,81 0,87 0,91 0,00 0,87
a8
1,00 1,00 0,99 0,88 0,96 0,98 0,94 0,00
a9
1,00 1,00 1,00 0,89 0,98 1,00 0,95 1,00
a10 1,00 1,00 0,96 0,88 1,00 1,00 0,99 0,97
a11 1,00 1,00 1,00 0,95 1,00 1,00 1,00 1,00
a12 1,00 1,00 1,00 0,93 1,00 1,00 1,00 1,00
a9
0,83
0,83
0,87
0,87
0,98
0,87
0,87
0,97
0,00
0,96
1,00
1,00
a10
0,78
0,81
0,97
0,87
1,00
0,87
0,87
0,97
0,98
0,00
1,00
1,00
a11
0,75
0,77
0,86
0,87
0,86
0,83
0,83
0,79
0,94
0,84
0,00
0,89
a12
0,75
0,75
0,92
0,87
1,00
0,87
0,87
0,92
0,94
0,99
1,00
0,00
Tabella 2. Matrice degli indici di credibilità del surclassamento
a1
a2
a3
a4
a5
a6
a7
a8
a9
a1
0,00 0,98 0,00 0,00 0,00 0,56 0,00 0,00 0,00
a2
1,00 0,00 0,82 0,00 0,00 0,94 0,90 0,00 0,00
a3
1,00 1,00 0,00 0,89 0,94 1,00 1,00 1,00 0,87
a4
0,87 0,88 0,00 0,00 0,00 0,87 1,00 0,00 0,00
a5
1,00 1,00 0,98 0,88 0,00 1,00 1,00 0,99 0,98
a6
1,00 1,00 0,92 0,87 0,00 0,00 1,00 0,00 0,00
a7
0,95 0,96 0,00 0,81 0,00 0,91 0,00 0,00 0,00
a8
1,00 1,00 0,99 0,00 0,96 0,98 0,94 0,00 0,97
a9
1,00 1,00 1,00 0,00 0,98 1,00 0,95 1,00 0,00
a10 1,00 1,00 0,96 0,88 1,00 1,00 0,99 0,97 0,96
a11 1,00 1,00 1,00 0,95 1,00 1,00 1,00 1,00 1,00
a12 1,00 1,00 1,00 0,93 1,00 1,00 1,00 1,00 1,00
a10
0,00
0,00
0,97
0,00
1,00
0,00
0,00
0,97
0,98
0,00
1,00
1,00
a11
0,00
0,00
0,00
0,00
0,86
0,00
0,00
0,79
0,94
0,84
0,00
0,89
a12
0,00
0,00
0,92
0,00
1,00
0,00
0,00
0,92
0,94
0,99
1,00
0,00
Applicando gli algoritmi di distillazione dall’alto e dal basso a questa matrice,
si ottengono due ordinamenti parziali, dai quali scaturisce quello finale. Limitandosi
alla prima iterazione si applichi l’algoritmo di distillazione dall’alto, fissando una
soglia di discriminazione s (δ ) = 0,10 e partendo dall’insieme A={a1,a2,…,a12}. Si
ottengono i seguenti risultati:
Modelli statistici per l’analisi della transizione Università-lavoro
Iterazione K=1
A1 = A ≠ ∅
δ 0 = max(δ (a, a' )) = 1
δ 0' = δ 0 − s (δ ) = 0,90
δ 1 = 0,89
p (a1 ) = 0
p(a2 ) = 0
p ( a3 ) = 3
p(a4 ) = 1
p ( a5 ) = 4
p ( a6 ) = 1
p ( a7 ) = 1
p(a8 ) = 4
p ( a9 ) = 5
p (a10 ) = 4
p (a11 ) = 10
p (a12 ) = 5
q + = max(q(ai )) = q(a11 ) = 10
D1+ = {a11}
d (a1 ) = 9
d (a2 ) = 7
d ( a3 ) = 2
d (a4 ) = 2
d ( a5 ) = 1
d ( a6 ) = 6
d (a7 ) = 8
d (a8 ) = 1
d ( a9 ) = 0
d (a10 ) = 1
d (a11 ) = 0
d (a12 ) = 1
59
q (a1 ) = −9
q (a 2 ) = −7
q ( a3 ) = 1
q (a 4 ) = −1
q ( a5 ) = 3
q(a6 ) = −5
q(a7 ) = −7
q(a8 ) = 3
q ( a9 ) = 5
q(a10 ) = 3
q (a11 ) = 10
q (a12 ) = 4
Alla prima iterazione, viene estratta dalla matrice di credibilità, attraverso
l’algoritmo di distillazione dall’alto, l’alternativa a11. Proseguendo con le iterazioni,
vengono estratte tutte le altre alternative, fino ad ottenere i due seguenti preordini:
P ( A) + ={a1 1}≻{a9 ,a12 }≻{a5 ,a8 ,a10 }≻{a3 }≻{a4 ,a6 }≻{a7 }≻{a1 ,a2 }
P ( A) − ={a1 1 , a9 }≻{a12 ,a5 , a8 , a10 }≻{a3 ,a4 }≻{a6 }≻{a2 }≻{a7 }≻{a1}
In base ai criteri proposti da Schärlig (1996), dall’intersezione dei due preordini, si ottiene il seguente preordine finale, rappresentato attraverso il grafo in Figura 7.
Questo grafo si costruisce osservando, per ogni alternativa, come essa è posta
in relazione alle altre nei due preordini. Ad esempio, a11 è in prima classe in entrambi
i preordini ed in P( A) − è ex aequo con a9, di conseguenza la si può porre in testa al
preordine finale. Dopo a11 viene posta a9 poiché una volta è ex aequo con a11 e l’altra
è in seconda classe, e così via. L’unica eccezione è rappresentata dalle alternative a2
e a7, che si surclassano a vicenda nei due preordini, in questo caso diremo che le due
alternative non sono confrontabili.
La valutazione dei percorsi formativi dei laureati...
60
Figura 7. Rappresentazione del preordine finale.
a 11
a9
a 12
a5
a8
a 10
a3
a4
a6
a2
a7
a1
Da questo ordinamento si evince che il Corso di laurea in Ingegneria Informatica è quello che ottiene una valutazione migliore da parte dei laureati (alle variabili
“oggettive”, che non rappresentano un giudizio espresso dai laureati è stato attribuito
un peso inferiore rispetto alle altre). Anche Ingegneria Elettronica e Meccanica ricevono un giudizio soddisfacente, rispetto agli altri Corsi. Ingegneria Chimica, Elettrica e Gestionale si collocano insieme al 4° posto. I Corsi di laurea che occupano gli
ultimi posti in graduatoria sono, invece, quelli della facoltà di Economia, insieme al
Corso di laurea in Ingegneria Edile, che è risultato non confrontabile col Corso di
laurea in Scienze Statistiche ed Economiche. La collocazione dei corsi di laurea di
Economia agli ultimi posti della graduatoria è probabilmente dovuta al fatto che, rispetto ad alcune variabili, quali il voto di laurea, durata effettiva del corso di studi e
il reddito annuo, le due facoltà differiscono in maniera evidente (Figg. 1, 2, 4).
Modelli statistici per l’analisi della transizione Università-lavoro
5.
61
Considerazioni conclusive
Il metodo proposto in questo lavoro presenta, indubbiamente, dei difetti, quali la
soggettività nell’attribuzione dei pesi ai criteri e nell’individuazione delle soglie e
l’impossibilità di “misurare” la distanza tra le alternative nell’ordinamento finale.
Tuttavia, presenta anche molti pregi: la possibilità di attribuire i pesi e di individuare
le soglie gli conferisce un’estrema flessibilità, che consente di adattarlo alle diverse
situazioni e alle diverse esigenze che possono presentarsi; fissati pesi e soglie, si dispone di una metodologia standard che consente di prendere delle decisioni senza
ambiguità; è facilmente implementabile su software statistici (ad esempio, R).
L’approccio sviluppato costituisce un primo passo per la realizzazione di uno
strumento strategico che possa essere utilizzato, al fine del miglioramento della qualità, da parte di chi deve pianificare i corsi di studio; pertanto un’ulteriore fase della
ricerca sarà quella di fare derivare, dall’analisi effettuata, le azioni strategiche per il
miglioramento della qualità in funzione delle risorse disponibili e delle preferenze
dei portatori d’interesse, tra i quali i più importanti sono gli allievi e le aziende.
Riferimenti bibliografici
BAZZANI G.M. (1995) La teoria della decisione multicriteriale: un’introduzione,
Rivista di Economia Agraria, 1, pp. 123-148.
ENEA M., GIAMBALVO O. (2002) The Statistical Informative System for the University, atti della 23th Conference on Regional and Urban Statistics and Research, Lisbona Portugal 12-15 June.
KEENEY R.L., RAIFFA H. (1976) Decision with Multiple Objectives; preferences
and value trade-offs, John Wiley and Sons, New York.
OSTANELLO A., NORESE M.F. (2003) Metodi e modelli per il supporto alle decisioni, Politeko, Torino.
ROY B. (1978) ELECTRE III: Un algorithme de classements fondé sur une représentaion floue des préférences en présence de critères multiples, Cahiers du
Centre d’Etudes de Recherche Opérationnelle, 20, pp. 3-24.
ROY B. (1996) Multicriteria Methodologie for Decision Aiding, Kluwer Academic
Publishers, Dordrecht.
SIMON H.A. (1997) Models of Bounded Rationality, The MIT Press, New York.
SCHÄRLIG A. (1996) Pratiquer Electre et Prométhée. Un complément à dèdicer
sur plesieurs critères, Presses Polytechniques et Universitaires Romandes,
Lausanne.
62
La valutazione dei percorsi formativi dei laureati...
SPERA S. (2003) L’analisi multicriteri di processi logistici industriali mediante il
metodo Electre: l’applicazione nell’ambito della sicurezza, Tesi di laurea in
Ingegneria Gestionale, Università degli studi di Palermo.
YANG T. e KUO C. (2003) A hierarchical AHP/DEA methodology for the facilities
layout design problem, European Journal of Operational Research, 147:
pp.128-136.
The evaluation of educational training for graduates
through the use of the Electre III multiple criteria model
Summary: Evaluation seen as a strategic tool with the objective of triggering a system of actions and retro-actions aimed at the improvement of the efficiency and effectiveness of a trial or an organisation, has assumed, in recent years, a crucial role
in the monitoring and improvement of the quality of the services, above all in the
university sector. The objective of the present paper is to create some classifications
of degree programmes in terms of effectiveness both from the formative point of view
and from the occupational one, obtained through the application of multiple criteria
methods (MCDM: Multiple Criteria Decision Making), such as Electre (ELimination
Et Choix Traduisant the REalitè). The data used are extracted from the investigation
on the occupational results of graduates in the years 1997-2001, carried out by the
Palermo athenaeum, financed by the Orientation and Tutorial Centre.
Keywords: Evaluation, Multiple criteria method, Electre.
Un modello multilivello per l’analisi della durata
degli studi universitari1
Bruno Chiandotto, Roberta Varriale
Dipartimento di Statistica “G. Parenti” - Università degli Studi di Firenze
Riassunto. Nel lavoro si analizza il fenomeno dei tempi di conseguimento della laurea, una delle maggiori criticità del sistema universitario italiano. Per cercare di individuarne le possibili determinanti è stata svolta un’analisi sia sui dati di archivio relativi agli studenti immatricolatisi presso l’Ateneo fiorentino nel ventennio 1980-2000,
sia sui dati (di archivio e raccolti nell’ambito del progetto AlmaLaurea) relativi ai
laureati nell’anno solare 2000. Su questi ultimi dati, avendo come finalità la misura
dell’effetto “netto” esercitato dai fattori individuali e da fattori istituzionali (variabili
specifiche dei corsi di studio) sui tempi di conseguimento del titolo, è stato introdotto
un modello lineare gerarchico a due livelli; tale modello tiene conto del fatto che gli
studenti (unità di primo livello) risultano naturalmente aggregati nei Corsi di laurea
(unità di secondo livello).
Parole chiave: Tempi di conseguimento del titolo, Modelli multilivello, Regressione
lineare gerarchica.
1.
Introduzione
Tra gli aspetti negativi che hanno caratterizzato e caratterizzano ancora oggi il sistema universitario italiano assumono particolare rilevanza gli abbandoni e la durata
delle carriere: la percentuale di studenti che abbandonano gli studi in Italia è eccessiva e, per coloro che invece riescono a conseguire il titolo universitario, il tempo impiegato per concludere il percorso di studi è troppo elevato.
1
Il presente lavoro è stato finanziato nell’ambito del progetto “Transizioni Università-lavoro e valorizzazione delle competenze professionali dei laureati: modelli e metodi di analisi multidimensionali
delle determinanti”, cofinanziato dal MIUR; coordinatore nazionale è Luigi Fabbris, coordinatore del
gruppo di Firenze è Bruno Chiandotto (titolo del progetto dell’unità di ricerca locale “Valutazione del
processo formativo universitario, sbocchi professionali e pianificazione dei percorsi formativi: modelli
e metodi”). L’idea iniziale, la struttura e l’impostazione del lavoro sono dovuti al contributo di entrambi gli autori, mentre le elaborazioni e l’implementazione del modello vanno attribuite a R. Varriale.
64
Un modello multilivello per l’analisi della durata degli studi universitari
Il problema dell’eccessiva durata delle carriere universitarie, tipico del sistema universitario italiano, appare ancora più accentuato se si analizza la situazione
dell’Ateneo fiorentino (Chiandotto B. e Bertaccini B., 2003), il che induce a presumere che, su questo fenomeno, le conclusioni di un approfondimento conoscitivo utilizzando i dati fiorentini possano essere ragionevolmente estese anche a gran parte
degli altri Atenei italiani. L’individuazione delle possibili determinanti del fenomeno
dei tempi di conseguimento del titolo eccessivamente lunghi dovrebbe suggerire interventi finalizzati alla eliminazione di una tale criticità2.
Il secondo paragrafo di questa nota è dedicato ad una sintetica illustrazione
dei risultati dell’analisi svolta sugli immatricolati presso l’Università di Firenze negli
anni accademici dal 1980/81 al 2000/01, finalizzata all’individuazione dell’eventuale
influenza esercitata sulla durata degli studi sia dal corso di laurea sia da caratteristiche individuali (quali genere, residenza, diploma di scuola superiore, ecc.)3.
Nel terzo paragrafo vengono riassunti, altrettanto sinteticamente, i risultati
dell’analisi relativa agli studenti che, essendosi immatricolati presso l’Università di
Firenze dall’anno accademico 1980/81 all’anno accademico 2000/01, e non avendo
mai effettuato un passaggio di corso di studi, hanno conseguito la laurea presso
l’Università di Firenze durante l’anno solare 20004.
Successivamente, facendo sempre riferimento ai laureati dell’anno 2000, per
pervenire alla misura dell’effetto “netto” eventualmente esercitato da possibili determinanti (sia individuali che istituzionali) sulla durata degli studi, sono stati introdotti i modelli gerarchici o di regressione multilivello; il ricorso a tali modelli è stato
suggerito dalla struttura dei dati che è di tipo gerarchico a due livelli: le unità di primo livello sono gli studenti, quelle di secondo livello sono i corsi di laurea. I risultati
delle analisi condotte sono riportati nel quarto paragrafo; alcune conclusioni completano la nota.
2
Sul problema della valutazione dei processi formativi finalizzata alla eliminazione di eventuali criticità presenti nel sistema universitario si veda Chiandotto B. (2002).
3
Una trattazione più dettagliata si trova in Varriale R. (2004), un altro significativo contributo
sull’argomento è stato fornito da Bulgarelli G. (2002).
4
Anche in questo caso si tratta di un'esposizione estremamente sintetica, maggiori dettagli si trovano
in Varriale R. (2004), sullo stesso argomento si può utilmente consultare Chiandotto B., Bacci S. e
Bertaccini B. (2004).
Modelli statistici per l’analisi della transizione Università-lavoro
2.
65
Esito degli studi universitari degli immatricolati nell’Ateneo fiorentino nel periodo 1980-2000
Secondo la definizione utilizzata dall’Istat5, sono stati considerati immatricolati gli
studenti “iscritti per la prima volta al primo anno di un corso di laurea o di diploma
universitario”; in particolare, sono stati esaminati gli immatricolati ai soli Corsi di
laurea.
Ai fini dell’analisi, è stato adottato l’approccio longitudinale, scegliendo come evento di comune origine l’immatricolazione presso l’Università di Firenze in un
determinato anno accademico; all’interno della popolazione oggetto di studio sono
state, pertanto, individuate 21 coorti. Ogni coorte è stata osservata per 10 anni6, trascorso tale periodo lo studente può: aver abbandonato gli studi (abbandono), essersi
già laureato (laureato), essere ancora iscritto (iscritto). Per valutare il fenomeno dei
tempi di conseguimento del titolo sono state, pertanto, considerate 13 coorti.
I laureati presso l’Ateneo fiorentino tra il 1980 e il 31 luglio 2003, immatricolatisi nel periodo intercorso tra l’a.a. 1980/81 e l’a.a. 1992/93, sono stati 32636; a livello di Ateneo il tasso medio di laurea è del 30.4%; mentre i tassi registrati per le
diverse Facoltà variano da un minimo di 22.9% per Scienze della formazione ad un
massimo di 40.6% per Medicina e Chirurgia.
Solo il 3.2% del totale dei laureati dell’Ateneo completa il ciclo di studi in
corso, mentre più dell’80% lo fa con almeno 2 anni di ritardo. Il tempo che gli studenti impiegano per concludere gli studi universitari ha un ovvio riflesso sull'età che
i laureati stessi hanno al conseguimento del titolo: l'età media di Ateneo è di 26.8 anni, leggermente più elevata per i maschi (27 anni) rispetto alle femmine (26.7 anni),
abbastanza simile per tutte le Facoltà, tranne che per la Facoltà di Scienze della Formazione nella quale i laureati hanno un'età media di quasi 28 anni.
5
Gli studenti rientranti nella suddetta definizione di immatricolati sono stati classificati in base al
Corso di laurea di prima iscrizione; per tali studenti si dispone di informazioni classificabili in “variabili d’ingresso” (principalmente dati anagrafici e relativi agli studi pre-universitari), “di soggiorno”
(per esempio informazioni su eventuali passaggi di corso, rinunce) e “d’uscita” (esito finale degli studi). Le variabili d’ingresso e quelle “in itinere” rappresentano i fattori individuali, o variabili esplicative, che si suppone possano influenzare l’esito e la durata degli studi. Tali informazioni risultano aggiornate, per ciascuna delle unità di analisi, al 31 luglio 2003.
6
Nella scelta di tale periodo si è tenuto conto che la durata media degli studi risulta pari a 7-8 anni e
che entro 8 anni dall’immatricolazione si registra più del 70% del totale delle lauree osservate per ogni
generazione. Inoltre, è stato rilevato che il tasso marginale di crescita del tasso di laurea tende nel
tempo ad attestarsi su valori abbastanza costanti e che scegliendo un periodo di osservazione pari a 15
anni gli studenti che avrebbero fatto parte del collettivo di riferimento per le successive analisi sarebbero stati solo 69560 (anziché 107267) sui 174072 studenti immatricolatisi tra l’a.a. 1980/81 e l’a.a.
2000/01.
66
Un modello multilivello per l’analisi della durata degli studi universitari
Ovviamente, anche l’analisi basata sull’indice di durata7 porta a conclusioni
non confortanti. A livello di Ateneo, infatti, l’indice di durata medio assume il valore
di 1.7: questo vuol dire che gli studenti impiegano più di una volta e mezzo del tempo ritenuto necessario per legge a terminare gli studi universitari.
La Facoltà che presenta l’indice di durata più basso è Medicina e Chirurgia
(1.24), mentre la Facoltà con l’indice più alto è Economia (1.9), seguita da Lettere e
Filosofia (1.86) e Giurisprudenza (1.83). Come prevedibile, sono gli studenti con un
diploma di tipo liceale e coloro che hanno riportato votazioni più elevate all’esame di
maturità a presentare valori più bassi dell’indice di durata.
3.
Tempi di conseguimento del titolo dei laureati nell’anno solare
2000
In questa parte del lavoro vengono analizzati i dati forniti dal Consorzio Interuniversitario AlmaLaurea8 relativi agli studenti che, appartenendo alla popolazione esaminata
nel paragrafo precedente, hanno conseguito la laurea presso l’Università degli studi di
Firenze durante l’anno solare 2000; i dati utilizzati sono stati forniti dal Consorzio Interuniversitario AlmaLaurea e derivano sia da indagini predisposte nell’ambito del
Progetto AlmaLaurea sia da fonti di tipo amministrativo. Il tipo di strumento utilizzato per le prime è il questionario strutturato compilato dai laureandi (tasso di risposta
pari al 91%) al conseguimento del titolo, composto da domande chiuse a risposta unica e suddiviso in 6 aree tematiche che riguardano: notizie anagrafiche, curriculum
scolastico e formativo, notizie sull’esperienza universitaria appena conclusa, situazione lavorativa, notizie sulla famiglia, intenzioni e prospettive future.
I dati AlmaLaurea sono stati successivamente integrati con quelli forniti
dall’Ufficio Servizi Statistici e Controllo di Gestione dell’Università di Firenze uti7
L’indice di durata (Id) delle singole Facoltà e CdL è costruito rapportando la durata effettiva degli
studi alla durata legale del rispettivo corso; tale indice rende possibile il confronto tra laureati delle diverse Facoltà e diversi CdL, cresce al crescere del ritardo e assume valori maggiori o uguali a 1.
8
Il consorzio interuniversitario ALMALAUREA nasce nel 1994 per iniziativa dell’Osservatorio Statistico
dell’Università di Bologna ed attualmente è gestito dalle Università aderenti con il sostegno del Ministero dell’Istruzione, dell’Università e della Ricerca.
I principali obiettivi dei servizi offerti da ALMALAUREA sono, da una parte, quelli di assicurare agli organi di governo degli atenei appartenenti al consorzio, ai nuclei di valutazione, alle commissioni impegnate nella didattica e nell’orientamento, attendibili e tempestive basi documentarie e di verifica,
volte a favorire i processi decisionali e la programmazione delle attività; dall’altra di creare una sempre più stretta collaborazione tra università e mondo produttivo, facilitando, attraverso la propria banca dati, l’accesso dei giovani al mercato del lavoro italiano ed internazionale.
Per ulteriori informazioni, si può consultare il sito Internet: www.almalaurea.it
Modelli statistici per l’analisi della transizione Università-lavoro
67
lizzati per le analisi a cui si è riferito nel paragrafo precedente, in modo da consentire
il confronto dei risultati conseguiti nelle due diverse analisi. Nel procedere
all’integrazione tra i due insiemi di dati, però, alcuni records relativi a studenti laureati presso l’Ateneo fiorentino nell’anno solare 2000 non sono stati utilizzati9; per tale
motivo il collettivo di riferimento oggetto delle successive analisi è risultato composto da 4382 studenti. Inoltre, sono stati esclusi dalle indagini quei laureati che non
hanno compiuto l’intero ciclo di studi nell’Ateneo fiorentino e nello stesso corso di
laurea, ottenendo una popolazione di riferimento 3978 unità.
Come già sottolineato, uno degli aspetti più negativi che caratterizza la figura
del laureato “tipo” è l’età molto elevata al conseguimento del titolo, età elevata che è
il diretto riflesso dell’eccessiva durata degli studi; infatti, solo l’11% dei laureati consegue il titolo ad un’età inferiore ai 24 anni, mentre quasi il 30% termina gli studi universitari ad un’età superiore ai 28 anni. A livello di Facoltà, i laureati in Architettura presentato un’età media al conseguimento del titolo più elevata (29.6), mentre i
laureati in Scienze Matematiche Fisiche e Naturali sono i più giovani con un’età media di 26.9 anni.
Naturalmente, la variabile ora analizzata serve solo a fornire una indicazione,
seppure interessante, della durata degli studi universitari; infatti, molteplici sono i
fattori che possono determinare l’innalzamento dell’età al raggiungimento del termine degli studi, e non tutti possono essere imputabili alla durata del piano di studi del
corso prescelto. Si è preferito analizzare, pertanto, la durata degli studi universitari
sia attraverso un approccio diretto, ovvero attraverso la sua misurazione in anni, sia
indirettamente facendo ricorso all’indice di durata.
Dall’analisi della variabile durata degli studi per il contingente dei laureati
dell’anno solare 2000, il risultato è tutt’altro che confortante. A livello di Ateneo,
confrontando le durate legali delle varie Facoltà con quelle medie effettivamente impiegate dagli studenti, si può notare come gli studenti impiegano mediamente da 1.5
a 4.4 anni in più rispetto al tempo considerato necessario per legge al raggiungimento
del termine degli studi. Inoltre, mentre solo il 5% degli studenti analizzati si laurea in
corso, ben il 50% di questi si laurea dopo il quarto anno fuori corso.
Facendo riferimento all’indice di durata, all’interno dell’intero Ateneo si registra un valore medio pari a 1.8: questo significa che gli studenti impiegano quasi il
doppio del tempo ritenuto necessario per legge a completare gli studi universitari. I
valori assunti da questo indice a livello di Facoltà sono riportati nella Figura 1.
9
Degli originari 4846 laureati: 195 studenti si sono immatricolati in altri Atenei, 53 studenti si sono
immatricolati prima dell’a.a. 1980/81, 41 studenti erano già in possesso di altro titolo, 4 studenti si sono immatricolati ad un diploma, 140 studenti si sono già immatricolati in precedenza senza arrivare al
conseguimento del titolo, 25 studenti si sono immatricolati ad anni successivo al primo, 6 studenti si
sono immatricolati oltre il 31 Luglio di ogni anno.
68
Un modello multilivello per l’analisi della durata degli studi universitari
Figura 1. Indice di durata per Facoltà e sesso
1.86
SCIENZE POLITICHE
1.61
SCIENZE MAT.FIS.NAT.
1.67
SCIENZE DELLA FORMAZIONE
1.29
MEDICINA E CHIRURGIA
1.91
LETTERE E FILOSOFIA
1.66
INGEGNERIA
1.86
GIURISPRUDENZA
1.57
FARMACIA
1.96
ECONOMIA
1.89
ARCHITETTURA
1.62
AGRARIA
0
0.5
Maschi
1
Femmine
1.5
2
Facoltà
Successivamente, si è cercato di individuare le possibili relazioni esistenti tra
i caratteri di interesse e la durata degli studi e, a tal fine, oltre ad effettuare un’analisi
di tipo descrittivo, si è proceduto al computo di due statistiche di associazione, il
Chi-quadro di Pearson e la V di Cramer10.
10
Questi indici sono calcolati attraverso il confronto tra le frequenze osservate e le frequenze teoriche
nell’ipotesi di indipendenza stocastica tra i caratteri considerati e, mentre il primo è espresso in termini assoluti, l’indice di Cramer varia tra 0 e 1. A ragione del contesto di analisi, valori superiori a 0.10
di tale indice inducono a concludere a favore della presenza di un livello di dipendenza abbastanza elevato tra i caratteri analizzati.
La statistica Chi-quadro è solitamente utilizzata per l’analisi di distribuzioni discrete, ma può essere
calcolata anche per distribuzioni continue raggruppando i dati in classi di modalità; considerazioni analoghe valgono per l’indice V di Cramer. Per questo motivo si è dovuto procedere alla suddivisione
in classi dell’indice di durata e, dato che questa variabile misura il tempo impiegato dallo studente per
conseguire il titolo e quindi cresce all’aumentare degli anni di iscrizione “fuori corso”, nel farlo si è
cercato di creare una corrispondenza tra classe dell’indice e il numero degli anni fuori corso; le classi
così ottenute sono 6. Classe 1 – (0-1.14) – 0; Classe 2 – (1.1401-1.37) – 1; Classe 3 – (1.3701-1.62) –
2 ; Classe 4 – (1.6201-1.87) – 3; Classe 5 – (1.8701-2.12) – 4; Classe 6 – (2.1201-7) – Più di 4 anni,
dove, rispettivamente, si riporta (in parentesi) l’intervallo dell’indice di durata ed il numero di anni
fuori corso.
Modelli statistici per l’analisi della transizione Università-lavoro
69
Se si procede al confronto tra il valore assunto dall’indice di durata per i due
sessi si riscontra una lievissima differenza a livello complessivo (0.04) a favore del
genere femminile, differenza questa che non presenta grande variabilità anche a livello di singole facoltà. Se si fa, invece, riferimento alle statistiche di associazione, si
rileva la presenza di un legame tra i due caratteri essendo abbastanza elevato il valore
assunto (0.10) dalla V di Cramer.
Un risultato inatteso è quello concernente la relazione esistente fra residenza
degli studenti e durata degli studi universitari; infatti, la residenza degli studenti non
sembra incidere in maniera così netta sul valore dell’indice di durata: tale valore rimane identico per gli studenti provenienti da Firenze e dalle province di Prato, Pistoia e Arezzo e lievemente più alto per coloro con residenza nelle altre province della Toscana; un valore più alto dell’indice, invece, si rileva per i giovani con residenza
fuori dalla Toscana. Anche l’analisi delle statistiche di associazione (che rileva come
la V di Cramer assume un valore pari a 0.08) sembra confermare la mancanza di un
forte legame tra la residenza dello studente e la durata dei suoi studi universitari, ma
è da ricordare ancora una volta che in realtà la variabile d’interesse sarebbe il domicilio degli studenti e non la loro residenza.
Una certa incidenza sulla durata degli studi ha, invece, il titolo di studio dei
genitori dei laureati. Tale fatto è confermato sia dal valore della V di Cramer (0.12)
sia dalla semplice lettura dei dati: da una situazione in cui entrambi i genitori sono
laureati e l’indice assume un valore medio di 1.58 si passa a situazioni in cui in famiglia vi è al più una licenza elementare dove si registra un indice medio di 1.97. Piuttosto basso è invece il valore assunto dall’indice V (0.07) quando si considera la
classe sociale11 della famiglia di appartenenza.
Esaminando l’indice di durata in funzione della carriera preuniversitaria si osservano risultati del tutto prevedibili: i giovani con una carriera preuniversitaria regolare presentano un valore dell’indice di durata minore rispetto a chi ha affrontato l'esame di maturità con uno o più anni di ritardo; si registra una relazione inversa tra
voto alla maturità e indice di durata (al crescere della votazione al diploma del laureato diminuisce il valore assunto dall’indice di durata); gli studenti che hanno concluso in tempi più contenuti la carriera universitaria sono quelli provenienti dal liceo
scientifico e classico, mentre quelli che vi hanno impiegato più tempo provengono da
altri tipi di maturità e scuole secondarie di tipo tecnico.
11
Per la classificazione della variabile classe sociale si è adottato lo schema proposto da A. Cobalti e
A. Schizzerotto, La mobilità sociale in Italia, Bologna, Il Mulino, 1994, adottato anche da
ALMALAUREA. La posizione socio-economica può assumere le modalità borghesia, classe media impiegatizia, piccola borghesia e classe operaia. In proposito si segnala che gli imprenditori, i libero professionisti e i dirigenti, appartengono alla borghesia indipendentemente dal titolo; gli impiegati o intermedi con laurea sono nella classe media impiegatizia; i lavoratori in proprio, i soci di cooperative e
i coadiuvanti appartengono alla piccola borghesia; gli impiegati con un titolo di studio della scuola
dell’obbligo, gli operai ed i lavoratori a domicilio sono nella classe operaia
70
Un modello multilivello per l’analisi della durata degli studi universitari
Le statistiche di associazione mostrano come vi sia un forte legame tra carriera preuniversitaria dello studente e tempo impiegato per conseguire la laurea: la significatività delle statistiche Chi-quadro di Pearson è sempre molto elevata e la V di
Cramer è sempre superiore a 0.10. Da notare, è che la relazione più intensa si ha tra
voto alla maturità e indice di durata (la V di Cramer è quasi pari a 0.13) a conferma
dell’influenza esercitata da questo fattore sull’esito della carriera universitaria.
Per quanto riguarda le variabili relative alla carriera universitaria dello studente, è possibile innanzitutto osservare come, al crescere del ritardo dell’immatricolazione all’Università, cresca anche il valore dell’indice di durata. Ancora, è
possibile osservare che coloro che hanno ottenuto risultati migliori sia a livello di voto medio agli esami che alla laurea impiegano meno tempo per conseguire il titolo. Il
fatto che esista una forte relazione tra i risultati ottenuti dagli studenti sia per quanto
riguarda la votazione conseguita sia per quanto riguarda il tempo di conseguimento
del titolo è confermato, inoltre, dal calcolo delle statistiche di associazione: la significatività del Chi-quadro è sempre molto elevata e la V di Cramer supera in entrambi
i casi il valore di 0.14.
Riguardo il modo di vivere l’esperienza universitaria, l’elevato valore della V
di Cramer (0.21) mostra come vi sia un legame molto forte tra tempi di conseguimento del titolo e la frequenza alle lezioni; infatti, chi frequenta con regolarità tutti o
quasi tutti i corsi impiega meno tempo ( I d = 1.75) rispetto a chi frequenta saltuariamente, al più, alcuni corsi ( I d = 2).
Il fenomeno della frequenza alle lezioni è sicuramente collegato a quello delle
esperienze lavorative durante la carriera universitaria: chi non lavora conclude gli studi
nettamente prima (il valore dell’indice di durata è di 1.64 contro 1.86 per coloro che
lavorano) e tra chi lavora ha più difficoltà a mantenere un buon ritmo di studi chi ha un
contratto di lavoro di tipo stabile rispetto a chi ha rapporti di lavoro di tipo occasionale.
Interessanti sono i risultati che si ottengono sia dal calcolo dell’indice di durata in relazione alla necessità o meno di svolgere attività di stage o tirocinio per il
completamento degli studi sia dal calcolo delle statistiche di associazione tra queste
variabili: queste attività sembrano incidere positivamente sulla durata della carriera
universitaria (il valore dell'indice è di 1.54 per coloro che sono stati coinvolti in tali
attività e 1.84 per gli altri) ed il loro legame con i tempi di conseguimento del titolo
sembra molto forte (il valore della V di Cramer è ben 0.26).
In relazione al rapporto che può esistere tra tempi di laurea e posizione nei
confronti degli obblighi di leva, si registra un valore molto alto dell’indice di durata
per gli studenti che hanno già svolto il servizio militare o civile ( I d = 2.02), mentre
una situazione migliore si rileva per chi si trova nella condizione di non dover svolgere il servizio militare ( I d = 1.83). Valori molto bassi dell’indice si osservano per gli
studenti che stanno adempiendo agli obblighi di leva, o per coloro che stanno aspettando di farlo, probabilmente dovuto al fatto che, consapevoli dei propri obblighi, tali
Modelli statistici per l’analisi della transizione Università-lavoro
71
studenti hanno organizzato in maniera migliore i propri piani di studio (la forte relazione tra questa variabile e i tempi di durata è rilevata dalla V di Cramer pari a 0.37).
Per quanto riguarda la soddisfazione sull’esperienza universitaria appena conclusa, coloro che ne danno un giudizio ottimo sono coloro che hanno impiegato meno tempo a concludere gli studi ( I d = 1.57), mentre coloro che impiegano più tempo
non sono coloro che ne danno un giudizio pessimo, ma mediocre. Anche in questo
caso, comunque, la V di Cramer assume un valore abbastanza alto (0.14).
Relativamente all'ipotesi di reiscrizione all’Università, inoltre, sono coloro
che vorrebbero reiscriversi allo stesso corso di laurea ad aver impiegato meno tempo
alla conclusione degli studi ( I d = 1.76), mentre gli studenti che non vorrebbero reiscriversi all'Università sono coloro per cui si osserva il valore dell'indice di durata
più elevato (1.96).
Da segnalare, infine, il forte grado di associazione tra indice di durata e Facoltà (V di Cramer pari a 0.26) che risulta ancora più elevato quando si misura
l’associazione tra durata e Corso di studi (V di Cramer pari a 0.36).
4.
Il modello gerarchico a due livelli
Come anticipato nell’introduzione, per procedere ad una più soddisfacente individuazione delle possibili determinanti dei tempi di conseguimento del titolo si è fatto
ricorso ai modelli di regressione multilivello12.
Nei due paragrafi precedenti è stato analizzato il fenomeno della durata degli
studi nell’Ateneo fiorentino, sia relativamente al periodo 1980-2000 che ai laureati
dell’anno solare 2000, facendo ricorso a tecniche statistiche sostanzialmente di tipo
descrittivo, tecniche che non consentono di pervenire ad una misura dell’effetto netto
delle determinanti (fattori esplicativi) del fenomeno di interesse che nel caso specifico è rappresentato dall’indice di durata. Tale possibilità è, invece, offerta, dai modelli
di regressione e, in particolare, dai modelli di regressione di tipo multilivello. In proposito, vale la pena ricordare che il ricorso ad un modello di regressione multilivello
è consigliabile ogni volta che le unità (dette unità di primo livello) su cui si rileva il
fenomeno oggetto di studio risultano naturalmente aggregate in gruppi differenti (le
unità di secondo livello), che a loro volta possono essere aggregate in unità di terzo
livello e così via: in tali casi è ragionevole ritenere che la variabilità del fenomeno
dipenda non solo da variabili esplicative individuali (o di primo livello), ma altresì
dal fatto che un certo individuo appartenga ad un determinato gruppo avente caratte12
Al riguardo si possono consultare, tra gli altri, i volumi di Goldstein H. (2003) e Snijders A.B., Bosker R. J. (1999).
72
Un modello multilivello per l’analisi della durata degli studi universitari
ristiche peculiari che lo contraddistinguono dagli altri gruppi; nel caso specifico trattato, gli studenti (unità di primo livello) risultano naturalmente aggregati in Corsi di
laurea (unità di secondo livello).
Come già sottolineato, la variabile risposta considerata è l’indice di durata. Il
“vantaggio” principale che proviene dall’utilizzo di questo indicatore è che attraverso
di esso è possibile effettuare un confronto tra tempi di laurea osservati in diverse Facoltà e diversi CdL; unico “svantaggio” nell’utilizzo della variabile continua
ind_durata è che la sua distribuzione ha un andamento di tipo normale, ma troncato a
sinistra (il valore minimo osservato è 1)13.
I dati cui si farà riferimento sono quelli relativi ai laureati dell’anno solare
2000 (unità di primo livello), che si sono immatricolati per la prima volta
nell’Ateneo fiorentino a partire dall’a.a. 1980/81 e che non hanno cambiato corso di
studi. Come precedentemente illustrato, sono stati esclusi dall’analisi quei laureati
che non hanno compiuto l’intero ciclo di studi nell’Ateneo fiorentino e nello stesso
corso di laurea, ottenendo così una popolazione di riferimento di 3978 unità;
l’insieme di dati così ottenuto è risultato, però, composto da numerosi records con
dati mancanti relativi ad alcune variabili e, dato che il software utilizzato per
l’applicazione del modello di regressione multilivello esclude questi records
dall’analisi e volendo evitare di ricorrere a complicate tecniche di imputazione, si è
proceduto a cancellare tali records, ottenendo così una popolazione di riferimento
composta da 1896 osservazioni.
Come unità di secondo livello sono stati scelti i Corsi di laurea in cui gli studenti hanno conseguito il titolo di studio e non le rispettive Facoltà di appartenenza in
quanto si è ritenuto che solo dall’analisi di questi si potessero ottenere informazioni
utili alla spiegazione del fenomeno dei tempi di laurea all’interno dell’Ateneo fiorentino. Infatti, è possibile osservare come spesso le Facoltà sono suddivise al loro interno in CdL con caratteristiche sostanzialmente differenti tra loro. Inoltre, come prevedibile, anche dall’analisi dei tempi medi di laurea è possibile osservare come i diversi
CdL all’interno delle stesse Facoltà differiscono notevolmente tra loro; solo per fare
un esempio relativo alla Facoltà di Economia, il CdL in Scienze Statistiche ed Attuariali ha un indice di durata pari a 1.60 mentre per Economia e Commercio si osserva
un valore dell’indice addirittura pari a 1.97 (quasi il doppio della durata legale!).
Un’ultima osservazione che conferma quanto appena descritto riguarda il già
segnalato (cfr. par. 2) alto grado di associazione riscontrato sia tra i tempi di laurea degli studenti e le Facoltà frequentate, sia tra i tempi di laurea degli studenti ed i loro
CdL: associazione molto forte nel primo caso, ma notevolmente più forte nel secondo.
13
Il fatto che la variabile ind_durata sia troncata a sinistra è una delle possibili cause della non normalità dei residui. Quest’ultimo aspetto ha comunque delle conseguenze soprattutto sul valore degli errori standard delle stime dei coefficienti di regressione e delle componenti di varianza (e di conseguenza
sulla validità dei test utilizzati), e non su quello delle stime puntuali di tali parametri.
Modelli statistici per l’analisi della transizione Università-lavoro
73
Coerentemente a quanto suggerito dalla teoria i passi della procedura di stima
impiegata sono stati:
stima del modello nullo, al fine di verificare, attraverso la stima della varianza
dei residui di secondo livello, la ragionevolezza del ricorso ad un’analisi multilivello e di scomporre la variabilità del fenomeno tra variabilità entro i gruppi e
variabilità tra gruppi.
stima del modello a intercetta casuale comprendente tutte le variabili di primo
livello (compresi termini quadratici e interazioni) risultate significative.
stima del modello a intercetta casuale finale14 (due livelli) costituito dalle variabili di primo e secondo livello (compresi termini quadratici e interazioni) risultate significative.
Di seguito verranno riportati e commentati soltanto i risultati relativi alla stima dei due Modelli a intercetta casuale comprendenti, rispettivamente, le sole variabili di primo livello e quelle di primo e secondo livello relative alla stima finale.
Il modello utilizzato è un modello multilivello ad intercetta casuale del tipo:
Yij = (γ 00 + γ 10 X ij + γ 01 Z j ) + (u oj + rij )
dove:
rij ~ iid N(0,σ 2 )
,
u 0 j ~ iid N(0, τ 00 )
;
i residui del modello, rij e u0j, sono indipendenti tra loro, j è l’indice utilizzato per descrivere i gruppi (corsi di laurea - j = 1, 2,...37 ), mentre i è l’indice che descrive le
unità (laureati all’interno di ogni gruppo - i = 1,2,...n j ); la variabile risposta Yij (misurata al livello individuale) è rappresentata dall’indice di durata degli studi ed ha distribuzione di tipo normale troncata nella coda di sinistra (il valore minimo osservato
è 1); Xij indicano le variabili esplicative, di primo livello mentre Zj rappresentano le
variabili esplicative di secondo livello. I termini rij e u0j rappresentano gli errori residui del modello (ovvero quella parte di variabilità di Yij che non è catturata dalle variabili esplicative) rispettivamente a livello individuale ed a livello di gruppo
Per l’applicazione del modello lineare gerarchico è stata utilizzata la PROC
MIXED del software SAS15.
14
Si puntualizza che sono stati testati anche modelli con coefficienti casuali; in questo caso, però,
l’algoritmo utilizzato non ha mai raggiunto la convergenza.
15
La procedura PROC MIXED permette di scegliere i metodi di stima dei parametri. Nel contesto dei
modelli multilivello gli stimatori maggiormente impiegati sono quelli di Massima Verosimiglianza
(Maximum Likelihood, ML) e quelli della Massima Verosimiglianza residua (Residual Maximum Likelihood, REML). Questi due metodi danno risultati molto simili per quanto riguarda la stima dei coefficienti di regressione mentre differiscono maggiormente nella stima delle componenti della varianza; inoltre, la devianza calcolata attraverso il metodo REML può essere utilizzata nei test del rapporto
di verosimiglianza solo se i due modelli comparati sono composti dalla stessa parte fissa e differente
parte casuale. Per tale motivo in questa applicazione è stato scelto di calcolare le stime dei coefficienti
di regressione attraverso il metodo della Massima Verosimiglianza (specificando l’argomento METHOD=ML nella procedura PROC MIXED).
74
4.1
Un modello multilivello per l’analisi della durata degli studi universitari
Il modello stimato ed i risultati ottenuti
Come già segnalato, il primo passo della procedura prevede la stima di un modello di
regressione a due livelli senza variabili esplicative, ossia del cosiddetto modello nullo.
In particolare, attraverso il modello nullo è stato possibile esplicitare il coefficiente di correlazione intra-classe ρ , che misura il grado di omogeneità tra osservazioni appartenenti allo stesso gruppo: in questo caso, quasi il 40% della varianza totale dell’indice di durata è dovuta all’effetto del Corso di Laurea. Inoltre, è stato calcolato il valore della devianza - ovvero il grado di “non adattabilità” del modello
(Hox J.J., 2002) - che è stato successivamente utilizzato come benchmark per il confronto di differenti modelli.
Una volta verificata l’effettiva esistenza di un’organizzazione dei dati su due
livelli di analisi, lo studio è proseguito con la stima del modello multilivello (completo) contenente le variabili esplicative.
Relativamente alle variabili categoriche introdotte nel modello, si è reso necessario individuare per ciascuna di esse una modalità base o di riferimento nei confronti della quale valutare l’effetto di tutti gli altri livelli esistenti16, come in una
normale regressione. Relativamente a tale aspetto si è scelto di considerare come
modalità base di ciascuna covariata la caratteristica più diffusa nella popolazione di
studio, secondo i risultati ottenuti attraverso l’analisi descrittiva preliminare;
l’individuo che possiede tutte queste caratteristiche verrà denominato individuo-base.
Per quanto riguarda le variabili continue, per semplificare l’interpretazione
dei risultati, si è scelto di centrare le variabili continue di primo livello rispetto alla
loro media di gruppo e quelle di secondo livello rispetto alla loro media totale17. Si è
scelto dunque di utilizzare l’approccio group mean centering, che consente di considerare il cosiddetto “frog-pond effect” (Hox J.J., 2002). Nel caso qui considerato, ad
esempio, scegliendo come variabile esplicativa il voto al diploma riportato dagli studenti (voto), studiare questo effetto vuol dire analizzare come varia la relazione tra
tempo di conseguimento del titolo e la variabile voto, in dipendenza dal voto medio
al diploma osservabile nello specifico corso di laurea.
Le variabili esplicative utilizzate per la selezione del modello sono state scelte
in base ai suggerimenti forniti dalla conoscenza del fenomeno e alle conclusioni risultanti dall’analisi descrittiva svolta.
16
Dovendo utilizzare queste variabili ai fini dell’applicazione ai dati del modello multilivello, si è
scelto talvolta di adottare classificazioni delle variabili meno dettagliate rispetto a quelle presentate
durante l’analisi descrittiva. Naturalmente, un’analisi che tenga presente classificazioni più dettagliate
delle variabili potrà essere spunto per approfondimenti successivi.
17
Il calcolo della media di gruppo e della media totale delle medie di gruppo, come suggerito da Snijders e Bosker (1999), è stato effettuato su tutti i valori individuali a disposizione per la determinata
variabile analizzata prima della procedura di cancellazione dei records aventi dati mancanti relativi ad
altre variabili.
Modelli statistici per l’analisi della transizione Università-lavoro
75
Le variabili di primo livello, riportate in Tabella 1, possono essere classificate
in tre gruppi, ognuno dei quali riguarda un differente aspetto della vita dello studente:
variabili legate ai caratteri strutturali (variabili 1-4)
variabili legate alla preparazione preuniversitaria (variabili 5-7)
variabili legate all’esperienza universitaria (variabili 8-14).
Tabella 1. Variabili esplicative di primo livello
n.
Nome
variabile
1
sesso
2
3
4
Descrizione
Sesso
residenza Residenza
tit_gen
Titolo di studio dei
genitori18
Classe sociale della
cl_sociale
famiglia di origine
Tipo di diploma di
scuola superiore
5
diploma
6
Voto al diploma di
voto_dipl scuola superiore (in
sessantesimi)
Modalità di risposta
1= maschi
2= femmine
1= fuori Toscana
2= altra provincia Toscana
3= Po - Pt - Ar
4= Firenze
1= al più un diploma inferiore
2= almeno un genitore con diploma superiore
3= almeno un genitore con laurea
1= borghesia
2= classe operaia
3= classe media impiegatizia o
piccola borghesia
1= altro
2= tecnico
3= liceale
Categoria di
riferimento
Femmine
Firenze
Almeno un genitore con laurea
Classe media impiegatizia o piccola
borghesia
Liceale
Variabile centrata
rispetto alla media
di gruppo
1= maggiore di 19 anni (percorso di studi non regolare)
2= minore o uguale a 19 anni
(percorso di studi regolare)
Percorso di studi
regolare
7
eta_dipl
Età al diploma di
scuola superiore
8
rit_iscr
Tempo tra l’esame di
1= maggiore o uguale a 1 anno
maturità e l’iscrizio0 anni
2= 0 anni
ne all’Università
18
Per questa variabile è stata scelta come categoria di riferimento non la modalità più frequente (che
sarebbe stata “almeno un genitore con diploma superiore”), ma quella ritenuta più significativa per
studiare il contributo del livello di istruzione presente in famiglia sui tempi di laurea dello studente.
76
n.
Un modello multilivello per l’analisi della durata degli studi universitari
Nome
variabile
Descrizione
1= non regolare
Frequenza alle lezio2= regolare ad almeno alcuni
ni
corsi
Tipo di esperienze
1= stabile
10 esp_lav lavorative durante gli
2= non stabile
studi universitari19
Tirocinio o stage
1= sì
svolto per il comple11
tiroc
2= no
tamento degli studi
Votazione media ri12 voto_30 portata agli esami (in
trentesimi)
Tempo impiegato per
13 tempo_tesi la stesura della tesi
(in mesi)
1= svolto durante gli studi uniServizio militare o
versitari
14 militare civile svolto durante
2= non svolto durante gli studi
gli studi
universitari.
9
frequenz
Categoria di
riferimento
Modalità di risposta
Frequenza regolare
Non stabile
No
Variabile centrata
rispetto alla media
di gruppo
Variabile centrata
rispetto alla media
di gruppo
Non svolto durante
gli studi universitari
Nella tabella, per ogni variabile sono stati indicati: un nome convenzionale,
una breve descrizione del suo significato, le modalità di risposta ricodificate e la categoria di riferimento (categoria riferita all’individuo-base).
Da quanto indicato nella Tabella 1 emerge il profilo dell’individuo-base che
risulta essere:
femmina
residente a Firenze
almeno un genitore con laurea
appartenenza alla classe media impiegatizia o alla piccola borghesia
diploma di tipo liceale
voto al diploma medio all’interno del proprio CdL
percorso di studi pre-universitari regolare
iscritto subito all’Università
frequenza regolare alle lezioni universitarie
19
La scelta di inserire come variabile di primo livello il tipo di esperienze lavorative avute durante gli
studi universitari e non il fatto di aver avuto o meno tali esperienze è dovuta al fatto che tutti i laureati
appartenenti alla popolazione analizzata hanno indicato di aver avuto almeno un’esperienza di tipo lavorativo durante gli studi.
Modelli statistici per l’analisi della transizione Università-lavoro
77
esperienza di lavoro non stabile
nessuna attività di tirocinio o stage per il completamento degli studi
votazione media agli esami pari alla media nel proprio CdL
tempo medio all’interno del proprio CdL per la stesura della tesi
Le variabili di secondo livello (Tabella 2) utilizzate sono di tipo contestuale,
ovvero variabili che si riferiscono a caratteristiche proprie di ogni corso di laurea, espresse attraverso il valore della media di gruppo delle variabili di primo livello20.
Tabella 2. Variabili esplicative di secondo livello
n.
Nome variabile
Descrizione
1
maschi_CdL
2
noliceali_CdL
3
voto_dipl_CdL
4
frequenz_CdL
5
tiroc_CdL
Percentuale di maschi nel CdL
Percentuale di studenti con un
diploma superiore diverso dal
diploma liceale
Voto medio nel CdL riportato
dagli studenti al diploma di
scuola superiore (in sessantesimi)
Percentuale di studenti che non
frequentano regolarmente tutte
o quasi tutte lezioni
Percentuale di studenti che
hanno svolto attività di tirocinio
o stage per il completamento
degli studi
6
7
8
20
Modalità di
risposta
Votazione media nel CdL
voto_30_CdL
riportata agli esami (in
trentesimi)
Tempo medio nel CdL impietempo_tesi_CdL gato per la stesura della tesi (in
mesi)
Presenza nel CdL di limitazioni 1= sì
numchiuso
all’accesso
2= no
Valore di
riferimento
Variabile centrata
rispetto alla media
totale
Variabile centrata
rispetto alla media
totale
Variabile centrata
rispetto alla media
totale
No
Nel caso in cui le variabili di primo di livello sono categoriche, le rispettive variabili di secondo livello sono espresse dalla percentuale di studenti in ogni CdL per cui si osserva una modalità di risposta diversa da quella base.
78
Un modello multilivello per l’analisi della durata degli studi universitari
Seguendo la strategia di selezione21 sopra descritta si è ottenuto il modello:
ind _ durij = γ 00 + γ 10 j sesso ij + γ 20 j tit _ gen ij + γ 30 j diploma ij + γ 40 j voto _ dipl ij +
+ γ 50 j frequenz ij + γ 60 j esp _ lav ij + γ 70 j tiroc ij + γ 80 j voto _ 30 ij + γ 90 j tempo _ tesi ij +
+ γ 10, 0 j militare ij + γ 11, 0 j sesso * tempo _ tesi ij + γ 12, 0 j sesso * voto _ 30 ij +
+ γ 13, 0 j diploma * tit _ gen ij + γ 14, 0 j voto _ dipl * tempo _ tesi ij + (u 0 j + rij )
I risultati ottenuti sono riportati nella Tabella 3; i coefficienti riportati in quarta colonna indicano quanto cambia il tempo di laurea di uno studente iscritto ad un
corso di laurea di durata quadriennale al variare di un’unità delle variabili esplicative
corrispondenti.
L’intercetta γ 00 = 1.65 indica il valore dell’indice di durata (che per un corso
di laurea di durata quadriennale corrisponde a circa 6 anni e 7 mesi) quando le variabili esplicative di primo livello assumono un valore pari a 0 e gli errori di primo e di
secondo livello sono nulli, ovvero quando è osservato il tempo di conseguimento del
titolo del cosiddetto individuo-base all’interno di un CdL-base.
Tra le variabili di primo livello che non sono risultate significative (residenza,
cl_sociale, eta_dipl, rit_iscr) vi è la residenza dello studente. Tale risultato conferma
le osservazioni svolte in precedenza: la residenza degli studenti non sembra incidere
in maniera così netta sul valore dell’indice di durata anche se, come già segnalato, la
variabile da considerare dovrebbe essere il domicilio e non la residenza degli studenti.
Le stime dei coefficienti di regressione che hanno un valore positivo sono
quelle riguardanti la relazione tra indice di durata e le variabili tit_gen, diploma, frequenz, esp_lav, tempo_tesi, militare: questo significa che “allontanandosi” dal profilo base si ha un incremento dell’indice di durata e quindi un aumento dei tempi di
laurea.
La variabile diploma è significativa se presa nel suo insieme ma, dall’analisi
dei risultati riportati in Tabella 3, il passaggio da una situazione in cui lo studente ha
una preparazione preuniversitaria di tipo liceale ad una situazione in cui il tipo di
scuola superiore frequentata ricade nella categoria “altro” (né liceale, né tecnica) non
sembra avere influenza sui tempi di laurea degli studenti, mentre significativo è avere
una preparazione tecnica rispetto a quella liceale22.
21
Si è provveduto a migliorare di volta in volta il modello inserendovi differenti variabili esplicative e
le loro interazioni e togliendo quelle covariate non risultate significative attraverso l’analisi del test di
Wald al livello di significatività del 5%. Per un confronto tra modelli ottenuti attraverso l’inserimento
di parametri aggiuntivi ci si è basati sul test della devianza al livello di significatività del 5%; nonostante il software proceda in automatico al calcolo della statistica della devianza, il test ad esso relativo è stato calcolato manualmente. Inoltre, per confrontare modelli con differenti parametri, è stato utilizzato l’indice di adattamento AIC (Akaike’s Information Criterion).
22
Si segnala che sono state utilizzate anche altre classificazioni interne della variabile diploma, ma
nessuna di queste ha apportato dei miglioramenti complessivi al modello.
Modelli statistici per l’analisi della transizione Università-lavoro
79
Tabella 3. Effetti fissi: coefficienti di regressione
Effetto
Categorie
Intercetta
1.647
STIMA
(espressa
in mesi)
79.08
-0.102
-4.891
Stima
Errore
standard
Valore t
Pr > |t|
0.0567
29.05
<.0001
0.0233
-4.38
0.0001
sesso
1
sesso
2
0
0
.
.
.
tit_gen
1
0.188
9.010
0.0294
6.39
<.0001
tit_gen
2
0.109
5.251
0.0281
3.9
0.0002
tit_gen
3
0
0
.
.
.
diploma
1
0.0243
1.164
0.0577
0.42
0.6759
diploma
2
0.180
8.664
0.0571
3.16
0.0027
diploma
3
0
0
.
.
.
-0.011
-0.513
0.0014
-7.65
<.0001
voto_dipl
frequenz
frequenz
1
0.083
4.00
0.0352
2.37
0.0319
2
0
0
.
.
.
esp_lav
1
0.132
6.350
0.0224
5.91
<.0001
esp_lav
2
0
0
.
.
.
tiroc
1
-0.140
-6.730
0.0323
-4.34
0.0002
tiroc
2
0
0
.
.
.
voto_30
-0.011
-0.544
0.0095
-1.19
0.2338
tempo_tesi
0.013
0.647
0.0022
5.98
<.0001
0.228
10.944
0.0265
8.6
<.0001
militare
1
militare
2
0
0
.
.
.
sesso*tempo_tesi
1
0.009
0.419
0.0033
2.65
0.0082
sesso*tempo_tesi
2
0
0
.
.
.
sesso*voto_30
1
-0.032
-1.561
0.0128
-2.53
0.0114
sesso*voto_30
2
0
0
.
.
.
diploma*tit_gen
1*1
0.056
2.683
0.0662
0.84
0.4026
diploma*tit_gen
1*2
0.057
2.720
0.0705
0.8
0.4257
diploma*tit_gen
1*3
0
0
.
.
.
diploma*tit_gen
2*1
-0.181
-8.688
0.0638
-2.84
0.0068
diploma*tit_gen
2*2
-0.190
-9.106
0.0666
-2.85
0.0065
diploma*tit_gen
2*3
0
0
.
.
.
diploma*tit_gen
3*1
0
0
.
.
.
diploma*tit_gen
3*2
0
0
.
.
.
diploma*tit_gen
3*3
0
0
.
.
.
0.001
0.030
0.0003
2.37
0.0177
voto_dipl*tempo_tesi
80
Un modello multilivello per l’analisi della durata degli studi universitari
Molto interessante, inoltre, è osservare che, assunto come casuale l’effetto del
corso di laurea, essere maschio ha un effetto positivo sui tempi di laurea. Qualora le
altre variabili esplicative abbiano valore pari a 0, si avrà:
ind _ dur j (maschio) = 1,65 − 0,10(maschio = 1)ij + (u 0 j + rij )
e
ind _ durj ( femm) = 1,65 − 0,10( femm = 0)ij + (u0 j + rij ) ,
ossia un valore dell’indice di durata di circa 1.55 (che per un corso di laurea di durata
quadriennale corrisponde a circa 6 anni e 2 mesi) per i maschi e 1.65 per le femmine
(corrispondente a circa 6 anni e 7 mesi).
Una volta inserite nel modello le variabili esplicative di primo livello e le loro
interazioni, sono state aggiunte anche le variabili esplicative di secondo livello. Il
modello di regressione specificato separatamente per i singoli gruppi risulta, pertanto, espresso dall’equazione:


Yij =  β 0 j + ∑ β pj X pij  + rij
p


dove:
β 0 j = γ 00 + ∑ γ 0 q Z qj + u 0 j
q
Seguendo la strategia di selezione del modello sopra descritta, per il coefficiente β 0 j si è ottenuta l’equazione:
β 0 j = γ 00 + γ 01voto _ dipl _ CdL + γ 02 numchiuso + u 0 j
Quindi, il modello completo assume la forma:
ind _ durij = γ 00 + γ 10 j sesso ij + γ 20 j tit _ gen ij + γ 30 j diploma ij + γ 40 j voto _ dipl ij +
+ γ 50 j frequenz ij + γ 60 j esp _ lav ij + γ 70 j tiroc ij + γ 80 j voto _ 30 ij + γ 90 j tempo _ tesi ij +
+ γ 10, 0 j militare ij + γ 11, 0 j sesso * tempo _ tesi ij + γ 12, 0 j sesso * voto _ 30 ij +
+ γ 13, 0 j diploma * tit _ gen ij + γ 14, 0 j voto _ dipl * tempo _ tesi ij +
+ γ 01 voto _ dipl _ CdL + γ 02 numchiuso + (u 0 j + rij )
Nella Tabella 4 sono riportati i risultati ottenuti.
L’intercetta γ 00 = 1.69 indica il valore dell’indice di durata (che per un corso
di laurea di durata quadriennale corrisponde a circa 6 anni e 9 mesi) quando tutte le
variabili esplicative hanno un valore pari a 0 e gli errori di primo e di secondo livello
sono nulli, ovvero quando si osserva il tempo di conseguimento del titolo del cosiddetto individuo-base all’interno di un CdL-base.
Modelli statistici per l’analisi della transizione Università-lavoro
81
Tabella 4. Effetti fissi: coefficienti di regressione
Effetto
Categorie
Intercetta
sesso
sesso
tit_gen
tit_gen
tit_gen
diploma
diploma
diploma
voto_dipl
frequenz
frequenz
esp_lav
esp_lav
tiroc
tiroc
voto_30
tempo_tesi
militare
militare
sesso*tempo_tesi
sesso*tempo_tesi
sesso*voto_30
sesso*voto_30
diploma*tit_gen
diploma*tit_gen
diploma*tit_gen
diploma*tit_gen
diploma*tit_gen
diploma*tit_gen
diploma*tit_gen
diploma*tit_gen
diploma*tit_gen
voto_dipl*tempo_tesi
voto_dipl_CdL
numchiuso
numchiuso
1
2
1
2
3
1
2
3
1
2
1
2
1
2
1
2
1
2
1
2
1*1
1*2
1*3
2*1
2*2
2*3
3*1
3*2
3*3
1
2
Stima
1.689
-0.096
0
0.168
0.089
0
-0.002
0.170
0
-0.011
0.085
0
0.127
0
-0.149
0
-0.010
0.013
0.209
0
-0.035
0
0.009
0
0.070
0.073
0
-0.174
-0.176
0
0
0
0
0.001
-0.050
-0.378
0
STIMA
(espressa
in mesi)
81.058
-4.612
0
8.050
4.291
0
-0.109
8.150
0
-0.513
4.068
0
6.086
0
-7.162
0
-0.479
0.625
10.042
0
-1.674
0
0.442
0
3.342
3.527
0
-8.338
-8.462
0
0
0
0
0.029
-2.418
-18.154
0
Errore
standard
Valore T
Pr > |t|
0.0500
0.0229
.
0.0291
0.0278
.
0.0570
0.0563
.
0.0014
0.0347
.
0.0221
.
0.0317
.
0.0094
0.0022
0.0262
.
0.0127
.
0.0032
.
0.0652
0.0695
.
0.0629
0.0657
.
.
.
.
0.0003
0.0155
0.0521
.
33.78
-4.19
.
5.77
3.21
.
-0.04
3.01
.
-7.75
2.44
.
5.75
.
-4.7
.
-1.06
5.85
7.97
.
-2.76
.
2.83
.
1.07
1.06
.
-2.76
-2.68
.
.
.
.
2.29
-3.26
-7.26
.
<.0001
0.0002
.
<.0001
0.002
.
0.9685
0.004
.
<.0001
0.0275
.
<.0001
.
<.0001
.
0.288
<.0001
<.0001
.
0.0059
.
0.0047
.
0.2915
0.2961
.
0.0083
0.0101
.
.
.
.
0.0221
0.0025
.
.
82
Un modello multilivello per l’analisi della durata degli studi universitari
I coefficienti di regressione delle covariate voto_dipl_CdL e numchiuso esprimono l’effetto di queste due variabili di secondo livello sulla media tra gruppi
dell’indice di durata. Il fatto che il coefficiente γ 01 sia negativo indica che all’aumentare del voto medio che gli studenti hanno ottenuto al diploma migliorano i tempi di
laurea medi all’interno del gruppo.
Ancora più interessante, inoltre, è analizzare il coefficiente di regressione della
variabile numchiuso. Quando u0 j = 0 , si ha:
β 0 j = 1.69 − 0.37(numchiuso )
quindi:
β 0 j (numchiuso = 1) = 1.32
β 0 j (numchiuso = 0) = 1.69
Questo vuol dire che il valore medio dell’indice di durata risulta inferiore di
0.37 (corrispondente a circa 1 anno e quasi 6 mesi per un corso di laurea di durata
quadriennale) per quei CdL in cui vi è il cosiddetto numero chiuso rispetto a quelli in
cui non esiste nessuna limitazione all’accesso per le immatricolazioni.
Le variabili di secondo livello che singolarmente sono risultate significative,
ma che successivamente, attraverso l’applicazione del test della devianza e il calcolo
dell’indice di adattamento AIC sono state escluse dal modello, sono state: noliceali_CdL, frequenz_CdL, tempo_tesi_CdL. Questo indica che vi è una relazione tra il
tipo di preparazione preuniversitaria degli studenti che si iscrivono in un determinato
CdL, la loro frequenza media e il tempo medio richiesto per la stesura della tesi e i
tempi medi di laurea osservati all’interno dello specifico CdL, ma che le variabili voto_dipl_CdL e numchiuso spiegano una maggior variabilità del fenomeno risposta.
Passando all’analisi dei coefficienti di regressione delle variabili di primo livello e delle loro interazioni si rileva come questi sostanzialmente non siano cambiati
rispetto al modello precedentemente presentato. Inoltre, ancora una volta, le stime
dei coefficienti di regressione che hanno un valore positivo sono quelle riguardanti la
relazione tra indice di durata e le variabili tit_gen, diploma, frequenz, esp_lav, tempo_tesi, militare.
Infine, è stata svolta un’analisi dei residui sia di primo che di secondo livello
per verificare alcune ipotesi poste alla base del modello.
In particolare, è risultato che il valore della varianza di entrambe le componenti residue sono inferiori rispetto a quelli stimati attraverso il modello nullo: parte
della variabilità della variabile risposta dovuta sia all’effetto individuale che a quello
di gruppo è stata spiegata attraverso l’inserimento delle variabili esplicative. Inoltre,
è stato calcolato il coefficiente residuo di correlazione intra-classe; comparando tale
valore con quello calcolato attraverso il modello vuoto, si osserva come attraverso
l’inserimento delle variabili esplicative vi sia stata una diminuzione della percentuale
della varianza totale dell’indice di durata dovuta all’effetto del Corso di Laurea.
Modelli statistici per l’analisi della transizione Università-lavoro
83
L’analisi dei residui di secondo livello relativi al modello nullo ed al modello
finale ha permesso, tra le altre cose, di ottenere interessanti informazioni per quanto
riguarda il cosiddetto “effetto corso di laurea” sui tempi di conseguimento del titolo
degli studenti; infatti, è stato possibile costruire una sorta di “graduatoria” dei corsi
di laurea in termini di efficacia dovuta esclusivamente alle loro peculiarità. In particolare, è stato rilevato che parte della variabilità dei tempi di laurea degli studenti che
attraverso una prima analisi di natura descrittiva sembrava dovuta all’effetto proprio
dei diversi corsi di laurea è in realtà spiegabile altrimenti.
Solo per far un esempio, presupponendo come casuale l’effetto proprio del
gruppo, i corsi di laurea in Medicina e Chirurgia ed in Odontoiatria e protesi dentaria
sono risultati molto efficienti in termini di tempi di conseguimento del titolo degli
studenti mentre dopo l’inserimento nel modello delle variabili esplicative tale effetto
positivo è in qualche modo “scomparso”. Questo può essere spiegato dal fatto che i
due CdL considerati godono degli effetti positivi nei confronti dei tempi di laurea esercitati dalla presenza delle limitazioni all’accesso delle immatricolazioni, effetti
che sono stati controllati inserendo nel modello la variabile esplicativa relativa alla
presenza del numero chiuso all’interno del corso di studi. Inoltre, si rileva che sia
presupponendo la totale casualità dell’effetto del corso di laurea sia cercando di spiegarlo attraverso l’utilizzo delle variabili esplicative, gli effetti “estremamente” positivi e quelli “estremamente” negativi dei CdL rimangono gli stessi: solo per fare un
esempio, i CdL ad avere un effetto migliore sono Psicologia, Scienze Forestali e
Scienze dell’Educazione, mentre quelli ad avere effetti peggiori sono Materie Letterarie e Lingue e Letterature Straniere Moderne.
5.
Conclusioni
In questa nota sono stati descritti molto sinteticamente i risultati di un’analisi
dei tempi di conseguimento del titolo dei laureati dell’Ateneo fiorentino soffermando
l’attenzione sui laureati dell’anno solare 2000; su tali dati si è anche proceduto alla
stima di un modello multilivello. Obiettivo dell’applicazione è stato quello di esaminare i comportamenti individuali degli studenti universitari per quanto riguarda i tempi di
laurea in funzione di variabili esplicative di primo e secondo livello, dove le unità di
primo livello sono gli studenti e quelle di secondo livello sono i Corsi di laurea. I risultati dell’analisi possono essere utili ai fini di una miglior comprensione di un fenomeno
considerato unanimemente una criticità assoluta del sistema universitario italiano.
Il modello a cui si è giunti è un modello lineare gerarchico ad intercetta casuale, in cui si suppone un effetto costante tra gruppi delle variabili esplicative sulla variabile risposta (Yij).
84
Un modello multilivello per l’analisi della durata degli studi universitari
Le covariate di primo livello che sono risultate significative nello spiegare i
tempi di laurea degli studenti sono state sia variabili legate ai loro caratteri strutturali
(genere, titolo di studio dei genitori), sia variabili legate alla loro preparazione preuniversitaria (il tipo di scuola superiore frequentata, la votazione riportata all’esame di
maturità), sia variabili legate alla loro carriera universitaria (frequenza alle lezioni, il
tipo di esperienze lavorative avute durante gli studi, lo svolgimento o meno di un tirocinio, la votazione riportata agli esami, il tempo impiegato per la stesura della tesi,
lo svolgimento o meno del servizio militare o civile durante gli studi); inoltre, è stato
possibile rilevare come il fenomeno “tempi di laurea” è spiegato anche da alcune interazioni tra le variabili di primo livello. A livello di corso di laurea, i tempi impiegati dagli studenti per il conseguimento del titolo dipendono sia dal voto medio riportato dagli stessi all’esame di maturità, sia dalla presenza o meno del cosiddetto “numero chiuso” all’interno del CdL.
Naturalmente, le politiche universitarie d’intervento che dovrebbero essere
messe in atto ai fini della risoluzione del problema dell’eccessiva durata degli studi
potranno riguardare solo variabili legate alla vita universitaria degli studenti che in
qualche modo “agiscono” sui tempi di laurea degli stessi. Dall’analisi di tali variabili
è possibile rilevare come queste si trovano in relazione con l’organizzazione interna
dei corsi di studi: il tipo di frequenza richiesta, il fatto di lasciar tempo o meno per
diversi tipi di esperienze lavorative (stabili o non stabili), il tempo richiesto per la
stesura tesi, l’obbligatorietà o meno di svolgere attività di tirocinio o stage, possono
essere considerati indici di una “buona o cattiva” organizzazione interna della corso
di studi.
Anche il fatto che dall’applicazione del modello sia risultato significativo il
cosiddetto “numero chiuso” nello spiegare le differenze tra CdL rileva come una miglior organizzazione del corso incida sui tempi di laurea degli studenti. Infatti, generalmente, la limitazione all’accesso delle immatricolazioni, convogliando all’interno
dei Corsi di laurea solo un circoscritto numero di studenti solitamente molto motivati, ha degli effetti positivi sull’organizzazione della didattica, sulla gestione dei servizi agli studenti, sul numero dei docenti per studente, ecc. Anche l’inserimento nei
curricula di attività di tirocinio o stage può avere degli effetti positivi sui tempi di
laurea degli studenti agendo positivamente sull’organizzazione interna dei piani di
studi dei CdL.
I risultati delle analisi svolte, molto sommariamente richiamati in questa nota,
giustificano ampiamente, a nostro parere, il ricorso ai modelli multilivello quando si
procede all’analisi di dati che riguardano gli studenti universitari23; infatti, è del tutto
23
In tale direzione si sta movendo da tempo il gruppo VALMON (Valutazione e Monitoraggio). Il
gruppo, coordinato da B.Chiandotto e costituito da laureandi, dottorandi e docenti del Dipartimento di
Statistica dell’Università degli Studi di Firenze, da diversi anni svolge attività di studio e ricerca nel
contesto della valutazione e del monitoraggio dei processi formativi che si svolgono nell’Ateneo fio-
Modelli statistici per l’analisi della transizione Università-lavoro
85
evidente la natura gerarchica dei dati: le unità di primo livello sono gli studenti o i
laureati/diplomati, mentre le unità di secondo livello sono i corsi di studio. Ovviamente la gerarchizzazione può essere estesa ad un numero di livelli più elevato: ad
esempio le Facoltà possono rappresentare il terzo livello e gli Atenei il quarto livello.
Riferimenti bibliografici
BULGARELLI G. (2002) Esito degli studi degli immatricolati dell’Ateneo Fiorentino dal 1980/81 al 1997/9, Università degli Studi di Firenze, consultabile anche sul sito www.unifi.it/aut_dida/indexval.html.
CHIANDOTTO B. (2002) Valutazione dei processi formativi: cosa, come e perché,
in Valutazione della Didattica e dei Servizi nel Sistema Università.In
D’ESPOSITO M.R. (a cura di) Valutazione della Didattica e dei Servizi nel
Sistema Università. CUSL, Salerno 2002.
CHIANDOTTO B., BACCI S., BERTACCINI B. (2004) I laureati e diplomati
dell’Ateneo Fiorentino dell’anno 2000: profilo e sbocchi professionali, Università degli Studi di Firenze.
CHIANDOTTO B., BERTACCINI B. (2003) I laureati e diplomati dell’Ateneo Fiorentino dell’anno 1999: profilo e sbocchi professionali, Università degli Studi
di Firenze.
COBALTI A., SCHIZZEROTTO A. (1994) La mobilità sociale in Italia, Il Mulino,
Bologna.
GOLDSTEIN H. (2003) Multilevel Statistical Models, Edward Arnold, London.
HOX J.J. (2002) Multilevel Analysis: Techniques and Applications, LAWRENCE
ERLBAUM ASSOCIATES, Mahwah (New Jersey), London.
SAS INSTITUTE INC. (1999) SAS/STAT® User’s Guide, Version 8, SAS Institute
Inc., Cary NC.
SNIJDERS T., BOSKER R. (1999) An Introduction to Basic and Advanced Multilevel Modeling, Sage, London.
VARRIALE R. (2004) Tempi di conseguimento del titolo nell’Università degli Studi
di Firenze nel periodo 1980-2000 e applicazione di un modello lineare gerarchico ai laureati nell’anno solare 2000, Tesi di laurea, Università degli
Studi di Firenze.
rentino. Tale interesse è testimoniato, tra l’altro, da altri due lavori presentati in questa sede: “Un modello multilivello per l’analisi della condizione occupazionale dei laureati” (Chiandotto B. e Bacci
S.); “L’abbandono degli studi universitari” (Chiandotto B. e Giusti C.).
86
Un modello multilivello per l’analisi della durata degli studi universitari
A multilevel model for the analysis
of university students’ time to degree
Summary. This paper deals with the analysis of the time that students need to graduate, since this topic represents one of the most critical aspects of the Italian University System. The analysis is conducted using data concerning the students enrolled at
the University of Florence in the academic years from 1980 to 2000, focusing on the
data concerning the graduates during the calendar year 2000. The aim of the work is
to find out the predictors that explain the time that students need to graduate. The
initial analysis is conducted by descriptive statistical methods, then the work is accomplished by applying a hierarchical linear model on students’ graduation time.
The use of a multilevel analysis was suggested by the two-level data structure: the
first level units are identified by the students; the second level units are the degree
courses in which these students graduated.
The level-1 predictors that result in being significant to explain the time that students
need to graduate are variables regarding students’ structural characteristics, their
educational background and their university career. At level-2 (degree courses), the
time that students need to graduate depends on the average high school final grade
and the presence of limits of the maximum number of students allowed in that specific degree course.
Keywords: Time needed to graduate, Multilevel models, Hierarchical linear regression.
Valutazione della qualità della formazione
universitaria percepita dai laureati
e diplomati dell’Ateneo fiorentino:
un’applicazione del modello ECSI1
Bruno Chiandotto, Matilde Bini, Bruno Bertaccini
Dipartimento di Statistica “G. Parenti”, Università degli Studi di Firenze
Riassunto. Nell’ambito del sistema universitario, gli studenti rappresentano gli utenti
e gli attori principali dei servizi formativi offerti dagli Atenei. Una misura della loro
percezione di qualità del servizio fruito risulta essenziale in vista dell’obiettivo
dell’attivazione di possibili interventi tesi all’innalzamento dei livelli qualitativi dei
servizi stessi. Tale constatazione ha suggerito di procedere ad una sperimentazione
della metodologia ECSI (European Customer Satisfaction Index), che trova il suo sostanziale fondamento nell’implementazione di un modello ad equazioni strutturali
capace di rappresentare la soddisfazione degli studenti/utenti sulla base di certe determinanti, tipicamente latenti, che vengono valutate attraverso uno specifico insieme
di indicatori direttamente osservabili. La tecnica proposta, già sperimentata in relazione ad indagini sulla qualità percepita dagli studenti, viene estesa anche ad informazioni acquisite intervistando laureati e diplomati che svolgono un’attività lavorativa ad oltre un anno dal conseguimento del titolo. La popolazione oggetto di riferimento dell’analisi è costituita da coloro che hanno conseguito il titolo presso
l’Università degli Studi di Firenze nell’anno solare 2000.
Parole chiave: Customer satisfaction, ECSI, Modelli ad equazioni strutturali, Qualità della formazione universitaria.
1
Il presente lavoro è stato finanziato nell’ambito del PRIN 2002, cofinanziato dal MIUR “Transizioni
Università-lavoro e valorizzazione delle competenze professionali dei laureati: modelli e metodi di
analisi multidimensionali delle determinanti”. Coordinatore nazionale è Luigi Fabbris, coordinatore
del gruppo di Firenze è Bruno Chiandotto (titolo del progetto dell’unità di ricerca locale “Valutazione del processo formativo universitario, sbocchi professionali e pianificazione dei percorsi formativi: modelli e metodi”).
L’idea iniziale, la struttura e l’impostazione del lavoro sono dovuti al contributo dei tre autori, mentre le elaborazioni e l’implementazione del modello sono da attribuire a M. Bini e B. Bertaccini.
88
Valutazione della qualità della formazione universitaria percepita dai laureati...
1. Introduzione
Se la customer satisfaction è intesa come una valutazione complessiva delle prestazioni di un’azienda, ente o istituzione, relative alla produzione di un bene o
all’erogazione di un servizio (Fornell, 1992; Fornell et al, 1996), si deve a ragione ritenere di qualità quel prodotto/servizio che risponde alle esigenze e alle attese dei potenziali clienti/utenti cui è destinato. Risulta pertanto chiaro come l’adozione di opportuni interventi volti al miglioramento della qualità, rappresenti una delle principali
strategie delle varie organizzazioni produttrici/erogatrici tese all’acquisizione di più
elevati livelli di produttività e maggiori vantaggi competitivi (Montgomery, 1996).
Gli studi sulla soddisfazione devono, pertanto, essere necessariamente volti ad acquisire informazioni utili all’innalzamento della qualità di quanto è stato prodotto o erogato, prestando particolare attenzione alla comprensione delle determinanti e delle
conseguenze di un’esperienza di consumo o di fruizione.
Negli ultimi decenni, le analisi di customer satisfaction hanno assunto rilevanza
a livello nazionale con l’introduzione di indici (CSI – Customer Satisfaction Indices)
e barometri volti alla valutazione della soddisfazione di interi mercati se non della
produzione complessiva di un intero paese. La genesi di queste particolari strumentazioni è da ricercarsi nelle due diverse prospettive che originano le analisi relative alla
soddisfazione: transaction-specific satisfaction e cumulative satisfaction (Johnson
M.D. et al, 2000). Da un interesse originariamente rivolto al primo approccio, basato
sul singolo episodio di consumo, è stata rivolta negli ultimi anni una crescente attenzione a tutti quegli aspetti prettamente psicologici che inducono a definire la soddisfazione come l’esperienza complessiva che il consumatore/fruitore matura con il
prodotto/servizio o con l’organizzazione produttiva/erogatrice nel corso del tempo.
Valutazioni di questo tipo scaturiscono quindi da più atti di transazione e non si limitano al singolo episodio, dato che il consumatore/fruitore procede ad un continuo aggiornamento della sua esperienza di consumo/fruizione (Johnson et al., 2000).
Il primo modello in tale direzione è stato il barometro proposto in Svezia nel
1989 (SCSB – Swedish Customer Satisfaction Barometer) seguito, a distanza di qualche anno, dall’indice americano (ACSI – American Customer Satisfaction Index,
1994), dal barometro norvegese (NCSB – Norwegian Customer Satisfaction Barometer, 1996) e dall’indice proposto nell’ambito dalla Comunità Europea (ECSI – European Customer Satisfaction Index, 1999).
Basati su teorie sviluppate e convalidate nel corso degli anni, relative al comportamento dei consumatori, alla loro soddisfazione e alla qualità dei prodotti acquistati, i nuclei centrali di questi modelli si sostanziano in nessi causali attesi tra un certo numero di fattori latenti ognuno dei quali è deputato a “spiegare” le determinazioni di uno specifico insieme di indicatori (o variabili di misura) direttamente osservabili. La loro struttura è costantemente sotto revisione e soggetta a modificazioni in
Modelli statistici per l’analisi della transizione Università-lavoro
89
relazione ai contesti di applicazione; pertanto, le differenze tra le varie proposte presenti in letteratura sono esclusivamente ascrivibili sia al numero di fattori latenti
coinvolti nell’analisi, sia al numero dei nessi causali in essa previsti.
Obiettivo del presente lavoro è sperimentare gli indici CSI nell’ambito della
formazione universitaria. In particolare, la scelta è stata indirizzata sul modello ECSI, dato che la sua parte strutturale, per il tipo di fattori latenti previsti, è quella più
consona alla realtà oggetto d’analisi. Al fine di delineare un quadro il più completo
possibile delle determinanti della qualità delle proposte formative adottate dagli Atenei, sono stati intenzionalmente introdotti nell’analisi anche alcuni aspetti relativi alla
situazione lavorativa e all’opinione dei laureati e diplomati che risultano occupati ad
oltre un anno dal conseguimento del titolo, quali conseguenza diretta dell’esperienza
di fruizione del servizio ricevuto. Tale strategia ha condotto a risultati incoraggianti,
che dimostrano la validità dell’approccio d’analisi nel porre in luce quegli elementi
di criticità del sistema universitario che si riflettono sulla qualità della didattica e dei
servizi ad essa correlati.
Lo strumento ritenuto più appropriato alla stima degli effetti previsti in questi
modelli, data l’articolazione della parte strutturale che li contraddistingue, è
l’approccio proposto nel contesto della teoria dei Modelli ad Equazioni Strutturali (acronimo SEM dall’inglese Structural Equation Models). In proposito si deve sottolineare che la tecnica inizialmente suggerita per pervenire alla stima delle variabili latenti presenti nei modelli CSI (Fornell, 1992) è il cosiddetto metodo Partial Least
Squares (PLS, Wold, 1975)2. Tuttavia si è scelto di ricorrere all’approccio di stima
proprio dei modelli ad equazioni strutturali, il quale, essendo basato su procedure di
stima di massima verosimiglianza, abbina ad una maggiore “libertà nella specifica
dei parametri la possibilità di verificare la significatività di quelli omessi (es. covarianza degli errori). Infine, ma non ultimo in ordine di rilevanza, i recenti contributi
di Müthen & Müthen (2003) ne hanno aumentato l’efficienza dal punto di vista computazionale e la flessibilità di implementazione.
Il lavoro si articola in sei paragrafi di cui il secondo è dedicato ad una descrizione dei modelli ACSI/ECSI, il terzo alla rassegna delle fonti utilizzate ed il quarto
ad una descrizione sintetica dei modelli ad equazioni strutturali; nel quinto vengono
commentati i risultati ottenuti mentre nel sesto sono riportate alcune considerazioni
conclusive.
2
Questa proposta trovava fondamento nella constatazione che gli alternativi approcci di stima per variabili latenti erano caratterizzati da ipotesi di specificazione più restrittive, principalmente riguardanti il requisito di normalità delle osservazioni. A favore dell’approccio PLS si può osservare che
nonostante la comprovata distorsione degli stimatori, tale metodo di stima è in grado di fornire predizioni ottimali della variabile dipendente; in aggiunta verifiche empiriche ne hanno dimostrato la
sua bontà di comportamento sia nel caso di piccoli campioni che di distribuzioni asimmetriche.
90
Valutazione della qualità della formazione universitaria percepita dai laureati...
2. Struttura dei modelli ACSI / ECSI
Il nucleo di un modello CSI è costituito da un certo numero di fattori latenti, ognuno
dei quali è deputato a motivare le variazioni rilevate da indicatori multipli, tipicamente osservabili. Le potenzialità dell’approccio risiedono nei legami ipotizzati tra i
fattori latenti, che prendono origine da un sistema di cause ed effetti tra quelle che
sono le possibili determinanti della soddisfazione e le sue conseguenze.
Il modello ECSI costituisce un’evoluzione del modello ACSI. Le aspettative
del consumatore/fruitore, la qualità e il valore percepito, la soddisfazione e il concetto di fedeltà assumono nel modello ECSI una configurazione strutturale del tutto analoga a quella prevista per l’indice americano. Ci sono però due fondamentali differenze fra questi modelli: il modello ECSI non prevede l’incidenza del comportamento di reclamo quale conseguenza della soddisfazione. Inoltre include la corporate
image come variabile latente e si ipotizza che quest’ultima abbia effetti diretti sulle
aspettative, sulla soddisfazione e sulla fedeltà del consumatore.
In dettaglio, le determinanti della soddisfazione previste in questi modelli sono:
Qualità Percepita: si riferisce alla valutazione delle recenti esperienze di consumo/fruizione relative agli attributi del prodotto/servizio (perceived quality
of hardware - QUAHW) e alle attività di supporto fornite sia durante che
dopo l’esperienza di consumo/fruizione (perceived quality of humanware QUAUW). Si suppone che entrambi i fattori abbiano un diretto e positivo
effetto sulla soddisfazione complessiva (overall satisfaction);
Valore (Value - VALU): rappresenta il valore della qualità percepita in relazione al prezzo pagato. Si ritiene che tale fattore causi positivamente la soddisfazione complessiva e sia influenzato dalla qualità percepita;
Immagine (Image - IMAG): riguarda la sfera delle sensazioni derivanti
dall’associazione prodotto/marca/azienda. Si ipotizza che questo fattore incida positivamente sul valore, sulla soddisfazione complessiva e sulla fedeltà; alcuni autori inoltre ritengono che l’immagine possa produrre un effetto
diretto anche sulla qualità percepita, sebbene il modello ECSI classico consideri questi due aspetti come fattori esogeni;
Aspettative (Expectations - EXPE): è il livello di qualità che
l’acquirente/fruitore si attende di ricevere ed è generalmente il risultato di
precedenti esperienze di consumo/fruizione. Anche questo è ritenuto un fattore esogeno capace di incidere positivamente sia sul valore che sulla soddisfazione complessiva.
Le conseguenze della soddisfazione sono:
Reclami (Complaints - COMP): questo fattore si riferisce al tipo e
all’intensità dei reclami e, soprattutto, al modo con cui questi vengono trat-
Modelli statistici per l’analisi della transizione Università-lavoro
91
tati. Nel modello ACSI ci si attende che un incremento del livello complessivo di soddisfazione produca una diminuzione dell’incidenza dei reclami;
Fedeltà (Loyalty - LOYA): è l’ultimo fattore presente nei modelli ed è ritenuta una proxy della capacità di profitto dell’organizzazione, in quanto determinante di indicatori quali le intenzioni di riacquisto, la tolleranza alle variazioni di prezzo, le intenzioni di raccomandare il prodotto o servizio ad altri. Si ipotizza che elevati livelli di immagine e di soddisfazione complessiva siano in grado di attivare nel consumatore quello che viene definito processo di fidelizzazione.
In Figura 1 viene riproposto graficamente quanto sopra richiamato, cioè le variabili latenti e le relazioni previste espresse in termini di nessi di causalità.
Figura 1. Modello ACSI / ECSI: parte strutturale e relazioni attese
IMAG
+
+
LOYA
+
EXPE
+
+
VALU
+
-/+
SATI
+
+
QUAHW
+
QUAUW
+
COMP
In relazione agli scopi preposti si è intenzionalmente deciso di adottare la versione europea dell’indice di customer satisfaction, in quanto ritenuta la più idonea a
rappresentare il fenomeno di interesse date le fonti disponibili, fonti che verranno illustrate nel paragrafo successivo.
Sulla base delle informazioni disponibili e delle analisi preliminari condotte e,
soprattutto, sulla base della conoscenza pregressa del fenomeno, la parte strutturale
del modello di riferimento per le analisi che seguono è quella rappresentata in Figura 2.
92
Valutazione della qualità della formazione universitaria percepita dai laureati...
Figura 2. Modello ECSI atteso per la valutazione della qualità della formazione
universitaria
IMAG
EXPE
VALU
SATI
LOYA
QUAHW
QUAUW
determinanti
conseguenze
3. La base dati utilizzata
Gli studi di customer satisfaction sono generalmente basati su schemi di indagine che
prevedono l’impiego di questionari ad hoc, volti a rilevare tutti quegli aspetti che sono ritenuti in qualche modo correlati alle determinanti e/o alle conseguenze di
un’esperienza di consumo/fruizione.
Nel contesto in esame - la valutazione della qualità della formazione universitaria quale servizio erogato dall’Ateneo fiorentino -, l’indisponibilità di un simile
strumento di misura ha di fatto condotto alla creazione di una base dati contenente
informazioni provenienti sia dall’indagine ALMALAUREA sul “Profilo dei Laureati”
al conseguimento del titolo, che dalla rilevazione sugli ‘Sbocchi occupazionali dei
laureati dell’Università degli Studi di Firenze nell’anno solare 2000’, realizzata dal
Gruppo VALMON3 in collaborazione con il Dipartimento di Statistica ‘G. Parenti’
3
Il gruppo, coordinato da B. Chiandotto e costituito da laureandi, dottorandi e docenti del Dipartimento di Statistica dell’Università degli Studi di Firenze, da diversi anni svolge attività di studio e ricerca nel contesto della valutazione e del monitoraggio dei processi formativi che si svolgono
nell’Ateneo fiorentino.
Modelli statistici per l’analisi della transizione Università-lavoro
93
quale integrazione della stessa effettuata sempre nell’ambito del progetto ALMALAU4
. In particolare, quest’ultima è stata condotta tramite interviste telefoniche della
durata massima di 20 minuti e ricorrendo alla tecnica C.A.T.I. (Computer Aided Telephone Interviewing). La scelta di tale strumento di rilevazione è ovviamente giustificata dalla riduzione dei tempi d’indagine e dagli elevati tassi di risposta ottenibili
rispetto alle altre modalità di intervista5.
Risulta in questa sede superfluo dilungarsi oltre sulle esigenze conoscitive che
hanno condotto alla pianificazione di queste due rilevazioni6, esigenze ovviamente
del tutto differenti rispetto a quelle dettate da una valutazione di customer satisfaction. Quello che invece è importante sottolineare è l’ampiezza della gamma di informazioni desumibili dai due questionari utilizzati, informazioni che hanno consentito
di derivare un quadro completo di quella che è la qualità del prodotto finito
dell’Ateneo. In particolare, la completa disponibilità di queste fonti ha consentito di
ipotizzare un modello di valutazione complessiva della qualità della formazione universitaria che contempla non solo informazioni relative alla percezione dell’esperienza di studio al momento del conseguimento del titolo, ma anche informazioni relative
alla percezione della qualità dell’attività lavorativa svolta nonché dell’esperienza di
studio valutata alla luce di tale attività.
L’allettante prospettiva di poter abbinare informazioni rilevate al conseguimento del titolo con quelle rilevate ad oltre un anno dallo stesso e relative anche ad alcuni aspetti dell’occupazione svolta ha, però, di fatto comportato l’esclusione
dall’analisi di tutti quei soggetti che ad oltre un anno dal termine degli studi universitari risultavano non occupati.
Le variabili derivate dai questionari relativi alle indagini suddette, ritenute potenzialmente in grado di misurare aspetti inerenti la soddisfazione, sono:
i motivi di iscrizione all’Università e al corso di studi;
la valutazione dei rapporti con il personale docente, gli assistenti, il personale non docente, gli studenti;
REA
4
Le indagini sugli Sbocchi Occupazionali condotte da AlmaLaurea, come è noto, coinvolgono i laureati
della sola sessione estiva, che vengono monitorati nei tre anni (o cinque anni) successivi alla conclusione degli studi; l’Ateneo fiorentino ha pertanto ritenuto opportuno estendere le rilevazioni condotte
negli anni 1998, 1999, 2000 e 2001 a poco più di un anno dal conseguimento del titolo, al collettivo dei
laureati e diplomati di tutte le sessioni dell’intero anno solare corrispondente. Queste rilevazioni rientrano nella sfera delle iniziative adottate negli ultimi anni dall’Università degli Studi di Firenze, volte
essenzialmente alla misura dell’efficacia (interna ed esterna) dei percorsi didattici intrapresi.
5
Il disegno d’indagine ha previsto anche l’invio postale di un questionario opportunamente adattato a
tutti coloro che non sono stati contattati durante la fase telefonica della rilevazione, al solo scopo di
accertare eventuali differenze sostanziali sui temi centrali dell’indagine con coloro che, invece, erano già stati raggiunti telefonicamente.
6
Chi è interessato può utilmente consultare il volume Chiandotto B., Bacci S., Bertaccini B. (2004).
“Profilo e Sbocchi occupazionali dei laureati e diplomati dell’Ateneo fiorentino nell’anno 2000”.
Università degli Studi di Firenze.
94
Valutazione della qualità della formazione universitaria percepita dai laureati...
la valutazione delle strutture universitarie (aule, laboratori, biblioteche,
mense);
la soddisfazione espressa in relazione sia ad alcuni aspetti dell’attività lavorativa svolta (coerenza con gli studi fatti, rispondenza ai propri interessi culturali, acquisizione di professionalità) sia in termini complessivi;
i pareri espressi in merito alla prospettata ipotesi di reiscrizione sia
all’università che allo stesso corso di studi;
la manifestata intenzione di proseguire gli studi e le attività formative svolte.
Quasi tutte le variabili menzionate sono di tipo dicotomico o ordinale, qualora
derivino da risposte valutate su scale 1 – 5.
Data la mole di informazioni ed il numero di soggetti intervistati non si è ritenuto opportuno eseguire procedure finalizzate all’imputazione dei dati mancanti, optando per la rimozione di tutti i casi con informazione incompleta; il sottoinsieme dei
casi selezionati è pertanto risultato pari a 1753 unità.
Nella Tavola 1 viene proposta la parte di misura del modello ECSI ipotizzato,
in cui sono rappresentate le presunte relazioni tra le variabili direttamente osservate
ed i costrutti latenti previsti .
Tavola 1. Descrizione della parte di misurazione del modello ECSI ipotizzato
Costrutti latenti
IMAG:
EXPE:
QUAHW:
QUAUW:
Variabili osservate
Motivi iscrizione Università: MOTISCR1, MOTISCR2, MOTISCR3
Motivi iscrizione allo specifico Corso di Studi: MOTCOR1, MOTCOR2, MOTCOR3, MOTCOR4, MOTCOR6
Valutazione aule, biblioteche, laboratori e mense (scala 1 - 5): STRAULE, STRBIB, STRLIB, STRMENSE
Valutazione rapporti con docenti, assistenti, non docenti, studenti e
complessiva(scala 1 - 5): RAPDOC, RAPCOL, RAPNDOC, RAPSTUD,
GIUDIZIO
VALU:
SATI:
LOYA:
Soddisfazione per coerenza con gli studi, rispondenza ai
propri interessi culturali (scala 1 - 5): SODDCOER, SODDICUL
Soddisfazione per l’acquisizione di professionalità e complessiva
(scala 1 - 5): SODDPROF, SODDTOT,
Ipotesi di reiscrizione, intenzione di proseguimento degli studi e attività formative svolte: IPREISC, OKUNIV, OKCOR, INTSTUD, ATTFORM
Modelli statistici per l’analisi della transizione Università-lavoro
95
4. Cenni sui Modelli ad Equazioni Strutturali
I modelli ad equazioni strutturali si sono caratterizzati negli ultimi anni per un crescente e costante sviluppo sia sul versante teorico che su quello applicativo7. I più recenti contributi metodologici sono, in particolare, testimoni di un allargamento degli
ambiti disciplinari di applicazione, con risvolti notevoli sugli approcci analitici e sulle tecniche di stima.
I modelli ad equazioni strutturali derivano dalla convergenza di due specifiche
tradizioni scientifiche: quella econometrica, dalla quale hanno preso il concetto della
rete di relazioni causali tra variabili (nel contesto del più generale problema di traduzione empirica del processo di causazione), e quella psicometrica, dalla quale hanno
assunto la nozione di variabile latente (nel più generale contesto dei problemi di misura). Data questa loro genesi, alla quale si devono aggiungere i contributi della sociologia (con la path analysis), i modelli di equazioni strutturali hanno trovato, e trovano, sempre più ampia applicazione in medicina, biometria, psicometria, sociologia,
scienze dell'educazione, economia, scienze politiche.
Nell'espressione modelli ad equazioni strutturali sono sintetizzati due concetti.
In primo luogo l'esistenza di un modello, cioè dell'espressione formalizzata di una teoria. In secondo luogo la formalizzazione della struttura di tale modello mediante un sistema di equazioni che ne rappresentano gli ipotetici nessi causali. Il modello, come
tale, appartiene all'ambito teorico, in quanto espressione semplificata e formalizzata di
una teoria; in altre parole, la formulazione modellistica di una teoria implica sempre
da un lato la sua semplificazione concettuale e, dall'altro, la formalizzazione della sua
formulazione. Nei modelli ad equazioni strutturali questa formalizzazione avviene
mediante un sistema di equazioni. Da qui la definizione di “modelli ad equazioni
strutturali” (noti anche con l’acronimo inglese SEM - Structural Equation Models). È
possibile quindi affermare che il modello ad equazioni strutturali rappresenta una espressione semplificata e formalizzata dei nessi causali che si suppone esistano nella
realtà, dove riduzione della complessità della teoria e formulazione secondo un insieme sintattico di simboli ne rappresentano i due elementi qualificanti (Corbetta, 2002).
Generalmente, nel considerare i modelli ad equazioni strutturali con variabili
latenti si fa riferimento al cosiddetto modello LISREL (LInear Structural RELationship), sviluppato dalla scuola psicometrica svedese, insieme all’omonimo software
(Jöreskog, 1973; Jöreskog, 1990; Jöreskog e Sörbom, 1984). Come noto il modello
LISREL si caratterizza per la presenza di due componenti: un modello strutturale,
deputato a spiegare i nessi causali tra le variabili latenti, ed un modello di misurazio7
Ne fanno fede la nascita, nel 1994, di una rivista trimestrale specificamente riferita a questa prospettiva metodologica (Structural Equation Modeling: a Multidisciplinary Journal), la fondazione negli
stessi anni di una rete e di un bollettino elettronico finalizzato allo scambio scientifico fra gli studiosi, ed infine il fiorire di nuovi software loro dedicati, indicatori questi che più di altri segnalano l'esistenza di una domanda crescente e variegata di applicazione di questa strumentazione.
96
Valutazione della qualità della formazione universitaria percepita dai laureati...
ne atto alla loro valutazione mediante le variazioni rilevate sulle variabili osservate.
Ricorrendo alla usuale notazione, il modello LISREL può essere espresso con:
η = Β η + Γξ + ζ
parte strutturale
x = Λ xξ + δ
y = Λ yη + ε
parte di misurazione
con una struttura di covarianza indicata da:
e con le seguenti restrizioni:
Cov(ζ ) = Ψ
Cov(ξ ) = Φ
Cov(ε ) = Θε
Cov(δ ) = Θδ
E (η ) = E (ζ ) = 0
E (ξ ) = 0
E (ε ) = 0
E (δ ) = 0
E (ξζ ' ) = 0
E (ηε ' ) = 0
E (ξδ ' ) = 0
variabili indipendenti ed errori tra
loro incorrelati nella stessa equazione
E(ηδ ' ) = 0
E (ξε ' ) = 0
variabili indipendenti ed errori tra
loro incorrelati fra equazioni
E (ζε ' ) = 0
E(ζδ ' ) = 0
E (εδ ' ) = 0
errori delle diverse equazioni tra loro incorrelati
dove y e x sono vettori di variabili osservate rispettivamente endogene ed esogene, η
e ξ i vettori delle variabili latenti rispettivamente sottostanti, Β, Γ, Λy e Λx le matrici dei coefficienti ed ε e δ i termini di errore della parte di misura (per approfondimenti si veda Bollen, 1989; Corbetta, 2002).
Adattare un modello SEM ai dati significa quindi risolvere un sistema di equazioni. Nei SEM si assume solitamente che i dati campionari seguano una distribuzione
normale multivariata, così che il vettore delle medie e la matrice di covarianza contengano tutta l’informazione necessaria al procedimento di stima: gli algoritmi per la
stima degli effetti seguono, in tal caso, procedure sofisticate che, tenendo conto di tut-
Modelli statistici per l’analisi della transizione Università-lavoro
97
te le restrizioni sopra esposte, massimizzano il grado di adattamento del modello minimizzando la distanza tra la matrice di varianza e covarianza osservata rispetto a
quella attesa indicata dal sistema di equazioni. Il metodo più ampiamente utilizzato
per la stima è, in questo caso, quello di massima verosimiglianza ML (Maximum Likelihood), che richiede però una dimensione campionaria di almeno 200 osservazioni.
Esistono comunque una varietà di procedure di stima che possono essere utilizzate in presenza di dati continui di tipo non normale; in tal caso, il vettore delle medie e la matrice di covarianza non rappresentano la totalità dell’informazione e tali
procedure alternative necessitano di tutta la matrice dei dati grezzi. Tra queste procedure, la più comune è quella denominata ADF (Asymptotically Distribution Free) o
WLS (Weighted Least Sqares). Studi di simulazione mostrano che con dati che non
si distribuiscono normalmente, le stime ADF posseggono proprietà ottimali solo per
campioni di elevata numerosità (almeno 1000 casi). Da sottolineare che, anche in
queste situazioni, la stima ML continua a mostrare proprietà ottimali, sebbene siano
necessarie almeno 400 osservazioni (Hox, 1998).
Un problema diverso sorge in presenza di dati categorici ordinali. In tali situazioni, risulta usuale considerare le varie modalità rilevate come osservazioni ‘imprecise’ provenienti da variabili continue distribuite normalmente. Sotto quest’ipotesi è
possibile calcolare le cosiddette correlazioni policoriche, il cui termine sta ad indicare le correlazioni stimate tra variabili normali non osservate. Tali correlazioni costituiscono l’informazione di base della procedura di stima, che generalmente si avvale
dell’algoritmo ADF per la valutazione degli effetti. Ancora una volta, requisito essenziale per l’adozione di tale procedura è una numerosità campionaria sufficientemente elevata. In alternativa si può ignorare la natura categorica delle variabili, purché il numero delle modalità non sia limitato (almeno 5) ed i dati abbiano una distribuzione approssimativamente normale.
Le statistiche test deputate alla verifica del grado d’adattamento presentano il
problema di dipendenza della loro potenza alla dimensione campionaria; in altri termini, se il campione è molto grande, una statistica test basata sul chi-quadro risulterà
quasi sicuramente significativa, suggerendo di respingere il modello anche nel caso
in cui questo stia descrivendo i dati in maniera più che soddisfacente. Specularmente,
nel caso di dimensioni campionarie limitate, il rischio in cui si incorre è quello di accettare sempre il modello, anche in presenza di un pessimo adattamento.
Appurata l’elevata sensibilità della statistica chi-quadro alla dimensione campionaria, in letteratura è stata proposta una serie di indici atti a misurare il grado di
vicinanza delle osservazioni al modello ipotizzato, indici che spesso tengono conto
non solo dell’effettivo livello d’adattamento, ma anche del grado di semplicità, o parsimonia, evidenziata dal modello stesso8. Pertanto, se due modelli evidenziano lo stes8
Un modello saturo, che contempla tutte le possibili relazioni tra le variabili, si adatta sempre perfettamente ai dati, ma ha lo svantaggio di essere caratterizzato da un livello di complessità pari soltanto
a quello mostrato dai dati osservati.
98
Valutazione della qualità della formazione universitaria percepita dai laureati...
so livello d’adattamento, si tenderà a preferire il più parsimonioso tra i due; esiste
quindi una sorta di trade-off tra semplicità del modello e sua capacità rappresentativa.
Tra gli altri, Jöreskog e Sörbom hanno introdotto due indici denominati GFI
(Goodness of Fit) e AGFI (Adjusted GFI); quest’ultimo è una variante del precedente
e consente di trattare in maniera più efficiente la complessità del modello. Altre due
misure ben note in letteratura (Tucker e Lewis, 1973) sono il Tucker e Lewis Index
TLI, conosciuto anche come NNFI (NonNormed Fit Index), ed il NFI (Normed Fit
Index – Bentler e Bonett, 1980), entrambi aggiustati a seconda della complessità del
modello.
Studi di simulazione dimostrano che tutti questi indici dipendono in qualche
modo dalla numerosità campionaria, eccezion fatta per il TLI che evidenzia il comportamento migliore. Se il modello si adatta perfettamente, tutti questi indici devono
assumere valore 1. Convenzionalmente, il valore di 0.90 è ritenuto la soglia per
l’accettazione del modello, mentre valori superiori a 0.95 consentono di giudicare
come ottimale l’adattamento.
Un approccio alternativo è quello di comprendere come un dato modello sia in
grado di approssimarsi al reale modello probabilistico che genera i dati. Secondo
quest’ottica, l’indicatore più appropriato, proposto in letteratura, è il RMSEA (Root
Mean Square Error of Approximation). Valori piccoli di tale indice (inferiori a 0,05)
corrispondono ad un ottimo livello di approssimazione del modello (Hox, 1998).
5. Il modello ECSI per la valutazione della qualità della formazione
universitaria
Come spesso suggerito in letteratura (Bollen, 1989), un modello di analisi fattoriale
confermativa dovrebbe essere preliminarmente utilizzato per validare lo strumento,
cioè per valutare la qualità degli indicatori utilizzati quale misura delle componenti
latenti ed, al contempo, eliminare quegli aspetti che includono anche altre fonti di variabilità oltre a quelle considerate. Tuttavia l’impiego di tale procedura non risulta
essere appropriato nel contesto d’analisi oggetto di questo lavoro: l’indisponibilità di
un questionario ad hoc suggerisce piuttosto l’applicazione di una preliminare analisi
fattoriale esplorativa per l’identificazione dell’adeguato numero di costrutti latenti e
degli item più idonei alla loro misurazione.
Una volta definita la parte di misurazione del modello tramite l’identificazione
delle corrispondenti relazioni, si procede ad una sua ottimizzazione mediante
l’applicazione di un’analisi fattoriale di tipo confermativo, per poi passare alla stima
degli effetti individuati.
Modelli statistici per l’analisi della transizione Università-lavoro
99
5.1. Analisi fattoriale esplorativa (EFA)
Come già accennato, il duplice obiettivo di questa fase, date le informazioni a disposizione, è quello di individuare il numero ottimale di fattori latenti e, al contempo,
identificare il sottoinsieme di variabili che si dimostrano più appropriate alla loro misurazione. Sono state eseguite analisi fattoriali esplorative che prevedevano da 5 a 8
fattori ed il numero ottimale è risultato essere il 7.
Nella Tavola 2 sono riportati i relativi pesi fattoriali.
Le variabili che non si rivelano correlate con i fattori sono quelle contrassegnate da un asterisco. Si osservi che tutte le altre variabili mostrano una correlazione evidente con un solo fattore, eccezion fatta della soddisfazione per la coerenza
dell’attività lavorativa con gli studi svolti (SODDCOER). Questa particolare favorevole situazione, ha consentito un’identificazione preliminare della parte di misurazione del modello (cfr. Tavola 3), quale base delle analisi successive.
Tavola 2. Pesi fattoriali relativi all’analisi fattoriale esplorativa con 7 fattori
*
*
*
*
100 Valutazione della qualità della formazione universitaria percepita dai laureati...
Tavola 3. Parte di misurazione suggerita dall’analisi fattoriale esplorativa
qualità rapporti con docenti, assistenti, personale non docente, compagni
valutazione aule, biblioteche, laboratori e mense
grado di utilizzo delle competenze acquisite all’università
motivi di iscrizione all’Università e al corso di studi
pareri in relazione ad ipotesi di reiscrizione al corso e all’università
intenzione di proseguimento degli studi e attività formative svolte
soddisfazione per coerenza con gli studi, rispondenza ai propri interessi culturali,
G
acquisizione di professionalità, soddisfazione complessiva per il lavoro svolto
A
B
C
D
E
F
5.2. Analisi fattoriale confermativa (CFA)
Una tipica configurazione di analisi fattoriale confermativa (cfr. Figura 3) altro non è
che un modello ad equazioni strutturali completo, in cui sono previsti tutti i possibili
legami di covarianza tra i costrutti latenti.
Lo scopo di questa analisi è valutare la qualità della struttura di misurazione del
modello, identificata durante la fase precedente.
Ricorrendo all’algoritmo di stima WLSMV (Weighted Least Square Mean and
Variance) consigliato dal software MPlus (cfr. Manuale Utente Mplus 3.0) in base
alla tipologia degli indicatori considerati, il modello suggerito dall’analisi fattoriale
esplorativa non riesce a raggiungere il punto di convergenza; ciò nonostante le stime
prodotte vengono impiegate quali valori di partenza per tutti i modelli contemplati
durante le fasi successive.
Figura 3. Modello di analisi fattoriale confermativa
Modelli statistici per l’analisi della transizione Università-lavoro
101
Tavola 4. Modello CFA modificato su base EFA: descrizione della parte di misurazione
IMAG:
MOTISCR1 MOTISCR2*-0.68 MOTISCR3*0.264
EXPE:
MOTCOR2 MOTCOR4 MOTCOR6
QUAHW:
STRAULE STRBIB*1.06 STRLAB*0.817 SERMENSE*0.568
QUAUW:
RAPDOC RAPCOL*0.98 RAPNDOC*0.815 RAPSTUD*0.554
VALU:
SODDCOER SODDICUL*0.884 SODDPROF*0.876 SODDTOT*.755
SATI:
OKUNIV OKCOR*1.006 IPREISC*.913
LOYA:
INT_STUD ATTFORM*1.163
In alternativa, si è scelto di effettuare un’analisi fattoriale confermativa tenendo
conto dei risultati ottenuti da quella esplorativa, ma con alcune modificazioni apportate sulla base delle considerazioni che hanno guidato l’implementazione del modello
ECSI ipotizzato in partenza (cfr. Tavola 4).
I valori riportati dagli usuali indici di adattamento denotano un modello capace
di descrivere il fenomeno in questione in maniera più che soddisfacente (TFI = 0.984
e RMSEA = 0.028). Questo risultato ha consentito di ritenere sufficientemente affidabile la parte di misurazione individuata e, conseguentemente, di concentrare
l’attenzione sulla sola parte strutturale, ipotizzando dei nessi di causalità tra le componenti latenti identificate, in modo da poter verificare la presenza e l’intensità delle
relazioni inizialmente attese illustrate in Figura 2.
5.3. Modelli ad Equazioni Strutturali
Il modello CFA è stato dunque riparametrizzato in un modello ECSI - SEM completo
specificando le equazioni di regressione tra le componenti latenti. Il termine ‘completo’ intende denotare la particolare configurazione assunta dei nessi causali tra componenti latenti, data la sequenzialità temporale che le definisce e caratterizza. In altre
parole, nel modello completo si suppone che ogni fattore presente alla sinistra del grafo sia potenzialmente in grado d’esercitare un’azione diretta e indiretta su tutti i fattori
presenti alla sua destra; ad esempio tutte le ipotetiche determinanti dell’esperienza di
consumo (IMAG, EXPE, QUAHW, QUAUW) sono ritenute capaci di spiegare sia le
componenti proprie della soddisfazione (VALU e SATI) sia la fedeltà quale sua immediata conseguenza (LOYA). Ancora, essendo ragionevole presumere che
l’esperienza di consumo attivi un processo cognitivo che attribuisce un valore al bene/servizio “acquistato” prima dell’insorgere del vero e proprio sentimento di soddisfazione, risulta naturale ipotizzare un’azione diretta di VALU su SATI e LOYA.
102 Valutazione della qualità della formazione universitaria percepita dai laureati...
Figura 4. Modello ECSI - SEM completo: parte strutturale con l’evidenziazione
delle relazioni aggiunte
IMAG
EXPE
VALU
SATI
LOYA
QUAHW
QUAUW
L’implementazione di un modello completo ha reso necessario l’aggiunta di alcune relazioni al modello inizialmente ipotizzato (cfr. Figura 4 - in neretto sono evidenziate le relazioni aggiunte).
Come era verosimile attendersi dato l’elevato livello di complessità della parte
strutturale, il modello ECSI - SEM completo non converge entro un numero accettabile di iterazioni. Le stime prodotte dal software utilizzato costituiscono, comunque,
ancora una volta un’utile guida al miglioramento del modello stesso, suggerendo
quelli che sono i nessi causali da eliminare.
Semplificazioni sulla parte strutturale operate per fasi successive hanno condotto al modello raffigurato in Figura 5. I valori riportati dagli usuali indici di adattamento denotano, anche in questo caso, un modello efficace nel descrivere la realtà in
esame (TFI = 0.982 e RMSEA = 0.029).
Nella consapevolezza che tale operazione sia notevolmente delicata e soggetta
a critiche, con l’obiettivo dell’individuazione di un modello più soddisfacente dal
punto di vista interpretativo, si è proceduto per passi successivi alla rimozione delle
relazioni che sono risultate non significative.In questa sede, non verranno illustrati
tutti i risultati conseguiti durante questa fase, ma ci si limiterà al commento del solo
risultato prescelto; al riguardo basti osservare che gli indici di adattamento hanno
sempre evidenziato modificazioni sensibili verso il valore rappresentante l’adattamento perfetto.
Modelli statistici per l’analisi della transizione Università-lavoro
103
Figura 5. Struttura del primo modello ECSI – SEM a convergenza
IMAG
EXPE
VALU
LOYA
SATI
QUAHW
QUAUW
Figura 6. Struttura del primo modello ECSI – SEM finale
IMAG
EXPE
0,26
0,26
VALU
0,20
0,20
QUAHW
0,09
0,09
QUAUW
0,53
0,53
SATI
0,15
0,15
LOYA
104 Valutazione della qualità della formazione universitaria percepita dai laureati...
In Figura 6 è rappresentato il modello ECSI – SEM finale, cioè il modello per
il quale non sono risultati apprezzabili ulteriori miglioramenti. Sulle frecce del grafo,
rappresentanti i nessi causali significativamente diversi da zero, sono riportati i valori
dei coefficienti stimati: si osservi che gli effetti sono tutti nella direzione attesa. Si
segnala che in tale grafo non vengono riportate le relazioni di correlazione comunque
esistenti tra le varie componenti latenti. Ancora una volta, la bontà d’adattamento del
modello è testimoniata dai valori assunti dagli indici TLI (0.985) e RMSEA (0.027).
6. Conclusioni
Il tema della valutazione delle attività formative si è sviluppato nell’ambito del sistema universitario italiano a seguito dell’introduzione di leggi specifiche (n° 168/89
e n°537/93) che prevedono forme di controllo interno sull’efficienza e sui risultati, tecnicamente denominati efficacia interna ed esterna -, della gestione degli atenei.
Tali forme di controllo sono necessarie sia per rispondere a quesiti di corretto impiego delle risorse sia per verificare la validità dei percorsi formativi offerti. Durante
tutto il decennio ma soprattutto in questi ultimi anni, anche a seguito di una nuova
legge (L. 19 ottobre, n. 370 – G.U. n. 252 del 26.10. 1999) che dispone norme volte a
disciplinare, più compiutamente, la valutazione del sistema universitario italiano, sono stati proposti e realizzati diversi progetti di valutazione della qualità della formazione universitaria misurata proprio in termini di efficienza e di efficacia.
Riguardo a quest’ultimo aspetto, si può ragionevolmente ritenere che la valutazione del successo conseguito nel mondo del lavoro dai giovani in possesso di un titolo di studio universitario sia una accettabile misura della qualità (efficacia esterna)
dei processi formativi. Successo che può essere connotato da valutazioni sia oggettive, quali la remunerazione e l’avanzamento della carriera, che soggettive, quali la
soddisfazione per il lavoro svolto nelle sue diverse articolazioni.
Il presente lavoro costituisce un primo studio applicativo dei modelli ECSI-SEM
all’analisi della qualità della formazione universitaria vista secondo questo aspetto.
I risultati ottenuti dall’analisi svolta non solo confermano la validità della modellistica ECSI-SEM nello specifico contesto applicativo, ma stimolano anche
l’interesse per l’implementazione di analisi particolareggiate che, partendo dalla pianificazione di indagini finalizzate alla stima di una tale tipologia di modelli, consentano anche lo sviluppo di aspetti teorico-metodologici ad essi inerenti.
In prima analisi si potrebbe pensare di predisporre un questionario ad hoc per la
raccolta delle opinioni relative alla soddisfazione, in sostituzione delle schede di rilevazione utilizzate che riguardano indagini pianificate per altri scopi conoscitivi.
Per quanto riguarda invece gli aspetti teorico-metodologici, si può procedere
(com’è nell’intenzione degli autori del presente contributo) ad una valutazione degli
Modelli statistici per l’analisi della transizione Università-lavoro
105
effetti causati dall’eventuale presenza di osservazioni anomale, mediante un applicazione mirata dell’algoritmo forward search, nonché all’implementazione di nuovi
modelli per gruppi di laureati/studenti appartenenti alla stessa facoltà, e/o corso di
studi, al fine di verificare la presenza di peculiarità che determinano relazioni di causalità specifiche o situazioni specifiche di soddisfazione.
Riferimenti bibliografici
BOLLEN K.A. (1989) Structural Equation with Latent Variables. Wiley, New York.
CHIANDOTTO B., BERTACCINI B. (2003). Profilo e Sbocchi occupazionali dei
laureati e diplomati dell’Ateneo fiorentino nell’anno 1999. Gruppo VALMON - Università degli Studi di Firenze.
CHIANDOTTO B., BACCI S., BERTACCINI B. (2004) Profilo e Sbocchi occupazionali dei laureati e diplomati dell’Ateneo fiorentino nell’anno 2000. Gruppo VALMON - Università degli Studi di Firenze (in fase di realizzazione).
CORBETTA P. (2002) Metodi di analisi multivariata per le scienze sociali. I Modelli di Equazioni Strutturali. Il Mulino, Bologna.
ECSI Technical Committee (1998) European Customer Satisfaction Index: Foundation and Structure for Harmonized National Pilot Projects. Report prepared
for the ECSI Steering Committee, October.
FORNELL C. (1992) A National Customer Satisfaction Barometer, the Swedish Experience, Journal of Marketing 56: 6-21.
FORNELL C., JOHNSON M. D., ANDERSON E. W., CHA J., and BRYANT B. E.
(1996) The American Customer Satisfaction Index, Nature, Purpose and
Findings, Journal of Marketing 60: 7-18.
HOYLE R.H. (1995) Structural Equation Modeling. Concepts, Issues and Application. SAGE Publications, Thousand Oaks (CA).
HOX J.J., BECHGER T.M. (1998) An introduction to Structural Equation Modeling. Family Science Review, n° 11: 354-373.
JOHNSON M. D., GUSTAFSSON A., ANDREASSEN T. W., LERVIK L. and
CHA J. (2001) The Evolution and Future of National Customer Satisfaction
Index Models, Journal of Economic Psychology 22: 217-245.
JÖRESKOG K. G. (1973) A General Method for Estimating a Linear Structural Equation System, in GOLDBERGER A.S. and DUNCAN O.D., Structural Equation Models in the Social Sciences, New York, Academic Press: 85-112).
JÖRESKOG K. G. (1990) New Developments in LISREL. Analysis of Ordinal Variables Using Polychoric Correlations and Weighted Least Squares, Quality
and Quantity 24: 387-404.
106 Valutazione della qualità della formazione universitaria percepita dai laureati...
JÖRESKOG K. G. and SÖRBOM D. (1993) New Features in PRELIS2, Chicago, IL,
Scientific Software International.
KLINE R.B. (1998) Principles and Practice of Structural Equation Modeling. Guilford Press, New York.
KRISTENSEN K., MARTENSEN A., GRØNHOLDT L. and ESKILDSEN J.K.
(2000) Measuring student oriented quality in higher education: Application of
the ECSI methodology. Sinergie Rapporti di Ricerca, no. 9: 371-383.
KRISTENSEN K., MARTENSEN A., GRØNHOLDT L. and ESKILDSEN J.K.
(1999) Benchmarking student satisfaction in higher education based on the
ECSI methodology. Sinergie Rapporti di Ricerca, no. 9: 385-402.
MARCOULIDES G.A., RAYKOV T. (2000) A First Course in Structural Equation
Modeling. L. Erlbaum Associates, Mahwah (NJ).
MONTGOMERY D. (1997) Introduction to statistical quality control. Wiley,
NewYork.
MÜTHEN & MÜTHEN (2003) MPlus 3.0 User Guide.
WOLD H. (1975) Path Models with Latent Variables, the NIPALS Approach, in
BLALOCK H.M., AGANBEGIAN A., BORODKIN F.M., BOUDON R. and
CAPPECCHI V., 28 Quantitative Sociology. International Perspectives on
Mathematical and Statistical Modeling, New York, Academic Press: 307-353.
Evaluating the quality of University educational process:
an application of the ECSI model
Summary. In the university system, the students represent the end-user as well as the
principal actors of the formative services offered to them by the institution. A measure of their perceived quality is essential for planning changes that would increase
the level of the quality of these services. This perceived quality, is generally analyzed
by the ECSI methodology (European Customer Satisfaction Index), that is based on
the implementation of a structural equation model. The model should be able to represent the satisfaction of the students/end-user with some variables, typically, latent
variables, that will be gauged through a set of directly observable indicators. We decided to extend this methodology to information obtained by a survey of former students of the university of Florence (Italy) that graduated in the year 2000 and that
have a job one year after graduation.
Keywords: Customer satisfaction, ECSI, Structural equation models, Quality of the
university education.
Reticoli multidimensionali di legami “deboli” per la
ricerca di lavoro dei laureati dell’Università di Padova
Anna Boaretto, Luigi Fabbris, Gilda Rota, Ilaria Silvestri1
Università degli Studi di Padova
Riassunto. In questa nota si applicano alcuni modelli statistici per interpretare il ricorso dei neo-laureati ai cosiddetti “legami deboli”, vale a dire alle conoscenze personali informali, finalizzato ad ottenere una posizione lavorativa. Sociologi ed economisti del lavoro considerano queste conoscenze uno dei canali più efficaci per
l’ottenimento di un lavoro. I legami sono analizzati con riferimento alla ricerca della
prima attività da parte dei laureati e dei diplomati dell’Università di Padova tramite le
conoscenze di tipo familiare o di amicizia e quelle dei professori universitari. Con riferimento alla ricerca di una posizione di lavoro più consona all’investimento formativo, si esamina anche la conoscenza di opportunità di miglioramento della posizione
trasmesse ai laureati occupati dai colleghi di lavoro. Muovendo dall’ipotesi che i neolaureati ricorrano alle conoscenze personali in modo differenziato, si segmenta, con
un metodo multivariato, il campione distinguendo per facoltà di provenienza e,
all’interno della facoltà, secondo le caratteristiche curriculari e sociali dei laureati.
Parole chiave: Legami deboli; Ricerca di lavoro; Conoscenze familiari; Conoscenze
di professori; Conoscenze di colleghi; Laureati e diplomati; Università di Padova.
1.
Reti di legami “deboli”
Riprendendo una fortunata locuzione di Granovetter (1973), si dicono “deboli” i legami informali ed extraistituzionali che una persona è in grado di attivare per ottenere un lavoro. Il termine comprende sia le persone che l’individuo conosce, o a cui sa
di potersi rivolgere, sia quelle effettivamente attivate per ottenere un lavoro, indipendentemente dall’esito.
1
Il presente lavoro è stato finanziato nell’ambito del PRIN “Transizioni Università-Lavoro e valorizzazione delle competenze professionali dei laureati: modelli e metodi di analisi multidimensionale delle determinanti”, cofinanziato dal MIUR. Coordinatore nazionale del PRIN e del gruppo di Padova è
Luigi Fabbris. La nota è stata redatta da G. Rota per il Paragrafo 2, da A. Boaretto per il Paragrafo 3,
da I. Silvestri per i Paragrafi 4 e 5 e da L. Fabbris per i Paragrafi 1 e 6.
108
Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati...
Che il reticolo di legami – quelli di cui è dotata la persona socialmente radicata per meriti propri o per origine – sia veicolo di opportunità dal punto di vista occupazionale non è certo una scoperta recente e neppure è un mistero che agiscono nella
stessa direzione in tutto l’universo noto (Katz, 1958; Lin et al., 1981; Smelser e Swedberg, 1994).
I legami deboli hanno assunto la dignità di canale di ricerca di lavoro da
quando gli economisti del lavoro e i sociologi economici ne hanno esaltato la rilevanza come meccanismi alternativi o supplementari al sistema istituzionale, pubblico
o privato, a disposizione del singolo per cercare lavoro. Ricercatori di varie parti del
mondo (Flap e De Graaf, 1986; Fevre, 1989; Watanabe, 1994; Bian e Ang, 1997)
hanno trovato che i legami informali sono in grado di generare o di corroborare opportunità, in un certo senso che sono deboli solo perché sono meno apparenti (e meno confessati) dei legami formali e di quelli istituzionali. Con un gioco di parole, i
legami deboli si sono dimostrati spesso più forti di quelli formali.
Un laureato che si presenta ad un’azienda per un lavoro si configura, agli occhi della mente del datore di lavoro – o di chi per lui seleziona il personale – come
un insieme di conoscenze, abilità finalizzabili e disponibilità ad operare nel contesto
per cui si candida. Se il laureato fa presente il proprio corredo di legami personali,
anche questi sono integrati nella sua rappresentazione funzionale complessiva.
L’eventuale raccomandazione di una persona o di un’organizzazione prestigiosa che il laureato produca per facilitare l’assunzione è immaginata come un nodo
della rete di relazioni che la persona o l’istituzione evoca. Quindi, non solo il datore
di lavoro sa che, assumendo il laureato, acquisisce un certo credito nei confronti di
chi l’ha segnalato, ma sa anche di poter legare in questo modo la propria rete di conoscenze con almeno una parte di quella del candidato.
La rete di legami deboli, se osservata dalla prospettiva del laureato, si presenta come unidirezionale. Diventa sostanzialmente bidirezionale quando produce i frutti sperati. Per la precisione, un legame debole è efficace nel momento in cui diventa
sostanzialmente bidirezionale giacché sia chi lo propone, sia chi lo accredita, si aspettano un vantaggio dall’assunzione.
Dal punto di vista di chi li “possiede”, i legami informali sono strumenti che
agiscono sia come sensori delle possibilità occupazionali sul mercato, sia come garanzie delle sue qualità professionali e umane.
Ai legami informali non si associa, neppure in questa nota, un valore socialmente negativo al fenomeno, ma li si considera generatori di opportunità per i singoli e
di risultati per il sistema produttivo. Naturalmente, il giudizio morale sulla raccomandazione che miri a porre in testa alla graduatoria dei candidati chi la esibisce, indipendentemente dalle sue capacità, è condizionato alla scala di valori individuale.
I legami sono valutati in rapporto al potenziale di ottenimento di un’attività
lavorativa da parte di neo-laureati e neo-diplomati dell’Università di Padova e di
Modelli statistici per l’analisi della transizione Università-lavoro
109
cambiamento dell’attività da parte di coloro che, avendone una, sono interessati ad
un miglioramento professionale o organizzativo della propria posizione.
Gli aspetti che si esaminano sono i seguenti:
i) le modalità dell’impiego dei legami informali ai fini della ricerca di un lavoro.
Ci si chiede, in modo particolare, se esistano categorie di laureati che cercano
un lavoro professionalmente qualificato utilizzando con particolare intensità
questi legami. Inoltre, si vuole verificare se l’utilizzazione di legami deboli è
esclusiva, ossia se siano l’unico canale di ricerca, oppure se servano a corroborare, magari dopo qualche tentativo a vuoto, i tentativi per vie ufficiali.
ii) La forza dei legami nel reperimento di un lavoro. Sono, per esempio, più efficaci nel far trovare un lavoro rispetto ai canali formali o istituzionali di collocamento? Oppure sono efficaci solo nella difesa di posizioni già acquisite per
altre vie? Oppure, ancora, sono efficaci per ottenere posizioni basse, quelle che
non comportano rischio per il datore di lavoro, o, invece, facilitano
l’acquisizione di posizioni di prestigio, quelle per le quali è necessaria
un’empatia totale tra l’assunto e l’azienda?
La letteratura sull’argomento è cospicua2. Nel Par. 2 si esaminano le ipotesi
sulle caratteristiche delle persone che fanno ricorso ai legami informali per la ricerca
di lavoro. Si vagliano, in modo particolare, le seguenti ipotesi:
- Se lo status sociale sia correlato a conoscenze sul lavoro, nel senso che quanto
più questo è qualificato, tanto più è probabile che il neo-laureato proveniente
da strati sociali espressione del capitalismo produttivo, della borghesia intellettuale, della politica professionale, sia a conoscenza delle possibilità offerte dal
mercato delle professioni superiori e sia in grado di far balenare al possibile datore di lavoro l’opportunità di agganciarsi alla rete di legami che possiede.
- Se il genere sia legato ad un ricorso differenziale al sistema dei legami informali. La donna, in quanto tradizionalmente meno sicura nel proporsi per un lavoro, sembra più incline ad appoggiarsi alla rete di legami informali nella fase
di ricerca di lavoro. Una delle ipotesi è, infatti, che questi legami costituiscano
una rete di protezione per i più esposti, piuttosto che una dote da esibire in
quanto criterio di connessione a – o di identificazione di – status sociali elevati.
L’ipotesi che la donna vi faccia un ricorso più frequente è controversa (Follis,
1998). È altresì controverso se il ricorso sia causato da un retaggio culturale
avverso, da debolezza oggettiva della formazione3, o semplicemente da inerzia
culturale. Comunque sia, va assodato se l’eventuale ricorso differenziale delle
2
Per avere un’idea dell’interesse che l’idea diffusa da Granovetter (1974) ha avuto tra gli studiosi di
scienze sociali ed economiche si può consultare Follis (1998).
3
Nell’università italiana le donne sono più orientate ad una formazione umanistica o sociale, i maschi ad una più tecnica. In quasi tutti i corsi di studi le donne hanno, tuttavia, risultati scolatici migliori
degli uomini.
110
Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati...
neo-laureate, rispetto ai colleghi maschi, valga ceteris paribus, ossia a parità di
titolo di studio e di curriculum, e per quali posizioni.
- Se il titolo di studio determini un comportamento differenziale. Va innanzitutto
distinto il comportamento dei diplomati universitari da quello dei laureati.
Sull’entità del ricorso interferiscono sia la diversa composizione sociale e di
genere dei laureati (rispetto ai diplomati), sia le diverse attese professionali implicite nella gerarchia tra le due classi di titoli4. Una seconda distinzione riguarda la facoltà presso la quale il titolo è stato conseguito. Siccome la scelta
della facoltà dipende sia dallo status sociale dello studente (censo, tradizioni di
famiglia, ecc.), sia dalla speranza occupazionale alla fine del percorso, va verificato se ricorre ai legami informali di più chi si sente meno forte o, invece, chi
ha un’attesa di lavoro più elevata proprio perché parte da posizioni sociali più
alte della media.
- Se il curriculum scolastico condizioni il ricorso. Le variabili che rappresentano
il curriculum universitario sono l’età e il voto alla laurea. Un’età più giovane,
ceteris paribus, indica un curriculum più efficiente. Inoltre, il voto di laurea è il
miglior segnalatore di impegno negli studi. Per quanto concerne il curriculum
si può fare un discorso simile a quello del titolo di studio e cioè, sono i curriculum più deboli a farsi proteggere dai legami informali o, invece, sono quelli
migliori a chiedere entrature per posizioni di maggiore prestigio? Il ricorso ai
legami deboli da parte di laureati che hanno curriculum diversi va comunque
valutato al netto del possibile effetto del corso di studi.
Per coloro che già lavorano e che cercano una migliore collocazione delle
proprie capacità, va verificato se l’anzianità di servizio, in quanto espressione del
tempo avuto a disposizione per legare con i “pari”, sia correlata alla frequenza del
ricorso ai legami per ottenere un lavoro altrove, oppure se valga l’ipotesi di Corcoran et al. (1980), Lin et al. (1981), Flap e de Graaf (1986), Marsden e Hulbert (1988)
che, con l’aumentare dell’anzianità di servizio, le ambizioni e i contatti perdano
d’importanza.
I legami deboli che si analizzano nel seguito sono quelli rilevati con
l’indagine sui laureati e i diplomati dell’Università di Padova a sei mesi dal conseguimento del titolo. I dati analizzati costituiscono la prima occasione di rilevazione
su un complesso di sei programmate per essere svolte ogni sei mesi dopo il conseguimento del titolo, fino a un totale di tre anni di osservazione (Fabbris, 2003). I legami rilevati riguardano:
4
Che il ricorso alle segnalazioni a datori di lavoro diminuisca con l’aumentare del livello di istruzione è testimoniato da numerose esperienze. Si vedano, tra le altre, Corcoran et al. (1980), Lin et al.
(1981), Flap e De Graaf (1986), Marsden e Hurlbert (1988), ISTAT (1997). Tuttavia, la relazione tra
istruzione e ricorso ai legami informali non è lineare. Boxman e collaboratori propongono una relazione a U. La relazione rimane comunque senza risposta (Follis, 1998).
Modelli statistici per l’analisi della transizione Università-lavoro
111
le conoscenze di familiari e amici (Par. 3), ossia i legami sociali della famiglia
o del gruppo omogeneo d’appartenenza. La natura dei legami non è trasparente
nel nostro lavoro, non si sa, cioè, se si tratta di legami affettivi, politici, religiosi, sindacali, o altro;
le conoscenze di professori (Par. 4), ossia le persone con cui è in contatto per
regioni di ricerca o di didattica in modo particolare il professore con il quale i
laureati o diplomati hanno svolto la tesi finale;
le conoscenze di colleghi di lavoro (Par. 5), ossia i legami sviluppati sul lavoro
da parte di coloro che già lavoravano al momento del conseguimento del titolo
e di coloro che, avendo trovato un’occupazione dopo il titolo, vogliono cambiarla con una più soddisfacente dal punto di vista economico o delle prospettive professionali o, più semplicemente, con una più vicina a casa.
Il campione di laureati e diplomati sottoposto ad analisi, composto da coloro
che hanno cercato lavoro nei primi sei mesi dal conseguimento del titolo, è di 2057
unità (pari al 73% circa dei laureati/diplomati intervistati).
2.
L’efficacia dei legami deboli nella ricerca di lavoro
Per assumere un lavoratore, un’azienda cerca di identificare un numero ragionevole
di candidati validi tra cui setacciare il più appropriato. D’altra parte, chi cerca un lavoro vorrebbe conoscere i posti vacanti del tipo desiderato tra cui scegliere quello
migliore (La Mendola, 1995). Attraverso le segnalazioni di parenti, conoscenti e professori universitari non solo si soddisfano entrambe le esigenze delle aziende e dei
neolaureati, ma si ottengono informazioni che l’invio diretto alle aziende del curriculum non permetterebbe di ottenere.
Il ricorso al canale informale nella ricerca di lavoro si aggira intorno al 40%
dei laureati, vale a dire il 53% di coloro che hanno svolto almeno un tentativo di ricerca di lavoro5 (Tab.1). Tra i laureati che hanno esperito almeno un canale informale, circa un quarto ha utilizzato solo questa opportunità, il resto ha utilizzato la segnalazione come rinforzo di altre azioni di ricerca.
I laureati che maggiormente utilizzano i canali informali nella ricerca di lavoro provengono da Scienze della Formazione, tra coloro che lavoravano, e da Agraria,
Lettere e Filosofia, Scienze della Formazione, Psicologia, Giurisprudenza, Scienze
Politiche ed Economia, tra coloro che sono alla prima esperienza di lavoro. I laureati
delle facoltà di Farmacia e Scienze Statistiche e i diplomati di Medicina e Chirurgia e
di Ingegneria utilizzano, invece, quasi esclusivamente sistemi formali di ricerca.
5
Non hanno svolto azioni di ricerca coloro che, conseguito il titolo, hanno mirato esclusivamente al
proseguimento degli studi, all’espletamento dell’obbligo militare, o a costituirsi una famiglia.
112
Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati...
Tabella 1. Distribuzione percentuale dei laureati e dei diplomati dell’Università di Padova non occupati al conseguimento del titolo, secondo l’utilizzazione dei legami deboli
nella ricerca di lavoro a sei mesi dal conseguimento, titolo di studio e facoltà
Azioni nella ricerca di lavoro
Legami Informali Solo altro Nessuna
Titolo
informali
e altro
tipo
azione Totale
n=174
n=623
n=686
n=497 n=1.980
Laurea
13,3
40,0
27,6
19,1
100,0
Agraria
Diploma
5,3
42,1
36,8
15,8
100,0
Totale
12,1
40,3
29,0
18,6
100,0
Economia
Totale
6,7
38,2
38,2
16,9
100,0
Farmacia
Totale
9,4
19,4
44,6
26,6
100,0
Laurea
6,8
19,2
22,6
51,4
100,0
Giurisprudenza
Diploma
5,6
33,3
38,9
22,2
100,0
Totale
6,7
20,5
24,1
48,7
100,0
Laurea
15,9
34,5
35,6
14,0
100,0
Ingegneria
Diploma
7,3
26,8
46,3
19,5
100,0
Totale
14,8
33,4
37,0
14,8
100,0
Lettere e Filosofia
Totale
4,6
37,8
40,1
17,5
100,0
Medicina e chirurgia Diploma
12,1
24,1
53,5
10,3
100,0
Medicina veterinaria Totale
21,2
9,1
24,2
45,5
100,0
Psicologia
Totale
8,9
15,4
21,3
54,4
100,0
Scienze Formazione Totale
8,0
47,8
35,4
8,8
100,0
Laurea
6,5
36,0
29,6
27,9
100,0
Scienze MM.FF.NN. Diploma
0,0
27,6
44,8
27,6
100,0
Totale
5,9
35,3
31,0
27,8
100,0
Scienze Politiche
Totale
6,8
34,2
41,9
17,1
100,0
Laurea
8,0
38,7
44,0
9,3
100,0
Scienze Statistiche
Diploma
4,4
34,8
43,5
17,4
100,0
Totale
7,1
37,8
43,9
11,2
100,0
Laurea
9,5
30,3
32,8
27,3
100,0
Università di Padova Diploma
8,2
27,4
48,1
16,3
100,0
Totale
9,4
30,0
34,4
26,2
100,0
Quindi, i canali informali sono percorsi in maggior misura dai laureati delle facoltà umanistiche e sociali e dai laureati della Facoltà di Agraria. Questi ultimi sono un
caso particolare generato dalla tipicità dell’attività a cui sono vocati. Probabilmente,
nell’assenza di una voce specifica, molti laureati di Agraria che hanno trovato lavoro
nell’azienda di famiglia hanno indicato di aver fatto ricorso ai legami parentali. In definitiva, con la probabile eccezione di quelli di Agraria, sono i laureati che si sentono
particolarmente deboli per il lavoro a fare ricorso alla segnalazione di parenti e amici.
Modelli statistici per l’analisi della transizione Università-lavoro
113
Tabella 2. Distribuzione percentuale dei laureati e dei diplomati dell’Università di Padova non occupati al conseguimento del titolo, secondo l’utilizzazione dei legami deboli
nella ricerca di lavoro a sei mesi dal conseguimento del titolo, sesso e facoltà
Azioni nella ricerca di lavoro
Legami Informali Solo altro Nessuna
Totale
informali
e altro
tipo
azione
n=174
n=623
n=686
n=497 n=1.980
M
11,8
38,8
29,4
20,0
100,0
Agraria
F
12,8
43,6
28,2
15,4
100,0
M
6,8
34,1
45,5
13,6
100,0
Economia
F
6,7
42,2
31,1
20,0
100,0
M
6,5
29,0
41,9
22,6
100,0
Farmacia
F
10,2
16,7
45,4
27,8
100,0
M
5,9
13,2
26,5
54,4
100,0
Giurisprudenza
F
7,1
24,4
22,8
45,7
100,0
M
13,9
32,7
37,2
16,2
100,0
Ingegneria
F
20,5
38,5
35,9
5,1
100,0
M
5,9
35,3
26,5
32,3
100,0
Lettere e filosofia
F
4,4
38,2
42,6
14,8
100,0
Medicina e chirurgia M
18,2
9,1
54,6
18,2
100,0
(diplomi)
F
10,6
27,7
53,2
8,5
100,0
M
9,1
18,2
27,3
45,5
100,0
Medicina veterinaria
F
27,3
4,6
22,7
45,5
100,0
M
6,9
17,2
10,3
65,5
100,0
Psicologia
F
9,3
15,0
23,6
52,1
100,0
Scienze della
M
25
50,0
0,0
25,0
100,0
Formazione
F
7,3
47,7
36,7
8,3
100,0
M
9,7
26,6
28,6
35,1
100,0
Scienze politiche
F
2,4
43,2
33,1
21,3
100,0
Scienze
M
10,3
29,3
39,7
20,7
100,0
MM.FF.NN.
F
3,4
39,0
44,1
13,6
100,0
M
4,7
25,6
55,8
14,0
100,0
Scienze statistiche
F
9,1
47,3
34,6
9,1
100,0
M
11,2
29,2
34,5
25,1
100,0
Università di Padova
F
8,0
30,7
34,3
27,1
100,0
Nel complesso dei laureati, le reti informali vengono utilizzate in misura quasi uguale da maschi e femmine (Tab. 2). La propensione delle laureate delle facoltà
di Scienze MM.FF.NN., Veterinaria, Ingegneria, e Scienze Statistiche è leggermente
superiore a quella dei laureati delle stesse facoltà (10% circa). Siccome si tratta di facoltà a carattere scientifico, ciò significa che, quantunque il mercato del lavoro sia
114
Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati...
oggi sicuramente più aperto alle donne che nel passato, le laureate continuano a sentirsi più indifese dei colleghi maschi nel domandare lavoro e rinforzano le proprie
possibilità con segnalazioni.
L’età e il voto di laurea incidono nell’utilizzo dei legami deboli nella ricerca
del lavoro. Infatti, coloro che si laureano dopo i 26 anni e coloro che hanno un voto di
laurea basso ricorrono in proporzione più alta a questo tipo di legami (Tabelle 3 e 4).
Tabella 3. Distribuzione percentuale dei laureati e dei diplomati dell’Università di Padova non occupati al conseguimento del titolo, secondo l’utilizzazione dei legami deboli nella ricerca di lavoro a sei mesi dal conseguimento del titolo, titolo di studio e voto di laurea
Azioni nella ricerca di lavoro
Voto
Legami Informali Solo altro Nessuna Totale
n
informali
e altro
tipo
azione
Fino a 89
12,1
28,9
41,6
17,4
100,0
132
Laurea
90-99
10,7
33,3
32,6
23,4
100,0
550
100-110
8,8
29,0
31,4
30,8
100,0
866
110 lode
7,6
28,7
32,5
31,2
100,0
244
Totale
9,5
30,3
32,8
27,3
100,0
1792
Fino a 89
0,0
27,9
50,4
21,7
100,0
16
Diploma 90-99
6,9
29,1
46,4
17,5
100,0
75
100-110
12,8
27,8
46,9
12,5
100,0
79
110 lode
0,0
39,5
41,9
18,6
100,0
11
Totale
8,2
27,4
48,1
16,3
100,0
181
Tabella 4 Distribuzione percentuale dei laureati e dei diplomati dell’Università di Padova
non occupati al conseguimento del titolo, secondo l’utilizzazione dei legami deboli nella
ricerca di lavoro a sei mesi dal conseguimento del titolo, titolo di studio e età alla laurea
Azioni nella ricerca di lavoro
Età titolo
Legami Informali Solo altro Nessuna Totale
(anni)
n
informali
e altro
tipo
azione
< 24
4,6
30,8
40,2
24,5
100,0
57
Laurea
24-26
9,0
28,7
32,0
30,4
100,0
776
26-28
9,7
29,7
31,2
29,3
100,0
950
28-30
14,0
30,5
30,4
25,1
100,0
407
> 30
7,2
28,8
32,5
31,6
100,0
312
< 24
11,9
22,4
42,3
23,4
100,0
146
24-26
7,8
19,4
57,2
15,7
100,0
96
Diploma 26-28
1,9
41,2
41,3
15,5
100,0
36
13,0
33,9
33,6
19,4
100,0
28-30
21
> 30
100,0
12
26,1
11,7
38,4
23,7
Modelli statistici per l’analisi della transizione Università-lavoro
115
Che vi facciano ricorso coloro che si sentono più deboli per inserirsi nel mercato del
lavoro è, quindi, fuori discussione.
Un discorso a parte va fatto per le segnalazioni dei professori universitari. Di
queste segnalazioni beneficiano, infatti, soprattutto i neolaureati delle facoltà scientifiche, giovani alla laurea e con un buon voto di laurea. I motivi sono facilmente immaginabili: i docenti di discipline scientifiche hanno più rapporti con aziende ed enti
pubblici dei docenti di altre discipline e il docente non può che segnalare, tra gli studenti che conosce, i più brillanti, quelli che gli fanno “fare bella figura”. La segnalazione del docente si caratterizza, rispetto ad altre segnalazioni, perché le aziende riconoscono ad essa una certificazione quasi scientifica della qualità del segnalato.
In ogni caso, i canali informali sono utili nell’ottenimento di un lavoro? Per
quanto riguarda i laureati dell’Università di Padova, il ricorso a questi canali risulta
vincente qualsiasi corso di laurea si esamini, però un po’ di più per i diplomati che si
presentano con minori pretese di posizione lavorativa (Tab. 5).
Tabella 5. Percentuale di laureati o diplomati dell’Università di Padova che lavorano a
6 mesi dal conseguimento del titolo, secondo l’utilizzazione dei legami deboli nella ricerca di lavoro, il titolo di studio e lo status lavorativo al conseguimento
Totale
Azioni nella ricerca di lavoro
Titolo
n=1.692
Legami Informali e Solo altro Nessuna
informali
altro
tipo
azione
n=193
n=578
n=660
n=261
Laurea
88,5
81,3
76,8
75,1
81,0
Occupati
Diploma
100,0
94,0
93,5
81,2
91,3
Totale
90,7
82,7
86,1
75,8
82,6
Laurea
69,4
62,5
58,8
11,3
48,1
Non occupati
Diploma
95,9
70,3
92,7
25,5
75,8
Totale
71,7
63,3
63,7
12,2
50,9
Tabella 6. Distribuzione percentuale di laureati e dei diplomati dell’Università di Padova che hanno trovato lavoro dipendente o con contratto “atipico” a sei mesi dal conseguimento del titolo secondo che abbiano utilizzato legami deboli nella ricerca e coerenza tra l’attività trovata e il titolo posseduto
Solo legami
Legami informali e
Solo altro
Informali
altro metodo
Metodo
Coerente?
n=146
n=433
n=432
Per niente
6,0
9,6
9,3
Poco
12,3
12,9
15,9
Abbastanza
50,8
50,0
48,2
Molto
30,8
27,5
26,6
Totale
100,0
100,0
100,0
116
Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati...
Chi ricorre ai legami informali, non solo riesce ad inserirsi con più facilità,
ma ottiene posizioni mediamente più favorevoli e più coerenti con il percorso di studi
svolto (Tab. 6). Infatti, il 40 % degli intervistati che ha utilizzato esclusivamente il
canale delle conoscenze (rispetto a 33% di chi ha utilizzato solo canali formali) afferma che il lavoro richiede un titolo universitario e addirittura l’82% (rispetto al
75% di chi ha utilizzato solo canali formali) svolge un’attività coerente con il titolo
posseduto (Tab. 7).
Da questo più pertinente inserimento dei laureati/diplomati che hanno utilizzato i canali informali derivano anche maggiori aspettative di crescita professionale
ed economica rispetto ai colleghi che si sono inseriti solo con le proprie forze e che
partono da posizioni leggermente inferiori (Tab. 8).
Pochi sono i laureati che cercano lavoro percorrendo un solo canale. I tentativi di trovare lavoro si muovono in varie direzioni. Tuttavia, è illusorio pensare che
Tabella 7. Distribuzione percentuale di laureati e dei diplomati dell’Università di Padova che hanno trovato lavoro dipendente o con contratto “atipico” a sei mesi dal conseguimento del titolo, secondo che abbiano utilizzato legami deboli nella ricerca e
secondo che l’attività possa essere svolta da un diplomato di scuola superiore o anche meno
Solo legami
Legami informali
Solo altro
Potrebbe essere svolta
informali
e altro metodo
metodo
Anche da diplomato
44,3
45,4
49,5
Anche da non diplomato
14,9
17,3
16,8
Solo titolo universitario
40,8
37,3
33,7
Totale
100,0
100,0
100,0
Tabella 8. Percentuale di laureati e dei diplomati dell’Università di Padova che
hanno trovato lavoro dipendente o con contratto “atipico” a sei mesi dal conseguimento del titolo secondo che abbiano utilizzato legami deboli nella ricerca e secondo
le attese per il futuro professionale a due anni avanti
Solo legami
Legami informali
Solo altro
informali
e altro
metodo
Attese professionali
Pochi o nulli cambiamenti
4,6
11,2
8,5
Miglioramenti economici
14,2
6,8
5,2
Progressione di carriera
13,3
21,0
28,9
Allargam. ambito operativo
21,4
6,6
15,8
Istituzionalizzazione profes
5,1
1,4
3,9
Riconoscimento sociale
2,2
0,0
4,0
Altro
39,2
52,9
33,6
Totale
100,0
100,0
100,0
Modelli statistici per l’analisi della transizione Università-lavoro
117
quanti più tentativi si fanno, tanto più le probabilità di successo aumentano. Anzi. chi
cerca o con le solo proprie forze, o con le reti informali trova più facilmente di chi
percorre ambedue le vie. Chi cerca lavoro sia per vie canoniche, sia per quelle informali lo fa perché si sente in difficoltà. Per esempio, i diplomati universitari che si
muovono in tutte le direzioni hanno risultati inferiori in termini di occupazione a
quelli che si fanno segnalare o che si propongono solo per vie canoniche (Tab. 4).
Si può, pertanto, argomentare che l’essere inseriti in reti relazionali ampie,
l’essere in contatto con molte persone e non isolati in “reticoli” chiusi, anche se intensi, risulta vincente per trovare lavoro. Se ne deduce che l’appartenenza ad un determinato ceto sociale influenza non solo la scelta del percorso universitario ma anche l’inserimento nel lavoro (Luderin et al., 1997).
3.
Le conoscenze di familiari e amici
Per tracciare un profilo più fine dei fruitori di canali di ricerca informali, si è applicata l’analisi di segmentazione binaria del campione (Fabbris, 1997) considerando come variabile criterio il logit della probabilità condizionata di ricorrere alle conoscenze di familiari e amici.
L’analisi è stata svolta secondo i criteri esposti da Fabbris e Martini (2002) e
incorporati nel package LAID-OUT (Schievano, 2002), vale a dire che, ad ogni passo dell’analisi, si cerca la massima differenza tra i logit delle proporzioni nei sottocampioni che si formano con una scissione stepwise del campione:
[logit (πˆ (Y | X1 ) ) − logit (πˆ (Y | X 0 ) )] ,
dove π(Y|X) denota il valore della variabile dipendente Y condizionato dal predittore
dicotomizzato (X) e logit(.) indica il logaritmo naturale dell’argomento entro parentesi rapportato al suo complemento a uno.
I predittori considerati per la segmentazione sono: facoltà frequentata6, titolo
di studio (laurea/diploma), sesso, età alla laurea (in 6 classi ordinali)7, voto di laurea
(superiore/inferiore alla media), condizione occupazionale precedente (lavorava/non
lavorava al momento del conseguimento del titolo).
6
Le facoltà dell’Università di Padova sono: 1-Agraria, 2-Economia, 3-Farmacia, 4-Giurisprudenza,
5-Ingegneria, 6-Lettere e Filosofia, 7-Medicina e chirurgia, 8-Medicina Veterinaria, 9-Psicologia, 10Scienze della Formazione, 11-Scienze Matematiche, Fisiche e Naturali (MM.FF.NN.), 12-Scienze politiche, 13-Scienze statistiche.
7
Le classi di laurea considerate sono: laurea conseguita prima dei 22 anni, dai 22 ai 23 anni, dai 24
ai 25, dai 26 ai 27, dai 28 ai 29 e laurea a 30 anni o più.
118
Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati...
Per l’analisi di segmentazione si è deciso di:
forzare come primo predittore la variabile “lavorava al momento del conseguimento del titolo”;
- scegliere la segmentazione ternaria nei casi in cui sia manifestamente migliore di una serie di segmentazioni binarie;
- limitare a 50 unità la dimensione minima dei gruppi.
Dall’applicazione (Fig. 1 e Tab. 9) risulta che gli aspetti generali che condizionano il ricorso alle conoscenze personali e familiari sono, a parità di condizione
occupazionale antecedente al conseguimento del titolo, la facoltà di provenienza, il
genere, l’età alla laurea e il voto di laurea.
La facoltà di provenienza è legata alla richiesta dell’intervento di parenti e
conoscenti nella ricerca di lavoro, sia per chi già lavorava, che per chi non lavorava
al momento del conseguimento del titolo. Essendo la scelta della facoltà spesso correlata al background sociale e familiare, si può considerare l’effetto indiretto dello
status sociale sull’utilizzo di canali extra-istituzionali nella ricerca di lavoro. Quanto
più il contesto socio culturale del laureato è connesso da reticoli, tanto maggiore dovrebbe essere il ricorso a legami informali.
Tra gli occupati al conseguimento del titolo mobilitano maggiormente (63,3%
dei casi) le conoscenze personali i laureati della facoltà di Scienze della formazione.
-
Figura 1: Albero di segmentazione per la variabile “cerca lavoro tramite conoscenze personali, familiari”
y=48.9%
n=2057
Lavorava
Non lavorava
y=52.1%
n=574
Facoltà=10
y=63.3%
n=92
Facoltà=11-6-5-1-12-13
y=53.2%
n=346
y=47.7%
n=1483
Facoltà=2-3-4-7-8-9
y=39.7%
n=136
Facoltà=10-1-9-4-6-12-2
Facoltà=11-8-5
y=45%
n=511
y=52.9%
n=731
Femmina
Facoltà=13-3-7
y=37.3%
n=241
Maschio
y=51.1%
n182
y=41.6%
n=329
Laurea entro 26 anni
y=29.7%
n=101
Laurea dopo i 26 anni
y=46.9%
n=228
Voto di laurea
basso
y=51.5%
n=134
Voto di laurea
alto
y=40.4%
n=94
Modelli statistici per l’analisi della transizione Università-lavoro
119
Tabella 9. Percentuale di occupati, soddisfazione media e percentuali di intervistati
che dichiarano il loro lavoro molto coerente col percorso formativo in base ai gruppi individuati con l’analisi di segmentazione
Gruppo
n
% occupati
1
2
3
4
5
6
7
8
9
Ateneo
92
346
136
731
241
182
101
134
94
2817
90,2
83,6
87,4
54,0
80,5
68,7
74,4
76,8
66,6
60,7
Soddisfazione
media
7,1
7,0
7,3
7,1
7,4
7,3
7,5
7,4
7,6
7,3
% molto coerenti
con gli studi
38,3
17,1
41,0
19,7
34,3
41,1
39,6
43,7
37,2
28,4
Legenda relativa ai gruppi (foglie dell’albero di segmentazione) individuati:
Gruppo 1: occupati al momento del conseguimento del titolo, facoltà di Scienze della Formazione
Gruppo 2: occupati al conseguimento del titolo, facoltà di Scienze MMFFNN, Ingegneria, Lettere e
Filosofia, Agraria, Scienze Politiche, Scienze Statistiche
Gruppo3: occupati al conseguimento del titolo, facoltà di Economia, Farmacia, Giurisprudenza, Medicina e Chirurgia, Medicina Veterinaria, Psicologia
Gruppo 4: inoccupati al conseguimento del titolo, facoltà di Scienze della Formazione, Agraria, Psicologia, Giurisprudenza, Lettere, Scienze Politiche, Economia
Gruppo 5: inoccupati al conseguimento del titolo, facoltà di Scienze Statistiche, Farmacia, Medicina
Gruppo 6: inoccupati al conseguimento del titolo, facoltà di Scienze MMFFNN, Ingegneria, Med. Veterinaria, femmine
Gruppo 7: inoccupati al conseguimento del titolo, facoltà di Scienze MMFFNN, Ingegneria, Medicina
Veterinaria, maschi, laureati entro 26 anni
Gruppo 8: inoccupati al conseguimento del titolo, facoltà di Scienze MMFFNN, Ingegneria, Medicina
Veterinaria, maschi, laureati dopo i 26 anni con voto di laurea basso
Gruppo 9: inoccupati al conseguimento del titolo, facoltà di Scienze MMFFNN, Ingegneria, Medicina
Veterinaria, maschi, laureati dopo i 26 anni con voto di laurea alto
Si tratta di educatori, insegnanti, formatori che utilizzano i rapporti consolidatisi nel
corso dell’iter lavorativo per migliorare la propria posizione all’interno di strutture
private, come asili o strutture socio-sanitarie. Il tasso di occupazione a sei mesi è del
90,2%, la soddisfazione media è leggermente inferiore alla media (7,1 contro una
media di 7,3) come si verifica, in genere, per coloro che conseguono un titolo lavorando (Fabbris et al., 2002) e la percentuale di intervistati che dichiara di svolgere un
lavoro molto coerente col titolo di studio è del 38,3% (media di tutti i laureati/diplomati dell’Ateneo 28,4%).
120
Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati...
Sempre tra gli occupati al momento del conseguimento del titolo, i laureati/diplomati che fanno meno ricorso ai legami “deboli” provengono dalle facoltà di
Economia, Farmacia, Giurisprudenza, Medicina e chirurgia (diploma), Medicina veterinaria e Psicologia (media delle facoltà: 39,7% di ricorso). Il 41% ritiene il proprio
lavoro molto coerente con gli studi terminati, l’87,4% è occupato. Sebbene a queste
facoltà si iscrivano studenti appartenenti a contesti socio-culturali superiori, il ricorso
ai legami deboli è minore rispetto a quelli di Scienze della formazione.
Tra i neolaureati/neodiplomati che hanno cercato lavoro non avendone uno
fanno maggiormente ricorso ai legami deboli (52,9%) le facoltà di Scienze della formazione, Agraria, Psicologia, Giurisprudenza, Lettere, Scienze politiche ed Economia. Queste facoltà appartengono alle aree umanistiche e sociali, tipicamente con livelli di occupazione più bassi rispetto all’area tecnico-scientifica. Le facoltà di Agraria ed Economia potrebbero sembrare fuori posto, non essendo né umanistiche, né sociali, però sono tra quelle tecniche che hanno maggiori difficoltà di occupazione. Infatti, per questo insieme di laureati/diplomati la percentuale di occupazione è pari al
54%, la più bassa tra i laureati e diplomati dell’Università di Padova.
Il genere discrimina i laureati delle facoltà di Ingegneria, Veterinaria e Scienze matematiche fisiche e naturali. Le laureate cercano lavoro attraverso legami deboli
nel 51,1% dei casi, contro il 41,6% dei maschi. In facoltà “forti” dal punto di vista
occupazionale le laureate cercano una tutela in più. Ciò può dipendere dall’immagine
mascolina della professionalità che le laureate immaginano di possedere – e quindi
delle minori chances che reputano di avere nella fase in cui si presentano per
un’occupazione – proprio a causa dell’essersi formate in facoltà prevalentemente
frequentate da maschi.
All’interno di queste stesse facoltà i laureati si comportano nella ricerca di lavoro in modi che dipendono dal voto di laurea e dall’età al conseguimento del titolo8:
il ricorso a conoscenze personali e familiari è maggiore (51,5%) per coloro che hanno conseguito la laurea in tempi più lunghi e che hanno ottenuto un voto di laurea
basso, rispetto a coloro che si sono laureati in tempi brevi (ricorre ai legami informali
il 17% in meno) o con voto di laurea alto (11% in meno).
I legami deboli vengono, in questo caso, in soccorso ad un curriculum formativo meno brillante. Tuttavia, il livello di occupazione di queste categorie apparentemente meno dotate è del 76,8% e la percentuale che dichiara il proprio lavoro coerente con gli studi è 43,7%, tra le più alte nei gruppi ottenuti dalla segmentazione.
8
L’età al conseguimento del titolo e il voto di laurea sembrano non influire sui comportamenti dei
laureati occupati al momento del conseguimento del titolo.
Modelli statistici per l’analisi della transizione Università-lavoro
4
121
Le conoscenze dei professori
Tra i laureati o diplomati che hanno cercato lavoro entro sei mesi dal conseguimento
del titolo il 12,6% è ricorso anche o solamente ai contatti con i professori che ha avuto modo di incontrare durante la propria permanenza nell’ateneo patavino.
Dall’analisi di segmentazione (Fig. 2 e Tab. 10) si nota che, tra chi lavorava
al momento del conseguimento del titolo, ricorrono di meno alla conoscenza di professori coloro che hanno ottenuto il titolo di laurea o diploma universitario a 30 anni
o più (2,8%), indipendentemente dalla facoltà di provenienza.
Non sorprende che i laureati ultratrentenni che già lavorano abbiano scarsa
familiarità con i professori, considerato che non cercano nuove attività, ma che è il titolo inseguito, e finalmente ottenuto, ad aprire loro progressioni di carriera. Sono
persone che hanno conseguito un lasciapassare professionale e non un segnalatore di
qualità degli studi. Da studenti erano raramente presenti in facoltà, hanno avuto poche o nulle occasioni di costruire una rete di contatti nell’università. Tra i gruppi individuati dalla partizione, è quello con la più bassa soddisfazione media (6,7) e con il
più basso indice di coerenza professionale con gli studi universitari svolti (solo il
15,7% svolge attività lavorativa molto coerente contro una media del 28,4%).
Figura 2. Albero di segmentazione per la variabile “cerca lavoro attraverso conoscenze di professori”
Non lavorava
y=12.6%
n=2057
Lavorava
y=14.1%
n=1483
Facoltà=1-8-5-11-2-13
Facoltà=3-7-6-9-10
Facoltà=12-4
y=20.3%
n=773
y=8.7%
n=513
y=3.6%
n=197
Laureato
y=21.8%
n=684
Voto di laurea alto
y=27.7%
n=325
y=8.7%
n=574
Diplomato
y=9%
n=89
Voto di laurea basso
y=16.4%
n=359
Voto di laurea alto Voto di laurea basso
y=11.2%
n=294
y=5.5%
n=219
Laurea entro
30 anni
Facoltà=5-1-2
y=20.2%
n=104
y=10.1%
n=466
Facoltà=9-7
Laurea a 30
anni o più
y=2.8%
n=108
Facoltà=3-4-6-8-10-11-12-13
y=11.4%
n=70
y=6.2%
n=292
Laurea tra i 26 e i
29 anni
y=8%
n=190
Laurea tra i 26 e i
27 anni
y=10.3%
n=117
Laurea entro 26
anni
y=2.9%
n=102
Laurea tra i 28 e i
29 anni
y=4.1%
n=73
122
Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati...
Tabella 10. Percentuale di occupati, soddisfazione media (su scala 1-10) e percentuale di laureati o diplomati che considerano il loro lavoro molto coerente col percorso formativo in base ai gruppi individuati con l’analisi di segmentazione
Soddisfazione
% molto coerenti
Gruppo
N
% occupati
media
con gli studi
1
197
43,6
7,5
19,8
2
108
88,3
6,7
15,7
3
89
78,8
7,4
30,7
4
294
60,0
7,2
25,7
5
219
69,6
6,9
21,3
6
104
89,5
7,4
27,5
7
70
89,7
7,5
45,7
8
325
69,1
7,5
41,1
9
359
71,3
7,4
26,7
10
102
82,9
7,1
33,4
11
117
79,8
6,8
24,6
12
73
90,3
7,2
21,1
Ateneo
2.817
60,7
7,3
28,4
Legenda relativa ai gruppi (foglie dell’albero di segmentazione) individuati:
Gruppo 1: Inoccupati al conseguimento del titolo, facoltà di Giurisprudenza e Scienze Politiche
Gruppo 2: Occupati al conseguimento del titolo, laureati a 30 o più
Gruppo 3: Inoccupati al conseguimento del titolo, facoltà di Agraria, Economia, Medicina veterinaria,
Ingegneria, Scienze MMFFNN e Scienze Statistiche, diplomati.
Gruppo 4: Inoccupati al conseguimento del titolo, facoltà di Farmacia, Medicina e chirurgia, Lettere,
Psicologia e Scienze della formazione, laureato o diplomato con voto alto.
Gruppo 5: Inoccupati al conseguimento del titolo, facoltà di Farmacia, Medicina e chirurgia, Lettere,
Psicologia e Scienze della formazione, laureati o diplomati con voto basso.
Gruppo 6: Occupati al conseguimento, laureati a meno di 30 anni, facoltà di Ingegneria, Agraria, Economia.
Gruppo 7: Occupati al conseguimento, laureati a meno di 30 anni, facoltà di Psicologia e Medicina
Gruppo 8: Inoccupati al conseguimento del titolo, facoltà di Agraria, Economia, Medicina veterinaria,
Ingegneria, Scienze MMFFNN e Scienze Statistiche, laureati, con voto di laurea alto.
Gruppo 9: Inoccupati al conseguimento del titolo, facoltà di Agraria, Economia, Medicina veterinaria,
Ingegneria, Scienze MMFFNN e Scienze Statistiche, laureati, con voto di laurea basso.
Gruppo 10: Occupati al conseguimento del titolo, facoltà di Farmacia, Giurisprudenza, Medicina Veterinaria, Lettere, Scienze MMFFNN, Scienze politiche e Scienze della formazione, entro
i 26 anni.
Gruppo 11: Occupati al conseguimento del titolo, facoltà di Farmacia, Giurisprudenza, Medicina Veterinaria, Lettere, Scienze MMFFNN, Scienze politiche e Scienze della formazione, 26-27
anni.
Gruppo 12: Occupati al conseguimento del titolo, facoltà di Farmacia, Giurisprudenza, Medicina Veterinaria, Lettere, Scienze MMFFNN, Scienze politiche e Scienze della formazione, 28-29
anni.
Modelli statistici per l’analisi della transizione Università-lavoro
123
Tra coloro che già lavoravano, hanno utilizzato di più la conoscenza dei professori i laureati con meno di 30 anni in Agraria, Economia, Ingegneria (20,2%).
Tra chi non lavorava al conseguimento del titolo, ricorrono di meno alla conoscenza di professori i laureati in Scienze politiche o Giurisprudenza (3,6%), mentre vi
ricorrono più spesso i laureati con voto di laurea alto in Agraria, Economia, Ingegneria, Medicina Veterinaria, Scienze MM.FF.NN., Scienze Statistiche (27,7%). Per questo ultimo gruppo l’indice di coerenza tra studi e lavoro è particolarmente alto
(41,1%) e la soddisfazione per il lavoro svolto superiore alla media (7,5).
Gli elementi che possono indurre gli studenti delle diverse facoltà a coltivare
un rapporto privilegiato con i loro professori sono i seguenti:
- l’affollamento della facoltà, ossia il rapporto numerico tra discenti e docenti che influisce sulla possibilità effettiva di stabilire contatti fiduciari tra le due categorie;
- il carattere sperimentale delle tesi di laurea nell’ambito delle discipline scientifiche. La sperimentazione, svolta non raramente su temi e con metodi che sono parte dell’interesse scientifico del professore, richiede la stretta collaborazione tra il
laureando e il futuro relatore della tesi;
- l’apertura dei docenti che operano nella facoltà al mondo extra–accademico e, in
particolar modo, al mondo delle imprese.
Questi elementi, eventualmente combinati tra loro, favoriscono di gran lunga
le facoltà scientifiche rispetto a quelle umanistiche come luogo di contatto tra studenti e professori.
Il genere non contribuisce alla segmentazione, mentre il tipo di titolo (laurea
o diploma), il voto e l’età alla laurea influiscono sensibilmente sul ricorso ai legami
informali con il professore, rendendo più disponibili i professori a segnalazioni degli
studenti più meritevoli (che si laureano presto e con voti superiori alla media).
5
Le conoscenze dei colleghi di lavoro per cambiare attività
La propensione a rivolgersi ai propri colleghi di lavoro nelle azioni di ricerca di una
diversa attività da parte dei neo-laureati e neo-diplomati che lavorano9 è stata valutata rispetto all’ottenimento di indirizzi a cui inviare il curriculum vitae. Come possibili variabili predittive nell’analisi di segmentazione sono state aggiunte a quelle considerate nelle due analisi precedenti “posizione lavorativa” (superiore o inferiore a
quella di impiegato), “settore di attività dell’azienda” (pubblico o privato), “la dimensione dell’azienda” (numero di addetti maggiore o minore di venti). I risultati
dell’analisi sono presentati nella Fig. 3 e nella Tab. 11.
9
La numerosità campionaria di coloro che lavorano e cercano una diversa attività è di 480 tra laureati e diplomati universitari.
124
Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati...
Figura 3. Albero di segmentazione per la variabile dipendente “È ricorso alla segnalazione di colleghi o conoscenti per l’invio del curriculum”
Facoltà: 2-3-4-6
y=30%
y=30%
n=480
n=480
y=18,6%
y=18,6%
n=113
n=113
y=32,2%
y=32,2%
n=367
n=367
Laurea
entro i
28 anni
inferiore a impiegato
y=40,3%
y=40,3%
n=159
n=159
y=33,6
y=33,6
n=107
n=107
Laurea
dopo i 28
anni
y=53,8
y=53,8
n=52
n=52
settore pubblico
Facoltà: 1-5-7-8-910-11-12-13
impiegato o superiore
y=26%
y=26%
n=208
n=208
y=17,3
y=17,3
n=52
n=52
Laurea
entro i 26
anni
settore privato
y=28,8
y=28,8
n=156
n=156
y=19,6
y=19,6
n=51
n=51
y=33,3
y=33,3
n=105
n=105
Laurea
dopo i 26
anni
Tabella 11. Soddisfazione media e tasso di coerenza tra lavoro svolto e percorso
formativo in base ai gruppi individuati con l’analisi di segmentazione
Gruppo
N
Soddisfazione media
% molto coerenti con gli studi
1
2
3
4
5
6
Ateneo
113
107
52
52
51
105
2.817
7,0
7,2
6,8
7,6
7,3
6,8
7,3
17,4
35,8
33,5
33,4
41,4
8,8
28,4
Legenda relativa ai gruppi (foglie dell’albero di segmentazione) individuati:
Gruppo 1: Laureati o diplomati in Economia, Farmacia, Giurisprudenza, Lettere e filosofia
Gruppo 2: Laureati o diplomati nelle restanti facoltà, con posizione inferiore a impiegato o senza posizione, che hanno conseguito il titolo entro i 28 anni
Gruppo 3: Laureati o diplomati nelle restanti facoltà, con posizione inferiore a impiegato o senza posizione, che hanno conseguito il titolo dopo i 28 anni
Gruppo 4: Laureati o diplomati nelle restanti facoltà, con posizione di impiegato o superiore, che lavorano nel settore pubblico.
Gruppo 5: Laureati o diplomati nelle restanti facoltà, con posizione di impiegato o superiore, che lavorano nel settore privato e che hanno conseguito il titolo entro i 26 anni.
Gruppo 6: Laureati o diplomati nelle restanti facoltà, con posizione di impiegato o superiore, che lavorano nel settore privato e che hanno conseguito il titolo dopo i 26 anni.
Modelli statistici per l’analisi della transizione Università-lavoro
125
Ricorrono in maggior misura (il 53,8%) alle conoscenze e ai colleghi i laureati
o diplomati di quasi tutte le facoltà (sono escluse Economia, Farmacia, Giurisprudenza e Lettere) inseriti in una posizione professionale di ripiego, addirittura inferiore a
quella di impiegato (insegnanti, operai, commercianti, artigiani, contratto atipico) e
che si sono laureati relativamente tardi, dopo i 28 anni. Si tratta di persone “in fuga”
dall’attività che svolgono e che si sentono deboli sul piano professionali. Infatti, non
solo svolgono attività che possono essere considerate di ripiego, ma dichiarano anche
una soddisfazione piuttosto inferiore alla media (6,8).
Vi ricorrono di meno, invece, i laureati o diplomati con una posizione di impiegato, funzionario o dirigente nelle amministrazioni pubbliche, i quali svolgono
un’attività già abbastanza coerente con ciò che hanno appreso durante gli studi
(33,4%, contro una media del 28,4%) e che dà loro il più alto livello di soddisfazione
per l’attività svolta (7,6) tra tutti i gruppi ottenuti con l’analisi di segmentazione.
L’anzianità alla laurea è, inoltre, direttamente proporzionale alla propensione
a fare uso dei legami che si instaurano nell’ambito professionale privato: chi consegue il titolo più tardi ha avuto il tempo di consolidare la propria rete di relazioni
nell’ambiente di lavoro. Questa differenza tra le età alla laurea non emerge invece tra
i lavoratori del settore pubblico che abbiano una posizione uguale o superiore a quella di impiegato.
6
Conclusioni
Nel presente studio sono state esplorate alcune ipotesi sull’entità e sull’efficacia del
ricorso al sistema dei reticoli informali, da parte di neo-laureati e neo-diplomati
dell’Università di Padova, al fine di cercare lavoro. Si può iniziare con l’affermare
che la rete di conoscenze è impiegata da almeno un laureato o diplomato ogni due
che si sono mossi per cercare lavoro. Non è impossibile che, in contesti meno effervescenti del Veneto dal punto di vista delle opportunità occupazionali, questa proporzione sia persino superiore a quella constatata.
È opportuno distinguere tra le segnalazioni dei professori e le conoscenze di
familiari e amici. Le prime sono opportunità offerte al neo-laureato direttamente da
un professore, spesso come contropartita di una buona prova dimostrata nello svolgimento della tesi. Di fronte a una proposta come questa il laureato può solo dire che
accetta o che non accetta. Se non accetta, l’opportunità è offerta ad un altro, essendo
il legame di stretta pertinenza del professore. Quelle nate in ambito accademico sono,
quindi, opportunità molto concrete, spendibili per un’unica posizione lavorativa,
sfruttabili in un tempo breve, asimmetriche nella direzione, dal professore verso lo
studente-laureato.
126
Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati...
Le seconde sono opportunità multiple che chi è in grado di citare sfrutta a
proprio vantaggio. Sono acquisizione proprie del laureato/diplomato, certamente
condivise con altri della famiglia o dell’ambiente sociale di appartenenza, ma che il
singolo può spendere se e quando ne intravede l’utilità per sé. Grosso modo, su cinque raccomandazioni esercitate nella ricerca di lavoro, quattro sono di tipo sociofamiliare e una è di ambito accademico.
Quali categorie di laureati fanno ricorso ai reticoli sociali nella ricerca di lavoro appena dopo il conseguimento del titolo? Giova ribadire che le analisi svolte riguardano un insieme omogeneo di persone, tutte caratterizzate dal possesso di titoli
di studio elevati e di età relativamente simile, quindi le eventuali distinzioni rispetto
al titolo di studio e all’età vanno interpretate tenendo conto del contesto prefigurato.
Si nota, innanzitutto, che per poter utilizzare le conoscenze è necessario disporne. Le segnalazioni da parte di professori avvengono quasi esclusivamente a
vantaggio dei laureati che hanno svolto una buona tesi a carattere sperimentale. Ciò
limita fortemente l’ambito di applicazione di questo tipo di legami agli studenti che
sviluppano un curriculum qualificato, che non lavorano, e che hanno seguìto corsi di
studio caratterizzati sul piano della formazione professionale.
L’entità delle conoscenze familiari e amicali varia, invece, considerevolmente
secondo il background sociale del neolaureato/neodiplomato. Le classi sociali più elevate dispongono di più legami sociali che contano nella ricerca di lavoro. Tuttavia,
non tutti i laureati li spendono con la stessa intensità e frequenza, bensì chi sente di
averne più bisogno, chi è in maggiori difficoltà nella ricerca, vi fa maggiormente ricorso. Vi ricorrono, quindi, di più i laureati di area umanistica e sociale, coloro che
ottengono il titolo alla fine di percorsi formativi o con percorsi esistenziali accidentati, coloro che temono di essere svantaggiati.
Tra coloro che temono di essere svantaggiati si trovano numerose laureate, le
quali utilizzano la raccomandazione sistematicamente di più dei colleghi di pari titolo, ma di meno quella accademica, vale a dire con il professore-relatore della tesi. La
cosa interessante è che vi ricorrono di più anche se possiedono un titolo di studio di
tutto riposo per la ricerca di lavoro, come una laurea in Ingegneria o in una disciplina
scientifica elitaria.
È, quindi, evidente che i legami informali sono chiamati a fare da scudo
quando il laureato/diplomato si sente indifeso, quando vuole parificare con un intervento “esterno” le opportunità di successo nella ricerca di lavoro che – secondo la
sua percezione – la nascita, la vita vissuta e il percorso scolastico hanno reso impari.
Se questa affermazione fosse vera, il reticolo di relazioni informali squalifica
sul piano etico chi lo usa per riguadagnare posizioni che crede perdute. Da qualsiasi
parte si analizzino questi dati, si percepisce che chi usa il reticolo personale, sentendosi
debole, rischia implicitamente un giudizio morale, mentre chi ha un curriculum che testimonia la sua professionalità gioca prevalentemente questa carta a proprio vantaggio.
Modelli statistici per l’analisi della transizione Università-lavoro
127
Naturalmente, da questo giudizio sono esclusi coloro che hanno allacciato legami nel contesto lavorativo in cui operano e che li utilizzano al solo fine di conoscere prima dei possibili concorrenti le opportunità offerte dal mondo del lavoro per migliorare la propria posizione professionale.
Va, tuttavia, ricordato che l’informalità non è considerata un danno da parte
delle imprese e dei selezionatori. Innanzitutto, perché riduce il margine di incertezza
nella scelta: il selezionatore trae dalla segnalazione maggiori informazioni sulla persona. Poi, dalla complicità implicita nella segnalazione trae motivo di garanzia del
comportamento dell’assunto, nel senso che questi risponde non solo al datore di lavoro, ma anche a chi l’ha segnalato. I giudizi morali sulla segnalazione come istituzione
sono, dunque, relativi.
Per concludere, ci piacerebbe sondare, ma i dati disponibili non lo rendono
possibile, l’ipotesi che le componenti etico-culturali condizionino il ricorso ai legami
informali per trovare lavoro. Si è, infatti, visto che, a parità di status sociale e di curriculum, alcuni fanno ricorso al reticolo sociale e altri no. Quanto il sistema di valori
dell’individuo freni questa propensione potrebbe aiutare nell’esprimere un giudizio
più definitivo su questa pratica sociale.
Infine, l’analisi è stata limitata ai laureati a sei mesi dal conseguimento del titolo. Ciò ha permesso di rispondere alla domanda se i laureati fanno ricorso alla rete
di legami per cercare un lavoro. La ristrettezza del periodo esaminato non permette
di verificare, con la dovuta attendibilità, l’ipotesi se le conoscenze siano utili, ed eventualmente per chi, anche per progredire nella carriera. Tale ipotesi è verificabile
attendendo le rilevazioni successive che, come si è detto nel Par. 1, si estendono nel
tempo fino a tre anni dal conseguimento del titolo.
128
Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati...
Riferimenti bibliografici
BIAN Y., ANG S. (1997) Guanxi Networks and Job Mobility in China and Singapore, Social Forces, 75: 981-1005
CORCORAN M., DATCHER L., DUNCAN G.J. (1980) Information and influence
networks in labor markets. In: DUNCAN G.J., MORGAN J.N. (eds) Five
Thousand American Families: Pattern of Economic Progress. vol. VIII,
Institute for Social Research, University of Michigan, Ann Arbor, MI:
1-37
FABBRIS L. (1997) Statistica multivariata. Analisi esplorativa dei dati, McGrawHill, Milano
FABBRIS L. (2003) Il monitoraggio dell’inserimento occupazionale e professionale dei laureati e dei diplomati dell’Università di Padova, Quaderno
PHAROS n. 6/2003, Osservatorio sul mercato locale del lavoro, Università
degli Studi di Padova, CLEUP, Padova
FABBRIS L., MARTINI M.C. (2002) Analisi di segmentazione con una variabile
dipendente trasformata in logit. In: CARLI SARDI L., DELVECCHIO F. (a cura
di) Indicatori e metodi per l’analisi dei percorsi universitari e postuniversitari, CLEUP, Padova: 195-214
FABBRIS L., MARTINI M.C., ROTA G. (2002) Il valore di mercato dei titoli di
laurea e diploma di Padova a sei mesi dal conseguimento del titolo. In:
CARLI SARDI L., DELVECCHIO F. (a cura di) Indicatori e metodi per l’analisi
dei percorsi universitari e post-universitari, CLEUP, Padova: 171-194
FEVRE R. (1989) Informal Practices, Flexible Firms and Private Labour Markets,
Sociology, 23: 91-109
FLAP H.D., De Graaf N.D. (1986) Social Capital and Attainment Occupational
Status, Netherlands Journal of Sociology, 22: 124-132
FOLLIS M. (1998) Perché contano i contatti personali nel mercato del lavoro? I
micro fondamentali della funzione economica pubblica dei reticoli sociali e
il problema dell’embeddedness. In: GRANOVETTER M., FOLLIS M (a cura di)
La forza dei legami deboli e altri saggi, Liguori Editore, Napoli: 7-114
GRANOVETTER M. (1973) The Strength of Weak Ties, The University of Chicago Press, Chicago
GRANOVETTER M. (1974, 1995) Getting a Job: a Study of Contacts and Careers, The University of Chicago Press, Chicago
GRANOVETTER M., FOLLIS M (a cura di) (1998) La forza dei legami deboli e
altri saggi, Liguori Editore, Napoli
ISTAT (1997) Rapporto sull’Italia. Edizione 1997, Il Mulino, Bologna
KATZ F.E. (1958) Occupational Contact Networks, Social Forces, 37: 252-258
LA MENDOLA S. (1995) Con gli occhi di Caronte, CLUEB, Bologna
Modelli statistici per l’analisi della transizione Università-lavoro
129
LIN N., VAUGHN J.C., ENSEL W.M. (1981) Social Resources and Occupational
Status Attainment, Social Forces, 59: 1163-1181
MARSDEN P.V., HURLBERT J.S. (1988) Social resources and mobility outcomes,
Social Forces, 66: 1083-1095
SAS Inc. (2000) Getting Started with Enterprise MinerTM Software Release 4.1, SAS
Inc. Gary
SCHIEVANO C. (2002) LAID-OUT.1: un programma per l’analisi di segmentazione
binaria con riferimento ad una variabile dicotomica trasformata in logit. In:
PUGGIONI G. (a cura di) Modelli e metodi per l’analisi di rischi sociali e sanitari, CLEUP, Padova, 21-36
SMELSER N.J., SWEDBERG R (eds) The Handbook of Economic Sociology, Princeton University Press, Princeton, NJ, Russel Sage Foundation, New York
WATANABE S. (1994) Strength of Ties and Job-Searching in Japan, American Sociological Review, 56: 60-71
130
Reticoli multidimensionali di legami “deboli” per la ricerca di lavoro dei laureati...
Multidimensional Networks of “Weak” Links
for Job Search of Padua University Graduates
Summary. In this paper, we apply a model for the interpretation of graduates’ job
search through the so-called “weak ties”, i.e. personal links through which a work
position may be obtained. Economists and Sociologists consider these links one of
the most effective routes for job finding. We analyse weak ties with reference to the
first job search by University of Padua graduates through family, friendship and university teachers links. To obtain a working position more coherent with his/her educational investment, we analyse the information about job opportunities which are
communicated to employed graduate by their colleagues. By hypothesizing that
graduates use their personal links in a different proportion, we segment, by means of
a multivariate method, the sample according to the faculty and, within faculty, according to the curricular and social characteristics of graduates.
Keywords. Weak ties; Job Search; Familial links; Teacher links; Colleague links;
Graduates; Padua University.
L’effetto degli studi universitari sull’occupazione:
un’applicazione dell’approccio
degli “strati principali” all’analisi causale
Leonardo Grilli, Fabrizia Mealli1
Dipartimento di Statistica “G. Parenti” - Università degli Studi di Firenze
Riassunto. Il lavoro mostra come valutare l’efficacia di due corsi di laurea rispetto
allo status occupazionale usando l’approccio degli “strati principali” all’inferenza
causale. L’applicazione riguarda la coorte 1992 degli iscritti ai corsi di laurea in Economia e Commercio e in Scienze Politiche presso l’Università di Firenze.
L’articolo illustra un uso innovativo dei limiti non parametrici nell’ambito degli
“strati principali”, esaminando il ruolo di alcune assunzioni in ordine alla riduzione
dell’incertezza. La seconda fase dell’analisi si basa su un modello parametrico adattato con la massima verosimiglianza. In quel contesto si discutono alcune rilevanti
questioni relative alla modellizzazione, delineando una strategia generale per la specificazione del modello.
Parole chiave: effetti causali, efficacia, risultati potenziali, strati principali.
1.
Introduzione
Le tradizionali analisi dell’effetto dei corsi di laurea sullo stato occupazionale (chiamate anche analisi di efficacia esterna) sono condotte soltanto sulla base degli studenti laureati, trascurando il fatto che l’insieme degli studenti che sono in grado di
laurearsi in un dato corso di laurea è, in generale, diverso dall’insieme di studenti che
sono in grado di laurearsi in un altro corso di laurea. In alter parole, due diversi corsi
di laurea possono selezionare diverse tipologie di studenti, con differenti attitudini,
capacità e prospettive lavorative. Un’analisi dello stato occupazionale basata soltanto
sugli studenti laureati mescola l’effetto “diretto” del corso di laurea sull’occupazione
con l’effetto “indiretto” che passa attraverso il raggiungimento della laurea.
1
Il presente lavoro è stato finanziato nell’ambito del progetto “Transizioni università-lavoro e valorizzazione delle competenze professionali dei laureati: modelli e metodi di analisi multidimensionale delle determinanti”, cofinanziato dal MIUR (Coordinatore nazionale Luigi Fabbris, coordinatore del
gruppo di Firenze Bruno Chiandotto). La nota è frutto del lavoro congiunto dei due autori ed è stata
redatta da F. Mealli per quanto concerne i paragrafi 1, 2, 3 e 7 e da L. Grilli per i paragrafi 4, 5 e 6.
132
L’effetto degli studi universitari sull’occupazione:...
Da un punto di vista di politica dell’istruzione, scomporre i due effetti è molto importante. Per esempio, se esiste un effetto diretto sull’occupazione, allora il corso di laurea con minore efficacia dovrebbe modificare i propri contenuti al fine di
soddisfare le richieste del mercato del lavoro. Se invece il successo sul mercato del
lavoro di un corso di laurea è dovuto soltanto ai diversi criteri di selezione (ad es., un
corso di studi risulta più difficile di un altro e quindi seleziona studenti migliori), allora il problema diventa un tema di politica dell’istruzione (nell’esempio posto, se sia
o meno auspicabile per la società il permettere che si laureino studenti con minori
capacità o permettere l’esistenza di corsi di laurea con diversi livelli di difficoltà).
Al fine di studiare l’effetto diretto dei corsi di laurea sull’occupazione, evitando distorsioni dovute ad un diverso processo di selezione/laurea, è necessario pianificare uno studio congiunto dei processi che conducono alla laurea e al lavoro. A
questo proposito un approccio appropriato può essere quello della stratificazione
principale (Frankgakis & Rubin, 2002), un importante sviluppo dell’approccio dei risultati potenziali all’inferenza causale (Rubin, 1974). L’approccio della stratificazione principale è stato recentemente utilizzato in Barnard et al. (2003) per l’analisi di
un complesso esperimento casualizzato nell’ambito dell’istruzione. Nella presente
applicazione, la variabile di trattamento è la variabile indicatrice di un corso di laurea (vs. un altro), mentre la variabile intermedia (post-trattamento) che definisce gli
strati principali è la laurea (laureato/non laureato). Il punto cruciale è che, se uno studente non si laurea, la variabile risultato, che è lo stato occupazionale, non è definita
se l’obiettivo è quello di studiare l’efficacia dei corsi di laurea rispetto al mercato del
lavoro. Questo è un esempio della cosiddetta censura per morte, discussa in Zhang &
Rubin (2004) nel caso ipotetico di un esperimento casualizzato riguardante due programmi educativi nella scuola superiore, dove la variabile intermedia è l’abbandono
e la variabile risultato è il punteggio su un test finale.
In questo lavoro, l’approccio di Zhang & Rubin (2004) è applicato ad un caso
di studio reale, che differisce dal loro esempio in molti aspetti: (i) il trattamento non
è casualizzato; (ii) i due trattamenti sono sullo stesso piano, ovvero non vi è un trattamento attivo da confrontare con un trattamento di controllo; (iii) la variabile risultato
è binaria e soggetta a non risposta; (iv) alcune covariate rilevanti sono disponibili.
La presente analisi è limitata al confronto di due soli corsi di laurea.
L’estensione a più corsi comporta alcune difficoltà tecniche, ma l’approccio concettuale rimarrebbe essenzialmente inalterato.
I due corsi di laurea messi a confronto sono Economia e Commercio e Scienze Politiche, che sono piuttosto simili, almeno in Italia, rispetto ai contenuti dei corsi
e alle opportunità lavorative. Alla luce di tali similarità, per un dato livello delle covariate osservate, la scelta di iscriversi ad un determinato corso è verosimilmente poco associata a caratteristiche osservabili che potenzialmente influiscono anche sulle
chance di laurea e il successivo status occupazionale; quindi l’assunzione di ignora-
Modelli statistici per l’analisi della transizione Università-lavoro
133
bilità dell’assegnazione al trattamento discussa più aventi sembra ragionevole. Si noti
che la variabile binaria che identifica il corso di laurea a cui uno studente è iscritto
sarà chiamata indicatore di trattamento, in modo da conformarsi all’usuale linguaggio dell’analisi causale, sebbene nella presente applicazione non vi sia alcuna randomizzazione e, inoltre, I due corsi di laurea sono sullo stesso piano, non essendoci
un trattamento attivo vs. uno di controllo.
2.
I dati
Un’analisi congiunta dei processi che conducono alla laurea e al successo sul mercato del lavoro richiede di unire due archivi di dati: un database amministrativo riguardante una (o più) coorte di studenti e i dati relative ad un indagine che rilevi lo stato
occupazionale sui laureati di quella stessa coorte. In questo lavoro, riguardante corsi
di laurea offerti dall’Università di Firenze le due fonti di dati sono:
• L’archivio amministrativo dalla coorte di matricole iscritte nel 1992 ad
uno dei due corsi di laurea Economia e Commercio e Scienze Politiche;
• Tre indagini esaustive sullo stato occupazionale dei laureati negli anni
1998, 1999 e 2000.
I dataset sono stati uniti attraverso il numero di matricola. Le matricole della
coorte esaminata sono 1941: 1068 iscritte a Economia e Commercio e 873 a Scienze
Politiche. La scelta della coorte è stata motivata dalla disponibilità di dati da indagine
per i laureati dal 1998 al 2000: la coorte 1992 è parsa la scelta migliore poiché solo 21
studenti di tale coorte si sono laureati prima del 1998, mentre la maggior parte degli
studenti che non hanno abbandonato si sono laureati proprio nel triennio 1998-2000.
La carriera accademica degli studenti alla fine dell’anno 2000 è riassunta nella Tabella 1. Per gli studenti ancora iscritti, così come per gli abbandoni, non disponiamo di dati relativi al loro status occupazionale. Quindi, ai fini della presente analisi, la laurea è definita come “laurea entro nove anni dall’iscrizione. Questa restrizione nella definizione dello status di laureato non pare eccessivamente dannosa per
l’analisi, considerato anche il fatto che il raggiungimento della laurea dopo nove anni
coinvolge molti studenti che hanno già un lavoro regolare svolto durante gli studi.
Lo stato occupazionale al momento dell’intervista per il sottoinsieme di studenti laureati è riportato nella Tabella 2.
Tutti gli studenti intervistati hanno risposto alle domande sullo stato occupazionale. Fatta eccezione per i 21 studenti laureati prima del 1988, che erano fuori
target dell’indagine, quasi tutti le interviste mancanti sono dovute a mancati contatti.
La variabile di risultato per l’analisi è la variabile indicatrice del possesso di
una lavoro permanente al momento dell’intervista, ovvero da uno a due anni dopo la
134
L’effetto degli studi universitari sull’occupazione:...
Tabella 1. Carriera accademica degli studenti della coorte 1992 alla fine dell’anno 2000
Status
Economia e Commercio
Scienze Politiche
Abbandonato
Laureato
Ancora iscritto
545
270
253
51.0%
25.3%
23.7%
532
176
165
60.9%
20.2%
18.9%
Totale
1068
100.0%
873
100.0%
Tabella 2. Status occupazionale al momento dell’intervista
Status
Laureati
Intervistati
Lavoro permanente
* Intervistati/Laureati
Economia e Commercio
Scienze Politiche
270
176
187
97
69.3%*
51.9%**
99
36
56.2%*
36.4%**
**Lavoro permanente/Intervistati
Tabella 3. Medie campionarie delle covariate per corso di laurea
Economia e Commercio
Covariate
(n=1068)
Femmina
0.41
Residenza a Firenze
0.23
Liceo
0.34
Voto alto
0.37
Iscrizione con ritardo
0.06
Scienze Politiche
(n=873)
0.54
0.31
0.45
0.25
0.22
laurea. La natura permanente del lavoro dipende dal tipo di contratto per I lavoratori
dipendenti, mentre deriva da un’autovalutazione per i lavoratori autonomi. I lavori
temporanei sono ignorati. I dati amministrativi includono informazioni aggiuntive
sull’intera coorte, che sono state utilizzate per definire cinque covariate binarie, successivamente rappresentate per ogni studente dal vettore xi: genere, residenza (a Firenze vs. altro), diploma di maturità (Liceo vs. altro), Voto di maturità (voto alto 5060 vs. voto basso 36-49), Iscrizione in ritardo. Nella Tabella 3 sono riportate le medie campionarie delle covariate.
Le covariate hanno distribuzione diversa nei due corsi di laurea, evidenziando
come l’assegnazione al trattamento non sia completamente casuale. In particolare, il
voto di maturità è più elevato tra gli studenti di Economia e Commercio; la differenza maggiore riguarda l’iscrizione in ritardo, che è piuttosto rara per gli studenti di
Economia e Commercio, ma raggiunge il 22% tra gli studenti iscritti a Scienze Poli-
Modelli statistici per l’analisi della transizione Università-lavoro
135
tiche, plausibilmente per la presenza di molti studenti lavoratori che decidono di iscriversi all’Università in un momento distante dall’ottenimento del diploma di maturità.
3.
L’approccio degli Strati Principali
Sia n il numero totale di individui oggetto dello studio, ovvero la dimensione della
coorte di immatricolati a Economia e Commercio e Scienze Politiche nel 1992. La
variabile di trattamento Zi è quindi definita come:
•
Zi = 1 se lo studente i è iscritto a Economia e Commercio;
•
Zi = 0 se lo studente i è iscritto a Scienze Politiche.
Sia adesso zi il valore osservato di Zi e sia z il vettore degli zi per tutti gli n individui. Nell’approccio dei risultati potenziali ogni variabile post-trattamento dipende dal vettore dei trattamenti assegnati z. Tuttavia, nella presente applicazione è ragionevole fare la seguente assunzione, che esclude la possibilità di interazioni tra individui:
Assunzione 1 (SUTVA - Stable Unit Treatment Value Assumption):
Per ogni individuo i ogni variabile post-trattameno dipende da z soltanto attraverso zi.
Data l’ipotesi SUTVA, ogni variabile post-trattamento ha tante versioni “potenziali” quanti sono i possibili trattamenti (due nel nostro caso). Quindi, le variabili
post-trattamento possono essere definite come segue.
La prima variabile post-trattamento è la variabile intermedia Si(z):
• Si (z) = 1 se lo studente i si è laureato entro la fine del 2000 (ovvero entro 9 anni) se iscritto al corso z;
• Si (z) = 0 se lo studente i non si è laureato entro la fine del 2000 (ovvero entro 9
anni) se iscritto al corso z.
Un’altra variabile post-trattamento è l’indicatore di risposta Ri(z):
• Ri (z) = 1 se lo studente i ha risposto alla domanda sullo stato occupazionale se
iscritto al corso z e si è laureato;
• Ri (z) = 0 se lo studente i non ha risposto alla domanda sullo stato occupazionale se iscritto al corso z e si è laureato.
L’ultima variabile post-trattamento è la variabile risultato Yi (z):
• Yi (z) = 1 se lo studente i, se iscritto al corso z e si è laureato, aveva un lavoro
permanente al momento dell’intervista;
• Yi (z) = 0 se lo studente i, se iscritto al corso z e si è laureato, non aveva un lavoro permanente al momento dell’intervista.
136
L’effetto degli studi universitari sull’occupazione:...
Poiché per ogni individuo la variabile di trattamento assume un solo valore,
per ogni variabile post-trattamento solo una delle due versioni potenziali può essere
osservata. È quindi utile introdurre la seguente notazione:
Siobs = Si (Zi), Riobs = Ri (Zi), Yiobs = Yi (Zi).
Essendo binarie sia la variabile di trattamento che la variabile intermedia, è
possibile definire 4 strati principali identificati dai valori della variabile latente Li:
• Li = ‘GG’ (Laureato, Laureato) se Si(1)=1 e Si(0)=1: studenti che sono in
grado di laurearsi in entrambi i corsi di laurea;
• Li = ‘GN’ (Laureato, Non laureato) se Si(1)=1 e Si(0)=0: studenti che sono
in grado di laurearsi se iscritti ad Economia e Commercio ma che non
sono in grado di laurearsi se iscritti a Scienze Politiche;
• Li = ‘NG’ (Non laureato, Laureato) se Si(1)=0 e Si(0)=1: studenti che non
sono in grado di laurearsi se iscritti ad Economia e Commercio ma che
sono in grado di laurearsi se iscritti a Scienze Politiche;
• Li = ‘NN’ (Non laureato, Non laureato) se Si(1)=0 e Si(0)=0: studenti che
non sono in grado di laurearsi in nessuno dei due corsi di laurea.
Si noti che ogni studente appartiene ad un singolo strato, sebbene i dati non
siano in grado di rivelare in generale quale sia il suo strato di appartenenza. In altre
parole, gli strati principali sono classi latenti e i dati permettono soltanto di stimare le
probabilità che un dato studente appartenga ad una certa classe latente. Si noti che gli
strati principali sono definiti da coppie di valori potenziali della variabile intermedia,
quindi non sono influenzati dal trattamento e possono quindi essere considerati come
covariate pre-trattamento non osservabili.
La relazione tra i gruppi osservati, definiti da Zi e Siobs, e gli strati principali è
descritta nella tabella 4, insieme ai corrispondenti supporti di Riobs e Yiobs.
Per le variabili post-trattamento S e Y le proporzioni campionarie nei due
gruppi risultano:
• PS,1 = 0.253: la proporzione campionaria di laureati tra gli studenti iscritti
a Economia (Zi=1);
• PS,0 = 0.202: la proporzione campionaria di laureati tra gli studenti iscritti
a Scienze Politiche (Zi =0);
Tabella 4. Gruppi osservati e strati principali
Gruppo osservato
Zi Siobs
Riobs
O(Z, Sobs)
O(1,1)
1
1
∈ {0,1}
O(1,0)
1
0
non definito
O(0,1)
0
1
∈ {0,1}
O(0,0)
0
0
non definito
Yiobs
∈ {0,1}
non definito
∈ {0,1}
non definito
Gruppo latente Li
(strato principale)
GG o GN
NG o NN
GG o NG
GN o NN
Modelli statistici per l’analisi della transizione Università-lavoro
137
• PY,1 = 0.516: la proporzione campionaria di individui con un’occupazione
permanente tra gli studenti iscritti a Economia (Zi=1) che si sono laureati
(Siobs = 1) e hanno risposto all’intervista (Riobs = 1);
• PY,0 = 0.364: la proporzione campionaria di individui con un’occupazione
permanente tra gli studenti iscritti a Scienze Politiche (Zi =0) che si sono
laureati (Siobs = 1) e hanno risposto all’intervista (Riobs = 1).
Tali proporzioni mostrano come ad Economia il tasso di laurea sia più elevato, così come il tasso di occupazione permanente tra i laureati. L’analisi dovrebbe
permettere di valutare se la migliore performance di Economia sia da attribuirsi ad
un effetto causale positivo.
Poiché l’obiettivo dello studio è quello di valutare l’efficacia dei corsi di laurea rispetto al mercato del lavoro, la variabile di risultato Y è definita solo per i laureati. Quindi l’effetto causale Yi(1)-Yi(0) sull’occupazione è definito in modo appropriato solo per lo strato GG, ovvero per gli studenti che sono in grado di laurearsi in
entrambi i corsi di studio. In generale, se i dati fossero disponibili, la variabile occupazione potrebbe essere definita per tutti gli studenti iscritti, anche se ai fini di valutare l’effetto del possesso di una laurea o di un’altra sull’occupazione ciò non sarebbe così rilevante.
Nella presente analisi l’effetto causale di principale interesse è l’effetto causale medio per lo strato GG. Quando l’interesse è rivolto solo alla popolazione effettivamente osservata, questo effetto è semplicemente la differenza tra le medie dei
due risultati potenziali Y(1) e Y(0) per gli individui che appartengono allo strato GG:
YGG (1) − YGG (0) . Tuttavia, in quanto segue, l’interesse è rivolto al più generale processo di generazione dei dati, e quindi i risultati sono implicitamente riferiti ad una
superpopolazione ed espressi in termini di probabilità: la differenza tra le probabilità
di avere un lavoro permanente sempre per lo strato GG: E (YGG (1)) − E (YGG (0)) =
P (YGG (1) = 1) − P(YGG (0) = 1) .
Poiché Z non è casualizzato ci potrebbero essere delle variabili di confondimento che influiscono contemporaneamente su Z e S o su Z e Y: in questo caso
l’effetto di Z su Y non potrebbe essere interpretato come un effetto causale. Le covariate disponibili xi, descritte in Tabella 3, possono aiutare ad alleviare questo problema, nel modo contenuto nella seguente assunzione:
Assunzione 2 (Assenza di confondimento dell’assegnazione del trattamento):
Zi ⊥ Si (0), Si (1), Yi (0), Yi (1) | xi .
Nella presente applicazione, questa assunzione sarebbe violata se studenti a
parità di caratteristiche osservate basassero la loro decisione di iscriversi ad un corso
di laurea, piuttosto che ad un altro, su valutazioni circa le proprie chances di laurea e
di lavoro, confrontando le chances di laurea e lavoro di studenti simili anche relati-
138
L’effetto degli studi universitari sull’occupazione:...
vamente a caratteristiche non osservate ma influenti su entrambi i risultati. Tuttavia
tale comportamento appare poco plausibile.
I dati sui risultati dei laureati soffrono anche del problema delle mancate risposte: infatti, la variabile Y è disponibile solo per coloro che hanno risposto
all’intervista. Nel seguito assumiamo che l’informazione su Y sia mancante a caso:
Assunzione 3 (Missing at random): Ri (z) ⊥ Yi (z)| xi , Si(z)=1 per ogni z=0,1.
Sotto l’assunzione 3, il meccanismo di risposta è ignorabile, quindi l’analisi si
può basare sui dati disponibili (condizionatamente alle variabili osservate). Poiché i
dati mancanti sono dovuti principalmente a mancati contatti ed è verosimile che la
difficoltà di contatto sia maggiore per le persone che lavorano, una possibile conseguenza potrebbe essere la sottostima del tasso di occupazione. Tuttavia le ripercussioni sull’effetto di interesse, che è una differenza tra probabilità, dovrebbero essere
trascurabili. Assunzioni alternative sul meccanismo di mancata risposta sono discusse in Mealli et al. (2004).
4.
La struttura probabilistica
Sotto le assunzioni 1-3 il processo generatore dei dati può essere definito in base ai
due seguenti gruppi di probabilità:
A. Probabilità degli strati principali:
• π GG:i = Pr( Li = ' GG ' | xi )
• π GN :i = Pr( Li = ' GN ' | xi )
• π NG:i = Pr( Li = ' NG ' | xi )
• π NN :i = Pr( Li = ' NN ' | xi ) .
Per esempio, π GN :i è la probabilità che lo studente i appartenga allo strato
principale GN, ovvero lo studente è in grado di laurearsi entro nove anni a Economia
ma non a Scienze Politiche.
B. Probabilità della variabile riposta, condizionata allo strato principale:
• γ 1,GG:i = Pr(Yi obs = 1| Z i = 1, Li = ' GG ', xi ) = Pr(Yi (1) = 1| Li = ' GG ', xi )
•
γ 0,GG:i = Pr(Yi obs = 1| Z i = 0, Li = ' GG ', xi ) = Pr(Yi (0) = 1| Li = ' GG ', xi )
•
γ 1,GN :i = Pr(Yi obs = 1| Z i = 1, Li = ' GN ', xi ) = Pr(Yi (1) = 1| Li = ' GN ', xi )
•
γ 0, NG:i = Pr(Yi obs = 1| Z i = 0, Li = ' NG ', xi ) = Pr(Yi (0) = 1| Li = ' NG ', xi ) .
Modelli statistici per l’analisi della transizione Università-lavoro
139
Per esempio, γ 1,GG:i è la probabilità che lo studente i abbia un lavoro permanente se appartiene allo strato principale GG , si è iscritto e laureato in Economia e
Commercio (Zi=1). Si noti che le probabilità che corrispondono a combinazioni tra
corsi di laurea e strati principali diverse dalle quale presentate non sono definite nella
presente applicazione.
La struttura probabilistica è analoga a quella dei modelli a classi latenti, fatta
eccezione per il fatto che in questo caso l’appartenenza ad una certa classe latente
non soltanto influisce sulla distribuzione di probabilità di Y, ma anche sulla sua esistenza, ovvero se Y sia o meno definita.
Le quantità oggetto di stima sono le differenze (o una loro sintesi) tra le probabilità di Y relative agli individui appartenenti allo strato GG, γ 1,GG:i − γ 0,GG:i , una per
ogni combinazione delle covariate. Inoltre, anche probabilità degli strati principali
(π GG:i , π NG:i , π GN :i , π NN :i ) sono interessanti poiché esse fanno luce sulle dinamiche del
processo che conduce alla laurea nei due corsi di laurea. Infatti, l’effetto causale sulla
probabilità di laurea è dato da
Pr( Si (1) = 1) − Pr( Si (0) = 1) = (π GG:i + π GN :i ) − (π GG:i + π NG:i ) = π GN :i − π NG:i .
(1)
Quindi la probabilità π GG:i di appartenenza allo strato GG è irrilevante per l’effetto
causale sulla laurea, nonostante il suo valore possa descrivere scenari anche molto
diversi. In particolare, quando π GG:i diminuisce, i laureati dei due corsi di laurea tendono ad essere più eterogenei tra loro e quindi ci saranno maggiori opportunità di incrementare i tassi di laurea attraverso appropriate politiche di orientamento.
Anche nel caso di una popolazione omogenea, le probabilità π e γ non sono
direttamente stimabili dai dati senza assunzioni aggiuntive. Infatti, risultano tre π
non ridondanti e quattro γ , a fronte di sole quattro proporzioni campionarie (PS,1,
PS,0, PY,1, PY,0). In particolare, nel paragrafo successivo si mostra come i PS,1 e PS,0 permettono di ottenere una stima puntuale dei π soltanto dopo avere fissato uno di loro,
assumendo che i π siano gli stessi in entrambi i gruppi di trattamento. Inoltre, i γ
non possono essere direttamente stimati, poiché sono definiti condizionatamente agli
strati principali. I dati tuttavia permettono di stimare (attraverso PY,1 e PY,0) le seguenti
probabilità:
• γ 1:i = Pr(Yi obs = 1| Z i = 1, Siobs = 1, xi ) = Pr(Yi (1) = 1| Si (1) = 1, xi )
•
γ 0:i = Pr(Yi obs = 1| Z i = 0, Siobs = 1, xi ) = Pr(Yi (0) = 1| Si (0) = 1, xi ) .
Queste probabilità sono infatti misture di probabilità condizionate allo strato
principale:
γ 1:i = γ 1,GG:i
π GG:i
π GN :i
+ γ 1,GN :i
π GG:i + π GN :i
π GG:i + π GN :i
(2)
140
L’effetto degli studi universitari sull’occupazione:...
γ 0:i = γ 0,GG:i
π GG:i
π NG:i
+ γ 0, NG:i
,
π GG:i + π NG:i
π GG:i + π NG:i
(3)
e quindi la stima richiede qualche scomposizione della mistura.
5.
Limiti non parametrici asintotici
Come primo passo dell’analisi è utile determinare l’insieme dei valori ammissibili
delle probabilità degli strati principali alla luce dei dati disponibili e determinare i
corrispondenti limiti dell’effetto causale di interesse, che è una sintesi di
γ 1,GG:i - γ 0,GG:i (in particolare, una media marginale o condizionata). I calcoli sono effettuati sotto l’assunzione che il trattamento sia assegnato a caso e che la popolazione
sia omogenea, per cui il deponente i viene omesso.
Nella presente applicazione ci sono quattro strati principali, la cui distribuzione è definita da tre probabilità non ridondanti. Quando il trattamento è assegnato a
caso la distribuzione degli strati principali è la stessa per ogni livello del trattamento;
pertanto, con l’aggiunta di un vincolo, le probabilità degli strati principali possono
essere stimate a partire dalle due proporzioni osservate di laureati nei due corsi di
laurea, PS,1 e PS,0. Quando il campione è sufficientemente grande gli errori campionari
possono essere trascurati, per cui si ottengono le seguenti equazioni:
PS ,1 =π GG + π GN ; 1 − PS ,1 =π NG + π NN ; PS ,0 =π GG + π NG ; 1 − PS ,0 =π GN + π NN .
Da queste equazioni segue che π GG è compreso nell’intervallo
max( PS ,0 + PS ,1 − 1, 0) ≤ π GG ≤ min( PS ,0 , PS ,1 ).
(4)
Fissando π GG a uno dei suoi valori ammissibili le probabilità degli altri strati
principali sono
π GN = PS ,1 − π GG ;
π NG = PS ,0 − π GG ;
π NN = 1 − PS ,1 − PS ,0 + π GG .
(5)
La Figura 1 mostra le quattro probabilità degli strati principali come funzioni
di π GG per i dati a disposizione, dove π GG può variare tra 0 e 0.202. Si noti che la
differenza tra le due rette parallele discendenti, π GN − π NG , è l’effetto causale sulla
laurea definito dall’equazione (1) e stimato da PS,1- PS,0. Pertanto la Figura 1 può essere vista come la rappresentazione di diversi scenari caratterizzati dallo stesso effetto causale stimato sulla laurea. In particolare, il massimo valore ammissibile di π GG
corrisponde allo scenario in cui gli strati GN e NG sono al loro minimo ammissibile,
cioè π GN = PS,1- PS,0 e π NG =0.
Modelli statistici per l’analisi della transizione Università-lavoro
141
Figura 1. Valori ammissibili delle probabilità degli strati principali
0.8
Probabilità degli strati principali
0.7
0.6
0.5
prob GG
prob GN
0.4
prob NN
0.3
prob NG
0.2
0.1
0.0
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
0.16
0.18
0.20
Probabilità dello strato GG (πGG)
I limiti dell’effetto causale medio nello strato GG, γ 1,GG − γ 0,GG , sono calcolati
per ogni valore fissato di π GG considerando gli scenari migliori e peggiori.
Dall’equazione (2) segue che
γ − γ (1 − ϕ1,GG )
γ 1,GG = 1 1,GN
,
(6)
ϕ1,GG
dove ϕ1,GG = π GG / (π GG + π GN ) . Allora γ 1,GG raggiunge il suo minimo quando
γ 1,GN = 1 e il suo massimo quando γ 1,GN = 0 , dando luogo ai seguenti limiti:
 1− γ1 
 γ

max 1 −
, 0  ≤ γ 1,GG ≤ min  1 ,1 .
 ϕ

ϕ

1,GG


 1,GG 
(7)
Questi limiti dipendono da due quantità ignote che devono essere stimate:
ϕ1,GG è stimato tramite le equazioni (5), per cui dipende dal valore ipotizzato di π GG e
dalla proporzione campionaria della variabile intermedia per Z=1, PS,1 ; d’altra parte,
γ 1 è stimato dalla proporzione campionaria della variabile risposta per Z=1, PY,1 .
142
L’effetto degli studi universitari sull’occupazione:...
In modo analogo, l’equazione (3) implica che i limiti per γ 0,GG siano dati da
 1− γ 0 
 γ

max 1 −
, 0  ≤ γ 0,GG ≤ min  0 ,1 ,
 ϕ

ϕ

0,GG


 0,GG 
(8)
dove ϕ 0,GG = π GG / (π GG + π NG ) dipende dal valore ipotizzato di π GG e dalla proporzione campionaria della variabile intermedia per Z=0, PS,0, mentre γ 0 è stimato dalla
proporzione campionaria della variabile risposta per Z=0, PY,0 .
Infine, i limiti dell’effetto causale nello strato GG, γ 1,GG − γ 0,GG , derivano dai
limiti (7) e (8):
 1− γ1 
 γ

max 1 −
, 0  − min  0 ,1 ≤ γ 1,GG − γ 0,GG
 ϕ



1,GG


 ϕ 0,GG 
(9)
 γ1

 1− γ 0 
≤ min 
,1 − max 1 −
, 0.
ϕ

 ϕ

0,GG
 1,GG 


Questi limiti sono simili a quelli derivati da Zhang & Rubin (2004): la differenza è che questi Autori utilizzano una variabile Y continua e calcolano i limiti per
mezzo di una procedura basata sui valori ordinati di Y; tuttavia, quando Y è binaria,
come nel caso presente, la loro procedura fornisce gli stessi risultati della nostra, a
meno di approssimazioni dovute alla natura discreta dei dati. Si noti inoltre che
Zhang & Rubin (2004) analizzano i dati di un esperimento in cui sono presenti veri
trattamenti e controlli, per cui studiano i limiti come funzioni di π NG , mentre nella
nostra applicazione, dato che i due trattamenti sono sullo stesso piano, è più naturale
studiare i limiti come funzioni di π GG .
I limiti (9), stimati dalle proporzioni campionarie, sono disegnati come funzioni di π GG in Figura 2 con la dizione “Limiti generali”. Si noti che i limiti si allargano mano a mano che π GG diventa più piccolo: per valori elevati di π GG (tra 0.196
e il massimo 0.202) gli estremi sono entrambi positivi, per cui il segno dell’effetto
causale è determinato; poi i limiti si allargano fino a raggiungere l’intervallo [-1,1],
diventando inutili.
I limiti appena calcolati sono asintotici, nel senso che in grandi campioni stimano i veri limiti quasi senza errore e non c’è bisogno di considerare esplicitamente
bande di confidenza rappresentanti l’incertezza dovuta alla stima. In generale, sia i
limiti superiori che quelli inferiori dovrebbero essere inclusi in bande di confidenza:
questo permetterebbe di tenere in considerazione la possibilità che un dato modello
fornisca una stima dell’effetto causale medio che cade al di fuori dei limiti calcolati.
Nella presente applicazione le bande di confidenza non sono mostrate, poiché l’uso
principale dei limiti è quello di esplorare i dati e di giudicare qualitativamente la
plausibilità dei risultati prodotti dal modello.
Modelli statistici per l’analisi della transizione Università-lavoro
143
Figura 2. Limiti dell’effetto causale medio nello strato GG
Limiti dell'effetto causale medio
nello strato GG (γ 1,GG-γ 0,GG)
1,0
0,8
0,6
0,4
0,2
0,0
0,00
-0,2
— Limiti generali
--- Limiti sotto dominanza stocastica
0,02
0,04
0,06
0,08
0,10
0,12
0,14
0,16
0,18
0,20
-0,4
-0,6
-0,8
π GG = π NG + π GN
-1,0
Probabilità dello strato GG (π GG)
I limiti sintetizzano l’incertezza che caratterizza la stima dell’effetto causale
medio nello strato GG indipendentemente dalla dimensione campionaria: il messaggio è che persino in un grande campione c’è un intero intervallo di valori ammissibili
per la quantità oggetto di stima, la cui ampiezza dipende dalla struttura della popolazione, in particolare dalla dimensione dello strato GG.
I limiti possono essere ristretti facendo opportune assunzioni sulle probabilità
degli strati principali o sulle probabilità della variabile risultato.
Per quanto riguarda le probabilità degli strati principali, un’assunzione standard è quella di monotonicità, ovvero la non esistenza del gruppo NG, cioè π NG = 0 .
Questa assunzione viene fatta spesso in studi in cui si confrontano un trattamento attivo con un placebo poiché, rispetto alla variabile intermedia S, il gruppo NG ha una
performance negativa (Si = 0) sotto il trattamento attivo (Zi = 1) e una performance
positiva (Si = 1) sotto il controllo (Zi = 0). Tuttavia nell’applicazione presente i due
gruppi di trattamento sono sullo stesso piano, per cui è verosimile che entrambi i
gruppi NG e GN siano presenti. L’assunzione di monotonicità è dunque poco plausibile.
Un vincolo sulle probabilità degli strati principali che sembra ragionevole nel
presente contesto è che gli studenti in grado di laurearsi in entrambi i corsi, π GG , siano una maggioranza nel gruppo degli studenti in grado di laurearsi in almeno uno dei
144
L’effetto degli studi universitari sull’occupazione:...
corsi, cioè nel gruppo con probabilità π GG + π NG + π GN . Questo porta a formulare la
seguente assunzione:
Assunzione 4 (Maggioranza relativa dello strato GG):
per ogni i, π GG:i ≥ π NG:i + π GN :i .
Assumendo omogeneità della popolazione e casualizzazione del trattamento,
dalle equazioni (5) segue che l’Assunzione 4 equivale a 3π GG − ( PS ,1 + PS ,0 ) ≥ 0 . Poiché i limiti si ampliano mano a mano che π GG diminuisce, i limiti più ampi che soddisfano l’Assunzione 4 corrispondono a quell’unico valore di π GG per il quale la disuguaglianza diviene un’uguaglianza, cioè π GG = ( PS ,1 + PS ,0 ) / 3 , purché tale valore di
π GG sia ammissibile. Questo caso è rappresentato in Figura 2 dalla linea verticale
passante attraverso π GG = 0.152. I corrispondenti limiti sono [-0.290, 0.708], ovviamente molto più informativi dell’intervallo [-1,1].
Per quanto riguarda le probabilità della variabile risposta, è ragionevole assumere che gli studenti in grado di laurearsi in entrambi i corsi (strato GG) abbiano
più probabilità di ottenere un lavoro permanente rispetto agli studenti in grado di laurearsi in un corso ma non nell’altro (strati NG e GN). Questa considerazione porta alla seguente assunzione:
Assunzione 5 (Dominanza stocastica): per ogni i, e per ogni numero reale t,
Pr(YGG :i(1) ≤ t) ≤ Pr(YGN :i(1) ≤ t) ; Pr(YGG :i(0) ≤ t) ≤ Pr(YNG :i(0) ≤ t) .
Questa assunzione viene utilizzata da Zhang & Rubin (2004) nel caso di una
variabile risultato continua. Nel contesto attuale la variabile risultato Y è binaria, per
cui in termini di probabilità di occupazione, la dominanza stocastica è equivalente a
γ 1,GG:i ≥ γ 1,GN :i e γ 0,GG:i ≥ γ 0, NG:i .
Assumendo la dominanza stocastica i limiti sono più stretti che nel caso generale, poiché l’espressione (9) diviene
 γ0
γ 1 − min 
 ϕ 0,GG

 γ

,1 ≤ γ 1,GG − γ 0,GG ≤ min  1 ,1 − γ 0

ϕ


 1,GG 
(10)
Si noti che, quando π GG = π NG + π GN , i limiti stimati (10) sono [0.030,
0.494], per cui l’effetto causale medio è necessariamente positivo. Questo è un risultato interessante, poiché mostra che due assunzioni deboli, come la 4 e la 5, possono
essere sufficienti a determinare il segno dell’effetto senza bisogno di affidarsi ad un
modello parametrico.
Modelli statistici per l’analisi della transizione Università-lavoro
145
I limiti qui calcolati sono validi solo se l’assunzione di non confondimento
(Assunzione 2) vale marginalmente (cioè, non condizionatamente alle covariate). Nel
caso presente non vi è casualizzazione e il trattamento è stato liberamente scelto dagli individui, per cui marginalmente il non confondimento potrebbe non valere. Una
possibile miglioria, basata sull’assunzione meno restrittiva che il non confondimento
valga condizionatamente alle covariate, è di derivare i limiti per ogni cella definita
dalle covariate e poi ricostruire i limiti non condizionati attraverso una media pesata
con le frequenze di cella. L’applicazione di tale tecnica ai nostri dati non porta a
cambiamenti di rilievo.
6.
Analisi basata su modello
Un modo efficiente di sfruttare l’informazione insita nelle covariate, al costo di aggiungere altre assunzioni, è quello di costruire un modello parametrico, che può essere adattato ai dati sia con metodi frequentisti che con metodi Bayesiani. La specificazione del modello e la stima sono compiti impegnativi, poiché nell’approccio degli
strati principali i gruppi latenti portano a misture di distribuzioni difficili da scomporre. Le covariate sono estremamente utili per identificare il modello:
l’identificazione può essere raggiunta attraverso diversi tipi di vincoli la cui plausibilità deve essere valutata caso per caso, come illustrato da Jo (2002) nel caso particolare di noncompliance con due gruppi latenti. Tuttavia, la funzione di verosimiglianza è solitamente piuttosto piatta, per cui la sua massimizzazione non è agevole.
L’approccio Bayesiano (Imbens & Rubin, 1997) può aiutare a superare queste difficoltà, ma, a parte la complessità computazionale, la scelta di appropriate distribuzioni a priori è tutt’altro che facile. Nella presente applicazione effettuiamo un’analisi di
massima verosimiglianza, che risulta efficace per il problema allo studio.
Come notato nella Sezione 4, il processo generatore dei dati può essere definito in termini di due insiemi di probabilità: i π, che danno origine al sottomodello
relativo agli strati principali, e i γ, che danno origine al sottomodello relativo alla variabile risultato. Le variabili disponibili per ogni individuo sono Zi, Siobs, Riobs, Yiobs
(se Riobs =1) e il vettore di covariate xi. Nella presente applicazione i 19 individui con
valori mancanti delle covariate sono semplicemente eliminati, per cui le covariate
sono trattate come completamente osservate. Estensioni per gestire valori mancanti
delle covariate sono state sviluppate da Barnard et al. (2003).
Raccogliamo ora i parametri nel vettore θ e le variabili per gli n individui nei
vettori Z, Sobs, Robs and Yobs e nella matrice X. La verosimiglianza può essere scritta
come prodotto sui quattro gruppi osservabili definiti da Zi e Siobs, dove i∈O(k,h) sta
per Zi =k e Siobs=h:
146
L’effetto degli studi universitari sull’occupazione:...
(
)
L θ | Z, S obs , R obs , Y obs , X =
R
R
Yiobs
Yiobs
1−Yiobs  i
1−Yiobs  i 


γ
γ
1
1
−
+
−
π
γ
π
γ
(
)
(
)
(
)
(
)
 GG:i  1,GG:i

∏
GN
i
GN
i
GN
i
1,GG:i
:
1,
:
1,
:



 
i∈O (1,1) 

× ∏ {π NG:i + π NN :i }
obs
obs
i∈O (1,0)

Yi

π GG:i (γ 0,GG:i )

i∈O (0,1) 

× ∏ {π GN :i + π NN :i }
×
∏
obs
(1 − γ
)
1−Yi
0,GG:i
obs


Riobs
+ π NG:i (γ 0, NG:i )

Yi
obs
(1 − γ
)
1−Yi
0, NG:i
obs


Riobs
(11)



i∈O (0,0)
Il modello è basato sulle Assunzioni da 1 a 3 (SUTVA, non confondimento
del trattamento e missing at random).
Nella verosimiglianza (11) gli individui che non hanno risposto
all’intervista (Riobs =0) non contribuiscono alla stima dei γ, ma contribuiscono comunque alla stima dei π. In generale, i π sono stimati a partire da tutti gli individui
del campione, mentre l’informazione sui γ è fornita solo dagli individui che si sono
laureati e che sono stati intervistati (15% del campione), per cui l’informazione per
la stima dei γ è limitata.
Come nella maggior parte delle attuali applicazioni dell’approccio degli
strati principali, le variabili trattamento e intermedia sono entrambe binarie, originando quattro strati principali. Tuttavia, mentre in molti contesti è ragionevole assumere che certi strati siano vuoti (ad es. l’assunzione di assenza di defiers in un
esperimento con noncompliance), nel contesto attuale tali assunzioni non sono
plausibili alla luce della simmetria dei due trattamenti, per cui tutti gli strati in
principio sono non vuoti. Questo livello di generalità comporta un notevole incremento della complessità del modello poiché, come risulta chiaro dalla verosimiglianza (11), ogni gruppo osservato O(k,h) è generato da una mistura di due distribuzioni che deve essere scomposta.
Le probabilità degli strati principali π sono soggette ad alcuni vincoli poiché
devono stare nell’intervallo [0,1] e la loro somma deve essere uguale a uno. Pertanto per modellare la dipendenza di tali probabilità dalle covariate è utile operare una
trasformazione in un insieme di parametri non vincolati, usando la specificazione
logistica multinomiale (dove NN è la categoria di riferimento):
Modelli statistici per l’analisi della transizione Università-lavoro
π GG:i =
π
exp(ηGG
:i )
π
π
1 + exp(ηGG:i ) + exp(ηGN :i ) + exp(η πNG:i )
π GN :i =
π
exp(ηGN
:i )
π
π
π
1 + exp(ηGG:i ) + exp(ηGN :i ) + exp(η NG
:i )
π NG:i
147
π
exp(η NG
:i )
=
π
π
1 + exp(ηGG:i ) + exp(ηGN :i ) + exp(η πNG:i )
π NN :i =
1
.
π
π
1 + exp(ηGG:i ) + exp(ηGN
)
exp(
+
)
η
:i
NG:i
π
Per le probabilità della variabile risultato γ la trasformazione in un insieme di parametri non vincolati si può ottenere con specificazioni logistiche separate:
γ 1,GG:i =
1
1 + exp(−η1,γ GG:i )
γ 0,GG:i =
1
1 + exp(−η0,γ GG:i )
γ 1,GN :i =
1
1 + exp(−η1,γ GN :i )
γ 0, NG:i =
1
.
1 + exp(−η0,γ NG:i )
Si assume poi che i parametri ηπ e ηγ dipendano linearmente dalle covariate.
Nella versione più generale del modello ognuno di questi parametri ha il suo insieme
distinto di coefficienti di regressione.
Nell’applicazione corrente la versione più generale del modello è caratterizzata da una specificazione lineare non vincolata degli ηπ,
π
π
π
ηGG
:i = α GG + β GG ' x i
π
π
π
ηGN
:i = α GN + β GN ' x i
(12)
π
π
π
η NG
:i = α NG + β NG ' x i
e da una particolare specificazione lineare degli ηγ,
η1,γ GG:i = α1,γ GG + βγ ' xi
η0,γ GG:i = α 0,γ GG + βγ ' xi
η1,γ GN :i = α1,γ GN + βγ ' xi
η0,γ NG:i = α 0,γ NG + βγ ' xi .
(13)
148
L’effetto degli studi universitari sull’occupazione:...
La specificazione degli ηγ è particolare perché assume che ogni covariata abbia lo stesso effetto in ogni strato principale e che l’effetto causale sulla scala logistica, α1,γ GG − α 0,γ GG , sia additivo, cioè lo stesso per tutti i valori delle covariate. Nella
nostra applicazione questa specificazione sembra ragionevole. Altre specificazioni
potrebbero essere adottate (Jo, 2002), ma nel caso presente la loro adozione è ostacolata dalla scarsità dell’informazione campionaria.
L’identificazione del modello è possibile solo con un adeguato numero di covariate. Denotando con k il numero di covariate, il modello definito dalle espressioni
(12) e (13) ha 3(k+1) parametri per i π e (4+k) parametri per i γ, per un totale di
(7+4k) parametri. D’altra parte, se il trattamento e le k covariate sono tutte variabili
binarie, allora ci sono 2(k+1) celle con al più due proporzioni campionarie, una per la
variabile intermedia S e una per la variabile risultato Y, per cui il massimo numero di
proporzioni campionarie è 2(k+2). È importante notare che alcune celle potrebbero essere completamente o parzialmente vuote, per cui il numero effettivo di proporzioni
campionarie, e di conseguenza il numero di gradi di libertà, deve essere controllato
caso per caso. Comunque sono necessarie almeno due covariate per rendere possibile
l’identificazione.
Nella nostra applicazione (k=5) il modello ha 27 parametri, mentre il trattamento e le cinque covariate danno luogo a 64 celle e 128 proporzioni campionarie
teoriche. Poiché 3 celle sono completamente vuote e altre 23 celle hanno la risposta
mancante solo per la variabile risultato, le proporzioni campionarie disponibili sono
99, ben oltre il numero di parametri. Tuttavia uno sguardo ai valori delle proporzioni
campionarie fa prevedere dei problemi di stima legati all’alto numero di proporzioni
campionarie uguali a zero oppure ad uno: infatti, su 61 proporzioni campionarie disponibili per la variabile intermedia, 19 sono zero e 1 è uno, mentre su 38 proporzioni campionarie disponibili per la variabile risultato, 5 sono zero e 3 sono uno.
La stima di massima verosimiglianza è stata ottenuta per mezzo della procedura NLMIXED del SAS (SAS Institute, 1999). Come suggerito dal nome, tale procedura è designata alla stima di modelli non lineari misti e, in effetti, una delle componenti essenziali è l’algoritmo per l’integrazione numerica. Tuttavia la NLMIXED è
anche una procedura generale di massimizzazione della verosimiglianza, poiché può
gestire funzioni di verosimiglianza arbitrarie scritte dall’utente. Per la presente applicazione è sufficiente scrivere la verosimiglianza usando il linguaggio SAS e lanciare
la procedura senza integrazione numerica. La procedura ha diversi algoritmi di massimizzazione, fra cui quello di default è di tipo quasi-Newton con aggiornamento
BFGS (Broyden, Fletcher, Goldfarb e Shanno) del fattore di Cholesky della matrice
hessiana approssimata.
La verosimiglianza del modello più generale, cioè del modello definito dalle
equazioni (12) e (13) senza ulteriori vincoli, è piuttosto piatta. Per affrontare un
π
π
π
compito così difficile alcuni dei valori iniziali (quelli di α GG
,α GN
,α NG
) sono stati
Modelli statistici per l’analisi della transizione Università-lavoro
149
scelti attraverso una ricerca su griglia. Inoltre sono stati provati diversi algoritmi di
stima: nonostante si ottenesse sempre la convergenza, gli algoritmi fornivano risultati
sensibilmente diversi per un sottoinsieme di parametri legati ai π e caratterizzati da
valori stimati molto negativi ed errori standard elevati. Questo significa che per certi
valori delle covariate alcuni strati principali sono vuoti. In particolare, per l’individuo
base, che è quello con la configurazione di covariate più frequente nel campione e
caratterizzato dall’avere il valore zero in tutte le covariate, lo strato NG sembra vuoto, poiché il corrispondente valore sulla scala logistica multinomiale è -7.826 (errore
standard 14.763). Pertanto, al fine di seguire una strategia di selezione del modello
semplice e chiara, abbiamo ridefinito la codifica della covariata in modo da ottenere
un nuova definizione dell’individuo base con probabilità sensibilmente diverse da zero in tutti gli strati. Questo obiettivo è stato conseguito semplicemente invertendo la
codifica della covariata Iscritto con ritardo, che d’ora in avanti chiameremo Iscritto
senza ritardo.
I risultati della stima ottenuti con l’algoritmo di default e basati sulla nuova
codifica sono riportati in Tabella 5 nella colonna denominata “Modello iniziale”. Sei
dei β π stimati sono inferiori a –5, con errori standard enormi o non disponibili: ciò
significa che quando la covariata passa da zero a uno il corrispondente strato principale scompare. In particolare, con l’eccezione di alcuni studenti iscritti con ritardo, lo
strato NG risulta vuoto. Questo non è sorprendente, poiché la proporzione complessiva di laureati è modesta ed è minore per Zi =0, per cui lo strato NG (“Non laureato”
se Zi =1 e “Laureato” se Zi =0) è necessariamente molto limitata. Anche lo strato GN
contrapposto sembra essere vuoto in certi casi.
La selezione del modello prosegue fissando a −∞ i suddetti β π e porta ai risultati mostrati in Tabella 5 nella colonna denominata “Modello finale”. La riduzione
da 27 a 21 parametri comporta una riduzione irrilevante della devianza, mentre gli altri parametri ed errori standard sono sostanzialmente invariati. Alcuni dei β π sono
non significativi ai livelli convenzionali, per cui il sottomodello degli strati principali
potrebbe essere ulteriormente semplificato. Tuttavia la selezione del modello è stata
arrestata a questo punto, poiché avere un sottomodello degli strati principali con pochi parametri non è un obiettivo di interesse sostanziale ed ha uno scarso effetto sulla
precisione delle stime del sottomodello della variabile risultato.
Nel sottomodello della variabile risultato i β γ non sono significativi ai livelli
convenzionali, sebbene due di loro (Liceo e Iscrizione senza ritardo) abbiano valori
elevati: servirebbero più dati per stabilire l’influenza delle covariate sulla variabile
risultato. Nonostante ciò, l’oggetto principale dell’inferenza, cioè l’effetto causale su
scala logistica, α1,γ GG − α 0,γ GG , ha una stima pari a 0.666 con errore standard 0.301, per
cui è significativamente diverso da zero al livello 5%.
150
L’effetto degli studi universitari sull’occupazione:...
Tabella 5. Stime dei parametri (ed errori standard) dell’analisi basata su modello
Modello iniziale
Modello finale
Numero di parametri
27
21
Devianza (-2logL)
2231.8
2231.8
Sottomodello strati principali (π ’s)
π
α GG
-4.403 (0.449)
-4.402 (0.448)
π
α GN
-2.644 (0.749)
-2.647 (0.752)
π
α NG
-3.207 (0.835)
-3.206 (0.836)
π
βGG
,liceo
1.275 (0.157)
1.275 (0.157)
π
βGN
,liceo
-5.757
(n.d.)
-∞
π
β NG
,liceo
-15.041
(n.d.)
-∞
π
βGG
,votoalto
1.204 (0.146)
1.205 (0.146)
π
β GN
, voto alto
1.113 (0.653)
1.113 (0.652)
π
β NG
, voto alto
-8.092 (114.022)
-∞
π
β GG ,iscrizione senza ritardo
2.024 (0.425)
2.023 (0.425)
π
βGN ,iscrizione senza ritardo
-0.009 (0.792)
-0.012 (0.788)
π
β NG ,iscrizione senza ritardo
-8.140 (64.473)
-∞
π
βGG , femmina
0.117 (0.137)
0.117 (0.137)
π
βGN
, femmina
-0.617 (0.753)
-0.622 (0.755)
π
β NG
, femmina
0.988 (1.112)
0.991 (1.111)
π
βGG
, Firenze
0.280 (0.144)
0.280 (0.144)
π
β GN
, Firenze
-13.499 (559.599)
-∞
π
β NG
, Firenze
-10.353 (533.855)
-∞
Sottomodello risultato (γ ’s)
γ
α1,GG
1.262 (1.241)
1.257 (1.240)
γ
α0,NG
-1.365 (1.568)
-1.357 (1.561)
γ
α 0,GG
0.593 (1.185)
0.596 (1.185)
γ
α1,GN
0.498 (1.057)
0.484 (1.058)
γ
βliceo
-0.410 (0.374)
-0.405 (0.374)
γ
βvoto
alto
-0.035 (0.262)
-0.036 (0.263)
γ
βiscrizione senza ritardo
-0.933 (0.979)
-0.932 (0.979)
γ
β femmina
0.072 (0.272)
0.070 (0.272)
γ
β Firenze
0.106 (0.333)
0.104 (0.333)
γ
γ
Effetto causale α1,GG − α0,GG
0.664 (0.301)
0.666 (0.301)
Modelli statistici per l’analisi della transizione Università-lavoro
151
Tabella 6. Probabilità stimate(%) per alcune configurazioni delle covariate
Probabilità
π GG:i
π GN :i
π NG:i
π NN :i
γ 1,GG:i
γ 0,GG:i
γ 1,GN:i
γ 0, NG:i
Effetto causale γ 1,GG:i − γ 0,GG:i
00000 00100 00110 00101 01100 10100 11100 11111
8.0
9.1 10.9 20.3 24.9 52.5 62.2
1.1
6.3
6.0
3.3
0.0 14.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
3.6
89.0 86.0 87.6 89.1 65.7 75.1 47.5 37.8
77.9 58.2 59.9 60.7 57.3 48.0 47.1 51.5
64.5 41.7 43.4 44.2 40.8 32.2 31.4 35.3
61.9 39.0 40.7 41.5 38.1 29.8 29.0 32.8
20.3
9.1
9.7 10.0
8.9
6.3
6.1
7.1
13.5
16.5
16.5
16.4
16.5
15.8
15.7
16.2
Nota: la configurazione ( x1, x2 , x3 , x4 , x5 ) sta per: Liceo = x1 ,Voto alto = x2 , Iscrizione senza ritardo = x3 ,
Femmina = x4 , Firenze = x5 .
Per aiutare l’interpretazione dei risultati, la Tabella 6 riporta le probabilità
stimate dal modello finale per alcune configurazioni delle covariate, con le configurazioni in ordine crescente di π GG:i . Le proporzioni stimate di studenti appartenenti
al gruppo GG variano molto con le covariate, da un minimo dell’1.1% a un massimo
del 62.2%. Inoltre, le proporzioni stimate di studenti appartenenti ai gruppi GN e NG
(cioè studenti in grado di laurearsi in un solo corso di laurea) tendono a diminuire
mano a mano che lo strato GG cresce, nonostante che lo strato NN diminuisca. Ad un
estremo, l’individuo con tutte le covariate uguali a uno (una femmina residente a Firenze, proveniente da un liceo, con un voto elevato e iscrizione senza ritardo) ha
un’alta probabilità di laurearsi (62.2%), interamente attribuita al gruppo GG; all’altro
estremo, l’individuo di base (un maschio residente fuori Firenze, proveniente da un
liceo, con voto basso e iscrizione con ritardo) ha una bassa probabilità di laurearsi in
almeno uno dei due corsi di laurea (11.0%), attribuita principalmente ai gruppi GN e
NG.
Poiché la differenza tra i due corsi di laurea in termini di tassi di laurea è originata dai gruppi GN e NG, essendo π GN :i − π NG:i come spiegato nella Sezione 4, segue che i due corsi di laurea hanno un diverso effetto sulla probabilità di laurea solo
per gli studenti che hanno un background debole. Le politiche di orientamento dovrebbero quindi essere indirizzate in modo particolare a questo tipo di studenti.
Dall’analisi basata su modello sembra che l’assunzione di maggioranza relativa dello strato GG (Assunzione 4: π GG:i ≥ π NG:i + π GN :i ), usata nella costruzione
dei limiti, valga in generale, con l’eccezione degli individui che si sono iscritti con ritardo.
152
L’effetto degli studi universitari sull’occupazione:...
Guardando ora all’effetto sull’occupazione, ci sono alcuni risultati da sottolineare. Innanzitutto, l’assunzione di dominanza stocastica (Assunzione 5), usata per
derivare alcuni dei limiti, sembra essere soddisfatta: infatti, condizionatamente alle
covariate, gli studenti appartenenti ai gruppi GN e NG hanno una probabilità di essere occupati sempre inferiore a quella degli studenti del gruppo GG. Il livello della
probabilità di occupazione varia molto con le covariate, oscillando tra 47.1% e
77.9% per i laureati in Economia, e tra 31.4% e 64.5% per i laureati in Scienze Politiche. L’effetto causale sull’occupazione per il gruppo GG, che si è ipotizzato costante sulla scala logistica per evitare problemi di identificazione, genera un differenziale
pari a circa 15% nelle probabilità di occupazione. Naturalmente l’affidabilità e anche
l’importanza sostanziale di tale differenziale dipende dall’ampiezza dello strato GG:
ad esempio, l’effetto causale nello strato GG ha poca rilevanza per l’individuo base,
che ha una probabilità di appena 1.1% di essere GG.
7.
Conclusioni
In questo lavoro abbiamo confrontato due corsi di laurea dell’Università di Firenze al
fine di valutare la loro efficacia rispetto allo status occupazionale dopo la laurea.
L’approccio degli strati principali all’inferenza causale è stato usato per definire un
quadro concettuale per l’analisi di questo fenomeno, con una definizione precisa delle quantità di interesse. In questo quadro sono stati derivati dei limiti non parametrici
per l’effetto causale di interesse: i limiti non parametrici permettono di restringere lo
spettro delle possibili inferenze sulla base di un insieme minimo di assunzioni, la cui
validità deve essere giudicata caso per caso.
La successiva analisi basata su modello, condotta in un contesto frequentista,
ha consentito di sfruttare in modo efficiente l’informazione insita nelle covariate, al
costo di aggiungere alcune ulteriori assunzioni. La strategia di selezione del modello
ha richiesto alcune accortezze per includere la possibilità che alcuni strati principali
siano vuoti. Naturalmente, i risultati sono più informativi di quelli ottenuti per mezzo
dei limiti non parametrici. In particolare, l’effetto causale per lo strato GG (ossia gli
studenti in grado di laurearsi in entrambi i corsi di laurea) è positivo (ovvero in favore di Economia) e statisticamente significativo, rinforzando le impressioni ottenute
con l’analisi non parametrica. Inoltre, il modello consente di approfondire l’analisi,
poiché mostra come la struttura degli strati principali cambi con le covariate: questa
informazione è cruciale per capire il processo di laurea ed anche per interpretare in
modo consapevole l’effetto causale stimato (in quanto riferito ad uno specifico strato).
Purtroppo, a causa della limitatezza dell’informazione campionaria sulla condizione occupazionale, molti parametri del sottomodello per la variabile risultato so-
Modelli statistici per l’analisi della transizione Università-lavoro
153
no risultati non significativi; per questo motivo è risultato impossibile costruire un
sottomodello più sofisticato per la variabile risultato.
In alternativa, l’analisi basata su modello può essere sviluppata con metodi
Bayesiani, che comportano diverse difficoltà (specificazione delle distribuzioni a
priori, problemi computazionali), ma offrono alcuni vantaggi che divengono cruciali
nel caso di modelli molto complessi, come in Barnard et al. (2003).
Riferimenti bibliografici
BARNARD J., FRANGAKIS C.E., HILL J.L. & RUBIN D.B. (2003) Principal Stratification Approach to Broken Randomized Experiments: A Case Study of
School Choice Vouchers in New York City, Journal American Statistical Association, 98: 299-323.
FRANKGAKIS C.E. & RUBIN D.B. (2002) Principal stratification in causal inference, Biometrics, 58: 21-29.
IMBENS G.W. & RUBIN D.B. (1997) Bayesian inference for causal effects in randomized experiments with noncompliance, Annals of Statistics, 25: 305-327.
JO B. (2002) Estimation of intervention effects with noncompliance: alternative
model specifications, Journal of Educational and Behavioral Statistics, 27:
385-409.
MEALLI F., IMBENS G.W., FERRO S. & BIGGERI A. (2004). Analyzing a randomized trial on breast self-examination with noncompliance and missing outcomes, Biostatistics, 5: 207-222.
RUBIN D.B. (1974) Estimating causal effects of treatments in randomized and nonrandomized studies, Journal of Educational Psychology, 66: 668-701.
SAS INSTITUTE (1999) SAS/STAT User’s Guide Version 8. SAS Institute Inc,
Cary.
ZHANG J. & RUBIN D.B. (2004) Estimation of causal effects when some outcomes
are censored by death, In corso di stampa su Journal of Educational and Behavioral Statistics.
154
L’effetto degli studi universitari sull’occupazione:...
The effect of university studies on job opportunities:
an application of the principal strata approach to causal inference
Summary. The paper shows how to evaluate the effectiveness of two degree programmes with respect to the employment status using the principal strata approach
to causal inference. The application concerns the 1992’s cohort of freshmen of the
University of Florence enrolled in the degree programmes of Economics and Political Science. The paper shows an innovative use of non parametric bounds in the
principal strata framework, examining the role of some assumptions in reducing the
uncertainty. The second phase of the analysis relies on a parametric model fitted by
maximum likelihood. In that context we discuss some relevant modelling issues, sketching a general strategy for model building.
Keywords: causal effects, effectiveness, potential outcomes, principal strata.
Un modello ad equazioni strutturali per analizzare
le determinanti dell’occupazione dei laureati
nell’Università di Foggia 1
Corrado Crocetta*, Francesco d’Ovidio**
*Dipartim. di Scienze Economiche, Matematiche e Statistiche - Università di Foggia
**Dipartimento di Scienze Statistiche - Università di Bari
Riassunto: Nel presente lavoro si intende effettuare uno studio sulle strategie utilizzate dai laureati dell’Università di Foggia per entrare nel mondo del lavoro. Usando
variabili sia quantitative che qualitative, quantificate mediante tecniche di optimal
scaling, è stato costruito un modello ad equazioni strutturali per analizzare le relazioni fra le variabili latenti legate alle esperienze effettuate durante gli anni universitari,
alla preparazione, alle aspettative, alla flessibilità, alle modalità di ricerca del lavoro
ecc.. Si è verificato inoltre che la struttura di correlazione di tali variabili latenti rimane invariata considerando separatamente i laureati e le laureate.
Parole chiave: Laureati, Mercato del lavoro, Università di Foggia, Analisi fattoriale,
Modelli ad equazioni strutturali, Optimal Scaling, CATPCA, LISREL.
1.
Introduzione
Con la presente nota si vuol fornire un contributo allo studio delle modalità di ingresso dei laureati nel mercato del lavoro. La nostra analisi, per motivi legati alla disponibilità dei dati, considera solo l’offerta di lavoro (tralasciando, quindi, la domanda
da parte di imprese e istituzioni), per cui può apparire parziale ed incompleta; ma il
nostro obiettivo non è la costruzione di un modello econometrico in grado di studiare
le dinamiche del mercato del lavoro, bensì l’individuazione di alcune variabili (misurabili o latenti) che influiscono sul placement dei laureati e, di seguito, lo studio delle
1
Il presente lavoro è stato realizzato nell'ambito del progetto “Transizioni Università-Lavoro e valorizzazione delle competenze professionali dei laureati: modelli e metodi di analisi multidimensionale
delle determinanti”, cofinanziato dal MIUR; coordinatore nazionale è Luigi Fabbris, coordinatore del
gruppo di Bari è Francesco Delvecchio. Del lavoro, opera congiunta dei due autori, va attribuita a
C. Crocetta la redazione finale dei paragrafi 1, 2, 4, 5 e 6, a F. d’Ovidio quella dei paragrafi 3 e 7. Gli
autori desiderano, inoltre, ringraziare i referee per i loro preziosi suggerimenti migliorativi.
156
Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione…
relazioni causali tra le variabili prese in considerazione, avendo come funzione obiettivo la situazione lavorativa (occupato/non occupato).
Come è emerso da precedenti lavori (fra gli altri, Crocetta e d’Ovidio, 2004),
molte delle informazioni comunemente rilevate nelle indagini possono essere considerate come proxy di variabili latenti, particolarmente utili per descrivere un fenomeno (non direttamente misurabile) come quello del comportamento dei laureati di
fronte al problema della ricerca di un lavoro.
Nel caso presente, dobbiamo gestire contestualmente sia variabili quantitative
che variabili nominali non ordinabili. Per questo motivo viene utilizzata una procedura di Scaling Ottimale, nota con l’acronimo CATPCA (CATegorical Principal
Component Analysis), in grado di determinare la quantificazione ottimale, nello spazio fattoriale, di tutte le variabili considerate (cfr., ad es., De Leeuw, 1984; Meulman
and Heiser, 1999).
Si conduce quindi una serie di analisi volte a verificare:
1) quali e quante siano le variabili latenti da considerare;
2) quali siano le relazioni esistenti tra dette variabili;
3) se, utilizzando tali variabili, sia possibile costruire un modello in grado di spiegare le cause dell’occupazione/non occupazione dei laureati;
4) valutare se vi siano altre variabili, non considerate nel modello elaborato, che
concorrano, a spiegare il fenomeno occupazione;
5) se, considerando separatamente i due sottogruppi dei laureati e delle laureate, la
struttura di correlazione fra le variabili latenti cambia in modo significativo.
2.
L’indagine sui laureati dell’Università di Foggia
Ai fini dell’analisi, i dati disponibili nell’archivio delle segreterie studenti dell’Ateneo di Foggia sono stati integrati con quelli raccolti attraverso interviste telefoniche
effettuate, sulla base dell’intera popolazione di coloro che si sono laureati presso
l’Ateneo di Foggia2 a partire dal 1994.
Il questionario è articolato in quattro parti distinte, rispettivamente dedicate ai
laureati che stanno già lavorando, a quelli che sono in cerca di occupazione, alle diverse esperienze formative effettuate o in corso e, infine, alla soddisfazione rispetto
ai servizi ricevuti, con un giudizio sulla qualità della preparazione conseguita.
2
L’obiettivo di partenza era di riuscire a contattare tutti i 2.924 laureati del giovane Ateneo di Foggia
a partire dall’istituzione delle diverse facoltà. Per ciascun laureato sono stati fatti sino a sette tentativi
di contatto in fasce orarie diverse, prima di considerarlo irraggiungibile. Il questionario utilizzato per
le interviste telefoniche era strutturato in modo che l’intervista avesse una durata di non oltre 10-15
minuti. Sono state realizzate ben 2.133 interviste valide, pari al 72,3% del totale.
Modelli statistici per l’analisi della transizione Università-lavoro
157
Tabella 1. Intervistati laureati nelle Facoltà dell’Ateneo foggiano e percentuali di laureati
occupati al momento dell’indagine, per triennio di laurea.
Triennio
di laurea
1994-96
1997-99
2000-02
Totale
1994-96
1997-99
2000-02
Totale
Facoltà
Lettere e Giurispru- Medicina e
Economia
Agraria
Filosofia
denza
Chirurgia
43
6
50
219
40
333
16
526
42
9
778
71
788
88
9
1.161
87
Percentuali di occupati sul totale della coorte di laureati
93,0
100,0
84,0
77,2
77,5
72,7
37,5
48,3
40,5
11,1
24,4
15,5
58,8
61,4
11,1
40,8
19,5
Totale
99
608
1.426
2.133
88,9
73,7
33,2
47,3
Nella Tab. 1 sono riportati i dati relativi ai laureati intervistati, distinti secondo la loro situazione lavorativa al momento dell’indagine, per facoltà e periodo in cui
si sono laureati. Da essa si evince che hanno dichiarato di svolgere un’attività lavorativa l’88,9% di coloro che si sono laureati presso l’Università di Foggia nel triennio
1994-96. In particolare, i 6 laureati in Agraria risultano tutti occupati, mentre vi sono
alcuni laureati in Economia e in Giurisprudenza (rispettivamente 3 ed 8 persone) che
dopo più di 8 anni dalla laurea non svolgono alcuna attività lavorativa3.
Prendendo in considerazione gli individui laureati da 5 a 8 anni prima dell’indagine, si nota che la percentuale di quanti lavorano scende al 73,7%. I laureati in
Agraria ed in Economia presentano un leggero vantaggio rispetto ai loro colleghi di
Giurisprudenza nel trovare lavoro, mentre risultano occupati solo 6 dei 16 medici
laureati nel periodo 1997-99. Se si considerano, infine, i laureati dal 2000 al 2003, si
nota che la quota di occupati è poco meno di un terzo del totale, con significative differenze fra le diverse facoltà, presumibilmente legate alle loro differenti tempistiche
di qualificazione post-laurea.
Nel complesso, i laureati in Economia sembrano essere i più avvantaggiati nel
trovare lavoro entro 3 anni dalla laurea (48,3%) rispetto ai loro colleghi di Agraria
(40,5%), di Giurisprudenza (24,4%) e di Medicina e Chirurgia (15,5%). Queste ultime differenze si spiegano facilmente se si pensa agli sbocchi occupazionali offerti ai
laureati delle diverse Facoltà ed alle diverse modalità di ingresso nel mercato del lavoro. Infatti, mentre per i laureati in Economia e Agraria vi sono diverse possibilità
di chiamata diretta o di colloqui di selezione da parte di aziende private, per i laureati
in Giurisprudenza è molto frequente il ritardo legato al tirocinio per l’Esame di Stato,
3
Va osservato che i 9 intervistati con laurea in Lettere e Filosofia (tutti nella sessione di giugno-luglio
2003) rappresentano l’intera popolazione dei laureati in questa Facoltà, essendo i primi dall’istituzione
della Facoltà, e saranno esclusi dalle analisi successive, per via della loro esiguità numerica.
158
Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione…
in quanto, oltre all’espletamento di pubblici concorsi, sbocco privilegiato di detti laureati è la libera professione. Per quanto riguarda la laurea in Medicina e Chirurgia,
invece, è noto che spesso questa è solo un punto di partenza per l’ulteriore formazione specialistica, prima della quale per un medico è difficile, se non impossibile, intraprendere una qualche attività. A causa di tali peculiarità, che influiscono senz’altro
sui tempi di accesso ad una occupazione, è opportuno nel seguito mantenere sempre
la distinzione dei laureati per Facoltà.
Non risultano, invece, esservi differenze significative nei tempi medi di inserimento lavorativo fra le successive coorti di laureati presso la stessa Facoltà.
L’indicatore occupato/disoccupato, tuttavia, è piuttosto semplicistico, perché
non tiene conto del tipo di occupazione e della sua stabilità. Per questo motivo è opportuno anche tener conto della distribuzione degli intervistati occupati secondo il tipo di occupazione (Tab. 2).
All’aumentare del tempo trascorso dal conseguimento della laurea cresce il
numero degli occupati stabili, ossia con un contratto di lavoro a tempo indeterminato.
Questa situazione riguarda la totalità dei laureati da oltre 8 anni in Agraria, il 92,5%
dei laureati in Economia e l’83,3% dei laureati in Giurisprudenza. Considerando invece i laureati nel periodo 1997-99, si nota che i dottori in Medicina e Chirurgia hanno il più alto tasso di occupazione stabile (83,3%) seguiti dai colleghi di Economia
(75,6%) e Giurisprudenza (74,7%), mentre appena il 67,7% dei laureati in Agraria di
Tabella 2. Distribuzione percentuale degli intervistati occupati laureati presso l’Università di Foggia, per triennio di laurea e Facoltà, secondo il tipo di occupazione.
Facoltà
Giuri- Medicina e
Economia Agraria
Situazione lavorativa
Totale
sprud. Chirurgia
Laureati del triennio 1994-96 occupati
Occupati stabili (a tempo pieno o part time)
92,5
100,0
83,3
88,6
Occupati a tempo determ. o in form. lavoro
5,0
9,5
6,8
Occupati saltuariamente o in altra situazione
2,5
7,1
4,5
Laureati del triennio 1997-99 occupati
Occupati stabili (a tempo pieno o part time)
75,6
67,7
74,7
83,3
74,7
Occupati a tempo determ. o in form. lavoro
11,9
29,0
12,4
16,7
13,5
Occupati saltuariamente o in altra situazione 12,5
3,2
12,9
11,9
Laureati del triennio 2000-02 occupati
Occupati stabili (a tempo pieno o part time)
61,2
58,8
56,1
70,0
59,3
Occupati a tempo determ. o in form. lavoro
27,2
41,2
30,2
30,0
28,9
Occupati saltuariamente o in altra situazione 11,6
13,8
11,8
Complesso dei laureati occupati
Occupati stabili (a tempo pieno o part time)
69,2
68,5
68,0
75,0
68,7
Occupati a tempo determ. o in form. lavoro
19,7
29,6
19,3
25,0
20,1
Occupati saltuariamente o in altra situazione 11,1
1,9
12,7
11,2
Modelli statistici per l’analisi della transizione Università-lavoro
159
tale periodo è stabilmente occupato. Ottenere un lavoro stabile non è poi difficilissimo, anche per gli occupati che hanno conseguito la laurea da meno di 3 anni, visto
che il 59,3% di questi ultimi si trova in tale condizione. Anche in questo caso i laureati in Medicina e Chirurgia (70,0%) presentano un leggero vantaggio rispetto ai laureati in Economia (61,2%), in Agraria (58,8%) ed in Giurisprudenza (56,1%), ma va
considerato il numero esiguo di medici occupati.
Fortunatamente l’incidenza dei laureati occupati a tempo determinato o in
formazione-lavoro tende a diminuire con l’aumentare degli anni trascorsi dalla laurea. Un certo periodo di lavoro precario o di formazione-lavoro, tuttavia, sembra essere
fisiologico, soprattutto per i laureati in Agraria (29,6%) ed in Medicina (25,0%). I
laureati di queste due facoltà, al contrario dei loro colleghi di Economia e di Giurisprudenza, tendono a non accettare occupazioni di tipo occasionale o provvisorio.
Presumibilmente, il fatto che i laureati delle due facoltà scientifiche non siano molto
numerosi evita che, fra loro, vi siano quelle situazioni di concorrenza che spesso inducono ad accettare anche lavori di tipo occasionale o poco qualificanti.
3.
Analisi delle componenti categoriali del modello
Per poterci districare fra le numerose informazioni rilevate, abbiamo effettuato dapprima un’analisi critica e descrittiva del fenomeno individuando quelle variabili che
sembravano essere più legate dal punto di vista logico e statistico al problema considerato. Per una ulteriore conferma in merito alla scelta delle variabili, è stato stimato,
dopo una analisi loglineare (necessaria per individuare, fra le numerose informazioni
disponibili, quelle maggiormente connesse all’oggetto dell’indagine), un modello logit avente, come variabile risposta, la posizione lavorativa dicotomizzata in occupati
e non occupati. Tramite questo modello, sono state selezionate le variabili i cui coefficienti sono risultati significativi al livello del 5% anche per una sola modalità.
Le variabili così selezionate sono le seguenti:
Variabili quantitative
▪ Voto di laurea.
▪ Voto di maturità.
▪ Età al momento della laurea.
▪ Numero di anni trascorsi tra la maturità e
l’immatricolazione.
▪ Numero di anni fuori corso.
▪ Numero di mesi trascorsi tra la laurea ed il
primo impiego.
▪ Punteggio globalmente attribuito alla
adeguatezza della preparazione ricevuta
rispetto al lavoro svolto o cercato.
Variabili nominali
▪ Facoltà.
▪ Tipo di maturità.
▪ Esperienze lavorative pre-laurea.
▪ Ramo di attività economica attualmente
svolta o cercata.
▪ Posizione professionale attuale o cercata.
▪ Abilitazione all’esercizio della professione
o all’insegnamento
.▪ Modalità di ricerca del lavoro.
▪ Conoscenza prospettive post laurea
(variabile nominale ordinabile).
160
Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione…
Alcune variabili sono di tipo quantitativo (come, ad esempio, il punteggio, su
scala 0-100, attribuito all’adeguatezza della formazione universitaria ricevuta) o misurate su scala ordinale, ma molte altre variabili sono di tipo dicotomico, come il
conseguimento dell’abilitazione alla professione o all’insegnamento, o qualitative
sconnesse, come la classificazione delle carenze riscontrate nelle competenze fornite
nel corso della formazione universitaria.
Dovendo utilizzare un modello LISREL per le successive analisi e poiché i
modelli ad equazioni strutturali, a causa dell’assunzione di normalità delle variabili
latenti4, non prevedono l’uso di variabili categoriali, si è resa necessaria una quantificazione delle variabili osservate tramite un metodo di Optimal Scaling.
Data una popolazione di n soggetti descritta da un insieme di m variabili
x1...xj....xm, l'Optimal Scaling è una procedura che, per ogni variabile xj perviene alla quantificazione categoriale ωj, che consente di applicare tecniche statistiche valide solo per dati quantitativi (virtualmente continui)5. I metodi O.S. si basano generalmente sulla minimizzazione di una loss function specificata ad hoc rispetto ai parametri di interesse (categorie) e si differenziano tra loro per la funzione obiettivo.
Viene definito innanzitutto uno scalare gijh che assume il valore 1 oppure 0 a
seconda che l'i-esimo individuo rientri o non rientri nella h-esima categoria della variabile xj; il vettore gjh è dato da tale scalare esteso a tutti gli individui in relazione alla categoria h di xj. Considerando tutte le categorie di xj, i vettori colonna gjh originano la matrice-indicatore Gj di dimensioni n×kj. Estendendo la procedura a tutte le m
variabili categoriali otteniamo la matrice-indicatore completa o disgiuntiva completa
G = [G1...Gj...Gm], di ordine n×K, ove K = ∑j kj .
In tal modo, ogni variabile categoriale osservata viene specificata come prodotto di una matrice-indicatore (nota) e di un vettore ωj = [ωj1…ωjh...ωjkj]' di parametri di scaling che, una volta stimati (ω̂jh), originano le variabili quantitative ricercate:
os
xj = Gj ω̂ j
o, equivalentemente,
os
xos
xj j =
kj
∑ g jh ω̂ jh
(j=1, 2, ..., p)
h=1
(ove l’apice “OS” indica la variabile “optimal scaled”). Estendendo la procedura a
tutti gli n elementi della popolazione ed a tutte le variabili, si ottiene la matrice dei
punteggi individuali “optimally scaled” osX=(osX1, osX2, …, osXm).
4
In tali casi, le stime dei parametri del modello LISREL con il metodo della massima verosimiglianza
sono asintoticamente distorte, a causa della violazione dell’ipotesi di normalità delle variabili latenti e,
implicitamente, delle variabili osservate (Browne, 1984). Tale problema viene parzialmente superato
con l’uso di funzioni di perdita non parametriche, come WLS (minimi quadrati pesati), GLS (minimi
quadrati generalizzati) ULS (minimi quadrati non pesati). Per una più esauriente disamina delle problematiche legate all’uso dei modelli ad equazioni strutturali in presenza di variabili osservate categoriali, ordinali o comunque per variabili latenti non normali, cfr., ad esempio, Lovaglio, 2000.
5
Le variabili xj e ωj sono definite con notazione vettoriale, le prime perché riferite agli n individui, le
altre perché composte da kj categorie.
Modelli statistici per l’analisi della transizione Università-lavoro
161
La stima dei vettori ωj avviene generalmente massimizzando una funzione obiettivo, con vincoli di identificazione, o, come si è detto, minimizzando una funzione di perdita. Per un approccio più coerente e concettualmente solido (cfr., ad es.,
Vittadini, 1999), è opportuno stimare simultaneamente le quantificazioni delle variabili categoriali ed i parametri del modello6, ottimizzando direttamente la funzione obiettivo oppure rispetto ai parametri di scaling ed al modello prescelto, come fanno i
metodi ALSOS, acronimo di Alternative Least Squares Optimal Scaling (De Leeuw,
Young and Takane, 1976; Young, Takane and De Leeuw, 1978).
Fra le diverse procedure ALSOS disponibili, abbiamo utilizzato la CATPCA
(CATegorical Principal Component Analysis), un algoritmo non parametrico utilizzante come metodo di quantificazione le componenti principali delle variabili trasformate, ottimizzate nello spazio fattoriale p-dimensionale (p≤m). (De Leeuw and
Meulman, 1986; Meulman and Heiser, 1999)
La procedura di ottimizzazione, nel caso più semplice (nessuna ponderazione
per casi o variabili, niente variabili supplementari o multiple), stima in modo iterativo i parametri di scaling ωj minimizzando la funzione
m
σ (Y; Ω) = n −1 ∑ tr ( Y − G j Ω j )' M j ( Y − G j Ω j ) ,
[
]
j
ove la matrice Mj è una matrice diagonale (di rango n×n) i cui elementi diagonali valgono 0 se l’i.ma osservazione è mancante, 1 altrimenti, mentre Y (d’ordine n×p) rappresenta le variabili riscalate in p dimensioni (punteggi fattoriali), con i vincoli di normalizzazione e di centratura (ponendo u vettore unità di dimensione n e M=∑j Mj):
Y' M Y = n Ip,
u' M Y = 0 .
[1]
L’algoritmo parte da una stima iniziale di Y che soddisfi tali vincoli (salvo diversamente specificato, numeri casuali standardizzati e centrati); i pesi fattoriali iniziali aj sono calcolati come prodotto incrociato fra Ŷ e le variabili originali (codifiche categoriali) centrate e riscalate: cxj = [In-Mjuu'/(u'Mju)] xj, con j= 1, 2, ..., m (De
Leeuw, Young and Takane, 1976; Meulman and Heiser, 1999).
Il primo passo dell’iterazione consiste, posta Dj = diag(G'jGj), nel calcolare
Ω̂ j = Dj-1Gj' Ŷ .
[2]
Si ottengono così le prime quantificazioni di categoria7, che vengono poi
ˆ ⊥j = ω
ˆ j n (ω
ˆ 'j D j ω
ˆ j ) allo scopo di calcolare i nuovi pesi fatnormalizzate con ω
ˆ ⊥j ) / n . Tramite la matrice normalizzata delle stime di scaling
toriali: a j = (Ω'j D j ω
6
Come mostrato da vari autori (Bradley et al., 1962; Kruskal, 1965; de Leeuw et al., 1976), infatti,
l’approccio adottato per lo scaling non è separabile dagli scopi della ricerca, cosicché la quantificazione va ottenuta all’interno di un modello statistico specificato a priori.
7
Se si tratta di variabili categoriali, si usano direttamente i pesi fattoriali: ω̂ j = Ω̂ j aj; se le variabili originarie sono ordinali, le ω̂ j sono ottenute tramite una regressione monotona delle Ω̂ j aj ponderata con
gli elementi diagonali di Dj, mentre se sono numeriche viene utilizzata una regressione lineare ponderata.
162
Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione…
ˆ ⊥ =ω
ˆ ⊥j a'j si può ora calcolare la matrice Ŷ = [In-Muu'/(u'Mu)] (∑ MjGj Ω̂ ⊥j ). DoΩ
j
po la verifica della convergenza della funzione obiettivo al minimo, si procede a
chiudere il ciclo oppure a riprendere l’algoritmo, dopo aver ortogonalizzato Ŷ tramite Singular Value Decomposition (cfr., ad es., Delvecchio 1992), ripartendo dalla [2].
Le stime ω̂ j relative all’ultima iterazione costituiscono, finalmente, le quantificazioni cercate delle varie categorie, tramite cui calcolare le variabili osx.
Prima di eseguire la procedura di scaling, per facilitare l’interpretazione dei
risultati, le singole modalità delle variabili categoriali sconnesse sono state disposte
in ordine non decrescente rispetto alla percentuale di occupati. Il risultato di tale operazione è mostrato in Tab. 3.
Tabella 3. Distribuzione percentuale degli intervistati secondo la condizione lavorativa, in
base ad alcune loro caratteristiche*.
Condizione lavorativa
Condizione lavorativa
Caratteristiche
Non occupato Occupato
Caratteristiche
Non occupato Occupato
Facoltà di laurea
Ramo di attività attuale o cercato
Medicina e Chirurgia
80,4
19,6
n.d.
85,0
15,0
Giurisprudenza
59,4
40,6
Pubbl. Amministrazione
64,9
35,1
Economia
42,3
57,7
Industria
64,1
35,9
Agraria
39,6
60,4
Commercio
46,8
53,2
Tipo di diploma superiore
Agricoltura
29,3
70,7
Linguistico
90,9
9,1
Altro settore
28,2
71,8
Altro diploma
71,4
28,6
Servizi
26,0
74,0
Classico
60,4
39,6 Posizione professionale attuale/cercata
Scientifico
55,2
44,8
n.d.
98,1
1,9
Magistrale
51,6
48,4
Libero professionista.
61,5
38,5
Tecnico Commerciale
50,3
49,7
Imprenditore
50,0
50,0
Professionale
48,7
51,3
Impiegato/Dirigente
41,0
59,0
Tecnico Geometri
33,3
66,7
Lavoratore autonomo
35,0
65,0
Conoscenza prospettive post-laurea (ordinale) Altra posizione
14,5
85,5
Sì, abbastanza bene
49,3
50,7
Docente/ricercercatore
11,3
88,7
Sì, in modo generico
59,9
41,1 Modalità di ricerca lavoro
No
48,4
51,6
n.d.
92,0
8,0
Lavoro prima della laurea
Giornali/Internet
86,3
13,7
Mai lavorato in preced.
56,5
43,5
Agenzie specializzate
80,9
19,1
Ha lavorato in preced.
48,1
51,9
Ufficio territor. impiego
79,7
20,3
Abilitazione professionale/insegnamento
Invio curriculum
40,1
59,9
Non abilitato
60,0
40,0
Concorsi/selezioni
36,8
63,2
Abilitato
31,5
68,5
Contatti personali
29,0
71,0
Altre modalità di ricerca
13,6
86,4
Segnalazioni
9,8
90,2
Chiamate dirette
100,0
In complesso
53,0
47,0
*
Le percentuali di occupati/non occupati complessive non corrispondono a quelle della Tab 1 in quanto riferite
ai soli 2.084 intervistati delle Facoltà considerate che hanno fornito coerente risposta alle domande.
Modelli statistici per l’analisi della transizione Università-lavoro
163
La procedura di scaling ottimale ha permesso, in conclusione, di quantificare
ogni modalità qualitativa, nello spazio vettoriale definito da queste e dall’insieme
delle variabili quantitative, ottimizzando il risultato ai fini della spiegazione della varianza originaria da parte delle prime componenti principali.
Come si evince dalla Tab. 4, soltanto cinque componenti fanno rilevare autovalori maggiori dell’unità, e risultano quindi più significative delle variabili originarie che le compongono; ognuna di esse spiega oltre il 7% della variabilità complessiva e tutte insieme giungono a spiegarne il 56% (che è la quota di variabilità spiegata
più bassa che è qui opportuno prendere in considerazione).
Per la migliore definizione ed identificazione delle variabili latenti, o fattori,
si è proceduto ad una rotazione degli assi fattoriali, con metodo Varimax. Il primo
fattore, nello spazio fattoriale ruotato, spiega da solo il 15,1% della variabilità, mentre il quarto ed il quinto fattore, singolarmente, spiegano circa l’8% della variabilità.
Proviamo ora ad identificare queste cinque variabili latenti con l’ausilio della
Tab. 5, in cui sono riportati i coefficienti fattoriali maggiori di 0,33 in valore assoluto.
Il primo fattore è correlato con il voto di laurea e di maturità, mentre presenta
una correlazione opposta con l’età alla laurea ed il numero di anni fuori corso al
momento della laurea. In pratica, il primo fattore viene influenzato direttamente dalle
valutazioni ricevute dall’intervistato, inversamente dal numero di anni impiegati per
conseguire la laurea. Il primo fattore può essere quindi identificato con la preparaTabella 4. Varianza spiegata dalle componenti principali e dai fattori ruotati*.
Pesi delle componenti non ruotate
Pesi dei fattori ruotati
% varianza
% varianza
Componenti Autovalori % di varianza
Autovalori % di varianza
cumulata
cumulata
1
2,55
17,0
17,0
2,28
15,2
15,2
2
1,94
12,9
30,0
1,89
12,6
27,8
3
1,68
11,2
41,2
1,81
12,1
39,9
4
1,13
7,5
48,7
1,25
8,3
48,2
5
1,10
7,3
56,0
1,17
7,8
56,0
6
0,98
6,5
62,6
7
0,91
6,1
68,7
8
0,83
5,5
74,2
9
0,71
4,8
78,9
10
0,71
4,7
83,7
11
0,66
4,4
88,0
12
0,58
3,9
91,9
13
0,46
3,1
95,0
14
0,41
2,8
97,7
15
0,34
2,3
100,0
*
Estrazione con Analisi delle componenti principali. Rotazione con Metodo Varimax.
164
Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione…
Tabella 5. Coefficienti ottenuti con l’analisi fattoriale delle variabili optimally scaled tramite CATPCA per gli intervistati laureati nelle Facoltà dell’Ateneo foggiano.
ComuComponente
Variabili
nalità
1
2
3
4
5
Età alla laurea
0,70 -0,70
-0,44
Anni trascorsi fra laurea e primo lavoro
0,65
0,75
Abilitazione a professione/insegnamento
0,64
0,67 -0,37
N. di anni fuori corso
0,63 -0,68 -0,34
Voto di laurea
0,62 0,77
Anni di sospensione fra diploma e immatricolaz.
0,60
-0,73
Conoscenza prospettive post-laurea
0,59
0,77
Posizione professionale attuale/cercata
0,55
0,71
Modalità di ricerca lavoro
0,55
0,66
Voto di maturità
0,54 0,70
Ramo di attività attuale/ricercato
0,53
0,50 0,45
Lavoro prima della laurea
0,53
-0,68
Facoltà
0,52
0,67
Tipo di diploma
0,43
0,52
Punteggio adeguatezza preparazione universitaria 0,34
-0,47
zione dei laureati e con il tempo utilizzato per completare il percorso di studio, ovvero con il curriculum formativo dei laureati intervistati.
Il secondo fattore è molto legato agli anni trascorsi tra laurea e primo lavoro,
al possesso di una abilitazione professionale o all’insegnamento, alle modalità di ricerca del lavoro; in modo meno rilevante, è legato anche al ramo di attività economica in cui si è trovato oppure cercato lavoro. Tutte queste variabili hanno in comune il
fatto di essere connesse ad azioni intraprese dopo il conseguimento della laurea, per
cui detto fattore può essere denominato attività post-laurea.
Il terzo fattore, invece, risulta connesso direttamente con la posizione professionale conseguita o cercata, con la facoltà ed il tipo di diploma, e, in misura inferiore, con il ramo di attività. Risulta, quindi, fortemente influenzato dall’iter formativo
seguito, ma anche dall’orientamento in campo lavorativo, per cui si è ritenuto opportuno denominarlo orientamento formativo-professionale.
Il quarto fattore è correlato in misura cospicua con la conoscenza, al momento dell’immatricolazione, delle prospettive post laurea del corso di studi scelto, ma
anche, nel senso opposto, con il fatto che l’intervistato svolgesse o meno una attività
lavorativa prima di laurearsi8. Per questo motivo abbiamo pensato di denominarlo
progetto lavorativo.
8
Invero, come altrove verificato (cfr. Crocetta, d’Ovidio, 2003), l’aver svolto una attività lavorativa
durante gli anni universitari aiuta molto nella ricerca del lavoro; nel caso in cui si trattasse di lavoro
precedente all’iscrizione universitaria, tuttavia, si tenderà spesso a mantenere il posto di lavoro, tentando eventualmente di procedere nella carriera, ma senza sperimentare nuove strade.
Modelli statistici per l’analisi della transizione Università-lavoro
165
Il quinto fattore è molto legato al numero di anni trascorsi fra il conseguimento della maturità e l’immatricolazione ed, in minor misura, all’età dell’intervistato al
momento della laurea ed al punteggio attribuito all’adeguatezza degli studi compiuti
rispetto all’attività lavorativa. È noto che gli studenti che si iscrivono all’università a
distanza di tempo dal conseguimento della maturità hanno minori probabilità di conseguire la laurea in tempi brevi e che, comunque, il fattore età è importante per
l’ottenimento del primo impiego (si pensi, ad esempio, ai numerosi bandi di concorso
che prevedono un limite di età, nonché agli incentivi previsti in favore delle aziende
che assumono lavoratori al disotto di un certa età). Una eventuale difficoltà
nell’accedere ad un lavoro adatto alle proprie aspettative può, in costoro, influenzare
la valutazione sull’adeguatezza della preparazione universitaria conseguita. Per questo motivo si è pensato di denominare detto fattore discontinuità negli studi.
I cinque fattori latenti sopra descritti sono stati il punto di partenza per la costruzione di un modello LISREL, che ha consentito di evidenziare le relazioni causali
esistenti fra le variabili rilevate ed i fattori latenti e, soprattutto, fra questi ultimi.
4.
I modelli con equazioni strutturali
I modelli LISREL rientrano nella categoria dei modelli con equazioni strutturali e sono
molto utilizzati nello studio delle scienze sociali, in quanto utili per individuare
l’azione di variabili latenti, non osservabili in modo diretto, su un determinato fenomeno: tipicamente, comportamenti, scelte, opinioni . Di solito i sistemi di equazioni strutturali vengono costruiti da relazioni molto semplici, aggiungendo di volta in volta variabili per rendere sempre più realistico il modello. Uno degli scopi per cui si costruiscono detti modelli è lo studio delle relazioni di causa-effetto del sistema studiato.
Utilizzando la Path Analysis (Wright, 1934) è possibile rappresentazione del
modello tramite diagrammi di flusso in cui le variabili rilevate sono rappresentate mediante rettangoli, mentre le variabili latenti e le componenti erratiche sono racchiuse
in forme ellittiche. Tali figure geometriche possono essere collegate con delle frecce
indicanti l’esistenza di una relazione9.
Si distinguono i modelli di misurazione, che servono ad identificare e misurare le variabili latenti tramite le variabili osservate, dai modelli strutturali, che spiegano le relazioni causali tra le variabili latenti. Queste ultime possono essere di tipo “esogeno” se sono variabili di tipo esplicativo o “endogeno” se possono essere inter9
Per le relazioni di dipendenza il carattere antecedente è quello rappresentato nella figura da cui parte
la freccia, mentre quello conseguente è quello indicato nel riquadro ove è puntata la freccia. Le relazioni di interdipendenza, invece, sono rappresentate con archi di circonferenza aventi frecce ad entrambe le estremità.
166
Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione…
pretate anche come variabili risposta. Il modello LISREL (cfr., ad es., Jöreskog,
1973, 1977; Wiley, 1973; Bollen, 1989) è definito come
η=Βη+Γξ+ζ,
con le equazioni di misurazione date da
x = Λx ξ + δ e y= Λy η + ε .
In detto modello, le quantità ξ e η sono, rispettivamente, le variabili causa ed
effetto e di solito sono variabili latenti, non direttamente osservabili. Le quantità x e
y, che invece possono essere osservate e misurate, sono variabili legate linearmente a
ξ e η attraverso le matrici dei pesi fattoriali Λx e Λy ; Γ è la matrice dei coefficienti
della variabile causa nella relazione strutturale, ζ è il vettore dei disturbi casuali nella
relazione strutturale tra η e ξ, mentre δ e ε sono i vettori degli errori di misurazione,
rispettivamente, di x e di y. Inoltre ζ, ε e δ sono incorrelati fra loro, ζ è incorrelato con
ξ, ε è incorrelato con η e δ è incorrelato con ξ. Si hanno, poi, le seguenti posizioni:
E(ζ) = E(ε) = E(δ) = E(ξ) = E(η) = 0 ,
Cov(ζ) = Ψ , Cov(ε) = Θε , Cov(δ) = Θδ , Cov(ξ) = Φ ,
ove Φ è la matrice k×k di covarianza dei fattori latenti e Θ sono matrici diagonali di
sole varianze.
Per la stima dei coefficienti e delle matrici di varianze e covarianze si possono
usare varie tecniche. Gli stimatori più spesso utilizzati sono quelli di massima verosimiglianza proposti da Jöreskog (1973) e dei minimi quadrati generalizzati FGLS (Jöreskog e Goldberger, 1975; Browne, 1974). Detti stimatori sono efficienti, consistenti ed invarianti (non dipendendo né dalla scala delle variabili osservate né dalla loro
origine). Nel caso presente abbiamo utilizzato stimatori GLS perché più robusti
quando non sia presumibile che la distribuzione delle variabili latenti sia normale
(Browne, 1984)10.
I modelli LISREL possono essere utilizzati per analizzare contemporaneamente i dati provenienti da più sottogruppi consentendo quindi di effettuare confronti
con gruppi di controllo o con gruppi sottoposti a trattamenti differenti. Tali analisi
sono molto utili per determinare se la struttura del modello LISREL varia al variare
dei diversi sottogruppi considerati.
È possibile imporre vincoli su alcuni o su tutti i parametri considerati, in modo che siano uguali fra tutti i gruppi. Se vogliamo effettuare un confronto fra due sottopopolazioni, per poter stimare ciascun gruppo separatamente è necessario che non
vi siano vincoli; se invece i dati devono essere analizzati simultaneamente, per poter
avere delle stime efficienti vanno imposti vincoli incrociati fra i gruppi (cfr., ad es.,
Bollen, 1989; Kline, 1998; Civardi e Zavarrone, 2000, 2002).
10
La quantificazione di ogni variabile categoriale, ottenuta con la procedura di Optimal Scaling, è riferita ad un numero limitato di modalità per cui è sconsigliabile assumere l’ipotesi di normalità delle
variabili latenti.
Modelli statistici per l’analisi della transizione Università-lavoro
167
La prima cosa da fare è verificare se le matrici di covarianza o di correlazione
delle variabili osservate sono uguali per i due gruppi considerati.
Per verificare l’uguaglianza delle matrici di correlazione di x, si deve imporre che Θi;δ = 0 e che le Λi;x siano matrici diagonali delle deviazioni standard di x,
dove i=1, 2 indica il sottogruppo e 0 è un matrice nulla. Testare l’ipotesi di uguaglianza tra le matrici di correlazione equivale a verificare che Ψ1 = Ψ2, con Ψi matrici di correlazione tra i fattori latenti.
Se si rifiuta l’ipotesi di invarianza del modello senza alcuna restrizione si
possono imporre dei vincoli via via più restrittivi per verificare le cause della mancata equivalenza. Si può innanzitutto testare l’ipotesi di invarianza dei pesi fattoriali iniziali per il modello di misura in ciascuno dei 2 gruppi considerati, oppure, nel caso
in cui tale ipotesi non sia accettabile, si può testare la prima ipotesi classica sul modello strutturale, che prevede l’invarianza dei pesi fattoriali tra i gruppi.
In caso di rifiuto delle ipotesi precedenti si può testare la seconda ipotesi
classica del modello strutturale, ossia l’invarianza della covarianza dei fattori unici e
dei pesi fattoriali. La terza ipotesi classica prevede, invece, il test di invarianza delle
covarianze dei fattori unici e delle varianze dei fattori comuni e dei pesi fattoriali.
Volendo rendere ancora meno rigide le ipotesi, si può utilizzare la prima ipotesi aggiuntiva del modello strutturale, che prevede matrici di covarianza dei fattori
unici invarianti e simmetriche con alcuni elementi uguali. Infine si può testare il caso
con più vincoli, in cui le matrici di covarianza dei fattori unici sono invarianti e simmetriche con alcuni elementi uguali a zero. Questo caso è noto in letteratura come
seconda ipotesi aggiuntiva del modello strutturale.
5. Un modello strutturale per la valutazione della modalità lavorativa dei laureati
Utilizzando i risultati discussi nel paragrafo 3, è stato costruito, per passi successivi,
un modello LISREL per spiegare in un’ottica di placement le diverse variabili latenti
evidenziate dall’analisi fattoriale realizzata sulle variabili sottoposte all’optimal scaling. Ovviamente detti risultati rappresentano solo il punto di partenza dell’analisi, in
quanto per poter ottenere un modello con stime convergenti è stato necessario apportare piccole modifiche. Come si evince dalla Fig. 1, le variabili latenti utilizzate corrispondono ai fattori individuati tramite l’analisi fattoriale con la sola eccezione della
variabile discontinuità degli studi, la cui importanza è stata ridimensionata avendo
considerato le relazioni fra le variabili latenti (esogene ed endogene). Le variabili di
partenza, invece, sono sempre quelle ottenute dalla quantificazione effettuata con la
procedura di optimal scaling.
168
Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione…
Figura 1.
Modello LISREL per la descrizione della modalità lavorativa dei laureati presso l’Università di Foggia.
e2
1
0,49
1
e7
,32
,20
e13
-,23
,95
,45
e9
,22
e10
,17
-,24
e6
e4
Tempo
laurea-lavoro
ζe2
,95
1
1
Ramo di
attività
Attività
post-laurea
,42
1
Abilitazione
1
,28
Posizione
professionale
,25
,20
1 Modal.ricerca
lavoro
1
,39
Età
alla laurea
1
Anni f.c.
Percorso
form./prof.
,73
,39
1
,47
-,35
e1
,27
-,33
e11
,13
e3
,38
e5
e8
,16
e16
e14
e15
1
Facoltà
-,78
1
Diploma
di maturità
-,70
1
Voto di
laurea
,431
Voto di
maturità
1
1
1
1
,38
Curriculum
formativo
1
-,35
Irregolarità
degli studi
ζ1
ec
,10
Adeguatezza
preparazione
Lavoro
pre-laurea
1 Conoscenza
prospettive
,32
-,69
1
Progetto
lavorativo
,29
Il modello risultante dalla presente analisi11 è configurato come una vera rete
di relazioni ed è particolarmente complesso; perciò considereremo prima le principali
correlazioni tra le variabili osservate inserite nel modello, per poi analizzare le singole componenti, iniziando dalle relazioni fra le variabili rilevate e le variabili latenti.
11
Per la quale si è fatto riferimento sia alle risultanze dell’analisi esplorativa, sia alle relazioni suggerite dai modification indices forniti dal programma.
Modelli statistici per l’analisi della transizione Università-lavoro
169
In un secondo momento ci soffermeremo sulle relazioni causali individuate tra queste
ultime.
Fra le variabili osservate, quelle maggiormente correlate fra loro sono l’età alla laurea ed il tempo trascorso fra laurea ed primo lavoro (r=0,95); quest’ultima variabile è connessa anche al ramo di attività in cui il laureato cerca o trova lavoro
(r=0,49) ed all’irregolarità negli studi (r=0,41). È interessante anche la relazione fra
il voto di laurea ed il voto di maturità (r=0,38), nonché la correlazione fra il tipo di
maturità conseguita e il tempo fra laurea e primo lavoro (r=0,35).
Le altre correlazioni considerate sono inferiori a 0,33 in valore assoluto, sono
tutte significative e vanno mantenute nel modello per consentirne la convergenza o
per migliorarne l’adattamento.
I pesi di regressione standardizzati riportati in figura mostrano il senso e
l’intensità delle relazioni fra le variabili latenti e quelle rilevate. Tali relazioni sono
leggermente diverse da quelle rivenienti dall’analisi esplorativa, a causa delle relazioni causali ipotizzate fra le variabili latenti e del mutamento di struttura dei fattori
medesimi.
La prima componente trovata nel corso dell’analisi fattoriale era stata denominata curriculum formativo poiché correlata al voto di laurea ed al voto di maturità,
ed in modo opposto all’età alla laurea e al numero di anni fuori corso; nel modello
strutturale mantiene le stesse relazioni, a cui però si aggiunge una leggera connessione con la valutazione espressa sull’adeguatezza della preparazione universitaria e con
l’irregolarità degli studi. Questa variabile latente è influenzata dal progetto lavorativo
del laureato e, a sua volta, influenza le attività post-laurea.
La variabile latente percorso formativo-professionale viene misurata principalmente attraverso la Facoltà di appartenenza (con un peso di regressione pari a
0,73), mentre meno rilevante è il legame con il tipo di diploma di maturità, con la posizione professionale acquisita o cercata ed il ramo di attività della stessa.
Il fattore progetto lavorativo presenta un peso di regressione standardizzato
positivo per il fattore conoscenza delle prospettive post laurea ed uno negativo (0,69) per quanto riguarda il lavoro pre–laurea. Ha, inoltre, un’influenza non trascurabile (0,32) sulla variabile non osservata curriculum formativo.
Il fattore attività post laurea influenza tre variabili osservate: il tempo trascorso fra il conseguimento della laurea e l’inizio dell’attività lavorativa (0,95), il possesso di una abilitazione all’insegnamento o all’esercizio di una professione (0,42) e, in
misura minore ma ancora sensibile, le modalità di ricerca del lavoro12. A sua volta è
influenzato direttamente dai fattori curriculum formativo (0,47) e percorso formativo-professionale (0,25) ed è quindi una variabile esogena del nostro modello.
12
Rispetto all’analisi fattoriale esplorativa, mancano il ramo di attività, che qui effettivamente risulta
avere una relazione più affidabile con il percorso formativo-professionale, e il numero di anni fuori
corso.
170
Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione…
In definitiva, l’occupabilità dei laureati di foggia risulta essere fortemente influenzata dalle attività poste in essere dopo la laurea, dal curriculum formativo e dalle esperienze lavorative maturate.
Ovviamente lo scopo di tale modello è di ottenere una rappresentazione semplificata della realtà, in cui siano evidenziate le relazioni principali fra i diversi fattori
e rappresenta il punto di partenza per una serie di analisi più approfondite.
Infatti, se si volessero ottenere delle stime attendibili sui tassi di occupazione
o sulle probabilità di ingresso nel mondo del lavoro di laureati con determinate caratteristiche, si dovrebbero utilizzare metodologie più sofisticate e sarebbero necessarie
informazioni più dettagliate.
Il modello ottenuto ha un buon adattamento, come indicato dalle statistiche
riportate nella Tab. 6.
L’indice ECVI (dato dal rapporto fra il criterio informativo di Akaike ed il
numero di gradi di libertà) è molto più vicino al valore minimo relativo al modello
saturo (0,12) che non a quello di indipendenza (1,21), indicando che l’indice di discrepanza è piuttosto basso.
Il goodness of fit index (GFI) è dato dal complemento ad 1 del rapporto fra il
minimo della funzione di discrepanza fra il modello ed il campione, nell’ipotesi che
la variabilità dei gruppi sia nulla. Tale indice varia fra 0 e 1, ove il valore 1 indica il
caso di adattamento perfetto. Il presente modello risulta quindi vicinissimo al massimo adattamento.
Il test AGFI (adjusted goodness of fit test) verifica l’adattamento del modello
tenendo conto dei gradi di libertà disponibili per testare il modello; nel nostro caso, il
valor 0,95 è molto vicino al valore 1, che indica un adattamento perfetto.
L’indice RMR (root mean square residual) è dato dalla radice quadrata della
media degli scarti al quadrato fra la varianza campionaria e la sua stima ottenuta sotto l’ipotesi che il modello sia corretto. Ovviamente, quanto minore è tale indice tanto
Tabella 6. Indici di adattamento del modello LISREL per la modalità lavorativa dei laureati presso l’Università di Foggia.
Modelli
Indici di adattamento
Stimato Saturo di indipendenza
ECVI (Expected Cross-Validation Index)
0,26
0,12
1,21
GFI (Goodness of Fit Index)
0,97
1,00
0,84
AGFI (Adjusted Goodness of Fit Index)
0,95
0,82
RMR (Root Mean Square Residual)
0,06
0,00
0,21
RMSEA (Root Mean Square error of Approximation)
0,05
0,11
CMIN (Minimum value of discrepancy)
450,70
2494,50
Gradi di libertà
72
105
N critico di HOELTER (α=0,05)
429
109
Modelli statistici per l’analisi della transizione Università-lavoro
171
migliore è l’adattamento. Nel nostro caso, anche RMR è molto più vicino al valore
del modello saturo (0) di quanto lo sia al modello di indipendenza (0,21).
L’indice RMSEA non tiene conto della complessità del modello e quindi favorisce l’utilizzo di modelli più complessi, ma di regola un indice RMSEA pari o inferiore a 0,05 indica un buon accostamento dei dati al modello. Nel caso presente
l’accostamento risulta molto buono (RMSEA=0,05).
Il valore dell’indice di discrepanza CMIN è statisticamente significativo e la
statistica N di Hoelter (1983), per un livello di significatività del 5%, è notevolmente
maggiore della soglia critica raccomandata dall’autore (N=200), mentre per il modello di indipendenza tale statistica risulta molto inferiore al livello consigliato.
In conclusione, il modello elaborato appare ben rappresentare le relazioni esistenti nel sistema.
6.
Un modello strutturale di invarianza fra i sessi
Una variabile che sembra spesso influire in modo considerevole sulle possibilità occupazionali dei laureati meridionali, nella fattispecie dei laureati dell’Università di
Foggia, è il genere. All’interno del gruppo di laureati da noi analizzato, in effetti, lavora il 54,3 % dei maschi ed il 41,8% delle laureate13.
Il genere non può essere considerato, di per sé, come uno dei fattori determinanti l’occupazione ma è connesso ad una serie di ostacoli di tipo socio-economico
che di fatto rendono più difficile l’ingresso nel mondo del lavoro delle donne, rispetto agli uomini. Il sesso appare, quindi, una proxy di fattori frenanti, come una minor
possibilità di accettare o vedersi affidare ruoli di responsabilità, che richiedono un
impegno totalizzante, oppure frequenti spostamenti e cambi di residenza, implicando
anche una maggiore discontinuità dovuta ad assenze per motivi familiari (gravidanze,
malattie infantili, ecc.).
In tale accezione, il genere influenza gli studenti universitari persino nella
scelta del percorso formativo e della sede universitaria: vi sono facoltà, come quella
di Lettere e Filosofia, con un tasso di mascolinità decisamente basso che testimonia
una minor propensione dei maschi verso gli sbocchi occupazionali offerti da questo
percorso di studi.
Un altro aspetto legato in qualche modo al sesso è la sede di iscrizione: da alcune indagini precedenti (Antonucci, Crocetta e Meccariello, 2002) è emersa una
13
Si tenga conto che, in una analisi di segmentazione in tema di placement occupazionale dei laureati
di Foggia (Crocetta, d’Ovidio, 2003), detta variabile appariva, in un ramo dell’albero di classificazione, già al terzo livello, descrivendo appunto una situazione di maggior occupazione maschile. Tale situazione può essere ascritta, tuttavia, all’interazione della variabile “genere” con altre variabili.
172
Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione…
maggiore propensione delle donne a scegliere la sede universitaria più vicina al comune di residenza.
Per questi motivi abbiamo deciso di verificare se il modello LISREL, definito
nel paragrafo precedente, è invariante rispetto al genere. L’applicazione della medesima struttura dei due gruppi di maschi e femmine ha prodotto immediatamente la
convergenza del modello.
La prima ipotesi sottoposta a test prevede l’invarianza della struttura di correlazione tra i modelli stimati utilizzando separatamente i dati rilevati per i laureati
(41,7% del campione) e quelli per le laureate (58,3%): ciò equivale a non porre alcun
vincolo ad esclusione di quelli di base (Θi;δ = 0; Λi;x = Ip; Φ matrice con tutti gli elementi della diagonale principale φj,h=1).
Verificando questa ipotesi mediante il valore minimo della funzione di discrepanza, che, com’è noto, si distribuisce come un χ2, si rileva un valore di CMIN pari a 44,1 con 11 g.d.l., che corrisponde ad un p-value<0,0001: l’ipotesi di invarianza
delle strutture di correlazione (ossia del modello di misura) va pertanto respinta.
Si deve passare pertanto a verificare l’ipotesi di invarianza dei pesi fattoriali
iniziali, ed in questo caso l’indice di discrepanza è CMIN=5,6 con 3 g.d.l. (p=0,134),
per cui può essere accettata l’ipotesi di invarianza del modello strutturale.
Facendo riferimento agli indici di adattamento della Tab. 7, riferiti ai due modelli stimati congiuntamente ed indicati con la locuzione “modello di invarianza”,
appare evidente che l’adattamento rispetto al modello saturo non è peggiorato in modo sensibile, pur se la numerosità dei gruppi si è all’incirca dimezzata (la numerosità
del subcampione femminile ammonta infatti a 1.215 laureate, mentre i loro colleghi
maschi sono appena 869). Benché le relazioni fra le variabili latenti e quelle osservate siano cambiate in qualche misura, come evidenziato nella successiva Tab. 8, la
struttura fattoriale da noi identificata, dunque, può essere considerata invariante.
Tabella 7. Indici di adattamento del modello LISREL di invarianza dei pesi strutturali (rispetto al modello saturo ed al modello di indipendenza) per l’analisi della modalità lavorativa dei laureati e delle laureate presso l’Università di Foggia.
Modelli
Indici di adattamento
di invarianza saturo di indipendenza
ECVI (Expected Cross-Validation Index)
0,34
0,23
1,26
GFI (Goodness of Fit Index)
0,97
1,00
0,84
AGFI (Adjusted Goodness of Fit Index)
0,95
0,81
RMR (Root Mean Square Residual)
0,07
0,00
0,22
RMSEA (Root Mean Square error of Approximation)
0,04
0,07
CMIN (Minimum value of discrepancy)
524,40
2565,60
Gradi di libertà
147
210
N critico di HOELTER (α=0,05)
701
200
Modelli statistici per l’analisi della transizione Università-lavoro
173
Tabella 8. Pesi di regressione standardizzati delle variabili osservate del modello LISREL
per l’analisi della modalità lavorativa dei laureati e delle laureate presso
l’Università di Foggia.
Variabili osservate
Progetto lavorativo
Conoscenza delle prospettive post laurea
Lavoro pre laurea
Pesi standard.
Pesi standard.
M
F
Variabili osservate
M
F
Percorso form./professionale
Facoltà
0,78 0,72
0,26 0,35
Posizione prof. attuale/cercata 0,43 0,39
-0,78 -0,56 Diploma di maturità
0,35 0,37
Ramo attività attuale/cercata
0,21 0,16
Curriculum formativo
Voto di laurea
0,44
Voto di maturità
0,35
Adeguatezza preparazione
0,05
Irregolarità degli studi
-0,45
Numero di anni fuori corso -0,64
Età alla laurea
-0,75
Componenti latenti della variabile
Curriculum formativo
Progetto lavorativo
0,33
0,40
0,36
0,13
-0,19
-0,84
-0,80
Attività post laurea
Numero di anni trascorsi tra
0,90
la laurea ed il primo lavoro
Abilitazione ad esercizio pro0,45
fessione / insegnamento
Modalità di ricerca del lavoro 0,32
Componenti latenti della variabile
Attività post laurea
0,27
0,49
Curriculum formativo
Percorso form./professionale 0,29
0,90
0,46
0,28
0,47
0,21
* Le variabili latenti evidenziate in grassetto sono endogene.
I due gruppi di laureati appaiono differenziarsi per pochi aspetti, come, ad esempio, il lavoro pre-laurea (più legato con la variabile latente progetto lavorativo
per i maschi rispetto alle loro colleghe), le prospettive post-laurea (ove la situazione
si presenta invertita), l’irregolarità degli studi ed il numero di anni fuori corso.
Le relazioni fra le variabili latenti differiscono in modo quasi insensibile tra i
due sessi, come appurato nel corso della verifica dell’invarianza strutturale.
L’analisi sembra quindi confermare che l’approccio al mercato del lavoro dei
laureati di sesso maschile è molto simile a quello delle laureate, mentre si notano differenze nell’atteggiamento verso la formazione universitaria, in quanto le donne si
dedicano allo studio con più regolarità.
8.
Conclusioni
Il presente lavoro ha cercato di fornire risposte alla domanda su quali possano essere
le variabili, legate al percorso formativo ed alle competenze personali, che maggiormente influenzano tempi e modi di accesso al lavoro da parte dei laureati. I modelli
174
Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione…
stimati in base alle caratteristiche dei laureati dell’Università di Foggia ci hanno
permesso di misurare l’efficacia esterna della formazione universitaria e di studiare,
in termini non monetari, gli effetti delle scelte compiute dai soggetti sulle loro opportunità di inserimento nel mercato del lavoro14.
Poiché, come è noto, la relazione tra formazione e lavoro è molto comples15
sa , abbiamo ritenuto opportuno porre maggiore attenzione al risultato osservato a
livello di singolo studente (grado di apprendimento, capacità di inserimento nel lavoro, ammontare del capitale umano), ossia lo scopo finale a cui tende la didattica universitaria nell’attuale sistema socio-economico (Gori 2003).
In quest’ottica, è particolarmente utile un modello in grado di considerare
contestualmente, grazie ad una opportuna procedura di scaling ottimale, variabili
quantitative, ordinali e categoriali, nonché di analizzare le variabili latenti che influiscono sulla transizione Università-lavoro.
I modelli elaborati, sia quello stimato per l’intero campione sia quelli stimati
per verificarne l’invarianza rispetto al genere, hanno evidenziato la robustezza delle
stime, registrando un buon livello di accostamento, il che ci consente di porre una ragionevole fiducia nell’attendibilità delle nostra analisi e nelle ipotesi proposte.
L’analisi ha posto in luce che la variabile latente più influente sul placement e
sul successo nel mondo lavorativo è l’attività post laurea, che a sua volta dipende dal
percorso formativo-professionale scelto, dal curriculum ed, indirettamente, dal progetto lavorativo.
Risultati che, peraltro, non risultano significativamente differenti fra maschi e
femmine. Ciò non vuol dire, tuttavia, che scelte e vincoli siano esattamente uguali fra
i sessi, ma solo che le relazioni fra loro e le variabili latenti sono del medesimo ordine, e che la struttura mentale che è alla base delle decisioni è simile fra laureati e laureate.
14
Ciò in quanto, nel porre in relazione la professionalità dei laureati con le esigenze del mercato del
lavoro, hanno significato soprattutto “l’ampiezza e la solidità delle competenze della figura professionale formata, l’adattabilità alle situazioni in cui si inserisce, la propensione ad imparare dall’esperienza, la propensione ad evolvere per favorire il passaggio da mansioni realizzative a mansioni dirigenziali” (Fabbris, 2003).
15
Il grado di conoscenza determinato dal processo formativo ed il conseguente incremento di capacità
d’inserimento lavorativo sono “experience goods”, il cui effetto, in genere, è valutabile solo ex-post e
a diversi intervalli temporali (Gori e Vittadini, 1999). I risultati del processo di formazione (ad es.,
qualifica e tipologia di occupazione conseguita), così come le risorse possono essere misurati in quantità monetarie o fisiche (ad es., ore di lezione, numero di laureati ecc.), così da costruire indici di produttività per processi, strutture, risultati, estendendo al caso universitario tecniche aziendalistiche tipiche dei processi industriali (Bini, 1999). Tuttavia, un maggior numero di lezioni, esercitazioni ecc.
non significa necessariamente un maggior livello di apprendimento dello studente ed una migliore
qualificazione del laureato nel mondo del lavoro (Vittadini, 2001).
Modelli statistici per l’analisi della transizione Università-lavoro
175
Riferimenti bibliografici
BINI M. (1999) Valutazione dell’ efficacia dell’ istruzione universitaria rispetto al
mercato del lavoro, Rapporto di Ricerca 3/99, Comitato Nazionale per la Valutazione del Sistema Universitario. MIUR, Roma.
BOLLEN K. A. (1989) Structural Equations with Latent Variables, Wiley & Sons,
New York-Toronto.
BRADLEY R.A., KATTY S.K., COONS I.J., (1962), Optimal scaling for ordered
categories, Psychometrika, 27: 355-374.
BROWNE M. W. (1974) Generalized least-squares estimators in the analysis of covariate structures, South African Statistical Journal, 8: 1-24.
BROWNE M. W., (1984) Asymptotically Distribution-Free Methods for the Analysis Of Covariance Structures, British Journal of Math.Stat.Psychology, 37:
62-83
BYRNE B.M. (2001) Structural equation modeling with AMOS: Basic concepts, applications and programming, Erlbaum, Mahwah, NJ.
ANTONUCCI L., CROCETTA C., MECCARIELLO I. (2002) La popolazione studentesca e l’Università di Foggia, Indagine sulle aspettative degli studenti
dopo la riforma, Uniongrafica Corcelli ed., Bari.
CIVARDI M., ZAVARRONE E. (2000) Il ricorso a modelli invarianti per valutare
la qualità della didattica. In: M. CIVARDI e L. FABBRIS (a cura di), Valutazione della didattica con sistemi computer assisted, CLEUP, Padova:
179-189.
CIVARDI M., ZAVARRONE E. (2002) Modelli strutturali multigruppo per
l’analisi dei tempi di permanenza nel sistema universitario. In: G. PUGGIONI
(a cura di), Modelli e metodi per l’analisi di rischi sociali e sanitari,
CLEUP, Padova: 1-20.
CROCETTA C., D’OVIDIO F. (2003) La valutazione dell’inserimento lavorativo
dei laureati all’Università di Foggia attraverso un’analisi di segmentazione.
In: M. Civardi (a cura di), Transizione Università-Lavoro: la definizione delle competenze, CLEUP, Padova: 111-132.
CROCETTA C., D’OVIDIO F. (2004) La soddisfazione nella transizione Universitàlavoro - Un modello ad equazioni strutturali. In: E. AURELI CUTILLO (a cura
di), Strategie metodologiche per lo studio della transizione UniversitàLavoro, CLEUP, Padova: 159-187.
DE LEEUW J. (1984), Canonical Analysis of categorical data, 2nd ed. DSWO
Press, Leiden (NL).
DE LEEUW J., MEULMAN J.J. (1986). Principal component analysis and restricted
multidimensional scaling. In: W. GAUL & M. SCHADER (Eds.), Classification
as a tool of research, Amsterdam (NL): 83-96.
176
Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione…
DE LEEUW J., VAN RJKEVORSEL J. (1980), Homals e Princals, Some Generalizations of Components Analysis. In: E. DIDAY, Y. ESCOUFIER, L. LEBART,
J. P. PAGES, Y. SCHEKTMAN, R. TOMASSONE (eds.), Data Analysis and Informatics, Amsterdam (NL): 231-241.
DE LEEUW J., YOUNG F.W., TAKANE Y. (1976) Additive Structure in Qualitative Data: an Alternative Least Squares Method with Optimal Scaling Features, Psychometrika, 41: 471-504.
FABBRIS L. (1997) Statistica multivariata. Analisi esplorativa dei dati, McGrawHill, Milano.
FABBRIS L. (2003) Il monitoraggio dell’inserimento occupazionale e professionale
dei laureati e dei diplomati dell’Università di Padova, Quaderno Pharos n.6,
Osservatorio sul Mercato Locale del lavoro, CLEUP, Padova.
GORI E., VITTADINI G. (1999) (a cura di) Qualità e valutazione nei servizi di pubblica utilità, ETAS, Milano.
GORI E. (2003) Quali prospettive dalla ricerca sulla qualità e l’efficacia della scuola
per la costruzione di sistemi di accountability dell’istruzione, Non Profit n. 2,
Maggioli, Rimini.
HOELTER J. W. (1983) The analysis of covariance structures, Sociological Methods
and Research, 11: 325-344.
KLINE R. B. (1998) Principles and practice of structural equation modeling, The
Guilford Press, New York.
KRUSKAL J. B. (1964) Multidimensional scaling by optimizing goodness of fit to a
nonmetric hypothesis, Psichometrika, 29: 1-27.
KRUSKAL J. B. (1965) Analysis of factorial experiments by estimating monotone
trasformations of the data, 1965, Journal of Royal Statistical Society, Series
B, 27: 251-263.
JÖRESKOG K. G. (1973) A general method for estimating a linear structural equation system, in A S. GOLDBERGER AND O. D. DUNCAN, (eds), Structural equation Models in the Social Sciences, Academic Press, New York: 85-112.
JÖRESKOG K. G. (1977) Structural equation models in the social sciences, in P.R.
KRISHNAIAH (ed.), Application of Statistics, Amsterdam (North Holland):
265-287.
JÖRESKOG K. G., GOLDBERGER A. S. (1975) Estimation of a model with multiple indicators and multiple causes of a single latent variable, Journal of the
American Statistical Association, 70: 631-639.
LOVAGLIO P. G. (2000), Modelli con variabili latenti e indicatori di tipo misto, tesi
per Dottorato di Ricerca in Statistica Metodologica, Università degli Studi di
Trento.
MEULMAN J. J., HEISER W. J. (1999). Categories 10.0. SPSS Inc., Chicago.
SÖRBOM D. (1989) Model modification, Psychometrika, 54: 371-384.
Modelli statistici per l’analisi della transizione Università-lavoro
177
VITTADINI G. (1989) Indeterminacy problems in the Lisrel Model, Multivariate
Behavioral Research, vol.24, 4: pp.397-414.
VITTADINI G. (1999), Analysis of Qualitative Variables in Structural Models with
Unique Solutions. In: M. VICHI, O. OPITZ (eds.), Classification and Data
Analysis: Theory and Application, Series Classification Data Analysis and
Knowledge Organization, Springer Verlag, Heidelberg.
VITTADINI G. (2001), Linee guida per la valutazione dell’efficienza esterna della
didattica mediante il Capitale Umano. In: E. AURELI CUTILLO (a cura di),
Strategie metodologiche per lo studio della transizione Università-Lavoro,
CLEUP, Padova: 375-395.
WILEY D.E. (1973) The identification problem for structural equation models with
unmeasured variables, in A.S. GOLDBERGER AND O.D. DUNCAN, (eds), Structural equation Models in the Social Sciences, New York, Academic Press:
69-83.
WRIGHT S. (1934), The methods of Path Coefficients, Annals of Mathematical Statistics, 5: 161-215.
YOUNG F.W., TAKANE Y., DE LEEUW J. (1978) The Principal Component of
Mixed Measurement Level Multivariate Data: an Alternating Leasts Squares
Method with Optimal Scaling Features, Psychometrika, 43: 279-281.
ZAVARRONE E. (2003) Ricerca di fattori latenti per il rischio di abbandono degli
studi universitari. In: L. FABBRIS (a cura di), LAID-OUT scoprire i rischi con
l’analisi di segmentazione, Cleup, Padova: 41-54.
178
Un modello ad equazioni strutturali per analizzare le determinanti dell’occupazione…
A structural equation model to analyse the determinants
of the employment of graduates in the University of Foggia
Summary: The purpose of this study is to investigate the strategies used by graduates of the University of Foggia to enter the labour market. Using both quantitative
and qualitative variables, quantified by means of optimal scaling, a structural equation model has been created to analyse the relations between latent variables tied to
the university experience, preparation, expectations, flexibility, methods of job
searching, etc. Furthermore, we have verified that the correlation structure between
these latent variables remains constant if female and male graduates are considered
separately.
Keywords: Graduates, Labour market, University of Foggia, Factorial analysis,
Structural equation models, Optimal Scaling, CATPCA, LISREL.
La durata della ricerca del primo impiego
è un buon indicatore di efficacia
della formazione universitaria?
Dalit Contini
Dipartimento di Statistica e Matematica Applicata alle Scienze Umane
Università di Torino
Riassunto. L’efficacia esterna della formazione universitaria è frequentemente valutata con riferimento alla durata della ricerca del primo impiego dopo il conseguimento del titolo o alla condizione occupazionale in un momento dato. Obiettivo di questa
nota è evidenziare i limiti dell’impiego di indicatori di efficacia basati sul lavoro tout
court in questo contesto. Il punto di partenza è la specificazione di un semplice modello probabilistico di ricerca del lavoro, fondato sull’ipotesi che gli individui compiano le loro scelte sulla base dell’utilità derivante dalle opzioni alternative. Si dimostra che, se i criteri di scelta differiscono tra laureati, né la velocità di uscita dalla
condizione di ricerca della prima occupazione, né la probabilità di avere un posto di
lavoro al tempo t sono necessariamente più elevate (ceteris paribus) per i laureati
provenienti dai corsi di studio che offrono migliori prospettive lavorative. La velocità
con cui le persone trovano un posto di lavoro che raggiunge uno standard di qualità
dato non dipende, invece, dai comportamenti di chi cerca lavoro, ma solo dalle opportunità. La possibilità concreta di impiego dei diversi indicatori dipende però dalla
natura dei dati.
Parole chiave: transizione università-lavoro, efficacia esterna, modello di scelta del
lavoro, funzione di rischio.
1.
Introduzione
Il processo di integrazione dei giovani nel mondo del lavoro è un problema diffuso a
livello internazionale (OECD, 1998), come testimoniano i tassi di disoccupazione
giovanile persistentemente elevati in molti paesi. La transizione scuola-lavoro costituisce quindi un tema di ricerca al quale è dedicata oggi grande attenzione. In
un’ottica comparata, la valutazione del ruolo assunto dai sistemi scolastici nazionali
nel processo di transizione verso il mondo del lavoro è uno dei filoni di studio più in-
180
La durata della ricerca del primo impiego è un buon indicatore di efficacia...
teressanti in questo ambito (Muller e Shavit, 1998; Van der Velden e Wolbers, 2001;
Iannelli, 2001; Brauns, Gangl e Sherer, 2001). Altri studi sono focalizzati sull’effetto
dei diversi livelli di istruzione e programmi educativi presenti nei singoli paesi
(Nguyen e Taylor, 2003) o sui rendimenti dell’istruzione1 (Angrist e Krueger, 1991;
Harmon e Walzer, 1994; Colussi, 1997; Checchi, 1997).
In una diversa prospettiva, gli esiti occupazionali sono oggetto di studio come
indicatori di efficacia esterna di percorsi scolastici alternativi (Gori, Mealli e Rampichini, 1993; Biggeri, Bini e Grilli, 2001; Rampichini e Petrucci, 2001; Bratti,
McKnight, Naylor e Smith, 2004). Tra gli obiettivi, la costruzione di graduatorie di
efficacia2 di corsi di formazione professionale, scuole, università o specifici corsi di
studio universitari, in relazione alla loro capacità di favorire l’inserimento lavorativo
dei giovani che hanno concluso il percorso formativo.
L’obiettivo ideale dovrebbe essere quello di stimare l’impatto netto della frequenza di un corso rispetto a corsi alternativi3: per questo motivo gli esiti occupazionali sono valutati al netto delle caratteristiche individuali e del contesto economicoambientale4. Il problema (Rossi e Freeman, 1989) è quello di cercare, per quanto
possibile, di tenere sotto controllo i potenziali fattori confondenti. Tra questi, gli effetti dovuti a selezione non casuale, che ha luogo se la propensione a scegliere un
programma di studi piuttosto che un altro dipende da attributi che rendono le persone
di per se stesse più o meno interessanti per i potenziali datori di lavoro, anche in assenza del programma stesso5.
Per valutare l’efficacia esterna della formazione universitaria o scolastica in
generale, diversi autori (Biggeri, Bini e Grilli, 2001; Rampichini e Petrucci, 2001;
Nguyen e Taylor, 2003; Porcu e Tedesco, 2004) impiegano come indicatore la durata
della ricerca della prima occupazione dopo il conseguimento del titolo. Altri studi
(Giommi e Pratesi, 2001; Bratti, McKnight, Naylor e Smith, 2004) sono focalizzati
sulla probabilità di essere occupati in un momento dato successivo alla conclusione
della formazione. Alla base dell’impiego di questi indicatori risiede l’assunto (implicito) che a migliori prospettive occupazionali corrispondano tempi di ingresso nel
mondo del lavoro mediamente più brevi, e quindi una proporzione più elevata di occupati. Come vedremo, il presupposto è però confutabile.
1
L’effetto dell’istruzione sulle retribuzioni.
L’approccio, che ha avuto origine dalla richiesta crescente di accountability delle attività del settore
pubblico, è particolarmente diffuso (ma anche ampiamente criticato) in Gran Bretagna, dove tutte le istituzioni scolastiche di ogni ordine e grado sono sottoposte a valutazione comparativa. I risultati, vere
e proprie graduatorie (league-tables) di performance indicator, sono facilmente accessibili al pubblico
(http://education/guardian.co.uk). Per una interessante analisi critica dell’approccio, si veda Goldstein
e Spiegelhalter (1996).
3
Il riferimento è dunque al concetto di “efficacia relativa”.
4
Il termine “impatto netto” deriva dalla letteratura sulla valutazione delle politiche di matrice econometrica. Nell’ambito della letteratura sulle league table si parla, invece, di “value added” (valore aggiunto).
5
Ovviamente, il problema diventa di più difficile risoluzione se tali caratteristiche sono non osservabili.
2
Modelli statistici per l’analisi della transizione Università-lavoro
181
Con la presente nota ci si pongono i seguenti obiettivi:
(a) Evidenziare i limiti degli esiti occupazionali definiti in relazione al lavoro di per
se stesso come indicatori di efficacia esterna della formazione universitaria.
L’idea si basa su una considerazione molto semplice. Avere un posto di lavoro
significa: (i) che si è presentata una opportunità di lavoro; (ii) che si è scelto di
accettare tale opportunità. Il tempo di attesa al lavoro dipende quindi sia dalla
domanda di lavoro, sia dall’offerta di lavoro, e quindi dall’effettiva disponibilità
dei laureati a ricoprire i ruoli che vengono loro proposti. L’ipotesi è che gli individui prendano le decisioni in relazione al valore dell’utilità del lavoro. A partire
da un semplice modello probabilistico si dimostra che la durata della ricerca della
prima occupazione non è necessariamente più breve (in media) per i laureati con
migliori prospettive lavorative, se questi sono più selettivi degli altri.
(b) Valutare la validità di indicatori di efficacia esterna alternativi, basati su esiti occupazionali definiti in relazione allo svolgimento di una attività lavorativa che
raggiunge un certo standard di qualità.
La possibilità di impiego dei diversi indicatori dipende dalla natura delle informazioni rilevate: in particolare, se si tratta di dati riguardanti il lavoro svolto al
momento dell’intervista, o riferiti invece all’intera storia lavorativa osservata in
un periodo dato.
Il lavoro si svolge come segue.
Nel paragrafo 2 viene presentato il modello sulla base del quale vengono successivamente derivati i risultati che costituiscono l’oggetto di questa nota. Il modello
riproduce un “mondo” caratterizzato da meccanismi operativi molto semplici.
L’obiettivo, si ribadisce, non è quello di proporre una specificazione innovativa dei
processi che regolano a livello micro l’incontro tra domanda/offerta di lavoro, ma
piuttosto quello di mettere in evidenza come i presupposti che sottendono l’impiego
del tempo di attesa del primo lavoro e della probabilità di essere occupati al tempo t
come indicatori di efficacia esterna della formazione universitaria, non siano corretti
in generale. I risultati teorici presentati nei paragrafi 3-5 possono essere visualizzati
per mezzo di batterie di simulazioni nel paragrafo 6. Le storie di lavoro corrispondenti a laureati di corsi di studio diversi sono generate sotto ipotesi alternative conformi al modello proposto. Seguono le conclusioni.
2.
Il modello
Il processo che regola la ricerca di lavoro ha come protagonisti due categorie di attori: il soggetto che cerca impiego e l’insieme dei potenziali datori di lavoro. Questi ultimi scelgono se, e a chi, rendere disponibili i lavori, mentre il primo sceglie se accettare o meno le proposte che riceve. Il modello proposto in questa nota si basa
182
La durata della ricerca del primo impiego è un buon indicatore di efficacia...
sull’idea - mutuata dalla letteratura economica - che le scelte compiute dalle persone
siano basate sul confronto tra i valori assunti dalla funzione di utilità6 corrispondenti
alle differenti opzioni. L’utilità può assumere in questa nota una connotazione molto
generale, discostandosi da quanto tipicamente ipotizzato nei modelli di job-search,
che rinviano al guadagno economico (Eckstein e Wolpin, 1995; Jensen e Westergard-Nielsen, 1987). Il riferimento ideale è alla molteplicità degli aspetti che caratterizzano i lavori: tipo di contratto, coerenza con il titolo di studio, necessità del titolo,
utilizzazione delle competenze acquisite, retribuzione, in sostanziale accordo con il
concetto di qualità del lavoro definito in AlmaLaurea7 (2002).
Il modello è così caratterizzato. Ad ogni offerta di lavoro8 corrisponde un valore della funzione di utilità9. Si suppone che il criterio di valutazione sia lo stesso per
tutti: l’utilità attribuita ad un lavoro non dipende quindi da quale laureato sta formulando il giudizio, ma esclusivamente dalle caratteristiche del lavoro stesso.
L’insieme delle offerte di lavoro che ciascun laureato potenzialmente può ricevere varia invece tra soggetti. L’ipotesi è che per ciascuno soggetto i, si presenti ad
ogni t una e una sola opportunità, con valore di utilità descritto dalla v.c.:
IPOTESI 1
U L i (t ) ∼ g i (u L (t )) = g (u L | x )
dove X è il vettore delle caratteristiche individuali che il potenziale datore di lavoro è
in grado di osservare. Per fissare le idee, X potrebbe indicare il genere, il grado di motivazione o intelligenza del laureato, la classe sociale della famiglia (come proxy delle
reti sociali), il bagaglio di conoscenze/competenze acquisite durante la formazione universitaria (rappresentate dall’area disciplinare e dal particolare corso di studi).
Le U L i (t ) sono variabili casuali i.i.d. al variare di t: qualità e quantità delle
proposte di lavoro non cambiano nel tempo, e non dipendono dalle offerte precedenti
o future10.
6
Il concetto di utilità si basa sull’idea che gli individui traggono soddisfazione dal consumo di beni e
dal tempo libero: l’utilità è una misura di questa soddisfazione (Borjas, 1999). La decisione di lavorare
o non lavorare (e quanto lavorare), dipende dunque dal salario orario e dalle preferenze degli individui
(espresse dalla cosiddetta “curva di indifferenza”). Il livello retributivo al di sotto del quale l’individuo
decide di non lavorare è detto “salario di riserva”.
7
Nell’indagine AlmaLaurea il lavoro viene valutato ex-post, mentre in questo contesto viene valutato
ex-ante, cioè sulla base di quanto esplicitato nella proposta di lavoro.
8
Per “offerta di lavoro” si intende il lavoro che verrebbe offerto al laureato se questi si proponesse
all’azienda, e quindi non necessariamente una proposta di impiego in senso stretto. Diamo qui il medesimo significato anche ai termini “opportunità” e “proposta” di lavoro.
9
Generalizzando la specificazione da manuale, sia U=f(C,L,altre caratteristiche), dove U è l’utilità, C
il consumo e L il tempo libero. Ad ogni posto di lavoro - contraddistinto da un salario e da un orario di
lavoro (quindi da un valore di C ed uno di L ) e dalle altre caratteristiche che vengono valutate dal laureato (tipo di contratto, coerenza con il titolo di studio ecc…) - corrisponde quindi un ben definito valore dell’utilità.
10
Per rendere più agevole l’esposizione, ci si astiene dal considerare esplicitamente la dipendenza dalle
condizioni del mercato del lavoro locale, che induce una dipendenza dal tempo storico (l’ipotesi di di-
Modelli statistici per l’analisi della transizione Università-lavoro
183
L’ipotesi che ad ogni t si presenti una e una sola offerta di lavoro11 non esclude
che le persone possano ricevere proposte con cadenza differente. L’assenza di offerte al tempo t corrisponde all’arrivo di una offerta di utilità nulla, che si può ottenere
imponendo che P(U L (t ) = 0 ) > 0.
Ogni individuo sceglie se accettare o rifiutare una occasione di lavoro in relazione alla soglia uS, il livello di utilità minimo che questi è disposto ad accettare. Il
criterio di scelta è il seguente:
IPOTESI 2
accettare il lavoro se uL ≥ uS
rifiutare il lavoro se uL < uS.
Si suppone che la soglia non si modifichi nel tempo12 (fino all’inizio del primo
episodio lavorativo, come preciseremo più avanti). Detta soglia è descritta dalla v.c.
US , dipendente dalle caratteristiche individuali Z:
IPOTESI
3
U S i ∼ f i (u S ) = f (u S | z )
In linea di principio, i fattori X e Z che influenzano opportunità e scelte sono distinti, in quanto determinati da attori differenti – essendo le opportunità scelte dei potenziali datori di lavoro – (Logan, 1996). E’ però assai plausibile che gli elementi che
caratterizzano tali fattori siano in buona parte gli stessi. Se gli individui si comportano in modo razionale, chi ha buone aspettative di lavoro futuro avrà un comportamento tendenzialmente più selettivo, e viceversa13. Questo può valere, ad esempio,
per soggetti particolarmente abili, o di classe sociale elevata, o per chi ha frequentato
un corso di studi (CdS) che consente l’acquisizione di competenze molto richieste sul
mercato.
La dipendenza di UL e US da fattori comuni comporta che esse siano generalmente correlate (positivamente). Si ipotizza però che:
IPOTESI 4
U L (t ) ⊥ U S | X , Z
stribuzioni identicamente distribuite verrebbe quindi a cadere). Deve essere rilassata anche l’ipotesi di
indipendenza delle UL(t) al variare di t, se le opportunità di lavoro diminuiscono al crescere della durata trascorsa nello stato di disoccupazione, per effetto, ad esempio, della perdita di skills o di indebolimento delle reti sociali.
11
Nei modelli di scelta discreta (Mc Fadden, 1974) e di job-search si fa tipicamente riferimento alla
situazione in cui gli individui devono scegliere tra un insieme di opportunità di lavoro (e la condizione
di non-lavoro o di attesa di un lavoro futuro). Il modello qui presentato può essere ricondotto ad una
circostanza di quel tipo, se si ipotizza che UL(t) rappresenti l’utilità corrispondente alla migliore offerta
che arriva al tempo t.
12
La condizione è troppo restrittiva se, con il passare del tempo senza lavoro, le persone diventano
meno selettive. Ciò potrebbe accadere per effetti di scoraggiamento.
13
Jensen e Westergard-Nielsen (1987) - in un ambiente a razionalità perfetta, in cui la distribuzione
della offerte di lavoro è nota al laureato - derivano il salario di riserva ottimale, che risulta dipendere
esplicitamente dalla distribuzione delle offerte di lavoro. Eckstein e Wolpin (1995), pur osservando
correlazione positiva tra salario di riserva stimato e salario medio delle offerte di lavoro, sostengono
che la relazione di dipendenza non è però teoricamente necessaria.
184
La durata della ricerca del primo impiego è un buon indicatore di efficacia...
cioè che la correlazione sia spuria. La ragione è che le offerte di lavoro non possono
dipendere in senso causale dalla soglia individuale, essendo questa non osservabile
dal potenziale datore di lavoro.
Nell’ottica di valutare l’efficacia esterna dei diversi corsi di studio, è opportuno
precisare il ruolo che questi assumono nella determinazione della soglia e delle opportunità di lavoro. Ipotizziamo che i CdS possano essere ordinati in relazione al
“valore aggiunto” che potenzialmente offrono allo studente in termini di competenze
spendibili sul mercato. Se il corso di studi A è preferibile a B ( A f B ) in questo senso, si assume che, ceteris paribus:
IPOTESI
5
G A (u L ) > G B (u L )
∀u L
IPOTESI
6
F A (u S ) ≥ F B (u S )
∀u S
dove G (u L ) = P(U L ≥ u L ) e F (u S ) = P(U S ≥ u S ) . I CdS “migliori” offrono quindi
migliori prospettive di impiego e inducono comportamenti più selettivi da parte dei
loro laureati.
Si conclude con una precisazione. Sia S l’insieme dei possibili CdS. Siano A e
B due elementi qualsiasi di S, con A preferibile a B nel senso sopra indicato. Sia I un
indicatore di esito occupazionale. Diciamo che I è un indicatore di efficacia esterna
della formazione universitaria valido se, ceteris paribus:
E A ( I ) > E B (I )
E A (I ) < E B (I )
∀A, B ∈ S | A f B
∀A, B ∈ S | A f B
oppure
(1)
Cioè, l’indicatore deve essere sempre in grado di discriminare tra CdS diversi, se uno
dei due è “migliore” dell’altro, dando conto delle differenze in termini di esiti occupazionali.
Se l’indicatore è rappresentato da una durata - ad esempio, la durata della ricerca del primo lavoro dopo la laurea - la (1) diventa:
P A (T = t | T ≥ t ) > P B (T = t | T ≥ t )
(2)
dove T è la durata medesima e P(T = t | T ≥ t ) è la funzione di rischio corrispondente,
con una specificazione in tempo discreto. Se la condizione risulta verificata, la velocità di uscita dalla disoccupazione è superiore per A rispetto a B, e la durata media risulta più breve per il CdS “migliore”.
Se l’indicatore è una v.c. binaria L(t ) , che indica, per esempio, se il soggetto è
occupato al tempo t, la condizione (1) corrisponde alla:
P A (L(t ) = 1) > P B (L(t ) = 1)
cioè, che la probabilità di lavorare al tempo t sia più elevata per A che per B.
(3)
Modelli statistici per l’analisi della transizione Università-lavoro
3.
185
La durata della ricerca del primo impiego
La funzione di rischio di uscita dalla condizione di ricerca del primo lavoro dopo la
laurea per un generico individuo può essere così espressa:
P(T = t | T ≥ t ) = P(U L (t ) ≥ U S | U L (t − 1) < U S ,...U L (1) < U S ) .
(4)
Partendo dal caso particolare in cui l’utilità soglia sia una v.c. degenere (e quindi completamente determinata dalle caratteristiche Z) si ottiene:
P(T = t | T ≥ t ) = P(U L (t ) ≥ u S | U L (t − 1) < u S ,...U L (1) < u S ) = P(U L ≥ u S )
(5)
per l’ipotesi che le utilità delle offerte di lavoro in tempi successivi siano i.i.d. Si può
notare che il rischio rimane costante al crescere della durata della disoccupazione.
Prendiamo ora due soggetti, identici per tutte le altre caratteristiche rilevanti,
che hanno conseguito l’uno la laurea A, l’altro la laurea B. Se A è preferibile a B, per
l’ipotesi 6 si avrà u S A ≥ u S B .
La (2) è verificata se P U L A ≥ u S A > P U L B ≥ u S B , cioè se
G A u S A > G B u S B . Come si evince dalla Fig. 1, però, tenuto conto dell’ipotesi 5 e
in assenza di altre assunzioni, non è possibile dimostrarne la generalità.
( )
(
( )
( )
) (
)
( )
( )
( )
Figura 1. G A u S A > G B u S B oppure G A u S A < G B u S B ?
G L (u )
B
A
u
… possibili valori di usB us
A
Consideriamo ora il caso generale in cui la v.c US sia non degenere. Dalla (4) si
deriva che:
P(T = t | T ≥ t ) =
(6)
∫u S P(U L (t ) ≥ u S | U S
= u S ,U L (1) < U S ,...)P(U S = u S | U L (1) < U S ,...)du S
186
La durata della ricerca del primo impiego è un buon indicatore di efficacia...
Per t=1 si ottiene:
P(T = 1) = P(U L (1) ≥ U S ) = ∫
uS
P(U L (1) ≥ u S | U S = u S )P(U S = u S )du S
P(U L ≥ u S )P(U S = u S )du S .
uS
=∫
(7)
Figura 2. Fattori della funzione integranda nella (7).
A
P(UL ≥ us)
B
uS
PB(US = us)
uS
PA(US = us)
uS
Analizzando separatamente i due fattori della funzione integranda (si veda la
Fig. 2), si osserva che:
- P(U L ≥ u S ) decresce con uS:
per l’ipotesi 5, fissato uS, la probabilità è più elevata per A che per B;
- P(U S = u S ) dà più peso ai valori grandi di uS per A, ai valori piccoli di uS per B,
per l’ipotesi 6.
Anche in questo caso, senza fare altre ipotesi, la (2) non può essere dimostrata.
Infatti: quale somma di prodotti (nel caso discreto) assume valore più grande? Quella
che corrisponde a P A (T = 1) o a P B (T = 1) ? Un ragionamento molto simile si può
fare per il generico valore di t nella (6).
Una precisazione: mentre la (5) descrive una funzione di rischio costante nel
tempo, la (4) sottende un andamento di tipo decrescente. Ciò è dovuto ad un effetto
Modelli statistici per l’analisi della transizione Università-lavoro
187
di selezione: al crescere della durata nella disoccupazione, l’insieme dei soggetti a rischio di uscita dalla condizione di ricerca di lavoro è composto progressivamente da
persone più esigenti, che hanno, a parità di prospettive di lavoro, tempi medi di attesa
più lunghi. In questo senso, US è una componente di eterogeneità non osservata. Se
US fosse noto, potremmo ragionare dato US:
P(T = t | T ≥ t ,U S = u S ) = P (U L (t ) ≥ u S | U L (t − 1) < u S ,...U L (1) ≥ u S ,U S ) =
= P(U L (t ) ≥ u S | U S ) = P(U L ≥ u S | U S )
nel qual caso la funzione tornerebbe ad essere indipendente da t. La conoscenza di US
elimina quindi l’effetto di dipendenza spuria dalla durata, ma non sposta i termini del
problema: la (2) resta ancora non dimostrabile.
In conclusione, non esiste un legame di dipendenza necessario tra qualità della
formazione e tempo di ingresso nel mondo del lavoro. La durata della ricerca del
primo impiego non è quindi un valido indicatore di efficacia esterna, nel senso indicato nel par. 2.
4.
Probabilità di lavorare al tempo t
Il modello descritto nel paragrafo 2 specifica come ha inizio il primo episodio lavorativo dopo la laurea, ma non formula assunzioni sulla sua durata, né su come possono
avere inizio eventuali periodi di occupazione successivi. La condizione occupazionale al tempo t dipende però anche da questi fattori.
Data l’esigenza di mantenere basso il livello di complessità del modello - e limitatamente a questo paragrafo - si formula la seguente ipotesi aggiuntiva14:
IPOTESI
7
Il primo episodio lavorativo ha durata minima pari a t
In questo quadro, il laureato risulta occupato al tempo t se entro tale data gli
viene proposto almeno un lavoro con utilità superiore alla propria soglia di accettazione. Si ha quindi:
P (L (t ) = 1) = P{max [U L (1),U L (2 )...U L (t )] ≥ U S } =
=
∫ P{max [U L (1),U L (2 )...U L (t )] ≥ u S | U S
uS
= 1−
= u S }P (U S = u S )du S =
∫ [P (U L (1) < u S )P (U L (2 ) < u S )...P (U L (t ) < u S )]P (U S
= u S )du S =
uS
14
L’ipotesi, poco realistica in una realtà in cui il lavoro a tempo determinato è sempre più diffuso, ha
l’effetto di produrre una sovrastima della P(L(t ) = 1) , in particolare per il CdS B.
188
La durata della ricerca del primo impiego è un buon indicatore di efficacia...
∫ [P (U L < u S )] P (U S
t
= 1−
= u S )du S
uS
La validità della (3) non può essere dimostrata. L’argomentazione è del tutto
simile quella addotta con riferimento alla (7), per la durata della ricerca del primo lavoro.
5.
Indicatori basati sul lavoro di qualità
Come abbiamo visto, gli indicatori basati sulla presenza di un lavoro tout-court non
sono validi indicatori di efficacia esterna della formazione universitaria, nel senso
descritto nel paragrafo 2, perché a corsi di studio che offrono prospettive di impiego
migliori non corrispondono sempre valori più favorevoli dell’indicatore medesimo.
Ciò accade perché i comportamenti possono variare tra soggetti (di fronte ad una
nuova opportunità di impiego, laureati diversi possono effettuare scelte diverse).
L’impatto dei comportamenti individuali si attenua se si considerano indicatori
basati sullo svolgimento di un lavoro che raggiunge determinati standard di qualità.
Tali standard possono essere definiti con riferimento alle stesse dimensioni impiegate
per connotare il concetto di utilità: tipo di contratto, retribuzione, coerenza con la
formazione universitaria, necessità del titolo di studio, grado di impiego delle competenze acquisite. Un “buon lavoro” o “lavoro di qualità” è quindi un lavoro che raggiunge un livello minimo di utilità prefissato. Denotiamo questo valore con u0.
Per valutare la dipendenza tra formazione universitaria e durata della ricerca di
un lavoro di qualità, è necessario aggiungere due ipotesi a quelle formulate nel par. 2:
IPOTESI
8
u S i ≤ u0
∀i
secondo cui tutti i laureati sono disposti ad accettare i lavori che raggiungono lo standard.
IPOTESI 9
Quando il laureato i-esimo trova un impiego, u S i si modifica
e prende il valore dell’utilità del lavoro in corso.
Ciò significa che, se messe di fronte ad opportunità con utilità superiore a quella del
lavoro in corso, le persone cambiano lavoro15.
In questo quadro, indicando con TQ il tempo al primo lavoro di qualità, si ha
che:
15
Ipotizzando che non vi siano costi di passaggio da un lavoro ad un altro.
Modelli statistici per l’analisi della transizione Università-lavoro
(
189
)
P TQ = t | TQ ≥ t = P(U L (t ) ≥ u 0 | U L (t − 1) < u 0 ,...U L (1) < u 0 ) = P(U L ≥ u 0 )
essendo le U L (t ) i.i.d. per ipotesi. La velocità con cui le persone trovano un buon lavoro, pertanto, varia solo in relazione alle opportunità di lavoro, e non ai criteri di scelta individuali. Quindi, se A è un CdS “migliore” di B, G A (u 0 ) > G B (u 0 ) per l’ipotesi
5, e il tempo di attesa per A sarà quindi mediamente più breve di quello per B. La durata della ricerca del lavoro che raggiunge un certo standard di qualità si presta dunque
bene per la valutazione dell’efficacia esterna dei singoli percorsi di studio16.
Consideriamo ora la probabilità di svolgere un lavoro di qualità al tempo t. Sia
LQ (t ) la v.c. che assume valore 1 in caso favorevole e 0 altrimenti. Si vuole verificare se è vero che:
(
) (
)
P LQ A (t ) = 1 ≥ P LQ B (t ) = 1
(8)
Un laureato svolgerà un buon lavoro al tempo t se entro tale data gli arriva una
offerta di lavoro con utilità superiore ad u0. Quindi:
(
)
P LQ (t ) = 1 = P{max [U L (1),U L (2 )...U L (t )] ≥ u 0 }
= 1 − [P (U L (1) < u 0 )P (U L (2 ) < u 0 )...P (U L (t ) < u 0 )]
= 1 − [P (U L < u 0 )]t = 1 − [1 − G (u 0 )]t
Per l’ipotesi 5, G A (u 0 ) > G B (u 0 ) . La (8) risulta dunque verificata.
6.
Simulazioni
I risultati teorici descritti nei par. 3-5 possono essere visualizzati effettuando delle
simulazioni. Sulla base del modello delineato nel paragrafo 2, sotto varie specificazioni delle distribuzioni di U S A , U S B , U L A (t ) e U L B (t ) - che definiscono le varie
“situazioni”- sono generate le “storie di lavoro” di 1000 individui. Tali situazioni
sono descritte in Tab.1.
16
Considerazioni analoghe valgono anche per lo studio della transizione dalla condizione di ricerca di
lavoro al lavoro di qualità, nell’ottica dei modelli competing risks, nei quali l’oggetto di analisi è dato
dalla probabilità di trovare un primo lavoro di qualità al tempo t, data la sopravvivenza fino a t:
P(T = t , destinazione = lavoro di qualità | T ≥ t ) .
190
La durata della ricerca del primo impiego è un buon indicatore di efficacia...
Tabella 1. Situazioni simulate: ipotesi distributive; 1000 simulazioni per situazione;
u0=3.
USA
USB
ULA
situazione 1
Uniform(2,3)
Uniform(2,3)
Uniform(0,4)
0
con p = 0.25


(
)
Uniform
0
,
3
.
2
altrimenti

situazione 2
Uniform(2,3)
Uniform(1,2)
Uniform(0,4)
0
con p = 0.25


Uniform(0,3.2) altrimenti
situazione 3
Uniform(2,3)
Uniform(1.5,2.5) Uniform(0,4)
0
con p = 0.25


(
)
Uniform
0
,
3
.
2
altrimenti

situazione 4
Uniform(2,3)
situazione 5
Uniform(2,3)
situazione 6
Uniform(2,3)
Uniform(1,2)
Uniform(0,4)
0
con p = 0.25


(
)
Uniform
0
,
4
altrimenti

situazione 7
Uniform(2,3)
Uniform(1,2)
Uniform(0,4)
0
con p = 0.50


Uniform(0,4) altrimenti
Uniform(1,2)
ULB
Uniform(0,3.5 
0
con p = 0.25

Uniform(0,3.2) altrimenti
Uniform(1,5,2.5) Uniform(0,3.5 
0
con p = 0.25

Uniform(0,3.2) altrimenti
Nota. Il CdS A è sempre preferibile a B. Nella situazione 1, le differenze tra A e B riguardano
le opportunità di lavoro, ma non il criterio di scelta; nelle situazioni 2-7, entrambi gli aspetti.
Durata della ricerca del primo impiego
I tempi medi di attesa risultano (Tab. 2), a seconda delle situazioni, superiori
per A o per B. La differenza è nettamente a favore di A solo nella prima situazione,
corrispondente al caso in cui il CdS non ha effetto sui criteri di scelta dei laureati.
Negli altri casi le differenze sono più contenute.
Tabella 2. Durata della ricerca del primo lavoro: statistiche descrittive.
MEDIA
situazione 1
situazione 2
situazione 3
situazione 4
situazione 5
situazione 6
situazione 7
A
2.85
2.83
2.88
3.86
4.13
2.71
2.95
B
7.62
2.56
3.65
2.51
3.84
2.17
3.18
S.Q.M.
MEDIANA
A
2
2
2
2
3
2
2
B
5
2
3
2
3
2
2
A
2.4
2.5
2.4
4.1
4.7
2.2
2.6
B
9.1
2.0
3.3
2.1
3.6
1.7
2.4
Modelli statistici per l’analisi della transizione Università-lavoro
191
Durata della ricerca del lavoro di qualità
Le differenze tra CdS appaiono qui molto più evidenti. In tutti i casi presi in
considerazione, i tempi medi corrispondenti ad A sono nettamente inferiori a quelli di
B. Ciò accade anche nelle situazioni 2, 4, 5, 6, dove la relazione non valeva per il
tempo di attesa al primo lavoro.
Tabella 3. Durata della ricerca del lavoro di qualità: statistiche descrittive.
MEDIA
MEDIANA
S.Q.M.
A
B
A
B
A
B
4.0
21.1
3
15
3.5
20.0
situazioni 1-3
6.8
22.2
5
17
6.5
20.6
situazioni 4-5
4.1
5.4
3
4
3.6
4.9
situazione 6
3.8
7.7
3
6
3.3
7.6
situazione 7
Probabilità di lavorare al tempo t
La percentuale di soggetti occupati 6 unità di tempo dopo il conseguimento della laurea non appare uniformemente più alta per il A rispetto a B, in accordo con
quanto derivato nel paragrafo 4. Anche qui – come per la durata della ricerca del primo lavoro - la differenza è fortemente a favore di A solo nella situazione 1.
Tabella 4. Probabilità di lavorare sei unità di tempo dopo la laurea
% CHE LAVORA DOPO SEI UNITÀ DI TEMPO
A
B
92.6
60.6
situazione 1
93.4
93.8
situazione 2
94.6
84.5
situazione 3
83.4
94.2
situazione 4
83.7
85.2
situazione 5
92.8
97.8
situazione 6
92.4
89.5
situazione 7
Probabilità di svolgere un lavoro di qualità al tempo t
Conformemente ai risultati teorici, in tutte le situazioni prese in esame la percentuale di laureati che svolge un lavoro di qualità al tempo t=6 è sensibilmente più
elevata tra coloro che hanno conseguito una laurea di tipo A.
192
La durata della ricerca del primo impiego è un buon indicatore di efficacia...
Tabella 5. Probabilità di svolgere un lavoro di qualità sei unità di tempo dopo la
laurea.
% CHE HA UN LAVORO DI QUALITÀ DOPO SEI UNITÀ DI TEMPO
A
B
81.3
22.2
situazioni 1-3
59.6
23.6
situazioni 4-5
81.7
67.7
situazione 6
80.9
55.8
situazione 7
7. Considerazioni conclusive
Se dal punto di vista teorico la superiorità degli indicatori basati sul lavoro che raggiunge uno standard di qualità rispetto a quelli che fanno riferimento allo svolgimento di un lavoro qualunque è stata evidenziata, rimane il fatto che il fabbisogno
informativo corrispondente ai diversi indicatori è assai diverso (Tab. 6).
La durata della ricerca del lavoro di qualità è l’indicatore più esigente sotto
questo profilo. Esso richiede dati di tipo event history (Fig. 3), che riguardano la
scansione temporale di tutti gli episodi di occupazione e le caratteristiche dei lavori
Tabella 6. Fabbisogno informativo di indicatori di efficacia esterna
INDICATORE
FABBISOGNO INFORMATIVO
Probabilità di lavorare al tempo t
Condizione occupazionale al momento
dell’intervista.
Durata della ricerca del primo lavoro
(Momento di inizio della ricerca di lavoro).
Momento di inizio del primo episodio di lavoro.
Probabilità di svolgere un lavoro di Condizione occupazionale al momento
qualità al tempo t
dell’intervista.
Caratteristiche del lavoro svolto.
Durata della ricerca del lavoro
di qualità
Inizio e fine di tutti i lavori svolti.
Caratteristiche di tutti i lavori svolti.
Modelli statistici per l’analisi della transizione Università-lavoro
193
che si susseguono nel periodo di osservazione. Disporre di questo tipo di informazioni è tanto più importante considerato il ruolo assunto dai contratti atipici e la perdita
di importanza del “posto fisso” conseguente alle profonde trasformazioni che hanno
investito il mercato del lavoro negli ultimi anni.
Le indagini sul lavoro dei laureati più consolidate in Italia, condotte dall’ISTAT
e dal Consorzio AlmaLaurea, non sono però predisposte per questo tipo di rilevazione17. La valutazione della velocità del conseguimento di un buon lavoro appare dunque per il momento di difficile realizzazione su ampia scala.
Tali indagini prevedono, invece, la raccolta di informazioni dettagliate sul lavoro svolto al momento dell’intervista, consentendo di valutare (almeno in via approssimativa) la qualità del lavoro stesso. Da quanto si è detto, in assenza di dati sul tempo di attesa del lavoro di qualità, anziché ripiegare sulla durata della ricerca del primo impiego, appare assai più conveniente valutare l’efficacia esterna dei diversi percorsi formativi con riferimento alla probabilità di svolgere un lavoro di qualità al
tempo t.
Figura 3. La valutazione del tempo al lavoro di qualità richiede dati event history.
Università
lavoro qualità
lavoro qualità
bassa
lavoro qualità
tempo al lavoro di qualità
17
Nell’indagine condotta da AlmaLaurea viene rilevato il tempo di attesa al primo lavoro (non le sue
caratteristiche).
194
La durata della ricerca del primo impiego è un buon indicatore di efficacia...
Riferimenti bibliografici
ALMALAUREA (2002) Condizione occupazionale dei laureati. Indagine 2001.
ANGRIST J., KRUEGER, A. (1991) Does compulsory attendance affect schooling
and earnings? Quarterly Journal of Economics, vol 106, n. 4: 979-1014.
BIGGERI L., BINI M., GRILLI L. (2001) The transition from university to work: a
multilevel approach to the analysis of the time to obtain the first job, J.R.S.S. A,
164, Part 2: 293-305.
BORJAS G. J. (1999) Labor Economics, McGraw Hill.
BRATTI M., MC KNIGHT A., NAYLOR R., SMITH J. (2004) Higher education
outcomes, graduate employment and university performance indicators,
J.R.S.S. A, 167, Part 3: 475-496.
BRAUNS H., GANGL M., SHERER S. (2001) Education and unemployment: patterns of labour market entry in France, the United Kingdom and West Germany. TSER Project: Comparative Analysis of Transitions from Education to
Work in Europe, http://www.mzes.uni-mannheim.de/projekte/catewe.
CHECCHI D. (1997) La diseguaglianza. Istruzione e mercato del lavoro, Laterza,
Bari.
COLUSSI A. (1997) Il tasso di rendimento dell’istruzione in Italia. In ROSSI N. (a cura di) L’istruzione in Italia: solo un pezzo di carta? Il Mulino, Bologna: 255-275.
ECKSTEIN Z., WOLPIN K. I. (1995) Duration to first job and the return to schooling: estimates from a search matching model, Review of Economic Studies, Vol.
62, n. 2: 263-286.
GIOMMI A., PRATESI M. (2001) Speranza differenziale di occupazione dei laureati
e dei diplomati di scuola superiore a Firenze. In: FABBRIS L. (a cura di) Captor 2000: Qualità della didattica e sistemi computer-assisted, CLEUP, Padova:
273-284.
GOLDSTEIN H., SPIEGELHALTER D. J. (1996) League tables and their limitations: statistical issues in comparisons of institutional performance, J.R.S.S. A,
159, Part 3: 385-443.
GORI E., MEALLI F., RAMPICHINI C. (1993) Indicatori di efficienza ed efficacia
per la valutazione dell’attività di formazione professionale, Statistica, n. 3: 501533.
HARMON C., WALKER I. (1995) Estimates of the economic returns to schooling,
American Economic Review, vol. 85, n. 5: 1278-1286.
IANNELLI C. (2001) School effects on youth transitions in Ireland, Scotland and the
Netherlands. TSER Project: Comparative Analysis of Transitions from Education to Work in Europe, http://www.mzes.uni-mannheim.de/projekte/catewe.
ISTAT (2004) I laureati e lo studio. Inserimento professionale dei laureati. Indagine
2001. Collana Informazioni, n. 8-2004, Roma.
Modelli statistici per l’analisi della transizione Università-lavoro
195
JENSEN P., WESTERGARD-NIELSEN N. C. (1987) A search model applied to the
transition from education to work, Review of Economic Studies: 461-472.
LOGAN J. A. (1996) Opportunity and choice in socially structured labor markets,
American Journal of Sociology, Vol 102, n. 1: 114-160.
MCFADDEN D. (1974) The measurement of urban travel demand, Journal of Public
Economics, 3: 303-328.
MULLER W., SHAVIT Y. (1998) The institutional embeddedness of the stratification process. In SHAVIT Y., MULLER W. (eds) From school to work: A comparative study of educational qualifications and occupational destinations,
Clarendon Press, Oxford.
NGUYEN A. N., TAYLOR J. (2003) Transition from school to first job: the influence of educational attainment, Lancaster University Management School,
Working Paper 2003/009
OECD (1998) Employment Outlook, OECD, Paris.
PORCU M., TEDESCO N. (2004) Dall’Università al lavoro: analisi dei tempi di passaggio dei laureati dell’Ateneo di Cagliari. In: AURELI-CUTILLO E. (a cura
di) Strategie metodologiche per lo studio della transizione Università-lavoro,
CLEUP, Padova: 281-296.
RAMPICHINI C., PETRUCCI A. (2001) La ricerca della prima occupazione: un
modello di durata per i laureati dell’Ateneo fiorentino. In: FABBRIS L. (a cura
di) Captor 2000: Qualità della didattica e sistemi computer-assisted, CLEUP,
Padova: 257-272.
ROSSI P. H., FREEMAN H. E. (1989) Evaluation. A systematic approach, Sage
Publications, USA.
VAN DER VELDEN R. K. W., WOLBERS M. H. J. (2001) The integration of young
people in the labour market within the European Union: the role of institutional
settings. TSER Project: Comparative Analysis of Transitions from Education to
Work in Europe, http://www.mzes.uni-mannheim.de/projekte/catewe.
196
La durata della ricerca del primo impiego è un buon indicatore di efficacia...
Is duration to first job a valid measure
of performance of university programs?
Summary. Evaluation of the external efficacy of university educational programs is
frequently carried out with respect to duration to first job, or to the working status at
a given time after graduation. Aim of this paper is to show that labour-market outcomes related to having a job (any job) are not valid measures of the relative impact
of different programs. A very simple job-search model is developed. Graduates decide whether to accept a job offer with respect to the utility of the different options. If
people differ in the choice criteria, it can be shown that neither the rate of exit from
unemployment, nor the probability to be employed at time t are bound to be higher
for people coming from “the best” university programs. However, taking into account the features of occupational destinations, duration of search of a “good job”
does not depend on individual behaviour, but only on working opportunities. The
real possibility to use specific outcome measures depends on the nature of the data as
well.
Keywords: transition from university to work, external effectiveness, job-search
model, hazard function.
Determinanti dell’inserimento professionale
dei laureati. Analisi delle interazioni
Mariano Porcu, Giuseppe Puggioni, Nicola Tedesco1
Dipartimento di Ricerche Economiche e Sociali - Università degli Studi di Cagliari
Riassunto: Negli studi sull’inserimento professionale dei laureati risulta oggetto di
interesse la definizione di un insieme di predittori dell’evento dicotomico lavorare/non lavorare. È del tutto evidente che i predittori esercitano la loro azione sulla variabile risposta non solo singolarmente ma interagendo fra essi. Con il presente lavoro ci si propone di studiare queste azioni congiunte attraverso l’applicazione di una
tecnica di analisi di recente introduzione (Boolean logit) supportando la stessa con
analisi esplorative basate su segmentazioni binarie.
Parole chiave: Inserimento professionale, determinanti, segmentazione, Boolean regression, logit.
1.
Premessa
La ricerca delle determinanti che influiscono sul conseguimento di un’occupazione
da parte dei laureati è uno dei temi più importanti affrontati in sede di valutazione
dell’efficacia del sistema di formazione universitario; esso è stato studiato da diversi
autori e secondo differenti approcci metodologici (Chiandotto, 2004; CivardiZavarrone, 2004). Fra questi, di un certo rilievo per la loro diffusione e la loro valenza esplicativa, sono quelli basati sulle relazioni di dipendenza causale di tipo logit.
L’evento lavorare/non-lavorare può essere considerato, quindi, come una variabile
risposta binaria il cui valore dipende da un insieme di variabili predittrici
y = f ( x1 , K , x p ) .
I predittori influiscono sulla risposta singolarmente, in maniera congiunta e
combinandosi fra loro e secondo i loro diversi livelli. Tale azione sulla risposta prospetta un quadro di analisi riconducibile a quelle che sono le categorie concettuali
1
Il presente lavoro è stato finanziato nell’ambito del progetto “La ricerca di determinanti del rischio
mediante analisi di segmentazione di campioni”, cofinanziato dal MIUR. Coordinatore nazionale è
Luigi Fabbris, coordinatore del gruppo di Cagliari è Giuseppe Puggioni. Il lavoro è opera comune degli autori. In particolare si possono attribuire a M. Porcu i parr. 1, 2, 5 e 6, a G. Puggioni il par. 3 e a
N. Tedesco il par. 4.
198
Determinanti dell’inserimento professionale dei laureati. Analisi delle interazioni
della causazione complessa. “Concrete definitions of causal complexity are difficult
to come by, perhaps because the concept is so slippery”. In sostanza, “multiple
causes interact with one other and the way in which they interact is described by the
logical operators and and or” (Braumoeller, 2003).
Come è noto sono diversi i concetti che possono essere compresi come esempi di causazione complessa:
• X1 and X2 and X3 causano Y (causazione congiunta multipla);
• X1 or X2 or X3 causano Y (sostituibilità);
• X2 causa Y ma solo in presenza di X1 (contestualità);
• X1 and X2 causano Y, X1 or X2 causano Y (condizioni necessarie e sufficienti);
• (X1 and X2) or (X3 and X4) causano Y (condizioni INUS2).
I meccanismi di causazione complessa sono problematici per la maggior parte
delle tecniche statistiche standard. Essi, infatti, implicano delle forme di non addittività che provengono dal processo cumulativo dell’influenza delle variabili indipendenti sulla variabile dipendente. Da un punto di vista applicativo sorge, quindi, il
problema di come fare per catturare con i metodi statistici le implicazioni causali
complesse o multiple. In questo campo le proposte metodologiche sono molteplici ed
è costante l’attenzione che viene dedicata al problema (Frosini, 2004). Anche facendo riferimento all’evento dicotomico lavorare/non-lavorare, si può osservare come
in numerosi studi si sia asserito che l’evento è l’esito di un rapporto di causazione
complessa o di percorsi causali multipli (Granovetter, 1974; Reyneri, 2002).
2.
Modellare l’interazione
Il noto modello di regressione logistica viene frequentemente impiegato per modellare la probabilità di un particolare evento come funzione di un insieme di variabili esplicative. L’influenza delle esplicative sulla variabile risposta viene considerata lineare su una scala logit
log(π / (1 − π )) = β 0 + β 1 X 1 + β 2 X 2
Per tenere conto dei possibili effetti congiunti esercitati dai predittori si inseriscono dei termini aggiuntivi riferiti al prodotto fra le covariate prese in esame (Hosmer e Lemeshow, 1989)
log(π / (1 − π )) = β 0 + β 1 X 1 + β 2 X 2 + β 3 {X 1 × X 2 } .
2
L’acronimo INUS è stato creato da Mackie (Braumoeller, 2003) come definizione di un particolare
tipo di relazione causale, riferendosi a “an insufficient but necessary part of a condition which is itself
unnecessary but sufficient for the result”.
Modelli statistici per l’analisi della transizione Università-lavoro
199
Questo modo di precedere obbliga il ricercatore a mantenere le interazioni fra
variabili ad un livello piuttosto elementare, al massimo si considerano interazioni del
primo o del secondo ordine sia per ragioni tecniche (sparsità dei dati, potenza dei
test) che teoriche (il principio di parsimonia). Come conseguenza, si inseririscono nel
modello solo gli effetti principali nonostante siano gli effetti di interazione che dovrebbero essere più utili ai fini predittivi o per isolare gruppi di osservazioni, soprattutto in contesti applicativi quali quelli delle indagini in ambito sociale.
2.1
Il Boolean logit
Un metodo che tiene conto delle relazioni di complessità causale è il “Boolean logit”
proposto da Braumoeller (2003). Tale metodo consente di stimare l’influenza sulla
variabile Y esercitata dall’interazione fra le variabili indipendenti del modello. Viene
postulato che la risposta binaria Y sia prodotta da una combinazione Booleana o logica di alcune condizioni A1, …, Ak, …, del tipo, ad esempio:
A1 and (A2 or A3) → Pr(Y=1) = π = Pr(A1)×Pr(A2 ∪ A3)
la probabilità che si verifichi ciascuna condizione
Pr(AK) = pk
viene espressa per mezzo di un modello logit o probit (Braumoeller 2003):
exp( β k X )
pk =
1 + exp( β k X )
dove k sta ad indicare che ogni “condizione” dipende dalle sue variabili esplicative X
= {Xj} attraverso i parametri βk ad esse associati. La stessa Xj può essere inserita in
diversi pk senza indurre multicollinearità nel modello (ovviamente, se la “condizione” è solo una il Boolean logit si riduce allo standard logit). Il Boolean logit trova
impiego nella soluzione di problemi statistici di stima in presenza di situazioni di
complessità causale. Il ricercatore deve postulare un modello di causazione per π;
quindi, π viene espressa come funzione di un insieme di variabili esplicative e relativi parametri attraverso le diverse probabilità pk. Ad esempio, se si è assunto che
π = Pr(A1)×Pr(A2)
logit ( p1 ) = x1,β1 e logit ( p 2 ) = x ,2 β 2
il modello assumerà la forma
πi = p1i × p2i
e la verosimiglianza ad esso associata sarà:
n
Lik (β 1 , β 2 ) = ∏ ( p1i × p2 i ) i (1 − p1i × p 2 i )
i =1
y
1− y i
200
Determinanti dell’inserimento professionale dei laureati. Analisi delle interazioni
Quindi, una volta che l’esito di un evento viene “spiegato” nel linguaggio della causazione complessa, le ipotesi conseguenti potranno essere espresse in termini di calcolo probabilistico3.
3.
I dati
I dati analizzati provengono da un’indagine CATI realizzata nel novembre del 2003
dall’Università degli Studi di Cagliari. Sono stati intervistati 1.112 laureati
dell’Ateneo che hanno conseguito il loro titolo negli anni 1999 e 2000. Al termine
dell’indagine gli intervistati sono stati classificati rispetto al loro status occupazionale come occupati (823), disoccupati (108), ancora impegnati nella formazione (137),
in cerca di prima occupazione (42) e inoccupati (2). L’insieme degli occupati è stato
poi distinto in due sotto-gruppi, quello di chi ha iniziato a lavorare dopo la laurea
(756) e di chi aveva già un’occupazione prima della laurea (67). Il totale degli intervistati che non lavorano (disoccupati + in cerca di prima occupazione) è di 150.
Per le finalità del presente lavoro si è deciso di fissare i seguenti criteri di eleggibilità:
condizione professionale di:
• occupato;
• disoccupato o in cerca di prima occupazione;
per gli occupati:
• aver iniziato a lavorare dopo il conseguimento della laurea;
• non aver impiegato più di 36 mesi per trovare l’impiego.
Sulla base di questi criteri, per le successive analisi in cui verranno studiati i predittori dell’evento “Y” lavorare/non-lavorare, sono state prese in considerazione 837
osservazioni delle quali 687 riferite ad occupati (Y=1) e 150 a non occupati (Y=0).
Nell’indagine, sono state raccolte numerose informazioni sulle caratteristiche
demo-sociali degli intervistati e sono state registrate le loro valutazioni sui percorsi
formativi e sulle eventuali esperienze lavorative e i relativi tempi di inserimento
(Porcu-Tedesco, 2004; Porcu-Puggioni, 2004). Con riferimento a queste informazioni sono state condotte delle analisi esplorative che hanno portato ad isolare un insieme di variabili da noi ritenute particolarmente informative ai fini di questo lavoro:
•sesso
•età alla laurea
•tipo di diploma
•voto di laurea
•voto di diploma
•frequenza corsi post-lauream
•tipo di laurea4
•scolarità dei genitori.
3
Un metodo alternativo per modellare l’interazione fra le variabili, anch’esso di recente proposta, è
quello della Logic Regression (Ruczinski et al., 2003).
Modelli statistici per l’analisi della transizione Università-lavoro
201
Tabella 1. Misure di associazione per coppie delle variabili considerate
Variabili
Sesso
Voto di diploma1
Tipo di diploma2
Tipo di laurea3
Voto di laurea4
Età alla laurea5
Corsi post-lauream6
Anni scuola genitori7
1
0,547
0,194
17,443
148,988
10,197
11,956
16,079
Voto di Tipo di Tipo di
diploma diploma laurea
6,302
28,901
40,538
14,652
0,534
0,675
7,979
1,338
6,197
3,163
27,888
6,629
69,207
4,059
0,013
Voto di
laurea
14,660
18,758
21,263
Età alla Corsi postlaurea
lauream
3,408
9,617
0,013
2
≤ 90/100, > 90/100;
Liceo classico e scientifico, altro tipo di scuola secondaria;
Corso di laurea scientifico, altro tipo di facoltà; 4< 108/110 , > 108/110; 5 ≤ 26 anni, > 26 anni;
6
7
Frequenza, non frequenza;
< 26 anni di scuola, ≥ 26 anni di scuola.
Numero di osservazioni valide 837 per tutti i caratteri e 815 per il carattere “Anni di scuola dei genitori”
3
Nelle successive analisi verrà esclusa la variabile “scolarità dei genitori” in
quanto il suo impiego isolato (ad esempio, dalla professione) appare, allo stato delle
nostre ricerche, non assumere adeguatamente il ruolo di proxy dell’estrazione socioeconomica del laureato.
Nella Tabella 1, nella quale le variabili sono state dicotomizzate per motivi di
coerenza con le applicazioni che verranno di seguito presentate, sono riportate alcune
misure relative ai legami associativi fra le coppie di variabili considerate. Dall’esame
dei valori ottenuti della statistica X2 emerge, con tutta evidenza, che si è di fronte a
relazioni funzionali complesse, per cui un simile approccio può fornire solo delle indicazioni di massima. In altri termini, pur prendendo atto della significatività statistica di alcune associazioni, da tali risultanze non è possibile cogliere le eventuali
interrelazioni che possono esistere fra le diverse variabili in quanto ciascuna
associazione così osservata non tiene conto dei valori assunti dalle restanti.
4.
La scelta dei gruppi di variabili per lo studio delle interazioni
Il problema della scelta dei criteri con cui formare gruppi di predittori per costruire il
modello di regressione Booleano rappresenta, verosimilmente, l’aspetto “debole” di
questa metodologia. Evidentemente, una buona scelta di raggruppamento può essere
realizzata sulla base di convinzioni od opinioni del ricercatore, basate sulla propria
4
Le tipologie di laurea sono state classificate nel modo seguente: Gruppo Economico-GiuridicoSociale (EGS): Economia, Giurisprudenza e Scienze Politiche. Gruppo Scientifico-Tecnico (SCT):
Ingegneria, Fisica, Matematica, Chimica e Geologia. Gruppo Scienze della Vita-Salute (SVS): Medicina, Biologia, Scienze Naturali, Farmacia. Gruppo Umanistico-Educazione-Comportamento (UEC):
Lettere, Lingue e Scienze della Formazione (Pedagogia e Psicologia).
202
Determinanti dell’inserimento professionale dei laureati. Analisi delle interazioni
esperienza nei riguardi dell’oggetto della ricerca. Tuttavia l’indeterminatezza o la
soggettività di questo approccio rischia di indebolire il modello finale. Inoltre, i modelli booleani sono particolarmente avidi di risorse computazionali, per cui calcolare
numerosi modelli per poi confrontarli potrebbe richiedere un tempo eccessivo.
La proposta che si fa in questo lavoro è di operare la scelta dei gruppi di predittori seguendo i risultati di una procedura di analisi esplorativa dei dati basata sulla
segmentazione binaria che, come è noto, è in grado di fornire informazioni
sull’importanza dell’influenza sulla variabile risposta esercitata dai diversi predittori
e sull’esistenza di eventuali interazioni tra essi. Anche in questo caso, tuttavia, i risultati che si possono ottenere varieranno in funzione del tipo di segmentazione scelto (in particolare il tipo di funzione criterio adottata), ma si ritiene che la scelta di un
metodo di segmentazione binario basato sulla funzione criterio del rapporto di verosimiglianza, possa rappresentare una scelta di buon senso in quanto libera il ricercatore dalla necessità di scegliere una misura di distanza (Tedesco, 2002). In aggiunta,
la segmentazione è pur sempre una rappresentazione della complessità causale delle
variabili osservate in riferimento al campione utilizzato e, quindi, si ritiene opportuno
in sede di costruzione dei gruppi Booleani, non perdere questa importante informazione. Sostanzialmente non si vuole far prevalere l’idea astratta del ricercatore rispetto alle informazioni che il campione può fornire. Il software impiegato per la segmentazione è RECPAM5, il criterio scelto è, come accennato, quello della massimizzazione del rapporto di verosimiglianza del logit lavorare/non-lavorare rispetto a
tutte le combinazioni, a due a due, tra le diverse modalità delle covariate, mentre si è
scelto di avere per ogni nodo/foglia almeno 40 soggetti di cui almeno 10 occupati.
La suddivisione è avvenuta ad un livello α del 5%, piuttosto restrittivo, al fine
di avere un albero sintetico e non troppo articolato. L’obiettivo, infatti, è quello di
esplorare i dati per la costruzione dei gruppi booleani.
Le variabili inserite nella segmentazione, oltre alla dicotomica lavora/non lavora, sono: Frequenza corsi post-lauream (Sì/No), sesso (M/F), tipo di diploma (Liceo/Non Liceo), tipo di laurea (SCT, EGS, SVS, UEC), voto di diploma (in centesimi), voto di laurea (110-mi), età alla laurea (in anni compiuti). Si è deciso di lasciare le ultime tre variabili nella loro scala di misura continua al fine di ottenere soglie
di suddivisione determinate direttamente dai dati campionari.
L’albero ottenuto mostra risultati interessanti. Innanzitutto vi è una forte asimmetria, dovuta al fatto che i laureati in discipline del gruppo scientifico presentano un elevato tasso di occupazione (94,8%) e non si suddividono più. Ciò significa
che per questi laureati il tipo di laurea è l’unico e fondamentale fattore di occupazione, senza distinzioni particolari tra i due sessi, per voto o tipo di diploma e per voto o
età alla laurea. Al contrario, per tutti gli altri laureati, il tasso di occupazione appare
5
RECPAM è una macro utilizzabile in ambiente SAS, realizzata da F. Carinci (2001) su idea di A.
Ciampi (1991). Cfr., ad es., Tedesco (2002).
Modelli statistici per l’analisi della transizione Università-lavoro
203
decisamente inferiore (77,8%), ma raggiunge valori piuttosto alti per particolari profili di soggetti. Nella fattispecie, tra i laureati giovani (< 27 anni), il non frequentare
corsi post-lauream (89,9%), mentre tra i laureati meno giovani (≥ 27 anni) appare
piuttosto penalizzante la bassa votazione al diploma, la frequenza di corsi postlauream e la bassa votazione alla laurea.
Figura 1. Albero di segmentazione
204
Determinanti dell’inserimento professionale dei laureati. Analisi delle interazioni
Appare evidente, quindi, che tra i laureati in materie non del gruppo scientifico, conta in via prioritaria la giovane età alla laurea, requisito sempre molto apprezzato da chi offre lavoro, piuttosto che la formazione aggiuntiva, evidentemente perché questa è fornita direttamente dalle aziende, almeno quelle di medie–grandi dimensioni6. Interessante appare, poi, l’importanza del voto di diploma, che interviene
più volte nella segmentazione, rispetto alla totale assenza del tipo di diploma e del
sesso.
Ciò sembra suggerire che la “qualità” di un laureato non è solo il prodotto del
processo degli studi universitari, ma affonda le radici nella formazione secondaria
che, se fatta bene, forma un individuo in maniera efficace. Sempre tra i laureati in discipline non scientifiche, giovani e che hanno un titolo post-lauream, colpisce la non
utilità del voto di laurea (l’87,8% è occupato con un voto laurea ≤ 106), mentre tra i
migliori (voto laurea > 106) sembra influire la votazione al diploma.
In conclusione, tenendo conto anche dei valori dell’indice GPI (Tabella 2)7,
appare evidente che il voto di diploma e l’età alla laurea hanno un effetto congiunto
sulla variabile risposta, ma solo tra i laureati in discipline non scientifiche.
Tabella 2. Valori del GPI
Covariate
Voto diploma
Tipo laurea
Età laurea
Voto laurea
Corso PL
Tipo diploma
Sesso
6
GPI
100
96
90
60
55
28
27
A tal proposito occorre ricordare come è apparso evidente (Porcu-Tedesco, 2004) che sovente la
formazione PL sia più una forma di prolungamento del “parcheggio” in attesa di un’occupazione,
piuttosto che la reale esigenza di incrementare le proprie competenze.
7
Si ricorda che il GPI (Global Predictive Index) è un indice che misura il grado di predittività di una
covariata sulla base della somma degli incrementi nel valore della LRS per ogni covariata ad ogni nodo, rispetto al valore della LRS senza quel predittore; in buona sostanza è una misura del guadagno di
informazione dovuto all’i-esimo predittore. Determinate tutte le i somme (una per ciascuna covariata),
si pone uguale a 100 quella maggiore e, quindi, le altre sono calcolate in rapporto a questa. Per tale
motivo la covariata che ha il potere predittivo più grande, ha un valore del GPI pari a 100 (Ciampi,
1991).
Modelli statistici per l’analisi della transizione Università-lavoro
5.
205
Modellare l’evento Y “lavorare/non-lavorare”
Per modellare l’evento lavorare (Y=1) vs non-lavorare (Y=0), sono state prese in esame, anche in considerazione dei risultati dell’analisi di segmentazione, le seguenti
variabili dicotomiche 1/0 (1=Sì):
•sesso maschile (SEXM);
•diploma di liceo classico o scientifico (LICCS);
•voto di diploma ≥90/100 (DIP90);
•laurea del Gruppo Scientifico-Tecnico (SCIEN);
•laurea entro i 26 anni (LAU26);
•voto di laurea ≥108 (VOTOHIGH);
•ha fatto formazione post-lauream (CORPOST).
Di seguito verranno presentati, dapprima i risultati dell’adattamento di uno standard
logit, successivamente quelli dell’applicazione del Boolean logit.
5.1
Adattamento di un logit standard
I risultati dell’applicazione sono riportati nella Tabella 3. Dal suo esame (valori negativi di βˆ indicano una minore probabilità per l’evento) si può rilevare che le sole
variabili che paiono esercitare un effetto significativo (α = 0,05) sulla risposta siano
DIP90, SCIEN, LAU26 e CORPOST.
Tabella 3. Stime puntuali ( βˆ ) e corrispondenti z-score (z= βˆ / SE ( βˆ ) )
per il modello logit standard di base
Covariate
SEXM
LICCS
DIP90
SCIEN
LAU26
VOTOHIGH
CORPOST
LogLik
βˆ
|z|-score
0,1967
-0,2801
0,5453
1,4855
0,6134
-0,2575
-0,4493
0,916
1,417
2,068
4,315
2,875
1,301
2,309
-362,937
Adattando un modello che teneva conto delle interazioni del primo ordine fra le variabili, è stato osservato come nessuna di esse influenzi significativamente la risposta.
206
Determinanti dell’inserimento professionale dei laureati. Analisi delle interazioni
Tabella 4. Stime puntuali ( βˆ ) e corrispondenti z-score (z= βˆ / SE ( βˆ ) ) per alcuni modelli logit standard.
Covariate
SEXM
LICCS
DIP90
SCIEN
LAU26
VOTOHIGH
CORPOST
SEXM × SCIEN
logLik
Mod. Base
βˆ
|z|-score
0,1967
0,916
-0,2801
1,417
0,5453
2,068
1,4855
4,315
0,6134
2,875
-0,2575
1,301
-0,4493
2,309
−
−
-362,937
Senza SCIEN
βˆ
|z|-score
0,5464
0,916
-0,2030
1,417
0,8068
2,068
−
−
0,5251
2,470
-0,3212
1,633
-0,5115
2,668
−
−
-374,985
Con SEXM × SCIEN
βˆ
|z|-score
0,1780
0,787
-0,2770
1,398
0,5454
2,069
1,3758
2,544
0,6128
2,873
-0,2579
1,303
-0,4445
2,274
0,1778
0,256
-362,904
Come è noto, relazioni di tipo causale, come quella appena descritta, pongono
al ricercatore dei problemi di interpretazione degli effetti esercitati dal complesso dei
predittori sulla risposta Y. Ad esempio, se dal modello base della Tabella 3 viene escluso il predittore SCIEN si osserva come la variabile SEXM acquisti un significativo
potere predittivo (anche se, in termini di logLik, il modello è meno soddisfacente).
Tuttavia, adattando un altro modello che comprende il termine di interazione fra
SCIEN e SEXM si riscontra la non significatività statistica dello stesso.
5.2
Adattamento di un Boolean logit
Per l’adattamento del modello Boolean logit8 sono state considerate le stesse variabili
prese in esame per lo standard logit (SEXM, LICCS, DIP90, SCIEN, LAU26, VOTOHIGH,
CORPOST). Come detto nel § 2.1, per procedere all’adattamento di un modello Boolean logit è necessario ipotizzare preliminarmente alcune condizioni; anche sulla base
delle indicazioni date dai risultati della segmentazione binaria (§ 4) tali condizioni
sono state definite come:
- A1 = “Possesso di requisiti vincenti per il mondo del lavoro”
- A2 = “Possesso di alcuni fattori caratterizzanti la formazione”
A1 è definita da un insieme di covariate riferite a ciò che caratterizza in maniera più incisiva chi si candida ad entrare nel mondo del lavoro e, cioè, l’età e le
competenze possedute: LAU26 e SCIEN.
8
Per il calcolo dei parametri è stata utilizzata la libreria “Boolean” in ambiente R (http://www.Rproject.org).
Modelli statistici per l’analisi della transizione Università-lavoro
207
A2 è definita da un insieme di covariate riferite al profilo formativo del laureato alle quali si aggiunge la variabile “sesso”: SEXM, DIP90, LICCS, VOTOHIGH e CORPOST.
La probabilità di essere occupato, Pr(Y=1) = π viene modellata come interazione fra A1 e A2, cioè:
π = Pr(A1)×Pr(A2)
Le condizioni A1 e A2 vengono espresse come funzioni additive delle esplicative in
esame:
- A1 = LAU26 + SCIEN
- A2 = SEXM + DIP90 + LICCS + VOTOHIGH + CORPOST
Come si può ricavare dalla Tabella 5 i risultati ottenuti sono simili a quello
dello standard logit in termini di log verosimiglianza e di stima dei parametri. Tuttavia, i modelli che li hanno prodotti sono sostanzialmente differenti. Infatti, nel modello logit standard, nessuno dei termini di interazione ha mostrato di esercitare effetti significativi sulla variabile risposta, risultato questo che implica, da un punto di vista sostanziale, che ciascuna variabile influenza la probabilità di conseguire
un’occupazione indipendentemente dalle altre variabili. Nel modello Boolean logit,
invece, la risposta Y è prodotta dall’interazione fra i vettori di covariate. Ciò implica
che l’essere o meno occupato dipende congiuntamente da A1 e A2: i parametri assumono, quindi, un “tacito” significato di interazione. Come si può vedere i parametri
DIP90 e CORPOST mostrano ora di non influenzare in maniera significativa la risposta
Y e ciò sta a significare che interagendo con le altre queste covariate perdono il loro
potere predittivo.
Tabella 5. Stime puntuali ( βˆ ) e corrispondenti z-score (z= βˆ / SE ( βˆ ) ) per il
modello logit standard e per due modelli Boolean
Covariate
LAU26
SCIEN
LICCS
SEXM
DIP90
VOTOHIGH
CORPOST
LICCS
logLik
Standard
|z|-score
βˆ
0,6134 2,875
1,4855 4,315
-0,2801 1,417
0,1967 0,916
0,5453 2,068
-0,2575 1,301
-0,4493 2,309
−
−
-362,937
Boolean 1
|z|-score
βˆ
1,0330
2,996
2,2442
2,813
-1,4221
1,094
0,5035
0,796
1,3693
1,715
-1,2291
1,251
-1,6930
1,066
−
−
-360,640
Boolean 2
|z|-score
βˆ
1,0363
1,904
2,2573
1,192
0,0070
0,008
0,4973
0,501
1,3640
1,326
-1,2127
0,527
-1,6632
0,408
-1,4294
0,904
-360,639
208
Determinanti dell’inserimento professionale dei laureati. Analisi delle interazioni
Come detto, il Boolean logit permette di adattare modelli in cui la stessa covariata viene inserita in più di una “condizione”. Ad esempio, la variabile provenienza dal liceo classico o scientifico potrebbe essere inserita tanto nella condizione A1
che nella condizione A2. I risultati dell’adattamento di questi modello sono riportati
nella Tabella 5 nelle colonne intestate “Boolean 2”; nonostante la non significatività
statistica della variabile LICCS è interessante osservare come essa agisca in direzioni
opposte in A1 e in A2.
6.
Conclusioni
L’impiego dello standard logit per modellare la probabilità di un evento dicotomico
come effetto di un rapporto causale di dipendenza rispetto a un insieme di esplicative
offre al ricercatore notevoli vantaggi. Essi risiedono principalmente nell’interpretazione sostantiva dei parametri stimati; la loro lettura in termini di log-odds
ratio permette di valutare direttamente l’influenza di ogni parametro sulla variabile
risposta “controllando” il livello delle altre covariate prese in esame. In un contesto
come quello della modellazione della probabilità di conseguire o meno un’occupazione per i laureati considerato in questo studio, lo standard logit consente di evidenziare l’esistenza di alcuni fattori frenanti che intervengono abbassando la probabilità dell’evento occupazione. Fra essi, appaiono di un certo interesse quelli relativi
al possesso di un voto alto alla laurea e all’aver frequentato dei corsi di specializzazione dopo il conseguimento del titolo; verosimilmente, essi possono essere visti
come fattori che influiscono sull’età con cui ci si presenta sul mercato del lavoro innalzandola e rendendo in questo modo meno competitivo lo stesso laureato. Altri fattori, si è visto, agiscono in direzione contraria (contribuiscono ad aumentare la probabilità dell’evento) e fra essi si distinguono quelli riferiti al possesso di una laurea
di tipo scientifico-tecnico e, non inaspettatamente, quelli relativi alla giovane età del
laureato.
Sempre in termini sostantivi, però, non va dimenticato che un modello logit
standard quale quello adattato, non tenendo in considerazione le relazioni esistenti
fra le covariate prese in esame, implica una forma di dipendenza causale additiva che
non permette di “catturare” appieno la complessità del fenomeno.
Il Boolean logit, non deve essere inteso come alternativo (e, tantomeno, superiore) al modello logit standard. Il vantaggio che offre rispetto a quest’ultimo risiede
nel fatto che esso permette al ricercatore di adattare dei modelli in cui viene preso in
considerazione un rapporto di causazione complessa. I meccanismi di causazione
complessa permettono (Braumoeller, 2003) di migliorare il potere predittivo dei modelli adattati per spiegare un determinato evento risposta.
Modelli statistici per l’analisi della transizione Università-lavoro
209
Il principale limite di un modello Boolean risiede nelle scelte soggettive che si
operano per la definizione degli statements (condizioni) Booleani, anche se la possibilità di ricorrere a criteri basati sulla verosimiglianza mitiga questa soggettività. In questo senso, ricorrere a metodi di segmentazione binaria del tipo di quelli adottati in
questo lavoro, può realmente aiutare il ricercatore ad operare scelte meno soggettive e
più coerenti con le informazioni che il campione fornisce. Altro notevole limite è
quello che deriva dalla non interpretabilità dei parametri stimati in termini di log-odds
ratio rispetto alla risposta modellata ed, infine, non va sottovalutato che l’algoritmo di
stima è “avido” sia di dati (data consumpting) sia di tempo computazionale.
Tuttavia, tenendo in considerazione i risultati ottenuti in questa e in altre applicazioni (Muggeo-Porcu, 2004), si può concludere che il Boolean logit si candida per
essere un utile strumento per implementare analisi di sensibilità di altri modelli per
risposte causali e quindi impiegabile per rafforzare le evidenze emerse sul significato
sostantivo delle esplicative prese in esame.
Riferimenti bibliografici
AGRESTI A. (2002) Categorical Data Analysis, Wiley-Interscience, Hoboken NJ.
AKAIKE H. (1973), Information theory and an extension of the maximum likelihood
principle, in Proceedings of the Second International Symposium on Information Theory, B.N. Petrov & Csaki, eds. Akademiai Kiado, Budapest: 267-281.
BRAUMOELLER B.F. (2003), Causal Complexity and the study of politics, Political Analysis, 11: 209-233.
CARINCI F., PELLEGRINI F. (2001), RECPAM/SAS (Recursive Partitioning and
Amalgamation): a statistical tool for criterion-driven data-mining, Technical
Report, in http://med.monash.edu.au\publichealt.
CHIANDOTTO B. (2004), “La situazione occupazionale dei laureati: dall’indagine
alla pianificazione degli interventi sui percorsi formativi”, in M. CIVARDI (a
cura di), Transizione Università-Lavoro: la definizione delle competenze, vol.
4, CLEUP, Padova: 1-18.
CIAMPI A. (1991), Generalized Regression Tree, Comput. Stat. Data Analysis, 12.
CIVARDI M., ZAVARRONE E. (2004), “Proposta di un modello generatore delle
competenze acquisite attraverso la formazione universitaria”, in: E. AURELI
CUTILLO (a cura di), Strategie metodologiche per lo studio della transizione
Università-Lavoro, vol. 5, CLEUP, Padova: 141-152.
FROSINI B.V. (2004), Causality and Causal Models, in Atti della XLII Riunione della Società Italiana di Statistica, v. 1, Bari: 3-32.
210
Determinanti dell’inserimento professionale dei laureati. Analisi delle interazioni
GRANOVETTER M. (1974), Getting a Job: a Study of Contacts and Careers, Harvard University Press, Cambridge MA.
HOSMER D.W., LEMESHOW S. (1989) Applied Logistic Regression, John Wiley
& Sons, New York.
MUGGEO V, PORCU M.. (2004), Factors that Cause University Students to Drop
Out. An Alternative Modelling of Interaction Terms in Logistic Regression
Models, in Atti della XLII Riunione della Società Italiana di Statistica, v. 2,
Bari: 511-514.
PORCU M., PUGGIONI G. (2004), “L’esportazione del capitale umano: prima valutazione del fenomeno per i laureati dell’Ateneo di Cagliari” (in corso di stampa).
PORCU M., TEDESCO N. (2004), “Dall’Università al Lavoro: analisi dei tempi di
passaggio dei laureati dell’Ateneo di Cagliari”, in: E. AURELI CUTILLO (a
cura di), Strategie metodologiche per lo studio della transizione UniversitàLavoro, vol. 5, CLEUP, Padova: 281-295.
REYNERI E. (2002), Sociologia del Mercato del Lavoro, il Mulino, Bologna.
RUCZINSKI I., KOOPERBERG C., LEBLANC M. (2003), Logic Regression, Journal of Computational and Graphical Statistics, 12:. 475-511.
R DEVELOPMENT CORE TEAM (2003), R: A language and environment for statistical computing, R Foundation for Statistical Computing, Vienna;
http://R-project.org.
TEDESCO N. (2002), “Analisi di segmentazione di una coorte di immatricolati
dell’Università di Cagliari”, in: G. PUGGIONI (a cura di), Modelli e metodi
per l’analisi dei rischi sociali e sanitari, vol. 2, CLEUP, Padova: 141-160.
Determinants of occupational placement of graduates.
An analysis of interactions
Summary. In the analysis of occupational placement of graduates it is interesting
to define the role paid by some covariates assembled to predict the dichotomous
event occupation/not-occupation. It is well known that these covariates influence the
response not only singularly but also jointly. This work propose an evaluation of this
joint effect by means of a recently introduced technique named Boolean logit. An exploratory binary segmentation is also presented to support the analysis.
Keywords. Occupational placement, determinants, segmentation, Boolean regression, logit.
Un modello multilivello per l’analisi della condizione
occupazionale dei laureati 1
Bruno Chiandotto, Silvia Bacci
Dipartimento di Statistica “G. Parenti” - Università degli Studi di Firenze
Riassunto. Oggetto del contributo è l’analisi della condizione occupazionale dei laureati dell’Ateneo fiorentino nell’anno solare 2000 a un anno e mezzo/due anni e
mezzo dal conseguimento del titolo. Lo scopo perseguito è relativo all’individuazione delle possibili determinanti del fenomeno indagato, sia a livello individuale
(quali genere, residenza, diploma di scuola superiore, voto di laurea, …) che a livello
istituzionale (in termini di caratteristiche distintive dei diversi corsi di studio).
L’impiego di analisi descrittive è propedeutico per l’applicazione di un modello di
regressione logistica con intercetta casuale a due livelli di aggregazione, il cui utilizzo è giustificato dalla necessità di tenere in debito conto la struttura gerarchica dei
dati oggetto di studio: infatti, come unità di primo livello sono stati considerati i laureati dell’Ateneo fiorentino, mentre come unità di secondo livello i rispettivi corsi di
laurea.
Parole chiave: Modelli multilivello, Regressione logistica, Sbocchi occupazionali,
Probabilità di occupazione.
1. Introduzione
L’analisi dei profili e degli sbocchi occupazionali dei laureati e dei diplomati, che
può essere condotta da tutte le Università che aderiscono al Consorzio ALMA-
1
Il presente lavoro è stato finanziato nell’ambito del PRIN 2002, cofinanziato dal MIUR “Transizioni
Università-lavoro e valorizzazione delle competenze professionali dei laureati: modelli e metodi di
analisi multidimensionali delle determinanti”. Coordinatore nazionale è Luigi Fabbris, coordinatore
del gruppo di Firenze è Bruno Chiandotto (titolo del progetto dell’unità di ricerca locale “Valutazione
del processo formativo universitario, sbocchi professionali e pianificazione dei percorsi formativi:
modelli e metodi”).
L’idea iniziale, la struttura e l’impostazione del lavoro sono dovuti al contributo di entrambi gli autori,
mentre le elaborazioni e l’implementazione del modello vanno attribuite a S. Bacci.
212
Un modello multilivello per l’analisi della condizione occupazionale dei laureati
LAUREA2, consente di pervenire ad una misura di efficienza (interna) e di efficacia
(interna ed esterna) della qualità dei servizi formativi offerti dagli Atenei.
Com’è noto, le rilevazioni effettuate direttamente da AlmaLaurea coinvolgono i laureati della sola sessione estiva ad uno, due e tre anni dal conseguimento del titolo (dall’anno 2003, sempre limitatamente alla sola sessione estiva, vengono intervistati i laureati/diplomati ad uno, tre e cinque anni dal conseguimento del titolo).
L’Ateneo Fiorentino, a partire dal 1998, ha deciso di estendere l’indagine all’intero
collettivo dei laureati dell’anno solare3 al fine di pervenire ad una migliore comprensione di quella che è la qualità del prodotto finito (i laureati e diplomati) della propria
attività formativa, anche attraverso l’acquisizione pressoché completa dei dati a livello di singolo corso di laurea; l’indagine è stata ripetuta per tutti i laureati degli anni
1999, 2000, 2001 e 20024.
I risultati dell’analisi dei dati relativi agli studenti che hanno conseguito un titolo di studio presso l’Università degli Studi di Firenze durante l’anno solare 2000
sono contenuti in un volume di recente pubblicazione (Chiandotto B., Bacci S. e Bertaccini B., 2004).
2
Il consorzio interuniversitario ALMALAUREA nasce nel 1994 per iniziativa dell’Osservatorio Statistico
dell’Università di Bologna ed attualmente è gestito dalle Università aderenti con il sostegno del Ministero dell’Istruzione, dell’Università e della Ricerca. I principali obiettivi dei servizi offerti da ALMALAUREA sono, da una parte, quelli di assicurare agli organi di governo degli atenei appartenenti al consorzio, ai nuclei di valutazione, alle commissioni impegnate nella didattica e nell’orientamento, attendibili e tempestive basi documentarie e di verifica, volte a favorire i processi decisionali e la programmazione delle attività; dall’altra di creare una sempre più stretta collaborazione tra università e
mondo produttivo, facilitando, attraverso la propria banca dati, l’accesso dei giovani al mercato del
lavoro italiano ed internazionale. Per ulteriori informazioni, si può consultare il sito Internet:
www.almalaurea.it.
3
La rilevazione effettuata dall’Università di Firenze si caratterizza, rispetto ad AlmaLaurea, per gli
aspetti di seguito riportati:
- l’inserimento nella scheda di rilevazione di due ulteriori quesiti sulle motivazioni dell'iscrizione all'università;
- nei quesiti a risposta multipla (per rendere possibili adeguate elaborazioni statististiche) viene richiesta la manifestazione delle priorità;
- al quesito generico sull'utilizzo delle competenze acquisite durante la formazione universitaria della scheda AlmaLaurea è stato aggiunto un quesito molto articolato sulle diverse tipologie di competenze acquisite, sul loro utilizzo e sulle modalità di acquisizione delle stesse (insegnamenti universitari, attività di tirocinio, corsi di specializzazione, corsi di formazione professionale, acquisizioni sul posto di lavoro, ...).
4 Chi fosse interessato ad un approfondimento conoscitivo sui risultati delle analisi svolte può consultare: Bulgarelli G. (2002), Bertaccini B. (2000), Chiandotto B. (2002), Chiandotto B. e Bertaccini B.
(2003).
Modelli statistici per l’analisi della transizione Università-lavoro
213
In questa nota vengono presentati sinteticamente5 alcuni dei risultati conseguiti soffermando l’attenzione sulle conclusioni cui si è pervenuti a seguito di una
applicazione di un modello logistico a due livelli (dove i laureati sono le unità di
primo livello ed i corsi di studio le unità di secondo livello) nel quale la variabile dipendente di riferimento è la condizione occupazionale dei laureati a un anno e mezzo/due anni e mezzo dal conseguimento del titolo e l’obiettivo che si vuol conseguire
è quello dell’individuazione e della misura dell’effetto netto delle sue possibili determinanti (fattori esplicativi).
Il secondo paragrafo di questa nota è dedicato alla illustrazione dei risultati
dell’analisi, sostanzialmente di natura descrittiva, finalizzata alla individuazione
dell’eventuale influenza esercitata sulla condizione occupazionale dei laureati/diplomati presso l’Università di Firenze nell’anno solare 2000 da caratteristiche individuali, quali genere, residenza, diploma di scuola superiore, ecc.
Per pervenire alla misura dell’effetto “netto” eventualmente esercitato da possibili determinanti (sia individuali che istituzionali) della condizione occupazionale si
è fatto ricorso ai modelli gerarchici o di regressione multilivello che, com’è noto,
hanno la principale caratteristica di tenere in considerazione la struttura gerarchica
dei dati oggetto di studio. I risultati delle analisi condotte sono riportati nei paragrafi
successivi, mentre alcune considerazioni conclusive completano la nota.
2. Condizione occupazionale dei laureati nell’Ateneo fiorentino
nell’anno 2000
Nell’anno solare 2000, hanno concluso gli studi con successo nell’Università degli
Studi di Firenze 4846 laureati e 399 diplomati, per un totale di 5245 studenti che costituiscono la popolazione di riferimento delle analisi condotte6. Per un quadro
d’insieme sulla condizione occupazionale del contingente analizzato, disaggregata
per facoltà e per corsi di laurea, si osservino i dati riportati nella Tavola 1.
5
La trattazione completa è riportata nel suddetto volume di recente pubblicazione: “ I laureati e diplomati dell’Ateneo fiorentino dell’anno 2000: Profilo e sbocchi occupazionali (Chiandotto B., Bacci
S. e Bertaccini B., 2004).
6
Le indagini sugli Sbocchi Occupazionali sono state condotte nel periodo giugno-luglio 2002 tramite
interviste telefoniche ricorrendo alle tecniche C.A.T.I. (Computer Aided Telephone Interviewing). Il
disegno d’indagine ha anche previsto l’invio postale di un questionario opportunamente adattato ai
laureati non contattati durante la fase telefonica della rilevazione, fornendo la possibilità di
un’eventuale compilazione tramite e-mail. Il contingente dei laureati/diplomati è stato, pertanto, contattato in un arco temporale che varia dai 15 mesi (per i laureati in luglio) ai 30 mesi (per i laureati in
gennaio). A livello complessivo si registra un tasso di risposta pari all’82,6% (4330 interviste su un
collettivo di 5245 individui); se si escludono le interviste postali, i laureati e diplomati contattati telefonicamente sono stati circa il 76,9% del totale (3736 laureati e 296 diplomati).
214
Un modello multilivello per l’analisi della condizione occupazionale dei laureati
Al momento dell’intervista il 76,5% degli intervistati (2889 laureati e 307 diplomati)7 si dichiara occupato. Tra i non occupati, soltanto il 9,5% manifesta
l’intenzione di cercare lavoro, mentre il 14,0% dichiara di non lavorare e non cercare
lavoro. Pertanto, il tasso occupazionale netto, calcolato escludendo quest’ultimo contingente - di fatto costituito da giovani inattivi sul mercato del lavoro e quindi da non
considerarsi come disoccupati - sale all’89,0%.
Se si escludono dall’analisi le facoltà di Giurisprudenza e Medicina e Chirurgia, nelle quali, notoriamente, la partecipazione ad attività formative non è generalmente dovuta alla libera scelta del laureato ma è spesso originata da obblighi istituzionali e statutari, i tassi di occupazione generale e netto (cioè calcolato escludendo
gli inattivi) salgono rispettivamente all’83,0% e al 90,1% .
Val la pena segnalare l’altissimo livello occupazionale registrato per i diplomati intervistati (94,5%), soprattutto alla luce del fatto che oltre l’83,0% di questo
contingente (pari al 87,9% degli occupati) svolge un lavoro iniziato dopo il conseguimento del titolo, mentre i laureati occupati che non proseguono il lavoro iniziato
prima del completamento degli studi sono pari soltanto al 60,3% del totale laureati
(ovvero l’80,4% degli occupati).
Tavola 1. Laureati occupati e non occupati al momento dell’intervista per Facoltà e Corso
di studi
Non lavora
AGRARIA
Scienze agrarie
Scienze forestali
Scienze forestali ed ambientali
Scienze agrarie tropicali e subtropicali
Scienze e tecnologie agrarie
ARCHITETTURA
Architettura
ECONOMIA
Economia aziendale
Economia e commercio
Scienze statistiche ed attuariali
Scienze statistiche ed economiche
FARMACIA
Chimica e tecnologia farmaceutica
Farmacia
GIURISPRUDENZA
Giurisprudenza
7
16
2
7
2
3
2
114
114
84
1
82
1
6
4
2
272
272
%
18,0
12,5
20,6
10,0
33,3
20,0
17,0
17,0
14,4
5,3
15,5
11,1
8,5
12,5
5,1
58,6
58,6
Lavora
73
14
27
18
6
8
558
558
498
18
448
24
8
65
28
37
192
192
%
Laureati
82,0
87,5
79,4
90,0
66,7
80,0
83,0
83,0
85,6
94,7
84,5
100,0
88,9
91,5
87,5
94,9
41,4
41,4
89
16
34
20
9
10
672
672
582
19
530
24
9
71
32
39
464
464
Si segnala che in questo paragrafo si richiamano alcune conclusioni relative all’analisi condotta considerando sia i laureati che i diplomati, mentre per la stima del modello sono stati presi in considerazione soltanto i dati relativi ai laureati.
Modelli statistici per l’analisi della transizione Università-lavoro
215
Tavola 1 (segue)
Non lavora
INGEGNERIA
Ingegneria civile
Ingegneria elettronica
Ingegneria meccanica
Ingegneria informatica
Ingegneria per l'ambiente e il territorio
Ingegneria delle telecomunicazioni
LETTERE E FILOSOFIA
Filosofia
Lettere
Lingue e letterature straniere
Lingue e letterature straniere moderne
Storia
MEDICINA E CHIRURGIA
Medicina e chirurgia
Odontoiatria e protesi dentaria
SCIENZE della FORMAZIONE
Lingue e letterature straniere
Lingue e letterature straniere (europee)
Materie letterarie
Pedagogia
Psicologia
Scienze della educazione
SCIENZE POLITICHE
Scienze politiche
SMFN
Chimica
Fisica
Matematica
Scienze biologiche
Scienze della informazione
Scienze geologiche
Scienze naturali
TOTALE
32
4
9
5
6
5
3
139
22
77
19
12
9
70
68
2
60
2
3
5
5
19
26
73
73
101
14
7
10
42
14
14
967
%
Lavora
%
9,3
4,6
8,9
6,8
26,1
11,6
18,8
28,6
38,6
29,4
21,6
23,1
33,3
48,3
59,6
6,5
16,2
11,1
18,8
17,9
11,1
29,7
13,1
23,6
23,6
31,2
26,4
30,4
27,8
36,2
30,4
36,8
25,1
312
90,7
95,4
91,1
93,2
73,9
88,4
81,3
71,4
61,4
70,6
78,4
76,9
66,7
51,7
40,4
93,5
83,8
88,9
81,3
82,1
88,9
70,3
86,9
76,4
76,4
68,8
73,6
69,6
72,2
63,8
100,0
69,6
63,2
74,9
83
92
69
17
38
13
347
35
185
69
40
18
75
46
29
310
16
13
23
40
45
173
236
236
223
39
16
26
74
12
32
24
2889
Laureati
344
87
101
74
23
43
16
486
57
262
88
52
27
145
114
31
370
18
16
28
45
64
199
309
309
324
53
23
36
116
12
46
38
3856
Gli elevati valori (cfr. Tavole 2 e 3) assunti dalla V di Cramer (0,37 per il
contingente comprendente tutti i laureati e 0,40 per quello relativo ai soli laureati che
non lavoravano al momento della laurea) evidenziano una forte associazione tra corso di laurea frequentato e probabilità che ha il laureato stesso di essere occupato a un
anno e mezzo / due anni e mezzo dal conseguimento del titolo.
Oltre la tipologia del titolo di studio conseguito, altri caratteri possono, ovviamente, influenzare la probabilità di occupazione; ad esempio, l’analisi del quadro
occupazionale, disaggregato per genere, evidenzia differenze rilevanti nei due sessi,
soprattutto per quanto riguarda alcune facoltà.
216
Un modello multilivello per l’analisi della condizione occupazionale dei laureati
Tavola 2. Misure di associazione relative ai laureati occupati e non occupati al momento dell’intervista
Statistiche d’associazione per
Percentuale di laureati che lavorano
vs
Corso di laurea in cui è stato conseguito il titolo
Statistica
Valore
Chi-quadro
533,9860
V di Cramer
0,3721
GdL
Prob
38
< 0,0001
Tavola 3. Misure di associazione relative ai laureati occupati e non occupati al momento dell’intervista che non lavoravano alla laurea
Statistiche d’associazione per
Percentuale di laureati che lavorano
vs
Corso di laurea in cui è stato conseguito il titolo
Statistica
Valore
Chi-quadro
427,2321
V di Cramer
0,4003
GdL
Prob
38
< 0,0001
Un’altra possibile determinante della condizione occupazionale al momento
dell’intervista è il tempo di conseguimento del titolo. Le analisi svolte evidenziano il
trend crescente del tasso occupazionale all’aumentare del tempo di conseguimento,
da un 72,7% dei laureati e diplomati in tempi brevi per raggiungere un 80,0% di coloro che si laureano in tempi medio lunghi. Questo risultato sembra contraddire la
convinzione diffusa che tempi rapidi di acquisizione del titolo conducano ad un rapido inserimento nel mondo del lavoro ed è facilmente spiegabile se si guarda ai tassi
di partecipazione ad attività formative post-laurea, che risultano superiori proprio per
i laureati in tempi brevi.
La stessa analisi, condotta per classi di voto al conseguimento del titolo, mostra una proporzionalità diretta, per quanto riguarda i corsi di laurea, tra la percentuale di occupati ed il giudizio finale conseguito, se si eccettua il calo evidenziato dai
laureati che hanno riportato un voto pari a 110/110 e lode: infatti, soltanto il 71,5%
dei laureati con il massimo dei voti risulta occupato. Tale valore apparentemente anomalo, peraltro non rilevato per i diplomati, trova però giustificazione nel tasso di
partecipazione ad almeno un’attività formativa in corso, che per questa categoria di
soggetti risulta il più elevato. È quindi verosimile ritenere che i laureati in tempi brevi e con votazioni elevate siano maggiormente propensi alla prosecuzione degli studi.
Relativamente alla possibile influenza del titolo di studio dei genitori non
emerge una tendenza particolarmente netta, fatta eccezione per il dato interessante
secondo cui i giovani con entrambi i genitori laureati presentano il tasso occupazionale più basso rispetto alle altre categorie (63,8%). Tale fatto, accompagnato
dall’elevata percentuale di giovani con entrambi i genitori in possesso di laurea che
non hanno mai lavorato (24,2%), è coerente con quanto osservato nello studio svolto
a proposito della maggiore propensione a svolgere attività formative post-titolo da
parte di questa tipologia di laureati (l’80,6% dichiara di aver già concluso o di stare
Modelli statistici per l’analisi della transizione Università-lavoro
217
ancora svolgendo almeno un’attività di formazione post-laurea contro il 66,7% di coloro i cui genitori sono in possesso al più della licenza elementare).
Un’ulteriore variabile analizzata è la zona di residenza degli intervistati: il
tasso di occupazione maggiore, pari all’82,8%, si registra nelle regioni del Centro–
Nord (eccettuata la Toscana), mentre il tasso più basso, pari al 60,7%, risulta al Sud e
nelle Isole. Il Sud Italia e le Isole presentano altresì la percentuale più alta di disoccupati che non hanno mai lavorato (29,1%).
3. Il modello gerarchico a due livelli
Come anticipato nell’introduzione, per procedere ad una più soddisfacente individuazione delle possibili determinanti della condizione occupazionale si è fatto ricorso ai modelli di regressione multilivello8.
La finalità che s’intende perseguire attraverso il ricorso ai modelli di regressione multilivello è quella dell’individuazione delle variabili maggiormente esplicative della condizione occupazionale di un laureato a un anno e mezzo / due anni e
mezzo dalla laurea (cioè al momento dell’intervista) e di misurarne l’effetto netto. La
variabile risposta (indicata con lavora) presa in considerazione è, dunque, la condizione occupazionale del laureato al momento dell’intervista; le modalità che essa può
assumere sono due (si tratta quindi di una variabile dicotomica): il laureato non lavora (lavora=0) oppure il laureato lavora (lavora=1)9. Trattandosi di una variabile binaria, il modello prescelto è stato il modello di tipo logistico (a due livelli), preferito ad
un modello di tipo probit per la maggiore facilità di interpretazione dei risultati attraverso il calcolo degli odds10.
Si è proceduto alla stima del modello prendendo in considerazione come unità di primo livello tutti i 3856 laureati che hanno partecipato all’indagine11, di cui il
8
Al riguardo si possono consultare, tra gli altri, i volumi di Goldstein H. (2003) e Snijders A.B., Bosker R. J. (1999).
9
In un primo momento si era pensato di usare una variabile risposta politomica (non ordinale) che tenesse conto del fatto che il laureato non occupato fosse in cerca di lavoro (quindi le possibili modalità
sarebbero state: il laureato lavora, il laureato non lavora e non cerca lavoro, il laureato non lavora e
cerca lavoro). Purtroppo, i software al momento disponibili non hanno consentito lo sviluppo di modelli multilivello con variabili risposta politomiche non ordinali.
10
Gli odds sono dati dal rapporto tra la probabilità che un laureato lavori rispetto alla probabilità che
lo stesso laureato non lavori al momento dell’intervista.
11
Considerato che lo scopo finale dell’analisi è capire che cosa influenza il tasso di neo-occupazione
dei laureati (piuttosto che il tasso generale di occupazione), nel volume Chiandotto B., Bacci S. e Bertaccini B. (2004) viene presentato il modello che assume come unità di primo livello soltanto i 2666
laureati dell’anno 2000 che non lavoravano al momento della laurea.; tra le due applicazioni non sono
state riscontrate differenze di particolare rilievo.
218
Un modello multilivello per l’analisi della condizione occupazionale dei laureati
74,9% è occupato al momento dell’intervista e il 25,1% risulta non occupato; mentre
come unità di secondo livello sono stati scelti i 39 corsi di laurea in cui sono suddivisi i laureati dell’anno 200012. La scelta delle unità di secondo livello è ricaduta sui
corsi di laurea e non sulle facoltà a ragione delle differenze che di fatto sussistono, in
maniera più o meno accentuata, tra corsi di laurea diversi all’interno di una stessa facoltà, differenze che hanno un’evidente ricaduta sui tassi di occupazione come evidenziato dai dati riportati in Tavola 1.
4. Variabili esplicative di primo livello e di secondo livello
Le variabili esplicative prese in considerazione per la stima del modello sono state
scelte sulla base delle analisi descrittive svolte, di cui molto sommariamente si è dato
conto nel secondo paragrafo, e sulla base della conoscenza del fenomeno. In particolare, come covariate di primo livello sono state incluse, almeno in una fase iniziale,
le seguenti:
Variabili esplicative di primo livello continue
•
•
•
12
Tempo intercorso tra la laurea e l’inizio della ricerca di un lavoro (tempolavoro): l’unità di misura di tale variabile è il numero di mesi e il valore minimo
che essa può assumere è 0, nel caso in cui l’intervistato abbia iniziato a cercare
un lavoro immediatamente dopo il conseguimento del titolo.
Tempo intercorso tra la laurea e l’intervista (tempointerv): l’unità di misura
di tale variabile è il numero di mesi e assume valori compresi tra 15 e 30 mesi.
Voto di laurea (votolau): è il voto di laurea espresso in 110-mi e assume valori
tra 66 e 113 (corrispondente al 110 e lode). Considerato che le variabili relative
al voto di laurea e al voto medio agli esami sono fortemente correlate – risultando, infatti, un indice di correlazione di Pearson pari a 0,84 – si è preferito non inserirle entrambe nel modello per evitare fenomeni di multicollinearità. La scelta
è caduta sul voto di laurea, piuttosto che sul voto medio agli esami, in quanto nel
relazionarsi col mercato del lavoro (sia privato che pubblico) è il voto finale di
laurea il principale elemento distintivo del neo-laureato.
A causa dell’esiguo numero di laureati (2) in Agricoltura tropicale e subtropicale e in Economia Politica, è stato deciso di accorpare questi due corsi di laurea con, rispettivamente, Scienze agrarie tropicali e subtropicali ed Economia e commercio, in modo da non inficiare la significatività delle stime.
Anche i due corsi di laurea in Lingue e letterature straniere di Lettere e Filosofia e di Scienze della
Formazione sono stati considerati come un unico corso.
Modelli statistici per l’analisi della transizione Università-lavoro
•
•
219
Età alla laurea (etalau): tale variabile assume valori da un minimo di 21,9 anni
ad un massimo di 67,6 anni. Nel modello non è invece stata inclusa la variabile
relativa all’indice di durata13 sia a causa dell’elevata correlazione rispetto all’età
alla laurea (indice di correlazione di Pearson pari a 0,58) sia perché, rispetto al
mercato del lavoro così come rispetto alla scelta di proseguire ulteriormente la
formazione, ha più importanza l’età a cui il laureato consegue il titolo, piuttosto
che il numero di anni che esso ha impiegato per completare gli studi.
Voto di maturità (votodip): è il voto di maturità espresso in 60-esimi e varia da
un minimo di 36/60 al massimo di 60/60.
Variabili esplicative di primo livello discrete
• Sesso (sesso): è una variabile binaria con modalità “femmina” (femmina) e “maschio” (maschio). Essendo le femmine laureate il 56,4%, come riferimento è stata assunta la modalità femmina14.
• Esperienze lavorative durante gli studi (lav1): è una variabile binaria con modalità “no” (lav1_no – il laureato non ha avuto esperienze lavorative durante gli
studi) e “sì” (lav1_sì – il laureato ha avuto esperienze lavorative durante gli studi). In tal caso, benché la maggior parte dei laureati abbia avuto esperienze lavorative durante gli studi, si è deciso di assumere come riferimento la modalità
“no”: infatti, trattandosi di una variabile binaria con modalità sì/no risulta di più
facile e immediata interpretazione un coefficiente di regressione relativo alla
modalità “sì” (indicante la presenza della variabile).
• Svolgimento di uno stage o tirocinio per il conseguimento del titolo (tirocin):
è una variabile binaria con modalità: “tirocinio non svolto” (tirocin_no) e “tirocinio svolto” (tirocin_sì). Oltre l’83% dei laureati ha dichiarato di non aver svolto nessun tirocinio, quindi come riferimento è stata assunta la modalità “tirocinio
non svolto”.
• Frequenza alle lezioni (frequenza): è una variabile binaria che può assumere le
modalità: “frequenza elevata” (elevata) e “frequenza bassa” (bassa). Come riferimento è stata scelta la modalità “frequenza elevata”, essendo risultata leggermente più elevata dell’altra. Si puntualizza che la frequenza elevata caratterizza
il laureato che ha frequentato regolarmente tutti o quasi tutti i corsi, mentre la
frequenza bassa caratterizza il laureato che ha frequentato soltanto alcuni corsi
saltuariamente oppure non ha mai frequentato alcun corso.
• Tipo di maturità conseguita (tipmat): le modalità assumibili da tale variabile
sono: “classica” (classica), “scientifica” (scientifica), “tecnica” (tecnica), “altra
13
L’indice di durata è definito come rapporto tra durata effettiva degli studi universitari svolti e durata
legale.
14
Tranne le poche eccezioni segnalate nel testo, come regola generale si è scelto di adottare come riferimento per le variabili esplicative discrete la modalità con la frequenza osservata più elevata.
220
•
•
•
•
•
•
Un modello multilivello per l’analisi della condizione occupazionale dei laureati
maturità” (altramat). Come riferimento è stata adottata la modalità “scientifica”,
essendo quella che si presenta con la maggior frequenza.
Classe sociale di appartenenza (p_socgen): le modalità assumibili da tale variabile sono: “borghesia” (borghesia), “classe media impiegatizia” (impiegatizia), “piccola borghesia” (picc_borgh), “classe operaia” (operaia). La modalità
presa come riferimento è “borghesia”.
Titolo di studio dei genitori (tit_stud): in una prima fase sono state considerate
le modalità “al più licenza elementare” (elementare), “licenza media inferiore”
(media), “diploma di scuola superiore” (superiori), “un genitore con laurea” (unalau), “entrambi i genitori laureati” (duelau); “diploma di scuola superiore” è
stato assunto come riferimento. In una seconda fase, poiché, da una parte, la variabile nel suo complesso è risultata significativa sulla base del test di Wald multivariato, ma, dall’altra, soltanto alcune delle singole modalità sono risultate tali,
si è deciso di procedere ad un raggruppamento delle suddette modalità, in modo
da facilitare l’interpretazione del risultato finale. In particolare, la variabile
tit_stud è stata ricondotta ad una variabile binaria con modalità “al più scuola
dell’obbligo” (tit_basso) e “almeno diploma di scuola superiore” (tit_alto) –
modalità quest’ultima presa come riferimento .
Regione di residenza (macroreg): anche in questo caso, per gli stessi motivi esposti al punto precedente, la variabile è stata trasformata da politomica in dicotomica. Le modalità iniziali – “province di Firenze e Prato” (Fi_Po), “altra provincia Toscana” (altraToscana), “altra regione del Centro-Nord” (CentroNord),
“Sud e Isole” (Sud), “estero” (estero) – sono state raggruppate nelle due modalità “residente al Centro-Nord o all’estero” (resid_nosud) – modalità assunta come
riferimento - e “residente al Sud” (resid_sud).
Conoscenza della lingua inglese (ling1_gb): le modalità assumibili da tale variabile sono “nessuna/scarsa” (ingl_scarso), “sufficiente” (ingl_suff), “buona”
(ingl_buono), “ottima” (ingl_ottimo). La maggior parte degli intervistati dichiara
una buona conoscenza dell’inglese, quindi questa modalità è stata assunta come
riferimento.
Conoscenza di word processor (info3_wp): le modalità considerate sono le
stesse della variabile ling1_gb (conoscenza della lingua inglese); la modalità più
frequente risulta essere quella relativa ad una buona conoscenza di word processor (wp_buono).
Conoscenza di fogli elettronici (info4_fe): stesse modalità di cui sopra; come
riferimento è stata assunta la scarsa o inesistente conoscenza dell’uso di fogli elettronici, risultando questa la più diffusa. La conoscenza di altri strumenti informatici non è stata presa in considerazione, in quanto trattasi di strumenti peculiari soltanto per alcuni gruppi di laureati (per es. l’uso di CAD per gli archi-
Modelli statistici per l’analisi della transizione Università-lavoro
221
tetti o la conoscenza di Database per gli ingegneri e gli informatici) e, quindi, richiesti eventualmente soltanto per specifiche tipologie di lavori.
Con riferimento alle covariate discrete, il laureato – base è una persona di
sesso femminile, non ha avuto esperienze lavorative durante gli studi, ha conseguito la maturità scientifica, proviene da una famiglia appartenente alla classe
borghese, i genitori sono in possesso del diploma di scuola superiore, risiede nelle province di Firenze o Prato, ha una buona conoscenza della lingua inglese e
dei programmi di scrittura su PC, mentre ha scarse conoscenze dell’uso di fogli
elettronici.
Entrando nel merito delle variabili esplicative di secondo livello, ideale sarebbe stato poter disporre di un indicatore diretto delle differenze tra corsi di laurea.
Non avendo a disposizione nessuna variabile di questo tipo, si è deciso di creare variabili che, in qualche modo, fossero in grado di evidenziare le diverse caratteristiche
dei corsi di laurea dell’Ateneo, ricorrendo all’aggregazione per singoli corsi di alcune variabili di primo livello (livello individuale) ritenute più adatte a tale scopo.
In particolare, le covariate di secondo livello impiegate sono:
• Percentuale di maschi per corso di laurea (maschi_corsi)
• Percentuale di laureati che hanno svolto il tirocinio per il conseguimento del
titolo per corso di laurea (tiroc_corsi)
• Percentuale di laureati che hanno lavorato durante gli studi per corso di
laurea (lav1_corsi)
• Percentuale di laureati con maturità non liceale per corso di laurea (tipmat_corsi)
• Voto medio di maturità per corso di laurea (votodip_corsi): per ogni corso è
stata calcolata la media dei voti di maturità dei laureati ad esso afferenti
• Voto agli esami medio per corso di laurea (votoesami_corsi): per ogni corso è
stata calcolata la media dei voti conseguiti agli esami dai rispettivi laureati. Mentre tra le variabili di primo livello si è scelto di impiegare il voto di laurea piuttosto che il voto medio agli esami per i motivi suddetti, tra le variabili di secondo
livello si è preferito ricorrere al voto agli esami, in quanto presenta, rispetto al
voto di laurea, una distribuzione maggiormente diversificata e, quindi, è in grado
di fornire una rappresentazione migliore delle differenze tra corsi di laurea15.
15
In un secondo momento il modello è stato stimato sostituendo alla variabile votoesami_corsi il voto
di laurea medio per corso di laurea, che però non è risultato significativo.
222
Un modello multilivello per l’analisi della condizione occupazionale dei laureati
5. Stima del modello relativa a tutti i laureati dell’anno 2000
Il modello è stato stimato facendo ricorso alla PROC NLMIXED16 del software
SAS17 con impiego dell’algoritmo di ottimizzazione Dual Quasi–Newton18 e del metodo di quadratura Gaussiana (non adattiva).
Per la stima del modello si è seguito quanto suggerito dalla teoria in materia.
In primo luogo, si è proceduto alla stima del modello vuoto (cioè privo di covariate),
al fine di verificare, attraverso l’analisi della varianza dei residui di secondo livello,
la ragionevolezza del ricorso ad un’analisi multilivello. In secondo luogo, è stato
stimato il modello a intercetta casuale comprendente tutte le variabili di primo livello
e, a questo punto, la selezione del modello è avvenuta eliminando progressivamente
quelle covariate risultanti non significative (ad un livello di significatività del 10%)
sulla base del test di Wald e confrontando tra loro i diversi modelli ottenuti tramite i
risultati del test del rapporto di verosimiglianza e i valori assunti dagli indici AIC e
BIC (cfr. nota 22). Infine, seguendo la medesima procedura, sono state selezionate le
covariate di secondo livello, pervenendo dunque ad un modello a intercetta casuale19 finale a due livelli di aggregazione.
Di seguito verranno riportati e commentati soltanto i risultati relativi alla stima del modello a intercetta casuale comprendente le sole variabili di primo livello
(compresi termini quadratici e interazioni) e quelli relativi alla stima finale, cioè,
quelli relativi alla stima del Modello a intercetta casuale nel quale sono presenti le
sole variabili di primo e secondo livello significative.
Il modello a intercetta casuale in presenza di covariate (variabili esplicative)
assume, per ogni gruppo – corso di laurea - j (j=1, 2,……., 39), la seguente forma
generale:
16
Si tratta di una procedura specifica per la stima di modelli multilivello (con due soli livelli di aggregazione) con variabili risposta discrete (binarie, ordinali, poissoniane ecc.); in altri termini tale procedura tratta dei modelli GLM (Generalized Linear Models) in versione multilivello.
17
Merita sottolineare che il SAS, durante una elaborazione, elimina automaticamente tutte le risposte
mancanti (missing), fatto questo che ha comportato una notevole riduzione del contingente considerato. Una possibile soluzione per evitare fenomeni di questo genere consiste nel procedere ad imputazioni, che siano il più logiche possibile, dei dati mancanti. In realtà, tale procedura può rivelarsi piuttosto pericolosa in termini di correttezza di stima di un modello, soprattutto se le imputazioni a cui si
procede sono numerose e la variabilità di ciascuna covariata è notevole. Quindi, per evitare di inserire
elementi di eccessiva discrezionalità nella stima del modello, si è preferito ignorare i missing.
18
In letteratura sono stati sviluppati numerosi algoritmi di ottimizzazione: la scelta è caduta
sull’algoritmo Dual Quasi-Newton in quanto è in grado di creare un bilanciamento appropriato tra velocità di calcolo e stabilità per la maggior parte dei modelli gerarchici non lineari.
19
Si puntualizza che sono stati testati anche modelli con coefficienti casuali che, però, non hanno dato
risultati degni di attenzione, in quanto, nella maggior parte dei casi, o l’algoritmo di massimizzazione
della funzione di verosimiglianza non ha raggiunto la convergenza oppure i coefficienti stimati non
sono risultati significativi.
Modelli statistici per l’analisi della transizione Università-lavoro
223
Yij = Pij + ε ij ,
dove Yij è il valore assunto dalla variabile risposta per l’i-esimo individuo del j-esimo
gruppo, Pij indica la probabilità di essere occupato per un laureato estratto casualmente da un generico corso di laurea, mentre ε ij rappresenta la componente residua
di I livello avente, per ipotesi, media pari a zero e varianza strettamente dipendente
dalla probabilità media di successo per ogni gruppo j. Usualmente, il modello viene
presentato in funzione di una opportuna trasformazione di Pij, detta trasformazione
logit:
 Pij
log it ( Pij ) = log
1− P
ij

s
m

 = β 0 j + ∑ β k ⋅ x kij + ∑ β t ⋅ z tj .

t =1
k =1

Più precisamente, essendo l’intercetta β 0 j variabile in funzione del gruppo j,
cioè
β0 j = γ 0 + U 0 j ,
il modello assume la seguente forma:
s
m
 Pij 
 = γ 0 + ∑ β k ⋅ x kij + ∑ β t ⋅ z tj + U 0 j ,
log it ( Pij ) = log
1− P 
t =1
k =1
ij 

dove si è indicato con γ 0 la parte fissa dell’intercetta, con xk la k-esima variabile esplicativa di I livello, con zt la t-esima variabile esplicativa di II livello e con β k e
β t i corrispondenti coefficienti di regressione20, mentre U 0 j rappresenta la compo-
nente residua di II livello (in altri termini, la parte variabile dell’intercetta). La ragionevolezza dell’assunzione di tale modello risiede nell’ipotesi di distribuzione normale dei residui di II livello con media pari a 0 e varianza costante21.
La forma esplicita assunta dal modello, considerando in primo luogo soltanto
le covariate di I livello, è la seguente:
20
Si ricorda che nel modello logistico ciascun coefficiente di regressione è uguale al logaritmo
dell’odds ratio associato ad un incremento pari ad 1 della corrispondente variabile esplicativa. In particolare, gli odds ratio non sono altro che il rapporto tra gli odds di due diverse categorie di soggetti;
per esempio, possono rappresentare la probabilità di occupazione rispetto alla probabilità di non occupazione per i maschi rapportata alla probabilità di occupazione rispetto alla probabilità di non occupazione per le femmine.
21
Si fa notare che una condizione fondamentale per l’adozione di un modello multilivello è la significatività della componente di varianza di II livello, condizione questa che è risultata sempre verificata
nel corso delle elaborazioni svolte.
224
Un modello multilivello per l’analisi della condizione occupazionale dei laureati
log it(Pij ) = γ 0 + β1 ⋅ tempolavoroij + β2 ⋅ tempo int ervij + β3 ⋅ votolauij + β4 ⋅ etalauij +
+β5 ⋅ votodipij + β6 ⋅ sessoij + β7 ⋅ lav1ij + β8 ⋅ tirocinij + β9 ⋅ frequenzaij + β10 ⋅ classicaij +
+β11 ⋅ tecnicaij + β12 ⋅ altramatij + β13 ⋅ impiegatiziaij + β14 ⋅ picc _ borghij + β15 ⋅ operaiaij +
+β16 ⋅ tit _ bassoij + β17 ⋅ resid _ sudij + β18 ⋅ ingl _ scarsoij + β19 ⋅ ingl _ suffij +
+β20 ⋅ ingl _ ottimoij + β21 ⋅ wp _ scarsoij + β22 ⋅ wp _ suffij + β23 ⋅ wp _ ottimoij +
+β24 ⋅ fe _ suffij + β25 ⋅ fe _ buonoij + β26 ⋅ fe _ ottimoij +U0 j
Nella Tavola 4 sono riportati i risultati della stima del modello.
Le variabili più significative - con p-value inferiore a 0,0001 - sono tempolavoro e resid_sud. Riguardo a tempolavoro, l’effetto sulla probabilità di occupazione
è molto tenue, ma comunque negativo (variazione negli odds ratio pari 0,98): ciò indica che quanto maggiore è il tempo che un laureato lascia intercorrere tra la laurea e
l’inizio della ricerca di un lavoro, tanto inferiore è la probabilità di risultare occupato
al momento dell’intervista. Riguardo a resid_sud, l’effetto esercitato sulla probabilità
di occupazione è, invece, molto più forte: per i laureati residenti al Sud o nelle Isole
la probabilità di occupazione rispetto a quella di non occupazione è soltanto il 30%
circa della probabilità di occupazione rispetto a quella di non occupazione che si rileva per i laureati residenti al Centro Nord (o all’estero).
Con un p-value pari a 0,0075, il titolo di studio dei genitori (tit_stud) risulta
una delle variabili più significative del modello; la variazione negli odds ratio pari a
1,64 conferma quanto già rilevato in sede di analisi descrittiva: i laureati i cui genitori hanno al più la licenza di scuola dell’obbligo mostrano una probabilità di occupazione di oltre 1,6 volte rispetto ai colleghi con genitori almeno diplomati. Seguono,
con livelli di significatività intorno all’1,5%, le covariate sesso (p-value=1,54%) e
votodip (p-value=1,79%). Riguardo al sesso, la probabilità di occupazione per i laureati maschi rispetto alla probabilità di non occupazione è di circa il 43,0% superiore
a quella delle laureate; relativamente a votodip, l’effetto stimato risulta debole, anche
se positivo, indicando che a voti di maturità più elevati corrispondono tendenzialmente maggiori probabilità di occupazione.
Altre due variabili risultate significative sono votolau (p-value=5,59%) e lav1
(p-value=8,85%); l’effetto del voto di laurea è molto debole, ma negativo - al contrario del voto di maturità – indicando che a voti di laurea più alti corrisponde tendenzialmente una minore probabilità di occupazione. L’effetto stimato per lav1 è, invece, più consistente, risultando una variazione negli odds ratio pari a 1,27, esplicativa
di una maggiore probabilità di occupazione per i laureati che hanno già avuto esperienze lavorative durante gli studi rispetto a quelli che non ne hanno mai avute. Nessuna delle altre variabili inserite nel modello risulta significativa.
Modelli statistici per l’analisi della transizione Università-lavoro
225
Tavola 4. Modello a intercetta casuale con tutte le variabili esplicative di primo livello
Errore
Variazione
Riferimento Stima
Valore t p-value
Standard
odds ratio
Effetti fissi
Intercetta
-2,56660 1,51810
1,69
0,0991
-0,9742
--0,02611 0,00195 -13,42 <,0001
Tempolavoro
-0,01387 0,01260
1,1
0,278
1,0140
Tempointerv
--0,02287 0,01159 -1,97
0,0559
0,9774
Votolau
0,4095
0,9768
--0,02345 0,02813 -0,83
Etalau
2,48
0,0179
1,0252
-0,02486 0,01004
Votodip
0,36100 0,14220
2,54
0,0154
1,4348
Sesso
femmina
1,75
0,0885
1,2678
0,23730 0,13570
lav1
lav1_no
0,19550 0,21040
0,93
0,3586
1,2159
Tirocin
tirocin_no
0,04945 0,14380
0,34
0,7327
1,0507
Frequenza
elevata
-0,15750 0,17250 -0,91
0,3671
0,8543
Classica
scientifica
1,08
0,2881
1,2173
0,19660 0,18250
Tecnica
scientifica
0,19980 0,20180
0,99
0,3285
1,2212
Altramat
scientifica
0,99
0,3270
1,1725
0,15910 0,16030
Impiegatizia
borghesia
-0,27100 0,20200 -1,34
0,1877
0,7626
picc_borgh
borghesia
-0,35760 0,24340 -1,47
0,1499
0,6994
Operaia
borghesia
0,49170 0,17400
2,83
0,0075
1,6351
tit_basso
tit_alto
0,3159
-1,15230 0,24910 -4,63 <,0001
resid_sud
resid_nosud
-0,06570 0,22190
-0,3
0,7688
0,9364
ingl_scarso
ingl_buono
1,01
0,3204
1,1633
0,15130 0,15030
ingl_suff
ingl_buono
0,15510 0,19610
0,79
0,4339
1,1678
ingl_ottimo
ingl_buono
0,18560 0,21020
0,88
0,3829
1,2039
wp_scarso
wp_buono
0,04030 0,17770
0,23
0,8219
1,0411
wp_suff
wp_buono
0,61
0,5429
1,1222
0,11530 0,18770
wp_ottimo
wp_buono
0,28500 0,17630
1,62
0,1143
1,3298
fe_suff
fe_scarso
fe_buono
1,72
0,0934
1,4185
0,34960 0,20310
fe_scarso
1,37
0,1773
1,4586
0,37750 0,27470
fe_ottimo
fe_scarso
Effetti casuali
3,4
0,0016
0,26200 0,07699
Var(U0j)
-Test di Wald multivariato
GdL Valore F di Fisher
p-value
38
1,26
0,3015
Tipmat
38
1,92
0,1432
p_socgen
38
0,61
0,6143
ling1_gb
38
0,34
0,7958
info3_wp
38
1,43
0,2491
info4_fe
L’eliminazione delle covariate non significative e l’analisi dei possibili termini quadratici nonché dei plausibili effetti d’interazione hanno portato alla individuazione del seguente modello:
226
Un modello multilivello per l’analisi della condizione occupazionale dei laureati
log it ( Pij ) = γ 0 + β1 ⋅ tempolavoroij + β 2 ⋅ votodipij + β 3 ⋅ sessoij + β 4 ⋅ lav1ij +
+ β 5 ⋅ tit _ bassoij + β 6 ⋅ resid _ sud ij + β 7lav1× tempolavoro + U 0 j
I risultati conseguiti attraverso la procedura di stima sono riportati nella Tavola 5.
Rispetto al modello iniziale, la differenza più rilevante risiede nell’esclusione
del voto di laurea dalle covariate significative: in pratica ciò è indice della sostanziale
perdita di potere discriminatorio da parte del giudizio finale, a causa essenzialmente
dell’eccessiva concentrazione dello stesso intorno ai valori più elevati.
Per quanto riguarda le variabili esplicative risultate significative, gli effetti
sulla probabilità di occupazione esercitati sia dal tempo intercorso tra la laurea e
l’inizio della ricerca di un lavoro (tempolavoro) che dal voto conseguito alla maturità
(votodip) risultano sostanzialmente immutati rispetto al modello iniziale. Per contro,
per le rimanenti covariate presenti in entrambi i modelli l’effetto stimato mostra variazioni sensibili, benché la “direzione” di tali variazioni rimanga immutata; l’unica
variabile aggiuntiva, rispetto al modello iniziale, risultata significativa è l’interazione
tra lav1 e tempolavoro.
Per tener conto in maniera adeguata della natura gerarchica dei dati si è infine
proceduto all’inserimento delle variabili esplicative di II livello citate precedentemente, così da pervenire ad un modello definitivo. In realtà, a seguito di alcune semplici considerazioni che verranno esposte nelle righe successive, si è preferito concentrare l’attenzione su due possibili modelli alternativi, che differiscono per una sola variabile di secondo livello: la variabile votoesami_corsi è stata sostituita dalla variabile maschi_corsi.
Tavola 5. Modello a intercetta casuale con le variabili esplicative di primo livello
significative e un effetto di interazione
Riferimento
Effetti fissi
intercetta
tempolavoro
votodip
sesso
lav1
tit_basso
resid_sud
lav1*tempolavoro
Effetti casuali
Var(U0j)
---femmina
lav1_no
tit_alto
resid_nosud
---
Stima
Errore
Variazione
Valore t p-value
odds ratio
Standard
0,86910
-0,03310
0,01580
0,32410
0,26210
0,32810
-0,79200
0,01157
0,39200
0,00210
0,00762
0,11590
0,12410
0,11220
0,19660
0,00353
2,22
-11,41
2,07
2,80
2,11
2,92
-4,03
3,28
0,0327
<0,0001
0,0451
0,0081
0,0413
0,0058
0,0003
0,0022
0,41290
0,08024
5,15
<0,0001
-0,9675
1,0159
1,3828
1,2997
1,3883
0,4529
1,0116
Modelli statistici per l’analisi della transizione Università-lavoro
227
Modello A (Modello B)
log it ( Pij ) = γ 0 + β 1 ⋅ tempolavoroij + β 2 ⋅ votodipij + β 3 ⋅ sessoij + β 4 ⋅ lav1ij +
+ β 5 ⋅ tit _ bassoij + β 6 ⋅ resid _ sud ij + β 7 ( lav1 × tempolavoro )ij +
+ β 8 ⋅ votodip _ corsi j + β 9 ⋅ ( votoesami _ corsi ) j ⇐ ( maschi _ corsi ) j + U 0 j
Tavola 6. Modello A: modello a intercetta casuale con variabili esplicative di primo e secondo livello significative e un effetto di interazione
Errore
Variazione
Riferimento
Stima
Valore t p-value
odds ratio
Standard
Effetti fissi
intercetta
--0,01130
2,58150
0,00
0,9965
-0,9679
--0,03261
0,00294 -11,08 <0,0001
tempolavoro
-0,01468
0,00788
1,86
0,0701
1,0148
votodip
0,29750
0,11830
2,52
0,0162
1,3465
sesso
Femmina
1,2766
0,24420
0,12490
1,95
0,0580
lav1
lav1_no
0,33650
0,11290
2,98
0,0050
1,4000
tit_basso
tit_alto
0,4068
0,19960
-4,51 <0,0001
resid_sud
resid_nosud -0,89950
1,0118
0,01170
0,00358
3,27
0,0023
lav1*tempolavoro -0,14200
0,04092
3,47
0,0013
1,1526
votodip_corsi
--0,23090
0,06306
-3,66
0,0008
0,7938
votoesami_corsi
-Effetti casuali
0,42750
0,07939
5,39 <0,0001
Var(U0j)
-Tavola 7. Modello B: modello a intercetta casuale con variabili esplicative di primo e secondo livello significative e un effetto di interazione (maschi_corsi al posto di votesami_corsi)
Errore
Variazione
Riferimento
Stima
Valore t p-value
odds ratio
Standard
Effetti fissi
intercetta
--5,65490
1,93010
-2,93
0,0057
---0,03260
0,00294 -11,09 <0,0001 0,9679
tempolavoro
-0,01458
0,00787
1,85
0,0717 1,0147
votodip
0,29410
0,12080
2,44
0,0197 1,3419
sesso
Femmina
0,23800
0,12450
1,91
0,0635 1,2687
lav1
lav1_no
0,32530
0,11250
2,89
0,0063 1,3844
tit_basso
tit_alto
0,19950
-4,60 <0,0001 0,3998
resid_sud
resid_nosud -0,91690
0,01203
0,00357
3,37
0,0017 1,0121
lav1*tempolavoro -0,12360
0,04187
2,95
0,0054 1,1316
votodip_corsi
-0,84440
0,35030
2,41
0,0209 2,3266
maschi_corsi
-Effetti casuali
0,31660
0,06388
4,96 <0,0001
Var(U0j)
--
228
Un modello multilivello per l’analisi della condizione occupazionale dei laureati
In un confronto tra i due modelli, gli indici AIC e BIC22, assumono valori inferiori per il Modello A (AIC = 2324 e BIC = 2343) rispetto al Modello B (AIC =
2332 e BIC=2350); ciò induce a concludere per una migliore bontà di adattamento
del Modello A a scapito del Modello B. D’altra parte, osservando i valori della varianza della componente residua di secondo livello ci si accorge che per il Modello A
si ottiene un valore pari a 0,43 che, da una parte, risulta sostanzialmente uguale
all’analogo valore ottenuto per il modello privo di variabili di secondo livello e,
dall’altra, è comunque superiore alla varianza degli errori di secondo livello del Modello B, pari a 0,32. In base a tali risultati sembra, dunque, che l’inserimento della
variabile maschi_corsi al posto di votoesami_corsi riesca a spiegare una quota maggiore della variabilità del fenomeno, benché l’adattamento del modello risulti leggermente peggiore.
Alla luce di queste considerazioni si è ritenuto più opportuno presentare entrambi i modelli. Il motivo che ha indotto a non inserire le due variabili maschi_corsi
e votoesami_corsi in un unico modello è da ricercarsi nella loro elevata correlazione
(–0,47)23, l’inserimento di entrambe le variabili nello stesso modello avrebbe comportato (come infatti è successo) la selezione di una sola delle due.
In entrambi i modelli, delle sei variabili di secondo livello prese in considerazione inizialmente, soltanto due risultano significative: il voto medio agli esami o la
percentuale di maschi, appunto, e il voto medio di maturità per corso di laurea. Ri22
Il criterio d’informazione di Akaike (Akaike’s Information Criterion – AIC) e il criterio d’informazione bayesiano di Schwarz (Schwarz’s Bayesian Information Criterion – BIC) sono due grandezze
impiegate ogni volta che si è interessati ad un confronto tra modelli contenenti diverse variabili esplicative. Per un generico modello M i due indici vengono così definiti:
AIC = DevM + 2k
BIC = DevM + k ln( N )
dove DevM è il doppio prodotto della differenza tra la log-verosimiglianza del c.d. modello saturo – vale a dire il modello contenente un parametro per ciascuna osservazione e, quindi, dotato della massima
capacità di adattamento ai dati osservati (e della minima capacità di sintesi delle informazioni) – e la
log-verosimiglianza del modello M, k è il numero complessivo di parametri stimati e N è il numero di
unità di secondo livello. Dal momento che quanto più piccola è la devianza del modello tanto migliore
è la sua bontà di adattamento ai dati osservati (in tal caso infatti si riduce la “distanza” tra il modello M
ed il modello saturo) e dal momento che al diminuire della devianza anche i valori dei due indici diminuiscono (a parità di k), in un confronto tra due o più modelli diversi possiamo ritenere migliore, in
termini di bontà di adattamento, quello che presenta il valore AIC o BIC più basso di tutti gli altri.
Si osservi, però, che entrambi gli indici aumentano all’aumentare di k, cioè del numero di parametri
inseriti nel modello, anche se questi potrebbero non essere significativi: è, quindi, necessario ricorrere
con cautela all’impiego di questi due indicatori, accertandosi in via preventiva che i parametri inseriti
nei modelli posti a confronto raggiungano il livello di significatività desiderato.
23
I corsi di laurea dove prevale la presenza maschile (es. i corsi della facoltà di Ingegneria) sono caratterizzati da votazione media più bassa, mentre nei corsi di laurea a prevalenza femminile (es. i corsi
della facoltà di Lettere e Filosofia) i voti medi agli esami sono più alti.
Modelli statistici per l’analisi della transizione Università-lavoro
229
guardo al voto medio agli esami per corso di laurea si osserva un effetto negativo sulla probabilità di occupazione, risultando una variazione negli odds ratio pari a 0,79:
in altri termini, un laureato proveniente da un corso di laurea caratterizzato da voti
medi elevati ha circa il 20% in meno di possibilità di occupazione rispetto ad un laureato proveniente da un corso di laurea caratterizzato da voti medi più bassi. Per
comprendere meglio si pensi ai corsi di laurea attivati a Ingegneria e a quelli attivati
a Lettere e Filosofia: le analisi svolte hanno evidenziato come i voti medi agli esami
di Ingegneria siano di gran lunga inferiori a quelli di Lettere e Filosofia, mentre i tassi di occupazione sono sicuramente più elevati nel primo caso che non nel secondo.
Coerentemente, il Modello B mostra che per un laureato proveniente da un corso di
laurea a prevalenza maschile la probabilità di occupazione rispetto a quella di non
occupazione è di oltre 2,3 volte la stessa probabilità per un laureato proveniente da
un corso di laurea a prevalenza femminile. Riguardo al voto medio di maturità per
corso di laurea (votodip_corsi), si rileva un effetto positivo: quanto più sono “bravi”
gli studenti di un certo corso di laurea e tanto maggiore è la probabilità che gli stessi,
una volta laureati, risultino occupati nel breve termine; più precisamente,
all’aumentare del voto medio di maturità per corso di laurea, la probabilità di occupazione rispetto a quella di non occupazione aumenta di 1,13-1,15 volte (rispettivamente Modello B e Modello A).
Riguardo, infine, alle stime dei coefficienti delle variabili di primo livello
comprese nei due modelli, non si rilevano particolari differenze né tra il Modello A e
il Modello B (anche in termini di significatività delle variabili), né tra ciascuno di
questi due rispetto al modello privo di variabili di secondo livello.
A completamento dell’analisi, per ognuno dei 39 corsi di laurea sono stati
stimati i relativi odds sulla base del modello a intercetta casuale con variabili esplicative di primo e secondo livello24. Dal momento che gli odds vengono stimati tenendo
conto delle caratteristiche individuali e di contesto di ciascun corso di laurea, a livello interpretativo il valore assunto, per un particolare corso di laurea, dal relativo odd
esprime la probabilità di occupazione rispetto alla probabilità attesa di non occupazione a un anno e mezzo / due anni e mezzo dalla laurea per il laureato medio proveniente da quel corso. Quella che si ottiene è una graduatoria esplicativa della diversa
capacità di ciascun corso di creare occupazione nel breve termine (cfr. Figura 1).
In generale, gli odds che si ottengono assumono valori molto elevati, elemento questo che indica come i laureati dell’Ateneo fiorentino non incontrino particolari
difficoltà di inserimento nel mondo del lavoro (l’odd stimato per l’intero ateneo risulta pari a 7,3); tuttavia, le differenze tra i singoli corsi di laurea risultano essere
24
Per non appesantire troppo la lettura, i risultati commentati in queste note conclusive si riferiscono
soltanto al Modello A, cioè al modello contenente la variabile di secondo livello votoesami_corsi; si
puntualizza, comunque, che le stesse analisi svolte per il Modello B non hanno posto in evidenza differenze particolari e, dunque, non avrebbero condotto a conclusioni sostanzialmente diverse.
230
Un modello multilivello per l’analisi della condizione occupazionale dei laureati
Figura 1. Odds medi previsti per ogni corso di laurea, stimati sulla base del Modello A
(tutti i laureati)
25
Odds medi previsti
20
15
10
5
0
Ingegneria civile
Ingegneria meccanica
Scienze della informazione
Odontoiatria e protesi dentaria
Ingegneria elettronica
Ingegneria per l'ambiente e il territorio
Scienze statistiche ed attuariali
Economia aziendale
Farmacia
Chimica e tecnologia farmaceutiche
Lingue e letterature straniere (europee)
Architettura
Ingegneria delle telecomunicazioni
Matematica
Economia e commercio
Scienze statistiche ed economiche
Ingegneria informatica
Scienze della educazione
Scienze forestali ed ambientali
Fisica
Chimica
Scienze e tecnologie agrarie
Lingue e letterature straniere
Scienze agrarie
Scienze politiche
Scienze forestali
Scienze biologiche
Lingue e letterature straniere moderne
Scienze agrarie tropicali e subtropicali
Scienze naturali
Scienze geologiche
Psicologia
Lettere
Materie letterarie
Filosofia
Storia
Pedagogia
Medicina e chirurgia
Giurisprudenza
Corsi di laurea
piuttosto consistenti. A tal proposito si individuano quattro gruppi principali: un primo gruppo comprende quei corsi con odds inferiori a 5; un secondo gruppo comprende corsi con odds superiori a 5 e inferiori a 10; al terzo gruppo appartengo i corsi
con odds superiori a 10 e inferiori a 15; infine, dell’ultimo gruppo fanno parte i corsi
con odds superiori a 15.
In particolare, al primo gruppo appartengono, tra gli altri, i corsi di laurea in
Giurisprudenza e Medicina e chirurgia, che con gli odds in assoluto più bassi (pari a
1,5) confermano ampiamente quanto già sottolineato riguardo all’alto numero di laureati in tali discipline impegnati in attività di formazione e specializzazione postlaurea.
Modelli statistici per l’analisi della transizione Università-lavoro
231
Per contro, i due corsi di laurea che fanno registrare odds superiori a 15 appartengono alla Facoltà di Ingegneria (Ingegneria meccanica e Ingegneria civile con
odds rispettivamente pari a 19,7 e 24,6); facoltà questa che presenta, per tutti i corsi
di laurea, valori superiori alla media di Ateneo, essendo infatti Ingegneria informatica il corso con odd più basso (lievemente superiore a 7,3).
6. Considerazioni conclusive
I risultati delle analisi svolte consentono di concludere che la probabilità di
occupazione rispetto alla probabilità di non occupazione per un laureato risulta maggiore per i maschi che non per le femmine, per coloro che hanno avuto esperienze lavorative durante gli studi piuttosto che per chi non ne ha mai avute, per coloro che
provengono da famiglie con basso profilo culturale rispetto ai laureati i cui genitori
sono in possesso per lo meno di un diploma di scuola superiore, per coloro che risiedono nelle regioni del Centro-Nord piuttosto che per i residenti nel Sud Italia. Inoltre,
la probabilità di occupazione è tanto maggiore quanto più elevato è il voto di maturità e quanto più breve è il tempo che il laureato lascia intercorrere tra il conseguimento del titolo e l’inizio della ricerca di un lavoro, variabile questa il cui effetto dipende
altresì dal fatto che il laureato abbia avuto precedenti esperienze di lavoro durante gli
studi. Infine, a parità di valori assunti dalle variabili individuali, la probabilità di occupazione è maggiore per i laureati che provengono da corsi di laurea caratterizzati
da elevate percentuali di maschi, che si distinguono per voti medi agli esami relativamente bassi e che attirano gli studenti più bravi, cioè con voti di maturità più elevati.
I risultati delle analisi svolte, molto sommariamente richiamati in questa nota,
giustificano, a nostro parere, ampiamente il ricorso ai modelli multilivello quando si
procede all’analisi di dati che riguardano gli studenti universitari25; infatti, è del tutto
25
In tale direzione si sta movendo da tempo il gruppo VALMON (Valutazione e Monitoraggio). Il
gruppo, coordinato da B. Chiandotto e costituito da laureandi, dottorandi e docenti del Dipartimento di
Statistica dell’Università degli Studi di Firenze, da diversi anni svolge attività di studio e ricerca nel
contesto della valutazione e del monitoraggio dei processi formativi che si svolgono nell’Ateneo fiorentino. Testimoniano, tra l’altro, tale interesse altri due lavori presentati in questa sede:
“L’abbandono degli studi universitari” (Chiandotto B. e Giusti C.); “Un modello multilivello per
l’analisi della durata degli studi universitari” (Chiandotto B. e Varriale R.), il già citato volume “I
laureati e diplomati dell’Ateneo fiorentino dell’anno 2000: profilo e sbocchi occupazionali (Chiandotto B., Bacci S. e Bertaccini B.; 2004) che, oltre a contenere una versione molto più dettagliata
dell’analisi svolta ed i cui risultati sono stati qui riassunti, tratta anche dell’applicazione del modello
di regressione logistica ordinale a due livelli dove la variabile di interesse di cui si vogliono individuare le possibili determinanti è rappresentata dall’utilizzo sul posto di lavoro delle competenze acquisite
232
Un modello multilivello per l’analisi della condizione occupazionale dei laureati
evidente la natura gerarchica dei dati: le unità di primo livello sono i laureati o i diplomati, mentre le unità di secondo livello sono i corsi di studio. Ovviamente la gerarchizzazione può essere estesa ad un numero di livelli più elevato: ad esempio le
facoltà possono rappresentare il terzo livello e gli atenei il quarto livello.
Riferimenti bibliografici
BERTACCINI B. (2000) I laureati dell’Ateneo Fiorentino dell’anno 1998 – Profilo
e sbocchi occupazionali, Università degli Studi di Firenze, Firenze.
BIGGERI L., BINI M. (1999) A multilevel logistic model for the analysis of the Italian universities effectiveness, Proceedings of the Annual Meeting of the American
Statistical Association, Baltimore (agosto 1999).
BIGGERI L., GRILLI L., BINI M. (2001) The transition from university to work: a
multilevel approach to the analysis of the time to obtain the first job, Journal of the
Royal Statistical Society - Series A, 162(2): 293-305.
BINI M., PRATESI M. (2001) Un modello multi-livello per stimare l’efficacia esterna della formazione universitaria con un disegno di campionamento complesso, Atti
del Convegno “Processi e Metodi Statistici di Valutazione”, Roma, 4-6 giugno 2001,
Società Italiana di Statistica.
BINI M. (1999) Valutazione della Efficacia dell'Istruzione Universitaria rispetto al
Mercato del Lavoro, RdR 03/99, Osservatorio per la Valutazione del Sistema Universitario
MURST
–
Roma,
consultabile
anche
sul
sito
www.cnvsu.it/publidoc/comitato/default.asp.
BULGARELLI G. (2002) I laureati dell’Ateneo Fiorentino dell’anno 1997 – Profilo
e sbocchi occupazionali, Università degli Studi di Firenze, Firenze.
CHIANDOTTO B. (2002) Profilo e condizione occupazionale dei laureati
dell’Ateneo Fiorentino ad uno, due e tre anni dal conseguimento del titolo, Università degli Studi di Firenze, Firenze.
CHIANDOTTO B., BACCI S., BERTACCINI B. (2004) I laureati e diplomati
dell’Ateneo Fiorentino dell’anno 2000: profilo e sbocchi professionali, Università
degli Studi di Firenze, Firenze.
CHIANDOTTO B., BERTACCINI B. (2003) I laureati e diplomati dell’Ateneo Fiorentino dell’anno 1999: profilo e sbocchi professionali, Università degli Studi di Firenze, Firenze.
FIELDING A., YANG M., GOLDSTEIN H. (2003) Multilevel ordinal models for
examination grades, Statistical modelling, vol. 3, n. 2: 127 - 153.
all’università. Nello stesso contesto si colloca il volume di Bini M. (1999): “Valutazione della Efficacia dell'Istruzione Universitaria rispetto al Mercato del Lavoro”.
Modelli statistici per l’analisi della transizione Università-lavoro
233
FOTOUHI A. R. (2004) Comparisons of estimation procedures for nonlinear multilevel models, http://www.jstatsoft.org/v08/i09/Paper.pdf.
GOLDSTEIN H. (2003) Multilevel statistical models, Arnold Publishers, London.
HECK R. H., THOMAS S.L. (2000) An Introduction to Multilevel Modelling Techniques, LEA, London.
HEDEKER D. (2004) Multilevel Models for Ordinal and Nominal Variables,
http://tigger.uic.edu/~hedeker/ml.html.
SINGER J.D. (1998) Using SAS PROC MIXED to Fit Multilevel Models, Hierarchical Models, and Individual Growth Models, Journal of educational and Behavioral Statistics, vol.24, n. 2: 323 - 355.
SNIJDER A.B., BOSKER R. J. (1999) Multilevel analysis. An introduction to basic
and advanced multilevel modelling, Sage Publications, London.
234
Un modello multilivello per l’analisi della condizione occupazionale dei laureati
A multilevel model for analysing the graduate employment
Summary. The subject of this contribution is an analysis of the employment state of
graduates from the University of Florence during the year of 2000, up to one and a
half/ two years and a half from the date of graduation. The relative aim is pursued by
detecting the possible determining factors of the phenomenon under study at both an
individual (such as sex, place of residence, high school diploma, final marks towards
the degree) and an institutional (in terms of the distinctive characteristics of the various courses of studies) level. The use of descriptive analyses is preparatory for the
application of a model of logistic regression with random intercept having two levels
of aggregation, recourse to which is justified by the need to make due allowances for
the hierarchical structure of the data that are the subject of the study. In fact, graduates of the University of Florence were considered as a first-level unit, while the respective degree courses were considered as a second-level unit.
Keywords: Multilevel models, Logistic regression, Employment opportunities, Probability of employment.
Le componenti della soddisfazione
rispetto al lavoro svolto: un’indagine sui laureati
dell’Università degli Studi di Bari 1
Furio Camillo°*, Francesco CampobassoL, Corrado CrocettaK
Angelo di Francia*, Giulia SallustioL
° Dipartimento Scienze Statistiche “Alma Mater Studiorum”, Università di Bologna
L
Dipartimento Scienze Statistiche, Università degli Studi di Bari
K
Dipartimento Scienze Econ. Mat. e Statistiche, Università degli Studi di Foggia
* Consorzio Interuniversitario AlmaLaurea
Riassunto. Obiettivo di questo lavoro è individuare le componenti della soddisfazione lavorativa dei laureati nella sessione estiva 2002 dell’Università degli Studi di Bari, intervistati nell’ambito dell’indagine condotta dal Consorzio interuniversitario
AlmaLaurea. Dapprima sono stati individuati gli aspetti che spiegano meglio la soddisfazione complessiva sul lavoro svolto. In particolare, segmentando gli intervistati
con un algoritmo E-CHAID, sono emersi sottogruppi che differiscono fra loro
soprattutto in termini di soddisfazione per l’acquisizione di professionalità, per la rispondenza del lavoro ai propri interessi culturali e per le prospettive di guadagno.
Successivamente è stato stimato un modello MIMIC per studiare la struttura causale
delle variabili osservate e latenti. Si è così verificato che la soddisfazione lavorativa
dipende prevalentemente dall’ambiente di lavoro e dalla crescita professionale.
Parole chiave: Laureati, Università di Bari, Soddisfazione lavorativa, Analisi di
segmentazione, E-CHAID, Modello ad equazioni strutturali, LISREL, MIMIC.
1.
Introduzione
Le numerose ricerche sulle modalità di erogazione dei servizi hanno consentito di
mettere a punto metodologie statistiche ad hoc per misurare le relative performance.
In generale il concetto di performance si identifica nelle accezioni di efficacia (Biggeri, 1983) e di efficienza. Con riferimento all’istruzione universitaria, la prima ac1
Del presente lavoro, opera congiunta degli autori, è attribuibile a F. Camillo e A. di Francia la redazione del paragrafo 2, a F. Campobasso quella dei paragrafi 1,4, 5 e 7, a C. Crocetta quella dei paragrafi 6, 8 e 9 ed a G. Sallustio quella del paragrafo 3.
236
Le componenti della soddisfazione rispetto al lavoro svolto: un’indagine sui laureati...
cezione diventa più rilevante della seconda, ove si pensi all’importanza dei risultati
prodotti dalla formazione nel contesto socio-economico primario in cui essa si innesta: il mercato del lavoro. In un simile contesto la valutazione dell’efficacia non può
basarsi esclusivamente su dati oggettivi, ma deve considerare anche gli aspetti soggettivi legati alla soddisfazione dei laureati. Evidentemente la misura della soddisfazione varia a seconda delle scale di preferenza di ciascun intervistato e dipende anche
dall’ambito culturale di appartenenza.
La domanda a cui intendiamo rispondere è: in che modo i laureati occupati
giudicano la loro attività lavorativa e quali sono gli aspetti che influiscono maggiormente sul loro giudizio? Tali aspetti, infatti, vengono spesso trascurati da quanti studiano il placement di chi consegue un titolo accademico e finiscono con l’essere ignorati in fase di programmazione dell’offerta formativa delle Università.
Il collettivo esaminato è quello dei laureati nella sessione estiva 2002 dell’Università degli Studi di Bari, intervistati nel corso dell’indagine telefonica condotta dal Consorzio interuniversitario AlmaLaurea, che hanno dichiarato di essere occupati. Si noti che abbiamo concentrato la nostra attenzione solo su questo sottogruppo
- e non anche su quello dei disoccupati - perché in tal caso sarebbe stata necessaria la
conoscenza di ulteriori informazioni non rilevate dall’indagine AlmaLaurea, la quale
è concepita essenzialmente per valutare l’inserimento lavorativo dei laureati.
2.
L’indagine AlmaLaurea sui laureati
L’indagine sui laureati condotta dal Consorzio AlmaLaurea fornisce una puntuale fotografia del capitale umano formato dalle università italiane e costituisce un riferimento molto particolare per tutti coloro che guardano al sistema d’istruzione superiore come ad un settore nevralgico dello sviluppo. Il Consorzio, attualmente (dicembre 2004) costituito da 40 Atenei, fornisce una serie di servizi volti a favorire
l’inserimento lavorativo dei laureati e l’analisi periodica e tempestiva delle caratteristiche e dell’impatto sul mercato del lavoro dei neolaureati delle Università consorziate.
Per il presente studio sono stati utilizzati in modo integrato i dati provenienti
dagli archivi amministrativi dell’Università degli Studi di Bari, le informazioni del
questionario compilato dai laureati alla vigilia del conseguimento del titolo e le risposte fornite dagli stessi nel corso dell’indagine telefonica condotta, ad un anno dalla laurea, dal Consorzio AlmaLaurea.
L’integrazione della documentazione amministrativa con le informazioni ricavate dai questionari somministrati agli studenti al termine del loro percorso universitario consente l’analisi di un ampio spettro di variabili. In particolare, il dato amministrativo è utilizzato per approfondire aspetti quali il Profilo Anagrafico, gli Studi
secondari superiori e la Riuscita negli studi universitari, mentre gli approfondimenti
Modelli statistici per l’analisi della transizione Università-lavoro
237
su variabili appartenenti ai gruppi: Origine sociale, Come si studia all’università, Valutazione dell’esperienza universitaria e delle strutture universitarie, Conoscenze linguistiche e informatiche, Lavoro durante gli studi, Prospettive di studio e Prospettive
di lavoro sono condotti sul collettivo dei laureati di cui si dispone delle informazioni
restituite dal questionario.
L’indagine telefonica riprende molte delle informazioni contenute nel questionario suddetto, aggiornandole alla luce delle esperienze lavorative o formative
maturate dopo la laurea. La struttura della rilevazione, oltre che lo status occupazionale (lavora, non lavora ma non cerca, non lavora e cerca), consente di misurare altri
attributi significativi quali, la tipologia contrattuale, la partecipazione ad attività di
formazione post-laurea, i canali ed i tempi utilizzati per trovare lavoro, i rami di attività economica prevalenti rispetto al percorso di studi completato, le differenze territoriali e di genere.
Il rendimento sul mercato del lavoro dei diversi titoli di studio è espresso attraverso alcuni elementi di sintesi: l’efficacia, ottenuta sintetizzando le opinioni dei
laureati circa l’utilizzazione delle competenze acquisite durante gli studi e la necessità formale e sostanziale del titolo sul mercato del lavoro. Si chiede, inoltre, di attribuire un punteggio - in una scala crescente di numeri naturali da 1 a 10 - alla soddisfazione complessiva rispetto all’attività svolta ed anche ai suoi diversi aspetti quali:
le prospettive di guadagno e di carriera, la stabilità e la sicurezza del lavoro, la coerenza con gli studi fatti, l’acquisizione di professionalità, la rispondenza con i propri
interessi culturali, l’indipendenza e l’autonomia sul lavoro, il tempo libero, il luogo
di lavoro ed i rapporti con i colleghi sul luogo di lavoro.
La scelta della scala 1-10 è frutto di un compromesso fra l’esigenza di semplicità dell’intervista telefonica e l’esigenza di avere una gradazione sufficientemente
dettagliata per poter sintetizzare efficacemente un fenomeno distribuito su un
continuum psicologico, variabile da individuo ad individuo.
Dei 1813 laureati presso l’Ateneo barese nella sessione estiva 2002 (maggioluglio), ben 1505 sono stati intervistati nel corso dell’indagine telefonica realizzata
da AlmaLaurea nel periodo settembre-novembre 2003, con un tasso di risposta pari
all’83%. Tutti gli intervistati appartenevano al vecchio ordinamento e perciò non vi
sono laureati triennali. In particolare, tra loro 565 hanno dichiarato di essere occupati, 342 di non lavorare e di non cercare lavoro, mentre 598 laureati non lavoravano
ed erano in cerca di un’occupazione.
3.
Analisi delle risposte fornite dai laureati occupati.
In questo paragrafo concentreremo la nostra attenzione sui 565 dottori che, al
momento dell’intervista, hanno dichiarato di essere occupati.
238
Le componenti della soddisfazione rispetto al lavoro svolto: un’indagine sui laureati...
Come si vede dalla Tab. 1, la maggior parte degli intervistati ha iniziato a lavorare come dipendente o con contratti di collaborazione, mentre solo il 9,6% ha deciso di rischiare in proprio avviando una attività autonoma.
Tabella 1. Laureati occupati intervistati per tipologia di rapporto lavorativo.
%
Rapporto lavorativo Occupati
Lavoratori dipendenti
323 57,2
Lavoratori autonomi
54
9,6
Collaboratori
137 24,2
Senza contratto
49
8,6
Non risponde
2
0,4
Totale
565 100,0
Tabella 2. Laureati occupati intervistati per tipologia di contratto lavorativo.
Contratto lavorativo Occupati
%
Stabile
202 35,8
Atipico
244 43,2
Formazione lavoro
68 12,0
Senza contratto
49
8,6
Non risponde
2
0,4
Totale
565 100,0
Tabella 3. Laureati occupati intervistati per luogo di lavoro.
Luogo di lavoro
Occupati
%
Nella provincia di residenza
394 69,7
Fuori dalla provincia di residenza
170 30,1
Non risponde
1
0,2
Totale
565 100,0
Tabella 4. Media e variabilità dei singoli aspetti della soddisfazione lavorativa.
Aspetti della
Voto
Scarto
Coefficiente di
Soddisfazione
medio
quadratico medio
variazione (%)
Rapporto con i colleghi
8,0
1,6
19,6
Professionalità
7,5
1,8
24,6
Indipendenza
7,4
1,8
24,6
Luogo di lavoro
7,4
1,8
24,5
Interessi culturali
7,0
2,3
32,7
Sicurezza lavoro
6,5
2,4
37,4
Coerenza studi fatti
6,5
2,7
42,0
Guadagno
6,4
2,0
31,8
Carriera
6,4
2,4
37,3
Tempo libero
6,1
2,4
38,5
Soddisfazione complessiva
7,1
1,9
26,8
Modelli statistici per l’analisi della transizione Università-lavoro
239
I contratti atipici e di formazione lavoro rappresentano il canale preferenziale
per l’ingresso nel mondo produttivo (Tab. 2). Generalmente, infatti, un contratto a
tempo indeterminato arriva solo dopo alcuni anni di esperienza lavorativa maturata in
condizioni precarie.
La maggior parte degli intervistati riesce a trovare lavoro nella propria provincia di residenza, ma non è trascurabile la percentuale di laureati che decidono di
trasferirsi per motivi di lavoro (Tab. 3).
L’indagine sulle componenti della soddisfazione complessiva rispetto al lavoro svolto prende le mosse da una analisi delle medie e della variabilità dei diversi aspetti considerati, così come sintetizzati nella Tab. 4.
Si noti che le osservazioni disponibili vengono scremate, da ora in poi, di quei
34 laureati che non hanno espresso il proprio giudizio in ordine a tutti e 10 tali aspetti.
Analizzando le risposte fornite dai laureati intervistati, si nota che il voto medio varia da
un minimo di 6,1 per il tempo libero ad un massimo di 8,0 per il rapporto con i colleghi.
La differenza fra questi due voti è di appena 1,9 punti. Per coloro che operano nelle istituzioni universitarie rileva che, sempre in termini medi, la soddisfazione per la coerenza
con gli studi fatti (pari a 6,5) risulti leggermente inferiore a quella complessiva (pari a
7,1) e presenti il coefficiente di variazione più alto. Pur senza entrare ancora nel merito
di quanto l’una incida sull’altra, è possibile affermare sin d’ora la necessità di adeguare
i percorsi formativi alle esigenze del mondo produttivo in continua evoluzione.
Analizzando la correlazione tra la soddisfazione complessiva e quella per i
singoli aspetti, qui di seguito riepilogata, emerge che la stessa è abbastanza alta con
riferimento agli aspetti legati alla crescita professionale ed economica, è mediamente
presente con riferimento agli aspetti legati alla vivibilità della condizione lavorativa
ed invece è praticamente assente nel caso del tempo libero.
Tabella 5. Correlazione dei singoli aspetti della soddisfazione lavorativa tra di loro e con la
soddisfazione complessiva.
Aspetti della soddisfazione
Aspetti della
soddisfazione
1
2
3
4
5
6
7
8
9
10
1
1 Guadagno
0,6
1
2 Carriera
0,4 0,5
1
3 Sicurezza lavoro
0,3 0,4 0,3
1
4 Coerenza studi fatti
0,4 0,5 0,3 0,6
1
5 Professionalità
0,3 0,4 0,3 0,6 0,6
1
6 Interessi culturali
0,4 0,4 0,3 0,3 0,4 0,4
1
7 Indipendenza
0,1 -0,0 0,1 0,0 -0,0 0,1 0,2
1
8 Tempo libero
0,3 0,2 0,2 0,2 0,3 0,3 0,4 0,2
1
9 Luogo lavoro
0,2 0,2 0,2 0,2 0,3 0,3 0,3 0,2 0,4
1
10 Rapporto colleghi
0,5 0,5 0,4 0,5 0,6 0,6 0,5 0,0 0,3 0,3
S Soddisfaz. complessiva
240
Le componenti della soddisfazione rispetto al lavoro svolto: un’indagine sui laureati...
Passando ad osservare la correlazione tra i singoli aspetti della soddisfazione,
emerge che i coefficienti maggiori sono quelli fra le variabili prospettive di “guadagno” e di “carriera” e fra la rispondenza agli “interessi culturali” e l’acquisizione di
“professionalità” e fra questa ultima e la “coerenza con gli studi fatti”. La più bassa
riguarda il “tempo libero” con quasi tutti gli altri aspetti. In sintesi, dunque, sembrano abbastanza concordi tra loro rispettivamente i due aspetti legati alla crescita economica ed i tre aspetti legati alla crescita professionale.
4.
L’analisi dell’effetto “facoltà di provenienza” sui diversi aspetti
della soddisfazione per il lavoro svolto
Per verificare se la facoltà di provenienza influenzi in qualche modo la soddisfazione lavorativa, è preliminarmente necessario escludere dall’esame quelle il cui
numero di intervistati è così esiguo da mettere in discussione l’attendibilità dei risultati che ne scaturirebbero. In particolare non vengono presi in considerazione 10 laureati di Agraria, 6 di Medicina e Chirurgia ed 1 di Medicina Veterinaria.
La Tab. 6 riporta le medie, gli scarti quadratici medi e i coefficienti di variazione dei punteggi assegnati alla soddisfazione complessiva dagli intervistati delle 8
facoltà considerate.
Le facoltà scientifiche presentano una media un poco più alta ed un coefficiente di variazione un poco più basso delle altre; del resto l’idea che la diversa provenienza dei laureati non incida più di tanto sulla soddisfazione complessiva è confermata dal livello di significatività osservato del test F relativo all’analisi della varianza ad un criterio, che risulta all’incirca pari a 0,07.
Tabella 6. Media e variabilità della soddisfazione lavorativa complessiva per facoltà di provenienza.
N.
Scarto
Coefficiente di
Media
Facoltà
osservazioni
quadratico medio variazione (%)
40
7,8
1,4
18,5
Farmacia
53
7,4
1,8
24,0
Scienze mm.ff.nn.
72
7,2
1,7
24,4
Scienze formazione
138
7,1
1,7
26,8
Economia
54
7,0
1,8
26,6
Lettere e filosofia
61
6,9
1,8
26,7
Giurisprudenza
54
6,8
2,0
28,7
Scienze politiche
42
6,5
2,3
35,6
Lingue straniere
Università di Bari
531
7,1
1,9
26,8
Modelli statistici per l’analisi della transizione Università-lavoro
241
Anche il tentativo di analizzare l’effetto “facoltà di provenienza” mediante un
modello multilivello (che presenti almeno intercette aleatorie eteroschedastiche, in
aggiunta ai dieci aspetti considerati quali regressori) è risultato vano, proprio perché
la soddisfazione complessiva non varia in modo significativo da una facoltà all’altra.
Peraltro la scarsità di osservazioni disponibili, a fronte di un cospicuo numero di parametri incogniti, condurrebbe a stime poco stabili.
Passando ad esaminare i valori medi e gli indici di variabilità dei singoli aspetti della soddisfazione lavorativa per facoltà di provenienza riportati in Tab. 7, si
nota che la distribuzione della soddisfazione lavorativa media risulta molto difforme
da quella relativa al tempo libero, a confermare l’indicazione già desunta
dall’osservazione del corrispondente coefficiente di correlazione. Non prendendo
dunque in considerazione il tempo libero, si rileva che tutti gli altri aspetti della soddisfazione (compresa quella complessiva) assumono i valori medi più bassi in corrispondenza della facoltà di Lingue e di Scienze politiche, ad eccezione della sicurezza
del lavoro. E’ singolare, infatti, che i laureati in Scienze politiche presentino una media della soddisfazione per la sicurezza del lavoro pari a 7,1 (la seconda più alta dopo
quella che caratterizza la facoltà di Farmacia), mentre i laureati in Lettere una media
pari a 5,6 (la più bassa di tutte). Una possibile spiegazione risiede nel fatto che molti
laureati in Scienze Politiche sono già occupati al momento del conseguimento del titolo accademico.
Invero è anche singolare che i laureati in Lingue presentino una media della
soddisfazione per l’acquisizione di professionalità pari a 7,4, che è la terza più alta
dopo quelle che caratterizzano le facoltà di Farmacia e Scienze della formazione.
Tabella 7. Distribuzione dei singoli aspetti medi della soddisfazione lavorativa per
facoltà di provenienza.
UniFacoltà
versiAspetti della
Sc. mm. Scienze
Lettere e
Scienze
Economia
Giurispr.
Lingue
Farmacia
Formaz.
filosofia
ff.nn.
politiche
soddisfazione
tà
8,7
8,2
8,0
7,9
8,1
7,9
8,0
7,8
8,0
Rapporto colleghi
8,1
7,6
7,3
7,4
7,5
7,1
7,5
6,8
7,5
Indipendenza
8,5
7,3
7,7
7,4
7,4
7,0
6,9
7,4
7,4
Professionalità
7,9
7,6
7,3
7,2
7,7
7,1
7,5
7,0
7,4
Luogo lavoro
8,1
7,2
7,5
6,8
7,0
6,8
6,2
6,2
7,0
Interessi culturali
7,6
6,8
6,0
6,5
5,6
6,7
7,1
5,9
6,5
Sicurezza lavoro
8,0
7,0
6,8
6,7
5,7
5,9
5,2
5,5
6,5
Coerenza studi
7,5
6,6
5,8
6,6
6,2
6,1
6,3
5,8
Guadagno
6,4
7,2
6,5
6,1
6,7
6,1
6,2
6,2
5,6
6,4
Carriera
6,2
6,7
6,4
5,2
6,7
6,3
6,3
6,6
6,1
Tempo libero
7,4
7,2
7,1
7,0
6,9
6,8
6,5
7,1
Soddisf. complessiva 7,8
242
Le componenti della soddisfazione rispetto al lavoro svolto: un’indagine sui laureati...
Data la contestuale insoddisfazione dei laureati in Lingue rispetto alla coerenza con gli studi fatti (la cui media è pari a 5,5), si deve ritenere che essi accettino
primi impieghi nei quali imparano mansioni non strettamente pertinenti con la loro
formazione.
D’altro canto i laureati in Scienze della formazione, che presentano una media della soddisfazione complessiva tra le più alte (pari a 7,4), sono però meno soddisfatti degli altri rispetto alle prospettive di guadagno (media pari a 5,8) e alla sicurezza del lavoro (media paria a 6,0).
In generale i laureati nelle due facoltà scientifiche (Farmacia e Scienze
mm.ff.nn.) sono i più soddisfatti con riferimento a tutti gli aspetti, mentre i laureati
nelle facoltà umanistiche (Scienze della formazione, Economia, Lettere, Giurisprudenza, Scienze Politiche, Lingue), che lo sono un po’ meno, presentano alcune anomalie (descritte in precedenza) con riferimento ai singoli aspetti.
La Tab. 8 riporta le medie e gli indici di variabilità della soddisfazione per la
coerenza con gli studi fatti per facoltà di provenienza: il fatto che l’intervallo di variazione delle medie sia il più ampio (compreso tra 5,2 e 8) tra tutti gli aspetti presi in
considerazione induce a riflettere in ordine all’adeguatezza di alcuni specifici percorsi formativi.
L’ordine delle facoltà rimane più o meno lo stesso di quello relativo alla soddisfazione complessiva, ma le differenze tra una facoltà e l’altra sono più marcate.
Del resto l’incidenza della facoltà di provenienza sulla soddisfazione per la coerenza
con gli studi fatti è confermata dal fatto che il livello di significatività osservato del
test F relativo all’analisi della varianza ad un criterio risulta inferiore a 0,00. In particolare i laureati in Farmacia presentano la media più alta (pari a 8,0) e la variabilità
più bassa di questo aspetto, mentre i laureati in Scienze politiche, Lingue straniere,
Lettere e filosofia e Giurisprudenza presentano tutti una media inferiore a 6, nonché
una variabilità piuttosto alta.
Tabella 8. Media e variabilità della soddisfazione per la coerenza con gli studi fatti per facoltà di provenienza.
Facoltà
Farmacia
Scienze mm.ff.nn.
Scienze della formazione
Economia
Giurisprudenza
Lettere e filosofia
Lingue e letterature straniere
Scienze politiche
Università di Bari
Media
8,0
7,0
6,8
6,7
5,9
5,7
5,5
5,2
6,5
Scarto quadratico
medio
1,9
2,1
2,5
2,6
2,9
3,1
3,1
2,7
2,7
Coefficiente di variazione (%)
23,3
30,0
36,0
38,3
55,0
49,2
52,4
56,1
42,0
Modelli statistici per l’analisi della transizione Università-lavoro
5.
243
Singoli aspetti che spiegano la soddisfazione complessiva per il
lavoro svolto in un’analisi di segmentazione
Al fine di individuare quegli aspetti che meglio degli altri spiegano la soddisfazione
lavorativa complessiva, è stata effettuata un’analisi di segmentazione delle osservazioni disponibili. I 531 laureati che hanno dichiarato di essere occupati vengono così
suddivisi in sottogruppi, il più possibile omogenei al loro interno ed eterogenei l’uno
dall’altro rispetto a tale soddisfazione.
La segmentazione è stata operata per livelli successivi, suddividendo il gruppo
preso in considerazione in ciascun livello nei due o più sottogruppi che differiscono
tra loro nel modo più significativo. Tale suddivisione, in particolare, viene realizzata
mediante le seguenti operazioni:
con riferimento ad ogni singolo aspetto, si aggregano le coppie di modalità
più simili tra loro (nel contesto di un’analisi della varianza della soddisfazione complessiva) in classi sempre più ampie;
tra le aggregazioni successive di tutti gli aspetti esaminati, si sceglie quella
più significativa.
L’analisi termina quando tutti i sottogruppi individuati sono di numerosità inferiore a 30 ed anche quando ulteriori segmentazioni darebbero vita a sottogruppi
non significativamente differenti tra loro (ad un livello del 5%) ovvero di numerosità
inferiore a 20.
Questo approccio alla segmentazione (denominato “Exaustive Chi-squared
Automatic Interaction Detector”), che esamina per l’appunto in modo esaustivo tutte
le possibili aggregazioni di classi di modalità dei singoli aspetti ad ogni livello, garantisce una migliore suddivisione del collettivo di partenza rispetto all’approccio
denominato “Chi-squared Automatic Interaction Detector”.
Peraltro, a fronte di una validazione incrociata dell’albero (che opera suddividendo il gruppo originario in 10 gruppi più piccoli di pari numerosità e generando altrettante classificazioni sulla scorta delle osservazioni di tutti i gruppi, ad eccezione
di uno alla volta), si riscontra una stima della varianza infragruppo relativamente
bassa (pari ad 1,3 circa). Nella Fig. 1 viene riportato l’albero ottenuto dalla segmentazione dei 531 laureati intervistati.
Gli aspetti che spiegano meglio la soddisfazione complessiva, intervenendo
nella segmentazione, sono l’acquisizione di professionalità, la rispondenza ai propri
interessi culturali, le prospettive di guadagno ed il luogo di lavoro. I primi due aspetti
sono i più correlati alla soddisfazione complessiva tra i dieci osservati; non altrettanto
correlato è il luogo di lavoro, che pure suddivide - a seconda che sia inferiore o no ad
8 - un gruppo di laureati al terzo livello caratterizzato dalla soddisfazione complessiva
media pari a 7,8 circa. Si noti al riguardo che la selezione di un aspetto durante
l’ennesima iterazione condiziona in qualche modo la scelta degli aspetti successivi.
Figura 1. Segmentazione dei 531 laureati intervistati tramite analisi con algoritmo “E-Chaid”.
244
Le componenti della soddisfazione rispetto al lavoro svolto: un’indagine sui laureati...
Modelli statistici per l’analisi della transizione Università-lavoro
245
Sembra rilevante che 85 laureati (ovvero il 16,0% del collettivo), caratterizzati da una soddisfazione complessiva media non superiore a 5,4 circa, presentino una
soddisfazione per l’acquisizione di professionalità generalmente non superiore a 5,
ma pari anche a 6, se congiunta ad una soddisfazione per la rispondenza ai propri interessi culturali non superiore a 5.
D’altro canto 161 laureati (ovvero il 30,3% del collettivo), caratterizzati da
una soddisfazione complessiva media non inferiore a 8,3 circa, presentano alternativamente:
- una soddisfazione per l’acquisizione di professionalità pari a 10;
- una soddisfazione per l’acquisizione di professionalità pari a 9, se congiunta ad
una soddisfazione per le prospettive di guadagno maggiori di 6;
- una soddisfazione per l’acquisizione di professionalità pari a 8, se congiunta ad
una soddisfazione per la rispondenza ai propri interessi culturali pari a 10;
- una soddisfazione per l’acquisizione di professionalità pari a 8, se congiunta ad
una soddisfazione per la rispondenza ai propri interessi culturali pari a 8 o 9 e ad
una soddisfazione per il luogo di lavoro maggiore di 8.
In definitiva livelli elevati (bassi) di soddisfazione complessiva sembrano non
poter prescindere soprattutto da livelli elevati (bassi) di soddisfazione per
l’acquisizione di professionalità e per la rispondenza ai propri interessi culturali.
6.
Un modello LISREL per lo studio dei diversi aspetti della soddisfazione lavorativa
Dopo aver visto quali sono gli aspetti più influenti sulla soddisfazione lavorativa, si
passa ora a verificare la eventuale presenza di fattori latenti in grado sintetizzare i diversi aspetti dell’attività lavorativa considerati. A questo scopo useremo un modello
ad equazioni strutturali, meglio noto con il nome di LISREL (Joreskog, 1973, 1977,
Wiley, 1973; Jöreskog e Sörbom, 1984; Bollen, 1989).
Tale modello viene costruito partendo da relazioni molto semplici ed inserendo un numero sempre crescente di variabili e di equazioni, in modo da approssimare
sempre più la realtà.
In genere le equazioni strutturali sono particolarmente utili in quei casi in cui
si ritiene che il fenomeno oggetto di studio non dipenda direttamente dalle variabili
osservate ma sia più facilmente spiegabile attraverso delle variabili latenti. Queste ultime si dicono esogene se fungono da variabili esplicative, ovvero endogene se hanno
anche il ruolo di variabili risposta.
Il modello completo comprende: variabili osservate (esogene o endogene),
variabili latenti (esogene o endogene), coefficienti strutturali fra variabili legate da
246
Le componenti della soddisfazione rispetto al lavoro svolto: un’indagine sui laureati...
nessi causali, componenti residuali, varianze delle variabili latenti e delle variabili
osservate ed infine covarianze delle variabili latenti e degli errori.
Il modello LISREL è composto da una equazione strutturale e da due modelli
di misura:
η=Βη+Γξ+ζ,
[1]
x = Λx ξ + δ ,
y= Λy η + ε ,
[2]
dove ξ è il vettore delle variabili latenti esogene η è il vettore delle variabili latenti
endogene, x è il vettore delle variabili esogene osservabili mentre y è il vettore delle
variabili endogene misurabili, Γ è la matrice di regressione delle variabili latenti endogene su quelle esogene e Β è la matrice degli effetti diretti tra gli elementi di η .
Si noti che x e y sono legati linearmente a ξ e η attraverso le matrici dei coefficienti
Λx e Λy e che ζ è il vettore degli errori dell’equazione strutturale, mentre δ e ε sono
gli errori di misura delle variabili x e y.
Le ipotesi alla base del modello LISREL sono:
E(x) = E(y) = E(η) = E(ξ) = 0
[3]
Le variabili esogene nei modelli [1] e [2] sono incorrelate con gli errori e, nei
modelli di misura, anche con gli errori dell’altra equazione:
E(ξ ζ’) = E(η ε’) = E(ξ δ ’)= 0 e E(η δ’) = E(ξ ε’) = 0.
[4]
Allo stesso modo gli errori delle diverse equazioni sono incorrelati tra loro:
E(ζ δ’) = E(ζ ε’)= E (δ ε’) = 0.
Inoltre si suppone che tutte le equazioni del modello strutturale, che esprimono η come variabili endogene, siano indipendenti fra loro.
Infine si ha:
Cov(ζ) = Ψ ,
Cov(ε) = Θε ,
Cov(δ) = Θδ ,
[5]
Cov(ξ) = Φ.
Per la stima dei parametri incogniti si possono usare varie tecniche, tuttavia
gli stimatori più usati sono quelli di massima verosimiglianza (Jöreskog, 1973) e dei
minimi quadrati generalizzati (Jöreskog e Goldberger, 1975; Browne, 1974). Trattasi
di stimatori efficienti e consistenti con buone proprietà di invarianza (non dipendendo né dalla scala delle variabili osservate né dalla loro origine). Gli stimatori di massima verosimiglianza però sono più robusti quando la distribuzione delle variabili osservate presenta code spesse. Questa proprietà ci tornerà molto utile per la stima del
nostro modello, per cui faremo riferimento esclusivamente a stimatori di massima
verosimiglianza.
Un caso particolare del modello LISREL è il modello MIMIC (Multiple Indicators Multiple Cause Models) proposto da Jöreskog e Goldberger (1975), con cui
studieremo le relazioni esistenti fra le diverse variabili osservate e latenti.
Modelli statistici per l’analisi della transizione Università-lavoro
247
La costruzione di un modello MIMIC partendo da un modello LISREL è molto
semplice, basta infatti imporre che Λx sia una matrice identica e che Θδ sia una matrice nulla, ovvero che le variabili osservate coincidano con le variabili latenti cause del
modello LISREL.
Per agevolare la lettura e l’interpretazione dei modelli LISREL spesso si usano dei diagrammi di flusso, meglio noti come path diagram, in cui, per convenzione,
le variabili osservabili vengono racchiuse in una figura geometrica rettangolare e le
variabili latenti in figure ellittiche. Particolarmente importanti sono le frecce che collegano le diverse figure fra la loro. Le frecce unidirezionali servono ad indicare un
rapporto di causa effetto fra le due variabili in cui il verso delle freccia indica che la
variabile origine è la causa, mentre quella di destinazione è l’effetto.
7.
La ricerca delle variabili latenti
Al fine di individuare le variabili da utilizzare nel modello LISREL, abbiamo
effettuato un’analisi fattoriale esplorativa dei giudizi espressi sui singoli aspetti della
soddisfazione lavorativa, impiegando il metodo delle componenti principali.
Tale analisi consente nello specifico di individuare quattro componenti, che
insieme spiegano il 71,8% della variabilità totale: la prima di esse, in particolare, ne
spiega ben il 39,4%, mentre le altre tre, essendo associate ad autovalori della matrice
delle correlazioni più bassi e non molto diversi fra loro, contribuiscono ad una percentuale prossima al 10% ciascuna.
La scelta di prendere in considerazione anche la quarta componente, il cui
corrispondente autovalore risulta inferiore ad uno, è motivata dal fatto che essa consente di spiegare comunque l’8,3% della variabilità complessiva. Le quattro dimensioni così individuate sono state poi ruotate ortogonalmente tramite il procedimento
cosiddetto “varimax” (Kaiser, 1958), al fine di migliorarne la separazione e quindi
l’interpretazione.
Tabella 9. Percentuale di varianza totale spiegata dalle prime 4 componenti principali e
corrispondenti autovalori della matrice delle correlazioni.
Componenti
Componenti ruotate
% varianza
% varianza
% varianza
% varianza
Autovalori
spiegata
cumulata
spiegata
cumulata
3,7
39,4
39,4
22,8
22,8
1
1,2
13,1
52,5
21,9
44,7
2
1,0
11,0
63,5
16,7
61,4
3
0,8
8,3
71,8
10,4
71,8
4
248
Le componenti della soddisfazione rispetto al lavoro svolto: un’indagine sui laureati...
Tabella 10. Coefficienti di correlazione di ciascuna componente principale ruotata con i
singoli aspetti della soddisfazione lavorativa.
Aspetti della
soddisfazione
Coerenza studi fatti
Interessi culturali
Professionalità
Carriera
Guadagno
Sicurezza del lavoro
Rapporto con i colleghi
Luogo lavoro
Indipendenza
Tempo libero
1
Crescita
professionale
0,87
0,84
0,76
0,28
0,16
0,14
0,11
0,18
0,29
0,00
Componenti ruotate
2
3
Prospettive di Ambiente
carriera
di lavoro
0,15
0,08
0,21
0,19
0,30
0,22
0,82
0,09
0,81
0,15
0,72
0,11
0,08
0,84
0,14
0,77
0,40
0,47
0,00
0,13
4
Tempo
Libero
0,03
0,08
-0,10
-0,09
0,09
0,00
-0,04
0,17
0,22
0,97
A ciascuna dimensione ruotata viene attribuita una valenza, dopo averne analizzato i coefficienti di correlazione con i singoli aspetti della soddisfazione lavorativa (si veda la Tab. 10).
La prima componente attiene alla soddisfazione per la crescita professionale,
dal momento che presenta una correlazione non inferiore a 0,76 con la soddisfazione
per l’acquisizione di professionalità, per la coerenza con gli studi fatti e per la rispondenza agli interessi culturali, mentre una correlazione non superiore a 0,29 con
la soddisfazione per tutti gli altri aspetti esaminati.
La seconda componente attiene alla soddisfazione per le prospettive di carriera, dal momento che presenta una correlazione non inferiore a 0,72 con la soddisfazione per le prospettive di guadagno, per le prospettive di carriera e per la sicurezza
del lavoro, mentre una correlazione pari a 0,40 con la soddisfazione per
l’indipendenza ed infine una correlazione non superiore a 0,30 con la soddisfazione
per tutti gli altri aspetti esaminati.
La terza componente attiene alla soddisfazione per l’ambiente di lavoro, dal
momento che presenta una correlazione non inferiore a 0,77 con la soddisfazione per
il luogo di lavoro e per il rapporto con i colleghi, mentre una correlazione pari a 0,47
con la soddisfazione per l’indipendenza ed infine una correlazione non superiore a
0,22 con la soddisfazione per tutti gli altri aspetti esaminati. Il fatto che la soddisfazione per l’indipendenza sia correlata tanto alla seconda quanto alla terza componente non deve stupire se si riflette proprio sulla valenza di entrambe.
La quarta componente, che spiega solo il 10,4% della variabilità totale, attiene alla soddisfazione per il tempo libero, dal momento che presenta una correlazione
pari a 0,97 per l’appunto con la soddisfazione per il tempo libero ed una correlazione
Modelli statistici per l’analisi della transizione Università-lavoro
249
non superiore a 0,22 in valore assoluto con la soddisfazione per tutti gli altri aspetti
esaminati.
8.
Il modello MIMIC stimato
L’analisi fattoriale sin qui condotta ci fornisce le indicazioni necessarie per la costruzione di un modello MIMIC che ci consente di studiare simultaneamente sia le cause
(ovvero i singoli aspetti della soddisfazione lavorativa considerati) che gli effetti (le
variabili osservate qualità e soddisfazione complessiva) della variabile latente denominata soddisfazione tout court (Zavarrone, 2003).
La misura della soddisfazione è una operazione piuttosto complessa, poiché,
come si è visto nel corso dell’analisi di segmentazione, vi sono alcuni aspetti della
soddisfazione lavorativa più influenti rispetto ad altri e le scale di preferenza sono di
natura soggettiva e quindi difficilmente confrontabili.
Nel nostro modello abbiamo assunto che la variabile soddisfazione non sia osservabile direttamente, ma che in qualche modo sia influenzata dei primi tre fattori
individuati nel paragrafo precedente: Crescita professionale, Prospettive di carriera
e Ambiente di lavoro e che a sua volta sia in grado di influenzare due variabili osservate: l’indice relativo alla qualità del lavoro svolto ed il punteggio attribuito dagli intervistati alla soddisfazione complessiva relativa all’ambito lavorativo.
Avendo considerato le relazioni casuali fra i diversi fattori, la variabile Tempo
libero ha perso parte del contributo informativo che aveva nell’analisi fattoriale esplorativa e non è risultata più significativa.
Le variabili osservate, utilizzate come proxy della soddisfazione, sono l’indice
relativo alla qualità del lavoro svolto, misurato su scala 0-100, ed il giudizio sulla
soddisfazione lavorativa complessiva dichiarata, espresso sotto forma di punteggio
da 0 a 10.
Il modello è stato stimato utilizzando le risposte fornite dai 531 laureati considerati per la nostra analisi.
Per consentire la convergenza del modello sono stati imposti dei vincoli sia sugli errori che su alcuni pesi di regressione, per cui il modello stimato ha 32 gradi di
libertà, ottenuti come differenza fra i 78 momenti campionari ed i 46 parametri da
stimare.
Per analizzare meglio la Fig. 2 considereremo, dapprima, le relazioni fra le variabili osservate e le cause latenti.
Come già evidenziato dall’analisi fattoriale, la variabile latente crescita professionale influenza le variabili osservate acquisizione di professionalità, coerenza con
gli studi fatti e interessi culturali con pesi di regressione standardizzati pari rispetti-
250
Le componenti della soddisfazione rispetto al lavoro svolto: un’indagine sui laureati...
Figura 2 Grafico delle relazioni fra le variabili utilizzate per il modello MIMIC.
Coerenza studi fatti
Professionalità
Crescita
professionale
Interessi culturali
Qualità del lavoro
Guadagno
Carriera
Prospettive
carriera
Sicurezza lavoro
Soddisfazione
Indipendenza
Luogo lavoro
Ambiente
lavoro
Rapporto colleghi
Tempo libero
Soddisfazione lavorativa compl. dichiarata
vamente a 0,80, 0,79 e 0,75. Le variabili osservate coerenza studi e interessi culturali
risultano essere correlate fra loro.
La variabile latente prospettive di carriera è invece legata alla carriera (con peso di regressione 0,83), alle prospettive di guadagno (0,75) ed alla stabilità ed alla sicurezza del lavoro svolto (0,62). Non trascurabile è la correlazione tra le prospettive
di guadagno e la sicurezza del lavoro.
Un altro fattore che contribuisce a spiegare la soddisfazione rispetto all’attività
lavorativa svolta è l’ambiente di lavoro. Tale fattore è legato, oltre che al livello di
indipendenza lavorativa (peso di regressione 0,52), anche al luogo di lavoro (0,36) ed
ai rapporti con i colleghi (0,34).
Fra le diverse correlazioni fra le variabili osservate, considerate dal modello,
spiccano quelle fra le variabili indipendenza e luogo di lavoro (r=0,29) e tra
quest’ultima ed i rapporti tra colleghi (r=0,35).
Passando a considerare i legami tra le variabili latenti si nota che le prospettive
di carriera sono correlate all’ambiente di lavoro (r=0,81) ed alla crescita professionale (r=0,61). Molto forte è il legame tra l’ambiente lavorativo e la soddisfazione sulle
prospettive di crescita professionale (r=0,95).
Considerando le relazioni fra le variabili latenti cause e la variabile latente endogena soddisfazione si nota come questa è fortemente influenzata dall’ambiente di
lavoro (0,88) dalla crescita professionale (0,14) ed in modo marginale dalle prospettive di carriera (-0,02).
Modelli statistici per l’analisi della transizione Università-lavoro
251
Tabella 11
Pesi di regressione standardizzati per le variabili osservabili e latenti, endogene ed esogene, del modello LISREL.
Variabili
Pesi di regressione standardizzati
Crescita professionale
Acquisizione di professionalità
0,80
Coerenza con gli studi fatti
0,79
Interessi culturali
0,75
Prospettive di carriera
Carriera
0,83
Prospettive di guadagno
0,75
Stabilità e sicurezza del lavoro
0,62
Ambiente di lavoro
Indipendenza
0,52
Luogo di lavoro
0,36
Rapporti con i colleghi
0,34
Soddisfazione
Soddisfazione complessiva dichiarata
0,80
Qualità del lavoro
0,72
0,88
Ambiente di lavoro
0,14
Crescita professionale
-0,02
Prospettive di carriera
Le variabile osservabili che contribuiscono alla stima della soddisfazione sono
la qualità del lavoro (0,80) ed il livello soddisfazione complessiva dichiarata (0,72).
Queste due variabili sono correlate negativamente tra loro (r=-0,18).
Il modello stimato evidenzia una complessa rete di relazioni fra i fattori latenti
esogeni e quello endogeno ed una buona congruenza fra quest’ultimo ed i punteggi
espressi dagli intervistati sulla qualità del lavoro svolto e sul livello di soddisfazione
lavorativa complessiva dichiarata.
Nella Tab. 12 abbiamo riportato alcuni indici di adattamento relativi al modello
stimato. Avendo utilizzato il metodo della massima verosimiglianza, per valutare la
bontà del modello è opportuno verificare, innanzitutto, il minimo valore della funzione di discrepanza con il test chi-quadrato. Tenendo conto del fatto che si hanno 32
gradi di libertà, l’indice CMIN, che si distribuisce appunto come un χ2, risulta significativo (P<0,0001). L’indice ECVI, pari a 0,36, è prossimo al valore minimo relativo
al modello saturo (0,31), indicando che l’indice di discrepanza è molto basso. Il
goodness of fit index (GFI) è vicino al valore massimo, indicando che il livello di adattamento del modello è buono. Il test AGFI, a differenza del GFI, è standardizzato
rispetto ai gradi di libertà, ed anch’esso indica un buon accostamento.
L’indice RMR è molto più vicino ai valori del modello saturo (0,00) rispetto a
quelli del modello di indipendenza (7,31). Infine anche l’indice RMSEA (pari a 0,06)
indica che il modello stimato si adatta abbastanza bene al fenomeno studiato.
252
Le componenti della soddisfazione rispetto al lavoro svolto: un’indagine sui laureati...
Tabella 12 Indici di adattamento del modello ad equazioni strutturali per la soddisfazione
rispetto all’attività lavorativa svolta.
Indici di adattamento
CMIN
g.d.l.
ECVI (Expected Cross-Validation Index)
GFI (Goodness of Fit Index)
AGFI (Adjusted Goodness of Fit Index)
RMR (Root Mean Square Residual)
RMSEA (Root Mean Square error of Approximation)
9.
Valori
91,42
32
0,36
0,97
0,93
0,12
0,06
Conclusioni
In un mercato del lavoro caratterizzato da una forte disoccupazione giovanile lo
studio del placement dei laureati assume grande rilevanza. E’ noto, infatti, che il possesso di un titolo accademico aumenta le probabilità di trovare lavoro, ma spesso i
neolaureati si devono accontentare di lavori precari e non adeguati al livello di preparazione posseduto. Per questo è molto importante non limitarsi a considerare le percentuali di occupati, ma analizzare più in dettaglio il problema considerando i giudizi
espressi dai laureati occupati sui diversi aspetti della soddisfazione lavorativa.
Dalle nostre analisi è emerso che i laureati occupati dell’Università di Bari sono
nel complesso soddisfatti anche se vi sono delle lievi differenze a seconda della facoltà di provenienza.
Fra i diversi aspetti della soddisfazione lavorativa considerati quelli legati
all’ambiente di lavoro ed alla crescita professionale hanno fatto registrare i punteggi
medi più alti, mentre quelli relativi alle prospettive di guadagno e di carriera sono risultati leggermente inferiori, anche se al di sopra della sufficienza.
Come si è visto dall’analisi di segmentazione la soddisfazione complessiva dichiarata è fortemente influenzata dalla soddisfazione per l’acquisizione di professionalità e per i propri interessi culturali.
Queste due variabili da sole sono in grado di identificare i nodi finali che racchiudono quasi il 50% dei soggetti considerati.
Segno questo che i laureati antepongono le prospettive di crescita professionale e
cultuale agli aspetti economici. Sono quindi disposti a fare dei sacrifici, accettando
lavori meno remunerati e stabili pur di investire sul proprio futuro intraprendendo
percorsi lavorativi con prospettive di piena realizzazione nel medio lungo termine.
Il modello MIMIC stimato ha confermato i risultati dell’analisi di segmentazione indicando che fra le 3 variabili esogene legate alla soddisfazione latente l’ambiente di lavoro è sicuramente la più influente. Il modello stimato ha un buon adat-
Modelli statistici per l’analisi della transizione Università-lavoro
253
tamento per cui possiamo affermare che le relazioni fra le numerose variabili considerate sono suffragate dai dati rilevati.
Possiamo quindi concludere che le analisi effettuate hanno consentito di rispondere con sufficiente precisione ai quesiti iniziali, ovvero i laureati dell’Università di Bari sono abbastanza soddisfatti della loro attività lavorativa ed il loro giudizio è fortemente influenzato dall’ambiente di lavoro e dalle prospettive di crescita
professionale offerte dalla propria attività lavorativa. Tale risultato ci deve indurre a
riflettere sull’importanza della formazione per il futuro lavorativo dei laureati e a disegnare dei percorsi formativi equilibrati in cui gli studenti possano trovare risposta
al loro desiderio di sviluppare i propri interessi culturali e di acquisire le professionalità necessarie per le mansioni che andranno a ricoprire nel mondo del lavoro, facendo tesoro delle nozioni acquisite durante gli anni universitari.
Riferimenti bibliografici
BIGGERI L. (1983), La produttività della pubblica amministrazione, Città e Regione, 4.
BIGGS D., DE VILLE B., SUEN E. (1991) A metod of choosing multiway partitions
for classification and decision trees, Journal of Applied Statistics, 18: 49-62.
BOLLEN K. A. (1989) Structural Equations with Latent Variables, Wiley & Sons,
New York-Toronto.
BREIMEN L., FREIDMAN J.H., OLSHEN R.A., STONE C.J. (1984) Classification
and regression trees, Wadsworth Inc., Belmont California.
BROWNE M. W. (1974) Generalized least-squares estimators in the analysis of covariate structures, South African Statistical Journal, 8: 1-24.
CHIANDOTTO B. (2003) La situazione occupazionale dei laureati: dall’indagine alla pianificazione degli interventi sui percorsi formativi, in: M. Civardi (a cura
di), Transizione Università-Lavoro: la definizione delle competenze, CLEUP,
Padova: 1-18.
CROCETTA C., DELVECCHIO G. (2003) Una misura fuzzy della formazione universitaria per l'ingresso nel mondo del lavoro, in M. Civardi (a cura di), Transizione
Università-Lavoro: la definizione delle competenze, CLEUP, Padova: 148-169.
FABBRIS L. (1997) Statistica multivariata. Analisi esplorativa dei dati, McGrawHill, Milano.
GORI E., VITTADINI G. (1999) (a cura di) Qualità e valutazione nei servizi di pubblica utilità, Etas, Milano.
JÖRESKOG K. G. (1973) A general method for estimating a linear structural equation system, in A S. Goldberger and O. D. Duncan, (eds), Structural equation
Models in the Social Sciences, Academic Press, New York: 85-112.
254
Le componenti della soddisfazione rispetto al lavoro svolto: un’indagine sui laureati...
JÖRESKOG K. G. (1977) Structural equation models in the social sciences, in P.R.
KRISHNAIAH (ed.), Application of Statistics, Amsterdam, North Holland: 265287.
JÖRESKOG K. G., GOLDBERGER A. S. (1975) Estimation of a model with multiple indicators and multiple causes of a single latent variable, Journal of the
American Statistical Association, 10: 631-639.
JÖRESKOG K. G., SÖRBOM D.(1984) LISREL VI Analysis of Linear Structural
Relation by Maximum Likelihood, Instrumental Variables, and Least Square
Methods, User’s guide, Department of Statistics, University of Uppsala, Sweden.
KAISER H.F. (1958), The varimax criterion for analytic rotation in factor analysis,
Psychometrika, 23: 187-200
WILEY D.E. (1973) The identification problem for structural equation models with
unmeasured variables, in A.S. Goldberger and O.D. Duncan, (eds), Structural
equation Models in the Social Sciences, New York, Academic Press: 69-83.
ZAVARRONE E. (2003) Ricerca di fattori latenti per il rischio di abbandono degli
studi universitari, in: L. Fabbris (a cura di), LAID-OUT scoprire i rischi con
l’analisi di segmentazione, Cleup, Padova: 41-54.
Work satisfaction components: a research on graduates
from the University of Bari
Summary: The aim of this paper is to find the work satisfaction components for the
graduates from the 2002 summer session at the University of Bari, interviewed by the
“AlmaLaurea” inter-university union. At first we singled out those aspects that better explain overall work satisfaction. In particular, by segmenting the interviewed
graduates by means of an E-CHAID algorithm, we obtained subgroups differing
from each other especially in terms of satisfaction for the acquisition of professional
skills, for the correspondence between work activity and cultural interests and for
developing prospects for higher incomes. Successively a LISREL model was estimated in order to examine the causal structure of observed and latent variables. In
this way we were able to verify that the opinion on work satisfaction depends above
all on professional growth.
Keywords: Graduates, University of Bari, Work satisfaction, Segmentation Analysis,
E-CHAID, Structural Equation Model, LISREL.
Un modello con tecniche fuzzy neuro-adattative
per la classificazione dei laureati dell’Università
di Bari secondo l’occupazione a un anno dalla laurea
Giuseppe Delvecchio, Francesco d’Ovidio 1
Università degli Studi di Bari
Riassunto: Nel presente lavoro si propone una nuova metodologia per migliorare la
precisione dell’attribuzione dell’esito lavorativo ottenibile, con tecniche statistiche, a
partire da un insieme di caratteristiche inerenti il percorso formativo universitario o
relative alla ricerca di occupazione. Lo scopo di partenza è l’identificazione di alcune
caratteristiche dei laureati (nello specifico, laureati dell’Università di Bari nel periodo 1995-2000) in grado di favorire l’inserimento lavorativo entro un anno dalla laurea. In quest’ottica viene sottoposto ad analisi di segmentazione un campione di laureati provenienti da detta popolazione, ottenendo risultati affetti da un consistente errore di classificazione. Si procede, quindi, ad implementare le regole risultanti
dall’analisi di segmentazione in un sistema di reti neurali, utilizzando anche tecniche
fuzzy, allo scopo di individuare possibili miglioramenti dell’impianto di regole e di
definire l’importanza di una determinata configurazione di covariate e/o di dati. I risultati ottenuti verificano in modo più puntuale l’influenza, ai fini del placement, di
caratteristiche personali e competenze acquisite.
Parole chiave: Inserimento lavorativo, Laureati, Università di Bari, Analisi di segmentazione, Tecniche fuzzy neuro-adattative, ANFIS.
1. Introduzione
Scopo del lavoro che qui si presenta è individuare una metodologia per migliorare la
precisione della “previsione” dell’esito della ricerca lavorativa ottenibile, con tecniche statistiche, a partire da un insieme di caratteristiche inerenti il percorso formativo
1
Il presente lavoro è stato realizzato nell'ambito del progetto "Transizioni Università-Lavoro e valorizzazione delle competenze professionali dei laureati: modelli e metodi di analisi multidimensionale
delle determinanti", cofinanziato dal MIUR; coordinatore nazionale è Luigi Fabbris, coordinatore del
gruppo di Bari è Francesco Delvecchio. Della nota in oggetto, opera congiunta dei due autori, va attribuita a F. d'Ovidio la redazione finale dei paragrafi 1 e 2, a G. Delvecchio quella dei paragrafi 3, 4 e 5.
256
Un modello con tecniche fuzzy neuro adattative per la classificazione dei laureati...
universitario o relative alla ricerca di occupazione. La motivazione iniziale di detta
scelta può essere fatta risalire alla constatazione che, sottoponendo ad analisi di segmentazione i dati rivenienti da un’indagine appositamente condotta su un campione
di laureati dell’Università di Bari, con strategie simili a quelle utilizzate in un precedente lavoro (Crocetta e d’Ovidio, 2003), i risultati, per quanto interessanti, denunciavano un errore di classificazione elevato.
In una siffatta analisi, invero, l’errore di classificazione è in parte giustificabile, considerando che le variabili esplicative sono legate soprattutto ai percorsi formativi ed alla soddisfazione, mentre la variabile risposta (dicotomica) su cui si è investigato è l’aver trovato lavoro entro un anno di tempo dalla laurea (al netto del servizio militare eventualmente adempiuto dopo il conseguimento del titolo). Com’è ovvio, infatti, sulla variabile risposta hanno grande rilevanza anche fattori legati al mercato del lavoro non rilevati nell’indagine campionaria, molti dei quali comunque non
rilevabili per propria natura.
2. Una prima analisi statistica delle determinanti dell’occupazione
dei laureati presso l’Ateneo di Bari
Fra dicembre 2003 ed aprile 2004 è stata effettuata una rilevazione telefonica su un
campione di laureati, allo scopo di verificare, a distanza di almeno tre anni dal conseguimento del titolo, la loro situazione dal punto di vista lavorativo2.
Il questionario utilizzato per l’indagine telefonica, appositamente realizzato
per essere completato in non oltre quindici minuti, è articolato in sezioni distinte destinate a raccogliere le caratteristiche socio-anagrafiche salienti dell’intervistato, informazioni sui soggetti non occupati, informazioni sui soggetti attualmente disoccupati ed informazioni sui soggetti attualmente occupati.
A queste informazioni sono state poi fatte corrispondere altre numerose informazioni, relative al curriculum formativo degli intervistati, disponibili presso gli
archivi amministrativi dell’Università.
La popolazione di riferimento è composta da coloro che hanno conseguito la
laurea presso l’Università di Bari dal 1995 al 2000, nelle seguenti 11 Facoltà3: Agra-
2
Si ringraziano, in proposito, i dott. B. Amenduni, V. Ferrandes, L. Milone e C. Triggiani per la pazienza e la costanza con cui hanno effettuato la rilevazione ed il Centro Servizi Informativi dell’Università di Bari, nella persona del sig. G. Melchiorre, per l’affidabilità dimostrata nella fornitura di dati
il più possibile corretti, necessari sia a reperire i laureati da intervistare, sia ad integrare le informazioni rilevate telefonicamente con quelle disponibili in archivio.
3
Fra le quali non è compresa la Facoltà di Scienze biotecnologiche, di recente istituzione, né, ovviamente, le Facoltà di Ingegneria ed Architettura, afferenti ad altro Ateneo (Politecnico di Bari).
Modelli statistici per l’analisi della transizione Università-lavoro
257
ria, Economia, Farmacia, Giurisprudenza, Lettere e Filosofia, Lingue e letterature
straniere, Medicina e Chirurgia, Medicina veterinaria, Scienze della formazione,
Scienze politiche, Scienze matematiche, fisiche e naturali.
Dalla suddetta popolazione è stato estratto, con procedimento casuale, un
campione stratificato proporzionale per corso di laurea e per genere. Il piano di campionamento prevedeva, per ottenere una buona rappresentatività ed un ridotto intervallo di confidenza delle stime, la rilevazione di oltre 3.000 interviste. La difficile
reperibilità dei soggetti (anche utilizzando elenchi di riserva), unitamente alla estrema incompletezza di molte interviste, escluse quindi dall’indagine, ha portato il campione a 2.785 unità, comunque sufficientemente rappresentative della popolazione.
Per motivi legati alla più difficile reperibilità e forse alla fretta degli intervistati di
concludere l’intervista, ciò ha portato ad una minore quota di campionamento per i
laureati delle Facoltà di Economia e di Giurisprudenza, per le quali si ha, quindi, una
certa sottostima dei tassi di occupazione post-laurea (in quanto le interviste errate o
non giunte a buon esito sono, presumibilmente, relative soprattutto a chi ha meno
tempo e voglia di collaborare perché lavora oppure è in fase di tirocinio).
Nella Tab. 1 è riportata la composizione finale del campione, distinta per Facoltà e genere, a valle del procedimento di controllo.
Va qui sottolineata l’informazione relativa allo sbilanciamento fra i sessi (fenomeno che, nonostante l’errore campionario su descritto, si ripropone fedelmente
nella popolazione): in particolar modo in Facoltà quali Lettere e filosofia, Lingue e
letterature straniere e Scienze della formazione, ove le laureate ammontano all’85%
del totale ed oltre (fino al 92% dell’ultima Facoltà citata), mentre uno sbilanciamento
speculare si rileva soltanto fra i laureati della Facoltà di Agraria, quasi l’80% dei
Tabella 1. Distribuzione del campione di laureati presso l’Ateneo barese
per Facoltà e genere. Quota di campionamento per Facoltà.
Quota di
Genere
campion.
F
M
MF
Facoltà
Agraria
11
42
53
14,6
Economia
239 195
434
9,1
Farmacia
53
25
78
11,6
Giurisprudenza
356 244
600
8,9
Lettere e filosofia
298
55
353
13,2
Lingue e letterature straniere
207
20
227
13,6
Medicina e chirurgia
108 110
218
13,2
Medicina veterinaria
12
13
25
14,2
Scienze della formazione
198
17
215
12,9
Scienze matematiche, fisiche e naturali
221 150
371
13,4
Scienze politiche
113
98
211
12,8
Università di Bari
10,6 1.816 969 2.785
dal 1995 al 2000,
% per genere
F
M MF
20,8 79,2 100,0
55,1 44,9 100,0
67,9 32,1 100,0
59,3 40,7 100,0
84,4 15,6 100,0
91,2 8,8 100,0
49,5 50,5 100,0
48,0 52,0 100,0
92,1 7,9 100,0
59,6 40,4 100,0
53,6 46,4 100,0
65,2 34,8 100,0
258
Un modello con tecniche fuzzy neuro adattative per la classificazione dei laureati...
quali è di genere maschile. Un tale sbilanciamento può avere qualche rilevanza nelle
analisi successive per via di alcune particolarità del mercato del lavoro, in special
modo nel Mezzogiorno4.
A distanza di vari anni dalla laurea, la situazione lavorativa degli intervistati
appare abbastanza definita, pur tenendo conto della cospicua quota di essi che si dichiara ancora in formazione5 (10,2%); al momento dell’intervista, infatti circa il 77%
dei laureati dell’Ateneo barese aveva un’occupazione (il 51,1% a tempo indeterminato), mentre poco meno del 10% aveva perso un lavoro e non ne aveva ancora trovati
altri; la piccola quota restante (7,1%) era ancora in cerca di prima occupazione. Sussistono consistenti differenze fra i sessi, soprattutto in termini di accesso a occupazioni a tempo indeterminato, e fra laureati di Facoltà diverse6. Tuttavia, questi dati
costituiscono una fotografia, per quanto interessante, poco esplicativa della realtà, essendo riferiti a coorti di laureati abbastanza spaziate nel tempo (i laureati del 1995,
infatti, sono nel mercato del lavoro da circa otto-nove anni, mentre quelli del 2000 da
appena tre-quattro).
Ben più significativa è la situazione prospettata nella Tab. 2, che riporta le
percentuali di laureati che hanno trovato lavoro entro un determinato tempo dalla
laurea (tipicamente, 12, 24 e 36 mesi) e, complementariamente, quelle di chi non ha
mai lavorato fra la laurea ed il tempo limite di tre anni. Si tenga conto che, per i soli
laureati che hanno espletato il servizio militare obbligatorio dopo la laurea, allo scopo di rendere più comparabili i risultati, il calcolo è stato corretto sottraendo 12 mesi
al tempo di inoccupazione dichiarato dagli intervistati.
Il 55,2% dei laureati dell’Università di Bari risulta essere occupato entro un
anno dal conseguimento del titolo (comprendendo in tale quota, ovviamente, anche
coloro che già lavoravano prima di laurearsi), mentre solo il 22,6% dopo tre anni è
ancora in condizione non professionale: in cerca di lavoro, in formazione o, in pochi
casi, inattivo. A causa della “flessibilità” lavorativa con cui da sempre i neo-laureati
4
Ove le donne spesso trovano o conservano un lavoro meno facilmente della controparte maschile, a
causa di una maggiore discontinuità dovuta ad assenze per motivi familiari che la natura o gli usi associano alla figura femminile (gravidanze, malattie infantili, ecc.).
5
Si pone in evidenza che, per quanto riguarda i laureati in Medicina e Chirurgia che hanno ottenuto
l’iscrizione ai corsi di Specializzazione previsti nel loro ordinamento didattico, si è presa la decisione
di non inserirli nel novero delle persone “in formazione”, bensì fra gli occupati a tempo determinato,
poiché nel loro caso il rapporto con la struttura formativa assume a tutti gli effetti, anche contributivi,
caratteristiche simili appunto a quelle dei contratti di lavoro a tempo determinato, essendo l’acquisizione di una “borsa di studio” condizione necessaria, precisamente regolamentata (cfr. decreto legislativo 8 agosto 1991, n. 257), per l’accesso alla specializzazione.
6
E, al loro interno, anche fra i corsi di laurea (anche molto differenti fra loro) che li compongono: si
pensi, ad esempio, alla Facoltà di Scienze MM.FF.NN, ove si ritrovano lauree molto richieste dal
mercato del lavoro, come Informatica, ed altre meno favorite. Purtroppo, a causa della numerosità
campionaria abbastanza ridotta a cui l’indagine è stata costretta ad adeguarsi, il dettaglio per corso di
laurea è talora riferito a numerosità esigue e, quindi, non significative dal punto di vista statistico.
Modelli statistici per l’analisi della transizione Università-lavoro
259
Tabella 2. Distribuzione percentuale dei laureati secondo il tempo intercorso fra laurea e
prima occupazione (al netto dell’eventuale servizio militare adempiuto dopo la
laurea), per Facoltà e genere dell’intervistato.
Tempo netto fra laurea e primo lavoro
fino a 12
Non occupati
13-24 mesi 24-36 mesi
Totale
mesi
entro 36 mesi
Facoltà
Agraria
90,6
3,8
5,7
100,0
Economia
74,4
13,4
2,3
9,9
100,0
Farmacia
78,2
6,4
2,6
12,8
100,0
Giurisprudenza
27,3
17,5
22,3
32,8
100,0
Lettere e filosofia
44,2
24,1
11,3
20,4
100,0
Lingue e letterature straniere
68,7
15,9
3,5
11,9
100,0
Medicina e chirurgia
18,8
2,3
1,8
77,1
100,0
Medicina veterinaria
60,0
12,0
28,0
100,0
Scienze della formazione
69,8
14,4
3,7
12,1
100,0
Scienze matem., fisiche e nat.
76,3
9,4
3,5
10,8
100,0
Scienze politiche
66,4
11,8
4,7
17,1
100,0
Genere
Femmine
52,6
15,1
9,1
23,1
100,0
Maschi
60,1
11,9
6,5
21,6
100,0
Università di Bari
55,2
14,0
8,2
22,6
100,0
devono confrontarsi (anche se un tempo si chiamava più onestamente “precariato”)
una buona parte di costoro è poi entrata nel gruppo dei disoccupati.
Pur senza scendere nel dettaglio dell’analisi, si vuole qui far presente che oltre il 90% dei laureati in Agraria ha trovato lavoro entro un anno dalla laurea, pur se,
presumibilmente, per buona parte di essi si trattava di lavoro a tempo determinato, in
quanto al momento della rilevazione si è registrato un livello di disoccupazione superiore al 20%. L’occupazione entro l’anno è un traguardo che è stato raggiunto anche
dal 78,2% dei laureati in Farmacia, dal 76,3% di quelli in Scienze MM.FF.NN. e dal
74,4% dei laureati in Economia, mentre le quote più esigue di laureati occupati entro
il medesimo termine competono a Medicina Veterinaria (18,8%), per esigenze di
formazione, ed a Giurisprudenza (27,3%), per i cui laureati, invece, assume molta
importanza la necessità del tirocinio presso uno studio allo scopo di sostenere
l’Esame di Stato, anche perché le competenze da essi acquisite prevedono la libera
professione come sbocco preferenziale.
Fermando l’attenzione proprio sul risultato (peraltro abbastanza interessante)
che oltre il 55% degli intervistati aveva un’occupazione di qualche tipo entro un anno
dalla laurea, si è deciso di identificare, fra i potenziali elementi della formazione universitaria noti dall’indagine o dai dati amministrativi, i fattori che hanno potuto influenzare detto risultato, e la forza esplicativa di tali relazioni. Definendo, quindi,
una variabile risposta dicotomica basata sull’evento “Lavoro entro un anno dalla lau-
260
Un modello con tecniche fuzzy neuro adattative per la classificazione dei laureati...
Tabella 3. Presumibili determinanti dell’occupazione dei laureati e relative scale di misura.
Scala di
Scala di
Variabili
Variabili
misura
misura
Punteggio per la qualità degli
Discreta Livello delle
Ordinale
insegnamenti specialistici
(0-100) conoscenze informatiche
(1-4)
Punteggio per la qualità delle
Discreta Livello di conoscenza
Ordinale
attività professionalizzanti
(0-100) dell’inglese
(1-4)
Punteggio per la qualità delle
Discreta Costanza nella frequenza
Ordinale
attività pratiche
(0-100) delle lezioni
(1-4)
Punteggio per realizzazione del
Discreta Corso di laurea
Categoriale
prestigio sociale
(0-100) di tipo applicativo
dicotomica
Punteggio per realizzazione della
Discreta Avere conseguito abilitazione
Categoriale
sicurezza e stabilità lavoro
(0-100) all’insegnamento
dicotomica
Punteggio per realizzazione della
Discreta Avere conseguito abilitazione
Categoriale
vicinanza alla famiglia
(0-100) all’esercizio della professione
dicotomica
Punteggio per realizzazione della
Discreta Avere svolto tirocinio
Categoriale
disponibilità di tempo libero
(0-100) post-laurea
dicotomica
Discreta Avere svolto formazione
Categoriale
Numero di colloqui di lavoro
(0-99)
post-laurea
dicotomica
Discreta Avere lavorato
Categoriale
Voto di laurea
(80-110L) durante gli studi universitari
dicotomica
Categoriale
Età alla laurea
Discreta
Genere (M / F)
dicotomica
(in anni compiuti)
(23-60)
Numero di lingue
Discreta Laurea era un requisito
Categoriale
parlate almeno discretamente
(0 - 5)
per il lavoro
dicotomica
rea”, sono state applicate, seguendo una procedura ormai consueta7, tecniche di analisi loglineare e logit per individuare le presumibili determinanti dell’occupazione a
medio-breve periodo. Le variabili la cui influenza sulla risposta, in base all’analisi
loglineare, è statisticamente significativa sono brevemente descritte nella Tab. 3; si
sottolinea la presenza di elementi soggettivi di valutazione, espressi dagli intervistati
attribuendo punteggi da 0 a 100 ad alcuni aspetti della qualità della formazione universitaria ai fini dell’attività lavorativa e ad altri aspetti specifici del lavoro svolto.
Sulla base di dette presumibili variabili esplicative, è stato elaborato un modello logit per la previsione del lavoro a breve-medio periodo, con procedura stepwise basata sul rapporto di massima verosimiglianza (con livello di significatività pari
al 5% per l’inserimento di ogni esplicativa e del 10% per la sua rimozione). Il subcampione su cui è stata effettuata l’analisi è quello dei 2.414 intervistati che, dopo la
7
Detta procedura parte da un modello log-lineare saturato per tabelle di contingenza multidimensionali per poi eliminare, uno per volta, gli effetti non significativi mediante il test G2 = –2lnΛ; prendendo
in considerazione solo le interazioni fra la variabile risposta qui considerata e le altre, si è poi costruito
un appropriato modello di regressione logit.
Modelli statistici per l’analisi della transizione Università-lavoro
261
Tabella 4. Effetti significativi del modello logit a risposta dicotomica “Occupazione entro
un anno dalla laurea” relativo ai laureati dell’Università di Bari che lavorano o
hanno lavorato dopo la laurea (1995-2000)
Odds
Stime dei Errori
p-value
Effetti significativi
parametri standard
ratio
Intercetta
-2,034
0,566
<0,01 0,13
Frequenza saltuaria lezioni
-1,144
0,406
<0,01 0,32
Corso di laurea di tipo applicativo
-0,319
0,098
<0,01 0,73
Avere svolto formazione post-laurea
-0,283
0,160
0,08 0,75
Genere M ∩ Età alla laurea
-0,082
0,034
0,01 0,92
Frequenza saltuaria ∩ Numero colloqui di lavoro
-0,046
0,021
0,03 0,96
Laurea requisito lavoro ∩ Punt. per disp. tempo libero -0,012
0,005
0,01 0,99
Punt. realizzazione per disponibilità di tempo libero
-0,008
0,002
<0,01 0,99
Punteggio qualità degli insegnamenti specialistici
-0,007
0,003
0,02 0,99
Punteggio realizzazione per sicurezza/stabilità lavoro
0,009
0,002
<0,01 1,01
Punteggio realizzazione per prestigio sociale
0,011
0,004
<0,01 1,01
Frequenza saltuaria ∩ Punteggio insegn. specialistici
0,012
0,006
0,06 1,01
Punteggio qualità delle attività professionalizzanti
0,013
0,002
<0,01 1,01
Genere M ∩ Punteggio per prestigio sociale
0,014
0,007
0,03 1,01
Numero di colloqui di lavoro
0,017
0,011
0,10 1,02
Età alla laurea
0,067
0,017
<0,01 1,07
Numero di lingue parlate
0,228
0,068
<0,01 1,26
Frequenza saltuaria ∩ Laurea requisito per il lavoro
0,642
0,252
0,01 1,90
Genere (M)
1,635
1,007
0,10 5,13
Laurea requisito per il lavoro
1,769
0,303
<0,01 5,87
laurea, hanno trovato occupazione, sia che l’abbiano poi cessata, sia che ancora lavorino, escludendo quindi coloro che hanno proseguito il proprio percorso formativo.
Del modello di regressione logit identificato, si riportano qui solo i coefficienti significativi in ordine di influenza, da negativa a positiva (Tab. 4), senza entrare nello
specifico delle relazioni trovate in quanto, nell’economia del presente lavoro, si ha
interesse soprattutto a verificare quali variabili sono interessate.
Tuttavia, in detto modello va sottolineato l’incremento della probabilità nel
trovar lavoro entro un anno legato all’orientarsi verso professioni che richiedono la
laurea (pari a quasi sei volte quella relativa al caso opposto) o al fatto di essere maschio, e di non dover, quindi, combattere con la nota ritrosia dei datori di lavoro ad
assumere donne, per la loro caratteristica (spesso negativa dal punto di vista del profitto d’impresa) di avere o di poter avere in futuro figli che sottraggono tempo ed attenzione agli impegni professionali. Sfavorevole alla probabilità di inserirsi in breve
nel mondo del lavoro è, invece, l’aver conseguito una laurea di tipo applicativo (categoria intermedia fra lauree “scientifiche” ed “umanistiche”, da noi qui definita per
tener conto delle particolarità di Facoltà come Economia, Scienze Politiche o Giurisprudenza, comunemente considerate umanistiche), presumibilmente per la necessità,
262
Un modello con tecniche fuzzy neuro adattative per la classificazione dei laureati...
per alcuni laureati, di effettuare un praticantato per poter poi conseguire
l’abilitazione professionale. Ancor più negativo si rivela l’aver frequentato saltuariamente i corsi universitari. Per quanto riguarda l’influenza delle variabili di valutazione (che, essendo espresse su scala 0-100, presentano coefficienti prossimi a zero
ma comunque significativi), va sottolineata l’influenza negativa della realizzazione
lavorativa per disponibilità di tempo libero e della valutazione assegnata agli insegnamenti universitari specialistici (salvo per coloro che, presumibilmente perché studenti-lavoratori, frequentavano saltuariamente) e l’influenza positiva delle attività
professionalizzanti svolte nel corso degli studi.
Al fine di identificare gli elementi del processo di formazione che forniscono
i migliori outcomes, sono stati poi sperimentati vari metodi di segmentazione (C@rt,
CHAID esaustivo, LAID-OUT8), riferendosi a diversi insiemi di variabili esplicative,
nella cui costruzione si è tenuto conto anche dei risultati dell’analisi logit,
È opportuno qui ricordare brevemente il fondamento metodologico dell’analisi di segmentazione: essa, infatti, parte dal complesso dei dati del campione, che
viene suddiviso in gruppi (nodi) via via più omogenei al proprio interno in termini di
relazioni fra la variabile risposta nota (dipendente) e le variabili assunte come esplicative. Tale procedimento produce una “regola di classificazione”. La migliore segmentazione, fra tutte quelle possibili, è quella che meglio risponde al criterio di omogeneità interna dei gruppi generati (purity): nella condizione ottimale, tutti i casi di
ogni singolo nodo finale dovrebbero presentare una stessa modalità della variabile risposta. Ai fini esplorativi, però, è talvolta necessario sacrificare una struttura efficiente,
ma di difficile interpretazione, per una più chiara pur se dotata di minore purezza.
Il procedimento di espansione dell’albero di classificazione si arresta, comunque, quando si verifica una delle regole di arresto predefinite, ossia quando:
1. tutti i casi di un nodo fanno rilevare per i predittori valori statisticamente identici;
2. tutti i casi del nodo hanno il medesimo valore della variabile risposta (nodo puro);
3. viene rilevata una dimensione minima, in genere fissata dal ricercatore, per il nodo “genitore” (da cui si diparte l’ulteriore classificazione) o il nodo “figlio”, che
può essere, a sua volta. genitore;
4. la profondità dell’albero ha raggiunto un valore massimo, anch’esso definito in
base alle necessità della ricerca.
Per non espandere troppo l’albero di classificazione e mantenerne una certa
interpretabilità, si è posto pari a 10 il massimo numero di livelli di segmentazione,
fissando a 30 il numero minimo di casi per i nodi “genitore” e a 10 quello per i nodi
“figlio”. Si è fatto anche uso di procedure di sfoltimento (pruning), ossia di eliminazione, a posteriori, di nodi superflui o ridondanti dal punto di vista della classificazione, pur se di qualche interesse dal punto di vista descrittivo.
8
Per i quali si rimanda a: Breiman et al., 1991; Fabbris 1997; Fabbris e Martini, 2002; Kass 1980;
Schievano 2002, 2003; Sonquist 1970.
Modelli statistici per l’analisi della transizione Università-lavoro
263
Purtroppo, l’errore di classificazione risultante dalle procedure utilizzate, a
seconda dell’algoritmo utilizzato, si è rivelato pari o superiore al 34% (in altri termini, l’attribuzione della condizione di “occupato entro un anno” o di quella opposta risulta corretta per non oltre il 66% degli intervistati).
Sembra logico, quindi, giungere alla conclusione (peraltro non sorprendente)
che le variabili disponibili relative al processo formativo ed all’offerta di lavoro, sono insufficienti a descrivere il fenomeno del placement dei laureati in assenza di informazioni sul lato della domanda. Ciò, d’altra parte, non fa che confermare alcune
conclusioni a cui si era pervenuti nel citato lavoro di Crocetta e d’Ovidio (2003), riguardante, nella fattispecie, i laureati dell’Università di Foggia.
Tuttavia, è sorto il dubbio che parte dell’errore di classificazione potesse dipendere dalla definizione stessa delle variabili di partenza, oppure dalla struttura dei
vari sottogruppi da esse definiti: invero, cosa succederebbe se gli insiemi individuati
dalla segmentazione non avessero i contorni netti, ma velati, sfuocati (fuzzy)?
Si è deciso, perciò, di tentare di migliorare la precisione della classificazione
facendo uso di tecniche fuzzy neuro-adattative, utilizzando i risultati dell’analisi di
segmentazione come regole iniziali a cui applicare la procedura di ottimizzazione.
3. Cenni sull’approccio fuzzy proposto
Come precedentemente esposto, l’idea di fondo è di sfruttare l’albero di segmentazione per ricavare le regole di un sistema fuzzy. In particolare, usando un insieme di
dati input/output, il metodo “regola” i parametri delle funzioni membership tramite
una rete neurale, in maniera tale da migliorare il sistema fuzzy stesso.
A causa delle caratteristiche matematiche dei metodi fuzzy, per poter implementare una chiara attribuzione delle membership si è stabilito di delimitare nel modo seguente la tipologia di analisi di segmentazione da usare per la definizione delle
regole:
1) variabile risposta dicotomica (non trasformata in logit);
2) alberi binari o al più ternari;
3) per evitare una complicazione delle regole eccessiva ed inutile (ai fini
dell’ottimizzazione fuzzy), nel modello di classificazione sono inserite solo covariate al più ordinali con non oltre quattro modalità oppure continue (o anche
ordinali assimilabili a continue).
Tali limitazioni hanno portato a creare un modello di segmentazione con metodo C@rt avente un errore di classificazione abbastanza rilevante (oltre il 35%, con
31 nodi finali), ma più suscettibile di miglioramenti rispetto ad altri.
Nei paragrafi che seguono si spiegherà brevemente il metodo proposto.
264
3.1
Un modello con tecniche fuzzy neuro adattative per la classificazione dei laureati...
Cenni sull’ANFIS: Adaptive Neuro Fuzzy Inference System
La tecnica ANFIS (adaptive neuro-fuzzy inference system) permette ad un sistema
fuzzy di apprendere le informazioni contenute in un insieme di dati.
Questo metodo è molto simile a quello utilizzato all’interno delle reti neurali,
ed è stato descritto per la prima volta da Jang (1993): alle funzioni membership di un
sistema fuzzy sono associati dei parametri, i quali sono “regolati” tramite un processo iterativo di apprendimento basato su un insieme di dati di tipo “input/output”, in
maniera tale da adattare la risposta del sistema fuzzy ai dati stessi (il metodo, in sostanza, minimizza la somma dei quadrati delle differenze fra gli output dell’insieme
di dati, e gli output ottenuti applicando gli input dell’insieme di dati al sistema
fuzzy). Accenniamo brevemente a questa tecnica.
Per semplicità, assumeremo che il sistema inferenziale fuzzy abbia due input,
x ed y, ed un solo output, f. Supporremo, inoltre, che il sistema abbia due regole
fuzzy del tipo di Takagi e Sugeno9 del primo ordine (Takagi and Sugeno, 1983):
regola 1: se x è A1 e y è B1, allora f1=p1 x+q1 y+r1 ,
regola 2: se x è A2 e y è B2, allora f2=p2 x+q2 y+r2 .
ove Ai e Bi sono i sottoinsiemi fuzzy associati a termini linguistici (ad es., piccolo,
medio, grande, ecc.) attivati rispettivamente dagli input non fuzzy (numeri reali) x ed
y; pi, qi e ri sono invece opportuni parametri.
Il sistema fuzzy è mostrato in Fig. 1: i pesi wi sono generalmente ottenuti adoperando due tecniche di attivazione dei sottinsiemi fuzzy, ovvero la correlation
product encoding e la correlation minimun encoding (Delvecchio, 2002).
Figura 1. Rappresentazione di un generico sistema inferenziale fuzzy con due input, x ed y,
ed un solo output, z (modello di Takagi e Sugeno).
9
Le principali tecniche di inferenza fuzzy sono il “metodo di Mamdani” e il “metodo di Sugeno”. Il
primo (Mamdani and Assilian, 1975) rappresenta la metodologia più applicata: ha i vantaggi di essere
intuitivo, diffusamente accettato, e ben adattabile agli input umani. Il secondo (Sugeno, 1985) può essere usato per modellare qualsiasi sistema di inferenza in cui le funzioni membership in output sono
lineari o costanti: ha i vantaggi di essere computazionalmente efficiente, di lavorare bene con tecniche
lineari e con tecniche di ottimizzazione e adattative, e di adattarsi bene all’analisi matematica
(AA.VV., 1999, pp. 2-36, 2-37 e 2-91).
Modelli statistici per l’analisi della transizione Università-lavoro
265
Figura 2. Architettura ANFIS del sistema inferenziale fuzzy di Figura 1: i nodi quadrati (o
nodi adattativi) hanno parametri da “regolare”, mentre i nodi circolari (o nodi
fissi) non ne hanno.
L’architettura ANFIS corrispondente al sistema fuzzy di Fig. 1 è mostrata in
Fig. 2. In quest’ultima, sono evidenziati i cinque layer contenenti i nodi funzione (di
forma quadrata o circolare), i quali applicano una particolare funzione ai loro ingressi
o ai parametri in essi contenuti. In particolare, i nodi quadrati (o nodi adattativi) in
Figura 2 hanno parametri da “regolare”, mentre i nodi circolari (o nodi fissi) non ne
hanno.
Nel seguito descriveremo i cinque layer della rete neurale riportata in Fig. 2.
3.1.1 Layer 1
Ogni nodo in questo layer è un nodo quadrato con una funzione nodo del tipo:
Oi(1) = µ Ai ( x)
dove x è l’input del nodo i-esimo, e Ai è il termine linguistico (ad es., piccolo, medio,
grande, ecc.) associato alla funzione di questo nodo. In altre parole, Oi(1) è la funzione membership di Ai (funzione indicata con µ Ai (x) ), e perciò specifica il grado con
cui una dato valore x appartiene ad Ai. Si noti che µ Ai (x) è una funzione continua,
differenziabile a pezzi, come ad esempio una funzione trapezoidale oppure triangolare, identificata da parametri da “regolare”.
3.1.2 Layer 2
Ogni nodo in questo layer è un nodo circolare, etichettato con ∏ in Fig. 2.
Applicando la regola del correlation product encoding (Delvecchio, 2002), tale nodo
moltiplica fra loro i suoi ingressi e restituisce in uscita il loro prodotto. Nel nostro esempio,
wi = µ Ai ( x) × µ Bi ( x),
i = 1, 2 .
Applicando, invece, la regola del correlation minimun encoding, tale nodo restituisce
in uscita il minimo dei suoi ingressi, ovvero
wi = min µ Ai ( x), µ Bi ( x) ,
i = 1, 2 .
(
)
266
Un modello con tecniche fuzzy neuro adattative per la classificazione dei laureati...
3.1.3 Layer 3
Ogni nodo in questo layer è un nodo circolare, etichettato con N in Fig. 2. L’i-esimo
nodo calcola:
wi
wi =
i = 1, 2 .
∑ wi
i
Per convenzione, l’output di questo layer è chiamato normalized firing strength.
3.1.4 Layer 4
Ogni nodo in questo layer è un nodo quadrato con una funzione nodo del tipo:
Oi( 4) = wi fi = wi ( pi x + qi y + ri )
i = 1, 2 ,
dove wi è l’output del layer 3, e {pi, qi, ri} sono i parametri da “regolare” del nodo iesimo, chiamati consequent parameters.
3.1.5 Layer 5
L’unico nodo in questo layer è un nodo circolare, etichettato con ∑ in Fig. 2, che effettua la somma degli output del layer 4:
∑ wi fi
( 5)
( 4)
O1 = ∑ Oi = ∑ wi fi = i
i = 1, 2 .
∑ wi
i
i
i
3.1.6 L’addestramento della rete
Assumendo che un insieme di P dati sia usato per addestrare la rete, l’errore di misura (o funzione energia) per il generico dato p-esimo (1≤p≤P) è dato da:
(
E p = T p − O1(,5p)
)
2
dove Tp è il valore output del p-esimo elemento dell’insieme di dati di addestramento, e O1(,5p) è invece il corrispondente valore in output fornito dalla rete (in output al
layer 5). Perciò, l’errore di misura totale è:
P
E = ∑ Ep .
p =1
Brevemente, ad ogni iterazione l’algoritmo10 calcola, per l’insieme di dati di
addestramento, l’energia E e il valore dei parametri (da adoperare per l’iterazione
successiva) che riducono tale energia.
A tal proposito, adattando ciò che Jang ha dimostrato (1993), se indichiamo:
con αi il parametro generico di una determinata rete neuro adattativa, risulta:
10
Esistono in realtà due tipi di algoritmo per l’ottimizzazione dei parametri del sistema fuzzy: backpropagation (basato sul metodo del gradiente, il quale sfrutta il gradiente per avvicinarsi alla soluzione ad ogni
iterazione), e metodo ibrido (che combina il metodo del gradiente con il metodo dei minimi quadrati).
Modelli statistici per l’analisi della transizione Università-lavoro
267
∂E
∂α i
ove η denota il tasso di apprendimento (learning rate):
k
η=
;
2
 ∂E 
∑  ∂α 
i 
i 
k è un opportuno parametro che influisce sulla velocità di convergenza dell’algoritmo
P ∂E
∂E p
∂E p ∂O (*)
∂E
p
=∑
= ∑
,
∂α i p =1 ∂α i
∂α i O (*) ∈S ∂O (*) ∂α i
∆α i = − η
ove S è l’insieme di nodi O(*) il cui output dipende da αi.
Indicato con #(k) il numero di nodi del layer k-esimo e con Oi(,kp) il nodo funzione del layer k-esimo alla posizione i-esima in corrispondenza del dato p-esimo, si ha
( k +1)
#( k +1) ∂E
∂E p
p ∂O p
;
= ∑
( k +1)
∂Oi(,kp)
∂Oi(,kp)
m =1 ∂Om , p
si noti che il layer 5 ha un solo nodo, e pertanto il corrispondente nodo funzione viene indicato con O (p5) :
( 5)
∂E p ∂O p
∂E p
=
( 4)
( 5)
( 4)
∂O p ∂O i , p
∂O i , p
L’algoritmo si arresta quando E raggiunge un minimo prefissato.
Tutto ciò premesso, è noto (Delvecchio, 2002) che per identificare il sistema
fuzzy adoperato occorre ancora conoscere:
- il tipo di sistema e la modalità di attivazione dei sottoinsiemi fuzzy (cfr. par. 3.2);
- le membership associate alle grandezze in ingresso al sistema (cfr. par. 3.3).
Nel seguito del paragrafo si presentano e si commentano gli aspetti del sistema fuzzy che è stato adottato.
3.2
Il sistema fuzzy adoperato
Il sistema fuzzy adoperato in questo lavoro si basa sulla tecnica di inferenza fuzzy conosciuta in letteratura come “metodo di Sugeno di ordine zero”, ovvero “metodo di
Takagi-Sugeno di ordine zero” (Takagi e Sugeno, 1983, Sugeno, 1985).
In particolare, una generica regola ha la forma (cfr. par. 3.1):
se x è Ai
e
y è Bi,
allora fi= ri .
Nel nostro caso, inoltre, si è applicata la regola Correlation minimum encoding (cfr. par. 3.1.2).
Figura 3. Esempio di attivazione delle 31 regole (una ogni riga della figura) nello schema fuzzy proposto, così come visualizzate
nel software implementato.
268
Un modello con tecniche fuzzy neuro adattative per la classificazione dei laureati...
Modelli statistici per l’analisi della transizione Università-lavoro
269
In Fig. 3 si riporta un esempio di attivazione delle 31 regole (una per ogni riga della figura), ricavate dall’albero della segmentazione, nello schema fuzzy proposto, così come visualizzate nel software implementato in Matlab. In ascissa vengono
riportati gli input (genere, età alla laurea, voto di laurea, ecc.), mentre in basso a destra vi è il sottoinsieme in output, ottenuto “consolidando” i sottoinsiemi dell’ultima
colonna, in output alle 31 regole (cfr., ad es., Crocetta e Delvecchio, 2003).
In particolare si noti che si sono ripetute come input le variabili che compaiono
più volte in una stessa regola, altrimenti il Matlab non avrebbe permesso di inserirle.
3.3
Membership associate alle grandezze in ingresso al sistema
Distingueremo il caso di variabile ordinale da quella nominale.
3.3.1 Membership di variabile ordinale
Nella logica classica, la funzione di appartenenza dell’insieme “età alla laurea > 29”
avrebbe valore 1 per una età maggiore di 29, e 0 altrimenti: pertanto la sua rappresentazione grafica avrebbe una tipica forma a “gradino”.
Per tale motivo, nell’approccio fuzzy per le membership di variabili ordinali
si sono adoperate funzioni tipo sigmoide (cfr. Fig. 4).
Figura 4.
Rappresentazione della membership Figura 5.
associata alla variabile ordinale “età
alla laurea > 29”, così come visualizza nel software implementato.
Rappresentazione delle membership
associate alle variabili nominali, così come visualizzate nel software implementato.
3.3.2 Membership di variabile nominale
Le variabili nominali (genere, attività lavorativa durante il corso di laurea, conoscenze informatiche, ecc.) in realtà presentano valori delle membership pari a 0 oppure 1,
e quindi non hanno quel grado di “sfumatura” tipico delle variabili fuzzy.
Ai fini dell’implementazione in Matlab, tuttavia, si sono dovute comunque
adoperare funzioni membership, in particolare sono state scelte funzioni triangolari
(cfr. Fig. 5) perché molto semplici ed usualmente adoperate (Kosko, 1995).
270
Un modello con tecniche fuzzy neuro adattative per la classificazione dei laureati...
In particolare, si noti in figura che, poiché i valori in ingresso alle funzioni
membership sono pari a 0 oppure 1, analogamente i valori assunti da tali funzioni saranno soltanto 0 ed 1.
3.4 La rete neurale
In Fig. 6 si riporta la rappresentazione della rete neurale ricavata dall’albero della
segmentazione, così come visualizzate nel software implementato in Matlab.
Dal confronto di tale figura con la Fig. 2, in particolare si noti che: il secondo
strato di neuroni di Fig. 6 rappresenta il layer 1 di Fig. 2, il terzo strato i layer 2 e 3, il
quarto strato il layer 4, ed il quinto strato (neurone singolo) il layer 5.
Figura 6. Rappresentazione della rete neurale, così come visualizzate nel software implementato.
4. Risultati ottenuti con l’applicazione della nuova metodologia
proposta
Passiamo ora a descrivere l’albero di segmentazione ottenuto ed a considerare i
nodi relativi alle diverse variabili che influenzano il tempo di inserimento lavorativo
dei laureati dell’Università di Bari. Per motivi tipografici abbiamo diviso l’albero di
segmentazione in più parti, riportate nelle successive Figure 7-9.
Modelli statistici per l’analisi della transizione Università-lavoro
271
Figura 7. Albero di segmentazione ottimizzato dei laureati dell’Università di Bari secondo
la condizione di occupazione entro un anno dalla laurea - Prima ramificazione.
Totale laureati
(di cui occupati in meno di 1 anno = 54,9%)
Attiv. lavorative durante i corsi
Nodo 1
Nodo 2
Svolte attività lavorative
Occupati=74,8%
Nessuna attiv. lavorativa
Occupati=47,4%
valutaz. sicurezza posto lavoro
qualità attività pratiche nei cdl
Nodo 3
Nodo 4
Nodo 5
Nodo 6
fino a 77,5 / 100
Occupati=69,6%
> 77,5 / 100
Occupati=81,8%
fino a 7,5 / 100
Occupati=30,0%
> 7,5 / 100
Occupati=69,6%
qualità attiv. profess.
tirocini / stage
abilitaz. insegnam.
Continua
in Fig. 8
Nodo 7
Nodo 8
fino a 0,5 / 100
Occupati=26,8%
> 0,5 / 100
Occupati=59,0%
sicurezza lavoro
età alla laurea
Continua
in Fig. 9
Nodo 13
Nodo 14
Nodo 15
Nodo 16
fino a 99,5/100
Occup.=24,7%
> 99,5 / 100
Occup.=55,3%
> 25,5 anni
Occup.=75,0%
fino a 25,5
Occup.=48,6%
genere
form.post-laurea
Nodo 23
Nodo 24
Nodo 25
Nodo 26
Femminile
Occup.=26,3%
Maschile
Occup.=84,2%
Nessuna
Occup.=60,7%
Svolta form.
Occup.=11,1%
La Fig. 7 evidenzia le variabili più influenti per l’analisi effettuata. Come si vede, nel complesso la percentuale dei laureati occupati entro un anno dalla laurea
(54,9%) risulta solo di poco superiore rispetto a quella dei non occupati. Il nostro obiettivo è verificare come la presenza di certe caratteristiche possa modificare tale
equilibrio fornendo più o meno informazioni sulle possibilità di ingresso nel mondo
del lavoro a particolari categorie di laureati.
Tale segmentazione pone al primo livello, come variabile discriminante, l’avere
o no lavorato durante il corso degli studi: evento che, ovviamente, accomuna sia giovani che hanno compiuto esperienze professionalizzanti, sia lavoratori più anziani
272
Un modello con tecniche fuzzy neuro adattative per la classificazione dei laureati...
che si sono laureati per scopi di progressione di carriera (gruppo numericamente valutabile intorno al 10% del campione).
Più interessanti sono le osservazioni che si traggono dal secondo livello
dell’albero, ove sono poste le valutazioni fornite dagli intervistati a due aspetti diversissimi fra loro: per chi ha lavorato durante i corsi, infatti, ad un’alta realizzazione
della stabilità lavorativa (punteggio superiore a 77,5/100)11 corrispondono le quote
più elevate di occupati; fra chi non ha lavorato da studente, invece, la quota maggiore
di occupati entro un anno si legge per coloro che valutano in modo comunque superiore allo zero (> 7,5/100) le attività pratiche apprese durante i corsi. Fra coloro che
hanno dato alla qualità delle attività pratiche un voto prossimo a zero e che hanno valutato “zero” anche la qualità delle attività professionalizzanti, peraltro, la quota di
occupati in tempi brevi è molto bassa (26,8%).
Altre variabili discriminanti da valutare con attenzione sono l’età alla laurea (i
più giovani trovano infatti lavoro più facilmente), il genere (essendo come sempre
favoriti i maschi) e la formazione post-laurea, che ovviamente influisce negativamente sull’occupazione in tempi brevi: infatti, chi deve svolgere tirocini, master o altro
ha meno tempo per dedicarsi alla ricerca di occupazione.
Nel secondo e nel terzo ramo di segmentazione (Figure 8 e 9) vi sono altre relazioni interessanti, che solo per motivi di spazio non è possibile qui approfondire. Si
sottolinea in questa sede soltanto la minore occupazione in tempi brevi fatta rilevare,
per gli stessi motivi su esposti, da chi ha sostenuto gli esami per l’abilitazione
all’insegnamento, mentre chi non aveva bisogno di tale titolo ha messo a frutto la
laurea in un lavoro più o meno adeguato.
Proprio l’adeguatezza del lavoro trovato è un altro fattore discriminante evidenziato in Fig. 8, a ridosso dell’età alla laurea: fra i laureati intervistati, infatti, è ben
più elevata rispetto alla media la quota di occupati che valutano in modo abbastanza
negativo (con un punteggio non superiore a 45/100) la coerenza del lavoro svolto con
il proprio titolo: tale quota è infatti pari all’84,6%, mentre fra i laureati che hanno
trovato un lavoro coerente con il proprio percorso formativo gli occupati entro un
anno ammontano a meno del 50%. La flessibilità e la capacità di far fronte a compiti
per cui l’Università non ha fornito formazione è quindi un fattore vincente.
La Fig. 9, oltre al consueto ed intrinseco ritardo dovuto a corsi di abilitazione e
formazione post-laurea, pone in evidenza (già al quarto livello nello schema generale,
ma in seconda linea nella figura) la minore possibilità occupazionale legata al possesso di una laurea umanistica: 29,1% contro il 61,7% dei laureati d’altro orientamento.
11
Come si è accennato in precedenza, agli intervistati è stato chiesto di assegnare un punteggio, da 0 a
100, alla propria soddisfazione per quanto riguarda aspetti dell’attività lavorativa, fra cui la stabilità
dell’occupazione, ed aspetti riguardanti la propria formazione universitaria. Al presente, per quanto
riguarda la stabilità lavorativa, ai fini della purezza del nodo (cfr. paragrafo 2) il punto discriminante,
che corrisponde alla maggiore discretizzazione possibile dei risultati dell’ottimizzazione ottenuta con
le tecniche fuzzy, è appunto il punteggio di 77,5 su 100.
Modelli statistici per l’analisi della transizione Università-lavoro
273
Figura 8. Albero di segmentazione ottimizzato dei laureati dell’Università di Bari secondo
la condizione di occupazione entro un anno dalla laurea - Seconda ramificazione.
Nodo 3: Sicurezza lavoro, valutazione fino a 77,5/100
abilitazione insegnamento
Nodo 11
Nodo 12
Nessuna abilitazione
Occupati=75,1%
Abilitazione ottenuta
Occupati=56,8%
età alla laurea
Nodo 21
Nodo 22
fino a 31,5 anni
Occupati=53,9%
Oltre 31,5 anni
Occupati=100,0%
coerenza laurea/lav.
Nodo 33
Nodo 34
fino a 45 / 100
Occupati=84,6%
Oltre 45 /100
Occupati=49,4%
qualità insegn. spec.
Nodo 41
Nodo 42
fino a 57,5 / 100
Occupati=80,0%
Oltre 57,5 /100
Occupati=45,6%
dispon. tempo libero
Nodo 47
Nodo 48
fino a 72,5 / 100
Occupati=28,1%
Oltre 72,5 /100
Occupati=57,5%
voto di laurea
Nodo 52
Nodo 53
fino a 103,5
Occupati=100,0%
Oltre 103,5
Occupati=51,2%
coerenza laurea/lav.
Nodo 56
Nodo 57
fino a 95 / 100
Occupati=39,3%
Oltre 95 /100
Occupati=76,9%
274
Un modello con tecniche fuzzy neuro adattative per la classificazione dei laureati...
Figura 9. Albero di segmentazione ottimizzato dei laureati dell’Università di Bari secondo
la condizione di occupazione entro un anno dalla laurea - Terza ramificazione.
Nodo 6: Qualità attività pratiche nel c.d.l. > 7,5 / 100
tirocini / stage
Nodo 9
Nodo 10
Nessuno
Occupati=69,1%
Svolto
Occupati=41,6%
abilitazione insegnamento
tipo di c.d.l.
Nodo 17
Nodo 18
Nodo 19
Nodo 20
Abilitato/a
Occup.=44,6%
Non abilitato/a
Occup.=73,0%
cdl umanistico
Occup.=29,1%
cdl non uman.
Occup.=51,7%
qualità ins. spec.
tipo di c.d.l.
abilitaz. profess.
Nodo 21
Nodo 22
Nodo 23
Nodo 24
Nodo 31
Nodo 32
fino a 72,5/100
Occup.=32,5%
Oltre 72,5/100
Occup.=55,8%
cdl scientifico
Occup.=81,5%
cdl non scientif.
Occup.=65,3%
Non abilitato/a
Occup.=59,5%
Abilitato/a
Occup.=36,7%
tipo di c.d.l.
qualità ins. spec.
qualità ins. spec.
Nodo 35
Nodo 36
Nodo 37
Nodo 38
Nodo 39
Nodo 40
cdl scientifico
Occup.=30,8%
cdl non scient.
Occup.=66,7%
fino a 99 / 100
Occup.=66,7%
Oltre 99 / 100
Occup.=14,3%
Oltre 67,5 /100
Occup.=26,3%
fino a 67,5/100
Occup.=63,6%
coerenza laurea
qual. attiv. prat.
Nodo 43
Nodo 44
Nodo 45
Nodo 46
fino a 77,5 / 100
Occup.=59,6%
Oltre 77,5 / 100
Occup.=75,2%
fino a 65 / 100
Occup.=13,6%
Oltre 65 /100
Occup.=69,2%
qualità attiv. prof.
Nodo 49
Nodo 50
Nodo 51
Fino a 5 / 100
Occup.=46,7%
5 - 75 / 100
Occup.=66,3%
Oltre 75 / 100
Occup.=22,2%
voto di laurea
sicurezza lavoro
Nodo 54
Nodo 55
Nodo 54
Nodo 55
fino a 109,5
Occup.=36,0%
Oltre 109,5
Occup.=100,0%
fino a 45/100
Occup.=46,2%
Oltre 45/100
Occup.=72,8%
Modelli statistici per l’analisi della transizione Università-lavoro
275
Tabella 8. Tempi di occupazione osservati e previsti per i laureati che hanno lavorato dopo la laurea (verifica delle regole di segmentazione ottimizzate).
Tempi di occupazione osservati
Fino a un anno
Oltre un anno
Totale
Tempi di occupazione previsti
Fino a 1 anno
1060
335
1395
Oltre 1 anno
272
747
1019
Totale
1332
1082
2414
Tabella 9. Analisi dell’errore di classificazione.
Occupati
Esito della previsione tramite
entro un anno
l’analisi di segmentazione
% classificazione esatta
79,6
% classificazione errata
20,4
Non occupati
entro un anno
69,0
31,0
Totale
74,9
25,1
In definitiva, riportando al database di partenza le regole ottenute tramite la
presente ottimizzazione ed attribuendo così ai laureati la qualifica “prevista” di occupati o non occupati entro 12 mesi, si può calcolare, per confronto con il corrispondente ammontare di effettivi occupati/non occupati (Tab. 8), si ottiene un errore di
classificazione poco superiore al 25%, con un miglioramento di oltre 10 punti percentuali rispetto a quelli dell’albero di segmentazione utilizzato per la definizione
delle regole (Tab. 9). Il risultato appare quindi interessante, soprattutto tenendo conto
dei limiti tecnici che si è dovuto affrontare, ma soprattutto è suscettibile di sviluppi
sia metodologici che interpretativi.
La forma delle membership (le quali esprimono l’importanza, per una qualsiasi unità rilevata, di appartenere ad una fra due o più classi adiacenti dell’albero di
segmentazione individuato) con i parametri ottimizzati potrebbe, inoltre, fornire ulteriori informazioni all’indagine: una pendenza molto ripida della sigmoide esemplificata in Fig. 4, tanto da farla assomigliare maggiormente ad un “gradino”, potrebbe
essere dovuta a qualche evento particolare verificatosi nel periodo considerato (ad
esempio, una “manovra finanziaria” contemplante il blocco delle assunzioni nel settore pubblico).
L’applicazione del metodo, tuttavia, ha trovato non poche difficoltà in quanto
il toolbox Matlab adoperato non permette di escludere dall’analisi i parametri delle
membership delle variabili nominali (cfr. 3.3.2). Ciò ha comportato, in fase di addestramento della rete neurale, frequenti arresti dell’algoritmo in minimi relativi e non
assoluti dell’energia (cfr. 3.1.6). Il metodo potrebbe, pertanto, essere migliorato implementando un programma ad hoc.
Gli Autori ritengono, inoltre, di poter ridurre ulteriormente l’errore di classificazione con un modello di Sugeno del primo ordine (cfr. 3.1).
276
Un modello con tecniche fuzzy neuro adattative per la classificazione dei laureati...
5. Conclusioni
I risultati della metodologia proposta dagli Autori nel presente lavoro, pur se non ottimali, si presentano come una buona base di partenza per migliorare la precisione
dell’attribuzione dell’esito lavorativo a partire da informazioni pregresse, e più in
generale per risolvere problemi di previsione nella classificazione.
La variabile risposta (dicotomica) su cui si è investigato è l’aver trovato lavoro entro un anno di tempo dalla laurea. Sono stati sperimentati vari metodi di segmentazione, che però hanno fatto rilevare errori di classificazione di circa il 35%; tale cospicuo livello di errore è presumibilmente dovuto al fatto che la metodologia di
segmentazione, anche quando contempli tecniche di look-ahead (Fabbris 1997), fa
tuttora uso di metodi matematici di ricerca di minimi funzionali di tipo hillclimb, efficienti con funzioni unimodali ma non altrettanto con quelle polimodali (cfr. Delvecchio 2004).
Gli Autori hanno tentato, perciò, di migliorare la precisione della classificazione facendo uso di tecniche fuzzy neuro adattative. In particolare, l’albero di segmentazione ricavato con algoritmo C@rt è stato utilizzato per ricavare le regole di un
sistema fuzzy. Successivamente, tramite una rete neurale, sono stati aggiustati i parametri delle funzioni membership, in maniera tale da migliorare il sistema fuzzy
stesso. Si è ottenuto, in tal modo, un miglioramento dell’errore di classificazione di
oltre il 10% rispetto a quanto ottenuto con gli usuali algoritmi di segmentazione.
L’albero di segmentazione risultante fornisce informazioni di interesse immediato, anche se a volte prevedibili: ad esempio, a posteriori appare logico che chi
ha scelto di proseguire la propria formazione professionale con tirocini o stage, dopo
aver fatto proprie le nozioni eminentemente teoriche impartite all’Università, ha avuto meno tempo e occasioni di inserirsi nel mondo del lavoro.
Ciò che può essere importante, e che ci si ripromette di approfondire in altra
occasione, è definire quali possano essere le sottopopolazioni di laureati che con queste regole sono classificate meglio, indagando quindi i motivi del residuo errore di
classificazione in modo da accrescere ancora la capacità previsiva del metodo.
Modelli statistici per l’analisi della transizione Università-lavoro
277
Bibliografia
AA.VV. (1999), Fuzzy Logic Toolbox for Use with MATLAB, User’s Guide Version
2, MathWorks, Inc..
BREIMAN L., FRIEDMAN J.H. OLSHEN R.A., STONE C.J. (1984) Classification
and Regression Trees, Wadsworth Inc., Belmont California.
CROCETTA C., D’OVIDIO F. (2003) La valutazione dell’inserimento lavorativo
dei laureati all’Università di Foggia attraverso un’analisi di segmentazione,
in: M. CIVARDI (a cura di) Transizione Università-Lavoro: la definizione delle competenze, CLEUP, Padova: 111-132.
CROCETTA C., DELVECCHIO G. (2003) Una misura fuzzy della soddisfazione
della formazione universitaria per l’ingresso nel mondo del lavoro, in: M. CIVARDI (a cura di) Transizione Università-Lavoro: la definizione delle competenze, CLEUP, Padova: 148-169.
DELVECCHIO G. (2002) Un approccio fuzzy per la valutazione del rischio da mobbing, in: G. PUGGIONI (a cura di) Modelli e metodi per l’analisi di rischi sociali e sanitari, vol. 2, CLEUP, Padova: 248-266.
DELVECCHIO G. (2004) Gli algoritmi genetici per la determinazione dei massimi e
minimi vincolati nello studio della quantificazione delle mutabili ordinali, in:
E. AURELI CUTILLO (a cura di), Strategie metodologiche per lo studio della
transizione Università-lavoro, CLEUP, Padova: 177-198.
FABBRIS L. (1997) Statistica multivariata. Analisi esplorativa dei dati, McGrawHill, Milano.
FABBRIS L., MARTINI M. C. (2002) Analisi di segmentazione binaria con una variabile dipendente trasformata in logit, in: G. PUGGIONI (a cura di) Modelli e
metodi per l’analisi di rischi sociali e sanitari, CLEUP, Padova: 21-36.
JANG J. S. R. (1993) ANFIS: Adaptive Network Based Fuzzy Inference System,
IEEE Transactions on Systems, Man, and Cybernetics, Vol. 23 (maggio
1993), 3: 665-685.
KASS G. (1980) An exploratory technique for investigating large quantities of categorial data, Applied Statistics, 29.2: 119-127.
KOSKO B. (1992) Neural Networks and Fuzzy Systems: a Dynamical System Approach to Machine Intelligence, Prentice-Hall, Englewood Cliffs.
KOSKO B. (1995) Il fuzzy-pensiero, teoria e applicazioni della logica fuzzy, Baldini
& Castoldi, Milano.
MAMDANI E. H., ASSILIAN S. (1975) An experiment in linguistic synthesis with a
fuzzy logic controller, International Journal of Man-Machine Studies, Vol. 7,
n. 1: 1-13.
SCHIEVANO C. (2002) LAID-OUT.1: un programma per l’analisi di segmentazione
binaria con riferimento ad una variabile dicotomica trasformata in logit, in: G.
278
Un modello con tecniche fuzzy neuro adattative per la classificazione dei laureati...
PUGGIONI (a cura di) Modelli e metodi per l’analisi di rischi sociali e sanitari, CLEUP, Padova: 21-36.
SCHIEVANO C. (2003) Determinazione della numerosità minima dei gruppi
nell’analisi di segmentazione con una variabile dipendente trasformata in logit, in: L. FABBRIS (a cura di) LAID-OUT: scoprire i rischi con l’analisi di
segmentazione, CLEUP, Padova: 395-400.
SONQUIST J. A. (1970) Multivariate Model Building. The Validation of a Search
Strategy, Institute for Social Research, The University of Michigan, Ann Arbor (Mich.).
SUGENO M. (1985), Industrial Applications of Fuzzy Control, Elsevier Science
Publications Co..
TAKAGI T., SUGENO M. (1983) Derivation of fuzzy control rules from human operator’s control actions, Proceedings of the IFAC Symposium On Fuzzy Information, Knowledge Representation and Decision Analysis (luglio 1983): 55-60.
Fuzzy neural-adaptive methodologies to classify the graduates
of the University of Bari by employment one year after graduation
Summary: This study proposes a new methodology to improve the accuracy of a
‘positive’ evaluation of job placement possibilities, using statistical methods, on the
basis of a set of characteristics inherent to the university degree programme or related to the search for employment. The primary aim is to identify some graduate
characteristics (specifically, graduates of the University of Bari in 1995-2000) capable of favouring job placement within one year from graduation. For this purpose, a
segmentation analysis is carried out on a sample of graduates from the abovementioned population, the results of which are affected by a considerable classification error. Subsequently the rules resulting from the segmentation analysis are implemented into a neural network system, also using fuzzy methodologies, in order to
identify possible improvements in the system of rules and to define the importance of
a given configuration of covariates and/or data. The results obtained verify, with
greater precision, the impact of personal characteristics and acquired competencies
in terms of job placement.
Keywords: Job placement, Graduates, University of Bari, Segmentation analysis,
Fuzzy neural-adaptive methodologies, ANFIS.
Rilevanza delle analisi di misture di distribuzioni
nelle valutazioni di efficacia con metodi
di inferenza causale
Andrea Mercatanti1
Dipartimento di Statistica e Matematica Applicata all’Economia – Università di Pisa
Riassunto. Alcune problematiche metodologiche relative all’indebolimento delle usuali condizioni di applicabilità dei metodi di inferenza causale riguardano l’analisi
di misture di distribuzioni. In particolare il presente contributo intende prendere in
considerazione la questione dell’eliminazione dei vincoli di esclusione nell’utilizzo
di variabili strumentali ai fini della valutazione dell’efficacia di una variabile di tipo
binario sotto l’ipotesi che la variabile di risposta sia distribuita secondo una normale.
Rispetto alle usuali analisi su misture di distribuzioni si evidenzia un maggiore contenuto informativo riguardo alle probabilità di appartenenza ai gruppi componenti le
misture. Di converso emergono però maggiori difficoltà inferenziali connesse alla
plurimodalità della funzione di verosimiglianza prodotta dalla presenza di più misture con componenti comuni. Il contributo prende inoltre in considerazione una procedura di massimizzazione vincolata della verosimiglianza che sfrutta le maggiori informazioni relative alle probabilità di appartenenza ai gruppi, al fine di risolvere i
problemi legati alla plurimodalità della funzione di verosimiglianza.
Parole chiave: misture di distribuzioni normali, variabili strumentali, vincolo di esclusione.
1.
Introduzione
L’importanza delle applicazioni di inferenza causale alle problematiche della valutazione di efficacia è ormai consolidata, e spazia dall’utilizzazione delle variabili strumentali e dei propensity score alle stratificazioni principali solo per citare alcune me1
Il presente lavoro è stato realizzato nell'ambito del progetto “Transizioni Università-Lavoro e valorizzazione delle competenze professionali dei laureati: modelli e metodi di analisi multidimensionale
delle determinanti”, cofinanziato dal MIUR; coordinatore nazionale è Luigi Fabbris, coordinatore del
gruppo di Firenze è Bruno Chiandotto.
280
Rilevanza delle analisi di misture di distribuzioni nelle valutazioni di efficacia…
todologie di largo uso. Nelle analisi riguardanti la valutazione delle transizione Università-lavoro, i suddetti metodi possono trovare applicazione ad esempio nella valutazione dell’effetto del conseguimento di una laurea su di un outcome post-laurea
quali ad esempio il tempo di disoccupazione, il reddito, la soddisfazione professionale, o la congruenza tra le materie di studio e le competenze necessarie alla professione svolta.
Da un punto di vista più strettamente metodologico si può mettere in evidenza
che alcune problematiche relative all’indebolimento delle condizioni di applicabilità
dei modelli causali riguardano l’analisi delle misture di distribuzioni. In particolare
questo concerne la rimozione del cosiddetto vincolo di esclusione nell’uso delle variabili strumentali a fini causali. Nella loro applicazione più semplice le variabili
strumentali possono essere introdotte per la valutazione dell’efficacia di una certa variabile binaria su di un outcome di qualsiasi tipo (Imbens e Angrist, 1994). Tra le
condizioni necessarie all’identificazione di effetti causali con l’ausilio di variabili
strumentali una delle più problematiche e difficili da soddisfare è il vincolo di esclusione in base al quale la variabile strumentale non può avere effetti diretti
sull’outcome di interesse.
La problematica sorge, ad esempio, nella valutazione dell’effetto scolarizzazione sul reddito mediante l’uso di variabili strumentali legate alla coorte di nascita.
In questi casi (Card e Lemieux, 2001) la teoria microeconomica suggerisce, in base a
modelli con imperfetta sostituibilità tra individui con scolarizzazione simile, che
l’effetto della scuola sul reddito riflette anche variazioni nell’offerta relativa di individui con scolarizzazione simile tra le varie coorti di nascita. Ecco presentarsi quindi
una critica microeconomica all’uso di variabili strumentali legate alla coorte di nascita nella valutazione del return to schooling. La suddetta motivazione si basa sul concetto di equilibrio economico generale e inficia la soddisfazione del vincolo di esclusione poiché la coorte di nascita ragionevolmente agisce sul reddito oltre che in base
al trend storico della scolarizzazione anche in base a questioni di mercato legate alla
numerosità delle coorti. In altre parole si può ragionevolmente ipotizzare che in questo caso esista un effetto diretto della variabile strumentale sull’outcome.
Il presente contributo, di tipo metodologico, si basa su di una impostazione
parametrica dell’analisi causale con variabili strumentali, ossia su di una formulazione della funzione di verosimiglianza per un esperimento randomizzato con noncompliance che mette in particolare evidenza la presenza di misture di distribuzioni.
Sulla base di una proposta di massimizzazione vincolata della verosimiglianza, viene
svolta un’analisi di tipo simulativo finalizzata ad un primo giudizio sulla bontà e sui
limiti della proposta stessa.
Modelli statistici per l’analisi della transizione Università-lavoro
2.
281
Proposta di analisi vincolata della funzione di verosimiglianza
Già a partire dal contributo di Imbens e Rubin (1997) si è data una formalizzazione
di tipo parametrico al modello di regressione lineare semplice con variabili strumentali per l’identificazione e la stima di effetti causali, nel caso di variabile trattamento
binaria. Il punto di vista filosofico causale preso in considerazione dagli autori
nell’esplicitazione della funzione di verosimiglianza è quello basato sull’idea di controfattualità ed a questo vogliamo continuare ad attenerci nel presente lavoro. In termini formali, si fa riferimento alla struttura teorica di un’esperimento randomizzato
per il quale indichiamo con yi la variabile di risposta, con Di il trattamento di tipo
binario (0,1), e con Z i la variabile strumentale da intendersi come assegnazione al
trattamento di tipo binario.
Di conseguenza occorre ricordare che la popolazione complessiva si può dividere in quattro gruppi, denominati compliance status, ognuno dei quali si caratterizza per come gli individui reagiscono dal punto di vista controfattuale
all’assegnazione al trattamento. Si parla infatti di always-takers per indicare il gruppo di individui che assumono sempre il trattamento (ossia presentano Di = 1 indipendentemente dal valore assunto dall’assegnazione al trattamento Z i ); di nevertakers per indicare gli individui che non assumono mai il trattamento (ossia presentano Di = 0 indipendentemente dal valore assunto dall’assegnazione al trattamento
Z i ); di compliers per gli individui che assumono o meno il trattamento in base a
quanto assegnatoli (ossia presentano Di = 1 se Z i = 1 , e Di = 0 se Z i = 0 ); e di defiers per gli individui che assumono il trattamento in maniera opposta
all’assegnazione. Imbens e Angrist (1994) definiscono le condizioni in base alle quali un’analisi di regressione della variabile yi sul trattamento Di , supportata dalla variabile strumentale Z i , identifica l’effetto causale del trattamento per il gruppo dei
compliers. Tra queste condizioni spicca per difficoltà di soddisfacimento il vincolo di
esclusione, in base al quale la variabile Z i non può avere effetti diretti su yi . Al fine
della rimozione completa del vincolo di esclusione e partendo dalla funzione di verosimiglianza proposta dai suddetti autori, si può arrivare mediante opportune riparametrizzazioni (Mercatanti, 2004) alla scrittura della stessa in una forma che ne permetta la massimizzazione vincolata ad un opportuno sottospazio parametrico. Questo
risulta individuabile senza far ricorso ad informazioni aggiuntive rispetto alle ipotesi
necessarie all’identificazione di effetti causali mediante variabili strumentali, a parte
l’ipotizzata forma funzionale per la distribuzione dell’outcome, essendo in ambito
parametrico.
In estrema sintesi, si intende far riferimento alla seguente funzione di verosimiglianza:
282
Rilevanza delle analisi di misture di distribuzioni nelle valutazioni di efficacia…
∏
L ( θ) =
ω a 0 ⋅ N ( yi | µ a 0 , σ a 0 ) ×
i∈( Di =1, Z i = 0)
×
∏
ω n1 ⋅ N ( yi | µ n1 , σ n1 )
i∈( Di = 0, Zi =1)
∏ [ω
a1
⋅ N ( yi | µ a1 , σ a1 ) + ω c1 ⋅ N ( yi | µc1 , σ c1 ) ]
i∈( Di =1, Zi =1)
×
∏ [ω
n0
⋅ N ( yi | µ n 0 , σ n 0 ) + ω c 0 ⋅ N ( yi | µc 0 , σ c 0 ) ] ,
(1)
i∈( Di = 0, Zi = 0)
dove2 si è indicato: con ωtz la probabilità di appartenenza al gruppo di individui nel
compliance status t=a (always-takers), n(never-takers), c(compliers) e con assegnazione al trattamento Z i = z ; con µtz e σ tz rispettivamente la media e lo standard error per il gruppo di individui nel compliance status t e con assegnazione al trattamento Z i = z .
La presenza nella (1) di due misture di distribuzioni normali comporta problematiche di tipo analitico e computazionale nell'esecuzione di un'analisi MLE. Le
misture di distribuzioni normali assumono infatti caratteristiche analitiche che le rendono di non facile analisi. I principali elementi perturbartivi in un'analisi MLE della
(1) possono essere sintetizzati nei seguenti tre punti:
- la (1) non è limitata sopra (Day, 1969) quindi in generale l'analisi MLE è
mal posta poiché non esiste un massimizzatore assoluto; è stato però dimostrato che esiste un massimizzatore locale consistente, efficiente e asintoticamente normale (Kiefer, 1978) sul quale può quindi essere dirottata la ricerca;
- la (1) è multimodale;
- la massimizzazione locale della (1) produce massimi spuri, ossia punti di
massimo locale tipicamente in corrispondenza di raggruppamenti di poche
unità anomale; questi punti possono tuttavia essere facilmente individuati
poiché presentano una componente di varianza prossima allo zero.
Numerose proposte sono state avanzate in letteratura per l'analisi MLE di misture. Tra quelle che appaiono particolarmente convincenti si può citare un’approccio
di tipo generale (Priebe, 1994), ossia la conduzione di una serie di massimizzazioni
non vincolate seguite da un'analisi dei punti di massimo locali al fine di individuare e
scartare quelli spuri. Successivamente la stima ML del vettore parametrico può essere considerata quella corrispondente al massimo tra i rimanenti punti. La proposta
appare semplice e non introduce informazioni extra nell'analisi, anche se una ricerca
sufficientemente esauriente dei punti di massimo locale si può rilevare particolarmente dispendiosa in termini di tempo di calcolo.
2
Le ipotesi in base alle quali vale la descritta funzione di verosimiglianza sono le seguenti: distribuzione normale per l’outcome; Stable Unit Treatment Value Assumption in base alla quale per ogni individuo i comportamenti controfattuali non dipendono dal trattamento degli altri individui; identica
probabilità di assegnazione al trattamento per ogni individuo; inesistenza di defiers.
Modelli statistici per l’analisi della transizione Università-lavoro
283
Oltre alle problematiche caratteristiche delle analisi di misture, l'analisi della
(1) comporta delle complicazioni aggiuntive dovute al cosiddetto label switching, inconveniente dovuto ad eventuali permutazioni per alcune variabili indicanti
l’appartenenza ai gruppi componenti le misture (etichette). La problematica del label
switching concerne l'identificabilità delle misture di distribuzioni. E' risaputo infatti
(Hjort, 1986) che in una mistura di distribuzioni appartenenti alla stessa famiglia pag
rametrica, f (x; θ) =
∑ω
j
f j (x; θ j ) , il vettore parametrico θ non è identificato; vie-
j =1
ne invece identificata una classe di distribuzioni in quanto f (x; θ) è invariante alle
g! permutazioni nelle etichette delle componenti in θ . Il label switching sebbene non
sia un problema rilevante nella stima MLE di una mistura di distribuzioni appartenenti alla stessa famiglia parametrica a fini di cluster analysis, lo diventa però in
un’analisi MLE della (1). Occorre infatti considerare che gli effetti causali in un'ottica controfattuale sono definiti dalle tre differenze ∆ t = ( µt1 − µt 0 ) con t=a,n,c, di
conseguenza l'identificazione degli effetti causali necessita dell'esatta etichettatura di
tutte le componenti.
Una diversa strategia di analisi della funzione di verosimiglianza (1) viene
suggerita dalla considerazione che, senza l'aggiunta di ulteriori ipotesi, esiste la possibilità di stimare facilmente le probabilità di appartenenza ai gruppi componenti le
misture anche al di fuori di un contesto di massima verosimiglianza. Questi elementi
informativi possono essere sfruttati nella stima di massima verosimiglianza del vettore parametrico, vincolando la ricerca ad opportuni sottospazi parametrici.
Sotto le ipotesi che hanno portato alla scrittura della (1) è infatti possibile
stimare (Mercatanti, 2004) le probabilità ωtz , caratterizzanti le due misture, con le
quantità φˆtz :
φˆa1 = [# ( Di = 1, Z i = 0) / # ( Z i = 0) ] – [# ( Di = 1, Z i = 0) ⋅ N −1 ],
φˆn 0 = [# ( Di = 0, Z i = 1) / # ( Z i = 1) ] – [# ( Di = 0, Z i = 1) ⋅ N −1 ],
φˆc 0 = [# ( Di = 0, Z i = 0) ⋅ N −1 ] - φˆn 0 ,
φˆc1 = [# ( Di = 1, Z i = 1) ⋅ N −1 ] - φˆa1 .
Al fine di sfruttare al massimo le informazioni disponibili risulta allora proponibile la massimizzazione della (1) vincolata ad un intorno del punto
(φˆa1 , φˆn 0 , φˆc 0 , φˆc1 ) , ossia la ricerca del punto di massimo θ
θ̂ soddisfacente, per un certo
valore di k, le condizioni:
φˆa1 − ωˆ a1 < k , φˆn 0 − ωˆ n 0 < k , φˆc1 − ωˆ c1 < k , φˆc 0 − ωˆ c 0 < k .
284
3.
Rilevanza delle analisi di misture di distribuzioni nelle valutazioni di efficacia…
Analisi esemplificativa basata su dataset artificiali
La sezione presenta un’analisi di tipo simulativo condotta su dataset artificiali relativi
ad esperimenti randomizzati con non-compliance e senza vincoli di esclusione; i dataset verranno estratti da popolazioni ipotetiche soddisfacenti le ipotesi espresse nella
nota 3 della precedente sezione. L'obiettivo è la verifica empirica dell’uso della procedura di massimizzazione vincolata ad un intorno sferico del punto
(φˆa1 , φˆn 0 , φˆc 0 , φˆc1 ) . Si consideri allora un primo campione artificiale composto da
10000 unità estratte da una popolazione ipotetica i cui parametri vengono riportati in
Tabella 1. Al fine di identificare i punti di massima verosimiglianza locale sono state
condotte 100 procedure di massimizzazione libera utilizzando l'algoritmo EM e partendo ogni volta con valori casuali del vettore parametrico. È stato inoltre identificato
θ̂1 , come il punto al quale converge l'algoritmo EM partendo
il massimo consistente, θ
con il vero vettore parametrico. Come previsto la funzione è risultata multimodale,
dalla Tabella 23, si può notare infatti come nelle 100 prove si sia ottenuto:
θ̂1 ,
- per 22 volte convergenza al massimo consistente, θ
- per 4 volte convergenza a massimi spuri, cioè punti con una componente di varianza prossima allo zero (θˆ 5 , θˆ 6 , θˆ 7 , θˆ 8 ) ,
- per 74 volte convergenza ad altri punti di massimo locale ( θˆ 2 , θˆ 3 , θˆ 4 ) , che vedremo rappresentano una tipologia di massimi spuri dovuti al label switching e
anomala rispetto alle usuale analisi di misture. Da notare che in ogni soluzione
le stime dei due parametri µ a 0 , µ n1 , sono identiche in quanto calcolate sempre
come medie delle unità appartenenti ai gruppi ( Di = 1, Z i = 0) e ( Di = 0, Z i = 1)
rispettivamente.
Per analizzare le caratteristiche degli otto punti di massimo torna utile utilizzare le probabilità di imputazione calcolate durante l'ultimo E-step dell'algoritmo
EM. Per probabilità di imputazione si intende la probabilità di appartenenza ad ognuno dei tre compliance-status (always-takers, never-takers, compliers) e che per
ogni unità viene calcolata ad ogni iterazione durante il passo ''E'' dell'algoritmo EM.
Dalle probabilità di imputazione è inoltre possibile calcolare l'imputation rate (Holgersson e Jorner, 1998) il quale rappresenta un'utile indice per la bontà della scissione di una mistura. L'imputation rate è dato dalla media della più alta probabilità di
imputazione osservata per ogni unità. Nel nostro caso, l'imputation rate complessivo
assume un valore molto alto in ogni soluzione e non consente quindi una discriminazione tra le stesse.
3
Per analogia con la parametrizzazione classica si sono riportate direttamente le stime delle probabilità di appartenenza ai compliance status (ω a , ω n , ω c ) ottenute come medie ponderate delle stime di
massima verosmiglianza vincolate (ωˆ a 0 , ωˆ a1 , ωˆ n 0 , ωˆ n1 , ωˆ c 0 , ωˆ c1 ) . Per ragioni di spazio non vengono riportate le stime delle componenti di varianza σ tz .
Modelli statistici per l’analisi della transizione Università-lavoro
285
Essendo però in ambito simulativo il compliance status di ogni singola unità è
conosciuto. Il confronto tra i veri compliance status delle unità statistiche e le probabilità di imputazione agli stessi rende possibile verificare il grado e la bontà delle
scissioni delle misture per ogni punto di massimo locale. Per rendere chiara l'idea
consideriamo la Tabella 3 che riporta, per i gruppi (t,z), la media e lo scarto quadratico medio delle probabilità di imputazione ad ognuno dei tre compliance status calcolate all'ultima iterazione dell'algoritmo EM, per alcuni punti di massimo locale4.
Tabella 1. Valori parametrici della popolazione ipotetica utilizzata per l’analisi simulativa.
t
ωt
( µt 0 , σ t 0 )
( µ t1 , σ t 1 )
0.4
a
0.25
n
0.35
c
P ( Z i = 1) = 0.25
(0, 1)
(1, 1.15)
(6, 0.85)
(1, 1.2)
(2,1)
(7, 0.7)
Tabella 2. Punti di massimo locale identificati da 100 procedure di massimizzazione
non vincolata.
ωa
ωn
ωc
µa 0
µ a1
µn0
µ n1
µc 0
µc1
θ
θ̂1
θ
θ̂2
θ
θ̂3
θ
θ̂4
θ
θ̂5
θ
θ̂6
θ
θ̂7
θ
θ̂8
0.400
0.387
0.400
0.387
0.387
0.400
0.486
0.387
0.250
0.250
0.323
0.323
0.062
0.512
0.512
0.062
0.349
0.361
0.276
0.288
0.549
0.087
0.001
0.549
-0.001
-0.001
-0.001
-0.001
-0.001
-0.001
-0.001
-0.001
1.074
6.999
1.076
6.998
7.002
1.093
3.854
7.002
1.022
1.020
5.993
5.994
-2.377
3.913
3.913
-2.431
2.076
2.076
2.076
2.076
2.076
2.076
2.076
2.076
5.988
5.987
1.032
1.035
3.913
2.377
-2.379
3.913
7.000
1.072
7.002
1.070
1.076
7.012
0.855
1.076
Log Lik. -30164 -30177 -30225 -30267 -32684 -33208 -33232 -32692
Imp. rate 0.9938 0.9970 0.9968 0.9968 0.9995 0.9995 0.9995 0.9997
4
Non vengono riportate le probabilità di imputazione ai gruppi (a,0) e (n,1) poichè per le unità appartenenti a questi due gruppi le informazioni a disposizione consentono un'esatta imputazione ai rispettivi compliance status fin dalla prima iterazione dell'algoritmo EM.
286
Rilevanza delle analisi di misture di distribuzioni nelle valutazioni di efficacia…
Si osserva per il punto di massimo consistente θ
θ̂1 una soddisfacente attribuzione delle unità ai compliance status. Ad esempio per le unità appartenenti al gruppo (a,1) la probabilità di imputazione al gruppo always-takers ha media 0.997 con
s.e. di 0.036; questo significa che nel successivo M step le unità nel gruppo (a,1)
vengono in sostanza correttamente considerate come always-takers. Analogamente
per le unità nel gruppo (c,1) la probabilità di imputazione al gruppo compliers ha
media 0.990 e s.e. 0.066, e quindi nel successivo M step queste unità vengono in sostanza correttamente considerate come compliers. Considerando che le unità nei
gruppi (a,1) e (c,1) formano una delle due misture caratterizzanti la (1) ciò è indice
di un'ottima scissione della mistura. Discorso analogo vale per le unità nei gruppi
(n,0) e (c,0) e per la rispettiva mistura.
θ̂2 dove a differenza della precedente
Si consideri adesso il punto di massimo θ
soluzione, θ
θ̂1 , la scissione della mistura formata dai gruppi (a,1) e (c,1) non è più
soddisfacente. Dalla Tabella 3 si vede infatti come le unità nel gruppo (a,1) vengano
in sostanza erroneamente attribuite al gruppo dei compliers, e come le unità nel
gruppo (c,1) vengano erroneamente attribuite al gruppo degli always-takers. Situazioni simili si riscontrano per le soluzioni θ
θ̂3 e θ
θ̂4 . Precisamente per la soluzione θ
θ̂3
si osserva un'errata scissione della mistura formata dai due gruppi (n,0) e (c,0), e per
θ̂4 l'errata scissione di entrambe le misture. Per questi punti (θˆ 2 , θˆ 3 , θˆ 4 )
la soluzione θ
il valore dell'imputation rate resta comunque alto.
Tabella 3. Probabilità di imputazione per alcuni punti di massimo locale.
t
soluzione (t,z)
a
n
c
media
s.e.
media
s.e.
media
(a,1)
0.997
0.036
0
0
0.002
(n,0)
0
0
0.990
0.069
0.009
θ
θ̂1
(c,0)
0
0
0.009
0.066
0.990
(c,1)
0.009
0.066
0
0
0.990
(a,1)
0.002
0.039
0
0
0.997
(n,0)
0
0
0.990
0.070
0.009
θ
θ̂2
(c,0)
0
0
0.009
0.068
0.990
(c,1)
0.997
0.037
0
0
0.002
(a,1)
0.001
0.034
0
0
0.998
(n,0)
0
0
0.001
0.032
0.998
θ
θ̂5
(c,0)
0
0
0.000
0.000
1
(c,1)
0.996
0.041
0
0
0.003
s.e.
0.036
0.069
0.066
0.066
0.039
0.070
0.068
0.037
0.034
0.032
0
0.041
Modelli statistici per l’analisi della transizione Università-lavoro
287
Finora l'errata scissione di una mistura si è concretizzata nell'attribuzione di
tutte le unità al compliance status errato. I restanti punti di massimo locale assumono
anche le caratteristiche dei punti di massimo spuri usualmente identificabili nelle analisi di misture. Infatti per questi l'errata scissione di una mistura si manifesta anche
con l'attribuzione di quasi tutte le unità ad uno solo dei due compliance status. Per
θ̂5 sempre in Tabella 3; si può oschiarire consideriamo il punto di massimo locale θ
servare come le unità nella mistura formata dai due gruppi (n,0) e (c,0) vengono in
sostanza attribuite quasi tutte al gruppo dei compliers. Lo stesso modo di scindere le
misture si manifesta anche per i restanti punti di massimo θ
θ̂6 e θ
θ̂7 .
L'errata attribuzione delle unità nelle misture produce conseguenze negative
nella stima dei componenti del vettore parametrico. Tornando infatti a considerare la
soluzione θ
θ̂2 , si osservino i diversi valori delle stime delle probabilità (ω a , ω n , ω c )
rispetto a θ
θ̂1 . Questo risultato deriva dal fatto che ad ogni iterazione dell'algoritmo
EM le stime delle probabilità (ω a , ω n , ω c ) vengono calcolate durante il passo ''M''
come media delle probabilità di imputazione ai compliance status. Per esser chiari si
faccia riferimento alla Tabella 4, la prima riga della quale riporta le quote relative di
popolazione, ψ t , z , appartenenti ai sei gruppi (t,z) per un grande campione estratto
dalla popolazione ipotetica considerata. Si osservi come le quote relative di popolazione appartenenti ai tre compliance status si possano facilmente ottenere come:
ψ a = (ψ a ,0 + ψ a ,1 ) = (0.30 + 0.10) = 0.40,
ψ n = (ψ n,0 + ψ n,1 ) = (0.1875 + 0.0625) = 0.25,
ψ c = (ψ c ,0 + ψ c ,1 ) = (0.2625 + 0.0875) = 0.35.
Questi valori corrispondono alle stime ωˆ a , ωˆ n , ωˆ c in θθ̂1 , a parte piccole differenze dovute sia alla variabilità campionaria che al fatto che le probabilità di imputazione osservate all'ultima iterazione dell’algoritmo EM non sono sempre esattamente
binarie (vedi Tabella 2). I valori poc’anzi calcolati di ψ a ,ψ n ,ψ c costituiscono infatti
dei valori limite delle medie aritmetiche delle probabilità di imputazione ai compliance status conseguenti ad una corretta scissione delle misture che caratterizzano
la (1). Riconsiderando adesso la soluzione θθ̂2 , dalla Tabella 3 si osserva come le unità nel gruppo (a,1) vengono erroneamente attribuite al gruppo (c,1) e viceversa. Dopo l'errata scissione della mistura composta dai due suddetti gruppi, le quote relative
Tabella 4. Quote relative di popolazione per compliance status, t, e assegnazione, z.
ψ a0
ψ a1
ψ n0
ψ n1
ψ c0
ψ c1
θ
θ̂1
0.30
0.10
0.1875
0.0625
0.2625
0.0875
θ
θ̂2
0.30
0.0875
0.1875
0.0625
0.2625
0.10
288
Rilevanza delle analisi di misture di distribuzioni nelle valutazioni di efficacia…
di popolazione nei gruppi (t,z) per un grande campione sono quelle riportate nella seconda riga della Tabella 4. Ora le quote relative di popolazione appartenente ai tre
compliance status sono:
ψ a = (ψ a ,0 + ψ a ,1 ) = (0.30 + 0.0875) = 0.3875,
ψ n = (ψ n,0 + ψ n,1 ) = (0.1875 + 0.0625) = 0.25,
ψ c = (ψ c ,0 + ψ c ,1 ) = (0.2625 + 0.10) = 0.3625,
che, a parte piccole differenze, corrispondono alle stime ωˆ a , ωˆ n , ωˆ c in θθ̂2 . Considerazioni analoghe valgono per tutti gli altri punti di massimo locale.
Oltre che sulle stime delle probabilità (ω a , ω n , ω c ) , l'errata scissione delle misture comporta conseguenze prevedibili anche sul resto degli elementi del vettore parametrico. Infatti le stime dei parametri µtz e σ tz di ogni gruppo (t,z) vengono calcolate durante il passo ''M'' dell'algoritmo EM come stime di massima verosimiglianza
ponderata dove ogni unità ha peso uguale alla probabilità di imputazione al gruppo
(t,z) calcolata al precedente passo ''E''. Avendo preso in considerazione outcome distribuiti secondo distribuzioni normali, e date le caratteristiche delle probabilità di
imputazione già illustrate, allora è comprensibile come ad esempio per la soluzione
θ
θ̂2 si ottengano valori di stima dei parametri µ a1 , µc1 , σ a1 , σ c1 sostanzialmente scambiati rispetto alla soluzione θθ̂1 . Questo ragionamento vale per tutte le altre soluzioni.
L'analisi delle probabilità di imputazione ha quindi permesso lo studio delle caratteristiche dei punti di massima verosimiglianza locale. Si è visto che oltre ai massimi
spuri, facilmente identificabili poiché presentano sempre una componente di varianza
prossima a zero, la plurimodalità della funzione di verosimiglianza sia dovuta al label
switching.
Si può anche mettere in evidenza come i punti di massimo spuri corrispondono a piccoli gruppi di outliers. Ad esempio, per il punto θθ̂5 , al gruppo (n,0) vengono
assegnate soltanto due unità la cui media è -2.377 e la cui varianza è 0.053; per il
punto θθ̂8 , al gruppo (n,0) viene assegnata soltanto una unità il cui valore è -2.431.
La Tabella 5 mostra le performance della procedura di massimizzazione vincolata ad un intorno del punto (φˆa1 , φˆn 0 , φˆc 0 , φˆc1 ) proposta nella precedente sezione.
Per alcuni valori del vincolo k (0.03, 0.01, e 0.005) sono state effettuate 100 procedure di massimizzazione vincolata ognuna su di un dataset di numerosità 10000 estratto
sempre dalla medesima popolazione ipotetica. Ogni procedura di massimizzazione è
stata iniziata con valori casuali del vettore parametrico ad eccezione delle componenti (ω a 0 , ω a1 , ω n 0 , ω n1 , ω c 0 , ω c1 ) che in partenza vengono sempre poste uguali a
(φˆa 0 , φˆa1 , φˆn 0 , φˆn1 , φˆc 0 , φˆc1 ) . Si può osservare come la procedura di massimizzazione
vincolata non sempre converge al punto di massimo consistente, ma ciò non costitui-
Modelli statistici per l’analisi della transizione Università-lavoro
289
Tabella 5. Frequenze assolute dei vari tipi di massimo locale identificati dalla procedure di massimizzazione vincolata per alcuni valori di k (100 replicazioni per ogni
valore di k).
Convergenza
Convergenza
Convergenza a massimi spuri
k
al massimo
a punti sulla
con almeno una comp. dovuti al label
ˆ
consistente
frontiera di Ωφk
var. prossima a zero
switching
0.03
25
73
2
0
0.01
30
68
2
0
0.005
35
63
2
0
sce un problema data la facile individuabilità degli altri punti di massimo locale. La
Tabella 5 mostra infatti che l’algoritmo, oltre al punto di massimo consistente, converge anche a punti di massimo spuri con una componente di varianza prossima allo
ˆ
zero, e a punti sulla frontiera dello spazio parametrico vincolato Ωφk . Si osservi inoltre come, al diminuire di k, aumenta il numero di volte in cui la procedura converge
al massimo consistente nelle 100 prove.
Per valutare la bontà della procedura di analisi vincolata (1) presentata nella
sezione precedente, sono poi stati estratti 100 dataset artificiali di numerosità 10000
sempre dalla stessa popolazione ipotetica. Per ognuno di questi dataset è stato identificato il punto di massimo interno ad un intorno sferico del punto ( φˆa1 , φˆn 0 , φˆc 0 , φˆc1 )
ponendo k=0.01. Sui vettori di stima così ottenuti si è poi provveduto al calcolo per
ogni parametro della distorsione media, della radice quadrata dell'errore quadratico
medio, dell'ampiezza media dell'intervallo di confidenza al 95% e della frazione di
volte che tale intervallo contiene il vero valore del parametro. A fini comparativi sugli stessi dataset artificiali sono state applicate altre procedure standard che non necessitano dell'introduzione di informazioni ausiliarie. Precisamente, sono state calcolate anche:
- le stime di massima verosimiglianza, ipotizzando l'esistenza del vincolo di
esclusione in forma debole, ossia imponendo nella (1):
µ a1 = µ a 0 , µ n1 = µ n 0 , σ a1 = σ a 0 , σ n1 = σ n 0 ;
- la stima del C.A.C.E. (Compliers Average Causal Effect), µc1 − µc 0 , ottenuta con il metodo delle variabili strumentali.
I risultati per alcuni parametri sono illustrati nella Tabella 6. Da evidenziare il
fatto che sui campioni artificiali estratti dalla popolazione ipotetica l'analisi di massima verosimiglianza condotta sotto il vincolo di esclusione in forma debole non
produce un'unica soluzione; per questa ragione anche in questo caso l'analisi è vincolata ad un intorno sferico di (φˆa 0 , φˆa1 , φˆn 0 , φˆn1 , φˆc 0 , φˆc1 ) . Com'era prevedibile l'analisi
290
Rilevanza delle analisi di misture di distribuzioni nelle valutazioni di efficacia…
Tabella 6. Performance comparativa della procedura vincolata su 100 dataset ognuno di 10000 unità estratti dalla popolazione ipotetica di cui alla Tabella 1.
Intervallo al 95%
Parametro
Stimatore
Distorsione
Grado di
Ampiezza
MSE
Media
copertura
media
0.002
0.079
0.947
0.312
ML vincolata
µc 0
µc1
ML*
ML vincolata
0.204
0.002
0.220
0.024
0.240
0.991
0.306
0.072
σ c0
ML*
ML vincolata
0.256
0.004
0.272
0.041
0.237
0.947
0.377
0.163
σ c1
ML*
ML vincolata
0.042
-0.00049
0.088
0.054
0.846
0.940
0.156
0.224
ML*
ML vincolata
ML*
IVE**
-0.006
0.00011
0.051
-1.844
0.061
0.096
0.111
1.857
0.920
0.940
0.912
1.000
0.216
0.368
0.368
15.99
C.A.C.E.
* stime di massima verosimiglianza ipotizzando l'esistenza del vincolo di esclusione in forma debole;
** stima del C.A.C.E. (Compliers Average Causal Effect) ottenuta con il metodo delle variabili strumentali.
condotta assumendo il vincolo di esclusione in forma debole soffre di una distorsione
media e di un errore quadratico medio sistematicamente maggiore rispetto all'analisi
condotta senza vincoli di esclusione, in particolare per quanto riguarda le stime dei
parametri relativi alle distribuzioni per i compliers. Ancora peggiore risulta la stima
del C.A.C.E. calcolata con il metodo delle variabili strumentali, per la quale si ottiene un alto valore del grado di copertura degli intervalli di confidenza ma al costo di
un'ampiezza media esagerata.
4.
Considerazioni conclusive
Il lavoro ha inteso mettere in evidenza come alcune problematiche relative
all’indebolimento delle condizioni di applicabilità di una metodologia largamente
utilizzata nelle valutazioni di efficacia (ossia l’impostazione parametrica all’analisi
causale con variabili strumentali) possano essere affrontate facendo riferimento alla
teoria delle misture di distribuzioni. In tal senso si è proposto l’uso di una procedura
di analisi di massima verosimiglianza vincolata; una successiva analisi di tipo simu-
Modelli statistici per l’analisi della transizione Università-lavoro
291
lativo ha poi consentito un primo giudizio sulla bontà della proposta. L’estrazione ripetuta di campioni causali semplici da una popolazione ipotetica ha evidenziato una
buona performance anche comparativamente ad altri metodi usuali. Resta però il fatto che l’analisi simulativa è stata condotta basandosi su di una sola popolazione ipotetica di riferimento. Appare quindi interessante un’eventuale approfondimento basato su altre popolazioni ipotetiche che possa evidenziare aspetti più difficoltosi nelle
analisi di misture, come ad esempio un peggior grado di scissione conseguente ad
una maggiore vicinanza dei valori delle medie e delle varianze delle componenti le
misture.
Riferimenti bibliografici
CARD D., T. LEMIEUX (2001) Can falling supply explain the rising return to
college for younger men? A cohort-based analysis, Quaterly Journal of
Economics, 116: 705-746.
DAY N.E. (1969) Estimating the components of a mixture of normal distributions,
Biometrika, 56: 463-474.
HJORT N.L. (1986) Contribution to the discussion of paper by P.Dianconis and
D.Freedman, The Annals of Statistics, 14: 49-55.
HOLGERSSON M., U. JORNER (1998) Decomposition of a mixture into normal
components: a review, International Journal of Biomedical Computing, 29:
367-392.
IMBENS G.W., J.ANGRIST (1994) Identification and estimation of local average
treatment effects; Econometrica, 62: 467-476.
IMBENS G.W., D.R. RUBIN (1997) Bayesian inference for causal effects in randomized experiments with non-compliance, The Annals of Statistics, 25: 305327.
KIEFER M. (1978) Discrete parameter variation: efficient estimation of a switching
regression model, Econometrica, 46: 427-439.
MERCATANTI A. (2004) Causal inference methods without exclusion restrictions:
an economic application, Report n.250 del Dip. di Statistica e Matematica
Applicata all’Economia, Università di Pisa..
PRIEBE C.E. (1994) Adaptive mixtures, J.A.S.A., 89: 796-806.
292
Rilevanza delle analisi di misture di distribuzioni nelle valutazioni di efficacia…
The importance of Mixture models in efficacy evaluation
with causal methods
Summary: Some methodological issues regarding the weakening of the assumptions
usually adopted for causal inference methods concern the analysis of mixture models. In particular, this paper considers the complete relaxation of the exclusion restriction when using the instrumental variables method for identifying and estimating
causal effects. We are supposing a binary treatment and a normally distributed outcome. With respect to a standard analysis of mixture models, we can exploit a larger
set of a priori information in particular as concerns the mixing proportions; conversely, the presence of common distribution mixtures produces a likelihood function
having more than one maximum point. This paper also takes into account a constrained maximisation procedure that uses the greater information regarding the
probability of group belonging, in order to resolve the problems tied to the multiple
mode of the likelihood function.
Keywords: Normal mixtures, instrumental variables, exclusion restriction.
Ricerca delle componenti del rischio di handicap
Giovanna Boccuzzo, Laura Visonà Dalla Pozza,
Laura Salmaso, Paola Facchin1
Università degli Studi di Padova, Dipartimento di Pediatria
Azienda Ospedaliera di Padova
Riassunto. Lo scopo del presente studio è quello di cercare di cogliere i profili di handicap ai quali è associata una gravità maggiore, gravità intesa in senso globale e non
ristretta a singole tipologie di handicap. A tale fine, si è definito un indice riassuntivo di
gravità dell’handicap che consentisse di confrontare i soggetti e definire graduatorie di
gravità complessiva. La “performance” di tale indice è stata valutata mediante validazione incrociata e analisi esplorative (mappe di Kohonen e analisi delle corrispondenze
multiple). Infine, si sono ricercati le determinanti del rischio di handicap fra le menomazioni, le disabilità e il contesto socio-economico mediante una serie di regressioni lineari
stepwise organizzate in tappe sequenziali che rispettano la sequenza Menomazione→Disabilità→Handicap. I risultati mostrano una associazione positiva tra il numero di
menomazioni/disabilità e la gravità dell’handicap, ma anche diversi livelli di gravità a
seconda del tipo di menomazioni e/o disabilità. Si riscontra, infatti, che le menomazioni
psichiche impattano fortemente sulla gravità dell’handicap, comportando una situazione
di massima gravità se associate a quelle fisiche. Queste ultime, invece, considerate
singolarmente, impattano solo nel momento in cui si trasformano in disabilità. Infine,
anche il contesto-socio economico influenza il manifestarsi dell’handicap: un più alto
livello socio-economico è un fattore proteggente.
Parole chiave: menomazione, disabilità, handicap, indice globale di gravità dell’handicap, mappe di Kohonen, analisi delle corrispondenze multiple, analisi di regressione lineare stepwise.
1.
Introduzione
Lo sviluppo psicofisico di ogni bambino è fortemente condizionato da diversi fattori
che interagiscono tra di loro e sul bambino stesso in un equilibrio estremamente
complesso e delicato, determinando quella che sarà la sua dimensione di futuro adul1
Il lavoro è frutto della riflessione comune delle autrici. La nota è stata redatta da: G. Boccuzzo per i
Parr. 2 e 4, L. Visonà Dalla Pozza per i Parr. 3 e 5, L. Salmaso per il Par. 1 e P. Facchin per il Par. 6.
294
Ricerca delle componenti del rischio di handicap
to. Su questo delicato meccanismo talora vengono ad agire elementi negativi che turbano l'equilibrio normale, quali la presenza di disabilità o di patologie croniche fortemente invalidanti.
Poiché la soglia limite al di sopra della quale lo svantaggio si rende evidente
dipende in qualche misura da ciò che ad ogni individuo è richiesto, l'evoluzione della
società influenza e guida le disabilità, che si trasformano in handicap.
1.1
Definizione e classificazione dell’handicap
Il processo che dalla patologia porta all’handicap si può riassumere in quattro stadi:
1. qualcosa di anormale si verifica nell’individuo: è il manifestarsi della malattia, della
alterazione patologica nella struttura o nel funzionamento dell’organismo (malattia);
2. qualcuno si rende conto di questa evenienza: è l’esteriorizzazione della malattia,
cioè il riconoscimento che qualcosa non va, che l’individuo non è sano (menomazione);
3. l’efficienza e il comportamento del soggetto possono essere alterati in conseguenza
di questa consapevolezza: è l’oggettivazione dell’esperienza di malattia, cioè quanto la malattia incide sulle capacità dell’individuo di svolgere le comuni azioni della
vita (disabilità);
4. tanto la consapevolezza della disabilità quanto l’alterazione nel comportamento o
nell’efficienza cui essa da origine possono porre il soggetto in una situazione di
svantaggio rispetto agli altri: è la socializzazione della malattia, cioè la risposta
della società nei confronti dell’individuo ammalato; è il grado di svantaggio che
una persona ammalata vive nel suo ambiente (handicap).
Tale concezione del processo morboso sottende alla stesura della Classificazione Internazionale delle Menomazioni, Disabilità e Svantaggi Esistenziali (ICIDH), pubblicata nel 1980 dall’Organizzazione Mondiale della Sanità (OMS) al fine di fornire uno strumento univoco per la classificazione di tali eventi su scala mondiale (OMS, 1980), e recentemente evolutasi con l’ICF (OMS, 2002).
A seguito di un evento morboso, sia esso una malattia (congenita o meno) o un
incidente, una persona può subire una menomazione, ovvero la perdita o anomalia
strutturale o funzionale, fisica o psichica. La menomazione può poi portare alla disabilità, ovvero alla limitazione della persona nello svolgimento di una o più attività considerate “normali” per un essere umano della stessa età. Infine, la disabilità può portare
all’handicap, ovvero allo svantaggio sociale che si manifesta a seguito dell’interazione
con l’ambiente. L’ICIDH è dunque una classificazione sia delle menomazioni, che delle disabilità e degli handicap. La sequenza descritta è sintetizzata in Figura 1.
La sequenza, comunque, non è sempre così semplice: l’handicap può infatti
essere conseguenza di una menomazione, senza la mediazione di uno stato di disabilità. Una deformità può ad esempio dare origine ad ostacoli nei normali tentativi di
Modelli statistici per l’analisi della transizione Università-lavoro
295
Figura 1. Dalla malattia all’handicap: la logica dell’ICIDH
Malattia
Menomazione
Disabilità
Handicap
instaurare dei rapporti sociali; essa determina l’handicap ma non la disabilità. Inoltre,
la sequenza può essere interrotta. Una persona può essere menomata senza essere disabile e disabile senza essere handicappata.
L’ICIDH prevede 9 gruppi (“assi”) di menomazioni, che sono a loro volta
suddivisi in sottocategorie fino a giungere a una classificazione a tre cifre. Sono poi
presenti 9 assi per la disabilità, suddivisi anch’essi nello stesso modo delle menomazioni, e 7 per gli handicap, ognuno dei quali è poi suddiviso in una scala di 9 categorie (Allegato 1).
1.2
Il punto di partenza: risultati di studi precedenti
Studi precedenti (Facchin et al., 2002) indagavano i legami all’interno del percorso
classificatorio che dalla menomazione porta alla disabilità e infine all’handicap. La
sequenza analizzata Menomazione → Disabilità → Handicap è risultata essere molto
complessa, poiché esistono molteplici percorsi classificatori dovuti al fatto che un
soggetto può presentare più menomazioni, più disabilità e più handicap contemporaneamente. Esiste, infatti, correlazione fra i diversi assi di handicap, tra le diverse disabilità e tra le diverse menomazioni, ma anche tra menomazioni e disabilità. La
compresenza di più handicap è la risultante di situazioni differenti: essa può essere
dovuta ad una maggior presenza di menomazioni, o a una maggior presenza di disabilità o infine alla presenza contemporanea sia di disabilità che di menomazioni. Inoltre, una menomazione può portare a più disabilità e una disabilità a più handicap.
Successivamente, gli studi sono proseguiti con la ricerca delle determinanti
dell’handicap fra tutte le menomazioni e disabilità rilevate, nel tentativo sia di identificare i principali predittori dei diversi assi di handicap, sia di capire se vi siano alcune menomazioni o disabilità particolarmente rilevanti per qualsiasi tipologia di handicap. Si sono, quindi, identificati predittori specifici per ciascuna tipologia di handicap. L’handicap nell’indipendenza fisica trova come predittori fondamentali le menomazioni muscoloscheletriche e dismorfiche, queste ultime anche associate alle
menomazioni generali, l’interazione fra menomazioni cognitive e psichiche e menomazioni psichiche e disabilità nella comunicazione. L’handicap nella mobilità vede
296
Ricerca delle componenti del rischio di handicap
come principale predittore la disabilità locomotoria da sola e associata ad altre variabili, mentre l’handicap occupazionale vede fra i suoi principali predittori le menomazioni e disabilità relative all’area mentale.
Nella ricerca delle determinanti dei diversi assi di handicap fra tutte le menomazioni e disabilità rilevate, i modelli multivariati spiegano meglio gli handicap connotati da una maggiore componente fisica (ad esempio handicap nella mobilità) rispetto a quelli connotati da una componente sociale (ad esempio handicap nell’integrazione sociale). È evidente che l’handicap nell’integrazione sociale non può essere
spiegato solo dalle menomazioni e disabilità presenti, ma è necessario tener conto anche dell’impatto di altri fattori, quali il contesto sociale, culturale ed economico in cui
la persona è inserita.
Il limite principale di questo approccio sta nel fatto che esso spiega le determinanti di ogni singolo asse di handicap, ma la realtà è ben più complessa, poiché
ogni soggetto non è quasi mai portatore di un solo handicap, ma di due o più. Di conseguenza, analizzare ogni singola tipologia di handicap è un punto di partenza, non di
arrivo. Il percorso deve muoversi verso l’analisi dei soggetti e delle loro complessità,
all’interno delle quali i vari handicap si associano nei modi e nelle misure più diversi.
2.
Obiettivi del lavoro
L’analisi precedente delle correlazioni e dei nessi causali tra menomazioni, disabilità
e handicap (Facchin et al., 2002), nell’evidenziare la complessità del fenomeno, ha
messo in luce l’esigenza di ricercare misure onnicomprensive di handicap, che siano
in grado di fornire il livello complessivo di gravità dell’handicap dell’individuo. Si
tratta di indagare sulla reale e globale situazione di handicap, includendo nell’analisi
anche l’impatto dovuto al contesto sociale.
Il primo obiettivo del presente studio è stato quello di ricercare un indice riassuntivo di gravità dell’handicap, che permettesse di mettere a confronto i soggetti e
di definire delle graduatorie di gravità complessiva.
In un secondo momento, si è passati ad un’analisi esplorativa e ad uno studio
circa il comportamento di tale indice, e successivamente si è analizzato il rischio di
handicap, inteso come gravità globale, ricercandone le determinanti in base sia alle
relazioni con le menomazioni e le disabilità (in termini di quantità e di qualità) sia al
contesto socio-economico in cui la persona è inserita.
Gli interrogativi a cui si è cercato di fornire una risposta sono:
1. cosa determina la maggiore o minore gravità di handicap?
2. dipende da specifiche menomazioni e/o disabilità?
3. dipende dal numero di menomazioni e/o disabilità?
4. quanto dipende dal contesto socio-economico?
Modelli statistici per l’analisi della transizione Università-lavoro
3.
297
Materiali
Il lavoro si avvale dei dati prodotti mediante uno studio effettuato su una coorte retrospettiva di nati nell'anno 1988 iscritti alla nascita in uno dei Comuni costituenti le
Aziende ULSS 13, 14, 15, 16 e 17 del Veneto, corrispondenti all'intera provincia di
Padova, ai Comuni di Chioggia, Cavarzere e Cona e all'Azienda ULSS 13 di DoloMirano della provincia di Venezia (Facchin et al., 1997).
Unità d’analisi sono tutti i soggetti compresi nella coorte dei nati nell'88 che
abbiano presentato dalla nascita o successivamente ad essa e comunque entro il
31/12/96 una o più menomazioni disabilitanti. Le disabilità considerate devono essere tali da richiedere una presa in carico specifica, una certificazione per la frequenza
scolastica e, più in generale, un danno della funzione di ordine medio-grave.
Si è così giunti alla determinazione del numero di casi noti alla nascita e presenti al 31 dicembre '96. Tutti i casi selezionati (145) sono stati classificati:
a. in base alla patologia presentata, utilizzando la classificazione internazionale delle malattie;
b. in base al profilo di menomazione, disabilità e agli assi di handicap, utilizzando
la classificazione ICIDH, in particolare:
9 tipi di menomazioni: cognitive, psichiche, della comunicazione, uditive e vestibolari, oculari, viscerali, muscoloscheletriche, dismorfiche, generali e della
sensibilità. Per ogni gruppo di menomazione, è stata valutata la presenza di sottogruppi di menomazione (es: nelle menomazioni psichiche si valuta: stato di
coscienza e veglia, percezione e attenzione, funzioni emotive e volontà, comportamento; ognuna di queste sottovoci ha a sua volta delle specifiche);
7 tipi di disabilità: comportamentale, nella comunicazione, nella cura personale, locomotorie, nella disposizione del corpo, di destrezza, situazionali. Per ogni gruppo di disabilità, è stata valutata la presenza di sottogruppi di disabilità
(es: nella disabilità della comunicazione si valuta: linguaggio verbale, ascolto,
visione, scrittura);
5 assi di handicap: dell’orientamento, nell’indipendenza fisica, nella mobilità,
occupazionale, nell’integrazione sociale. Per ogni asse di handicap è valutata la
gravità in una scala da 1 (meno grave) a 9 (più grave).
Tali informazioni sono state compilate presso i servizi sanitari che avevano in
cura i bambini. Informazioni relative al contesto familiare e socio-economico sono state, invece, raccolte mediante questionari alle famiglie. Il questionario familiare sonda
la costituzione e il livello socio-economico della famiglia, la presenza di patologie croniche e/o disabilitanti fra i familiari e i parenti, i principali fattori di rischio prenatali,
perinatali e postnatali. Ampio spazio viene riservato alla descrizione del percorso dia-
298
Ricerca delle componenti del rischio di handicap
gnostico seguito, delle varie sue tappe, della diagnosi conosciuta e dei problemi più rilevanti, del percorso terapeutico, dei supporti informali e formali, dei giudizi.
L’insieme di dati è particolarmente prezioso poiché consente di disporre contemporaneamente di variabili socio-demografiche e del percorso Menomazione →
Disabilità → Handicap.
4.
Metodi
La prima parte del lavoro si concentra sulla ricerca di un indice riassuntivo di gravità
dell’handicap. La classificazione ICIDH utilizzata nell’indagine identifica i diversi
assi di handicap e per ognuno di essi riporta un punteggio di gravità. Non è previsto
un indice generale di gravità riassuntivo di tutti gli assi. Si è pensato, quindi, di ricorrere ad un approccio che porti ad una riduzione delle dimensioni e di costruire un
fattore riassuntivo delle gravità sui singoli assi di handicap. Il riferimento metodologico è dunque all’analisi delle componenti principali.
Il presupposto di partenza è che l’indice di gravità dell’handicap sia una
somma pesata delle gravità relative ai singoli assi. Mediante l’analisi delle componenti principali, si vuole ottenere la combinazione lineare ottimale delle singole gravità, ovvero quella che estrae il massimo della variabilità dalla matrice di varianzecovarianze (Fabbris, 1997). Si determinano in tal modo i pesi che verranno successivamente utilizzati per il calcolo dell’indice. Per garantire la linearità delle variabili, si
è lavorato sui logaritmi naturali delle gravità dei singoli assi di handicap.
Allo scopo di valutare la bontà della soluzione ottenuta, ossia la robustezza
dei pesi ricavati, si è ritenuto opportuno adottare il seguente metodo di validazione
dell’indice: si è suddivisa in due sottogruppi la casistica e si è applicata ad entrambi i
gruppi la procedura di calcolo dell’indice di gravità; successivamente si è calcolata la
gravità nel primo gruppo applicando i pesi dell’indice calcolati sul secondo gruppo e
viceversa; infine, si sono valutate le differenze fra gli indici all’interno dei due gruppi (basse differenze implicano che i pesi ricavati considerando l’intera casistica sono
robusti).
La seconda parte del lavoro è consistita in un’analisi esplorativa e in uno studio del comportamento dell’indice riassuntivo di gravità, mediante un approccio multivariato. Dapprima si sono utilizzate le mappe di Kohonen con lo scopo di raggruppare i bambini in base al numero di menomazioni e disabilità presentate e di rappresentarli in uno spazio di dimensione ridotta, sul quale proiettare poi il valore medio
dell’indice di gravità dell’handicap. Successivamente si è ricorsi all’analisi delle corrispondenze multiple con l’obiettivo di poter evidenziare strutture latenti, o pattern,
sottostanti ai dati analizzati, esaminando le menomazioni e le disabilità in relazione
alla gravità dell’handicap.
Modelli statistici per l’analisi della transizione Università-lavoro
299
Le mappe di Kohonen (anche dette mappe SOM – Self-Organizing Map) sono una delle più famose applicazioni della teoria delle reti neurali. Una mappa SOM
non è altro che una griglia di celle, dette neuroni, entro le quali vengono inserite le
unità statistiche prese in considerazione. Attraverso l’assegnazione di ciascuna unità
statistica al neurone che meglio la rappresenta, la SOM opera così una vera e propria
cluster analysis fondata su particolari asserzioni. La SOM, a differenza delle classiche tecniche statistiche di cluster analysis, si rivela efficiente in presenza di dati
mancanti: non costringe ad effettuare delle stime sui missing evitando in tal modo distorsioni. I gruppi vengono poi individuati dal ricercatore attraverso la valutazione
della vicinanza/lontananza tra loro dei neuroni componenti la mappa (Ingrassia e Davino, 2002). Come software per l’analisi dei dati si è utilizzato “SAS Enterprise Miner” e si sono considerate le variabili riguardanti il numero di menomazione per asse
(9 variabili) e il numero di disabilità per asse (7 variabili). Sui gruppi individuati si è
successivamente proiettato il valore medio dell’indice di gravità, per verificare se ad
un più elevato numero di menomazioni e disabilità viene effettivamente associata
una più alta gravità dell’handicap.
Sempre al fine di analizzare le caratteristiche dell’indice, lo studio è proseguito con l’analisi delle corrispondenze multiple: si sono prese in esame come variabili
attive, opportunamente classificate, il numero totale di menomazioni, il numero totale di disabilità, il numero di assi di menomazioni presentate, la presenza di menomazione per i 9 assi e la presenza di disabilità per i 7 assi. Si è considerata come variabile descrittiva lo stato di gravità dell’handicap (classificato in 6 categorie). Mediante
la proiezione di tale variabile sugli assi ortogonali è stato possibile darne una interpretazione in funzione delle variabili impiegate nell’analisi.
La terza parte del lavoro ha indagato e ricercato le componenti del rischio di
handicap, inteso come gravità globale; si è voluto indagare, cioè, cosa determina una
maggiore o minore gravità dell’handicap in riferimento sia alle menomazioni e alle
disabilità (in termini di quantità e di qualità) sia al contesto socio-economico in cui la
persona è inserita.
L’analisi è stata articolata in tre fasi mediante l’utilizzo di tre modelli di regressione lineare stepwise. La variabile studiata è la gravità globale dell’handicap del
bambino. Le variabili introdotte come predittive sono:
primo modello:
le variabili relative al contesto socio-economico del bambino e dei genitori2:
- sesso del bambino;
- età della madre e del padre;
- lavoro e titolo di studio del padre;
- lavoro e titolo di studio della madre;
2
A causa della presenza di consistenti dati mancanti non è stato possibile considerare altre variabili
relative al contesto socio-economico.
300
Ricerca delle componenti del rischio di handicap
secondo modello:
le variabili “entrate” nel primo modello;
le variabili relative alle menomazioni:
- numero totale di menomazioni;
- la presenza di una singola menomazione (per i 9 assi);
- la presenza di due menomazioni scelte opportunamente tra le possibili combinazioni (quelle che presentavano una maggiore associazione);
terzo modello:
le variabili “entrate” nel secondo modello;
le variabili relative alle disabilità:
- numero totale di disabilità;
- la presenza di una singola disabilità (per i 7 assi);
- la presenza di due disabilità scelte opportunamente tra le possibili combinazioni
(quelle che presentavano una maggiore associazione).
Ad ogni fase, vengono introdotte nel modello delle variabili relative ad un determinato contesto: le prime legate alla condizione socio-economica, le seconde alle
menomazioni e le terze alla disabilità. Il procedere mediante fasi, conservando nel
modello le variabili “entrate” nel modello precedente, serve per analizzare l’ordine di
entrata delle variabili predittive e per valutare quali determinanti vengono soppiantate e quali, invece, rimangono nel modello dopo l’ingresso di altre logicamente successive.
5.
Risultati
5.1
Il punto di partenza
Dallo studio precedente (Facchin et al., 2002) risulta che gli assi di handicap sono tra
loro correlati, alcuni di essi in maniera molto significativa (Tabella 1). Le correlazioni maggiori sono fra l’handicap nell’indipendenza fisica e l’handicap nella mobilità
(0,54), l’handicap occupazionale e l’handicap nella mobilità (0,50) e l’handicap occupazionale e l’handicap nell’integrazione sociale (0,51).
Osservando, poi, la distribuzione dei bambini in base al numero di handicap, si osserva che ben il 74,1% dei bambini presenta contemporaneamente più di
una tipologia di handicap (il 34,3% ne presenta due, il 21,7% tre, il 18,2% quattro
o cinque), mentre il 15,4% ne presenta solo una. Il 10,5% è privo di handicap (Figura 2).
Modelli statistici per l’analisi della transizione Università-lavoro
301
Tabella 1. Correlazioni fra gli assi di handicap
Handicap
orientamento
Handicap
orientamento
Handicap
Indip.fisica
Handicap
mobilità
Handicap
occupazionale
Handicap
integr.soc.
Handicap
indip.fisica
Handicap
mobilità
Handicap
occupazionale
Handicap
integr.soc.
1
0,41
1
0,44
0,54
1
0,26
0,43
0,5
1
0,2
0,22
0,13
0,51
1
Figura 2. Distribuzione percentuale dei bambini in base alla presenza contemporanea di più tipi di handicap
4H
8,4%
5H
9,8%
nessun H
10,5%
1H
15,4%
3H
21,7%
2H
34,3%
5.2
L’indice di gravità dell’handicap
Partendo dal presupposto che l’indice di gravità dell’handicap sia una somma pesata
delle singole gravità di handicap, mediante l’analisi delle componenti principali si
sono ricavati i pesi ottimali da attribuire a tale somma.
Analizzando le prime due componenti principali ottenute, si ricava che:
la prima componente principale (I CP) spiega il 43% della varianza ed è una
somma pesata delle singole gravità:
I CP = 0,44 gravità handicap orientamento
+ 0,48 gravità handicap indipendenza fisica
+ 0,49 gravità handicap nella mobilità
+ 0,47 gravità handicap occupazionale
+ 0,34 gravità handicap integrazione sociale
302
Ricerca delle componenti del rischio di handicap
la seconda componente principale (II CP) spiega il 23% della varianza e contrappone gli handicap “fisici” a quelli “mentali”:
II CP = (-0,22) gravità handicap orientamento
+ (-0,36) gravità handicap indipendenza fisica
+ (-0,36) gravità handicap nella mobilità
+ 0,45 gravità handicap occupazionale
+ 0,70 gravità handicap integrazione sociale
Si è concluso che è la prima componente principale a fornire i pesi da attribuire per il calcolo dell’indice riassuntivo di gravità dell’handicap.
Per ottenere un indicatore compreso tra 0 e 1 si sottrae al valore dell’indice,
calcolato mediante i pesi ricavati dalla prima componente principale, il minimo teorico
e si divide il tutto per la differenza tra il massimo (4,81) e il minimo (-1,56) teorico:
0≤
(PRIMA C.P.) - (minimo teorico)
≤1
(massimo teorico) - (minimo teorico)
Per la validazione dell’indice si è suddivisa la casistica in due campioni casuali composti rispettivamente da 72 e da 73 bambini ciascuno e si è applicata la
stessa procedura di calcolo dell’indice di gravità nei due gruppi (si ricavano i due indici: I1 e I2). Successivamente si è calcolato l’indice nel primo campione applicando i
pesi ottenuti dall’analisi delle componenti principali nel secondo campione (I1/2), e
viceversa (I2/1). In Tabella 2 si riportano le differenze fra i due indici calcolati
all’interno dei due campioni (I1-I1/2 ; I2-I2/1): media, deviazione standard, mediana e
differenza massima.
Come si può notare, le medie delle differenze sono molto basse e, quindi, si
può concludere che la metodologia adottata per il calcolo dell’indice di gravità sia
valida e per questo adottata nel proseguo del lavoro.
Figura 3. Distribuzione dell’indice di gravità calcolato sui 145 bambini
35
numerosità
30
25
20
15
10
5
0
0-0.1
0.1-0.2
0.2-0.3
0.3-0.4
0.4-0.5
0.5-0.6
0.6-0.7
valore dell'indice
0.7-0.8
0.8-0.9
0.9-1
Modelli statistici per l’analisi della transizione Università-lavoro
303
Tabella 2. Media, deviazione standard, mediana e differenza massima tra le differenze fra gli indici di gravità calcolati all’interno dei due campioni
All’interno del All’interno del
CAMPIONE 2
DIFFERENZA CAMPIONE 1
(I1 - I1/2)
(I2 - I2/1)
0,017
0,009
Media
0,029
0,028
Dev.St.
0,023
0,005
Mediana
0,062
0,068
Differenza max
5.3
Analisi esplorativa dell’indice di gravità dell’handicap
La prima analisi esplorativa dell’indice di gravità dell’handicap è avvenuta mediante
l’utilizzo delle mappe di Kohonen. In Figura 4 viene riportata la mappa SOM generata
studiando le unità in base al numero di menomazioni e di disabilità presentate per ciascun asse: il colore più scuro nella mappa corrisponde ad una maggiore intensità di aggregazione delle unità in relazione alla loro somiglianza. Sta al ricercatore, dall’esame
della distribuzione dei colori sulla griglia, separare ed individuare i gruppi finali. Si sono identificati 5 gruppi composti rispettivamente da 30, 23, 11, 46, 35 bambini.
Figura 4. Mappa SOM con l’individuazione dei 5 gruppi e la proiezione della gravità dell’handicap
304
Ricerca delle componenti del rischio di handicap
Figura 5. Rappresentazione grafica delle modalità attive e della gravità dell’handicap sul
piano definito dai primi due assi della soluzione ottenuta mediante l’analisi delle corrispondenze multiple
Legenda delle modalità attive:
numero totale di menomazione
1_M_0-3=da 0 a 3 menomazioni
2_M_4-6=da 4 a 6 menomazioni
3_M_7-9=da 7 a 9 menomazioni
4_M_10-12=da 10 a 12 menomazioni
5_M_13_15=da 13 a 15 menomazioni
numero totale di disabilità
1_D_0-3=da 0 a 3 disabilità
2_D_4-6=da 4 a 6 disabilità
3_D_7-9=da 7 a 9 disabilità
4_D_10-12=da 10 a 12 disabilità
5_D_13-15=da 13 a 15 disabilità
6_D_>15=più di 15 disabilità
presenza di disabilità
si_Dcomp=si dis.comportamento
no_Dcomp=no dis.comportamento
si_Dcomun=si dis.comunicazione
no_Dcomun=no dis.comunicazione
si_DcuraPer=si dis.cura persona
no_DcuraPer=no dis.cura persona
si_Dlocom=si dis.locomotorie
no_Dlocom=no dis.locomotorie
si_DdispC=si dis.disposizione corpo
no_DdispC=no dis.disposizione corpo
si_Ddestr=si dis.destrezza
no_Ddestr=no dis.destrezza
si_Dsituaz=si dis.situazionali
no_Dsituaz=no dis.situazionali
numero assi di menomazione
1_1M=solo un asse di menomazione
2_2M=2 assi di menomazione
3_3M=3 assi di menomazione
4_4M=4 assi di menomazione
5_5M=5 assi di menomazione
6_6M=6 assi di menomazione
7_>6M= più di 6 assi di menomazione
presenza di menomazioni
si_Mcognit=si men.cognitive
no_Mcognit=no men.cognitive
si_Mpsich=si men.psichiche
no_Mpsich=no men.psichiche
si_Mcomunic=si men.comunicazione
no_Mcomunic=no men.comunicazione
si_Muditive=si men.uditive
no_Muditive=no men.uditive
si_Moculari=si men.oculari
no_Moculari=no men.oculari
si_Mviscer=si men.viscerali
no_Mviscer=no men.viscerali
si_MmuscolSch=si men.muscoloscheletriche
no_MmuscolSch=no men.muscoloscheletriche
si_Mdismorf=si men.dismorfiche
no_Mdismorf=no men.dismorfiche
si_MgenSens=si men.gen.sensibilità
no_MgenSens=no men.gen.sensibilità
Modelli statistici per l’analisi della transizione Università-lavoro
305
Il passo successivo è stato quello di proiettare su tale mappa la gravità media
dell’handicap presentato dai componenti di ciascun gruppo. Si riscontra che (Figura 4):
al primo gruppo, che presenta un numero basso di menomazioni/disabilità, è associata
una gravità bassa dell’handicap (con media=0,10); al secondo, che presenta un numero
medio di menomazioni/disabilità, è associata una gravità media (con media=0,32); al
terzo, che è composto da 11 bambini che presentano un numero elevato di menomazioni e disabilità, è associata una gravità alta (con media=0,57); al quarto, che presenta
un numero medio-basso di menomazioni/disabilità, è associata una gravità mediobassa (con media=0,24); infine, al quinto gruppo, che presenta un numero medio-alto
di menomazioni/disabilità, è associata una gravità medio-alta (con media=0,48).
Risulta evidente, quindi, l’associazione tra numero di menomazioni/disabilità
con la gravità calcolata dell’handicap: ad un più elevato numero di menomazioni e
disabilità viene associato un più alto indice di gravità.
L’analisi esplorativa è poi proseguita mediante l’analisi delle corrispondenze
multiple. La Figura 5 mostra chiaramente un andamento a ferro di cavallo, che evidenzia un trend che ha come primo estremo (in basso a destra) i bambini che presentano un basso numero di menomazioni/disabilità (da 1 a 3) e come altro estremo (in
alto a destra) quelli che presentano un alto numero di menomazioni/disabilità (più di
quindici). Tale andamento a ferro di cavallo, anche detto effetto Guttman (Fabbris,
1997), è tipico dei fenomeni che sono descritti da un unico fattore predominante di
natura ordinale che, nel nostro caso, è appunto dato dal numero di menomazioni/disabilità. La varianza spiegata è del 30%.
Proiettando sul grafico lo stato di gravità dell’handicap classificato in sei modalità (alto, grave, medio-alto, medio-basso, lieve, basso), si nota come quest’ultimo
segua l’andamento a forma di ferro di cavallo: alla diminuzione del numero di menomazioni e disabilità diminuisce l’indice dello stato di gravità totale di handicap.
5.4
Ricerca delle determinanti
Per la ricerca delle determinanti di una maggior gravità dell’handicap si sono utilizzati tre modelli di regressione lineare stepwise.
In prima battuta, analizziamo le variabili predittive nel modello che considera
le variabili socio-economiche e le menomazioni. Esso presenta un Indice di Determinazione (R2) pari a 0,65 (Tabella 3). Rispetto al modello, che considera solo le variabili socio-demografiche del bambino e dei genitori, permane ancora come fattore
protettivo il titolo di studio alto della madre, variabile ritenuta come proxy di un miglior contesto socio-economico (ISTAT, 1990; Costa e Faggiano, 1994). Comportano, invece, una maggiore gravità globale di handicap le menomazioni psichiche, prese singolarmente e ancor più quando sono associate a quelle muscoloscheletriche, le
306
Ricerca delle componenti del rischio di handicap
Tabella 3. Risultati ottenuti dal secondo modello di regressione lineare stepwise: stima dei
parametri e significatività (R2=0,65). Y=gravità globale dell’handicap
VARIABILE
intercetta
titolo di studio ALTO della madre
Men. Psichiche
Men. Psichiche + Muscoloscheletriche
Men. Comunicazione + Generali della sensibilità
Men. Oculari + Muscoloscheletriche
parametro
0,20
-0,16
0,09
0,16
0,43
0,12
p
<,0001
0,0010
<,0001
0,0011
0,0003
0,0157
Tabella 4. Risultati ottenuti dal terzo modello di regressione lineare stepwise: stima dei parametri e significatività (R2=0,84). Y=gravità globale dell’handicap
VARIABILE
intercetta
titolo di studio ALTO della madre
Men. Psichiche
Men. Psichiche + Muscoloscheletriche
Dis. Locomotorie
Dis. Comportamentali + Situazionali
Dis. Comunicazione + Disposizione corpo
Dis. Locomotorie + Situazionali
parametro
0,07
-0,12
0,06
0,11
0,09
0,09
0,23
0,17
p
0,0136
0,0005
<,0001
0,0005
0,0013
0,0221
0,0003
0,0030
menomazioni della comunicazione associate a quelle generali della sensibilità ed, infine, quelle oculari associate alle muscoloscheletriche.
Nel momento in cui vengono prese in considerazione anche le disabilità (Tabella 4), il modello migliora e spiega l’84% della varianza (R2=0,84). Permangono
nel modello la variabile titolo di studio alto della madre (protettiva), le menomazioni
psichiche considerate singolarmente e in associazione con le muscoloscheletriche
(fattori di rischio). Vengono soppiantate, invece, le menomazioni fisiche, trasformatesi in disabilità (disabilità locomotorie, disabilità nella disposizione del corpo associate a quelle della comunicazione, disabilità comportamentali associate a quelle situazionali, e disabilità locomotorie associate a quelle situazionali).
Modelli statistici per l’analisi della transizione Università-lavoro
6.
307
Conclusioni
I percorsi che dalla menomazione portano all’handicap sono complessi, differenti da
soggetto a soggetto e caratterizzati da molteplici interrelazioni. L’evidenza che ogni
persona fosse generalmente caratterizzata dalla presenza di più handicap, ha reso necessaria l’elaborazione di una misura sintetica che comprendesse tutte le tipologie di
handicap.
Mediante l’indice riassuntivo di gravità è stato possibile esplicitare tale misura, in termini di gravità. L’indice è una somma pesata delle gravità dei singoli assi di
handicap in cui i pesi sono stati ricavati dalla prima componente principale e normalizzati al campo di variazione 0-1. Il peso più alto è associato all’handicap nella mobilità (0,49) e il peso più basso all’handicap nell’integrazione sociale (0,34). Comunque i pesi sono piuttosto simili e si aggirano intorno allo 0,4. La validazione
dell’indice ha poi fornito risultati buoni, permettendo l’applicazione del metodo per
una formulazione unica ed estensibile di gravità dell’handicap.
L’analisi esplorativa del comportamento dell’indice ha comprovato che esso è
sensibile e ad un numero maggiore di menomazioni/disabilità porta un valore più alto
di gravità dell’handicap. Si è, successivamente, indagato se la gravità, oltre che dal
numero, dipendesse anche da tipologie specifiche di menomazioni o disabilità o dallo
stesso contesto socio-economico in cui vive il bambino.
Nella ricerca delle determinanti del rischio di handicap, inteso come gravità
globale, le menomazioni psichiche impattano direttamente e duramente e, nel momento in cui si presentano associate a quelle fisiche, rappresentano la situazione di
massima gravità. Le menomazioni fisiche, invece, non impattano direttamente, ma
solo nel momento in cui si trasformano in disabilità. Ciò significa che una persona
con menomazioni psichiche manifesta subito uno svantaggio che limita o impedisce
il raggiungimento di una condizione sociale normale, ovvero un handicap indipendentemente dalle reali disabilità di cui è portatrice; mentre una persona con menomazioni fisiche manifesta tale svantaggio nel momento in cui la menomazione limita la
persona nello svolgimento di una attività secondo i parametri considerati normali per
un essere umano, ovvero quando la menomazione porta ad una disabilità.
Poiché l’handicap rappresenta lo svantaggio che si vive nei rapporti con la
società, sulla base dei risultati ottenuti possiamo dunque affermare che la società
stessa fa ancora molta più fatica ad accettare la menomazione psichica rispetto a
quella fisica.
In tale contesto, l’ambiente socio-economico in cui il bambino si trova a vivere può prevenire o attenuare il manifestarsi dell’handicap: nel nostro studio ad un più
alto livello socio-economico è associata una minor gravità. Infatti, la variabile titolo
di studio della madre, proxy di uno stato socio-economico elevato, risulta essere un
fattore protettivo come risulta dal fatto permane in tutti e tre i modelli di regressione
308
Ricerca delle componenti del rischio di handicap
lineare stepwise, nonostante si considerino contestualmente dei fattori causali diretti
dell’handicap.
Riferimenti bibliografici
COSTA G. E FAGGIANO F. (a cura di) (1994), L’equità nella salute in Italia. Rapporto sulle diseguaglianze sociali in sanità, Franco Angeli, Milano
FABBRIS L. (1997), Statistica Multivariata – analisi esplorativa dei dati, McGrawHill, Milano
FACCHIN P., BOCCUZZO G., VISONÀ DALLA POZZA L., SALMASO L.
(2002), Il complesso percorso che dalla menomazione porta all’handicap: analisi delle correlazioni e dei nessi causali, in: PUGGIONI G. (a cura di) “Modelli e
metodi per l’analisi di rischi sociali e sanitari”, CLEUP, Padova: 185-206
FACCHIN P., FURLANETTO A., BURATTO B., et al. (a cura di) (1997), Valutazione della prevalenza di invalidità infantile di origine sia congenita che acquisita. Rapporto sul progetto di ricerca “ Prevalenza dei fattori di rischio della
salute materno-infantile” dell’Istituto Superiore di Sanità, Università degli Studi
di Padova, Dipartimento di Pediatria, Unità di Epidemiologia e Medicina di Comunità
INGRASSIA S. E DAVINO C. (2002), Reti neuronali e metodi statistici, Collana
Scientifica FrancoAngeli, Milano
ISTAT (1990), La mortalità differenziale secondo alcuni fattori socio-economici:
anni 1981-82, Note e Relazioni No.2, ISTAT, Roma
ORGANIZZAZIONE MONDIALE DELLA SANITÀ (1980), Classificazione internazionale delle menomazioni, delle disabilità e degli svantaggi esistenziali, Edizione italiana a cura del Centro Lombardo per L’Educazione Sanitaria
ORGANIZZAZIONE MONDIALE DELLA SANITÀ (2002), Classificazione internazionale del Funzionamento, della Disabilità e della Salute, Edizioni Erickson,
Trento
Modelli statistici per l’analisi della transizione Università-lavoro
309
Investigating handicap risk determinants
Summary. The aim of the present study is the identification of the most severe handicap profiles. Severity is considered as a whole and not as addressed to single handicap typologies. On this purpose it was defined an handicap severity index able to
compare patients and to define global severity lists. The index performance has been
evaluated through cross-validation and explorative analysis (Kohonen maps and
analysis of multiple correspondence). Finally, impairment, disability and social context have been investigated as determinants of the handicap severity, through the
performance of a series of linear stepwise regression analysis, according to the sequence Impairment→Disability→Handicap. Results show a positive association between the number of impairments/disabilities and handicap severity. For instance, it
was verified that psychical impairments contribute heavily to handicap severity,
mostly if associated with physical impairments. On the contrary, single physical impairments contribute to severity only when disabling. At the end, also the social context influences handicap severity: an higher socio-economic level represents a protective factor.
Keywords. Impairment, disability, handicap, handicap severity index, SelfOrganizing Maps – SOM (Kohonen Maps), analysis of multiple correspondence, linear stepwise regression analysis.
310
Ricerca delle componenti del rischio di handicap
ALLEGATO 1
Classificazione ICIDH delle menomazioni, delle disabilità e degli handicap per
categorie a due cifre
Categorie delle menomazioni
1. Menomazioni della capacità intellettiva
2. Altre menomazioni psicologiche
3. Menomazioni del linguaggio
4. Menomazioni auricolari
5. Menomazioni oculari
6. Menomazioni viscerali
7. Menomazioni scheletriche
8. Menomazioni deturpanti
9. Menomazioni generalizzate, sensoriali e di altro tipo
Categorie delle disabilità
1. Disabilità nel comportamento
2. Disabilità nella comunicazione
3. Disabilità nella cura della propria persona
4. Disabilità locomotorie
5. Disabilità dovute all’assetto corporeo
6. Disabilità nella destrezza
7. Disabilità circostanziali
8. Disabilità in particolari attitudini
9. Altre limitazioni nell’attività
Classificazione degli handicap
1. Handicap nell’orientamento
2. Handicap nell’indipendenza fisica
3. Handicap nella mobilità
4. Handicap occupazionali
5. Handicap nell’integrazione sociale
6. Handicap nell’autosufficienza economica
7. Altri handicap
_______________________________________________________________________________________________________________
Stampato nel mese di Febbraio 2005
presso la C.L.E.U.P. “Coop. Libraria Editrice Università di Padova”
Tipografia: Via Belzoni, 118/3 - Padova (Tel. 0498753496) [email protected]
Redazione e Amm.ne: Via Belzoni, 118/3 - Padova (Tel. 049650261) [email protected]
Libreria: Via Gradenigo, 2 - Padova (Tel. 0498071998) [email protected]
www.cleup.it