scarica quaderno - Dipartimenti - Università Cattolica del Sacro Cuore

Transcript

scarica quaderno - Dipartimenti - Università Cattolica del Sacro Cuore
UNIVERSITÀ CATTOLICA DEL SACRO CUORE
ISTITUTO DI STATISTICA
Giuseppe Boari - Gabriele Cantaluppi
Reperimento di modelli ad equazioni strutturali
parsimoniosi
con il programma PLS-VB
Serie E.P. N. 115 - Marzo 2003
Reperimento di modelli ad equazioni strutturali
parsimoniosi
con il programma PLS-VB(1)
Giuseppe Boari
Istituto di Statistica, Università Cattolica del S. Cuore, Milano
e-mail: [email protected]
Gabriele Cantaluppi
Istituto di Statistica, Università Cattolica del S. Cuore, Milano
e-mail: [email protected]
Abstract: (Exploring Structural Equation Models with the PLS-VB programme) Inference on structural equation models can be performed with the Partial Least Squares
approach, firstly proposed by Wold. A specific computer programme, developed in Visual Basic Application language for the case of recursive models, is presented. The performance of the PLS algorithm in exploring alternative models is analysed.
Parole chiave: Structural Equation Models, Latent Variables, Reliability Analysis, Partial Least Squares.
1. Introduzione
Con riferimento ai cosiddetti modelli ad equazioni strutturali con variabili latenti ed al
metodo di stima denominato PLS (Partial Least Squares) viene presentato l’utilizzo del
programma PLS-VB, sviluppato in linguaggio Visual Basic Application, con il contributo essenziale di MEDIASOFT Srl, come modulo aggiuntivo di Microsoft Excel.
Dopo un breve richiamo alla teoria dei modelli ad equazioni strutturali, che trovano ampio utilizzo nelle analisi di Customer Satisfaction, come pure negli studi di carattere sociale e psicometrico che si avvalgono dell’approccio basato sulla modellizzazione path
analysis, viene presentata la logica del programma in oggetto esplicitamente dedicato
all’analisi esplorativa e alla stima di modelli di tipo ricorsivo e con legami, tra le variabili strutturali latenti e i corrispondenti indicatori manifesti, di tipo riflessivo.
La presentazione verrà condotta con riferimento allo studio di un semplice problema
reale riguardante un’analisi di Customer Satisfaction.
2. Il modello, le procedure esplorative e l’algoritmo PLS
Un modello ad equazioni strutturali con variabili latenti viene impiegato quando
l’interesse principale dello studioso riguarda l’analisi delle relazioni che intercorrono tra
p variabili latenti Yj, j=1,…,p, (costrutti concettuali non direttamente misurabili) e la
stima dei valori (punteggi o scores) che queste assumono in corrispondenza delle n uni(1)
Il contributo è stato finanziato con i fondi di ricerca COFIN 2001.
1
tà statistiche considerate. A tale scopo lo sperimentatore dispone delle osservazioni di
altre variabili (cosiddette manifeste), rilevate su un’unica scala di misura, che si ipotizza
siano legate (proxy) alle variabili latenti attraverso semplici relazioni lineari, secondo
uno schema, tipico dell’analisi fattoriale (AF), nel quale alle variabili latenti è attribuito
il ruolo di fattori non necessariamente ortogonali (obliqui). Un simile approccio può essere convenientemente impiegato nell’analisi dei questionari somministrati ad un campione di soggetti, presso i quali viene condotta un’indagine di carattere psicologico, economico o sociale. Tra queste sono di attualità le cosiddette valutazioni di Customer
Satisfaction.
Il modello di riferimento è costituito da due gruppi di relazioni fondamentali: il primo
descrive i legami tra le variabili latenti, il secondo il legame tra ciascuna di queste e i
corrispondenti pj (j=1,…,p) indicatori manifesti Xjh (h=1,…,pj).
Distingueremo tra latenti “esogene”, in numero di q<p (q≥1), che non dipendono da
nessuna altra variabile, e (p−q) “endogene”, che dipendono da una o più variabili.
Nel presente lavoro considereremo solo modelli causali di tipo “ricorsivo”, della forma
j-1
Yj = ∑ βjk Yk + ζj ,
j = q+1,…, p,
(1)
k=1
secondo i quali la generica endogena Yj può dipendere solo dalle Yk antecedenti, endogene o esogene, e gli errori di equazione ζj hanno matrice Var(ζ) diagonale; considereremo inoltre solo modelli di misurazione di tipo “riflessivo”, secondo cui le variabili
manifeste sono funzione delle latenti e non viceversa, ovvero
(Xjh − x−jh) = λjh Yj + εjh,
j = 1,…, p, h = 1,…, pj,
(2)
dove x−jh rappresenta la media aritmetica.
Altre ipotesi sulle variabili casuali in gioco riguardano la nullità delle medie delle Yj
(j=1,…,p), ζj (j=q+1,…,p) ed εjh (j=1,…,p, h=1,…,pj) e la loro mutua incorrelazione.
Una rappresentazione grafica efficace delle precedenti relazioni, dette anche di path
analysis, è costituita dal cosiddetto path diagram nel quale le latenti sono indicate con
ellissi, gli indicatori con rettangoli ed i legami con archi e frecce.
Per fissare le idee faremo riferimento ad un esempio applicativo di analisi di Customer
Satisfaction di un servizio di trasporto pubblico, indirizzato ai cosiddetti “pendolari”
che gravitano su una città italiana di medie dimensioni (Metelka, 2002). Del questionario utilizzato si sono considerate 12 variabili, misurate su scala tipo Likert con punteggi
da 1 a 5, ritenute indicatrici degli aspetti essenziali della qualità del servizio in oggetto.
Dette variabili, come rappresentato anche nella seguente Tabella 1, sono state preventivamente raggruppate secondo le indicazioni fornite da una procedura di AF, eseguita
secondo il metodo delle componenti principali fatto seguire da una rotazione obliqua
Promax con parametro K=2.4. Essa ha suggerito una struttura iniziale a 4 fattori
F1,…,F4, specificati in ordine decrescente del corrispondente autovalore; si osservi che
F2 rappresenta la valutazione globale del servizio, mentre gli altri fattori riguardano la
valutazione di aspetti più specifici.
L’analisi esplorativa riguarda invece lo studio della cosiddetta affidabilità delle scale,
vale a dire del controllo della corretta specificazione dei sottomodelli di misurazione:
esso viene eseguito mediante l’indice α di Cronbach, che valuta la coerenza generale di
ciascuna scala che descrive ciascun concetto latente Yj (j=1,…, p), e dell’indice specifico α if item deleted, che misura il contributo marginale di ciascuna variabile osservabile
2
Xjh, h=1,…,pj, rispetto alla variabile latente Yj.
pj
pj
In particolare, posto Tj = ∑ h=1
Xjh (con valori tij = ∑ h=1
xijh) e indicate con
s2jh = s2(Xjh) =
∑ n x2ijh − 1 ∑ n xijh 2,

n i=1
n − 1  i=1

s2j = s2(Tj) =
1
(
)
n
1  n 2 1
∑ tij − n ∑ i=1tij 2
n − 1  i=1

(
)
le varianze delle manifeste Xjh e dei totali di gruppo Tj, detti indici sono definiti come:
αj =
αj(h) =
dove
pj
∑ h=1 s2jh
pj 
1−
s2j ,
pj − 1 
∑ k≠h s2k
pj − 1 
1 − 2 ,
sj(h) 
pj − 2 
s2j(h) = s2j + s2jh − 2
j=1,…,p,
(3)
j=1,…,p, h = 1,…,pj,
(4)
n
1  n
1
∑ tijxijh − n ∑ i=1tij
n − 1  i=1
(
)(∑ ni=1xijh) .
Tabella 1. Analisi fattoriale esplorativa e affidabilità delle scale individuate.
X9 = ambiente vettura treno
X10 = comfort treno
X11 = pulizia treno
X12 = WC treno
X1 = giudizio generale personale
X2 = giudizio generale della gente
X3 = qualità nel tempo
X4 = prezzo-prestazione
X5 = servizi primari di stazione
X6 = servizi accessori di stazione
X7 = pulizia stazione
X8 = WC stazione
F1
Y3
F2
Y4
F3
Y2
F4
Y1
α Cronbach α if item deleted
0.8289
0.7846
0.8158
0.7559
0.7789
0.7080
0.5843
0.6298
0.6697
0.6988
0.7837
0.7079
-
Le ultime due colonne della Tabella 1 riassumono i risultati dell’analisi di affidabilità.
In definitiva, seguendo anche considerazioni non strettamente tecnico-statistiche, si è
adottato il modello schematizzato nel diagramma di flusso di Figura 1.
Si osservi che le latenti Y1 e Y2 sono esogene, mentre le rimanenti, Y3 e Y4, endogene.
Lo schema adottato costituisce, ovviamente, un’ipotesi iniziale, formulata sulla base
delle relazioni che la teoria suggerisce esistano tra le latenti prese in considerazione.
La successiva fase di stima dei parametri βjk (j=q+1,…,p, k=1,…,j−1) e di verifica
dell’ipotesi della loro nullità consentirà di selezionare solo le relazioni significative e
definire, in particolare, quali variabili determinano la soddisfazione globale (overall) dei
clienti del servizio oggetto di analisi.
In definitiva, quindi, il modello finale, più parsimonioso, deriva da un’ipotesi iniziale
secondo la quale vengono considerate anche relazioni ridondanti, che l’evidenza empirica potrà poi rivelare anche non significative.
3
X7 X8
X1
Y1
Y4
X2
X3
X4
Y2
Y3
X5 X6
X9 X10 X11 X12
Figura 1. Path diagram delle relazioni ipotizzate.
Tale considerazione, unitamente alle caratteristiche di versatilità della procedura di stima basata sull’algoritmo PLS (Partial Least Squares), che verrà di seguito adottata, suggerisce l’impiego di una strategia di selezione del modello definitivo a partire da un
modello allargato, che prevede più relazioni di quelle strettamente ipotizzabili per il
problema in esame.
Come poc’anzi anticipato, per i modelli descritti da relazioni del tipo (1) e (2), caratterizzati, in genere, da numerosi parametri e dalla presenza di elevata correlazione tra le
manifeste (quasi collinearità), risulta interessante seguire l’approccio PLS proposto da
Wold (1982, 1985), successivamente adottato ed esteso da Lohmöller (1989), che ha
anche realizzato un programma di elaborazione automatica in linguaggio Fortran
(1987).
Con riferimento alla procedura di selezione dei modelli prima suggerita ed al modo con
cui specificare la struttura di causalità fra le latenti, si ritiene utile riscrivere la (1) nella
seguente notazione matriciale
Y1
M

 = [Γ|Β] Y


Y M
Y
Yq+1
 M

 Yp
q
q+1
p
 ζ
+ M
  ζ

q+1
p



in cui le sottomatrici Γ e Β, di ordine (p−q)×q e (p−q)×(p−q), contengono i coefficienti
indicati in (1) con βjk (j=q+1,…,p, k=1,…,j−1). Parallelamente, può predisporsi una matrice quadrata T={tjk} indicatrice delle relazioni di causalità ipotizzate tra le p latenti
con valori tjk=1 se Yj dipende da Yk e tjk=0 altrimenti.
4
Y1
M
Yq
Yq+1
endogene M
Yp
esogene
0
M
0
0
M
0
0
M
0
0
M
0
0
0
M
0
0
M
0
M
0
0
M
0
Per le ipotesi fatte, di modello di tipo ricorsivo, la diagonale e la parte triangolare alta di
T sono costituite da zeri, come pure nulli sono tutti gli elementi delle prime q righe
(corrispondenti alle esogene) anche se presenti nella parte triangolare bassa della matrice (indicati in grassetto). La matrice [Γ|Β] corrisponde alle ultime (p−q) righe di T.
Date p variabili latenti, la molteplicità di modelli causali ricorsivi possibili è allora identificata dalla sequenza di matrici T che vanno da quella contenente tutti valori unitari
nella parte triangolare bassa, corrispondente ad un modello con una sola esogena, Y1, ed
un massimo numero p(p−1)/2 di relazioni ricorsive, alla matrice contenente valori unitari solo nell’ultima riga, corrispondente ad un modello con una sola endogena, Yp, collegata a tutte le (p−1) antecedenti esogene.
Fissata la struttura causale del modello, l’algoritmo PLS si sviluppa secondo lo schema
logico seguente.
valori iniziali vettori pesi w(0)
j = (1,0,…,0)′
−
calcolo punteggi latenti Yj = ∑ h w(j 0)
h (Xjh − xjh)
(con le manifeste)
calcolo variabili strumentali
p
Zj = ∑ k=1 τjkYk
(con le latenti collegate)
aggiornamento vettori pesi w(r)
j
v. formula (5)
calcolo punteggi latenti Yj = ∑ hw(j r)h (Xjh − x−jh)
(con le manifeste)
no
convergenza?
si
stima MQ dei parametri βjk e λjh
v. formule (1) e (2)
Figura 2. Schema di flusso dell’algoritmo PLS di Wold.
5
Nel calcolo delle variabili strumentali i coefficienti sono così definiti
τjk = max(tjk, tkj) ⋅ sign[Cov(Yj,Yk)].
I vettori dei pesi (weights nella terminologia di Lohmöller) vengono aggiornati attraverso la seguente espressione
w(j r)h = ± Cjh / (∑ hCjh)
r=1,2,…
(5)
con
± = sign{∑ h sign[Cov(Xjh,Yj)]}
e
Cjh = Cov(Xjh,Zj).
Si osservi che le relazioni utilizzate per il calcolo delle variabili latenti (con le manifeste) relativi alla variabile Yj ne definiscono i punteggi latenti non standardizzati come
combinazione lineare, con pesi a somma unitaria, delle corrispondenti variabili manifeste, in maniera analoga alla formulazione proposta da Lohmöller (1989), pp. 29-30.
I punteggi latenti, così calcolati, sono tali da assicurare l’identificabilità del modello, dal
momento che, come osservato anche in Lohmöller (1989), p. 222, per garantire la definizione univoca delle variabili latenti è sufficiente, analogamente al modello di analisi
fattoriale, fissarne la scala (nel nostro caso lo stesso ordine di grandezza delle corrispondenti manifeste).
Si osservi, inoltre, che i valori Cjh sono proporzionali ai coefficienti di regressione tra
ciascuna variabile manifesta Xjh e la corrispondente approssimazione Zj della j-esima
variabile latente.
Questa fase dell’algoritmo si arresta una volta raggiunta la convergenza dei pesi, ovvero
(r−1)
quando max|w(r)
| < δ (costante positiva fissata a priori), dove |⋅| rappresenta una
j − wj
opportuna norma; la procedura prosegue quindi con la stima dei coefficienti di regressione βjk e λjh, attraverso i minimi quadrati ordinari.
Si fa osservare che le (1) e (2) sono relazioni tra variabili scarto; pertanto, i valori dei
punteggi Y*j espressi nella scala originaria (cfr. ad esempio Zanella et al., 2002) si otterranno, tenendo conto che Yj = Y*j − y−j, attraverso la seguente trasformazione:
y*ij = y−j + ∑h wjh xijh
dove
y−j = ∑h wjh x−jh
sono le medie delle latenti.
Inoltre, indicati con xmin e xmax i valori estremi della scala di valutazione comune usata
nel questionario per ognuna delle variabili manifeste, si possono porre i valori dei punteggi, come quelli delle loro medie, in scala centesimale, di più immediata interpretazione, operando la seguente trasformazione:
y^ ij =
y*ij − xmin
100.
xmax − xmin
Tali punteggi possono essere poi utilizzati per calcolare i livelli delle variabili latenti in
corrispondenza di alcuni segmenti di intervistati di particolare interesse, come, ad esempio, la media della Y4 (indice di Customer Satisfaction) per i maschi, oppure per le
femmine.
6
3. Selezione dei modelli
La ipotizzata capacità dell’algoritmo PLS di identificare i modelli più parsimoniosi, ovvero di risultare robusto alla sovra-specificazione delle relazioni di path analysis inizialmente previste, ha trovato riscontro anche nel caso applicativo preso in considerazione, per il quale le variabili latenti Y1 e Y2 sono esogene (q=2).
La selezione dei modelli prevede di specificare, in primo luogo, le r variabili “obiettivo”, ovvero quelle che, tra le (p−q) endogene, si ritiene abbiano un primario interesse ai
fini del problema in esame.
Dette variabili, che si ipotizza corrispondano alle ultime r equazioni del modello (1), saranno quindi considerate come riferimento fisso nella funzione criterio utilizzata per esprimere l’adattamento del modello in termini dei coefficienti βjk, calcolati trattando i
punteggi latenti come effettive osservazioni.
In particolare, all’interno della famiglia dei modelli caratterizzati da soli coefficienti βjk
significativi nella fase di stima, si propone di scegliere il modello in corrispondenza del
quale si ottiene il minimo della seguente funzione:
G(gp−r+1,…,gp) =
p

ln n
∑ ln σ^ 2j + gj n 
j=p−r+1
(6)
dove σ^ 2j (j=p−r+1,…,p) sono le varianze residue dei sottomodelli di regressione che
spiegano ciascuna delle r variabili “obiettivo” Yj in funzione delle corrispondenti esplicative, in numero pari a gj ≥ 0; per gj = 0 avremo σ^ 2j = Var(Yj).
Si osservi che la (6) riprende la struttura che caratterizza il criterio BIC di Schwarz
(1978), riformulazione del più noto AIC di Akaike, e che risulta equivalente al confronto delle quote di varianza residua penalizzate con la complessità dei sottomodelli.
Nel nostro caso (cfr. Figura 1) si è fissata l’attenzione sulla sola latente Y4 e si sono confrontati vari modelli (con dati standardizzati) secondo la sequenza riportata di seguito.
parametro
β31
β32
β41
β42
β43
stima
0.452
0.188
0.103
0.097
0.244
p-value
0.000
0.000
0.000
0.092 σ^ 24 = 0.877
0.102 G(3) = −0.0792
parametro
β31
β32
β41
β43
stima
0.452
0.189
0.133
0.262
p-value
0.000
0.000
0.028 σ^ 24 = 0.882
0.000 G(2) = −0.0907
7
parametro
β41
β42
β43
stima p-value
−0.099 0.000
0.102 0.076 σ^ 24 = 0.873
0.250 0.113 G(3) = −0.0839
parametro
β32
β41
β42
β43
stima p-value
0.368 0.000
−0.102 0.103
0.096 0.095 σ^ 24 = 0.875
0.247 0.000 G(3) = −0.0808
parametro
β31
β32
β43
stima
0.452
0.189
0.333
p-value
0.000
0.000 σ^ 24 = 0.891
0.000 G(1) = −0.0972
In definitiva, il modello ottimale risulta essere quello che esprime Y4 in funzione di Y3 e
quest’ultima in funzione delle esogene, i cui parametri, per il caso di score espressi in
scala centesimale, sono riportati nella tabella seguente.
Tabella 2. Modello finale su scala centesimale.
parametro
β31
β32
β43
stima
0.429
0.173
0.202
p-value
0.000
0.000
0.000
Le corrispondenti equazioni (modello delle relazioni interne) sono quindi
^
^
^
^
Y3 = 13.376 + 0.429Y1 + 0.173Y2 + ζ3
^
^
^
Y4 = 38.805 + 0.202Y3 + ζ4,
(7)
mentre le stime dei coefficienti che figurano nelle relazioni esterne del modello, quando
latenti e manifeste sono espresse sulla medesima scala, sono riportate nella Tabella 3.
Si osservi da ultimo che la (7) può anche essere posta nella cosiddetta forma ridotta
^
^
^
^
Y4 = 41.509 + 0.087Y1 + 0.035Y2 + ζ*4,
^
(8)
^
ζ*4
che esprime il contributo delle sole latenti esogene sulla Y4 e dove riassume le varie
componenti di errore.
Nel nostro caso, l’utilizzo delle relazioni (7) e (8) consente di valutare il contributo
^
marginale delle latenti antecedenti sulla soddisfazione globale Y4: una variazione unita^
^
^
ria di Y1, a parità di Y2, produce un incremento di 0.087 della variabile Y4; una variazio^
^
^
ne unitaria di Y2, a parità di Y1, produce un incremento di 0.035 della variabile Y4;
^
l’effetto di un analogo aumento della Y3, per la (7), risulta essere, invece, pari a 0.202.
8
Tabella 3. Stime dei coefficienti λjh dei modelli di misurazione.
X9 = ambiente vettura treno
X10 = comfort treno
X11 = pulizia treno
X12 = WC treno
X1 = giudizio generale personale
X2 = giudizio generale della gente
X3 = qualità nel tempo
X4 = prezzo-prestazione
X5 = servizi primari di stazione
X6 = servizi accessori di stazione
X7 = pulizia stazione
X8 = WC stazione
Y3
Y4
Y2
Y1
λjh
0.957
0.949
1.016
1.067
0.915
1.022
0.794
1.199
0.960
1.042
0.929
1.070
p-value
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
Ringraziamenti
Gli autori desiderano ringraziare vivamente il Dott. Andrea Aveni della MEDIASOFT
Srl per la estrema disponibilità mostrata nella fase di realizzazione del programma PLSVB.
Riferimenti bibliografici
Bayol M.P., de la Foye A., Tellier C., Tehenhaus M. (2000) Use of the PLS Path Modelling to estimate the European Customer Satisfaction Index (ECSI) model, Statistica Applicata, vol. 12(3), 361-375.
Lohmöller J.-B. (1987) LVPLS Program Manual, Version 1.8, Zentralarchiv für Empirische Sozialforschung, Köln.
Lohmöller J.-B. (1989) Latent Variable Path Modeling with Partial Least Squares,
Physica-Verlag, Heidelberg.
Metelka M.G. (2002) Modelli causali e reti bayesiane con riferimento alle valutazioni
di customer satisfaction, Tesi di Laurea in Scienze Statistiche ed Economiche, Università Cattolica del S. Cuore, Milano (relatore Prof. A. Zanella).
Schwarz G. (1978) Estimating the dimension of a model, Annals of Statistics, 6, 461464.
Wold H. (1982) Soft modeling: the basic design and some extensions, in: Joreskog
K.G., Wold H., eds. Systems under indirect observations, vol. 2, North Holland, 154.
Wold H. (1985) Partial Least Squares, in: Kotz S., Johnson N.L. eds., Encyclopedia of
Statistical Science, vol. 6, Wiley, 581-591.
Zanella A., Boari G., Cantaluppi G. (2002) Indicatori statistici complessivi per la valutazione di un sistema per la gestione della qualità: esame del problema ed un esempio di applicazione, in Atti della Riunione Satellite della XLI Riunione Scientifica
SIS, Cleup, Padova, 1-26.
9