scarica quaderno - Dipartimenti - Università Cattolica del Sacro Cuore
Transcript
scarica quaderno - Dipartimenti - Università Cattolica del Sacro Cuore
UNIVERSITÀ CATTOLICA DEL SACRO CUORE ISTITUTO DI STATISTICA Giuseppe Boari - Gabriele Cantaluppi Reperimento di modelli ad equazioni strutturali parsimoniosi con il programma PLS-VB Serie E.P. N. 115 - Marzo 2003 Reperimento di modelli ad equazioni strutturali parsimoniosi con il programma PLS-VB(1) Giuseppe Boari Istituto di Statistica, Università Cattolica del S. Cuore, Milano e-mail: [email protected] Gabriele Cantaluppi Istituto di Statistica, Università Cattolica del S. Cuore, Milano e-mail: [email protected] Abstract: (Exploring Structural Equation Models with the PLS-VB programme) Inference on structural equation models can be performed with the Partial Least Squares approach, firstly proposed by Wold. A specific computer programme, developed in Visual Basic Application language for the case of recursive models, is presented. The performance of the PLS algorithm in exploring alternative models is analysed. Parole chiave: Structural Equation Models, Latent Variables, Reliability Analysis, Partial Least Squares. 1. Introduzione Con riferimento ai cosiddetti modelli ad equazioni strutturali con variabili latenti ed al metodo di stima denominato PLS (Partial Least Squares) viene presentato l’utilizzo del programma PLS-VB, sviluppato in linguaggio Visual Basic Application, con il contributo essenziale di MEDIASOFT Srl, come modulo aggiuntivo di Microsoft Excel. Dopo un breve richiamo alla teoria dei modelli ad equazioni strutturali, che trovano ampio utilizzo nelle analisi di Customer Satisfaction, come pure negli studi di carattere sociale e psicometrico che si avvalgono dell’approccio basato sulla modellizzazione path analysis, viene presentata la logica del programma in oggetto esplicitamente dedicato all’analisi esplorativa e alla stima di modelli di tipo ricorsivo e con legami, tra le variabili strutturali latenti e i corrispondenti indicatori manifesti, di tipo riflessivo. La presentazione verrà condotta con riferimento allo studio di un semplice problema reale riguardante un’analisi di Customer Satisfaction. 2. Il modello, le procedure esplorative e l’algoritmo PLS Un modello ad equazioni strutturali con variabili latenti viene impiegato quando l’interesse principale dello studioso riguarda l’analisi delle relazioni che intercorrono tra p variabili latenti Yj, j=1,…,p, (costrutti concettuali non direttamente misurabili) e la stima dei valori (punteggi o scores) che queste assumono in corrispondenza delle n uni(1) Il contributo è stato finanziato con i fondi di ricerca COFIN 2001. 1 tà statistiche considerate. A tale scopo lo sperimentatore dispone delle osservazioni di altre variabili (cosiddette manifeste), rilevate su un’unica scala di misura, che si ipotizza siano legate (proxy) alle variabili latenti attraverso semplici relazioni lineari, secondo uno schema, tipico dell’analisi fattoriale (AF), nel quale alle variabili latenti è attribuito il ruolo di fattori non necessariamente ortogonali (obliqui). Un simile approccio può essere convenientemente impiegato nell’analisi dei questionari somministrati ad un campione di soggetti, presso i quali viene condotta un’indagine di carattere psicologico, economico o sociale. Tra queste sono di attualità le cosiddette valutazioni di Customer Satisfaction. Il modello di riferimento è costituito da due gruppi di relazioni fondamentali: il primo descrive i legami tra le variabili latenti, il secondo il legame tra ciascuna di queste e i corrispondenti pj (j=1,…,p) indicatori manifesti Xjh (h=1,…,pj). Distingueremo tra latenti “esogene”, in numero di q<p (q≥1), che non dipendono da nessuna altra variabile, e (p−q) “endogene”, che dipendono da una o più variabili. Nel presente lavoro considereremo solo modelli causali di tipo “ricorsivo”, della forma j-1 Yj = ∑ βjk Yk + ζj , j = q+1,…, p, (1) k=1 secondo i quali la generica endogena Yj può dipendere solo dalle Yk antecedenti, endogene o esogene, e gli errori di equazione ζj hanno matrice Var(ζ) diagonale; considereremo inoltre solo modelli di misurazione di tipo “riflessivo”, secondo cui le variabili manifeste sono funzione delle latenti e non viceversa, ovvero (Xjh − x−jh) = λjh Yj + εjh, j = 1,…, p, h = 1,…, pj, (2) dove x−jh rappresenta la media aritmetica. Altre ipotesi sulle variabili casuali in gioco riguardano la nullità delle medie delle Yj (j=1,…,p), ζj (j=q+1,…,p) ed εjh (j=1,…,p, h=1,…,pj) e la loro mutua incorrelazione. Una rappresentazione grafica efficace delle precedenti relazioni, dette anche di path analysis, è costituita dal cosiddetto path diagram nel quale le latenti sono indicate con ellissi, gli indicatori con rettangoli ed i legami con archi e frecce. Per fissare le idee faremo riferimento ad un esempio applicativo di analisi di Customer Satisfaction di un servizio di trasporto pubblico, indirizzato ai cosiddetti “pendolari” che gravitano su una città italiana di medie dimensioni (Metelka, 2002). Del questionario utilizzato si sono considerate 12 variabili, misurate su scala tipo Likert con punteggi da 1 a 5, ritenute indicatrici degli aspetti essenziali della qualità del servizio in oggetto. Dette variabili, come rappresentato anche nella seguente Tabella 1, sono state preventivamente raggruppate secondo le indicazioni fornite da una procedura di AF, eseguita secondo il metodo delle componenti principali fatto seguire da una rotazione obliqua Promax con parametro K=2.4. Essa ha suggerito una struttura iniziale a 4 fattori F1,…,F4, specificati in ordine decrescente del corrispondente autovalore; si osservi che F2 rappresenta la valutazione globale del servizio, mentre gli altri fattori riguardano la valutazione di aspetti più specifici. L’analisi esplorativa riguarda invece lo studio della cosiddetta affidabilità delle scale, vale a dire del controllo della corretta specificazione dei sottomodelli di misurazione: esso viene eseguito mediante l’indice α di Cronbach, che valuta la coerenza generale di ciascuna scala che descrive ciascun concetto latente Yj (j=1,…, p), e dell’indice specifico α if item deleted, che misura il contributo marginale di ciascuna variabile osservabile 2 Xjh, h=1,…,pj, rispetto alla variabile latente Yj. pj pj In particolare, posto Tj = ∑ h=1 Xjh (con valori tij = ∑ h=1 xijh) e indicate con s2jh = s2(Xjh) = ∑ n x2ijh − 1 ∑ n xijh 2, n i=1 n − 1 i=1 s2j = s2(Tj) = 1 ( ) n 1 n 2 1 ∑ tij − n ∑ i=1tij 2 n − 1 i=1 ( ) le varianze delle manifeste Xjh e dei totali di gruppo Tj, detti indici sono definiti come: αj = αj(h) = dove pj ∑ h=1 s2jh pj 1− s2j , pj − 1 ∑ k≠h s2k pj − 1 1 − 2 , sj(h) pj − 2 s2j(h) = s2j + s2jh − 2 j=1,…,p, (3) j=1,…,p, h = 1,…,pj, (4) n 1 n 1 ∑ tijxijh − n ∑ i=1tij n − 1 i=1 ( )(∑ ni=1xijh) . Tabella 1. Analisi fattoriale esplorativa e affidabilità delle scale individuate. X9 = ambiente vettura treno X10 = comfort treno X11 = pulizia treno X12 = WC treno X1 = giudizio generale personale X2 = giudizio generale della gente X3 = qualità nel tempo X4 = prezzo-prestazione X5 = servizi primari di stazione X6 = servizi accessori di stazione X7 = pulizia stazione X8 = WC stazione F1 Y3 F2 Y4 F3 Y2 F4 Y1 α Cronbach α if item deleted 0.8289 0.7846 0.8158 0.7559 0.7789 0.7080 0.5843 0.6298 0.6697 0.6988 0.7837 0.7079 - Le ultime due colonne della Tabella 1 riassumono i risultati dell’analisi di affidabilità. In definitiva, seguendo anche considerazioni non strettamente tecnico-statistiche, si è adottato il modello schematizzato nel diagramma di flusso di Figura 1. Si osservi che le latenti Y1 e Y2 sono esogene, mentre le rimanenti, Y3 e Y4, endogene. Lo schema adottato costituisce, ovviamente, un’ipotesi iniziale, formulata sulla base delle relazioni che la teoria suggerisce esistano tra le latenti prese in considerazione. La successiva fase di stima dei parametri βjk (j=q+1,…,p, k=1,…,j−1) e di verifica dell’ipotesi della loro nullità consentirà di selezionare solo le relazioni significative e definire, in particolare, quali variabili determinano la soddisfazione globale (overall) dei clienti del servizio oggetto di analisi. In definitiva, quindi, il modello finale, più parsimonioso, deriva da un’ipotesi iniziale secondo la quale vengono considerate anche relazioni ridondanti, che l’evidenza empirica potrà poi rivelare anche non significative. 3 X7 X8 X1 Y1 Y4 X2 X3 X4 Y2 Y3 X5 X6 X9 X10 X11 X12 Figura 1. Path diagram delle relazioni ipotizzate. Tale considerazione, unitamente alle caratteristiche di versatilità della procedura di stima basata sull’algoritmo PLS (Partial Least Squares), che verrà di seguito adottata, suggerisce l’impiego di una strategia di selezione del modello definitivo a partire da un modello allargato, che prevede più relazioni di quelle strettamente ipotizzabili per il problema in esame. Come poc’anzi anticipato, per i modelli descritti da relazioni del tipo (1) e (2), caratterizzati, in genere, da numerosi parametri e dalla presenza di elevata correlazione tra le manifeste (quasi collinearità), risulta interessante seguire l’approccio PLS proposto da Wold (1982, 1985), successivamente adottato ed esteso da Lohmöller (1989), che ha anche realizzato un programma di elaborazione automatica in linguaggio Fortran (1987). Con riferimento alla procedura di selezione dei modelli prima suggerita ed al modo con cui specificare la struttura di causalità fra le latenti, si ritiene utile riscrivere la (1) nella seguente notazione matriciale Y1 M = [Γ|Β] Y Y M Y Yq+1 M Yp q q+1 p ζ + M ζ q+1 p in cui le sottomatrici Γ e Β, di ordine (p−q)×q e (p−q)×(p−q), contengono i coefficienti indicati in (1) con βjk (j=q+1,…,p, k=1,…,j−1). Parallelamente, può predisporsi una matrice quadrata T={tjk} indicatrice delle relazioni di causalità ipotizzate tra le p latenti con valori tjk=1 se Yj dipende da Yk e tjk=0 altrimenti. 4 Y1 M Yq Yq+1 endogene M Yp esogene 0 M 0 0 M 0 0 M 0 0 M 0 0 0 M 0 0 M 0 M 0 0 M 0 Per le ipotesi fatte, di modello di tipo ricorsivo, la diagonale e la parte triangolare alta di T sono costituite da zeri, come pure nulli sono tutti gli elementi delle prime q righe (corrispondenti alle esogene) anche se presenti nella parte triangolare bassa della matrice (indicati in grassetto). La matrice [Γ|Β] corrisponde alle ultime (p−q) righe di T. Date p variabili latenti, la molteplicità di modelli causali ricorsivi possibili è allora identificata dalla sequenza di matrici T che vanno da quella contenente tutti valori unitari nella parte triangolare bassa, corrispondente ad un modello con una sola esogena, Y1, ed un massimo numero p(p−1)/2 di relazioni ricorsive, alla matrice contenente valori unitari solo nell’ultima riga, corrispondente ad un modello con una sola endogena, Yp, collegata a tutte le (p−1) antecedenti esogene. Fissata la struttura causale del modello, l’algoritmo PLS si sviluppa secondo lo schema logico seguente. valori iniziali vettori pesi w(0) j = (1,0,…,0)′ − calcolo punteggi latenti Yj = ∑ h w(j 0) h (Xjh − xjh) (con le manifeste) calcolo variabili strumentali p Zj = ∑ k=1 τjkYk (con le latenti collegate) aggiornamento vettori pesi w(r) j v. formula (5) calcolo punteggi latenti Yj = ∑ hw(j r)h (Xjh − x−jh) (con le manifeste) no convergenza? si stima MQ dei parametri βjk e λjh v. formule (1) e (2) Figura 2. Schema di flusso dell’algoritmo PLS di Wold. 5 Nel calcolo delle variabili strumentali i coefficienti sono così definiti τjk = max(tjk, tkj) ⋅ sign[Cov(Yj,Yk)]. I vettori dei pesi (weights nella terminologia di Lohmöller) vengono aggiornati attraverso la seguente espressione w(j r)h = ± Cjh / (∑ hCjh) r=1,2,… (5) con ± = sign{∑ h sign[Cov(Xjh,Yj)]} e Cjh = Cov(Xjh,Zj). Si osservi che le relazioni utilizzate per il calcolo delle variabili latenti (con le manifeste) relativi alla variabile Yj ne definiscono i punteggi latenti non standardizzati come combinazione lineare, con pesi a somma unitaria, delle corrispondenti variabili manifeste, in maniera analoga alla formulazione proposta da Lohmöller (1989), pp. 29-30. I punteggi latenti, così calcolati, sono tali da assicurare l’identificabilità del modello, dal momento che, come osservato anche in Lohmöller (1989), p. 222, per garantire la definizione univoca delle variabili latenti è sufficiente, analogamente al modello di analisi fattoriale, fissarne la scala (nel nostro caso lo stesso ordine di grandezza delle corrispondenti manifeste). Si osservi, inoltre, che i valori Cjh sono proporzionali ai coefficienti di regressione tra ciascuna variabile manifesta Xjh e la corrispondente approssimazione Zj della j-esima variabile latente. Questa fase dell’algoritmo si arresta una volta raggiunta la convergenza dei pesi, ovvero (r−1) quando max|w(r) | < δ (costante positiva fissata a priori), dove |⋅| rappresenta una j − wj opportuna norma; la procedura prosegue quindi con la stima dei coefficienti di regressione βjk e λjh, attraverso i minimi quadrati ordinari. Si fa osservare che le (1) e (2) sono relazioni tra variabili scarto; pertanto, i valori dei punteggi Y*j espressi nella scala originaria (cfr. ad esempio Zanella et al., 2002) si otterranno, tenendo conto che Yj = Y*j − y−j, attraverso la seguente trasformazione: y*ij = y−j + ∑h wjh xijh dove y−j = ∑h wjh x−jh sono le medie delle latenti. Inoltre, indicati con xmin e xmax i valori estremi della scala di valutazione comune usata nel questionario per ognuna delle variabili manifeste, si possono porre i valori dei punteggi, come quelli delle loro medie, in scala centesimale, di più immediata interpretazione, operando la seguente trasformazione: y^ ij = y*ij − xmin 100. xmax − xmin Tali punteggi possono essere poi utilizzati per calcolare i livelli delle variabili latenti in corrispondenza di alcuni segmenti di intervistati di particolare interesse, come, ad esempio, la media della Y4 (indice di Customer Satisfaction) per i maschi, oppure per le femmine. 6 3. Selezione dei modelli La ipotizzata capacità dell’algoritmo PLS di identificare i modelli più parsimoniosi, ovvero di risultare robusto alla sovra-specificazione delle relazioni di path analysis inizialmente previste, ha trovato riscontro anche nel caso applicativo preso in considerazione, per il quale le variabili latenti Y1 e Y2 sono esogene (q=2). La selezione dei modelli prevede di specificare, in primo luogo, le r variabili “obiettivo”, ovvero quelle che, tra le (p−q) endogene, si ritiene abbiano un primario interesse ai fini del problema in esame. Dette variabili, che si ipotizza corrispondano alle ultime r equazioni del modello (1), saranno quindi considerate come riferimento fisso nella funzione criterio utilizzata per esprimere l’adattamento del modello in termini dei coefficienti βjk, calcolati trattando i punteggi latenti come effettive osservazioni. In particolare, all’interno della famiglia dei modelli caratterizzati da soli coefficienti βjk significativi nella fase di stima, si propone di scegliere il modello in corrispondenza del quale si ottiene il minimo della seguente funzione: G(gp−r+1,…,gp) = p ln n ∑ ln σ^ 2j + gj n j=p−r+1 (6) dove σ^ 2j (j=p−r+1,…,p) sono le varianze residue dei sottomodelli di regressione che spiegano ciascuna delle r variabili “obiettivo” Yj in funzione delle corrispondenti esplicative, in numero pari a gj ≥ 0; per gj = 0 avremo σ^ 2j = Var(Yj). Si osservi che la (6) riprende la struttura che caratterizza il criterio BIC di Schwarz (1978), riformulazione del più noto AIC di Akaike, e che risulta equivalente al confronto delle quote di varianza residua penalizzate con la complessità dei sottomodelli. Nel nostro caso (cfr. Figura 1) si è fissata l’attenzione sulla sola latente Y4 e si sono confrontati vari modelli (con dati standardizzati) secondo la sequenza riportata di seguito. parametro β31 β32 β41 β42 β43 stima 0.452 0.188 0.103 0.097 0.244 p-value 0.000 0.000 0.000 0.092 σ^ 24 = 0.877 0.102 G(3) = −0.0792 parametro β31 β32 β41 β43 stima 0.452 0.189 0.133 0.262 p-value 0.000 0.000 0.028 σ^ 24 = 0.882 0.000 G(2) = −0.0907 7 parametro β41 β42 β43 stima p-value −0.099 0.000 0.102 0.076 σ^ 24 = 0.873 0.250 0.113 G(3) = −0.0839 parametro β32 β41 β42 β43 stima p-value 0.368 0.000 −0.102 0.103 0.096 0.095 σ^ 24 = 0.875 0.247 0.000 G(3) = −0.0808 parametro β31 β32 β43 stima 0.452 0.189 0.333 p-value 0.000 0.000 σ^ 24 = 0.891 0.000 G(1) = −0.0972 In definitiva, il modello ottimale risulta essere quello che esprime Y4 in funzione di Y3 e quest’ultima in funzione delle esogene, i cui parametri, per il caso di score espressi in scala centesimale, sono riportati nella tabella seguente. Tabella 2. Modello finale su scala centesimale. parametro β31 β32 β43 stima 0.429 0.173 0.202 p-value 0.000 0.000 0.000 Le corrispondenti equazioni (modello delle relazioni interne) sono quindi ^ ^ ^ ^ Y3 = 13.376 + 0.429Y1 + 0.173Y2 + ζ3 ^ ^ ^ Y4 = 38.805 + 0.202Y3 + ζ4, (7) mentre le stime dei coefficienti che figurano nelle relazioni esterne del modello, quando latenti e manifeste sono espresse sulla medesima scala, sono riportate nella Tabella 3. Si osservi da ultimo che la (7) può anche essere posta nella cosiddetta forma ridotta ^ ^ ^ ^ Y4 = 41.509 + 0.087Y1 + 0.035Y2 + ζ*4, ^ (8) ^ ζ*4 che esprime il contributo delle sole latenti esogene sulla Y4 e dove riassume le varie componenti di errore. Nel nostro caso, l’utilizzo delle relazioni (7) e (8) consente di valutare il contributo ^ marginale delle latenti antecedenti sulla soddisfazione globale Y4: una variazione unita^ ^ ^ ria di Y1, a parità di Y2, produce un incremento di 0.087 della variabile Y4; una variazio^ ^ ^ ne unitaria di Y2, a parità di Y1, produce un incremento di 0.035 della variabile Y4; ^ l’effetto di un analogo aumento della Y3, per la (7), risulta essere, invece, pari a 0.202. 8 Tabella 3. Stime dei coefficienti λjh dei modelli di misurazione. X9 = ambiente vettura treno X10 = comfort treno X11 = pulizia treno X12 = WC treno X1 = giudizio generale personale X2 = giudizio generale della gente X3 = qualità nel tempo X4 = prezzo-prestazione X5 = servizi primari di stazione X6 = servizi accessori di stazione X7 = pulizia stazione X8 = WC stazione Y3 Y4 Y2 Y1 λjh 0.957 0.949 1.016 1.067 0.915 1.022 0.794 1.199 0.960 1.042 0.929 1.070 p-value 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 Ringraziamenti Gli autori desiderano ringraziare vivamente il Dott. Andrea Aveni della MEDIASOFT Srl per la estrema disponibilità mostrata nella fase di realizzazione del programma PLSVB. Riferimenti bibliografici Bayol M.P., de la Foye A., Tellier C., Tehenhaus M. (2000) Use of the PLS Path Modelling to estimate the European Customer Satisfaction Index (ECSI) model, Statistica Applicata, vol. 12(3), 361-375. Lohmöller J.-B. (1987) LVPLS Program Manual, Version 1.8, Zentralarchiv für Empirische Sozialforschung, Köln. Lohmöller J.-B. (1989) Latent Variable Path Modeling with Partial Least Squares, Physica-Verlag, Heidelberg. Metelka M.G. (2002) Modelli causali e reti bayesiane con riferimento alle valutazioni di customer satisfaction, Tesi di Laurea in Scienze Statistiche ed Economiche, Università Cattolica del S. Cuore, Milano (relatore Prof. A. Zanella). Schwarz G. (1978) Estimating the dimension of a model, Annals of Statistics, 6, 461464. Wold H. (1982) Soft modeling: the basic design and some extensions, in: Joreskog K.G., Wold H., eds. Systems under indirect observations, vol. 2, North Holland, 154. Wold H. (1985) Partial Least Squares, in: Kotz S., Johnson N.L. eds., Encyclopedia of Statistical Science, vol. 6, Wiley, 581-591. Zanella A., Boari G., Cantaluppi G. (2002) Indicatori statistici complessivi per la valutazione di un sistema per la gestione della qualità: esame del problema ed un esempio di applicazione, in Atti della Riunione Satellite della XLI Riunione Scientifica SIS, Cleup, Padova, 1-26. 9