scarica quaderno - Dipartimenti - Università Cattolica del Sacro Cuore

Transcript

scarica quaderno - Dipartimenti - Università Cattolica del Sacro Cuore
UNIVERSITÀ CATTOLICA DEL SACRO CUORE
ISTITUTO DI STATISTICA
Giuseppe Boari - Elisabetta Sala
Versione dinamica
dei modelli ad equazioni strutturali
Serie E.P. N. 121 - Marzo 2004
VERSIONE DINAMICA
DEI MODELLI AD EQUAZIONI STRUTTURALI
Boari Giuseppe, Sala Elisabetta
Istituto di Statistica - Università Cattolica del S.Cuore - Milano
1. Introduzione
Come è noto i modelli dinamici riguardano lo studio dell’evoluzione temporale dei
fenomeni ed hanno interesse, ad esempio, nell’ambito dell’analisi comportamentale e
sociale. In particolare focalizzeremo la nostra attenzione sui modelli ad equazioni
strutturali con variabili latenti, proponendone una formulazione dinamica. Tali modelli,
come è noto, operano in un contesto nel quale le variabili di interesse non sono
direttamente osservabili, ma delle stesse è ipotizzata l’esistenza di una relazione con
corrispondenti variabili manifeste.
Un esempio molto attuale è costituito dai modelli di misurazione della Customer
Satisfaction (CS), generalmente affrontati con la metodologia cosiddetta LISREL; essi
mettono in relazione il livello, latente, della CS degli utilizzatori di un prodotto o di un
servizio, al livello di altre variabili latenti, quali le attese del cliente, la qualità percepita
o il valore percepito. I modelli dinamici estendono le precedenti relazioni, di natura
essenzialmente statica, considerando come esplicativi anche i livelli assunti dalle
variabili in istanti di tempo precedenti a quello dell’ultima rilevazione.
2. Modelli strutturali con variabili latenti
Il modello lineare ad equazioni strutturali è lo strumento più ampiamente diffuso per la
rappresentazione di relazioni tra variabili latenti ed è costituito da due insiemi di
equazioni lineari. Il primo descrive il collegamento tra le variabili latenti (non
osservabili) ed è tipicamente espresso dal seguente modello ad errore di equazione
η = Bη + Γξ + ζ ,
(1)
ove η è il vettore (m × 1) delle variabili endogene, ξ è il vettore (n × 1) delle variabili
esogene e ζ è il vettore (m × 1) degli errori di modello. La matrice B (m × m) ha zeri
sulla diagonale principale e descrive i legami tra le endogene, mentre la matrice Γ (m ×
n) contiene i coefficienti di regressione che esprimono i legami lineari tra le variabili
endogene e quelle esogene.
L’altro insieme di equazioni definisce il legame, sempre lineare, tra le variabili latenti e
le corrispondenti variabili osservabili o manifeste (proxy), espresso nella seguente
forma di equazioni di misura
(2)
y = Λyη + ε ,
x = Λxξ + δ ,
(3)
1
dove i vettori y e x di variabili indicatrici (di tipo riflessivo) hanno rispettivamente
dimensioni (p × 1) e (q × 1) con p ≥ m e q ≥ n, le matrici Λy e Λx contengono i
coefficienti che esprimono il legame lineare tra osservabili e latenti, mentre i vettori ε e
δ, di dimensioni (p × 1) e (q × 1), rappresentano gli errori di misura. Si assume che (I −
B) sia non singolare e che η, ξ, ζ, ε e δ siano di media nulla e, tranne la prima coppia,
mutuamente non correlate.
Il modello più comunemente impiegato è quello di tipo ricorsivo, per il quale (I − B) è
triangolare e Var(ζ) è diagonale.
Una formulazione alternativa del modello è fatta partendo dalle seguenti definizioni:
η
η* =   ,
ξ
ζ
ζ* =   ,
ξ
 Λy 0 
,
Λ* = 
 0 Λx 
y
y* =   ,
x
ε 
ε* =   ,
δ
 I−B −Γ 
,
B* = 
 0 I 
così le equazioni (1)-(3) possono essere scritte nella forma più compatta
B*η* = ζ* ,
*
* *
(4)
*
y =Λ η +ε ,
(5)
o, equivalentemente, nella cosiddetta forma ridotta
η = (I−B)-1 Γξ + (I−B)-1 ζ ,
y* = L ζ * + ε * ,
dove
-1
-1
 Λy(I−B) Λy(I−B) Γ 
,
L=
0
Λx


che esprime le equazioni di misura in forma di modello fattoriale obliquo.
Tali modelli, anche indicati con l’acronimo LISREL (Linear Structural RELationships),
si pongono all’interno della famiglia dei cosiddetti modelli a struttura di covarianza,
caratterizzati dal fatto che la loro identificazione e la loro stima sono basate sulle matrici
di varianze e covarianze osservata e teorica, Σ e Σ(θ), relative alle componenti del
vettore casuale y* (si veda, ad esempio, Bollen 1989, che fornisce anche alcune regole
pratiche di identificazione).
Inoltre, come ricordato in Vittadini-Haagen (1994), i modelli fattoriali sono
caratterizzati da un ulteriore problema, legato alla valutazione dei valori delle variabili
latenti (il cosiddetto problema della indeterminatezza dei punteggi fattoriali). Ciò è
dovuto al fatto che il numero delle variabili non osservabili sommato a quello delle
corrispondenti componenti di errore è più grande del rango della matrice di varianze e
covarianze, per cui diviene impossibile definire, deterministicamente, un unico insieme
di detti punteggi.
3. Modelli dinamici
I modelli statici (1)-(3) sono rappresentati sotto forma di equazioni simultanee. Esse
considerano solo variabili concomitanti mentre, in pratica, quasi tutti i fenomeni naturali
manifestano un comportamento dinamico.
2
Ricordando infatti l’esempio introdotto, le opinioni individuali del consumatore (come
pure il livello di CS o di fedeltà del cliente) cambiano nel tempo e sono influenzate, in
un certo senso, anche dalle esperienze passate, rappresentate dal livello in precedenza
assunto da quei caratteri e accumulate per dar luogo al cosiddetto “vissuto personale” o
“effetto memoria”.
3.1 Il modello fattoriale dinamico
Uno dei primi modelli strutturali dinamici proposti è il modello fattoriale dinamico
(Dynamic Factor Model, DFM), che introduce la dinamica direttamente nelle equazioni
di misura (si veda, per esempio, Hershberger, 1998), cioè
s
y*(t) = ∑ Λj η*(t−j) + ε*(t),
j=0
dove
η(⋅)
,
η*(⋅) = 
 ξ(⋅) 
y(⋅)
y*(⋅) =  ,
x(⋅)
ε(⋅)
ε*(⋅) =  .
δ(⋅)
(6)
Esso definisce infatti le variabili osservate come funzioni delle variabili latenti, anche
ritardate, attraverso i coefficienti costanti contenuti nelle matrici Λ0, Λ1,…, Λs. Tuttavia
riteniamo più appropriato, come motiveremo più avanti, adottare un modello di misura
di tipo simultaneo (eventualmente a parametri variabili nel tempo), riservando le
relazioni non simultanee unicamente alle componenti strutturali del modello.
3.2 Il modello strutturale dinamico con variabili latenti
In Otter (1992) è presentato il modello dinamico strutturale con variabili latenti (SDL),
definito dalla seguente equazione strutturale
B0* η*(t) = B1* η*(t−1) + H u(t) + w(t)
(7)
dove, richiamando le posizioni fatte in precedenza, B0* e B1* sono matrici del tipo
 I−B0 −Γ0 

B0* = 
I 
 0
 B1 −Γ1 
,
B1* = 
 0 I 
mentre ipotizziamo che η*(t) sia un processo stocastico che soddisfa le condizioni
iniziali
η*(0) ∼ N(µ,Ση),
u(t) rappresenta un input deterministico, w(t) un processo stocastico di tipo white-noise
(cioè una sequenza di vettori casuali non correlati, identicamente distribuiti) e H una
matrice di coefficienti reali.
Il modello è completato dalla seguente equazione (modello di misura esteso)
ovvero
ε(t)
y(t)  Λy Λyx  η(t) D1
 +   u(t) +  ,

 =
x(t)  0 Λx   ξ(t)  D2
δ(t)
(8)
y*(t) = C* η*(t) + D* u(t) + ε*(t).
(9)
Le (7) e (9) potrebbero costituire la versione dinamica delle precedenti (1)-(3).
3
Notiamo invece la presenza della sottomatrice Λyx che ipotizza l’esistenza di legami tra
il vettore y(t) e le latenti sia esogene che endogene e la presenza, anche nella (8) e nella
(9), della serie di ingresso u(t).
La forma ridotta del modello (RDL) è definita, assumendo che B0* sia invertibile, dalla
seguente equazione strutturale
η*(t) = B0*−1 B1* η*(t−1) + H* u(t) + w*(t)
(10)
e dall’equazione di misura (9), scritte in forma abbreviata e sotto le stesse condizioni
iniziali precedentemente stabilite.
In econometria e nella teoria del controllo dei sistemi questo modello è definito essere la
versione stazionaria state-space di un processo stocastico, essendo η*(t) interpretato
come vettore di stato.
In Otter (1992) si possono trovare alcuni risultati teorici riguardanti le condizioni di
identificabilità del precedente modello.
3.3 Utilizzo dei modelli ARX multivariati
Una proposta alternativa (Boari, 2001) consiste nel descrivere il comportamento
dinamico della componente strutturale, che esprime la relazione tra le variabili casuali
latenti η(t) e ξ(t), per mezzo del seguente modello stocastico lineare multivariato, di
tipo autoregressivo e con variabile esogena
η(t) + β1 η(t−1) + … + βr η(t−r) = γ0 ξ(t−b) + … + γs ξ(t−b−s) + ζ(t),
(11)
chiamato anche modello ARX ad errore d’equazione, dove β1, β2, … , βr e γ0, … , γs
sono matrici di coefficienti costanti, le prime di dimensione (m×m) e le seconde di
dimensione (m × n), mentre b ≥ 1 rappresenta il ritardo al di sotto del quale nessuna
variabile esogena produce effetti sulle endogene; ζ(t) è un processo stocastico vettoriale
di tipo white-noise, con componenti di media nulla e matrice di varianze e covarianze
Ψ(τ) = M[ζ(t)ζ(t+τ)′] = 0 per τ ≠ 0 e Ψ(τ) = Ψ non singolare per τ = 0.
Le costanti r ed s rappresentano rispettivamente gli ordini delle componenti di media
mobile (MA) ed esogena (e quindi il lag massimo considerato nel modello).
Una notazione più compatta è ottenuta facendo uso dell’operatore di back-shift B, tale
che B[η(t)] = η(t-1), e definendo le seguenti matrici di operatori polinomiali
r
s
β(B) = ∑ βj Bj ,
γ(B) = ∑ γj Bj ,
j=0
j=0
con β0 = I. Gli elementi βik(B) e γik(B) sono operatori polinomiali rispettivamente di
ordine 0 ≤ rik ≤ r e 0 ≤ sik ≤ s. Il modello può allora essere scritto nella forma
β(B) η(t) = γ(B) b(B) ξ(t) + ζ(t) ,
(12)
con b(B) matrice diagonale contenente i ritardi di tempo individuali bj≥1 peculiari di
ogni variabile esogena.
A completamento del modello va aggiunta la seguente equazione di misura
y(t)  Λy 0  η(t) ε(t)
 +  .

 =
x(t)  0 Λx   ξ(t)  δ(t)
4
(13)
Riguardo alle condizioni di identificabilità, seguendo Bollen (1989) possiamo
distinguere l’analisi della parte strutturale da quella della parte di misura: per quanto
concerne la parte strutturale, (11) o (12), si rimanda a Zanella (1986), Boari (1991) e
Reinsel (1997).
Riteniamo comunque di dover segnalare che una classe più generale di modelli
stocastici è costituita dai cosiddetti ARMAX, che esprimono anche la componente di
rumore casuale sotto forma autoregressiva. Tuttavia, come è noto, ogni modello
ARMAX può essere approssimato, con sufficiente accuratezza, da un più semplice
modello ARX che, in fase di stima dei parametri, si presta direttamente all’uso delle
tecniche OLS. Si ricorda, inoltre, che anche i modelli lineari stocastici considerano le
variabili coinvolte come differenza dai corrispondenti valori attesi, supposti noti o,
almeno, stimati attraverso i dati.
Con riferimento invece alla concreta applicabilità di tale modello potrebbe apparire non
del tutto giustificato considerare, come implicano le precedenti (11)-(12), solo le
esplicative ξ(t) ritardate; ciò comporta infatti che le osservazioni raccolte sulle variabili
esogene al tempo t siano adoperate solo nelle analisi dal tempo (t+b) in avanti, ovvero
quando avranno avuto effetto. A tale proposito, però, si rammenta che i precedenti
modelli ARMAX sono in genere impiegati nella costruzione di algoritmi di controllo
stocastico, tipicamente a circuito chiuso (closed loop) o di retroazione, per i quali
ovviamente è improponibile la simultaneità degli effetti tra ingressi e uscite.
Al contrario la relazione (1), alla base dei modelli statici, ipotizza per le variabili latenti
anche relazioni simultanee ad esclusione, ovviamente, di quelle con sé stesse; si
suppone cioè che i livelli delle endogene η(t) dipendano da quelli delle esplicative, sia
endogene η(t) che esogene ξ(t), osservati all’istante t oltre che ad istanti di tempo
precedenti. Alla luce di queste considerazioni suggeriamo di riformulare la (11) come
segue:
β0 η(t) + β1 η(t−1) + … + βr η(t−r) = γ0 ξ(t) + … + γs ξ(t−s) + ζ(t),
*
(14)
*
dove, in questo caso, β0 = I − β0 ≠ I, avendo β0 elementi diagonali nulli, mentre nella
(12) va posto b(B) = I.
3.4 Un esempio: il modello strutturale dinamico del primo ordine
La forma più semplice di modello ARX multivariato di tipo (14) è quella che mette in
relazione il vettore delle variabili endogene, e delle stesse ritardate di un periodo, alle
osservazioni delle variabili esogene ai tempi t e (t−1) e alla componente di disturbo ζ(t),
ovvero
β0 η(t) + β1 η(t−1) = γ0 ξ(t) + γ1 ξ(t−1) + ζ(t).
(15)
secondo cui gli operatori polinomiali βik(B) e γik(B) sono del primo ordine.
Questo semplice modello può essere scritto anche nelle seguenti forme equivalenti:
richiamando gli operatori precedentemente definiti, ovvero β(B) = β0 − β1B = I − β*(B)
e γ(B) = γ0 + γ1B, abbiamo le relazioni
η(t) = β*(B) η(t) + γ(B) ξ(t) + ζ(t),
(16)
utile in fase di stima per giustificare l’approccio dei minimi quadrati multivariati
ordinarie, e
η(t) = β−1(B) γ(B) ξ(t) + β−1(B) ζ(t),
(17)
5
che esprime il comportamento dinamico delle variabili endogene come funzione diretta
delle sole variabili esogene ξ(t) e di quelle di disturbo aleatorio ζ(t).
Le espressioni (16) e (17) possono inoltre essere poste anche in forma del tutto simile al
modello SDL precedentemente descritto. Ricordando, infatti, le posizioni (6) e definita
la matrice
−1
 β0 γ0   β1 γ1 
 
,
B* = 
0 I 0 I
la (16) può scriversi come
η*(t) = B*η*(t−1) + w*(t)
(18)
dove ora
ζ(t)
w*(t) =  .
 0 
La generalizzazione al caso di modello di ordine superiore al primo non verrà presa in
considerazione dal momento che, nelle applicazioni pratiche dei modelli strutturali
dinamici alle analisi psicometriche o socio-economiche, i dati disponibili si riferiscono
a serie storiche relative ad un limitato numero di indagini e presentano inoltre, in
genere, correlazioni seriali significative solo per ritardi non superiori ad un intervallo.
3.5 Rappresentazione State-Space e filtro di Kalman
Come ricordato al precedente paragrafo 3.2, i modelli strutturali con variabili latenti
trovano una naturale rappresentazione nella forma State-Space, per la quale le variabili
latenti η*(t) costituiscono il cosiddetto vettore di stato.
Considerando, per semplicità, la versione ARX del primo ordine della componente
strutturale, possiamo infatti riconoscere nella precedente (18) la forma usuale della
equazione di stato, completata dall’equazione di misura
y*(t) = Λ η*(t) + ε*(t),
(19)
dove
 Λy 0 
.
Λ=
 0 Λx 
In effetti il modello State-Space sarebbe espresso attraverso i seguenti due tipi di
equazioni: quella cosiddetta di stato (o di transizione)
η*(t) = Φ(t) η*(t−1) + w*(t)
(20)
e quella di misura (o di osservazione)
y*(t) = H(t) η*(t) + ε*(t),
(21)
caratterizzate dalle matrici di transizione Φ(t) e di misura H(t) con coefficienti non
costanti nel tempo (cfr. ad esempio Reinsel, 1997, cap. 7). Nelle applicazioni pratiche,
tuttavia, dette matrici sono in genere ipotizzate costanti al variare del tempo, anche se
non mancano esempi di modelli strutturali con matrici a coefficienti variabili, per
descrivere, ad esempio, l’evoluzione temporale della importanza attribuita dagli utenti
alle varie componenti della Customer Satisfaction, in relazione ai vari aspetti sondati
attraverso indagini periodiche (cfr. Mittal et al., 1999).
Le equazioni (20) e (21) trovano pertanto esatta corrispondenza nelle precedenti (18) e
(19), una volta che si considerino le posizioni Φ(t) = B* e H(t) = Λ.
6
Inoltre, il modello State-Space si presta tradizionalmente alla previsione dei valori
^ *(t+h|t) del vettore di stato η*(t), attraverso la forma ricorsiva del
correnti o futuri η
cosiddetto filtro di Kalman. In ipotesi di normalità esso consente, a partire dalle
osservazioni y*(1), …, y*(t) ed ipotizzando la conoscenza dei valori iniziali η*(0) e della
^ *(t+h|t) di minimo errore
loro matrice di varianze P0, di ottenere la previsione η
quadratico medio (vedi anche Otter, 1992).
Ciò comporta, ovviamente, di dover disporre di un numero sufficientemente elevato di
osservazioni e, soprattutto, dei valori η*(0) e P0 con cui inizializzare l’algoritmo di
stima.
In ambito tecnologico, dove detti modelli sono ampiamente impiegati per la costruzione
dei cosiddetti algoritmi di controllo di previsione, le precedenti condizioni sono in
genere soddisfatte: se la serie storica delle osservazioni è sufficientemente lunga si può
anche partire da condizioni iniziali di nullità, che simulano in effetti lo stato di iniziale
non funzionamento del sistema fisico oggetto di studio.
Invece, come precedentemente accennato, le analisi di carattere socio-economico
possono disporre in genere di serie molto limitate di dati, provenienti da indagini la cui
pratica non è ancora consolidata. Per tale motivo verrà proposta una procedura
semplificata che necessita di ipotesi meno restrittive.
4. Considerazioni sui modelli proposti in letteratura
4.1 Il problema dei dati panel
Parlando di modelli dinamici, per ottenere risultati attendibili è necessario che le
osservazioni siano omogenee nel tempo; la situazione migliore sarebbe quella di poter
disporre di rilevazioni fatte sempre sulle stesse unità statistiche (dati così caratterizzati
sono detti dati panel). In alcune situazioni però ciò risulta estremamente difficile da
realizzare per cui, per superare questo problema, proponiamo di definire un’unità
statistica alternativa, secondo la quale le osservazioni risultino omogenee (in genere tale
unità sperimentale può farsi corrispondere all’oggetto stesso di cui l’indagine si sta
occupando). Per chiarire il concetto si consideri il seguente esempio: volendo studiare
l’evoluzione nel tempo delle opinioni dei consumatori in merito ai vari prodotti di una
certa azienda (o delle aziende di un certo settore economico), si possono considerare
come unità statistiche, in luogo dei singoli consumatori (per i quali in generale non si
dispone di osservazioni ripetute nel tempo), i singoli prodotti o le singole aziende, di cui
si può stimare con sufficiente precisione il livello di gradimento specifico attraverso
campioni anche indipendenti (dati non panel) considerati nelle successive occasioni.
Questo problema, come precedentemente accennato, non si presenta invece nell’ambito
dei processi produttivi, dove sono tipicamente impiegati i modelli di processi stocastici
multivariati e per i quali il vettore delle caratteristiche oggetto di indagine (e controllo)
viene misurato addirittura una sola volta per ogni istante di tempo. La molteplicità di
informazioni, che consente la stima consistente dei modelli, è in questi casi garantita
dalla disponibilità di serie storiche sufficientemente lunghe, mentre nel caso delle
indagini socio-economiche questo non sempre avviene.
4.2 Modello di misurazione statico oppure variabile nel tempo
Ribadiamo che, nel corso della presente analisi, ci siamo occupati unicamente di
modelli di misura di tipo riflessivo (e non formativo), che trovano ampia applicazione in
ambito psicometrico e socio-economico. Inoltre, nel considerare la versione dinamica
7
dei modelli ad equazioni strutturali, si è ipotizzato che la struttura della componente di
misurazione non assuma carattere dinamico; in particolare le variabili osservabili sono
ritenute proporzionali alle corrispondenti latenti, con coefficienti ritenuti però, a
seconda del contesto applicativo, costanti oppure variabili nel tempo. Nel secondo caso
i valori dei coefficienti vengono utilizzati per interpretare l’eventuale mutamento
dell’importanza relativa delle variabili manifeste sulle corrispondenti latenti al passare
del tempo. Ciò accade, ad esempio, nel caso di questionari sottoposti per la valutazione
delle caratteristiche qualitative di un prodotto o servizio: il modello di misurazione a
coefficienti variabili permette di avere traccia del mutamento nel tempo dell’importanza
assegnata dai consumatori ai diversi aspetti presi in considerazione per definire i vari
concetti latenti. Un tale approccio è inoltre adatto per isolare gli effetti strettamente
collegati al concetto di ciclo di vita di un prodotto, quando le caratteristiche del prodotto
oggetto di analisi vengono saggiate, mediante questionario, in due differenti istanti di
tempo collocati al momento dell’acquisto e ad un istante di tempo successivo
(tipicamente un anno).
Un caso specifico in cui è invece ragionevole adottare modelli a coefficienti costanti si
presenta in relazione ad una sequenza di indagini dedicate a monitorare nel tempo il
livello di soddisfazione degli utenti di un certo servizio o di una categoria di prodotti.
4.3 Componente statica e componente dinamica del modello strutturale
La precedente (14) (e quindi la (15) che ne costituisce un caso particolare) può essere
interpretata alla luce delle seguenti considerazioni di carattere squisitamente applicativo.
Un approccio spesso seguito per lo studio dell’evoluzione delle caratteristiche misurate
attraverso questionari è quello di utilizzare, ai vari istanti di osservazione, opportuni
modelli statici (si vedano ad esempio le serie storiche degli indici di Customer
Satisfaction a tutt’oggi prodotti con i modelli ACSI e ECSI, rispettivamente per le realtà
statunitense ed europea). In un generico modello dinamico, invece, vengono presi in
considerazione anche i legami di ciascuna variabile con le proprie esplicative ritardate.
Per tale motivo la (14), contrariamente alla (11), introduce nel modello statico (1) le
esplicative ritardate e considera anche le relazioni simultanee, β0 ≠ I, tra le endogene
η(t). Ciò consente, in particolare, l’utilizzo di tutte le informazioni disponibili raccolte
con l’indagine al generico tempo t, mentre il ricorso a un modello di tipo (11)
comporterebbe l’accantonamento dei dati correnti e l’uso esclusivo di quelli storici. In
definitiva, quindi, considerare gli aspetti dinamici permette di studiare gli eventuali
contributi aggiuntivi delle ritardate sulle η(t). Peraltro notiamo che la relazione (14)
permette di esprimere le η(t) in funzione di tutte le η e di tutti gli ξ degli istanti
precedenti considerati. Si può comunque ottenere una notevole semplificazione
supponendo che ogni variabile sia in relazione esclusivamente con le proprie ritardate e
non con le ritardate delle altre variabili.
4.4 La componente deterministica
La (8), o equivalentemente la (9), esprimono la formulazione generale dell’equazione di
misura di un modello con variabili latenti, eventualmente dinamico, che prevede la
presenza di variabili manifeste sia riflessive che formative. In particolare la serie
deterministica u(t) può essere intrepretata come insieme delle manifeste formative o
esogene direttamente osservabili; in tale veste u(t) figura, propriamente, anche nella
equazione (10). Questa situazione si presenta anche in contesto tecnologico in
applicazioni quali, ad esempio, la calibratura o la taratura di strumenti di misura: la serie
8
deterministica u(t) rappresenta in tal caso la componente di riferimento delle prove
(livelli campione).
Qualora la componente deterministica u(t) non costituisca elemento intrinseco del
procedimento di misura, le matrici di coefficienti D* e H saranno ipotizzate nulle, come
nel caso dei livelli di gradimento espressi in un questionario destinato allo studio della
soddisfazione degli utilizzatori di un prodotto o servizio.
4.5 Proposta e procedura di stima di un semplice modello strutturale dinamico
Esposte le precedenti considerazioni, riteniamo di poter suggerire, per il caso specifico
dell’analisi continuativa della CS, l’adozione di un modello dinamico costituito da una
componente strutturale del tipo (16), che considera legami con le latenti ritardate al più
ad un periodo, e una componente di misurazione a coefficienti costanti, ovvero del tipo
(13).
Per la fase di stima, suggeriamo poi di considerare una procedura basata sulla effettiva
separazione del modello nelle sue componenti strutturale e di misura. La nostra proposta
è di adottare per la prima i minimi quadrati ordinari, una volta definiti (stimati) i
punteggi latenti (scores). Riguardo alla componente di misura proponiamo di adottare
l’approccio PLS, Partial Least Squares (Wald, 1985), che fornisce anche una soluzione
al problema della non osservabilità dei punteggi latenti precedentemente ricordato.
Come è noto, l’algoritmo PLS stima gli scores di una latente come combinazione
lineare delle corrispondenti manifeste, considerando anche le interrelazioni tra questa e
le latenti ad essa adiacenti e quindi, nel caso dei modelli dinamici, anche con quelle
attinenti l’istante di tempo immediatamente precedente quello della rilevazione corrente.
Di conseguenza tale meccanismo porterebbe a dover considerare e stimare in modo
ricorsivo tutte le ritardate, ovvero tutta la storia passata. Questo problema viene però
superato seguendo un approccio analogo a quello del filtro di Kalman, secondo il quale
il punto di partenza è fissato in un istante t0 in cui scores e struttura di correlazione tra le
latenti sono ipotizzati noti; poiché però nella realtà ciò non accade si utilizzano in
genere, per l’istante iniziale t0, le migliori stime disponibili (per i periodi successivi si
ricorda che la procedura classica del filtro di Kalman comporta, tra l’altro, la stima della
matrice di transizione).
Per la stima iniziale si suggerisce di impiegare solo la forma statica del modello, ovvero
l’equazione (1) e le relazioni (2) e (3) di misurazione, e adottare l’algoritmo PLS per la
stima degli scores iniziali. Per i periodi successivi si propone di utilizzare ancora la
procedura PLS, con riferimento però ad un modello strutturale statico arricchito con la
presenza delle opportune latenti ritardate, i cui scores sono però ritenuti noti. In tal
modo si ottengono, per il generico istante t, i punteggi di tutte le manifeste considerate
nell’equazione (16) da cui ottenere poi le stime, secondo i minimi quadrati ordinari, dei
coefficienti del modello strutturale. In altri termini l’algoritmo PLS viene utilizzato per
generare i punteggi delle latenti η(t) e ξ(t), ancora incognite all’istante t, sulla scorta
delle osservabili y(t) ed x(t) e dei punteggi η(t−1) e ξ(t−1) già stimati al periodo
precedente. In questo modo si considera quindi un particolare modello strutturale del
tipo (15) nel quale le latenti η(t−1) e ξ(t−1) sono ritenute note, ovvero per le quali il
modello di misurazione risulta definito attraverso una sola manifesta, osservata senza
errore di misurazione.
Vogliamo sottolineare, in conclusione, che l’algoritmo PLS è ampiamente adottato nella
stima dei modelli statici di CS (si veda per esempio, Fornell, Bookstein, 1982),
impiegati in particolare per l’ottenimento dell’indice nazionale americano (ACSI) e di
quello europeo (ECSI).
9
Riferimenti bibliografici
Boari G. (1991) Estensione multivariata del modello di controllo ad errore di equazione,
Statistica Applicata, 3(4), 385-396.
Boari G. (2001) A Dynamic Version of Structural Equation Models applied to National
Customer Satisfaction Indices, The 6th World Congress for Total Quality
Management, Saint Petersburg, Russia, 291-298.
Bollen K.A. (1989) Structural Equations with Latent Variables, Wiley, NY.
Fornell C., Bookstein F.L. (1982) Two Structural Equation Models: LISREL and PLS
Applied to Customer Exit-Voice Theory, Journal of Marketing Research, 19, 440452.
Hershberger S.L. (1998) Dynamic Factor Analysis, in: Marcoulides G.A. ed., Modern
Methods for Business Research, Lawrence Erlbaum Ass., London.
Mittal V., Kumar P., Tsiros M. (1999) Attribute-Level Performance, Satisfaction, and
Behavioral Intentions over Time: A Consumption-System Approach, Journal of
Marketing, 63, 88-101.
Molenaar P.C.M. (1985) A dynamic factor model for the analysis of multivariate time
series, Psychometrika, 50(2), 181-202.
Molenaar P.C.M., De Gooijer J.G, Schmitz B. (1992) Dynamic Factor Analysis of Nonstationary Multivariate Time Series, Psychometrika, 57(3), 333-349.
Otter P.W. (1986) Dynamic Structural Systems under indirect observation:
identifiability and estimation aspects from a system theoretic perpective,
Psychometrika, 51(3), 415-428.
Otter P.W. (1988) Structural Dynamic modelling in unobservable spaces of covariance
stationary stochastic processes, Journal of Time Series Analysis, 9(1), 59-72.
Otter P.W. (1992) Dynamic Models with latent variables from a system theoretic
perspective:theory and applications, Statistica, 52(3), 347-363.
Reinsel G.C. (1997) Elements of Multivariate Time Series Analysis, Springer Verlag,
Heidelberg.
Van Buren S. (1997) Fitting ARMA time series by structural equation models,
Psychometrika, 62(2), 215-236.
Vittadini G., Haagen K. (1994) Sul problema dell’osservabilità nei modelli strutturali
dinamici, Atti della XXXVII Riunione Scientifica SIS, Sanremo, 1, 247-258.
Wold H. (1985) Partial Least Squares, in: Kotz S., Johnson N. eds., Encyclopedia of
Statistical Sciences, Wiley, NY, 309-320.
Zanella A. (1986) Problemi metodologici nel controllo statistico dei processi produttivi,
Atti della XXXIII Riunione Scientifica SIS, Bari, 1, 111-135.
Zanella A., Boari G., Zappa D. (2003) Controllo Statistico della Qualità multivariato:
una presentazione sintetica, Serie E.P. n. 117, Istituto di Statistica, Università
Cattolica del S. Cuore, Milano, pp. 18.
10