Modellizzazione neurale di fenomeni cognitivi complessi: L`Effetto
Transcript
Modellizzazione neurale di fenomeni cognitivi complessi: L`Effetto
Modellizzazione neurale di fenomeni cognitivi complessi: L'Effetto Stroop Il simulatore PDP++ John Ridley Stroop nato il 21 Marzo del 1897. Muore all’età di 76 anni il 1 Settembre del 1973. Architettura neurale del modello di Cohen et al. (1990). 1 Sentiti ringraziamenti al professore Alessandro Londei e alla mia famiglia, che mi ha sempre sostenuto nei momenti di difficoltà, durante questo iter accademico triennale. 2 Indice Presentazione…………………………………………………………...………… 6 Capitolo 1. Introduzione: la scienza cognitiva neurale 1.1 La psicologia cognitiva e i modelli computazionali..................................... 9 Premessa……………………………………………………………………..……. 9 1.1.1 La scienza cognitiva computazionale………………………….…...10 1.1.2 La scienza cognitiva neurale e il connessionismo……………..…...12 1.1.3 Gli aspetti principali che differenziano i due approcci teorici…......13 1.2 I modelli connessionistici…………………………………………………..15 1.2.1 Il Contesto storico che ha permesso lo sviluppo dei modelli di tipo PDP…….……………………………………………………………....…..15 1.2.2 I modelli connessionistici di tipo PDP………………………..……19 1.2.3 Il perché dell’utilizzo dei modelli connessionistici…………….......21 1.3 Il software per la simulazione dei modelli connessionistici di tipo PDP…..22 1.3.1 Introduzione al software PDP++……………………….……….….22 1.3.2 Breve descrizione del funzionamento del software PDP++……......23 1.3.3 Il funzionamento biologico neuronale modellizzato per mezzo dell’algoritmo LEABRA………………………….……..………………....26 Capitolo 2. L’elaborazione automatica e controllata delle informazioni e l’effetto Stroop 2.1 L’ elaborazione automatica e volontaria delle informazioni…………..…..29 2.2 Il ruolo dell’attenzione nei processi di elaborazione e selezione della risposta……………………………………………………………………….…….31 2.3 La prova di interferenza colore-parola di Stroop…………………..……....32 2.3.1 Le origini storiche e strutturali del test dei colori di Stroop……......32 2.3.2 Evidenze sperimentali dell’effetto Stroop…………………….........33 2.3.3 L’attenzione per la spiegazione dell’effetto Stroop…………...…...35 2.4 Applicazione dell’effetto Stroop…………………………………………...36 2.4.1 La prova di interferenza colore – parola di Stroop, è uno dei compiti più frequentemente utilizzati per studiare l’attenzione selettiva nell’elaborazione visiva……………………………………….…………...36 2.4.2 Utilizzare l’effetto Stroop per lo studio della distinzione tra processi automatici e processi volontari………….…………………………………38 3 2.5 Studi di fRMI durante lo svolgimento della prova di interferenza colore – parola di Stroop…………………………………………………………………….40 Capitolo 3. La modellizzazione neurale della prova di interferenza colore – parola di Stroop 3.1 Le diverse interpretazioni per la spiegazione dell’effetto Stroop………….42 3.2 Il modello………………………………………………………………......45 3.2.1 L’architettura, i processi e la rappresentazione dell’informazione.45 3.2.2 I Meccanismi di apprendimento e l’andamento temporale dell’elaborazione…………………………………………………………...47 3.2.3 3.3 La variabilità e il meccanismo di selezione delle risposte………..49 La simulazione……………………………………………………………..51 3.3.1 La fase di apprendimento…………………………………………51 3.3.2 La fase di test……………………………….…………………….53 3.3.3 La simulazione dell’effetto Stroop di base………………………54 3.3.4 La simulazione degli effetti SOA: la velocità di elaborazione e la forza delle vie neurali…………………………………….………………...58 3.4 3.3.5 Gli effetti della pratica e la legge della potenza………….............60 3.3.6 L’attenzione e l’elaborazione…………………………….............62 Discussione dei risultati…….……………………………...........................64 3.4.1 Riconsiderazione dei processi volontari e automatici……………65 3.4.2 L’attenzione intesa come meccanismo di controllo dell’elaborazione………………………………………………………..….67 3.4.3 La natura continua dell’elaborazione…………………………….69 Capitolo 4. La critica principale mossa al modello dell’effetto Stroop 4.1 Introduzione………………………………………………………………..71 4.2 La modellizzazione di Spieler et al………………………………………...72 4.3 L’asimmetria tra le architetture neurali………………………………….....73 4.4 Il numero delle unità della rete influisce sulla performance del compito.....74 4.5 Conseguenze sperimentali della debolezza del modello…………………...77 4.6 Discussione dei risultati………………………………………………........79 Capitolo 5. La risposta degli autori alla critica di Spider et al. 5.1 Introduzione………………………………………………………………..84 5.2 Gli effetti della dimensione strutturale del compito nel modello originale..85 5.2.1 Assunzioni teoriche diverse, risultati sperimentali diversi…….…85 4 5.2.2 La modellizzazione del sistema attenzionale………………...…....87 5.2.3 Riconsiderazione delle simulazioni di Spieler et al…………...…..89 5.2.4 I molteplici fattori che influenzano la performance della modellizzazione neurale dell’effetto Stroop.................................................90 5.2.5 La condizione di lettura della parola e di denominazione del colore……………………………………………………………………….92 5.2.6 5.3 Il problema della dimensione strutturale del compito……………..93 Gli effetti causati dalla dimensione della struttura neurale e i meccanismi di inibizione……………………………………………………………………….......94 5.4 La lettura della parola versus la denominazione del colore………………..96 5.5 Discussione dei risultati……………………………………………………98 Conclusioni………………………………………………………………………100 Riferimenti bibliografici………………………………………………………...102 5 Presentazione. Il seguente lavoro ha come obiettivo quello di analizzare e descrivere un approccio teorico e sperimentale nuovo e avvincente, che sta fornendo alla psicologia sperimentale, ai ricercatori e alla comunità scientifica in genere, contesti sperimentali alternativi per descrivere e spiegare fenomeni di tipo cognitivo. Il concetto di ‘elaborazione distribuita in parallelo’ (PDP), in particolare, e l’approccio connessionista in generale, sono riusciti ad affermarsi e a contribuire nella ricerca psicologica con validi strumenti metodologici, alternativi ai classici strumenti utilizzati sinora per lo studio dei processi cognitivi normali e patologici. Uno degli strumenti metodologici più completi e più ambiziosi è il software di simulazione PDP++, progettato e sviluppato da O’Reilly e Munakata nel 2000, sulla base dei principi dell’approccio teorico PDP di McClelland e Rumelhart. Il PDP++ è uno strumento metodologico alternativo di ricerca sperimentale, per l’implementazione e l’applicazione di processi percettivi e/o cognitivi. I risultati del simulatore possono essere facilmente confrontati con i risultati di altre ricerche sperimentali, che adottano metodologie di ricerca diverse da quella qui considerata. In ambito psicologico sono state proposte varie modellizzazioni di processi cognitivo - percettivi, fra cui la modellizzazione fatta da Cohen et a., sulla distinzione tra i processi volontari e automatici, usando il modello dell’effetto Stroop. Per fornire al lettore una conoscenza generale dell’approccio teorico PDP, e per introdurre il software PDP++ è stato necessario dedicare ad essi un intero capitolo introduttivo, ovvero il primo capitolo. Il secondo capitolo è focalizzato sulla descrizione del sistema cognitivo complesso, dell’attenzione e dell’elaborazione automatica e volontaria delle informazioni, necessario agli esseri umani per interagire con il mondo e per gestire la grande quantità di informazioni che ne derivano. Questa seconda parte del lavoro si conclude con la spiegazione della prova di interferenza colore – parola di Stroop, e con i possibili ambiti di applicazione del compito. Il terzo capitolo è stato dedicato alla proposta sperimentale di Cohen et. al. di modellizzare il compito di Stroop, simulando l’andamento temporale di elaborazione delle informazioni e gli effetti di apprendimento coinvolti. Questa simulazione è stata realizzata integrando la teoria dei meccanismi distribuiti in cascata di McClelland, con l’algoritmo di 6 apprendimento backpropagation di Rumelhart et al. Il modello permette di simulare le performance classiche, riscontrate durante lo svolgimento del compito Stroop dai soggetti umani; inoltre, per mezzo della variazioni della struttura del compito Stroop, è stato possibile simulare alcuni aspetti della performance grazie alla manipolazione della presentazione temporale degli stimoli, in risposta al tipo di informazione e alla pratica sostenuta. Il quarto capitolo è la critica di Spieler et al., alla modellizzazione e ai dati sperimentali riportati da Cohen et al. Gli autori della critica sostengono che il modello di Cohen et al. non riesce a cogliere le differenze dei tempi di latenza intercorrenti tra la lettura della parola e la denominazione del colore, quando le alternative di risposta sono superiori a due. Inoltre, la critica continua sostenendo che gli studi empirici suggeriscono che l’influenza prodotta dall’incremento della dimensione strutturale delle risposte, causa un aumento della differenza dei tempi di reazione delle performance, tra la denominazione del colore e la lettura della parola, durante lo svolgimento del compito Stroop. Pertanto, questa evidenza sperimentale, riscontrata in contesti di ricerca reali, è in diretta contrapposizione alla diminuzione della differenza dei tempi di reazione, prodotta e rilevata per mezzo dell’architettura neurale di Cohen et al. La quinta parte del lavoro sintetizza la risposta di Cohen et al. alla critica di Spieler et al., sostenendo che le simulazioni utilizzate per criticare il modello originale non implementavano meccanismi validi per spiegare gli effetti causati dalla dimensione strutturale del compito. Gli autori, quindi, propongono una nuova simulazione che implementa questi meccanismi, rilevando e presentando dei risultati migliori rispetto alle simulazioni di Spieler et al. Inoltre, gli autori continuano proponendo la modellizzazione di ulteriori fattori: questi fattori sono in grado di migliorare sensibilmente la qualità dell’adattamento del modello al contesto sperimentale reale. Gli autori del modello originale sono consapevoli del fatto che l’utilizzazione del feed – forward è stata una delle limitazioni più significative del modello originale. Gli autori, inoltre, discutono dei possibili aspetti che differenziano il processo di lettura della parola dal processo di denominazione del colore durante lo svolgimento del compito di Stroop. Sebbene sia possibile ipotizzare delle differenze tra le elaborazioni, gli autori sostengono che le differenze concettualizzate nel modello originale, non facevano riferimento ad una semplice dicotomizzazione dell’elaborazione automatica – controllata. 7 Il lavoro si conclude con delle riflessioni e delle critiche sulle varie modellizzazioni presentate, sostenendo comunque la necessità di continuare a produrre nuove modellizzazioni in ambienti computazionali artificiali, e confrontare i risultati ricavati in questi innovativi ambienti di ricerca con i dati sperimentali reali. 8 Capitolo 1. Introduzione: la scienza cognitiva neurale 1.1 La psicologia cognitiva e i modelli computazionali. Premessa. «Negli ultimi anni in Italia – scrive Parisi - l’uso dell’espressione “scienza cognitiva”, e in particolare dell’aggettivo “cognitivo”, sembrava fare riferimento a una molteplicità di aspetti del settore, (processi cognitivi, psicologia cognitiva, neuropsicologia cognitiva, tecniche cognitive), che inevitabilmente hanno causato, nel significato di questi termini, un progressivo diventare più vago e indefinito. Quindi, tutta questa ambiguità nei termini, non era coerente con la parola che la precedeva, “scienza”, che contrariamente fa riferimento alla precisione e all’univocità dei concetti.»1 Per chiarire questa ambiguità e incoerenza, è necessario analizzare l’espressione “scienza cognitiva”, facendo riferimento a due cose molto diverse tra loro. Le due scienze cognitive, che più evidenziano l’aspetto artificiale nei loro lavori di ricerca, sono meglio conosciute con il nome di scienza cognitiva computazionale e scienza cognitiva neurale. 2 Queste due scienze cognitive, come indica il medesimo autore, 3 «non sono soltanto due cose molto diverse tra loro, ma addirittura opposte l’una all’altra. Quando si parla di “scienza cognitiva” è necessario innanzitutto indicare quale tra le due si intende considerare.» Prima di trattare esplicitamente la discussione sulle due scienze cognitive, è necessario introdurre le seguenti caratteristiche, che descrivono e identificano le scienze medesime, in particolare, scrive Parisi: A) l’approccio è interdisciplinare, ossia coinvolge oltre alla psicologia anche altre discipline; B) l’approccio, per diverse ragioni, chiama in causa il computer; C) l’approccio è in contrapposizione al comportamentismo, ossia a quella scuola di pensiero che sosteneva la seguente assunzione: il comportamento degli organismi deve essere studiato limitandosi a ciò che è osservabile e misurabile, cioè agli stimoli e alle risposte. Invece, la scienza cognitiva, in contrapposizione, sostiene di dover studiare proprio quello che “sta in 1 Parisi, D. (1997). Scienza cognitiva oggi. Giornale Italiano di Psicologia, 24, pp. 475-492. Cf. Ivi. 3 Id. (1992). Contro “cognitivo”. Sistemi Intelligenti, 4, pp.159-165. 2 9 mezzo” tra gli stimoli e le risposte, spiegando il perché determinati stimoli provochino un certo tipo di risposte. Per mezzo di queste tre caratteristiche è possibile identificare il tipo di scienza cognitiva e risolvere il problema dell’ambiguità e dell’incoerenza. E’ necessario, comunque, riformulare i tre punti sopradescritti in termini di domande: A) Quali discipline sono coinvolte nelle scienze cognitive? B) In che modo e perché il computer è chiamato in causa dalla scienza cognitiva? C) Come si deve studiare, secondo la scienza cognitiva, quello che “sta in mezzo” tra gli stimoli e le risposte?. Rispondere a queste domande significa identificare e diversificare le due scienze cognitive, e quindi rendersi conto che le due scienze cognitive sono molto diverse tra loro. 1.1.1 La scienza cognitiva computazionale. La scienza cognitiva computazionale è nata con la “rivoluzione cognitiva” anticomportamentista, cominciata negli Stati Uniti alla fine degli anni cinquanta del secolo scorso. La scienza cognitiva computazionale è nata con le innovazioni tecnologiche dell’informatica, e in particolare con il computer, nel senso che essa è emersa sulla base dell’analogia tra la mente umana e il computer: la mente che corrisponde al software del computer, e il cervello e il corpo di un essere umano sono come l’hardware di un computer. Il software di un computer è un insieme di simboli e di regole (istruzioni), per manipolare i simboli in modo formale, considerando la forma e non il loro significato. Allo stesso modo, la mente umana è un insieme di simboli, rappresentazioni simboliche e regole. Quando la scienza cognitiva computazionale si occupa di significati, interpreta anche i significati come altri simboli. Agire su simboli in modo formale è definito “computare”. Quindi l’approccio computazionale ipotizza l’esistenza di una parziale analogia tra la mente umana e un sistema computazionale, come il computer. L’analogia tra la mente e il computer, come indica Parisi nel medesimo articolo, ha permesso alla scienza cognitiva computazionale di raggiungere due obiettivi. Il primo è stato quello di screditare il comportamentismo, criticando la scelta di non considerare la mente come oggetto di studio. Quindi è possibile occuparsi della mente senza perdere di scientificità, considerando l’analogia con il software del computer, che può essere studiato con precisione e oggettività; allo stesso modo, 10 anche la mente può essere studiata con lo stesso rigore. Un secondo obiettivo, è stato quello di tenere la scienza della mente ben separata dalle neuroscienze. Le neuroscienze si occupano del cervello, cioè dell’hardware del computer, la psicologia si occupa della mente, cioè del software. Allo stesso modo, la scienza del software del computer è concettualmente del tutto indipendente e autonoma dalla fisica, la quale si occupa dell’hardware del computer, così la psicologia è del tutto indipendente e autonoma dalle neuroscienze. Sulla base dell’analogia mente – computer, è nata la scienza cognitiva computazionale, in quanto approccio interdisciplinare, che si avvale dell’informatica in particolare. Il settore dell’informatica ha tentato di fornire al computer capacità e comportamenti tipici della mente umana, (produrre il linguaggio parlato, riconoscimento di oggetti, traduzione di testi da una lingua all’altra, fare piani di azione ed eseguirli, controllare e gestire un robot nell’orientamento spaziale fisico reale). Con questo interessamento da parte del settore dell’informatica, è nata l’Intelligenza Artificiale. Dall’altro lato, gli psicologi hanno cominciato a usare i concetti dell’informatica per analizzare, modellare e spiegare la mente. La modellizzazione era intesa in termini di modelli di elaborazione dell’informazione, la mente cioè veniva concettualizzata come un contenitore di rappresentazioni e regole, e il funzionamento della mente in termini di esecuzione di algoritmi. Inoltre, in quegli stessi anni è nata la linguistica generativa di Chomsky: una linguistica formale che considera il linguaggio come una capacità di combinare e manipolare simboli secondo regole o principi, che non tiene conto del significato dei simboli stessi - come fa il computer con i suoi simboli. Quindi, alla domanda di quali discipline sono coinvolte nella scienza cognitiva, si può rispondere indicando la psicologia cognitivista, che concepisce la mente come un sistema di elaborazione dell’informazione, in stretta relazione con l’informatica, l’intelligenza artificiale, la linguistica formale di Chomsky con la filosofia della mente e del linguaggio. Il collante che tiene insieme tutte queste discipline è l’idea di base secondo cui la mente sia, come il computer, un sistema computazionale. Alla domanda, “come viene chiamato in causa il computer?”, è possibile rispondere che il computer viene considerato come modello della mente. Infine, alla domanda: “come può essere studiato quello che “sta in mezzo” tra gli stimoli e le risposte?”, si può rispondere asserendo che la scienza cognitiva computazionale lo studia 11 costruendo modelli, che sono come gli algoritmi di elaborazione che vengono eseguiti dal computer, ignorando la macchina fisica che fa loro da supporto materiale. La scienza cognitiva computazionale, è stata il paradigma dominante fino alla metà degli anni ottanta. Poi le basi della scienza cognitiva computazionale iniziarono a scricchiolare, con la nascita di una nuova scienza cognitiva, quella neurale.4 1.1.2 La scienza cognitiva neurale e il connessionismo. Negli ultimi 15 – 20 anni, la scienza cognitiva computazionale è stata messa in crisi per tre diverse ragioni. La prima è che le scienze biologiche, in particolare le neuroscienze, con le loro scoperte e con il loro rapido avanzamento, sostengono che non è accettabile studiare la mente, ignorando il cervello, e più in generale il corpo. La seconda ragione è che l’analogia tra mente e computer ha perso molta della sua credibilità, perché la mente umana non somiglia molto a un computer; la mente umana non è solo cognizione, intelletto, capacità, ma anche motivazioni, percezioni interne del corpo ed esterne. La terza ragione è che negli ultimi decenni è emerso un nuovo approccio per lo studio del comportamento, diametralmente opposto a quello della scienza cognitiva computazionale, quello del connessionismo. Il connessionismo, indica ancora Parisi, 5 usa le reti neurali come modelli per analizzare e spiegare il comportamento. Le reti neurali sono modelli teorici, strettamente quantitativi, direttamente ispirati alla struttura fisica del sistema nervoso e al suo modo di funzionare. Inoltre, sono modelli simulativi, cioè modelli che non sono espressi verbalmente oppure per mezzo di formule matematiche, ma sono modelli espressi come programmi per computer. Le reti neurali rimangono comunque un aspetto di un approccio scientifico più esteso e più ambizioso, che è quello della Vita Artificiale. Gli studiosi della Vita Artificiale simulano non solo il sistema nervoso dell’organismo, ma anche il suo corpo, il suo ambiente fisico e sociale, il suo materiale genetico ereditato, e la popolazione di cui l’organismo come individuo è un membro, una popolazione che evolve biologicamente e, nel caso degli esseri umani, anche culturalmente. Il connessionismo è alla base della nuova scienza cognitiva, quella neurale. Anch’essa è un approccio interdisciplinare, diverso da quello della scienza 4 5 Ibid. Parisi, D. (1997). Op. e pp. cit. 12 cognitiva computazionale: psicologia non cognitivista, neuoscienze, biologia in generale e, per gli aspetti quantitativi delle reti neurali, anche fisica e matematica. Il collante che tiene insieme tutte queste discipline è l’idea che il comportamento deve essere studiato usando lo stesso quadro di riferimento concettuale delle scienze naturali: le spiegazioni che propone sono basate sul fatto che gli effetti fisici sono causati da cause fisiche, e sono caratterizzate inevitabilmente da aspetti intrinsecamente quantitativi. Per quanto riguarda il computer, il suo ruolo si è spostato dall’essere il modello della mente, all’essere semplicemente uno strumento pratico per compiere delle simulazioni. Infine la scienza cognitiva neurale, tra gli stimoli e le risposte, pone come tramite il cervello e il resto del corpo, anziché considerare una mente fatta di puri simboli, come sosteneva invece la scienza cognitiva computazionale.6 1.1.3 Gli aspetti principali che differenziano i due approcci teorici. Anche se tra il connessionismo e le neuroscienze è presente una relazione molto stretta, questo non significa che la psicologia sia riducibile alle neuroscienze. Le neuroscienze tendono a studiare il sistema nervoso dal livello neuronale “in giù”, invece la psicologia lo studia dal neurone “in su”, interpretando il comportamento e la vita mentale come proprietà globali, di un sistema complesso come quello nervoso. Trattandosi di un sistema complesso, si tratta di un sistema le cui proprietà globali sono determinate dalle molte interazioni locali tra i suoi elementi, i neuroni. Anche conoscendo alla perfezione gli elementi e le loro interazioni locali, queste proprietà globali non sono né deducibili e né predicibili. Inoltre, il connessionismo propone di superare i modelli mentalistici del cognitivismo, e di interpretare direttamente i dati empirici del comportamento, e anche quelli della vita soggettiva interiore, per mezzo di modelli ispirati alla struttura fisica e al funzionamento del sistema nervoso. Quindi la scienza cognitiva neurale completa la rivoluzione scientifica nello studio del comportamento, facendo rientrare questo studio nell’ambito delle scienze naturali, sia dal punto di vista dei metodi che dei concetti.7 Nella seconda metà del novecento, il cognitivismo aveva discreditato ed escluso dalla comunità scientifica internazionale le scuole psicologiche che avevano 6 7 Ivi. Ibid. 13 dominato in Europa nella prima metà del novecento: gestaltisti, Piaget, Freud, Vygotsky. La scienza cognitiva neurale, invece, ripropone molti aspetti interessanti e importanti di queste scuole: la mente come sistema dinamico, nel senso della fisica, che caratterizza la psicologia della Gestalt, in quanto le reti neurali sono sistemi dinamici; l’epistemologia di Piaget: è possibile capire qualcosa solo se ne ricostruiamo la genesi, e in questo modo nelle simulazioni della Vita Artificiale, tutto emerge per evoluzione, sviluppo e apprendimento; la psicoanalisi con il primato del dinamico, nel senso delle motivazioni, sul cognitivo, considerando quindi l’ipotesi che la mente esiste indipendentemente e prima del linguaggio e dei simboli. Inoltre, con le simulazioni che hanno sempre come sfondo popolazioni di organismi che evolvono biologicamente, la Vita Artificiale, vede nelle esigenze della sopravvivenza/riproduzione, e nelle motivazioni che ne risultano, la base del comportamento degli organismi, e concorda con Vygotsky sull’importanza dell’ambiente esterno nello spiegare la mente. La diversità della scienza cognitiva computazionale con quella neurale è rintracciabile anche nell’ideologia sottostante ai due approcci. Nel primo caso è presente uno stretto legame con la modernità e con la razionalità; viene preferito e privilegiato l’intelletto sulle emozioni e la mente sul corpo, con una concezione della realtà come un sistema semplice e una visione della scienza come capacità di prevedere e di controllare. Nel secondo caso, invece, sono presenti della caratteristiche opposte in termini di post – modernismo: la razionalità è considerata come la “punta dell’iceberg” degli esseri umani, e non viene riconosciuto alcun primato dell’intelletto sulle emozioni e della mente sul corpo. La realtà è considerata, nel medesimo orientamento, un sistema complesso, e si riconoscono i limiti della capacità della scienza di prevedere e di controllare. Al livello internazionale, nel periodo di maggiore consenso alla scienza cognitiva computazionale, la ricerca era concentrata e aveva acquisito molto rapidamente interesse e prestigio nello studio del comportamento, perché era concomitante con le innovazioni tecnologiche del computer, da essa considerato come modello della mente, e inoltre per i tentativi precedenti, di mantenere la mente ben distinta dal cervello. La scienza cognitiva neurale sta facendo molta più fatica ad affermarsi, perché essa richiede che gli psicologi e gli altri studiosi del comportamento adottino un nuovo e poco famigliare metodo di ricerca, la simulazione al computer, e soprattutto perché fonde mente e cervello. 14 1.2 I modelli connessionistici. 1.2.1 Il contesto storico che ha permesso lo sviluppo dei modelli di tipo PDP. La psicologia cognitiva è nata tra il 1950 e il 1960, in seguito e in contrapposizione alla scuola di pensiero comportamentista. “Il concetto chiave di questo nuovo approccio era quello di considerare ed enfatizzare i meccanismi interni, che caratterizzano le capacità cognitive degli esseri umani, e in particolare l’utilizzo di modelli computazionali espliciti, per simulare per mezzo del computer gli aspetti che la caratterizzano, come per esempio la risoluzione dei problemi e il ragionamento matematico. Inizialmente, l’idea dominante della scienza cognitiva era basata sulla analogia uomo – computer: le capacità cognitive umane erano considerate simili se non del tutto uguali alle elaborazioni svolte dai computer. In questi sistemi di elaborazione, le operazioni di base erano caratterizzate dalla manipolazione di simboli, e le elaborazioni erano sequenziali e governate da regole, e organizzavano il tipo di elaborazione da svolgere. In questo contesto, i sistemi di produzione diventavano la cornice di lavoro dominante dei modelli cognitivi. I sistemi di produzione, erano delle elaborazioni caratterizzate da espressioni del tipo “se ….. allora”, attivate quando la condizione “se” veniva soddisfatta e conseguentemente a questa attivazione, venivano attivate ulteriori elaborazioni sottostanti, che caratterizzavano delle sottosequenze di produzione alla produzione principale. Queste produzioni gestiscono e controllano il flusso sequenziale di elaborazione. ”8 Nello stesso periodo in cui era dominante l’approccio teorico della analogia uomo – computer, era presente anche un considerevole interessamento per l’elaborazione in termini di funzionamento neuronale, in particolare con le seguenti trattazioni: a) “McCulloch e Pitts, modelli di elaborazione neuronale in termini di operazioni logiche di base”9; b) “la teoria di Hebb, l’apprendimento Hebbiano e le assemblee cellulari: le connessioni tra i neuroni vengono mantenute dall’attivazione 8 Randall C.O’Reilly e Yuko Munakata, (2000). Computational Explorations in Cognitive Neuroscience, A Bredford Book, Cambridge, MA: MIT Press, p. 8. 9 McCulloch, W. S., & Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity. Bullettin of Mathematical Biophysics, 5, 115 – 133. 15 sincronizzata dei neuroni, e le cellule che scaricano contemporaneamente si possono considerare connesse tra loro”10; c) “le ricerche di Rosenblatt, sugli algoritmi di apprendimento per mezzo di percettroni, utilizzando i segnali di errore”11. «Questi approcci computazionali contribuirono allo sviluppo del settore della neurobiologia, e in particolare l’idea che il neurone possa essere considerato come un’unità di elaborazione di informazioni; inoltre queste teorizzazioni, fornirono le basi dei principi di comunicazione e di elaborazione neuronale (potenziali di azione, sinapsi, neurotrasmettitori, canali ionici, ecc.)».12 Il periodo che vede predominante l’analogia del computer, si conclude con la pubblicazione del libro Percettroni di Minsky e Papert, nel 1969,13 in cui veniva sostenuto e dimostrato che questi tipi di modelli neuronali, avevano delle limitazioni computazionali significative, ossia non riuscivano ad apprendere le tecniche di risoluzione di molte classi di problemi. Nel frattempo, erano ancora pochi i gruppi di ricerca che nel 70 studiavano questi tipi di modelli di reti neurali, finché nell’80 alcune “innovazioni di tipo psicologico”14 e “computazionale”15, produssero un ritrovato interessamento delle reti neurali, in particolare per quanto riguarda le caratteristiche di dinamicità delle attivazioni. Rumelhart, Hinton, e Williams riscoprono “l’algoritmo di apprendimento backpropagation”16, (“riscoprono” perché era stato precedentemente scoperto da Bryson & Ho, 1969; Werbos, 1974; Parker, nel 198517). Successivamente, Rumelhart e McClelland et al., nel 1986, con la pubblicazione del libro L’elaborazione distribuita in parallelo,18 PDP, fornirono alle modellizzazioni neurali delle basi solide su cui appoggiarsi. L’algoritmo backpropagation risolveva le limitazioni dei modelli precedenti, fornendo alle reti neurali la capacità di apprendere qualsiasi tipo di funzione. Un ulteriore importante aspetto descritto e 10 Hebb, D.O. (1949). The Organization of behavior. New York: Wiley. Rosenblatt, F. (1958). The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, 65, 386 – 408. 12 Randall C.O’Reilly e Yuko Munakata, (2000). Op. cit., p. 9. 13 Minsky, M. L., & Papert, S. A. (1969). Perceptrons. Cambridge, MA: MIT Press. 14 McClelland, J. L., & Rumelhart, D. E. (1981). An interactive activation model of context effects in letter perception: Part 1. An account of basic findings. Psychological Review, 88(5), 375 – 407. 15 Hopfield, J. J. (1984). Neurons with graded response have collective computational properties like those of two – state neurons. Proceedings of the National Academy of Sciences, 81, 3088 – 3092. 16 Rumelhart, D.E., Hinton, G. E., & Williams, R. J. (1986b). Learning representations by back – propagating errors. Nature, 323, 533 – 536. 17 Bryson, A. E., & Ho, Y. C. (1969). Applied optimal control. New York: Blaisdel. 18 McClelland, J. L., & Rumelhart, D. E. (1986). A distributed model of human learning and memory. In J. L. McClelland, D. E. Rumelhart, & PDP Research Group (Eds.), Parallel distributed processing. Volume 2: Psychological and biological models. Cambridge, MA: MIT Press, pp. 170 – 215. 11 16 sostenuto nei libri orientati all’approccio di tipo PDP è quello di riconoscere l’importanza delle “rappresentazioni distribuite”19, perché questo tipo di rappresentazioni ha un consistente numero di vantaggi computazionali enorme rispetto alle rappresentazioni locali e simboliche. Con la teorizzazione della backpropagation sono state ipotizzate svariate modellizzazioni cognitive, raccolte e sostenute dal nuovo approccio teorico del connessionismo. Sebbene «il backpropagation sembrava rappresentare un passo in avanti, per molti sembrava essere un passo indietro perché non era chiaro come questa logica poteva essere implementata dai meccanismi biologici.»20 Quindi queste modellizzazioni cognitive neurali, basate sulla logica del backpropagation, senza avere delle chiare basi biologiche, hanno stimolato la motivazione di molti ricercatori dell’approccio computazionale a continuare a sostenere l’analogia del computer, giustificando allo stesso modo le limitazioni e le incoerenze che caratterizzano questo tipo di approccio. “Con l’influenza dei modelli della rete neurale, per comprendere le capacità cognitive degli esseri umani, stava crescendo l’interessamento da parte dei ricercatori di modellizzare direttamente la realtà biologica. Per proseguire con questa discussione è necessario identificare e definire alcune categorie di aspetti che hanno caratterizzato questo tipo di ricerche. Innanzitutto, è possibile fare una distinzione tra quei modelli biologici che enfatizzano l’apprendimento, e quelli invece che non lo considerano affatto. I modelli che ignorano il concetto di apprendimento sono dei modelli biofisici che considerano i singoli neuroni approcci teorici informazionali, per rappresentare l’elaborazione nei neuroni e nella rete neurale e ridefiniscono ed estendono il modello originale di Hopfield. Con questi tipi di modelli, la direzione intrapresa è quella di allontanarsi, erroneamente, dagli argomenti che riguardano le capacità cognitive umane. I modelli biologici che enfatizzano l’apprendimento, invece, considerano l’apprendimento precedente e più importante dei sistemi cognitivi, con un particolare accento sull’apprendimento di tipo Hebbiano. Infatti, una grande 19 Hinton, G. E., McClelland, J. L., & Rumelhart, D. E. (1986). Distributed representation. In D. E. Rumelhart, J. L. McClelland, & PDP Research Group (Eds.), Parallel distributed processing. Volume 1: Foundations. Cambridge, MA: MIT Press, Chap. 3, pp. 77 – 109. 20 Crick, F. H. C. (1989). The recent excitement about neural network. Nature, 337, 129 – 132. Vedi anche: Zipser, D., & Andersen, R. A. (1988). A backpropagation programmed network that simulates response properties of a subset of posterior parietal neurons. Nature, 331, 679 – 684. 17 quantità di ricerche di stampo neuroscientifico, sostengono l’idea che la legge di Hebbian tra i neuroni, considerata come meccanismo, sia presente nelle più importanti aree cognitive del cervello. Tuttavia l’apprendimento Hebbiano a livello computazionale risulta essere caratterizzato da grosse limitazioni: per esempio, non è stato molto utilizzato nella logica backpropagation per le modellizzazioni cognitive, perché in generale non riesce ad apprendere lo svolgimento di molti tipi di compiti. In aggiunta alle ricerche connessioniste e alle ricerche di tipo biologico delle reti neurali è possibile evidenziare che le basi matematiche in questo tipo di ricerche, possono essere considerate in termini statistici, ossia implementare alcune inferenze statistiche per sviluppare nuovi algoritmi di apprendimento”21. Quindi, riassumendo quanto detto precedentemente, con la prospettiva delle neuroscienze cognitive computazionali l’interesse è stato quello di comprendere il funzionamento delle capacità cognitive umane, per mezzo di una modellizzazione di tipo psicologico, cognitivo e computazionale, senza occuparsi troppo delle sottostanti componenti neurobiologiche; le modellizzazioni biologiche sono orientate alla costruzione di meccanismi di apprendimento computazionale, considerando poco l’aspetto cognitivo. Inoltre, questo tipo di approccio è interessato a sviluppare teorie dell’apprendimento caratterizzate da livelli di analisi computazionale di tipo statistico, senza avere troppo a che fare con il cognitivo e con la biologia. Concludendo, a livello internazionale, i ricercatori di questi diversi approcci sono consapevoli del fatto che per lo studio delle capacità cognitive umane è necessario consolidare e integrare questi principi di tipo biologico e computazionale. 21 Randall C.O’Reilly e Yuko Munakata, (2000). Op. e pp. cit. 18 1.2.2 I modelli connessionistici di tipo PDP. L’entusiasmo iniziale per le rete neurali, viene di solito attribuito alla pubblicazione, nel 1986, di un’opera in due volumi: L’elaborazione distribuita in parallelo: Studio delle mictrostrutture della cognizione.22 Il successo di queste nuove teorie e metodi di ricerca, è stato anche dovuto alla diffusione delle tecnologie di tipo computazionale, che hanno permesso alla modellizzazione in generale, di raggiungere validità e credibilità nel severo e complesso settore della ricerca psicologica. Sebbene ci siano stati forti “oppositori”, a sfavore dell’applicazione nella psicologia di approcci di tipo PDP,23 il concetto di elaborazione distribuita in parallelo in particolare, e il connessionismo in generale, sono riusciti ad affermarsi e a contribuire nella ricerca psicologica, con validi strumenti metodologici, alternativi ai classici strumenti utilizzati sinora per lo studio dei processi cognitivi normali e patologici. La modellizzazione di tipo PDP, è stata spesso considerata come una modellizzazione di semplici unità che riescono a trasportare in uscita una elaborazione, in un modo simile al funzionamento del cervello. «Questo approccio è fortemente criticato dal fatto che spesso la modellizzazione, non riesce a considerare molti aspetti biologici del cervello, perché caratterizzato da una plausibilità biologica insufficiente».24 Quindi, una delle critiche principali indirizzate a quei ricercatori che desiderano modellizzare i processi cognitivi per mezzo di questo tipo approccio, è quella di non fare spesso riferimento ai sottostrati biologici che la caratterizzano. Appare così necessario riempire queste insufficienze di plausibilità biologica, includendo ulteriori livelli biologici, che considerano maggiormente il reale funzionamento neuronale del cervello. I vari livelli di aspetti biologici che riesce a includere una modellizzazione sono strettamente connessi alla natura della rappresentazione dei processi cognitivi. I tipi di rappresentazione principali che sono stati discussi maggiormente durante gli anni sono quelli di tipo simbolico e subsimbolico. Il primo riconosce la modellizzazione connessionista, ma preferisce il modello di tipo localizzazionista. In contrapposizione, il secondo 22 Rumelhart, D. E. McClelland, J. L., & the PDP Research Group. (1986). Parallel Distributed Processing: Explorations in the microstructure of cognition, Cambridge, MA: The MIT Press. 23 Cf. Crick, F. (1989). Op. e pp. cit. 24 Crick, F. & Asanuma, C. (1986). Certain Aspects of the Anatomy and Physiology of the Cerebral Cortex. In D. E. Rumelhart, J. L. McClelland, & the PDP Research Group, op. cit., Vol. 2,pp. 333 – 371. 19 sostiene le rappresentazioni di tipo subsimbolico, che utilizzano modelli caratterizzati da rappresentazioni distribuite, e ipotizza che i vari livelli psicologici sono prodotti e possono essere spiegati per mezzo dei meccanismi biologici sottostanti. Questo secondo tipo di rappresentazione caratterizza le modellizzazioni di tipo PDP. Quindi, l’idea alla base di questo approccio è che la specie umana è in grado di elaborare efficientemente l’informazione, grazie alla capacità di svolgere contemporaneamente un numero elevato di operazioni cognitive, per mezzo di una rete distribuita, di incalcolabile dimensione, di processi neuronali localizzati nel cervello. Secondo i modelli PDP, la distribuzione dei processi in parallelo, riesce a spiegare nel modo migliore la velocità e la precisione dell’elaborazione umana dell’informazione. Uno dei principi di questa modellizzazioni è che nella struttura mentale degli individui, avvengano delle elaborazioni di processi in parallelo, per mezzo di strutture neurali complesse. Quindi nelle reti connessioniste (reti neurali), tutte le forme di conoscenza sono rappresentate all’interno della struttura neurale. Le assunzioni principali dei modelli connessionistici sostengono che l’elemento di base è rappresentato dal nodo, ciascuno connesso a molti altri nodi; le svariate configurazioni o patterns che emergono da queste interconnessioni di nodi, permettono all’individuo di organizzare in modo significativo la conoscenza. «Nel modello PDP proposto da James McClelland e David Rumelhart, la rete comprende unità simili ai neuroni, che non rappresentano di per sé concetti, proposizioni o altri tipi di informazione. L’idea fondamentale è che la conoscenza è rappresentata da configurazioni di connessioni, e non da specifiche unità […]. Il modello PDP […] è un modello ispirato al cervello, e si differenzia considerevolmente da un modello ispirato al computer: i differenti processi cognitivi sono espressione di differenti configurazioni di attivazione […].” In modo simile al funzionamento neuronale del cervello, “nel modello PDP le singole unità possono essere inattive oppure possono inviare segnali, eccitatori o inibitori ad altre unità […]: il modello utilizza i processi fisiologici del cervello come una metafora per comprendere la cognizione. Secondo il modello, le connessioni fra le unità possono essere caratterizzate da un grado variabile di eccitazione o di inibizione potenziali, anche quando le connessioni sono in stato inattivo. Più una particolare connessione è attivata di frequente, maggiore sarà la forza della connessione, indipendentemente dal fatto che essa sia di natura eccitatoria o inibitoria […].» 20 Per quanto riguarda la rappresentazione della conoscenza, il modello ipotizza che «non è in realtà un prodotto finale, ma piuttosto un processo o persino un processo potenziale […]»: l’immagazzinamento «non è considerato come una particolare configurazione di connessioni, ma piuttosto una configurazione di pesi delle connessioni eccitatorie o inibitorie, che la mente, (cervello), utilizza per ricreare determinate configurazioni quando viene stimolata a farlo […].” Inoltre, “secondo il modello PDP, le menti umane sono flessibili e non richiedono che tutti gli aspetti di una configurazione in input, corrispondano con precisione ad un certo pattern per poterlo attivare […]. Questa flessibilità cognitiva permette agli esseri umani di aumentare considerevolmente la capacità di apprendere nuove informazione».25 1.2.3 Il perché dell’utilizzo dei modelli connessionistici. Vi sono ancora molte dispute nel mondo scientifico, per quanto riguarda l’utilizzo nella psicologia di modelli connessionistici. E’ evidente comunque che la modellizzazione computazionale in generale, e la modellizzazione connessionista in particolare, sia un potenziale e innovativo strumento, per contribuire alla spiegazione del funzionamento dei fenomeni cognitivi complessi della specie umana. Nella seguente trattazione, saranno esposte le ragioni e i vantaggi dell’utilizzo dei modelli computazionali. Una delle prime ragioni è riconducibile al problema dell’elaborazione, perché un modello deve essere in grado di fornire una descrizione completa e sistematica, di come sono state ottenute in risposta alcune particolari configurazioni di risultati. Essere in grado di fornire queste descrizioni significa rivelare l’esatta natura del problema che deve essere risolta dal processo. Quindi, la caratteristica di una completa specificazione del problema è fondamentale per la modellizzazione, ed è uno degli aspetti principali dei modelli connessionistici. Il secondo vantaggio è quello di valutare direttamente la validità di una teoria, e di riuscire ad evidenziare e a descrivere esplicitamente tutti gli aspetti che caratterizzano una struttura sperimentale. “Questa caratteristica è una proprietà intrinseca di questo tipo di modellizzazioni, perché sono caratterizzate da una forma 25 Robert J. Sternberg. (2000). L’elaborazione in parallelo: il modello connessionista. Psicologia Cognitiva, trad. da Cognitive Psychology (1996). Rinehart & Winston. Piccin. Nuova Libraria s.p.a. Padova, pp. 256 - 260. 21 matematica di tipo esplicito, che fornisce risultati quantitativi e obbliga i ricercatori a considerare tutti gli aspetti che articolano una proposta teorica di riferimento”26. Il terzo vantaggio riguarda il tipo di spiegazione che riesce a fornire questo tipo di approccio. Questi modelli sono in grado di confrontarsi direttamente con i risultati empirici riscontrati nella realtà, permettendo ai ricercatori di avere una maggiore comprensione dei processi coinvolti, così come di comprendere maggiormente i comportamenti esibiti dai soggetti sperimentali. “Quindi, l’utilizzo di questo tipo di modelli permette di produrre nuove ipotesi computazionali sulle funzioni cognitive e sui sistemi neurali coinvolti”27. Queste ipotesi possono essere considerate come parte di un ciclo di un processo di costruzione e valutazione di una teoria. Le ipotesi computazionali sono inoltre necessarie per dare un senso e una struttura logica alla grande quantità di dati neurobiologici e cognitivi riscontrati nella realtà. Infine, la quarta ragione che giustifica l’impiego dei modelli connessionistici è quella di utilizzare le potenzialità che caratterizzano una metafora, per considerare e studiare i problemi di ordine cognitivo. “Le metafore computazionali possono essere considerate come parte del contesto della scoperta che ha caratterizzato le modellizzazioni connessioniste”28. 1.3 Il software per la simulazione dei modelli connessionistici di tipo PDP. 1.3.1 Introduzione al software PDP++. Con la crescente complessità delle modellizzazioni connessioniste è stato necessario progettare un ambiente interattivo di simulazione, per sviluppare e valutare i vari modelli connessionistici. “L’obiettivo principale raggiunto dai ricercatori che hanno sviluppato il software PDP++ è stato quello di integrare le potenzialità di modellizzazione offerte dal software, con un’interfaccia facile e comprensibile per l’utente. L’interfaccia grafica del software permette di accedere facilmente alla 26 Di Paolo, E. A., Noble, J., & Bullock, S. (2000). Simulation model as opaque thought experiments, Artificial Life Vii. Cambridge, MA: MIT Press, pp. 497 – 506. 27 Cleeremans, A., & French, R. M. (1996). From chicken squawking to cognition: Levels of description and the computational approach of psychology. Psychologica Belgica, 36(1 – 2), pp. 5 – 29. 28 Vallacher, R. R., & Nowak, A. (1997). The emergence of dynamical social psychology. Psychological Inquiry, 8(2), pp. 73 – 99. 22 struttura di dati e ai moduli di elaborazione che caratterizzano la simulazione. Inoltre, i ricercatori hanno sviluppato moduli grafici, per facilitare l’interazione con la struttura e con i contenuti delle reti neurali. Il software PDP++ è stato sviluppato sulla base dei principi della logica orientata agli oggetti, in cui ogni cosa nel software è un oggetto: le unità, le connessioni, gli strati della rete neurale, la rete neurale stessa, ecc.; quindi, il software PDP++ è una grande collezione di oggetti, che lavorano insieme per elaborare delle informazioni e produrre dei risultati. Il vantaggio principale di una logica orientata agli oggetti è il livello di flessibilità raggiungibile. L’alto livello di flessibilità è reso possibile grazie alla semplicità della logica sottostante: ogni operazione svolta dal software viene eseguita per mezzo dell’interazione di molteplici oggetti che costituiscono il software stesso. Quindi, per implementare nella simulazione una procedura di svolgimento di un compito è necessario sapere quali oggetti devono essere usati e come devono essere configurati”29. Per concludere, PDP++ nasce dall’esperienza di esperti nell’ambito delle neuroscienze. Si tratta di un’architettura specializzata e include librerie software per la gestione delle entità e dei processi coinvolti in una rete neurale, ed inoltre è dotato di un ambiente di scripting simile a MatLab. Il codice è aperto, scritto interamente in C++, consentendo così l’estendibilità. In realtà il PDP++ è pensato più per un utente finale che non per colui che ne dovesse sviluppare gli ambiti d’applicazione. Consente l’automazione dei processi e varie applicazioni di supporto per l’analisi e la visualizzazione dei dati. Lo sforzo fatto in questa direzione è andato tuttavia a discapito della indipendenza dei moduli di base, risultando ciò in una architettura non perfettamente stratificata. La complessità è inoltre aumentata dallo sforzo compiuto nel tentativo di realizzare un interfaccia grafica, i cui oggetti sono, per ragioni di efficienza, strettamente legati alle entità coinvolte nella simulazione. Tale struttura offre un notevole aiuto all’utente finale. 29 Chadley K. Dawson, Randall C.O’ Reilly, and James L. McClelland. (2003). Introduction to the PDP++ Software. The PDP++ Software Users Manual, Carnagie Mellon University, p. 2. 23 1.3.2 Breve descrizione del funzionamento del software PDP++. Le componenti principali che caratterizzano il software PDP++ per la simulazione di una rete neurale sono: la rete neurale stessa, caratterizzata da strati, unità, connessioni, ecc.; l’Environment, una sezione dedicata alla fase di apprendimento e di valutazione delle performance della rete; il Processing, per l’elaborazione dei processi di apprendimento e di valutazione delle performance della rete; il Logging, per la registrazione dei risultati dell’apprendimento e della valutazione delle performance riscontrate durante lo svolgimento di un compito. Inoltre l’utente può impostare diverse modalità di visualizzazione dei risultati: in grafici, tabelle di numeri o in griglie colorate, che rappresentano i valori riportati graficamente nella sezione relativa alla visualizzazione della rete neurale. “Come è stato discusso precedentemente, tutti gli elementi del software sono degli oggetti, quindi la rete neurale è un’insieme di oggetti che rappresentano gli strati, le unità e le connessioni della rete. Inoltre, vi è un’ulteriore tipo di oggetto che rappresenta la configurazione delle connessioni tra le unità dei diversi strati della rete. Il pattern di connessioni tra i diversi strati della rete, è identificato con il nome di Projection. Questo tipo di oggetto, è necessario per interfacciare l’utente con le connessioni della rete neurale, a un livello generico ed esplicito. La fase di apprendimento e di valutazione dei dati è stata implementata nell’oggetto Environment, “ambiente”. Il nome dell’oggetto “ambiente”, fa riferimento all’idea che sia possibile considerare una rete neurale come un organismo, che esiste e interagisce con un particolare ambiente circostante. L’oggetto ambiente descrive un piccolo mondo che gira intorno alla rete neurale. L’ambiente è caratterizzato da eventi, Events, che rappresentano una collezione di stimoli o patterns; per esempio in una rete backpropagation, un evento consiste in un pattern di ingresso e un pattern che rappresenta l’obiettivo che deve essere raggiunto dalla rete nella fase di apprendimento, per il corretto svolgimento di un compito. I patterns contengono una lista di valori che vengono impostati nelle unità di uno specifico strato della rete. La seconda componente di fondamentale importanza per la flessibilità che caratterizza il simulatore è costituita da una classe di oggetti, in grado di organizzare e gestire la struttura di un compito nella fase di apprendimento e di valutazione delle performance della rete neurale. 24 Questa funzione di gestione e organizzazione degli aspetti di un compito è resa possibile grazie alla struttura ad albero degli oggetti del processo di Scheduling, una struttura che riflette le differenti fasi temporali e i differenti tipi di elaborazione della rete neurale. Tra gli oggetti che costituiscono questa funzione di gestione e organizzazione, vi è un oggetto in particolare che fa riferimento ai principi della statistica. Questo oggetto permette di registrare i dati prodotti dalla funzione e di controllare i processi di apprendimento, per esempio utilizzando dei criteri di arresto dell’elaborazione. Le statistiche utilizzate da questo oggetto permettono di specificare quando un’elaborazione deve essere terminata, in base ai valori presenti nelle variabili che costituisco il processo di elaborazione. Inoltre, l’oggetto statistica può essere integrato e aggiunto a tutti i processi che contribuiscono all’organizzazione e alla gestione del compito, favorendo in questo modo l’accrescimento dei livelli di flessibilità del simulatore. Infine, i logging sono degli oggetti che permettono all’utente di registrare e visualizzare le informazioni prodotte dai processi. Le informazioni prodotte dai processi possono essere rappresentate da un numero, oppure da un’insieme di dati che descrivono intere epoche di apprendimento, oppure da informazioni di tipo statistico. Le informazioni immagazzinate dall’oggetto logging sono organizzate in righe e colonne. Ciascuna riga del ‘file log’ è caratterizzata da un identificatore che indica il nome del processo che ha prodotto i relativi dati”.30 Quindi, le principali componenti del software PDP++32 per la simulazione del funzionamento delle reti neurali sono: 30 Ivi, pp. 15 - 17. Cohen, J. D., Dunbar, K., & McClelland, J. L. (1990). On the control of automatic processes: A parallel distributed processing model of the Stroop effect. Psychological Review, 97(3), 332 – 361. In Chadley K. Dawson, Randall C.O’ Reilly, and James L. McClelland. (2003). The PDP++ Software ver. 3.0, Carnagie Mellon University. 32 25 - La Network, per la gestione degli strati, delle unità, delle connessioni ecc.: Figura 1 – 1, (Software PDP++). - L’Environment, per la gestione dell’apprendimento e del test della rete: Figura 1 – 2, (Software PDP++). - Il Processing o Scheduling di apprendimento e di test della rete, per determinare quanto a lungo la rete deve apprendere, con quale condizioni, ecc. - Il Logging per la visualizzazione dei risultati dei test e per la visualizzazione dei processi di apprendimento: Figura 1 – 3, (Software PDP++). 26 1.3.3 Il funzionamento biologico neuronale modellizzato per mezzo dell’algoritmo LEABRA. Il simulatore PDP++ implementa l’algoritmo Leabra, “Local, Error – driven and Associative, Biologically Realistic Algorithm”, che permette di simulare e valutare l’aspetto dinamico del processo neurale, e di ottenere grafici che descrivono gli aspetti temporali delle risposte neuronali della rete: Le basi teoriche e concettuali del modello Leabra sono una versione semplificata del modello originale di Hodgkin e Huxley31, vincitori nel 1963 del premio nobel in medicina e fisiologia per aver scoperto il funzionamento dei meccanismi ionici della cellula. - Contesto sperimentale reale - Contesto sperimentale artificiale (Simulatore PDP++) Figura 1- 4, “Tempi di reazione”32. Figura 1 – 5, (Software PDP++)33. Condizione di Conflitto Condizione di Congruenza Denominazione del colore Lettura della parola Figura 1 – 6, “Tempi di reazione”34. Figura 1 – 7, (Software PDP++)35. 31 Hodgkin, A. L., & Huxley, A. F. (1952). A quantitative description of membrane current and its application to conduction and excitation in nerve. Journal of Neurophysiology (London), 117, 500 – 544. 32 Dunbar, K., & MacLeod, C. M. (1984). A horse race of a different color: Stroop interference patterns with transformed words. Journal of Experimental Psychology: Human perception and Performance, 10, pp. 662 – 639. 33 Cohen, J. D., Dunbar, K., & McClelland, J. L. (1990). Op. cit. e pp. cit. In Chadley K. Dawson, Randall C.O’ Reilly, and James L. McClelland. (2003). Op. cit. e pp. cit. 27 Quindi, l’utilizzo di un modello di tipo LEABRA, rispetto ai modelli di funzionamento neuronali classici, permette, in ambito psicologico, di considerare il reale funzionamento delle attività neuronali di un individuo, e simulare deficit cognitivo – percettivi: per esempio, i risultati del rallentamento o della compromissione dei processi di elaborazione della struttura neuronale implementata, rispecchiano, in modo approssimativo, i disturbi cognitivi comportamentali degli individui. Il modello Leabra combina un apprendimento non supervisionato con un apprendimento guidato dall’errore. In particolare, “l’algoritmo Leabra, simula esplicitamente il funzionamento eccitatorio neuronale e le connessioni eccitatorie tra questi neuroni, senza però simulare esplicitamente il funzionamento inibitorio interneurale. L’attività eccitatoria viene controllata dal valore della media contenuta nella variabile k, del meccanismo inibitorio Winner – Takes – All”.36 L’algoritmo kWTA imposta la quantità di inibizione per ciascun strato a un valore k, tale che i valori k più grandi delle unità allo strato corrispondente, siano la condizione necessaria per permettere alle unità con queste caratteristiche di mostrare un’attivazione a valori maggiori di 0.25. In base a questo algoritmo, tutte le unità di uno strato ricevono la stessa quantità di ingressi inibitori per un dato intervallo di tempo; la quantità di inibizione può essere diversa per i diversi strati della rete neurale. L’algoritmo kWTA può essere visto e considerato come una scorciatoia, per implementare il funzionamento e le regole di inibizione interneurale. Inoltre, l’utente, per mezzo del parametro k dell’algoritmo kWTA, può impostare la quantità di attivazione che deve essere distribuita in uno specifico strato. 34 Glaser, M. O., & Glaser, W. R. (1982). Time course analysis of the Stroop phenomenon. Journal of Experimental Psychology: Human Perception and Performance, 8, pp. 875 – 894. 35 Cohen, J. D., Dunbar, K., & McClelland, J. L. (1990). Op. cit. e pp. cit. In Chadley K. Dawson, Randall C.O’ Reilly, and James L. McClelland. (2003). Op. cit. e pp. cit. 36 Randall C.O’Reilly e Yuko Munakata, (2000). Computational Explorations in Cognitive Neuroscience, A Bredford Book, Cambridge, MA: MIT Press. Vedi anche: Minai, A. A., & Levy, W. B. (1994). Setting the activity level in sparse random networks. Neural Computation, 6, pp. 85 – 99. 28 Capitolo 2. L’elaborazione automatica e controllata delle informazioni e l’effetto Stroop 2.1 L’elaborazione automatica e controllata delle informazioni. «Molti processi cognitivi – scrivono Schneider e Shiffrin - possono essere caratterizzati in termini di processi che richiedono controllo conscio, oppure di processi che invece non richiedono questo tipo di controllo».37 Si definiscono processi automatici tutte le attività che vengono eseguite dall’individuo in modo rapido e preciso, senza che vi sia la necessità di una programmazione consapevole e di controllo, nel corso della loro realizzazione. Un processo automatico presuppone un’allerta attentiva generica, con un dispendio minimo di risorse, in quanto è predisposto per sostenere compiti durevoli, cioè attività che possono essere mantenute per lungo tempo. Le attività linguistiche, la motricità spontanea, ma anche la lettura e la scrittura, sono possibili proprio perché i processi che li possibilizzano sono stati automatizzati. Quindi, i processi automatici si verificano senza controllo conscio e ricadono in gran parte al di fuori della consapevolezza, senza richiedere sforzi attentivi o intenzionali: sono inoltre basati su di un’elaborazione parallela dell’informazione; questo tipo di elaborazione è caratterizzata da molte operazioni simultanee, e sono relativamente rapidi. I processi controllati si basano sul controllo conscio; questi processi sono di natura seriale e richiedono un tempo relativamente lungo per la loro esecuzione. Quindi questo tipo di processi richiede un’attenzione non di tipo generica, ma bensì focale, poiché viene indirizzata volontariamente e la sua intensità può essere regolata intenzionalmente, ma provoca un elevato dispendio di risorse e per questo può essere impiegata solo per brevi periodi. Micheal Posner e Charles Snyder38 hanno rilevato tre caratteristiche dei processi automatici: sono inconsci, non sono intenzionali e consumano poche risorse attentive. Alcuni processi automatici non possono essere portati alla consapevolezza conscia […] altri possono invece essere controllati intenzionalmente. Molti processi 37 Schneider, W., & Shiffrin, R. (1977). Controlled and automatic human information processing. Psychological Review, 84, pp. 1 – 66. Vedi amche dei medesimi autori: Controlled and automatic human information processing: II. Perceptual learning, automatic attending, and a general theory. Psychological Review, 84, pp. 127 – 190. 38 V. Robert J. Sternberg. (2000). Processi controllati e processi automatici. cit., pp. 87 - 91. 29 che in una fase iniziale sono controllati, possono talvolta diventare automatici. In generale, i processi abitudinari e le procedure acquisite più di recente, sono “completamente automatiche” e più accessibili al controllo conscio. Il processo, per mezzo del quale una procedura passa dall’essere altamente conscia ad essere relativamente automatica è l’automatizzazione; l’automatizzazione si verifica come risultato della pratica, cosicché attività praticate di frequente possono essere automatizzate, diventando quindi altamente automatiche. «Gli effetti della pratica sull’automatizzazione seguono una curva negativamente accelerata, in cui gli effetti iniziali della pratica sono grandi […], e gli effetti successivi della pratica portano a differenze progressivamente minori nell’adattamento del grado di automatizzazione […]. I processi automatici governano generalmente compiti familiari e altamente soggetti a pratica, e i processi controllati governano compiti relativamente nuovi. Inoltre, la maggior parte dei processi automatici governa compiti relativamente facili e la maggioranza dei compiti difficoltosi richiede un’elaborazione controllata, per quanto con una sufficiente pratica, persino compiti estremamente complessi, ad esempio la lettura, possono diventare automatizzati. Dato che i comportamenti altamente automatizzati richiedano poco sforzo o controllo conscio, possiamo essere spesso impegnati in più comportamenti automatici contemporaneamente, ma possiamo di rado essere attivi in più di un comportamento controllato che richiede un impegno di una certa intensità».39 Riportiamo qui sotto in sintesi dei descrittori che caratterizzano i due tipi di processi. Automatici: Controllati: Inconsci Consci Preattentivi Attentivi Guidati dallo stimolo Guidati dal concetto Agiscono dal basso verso l’alto Dall’alto verso il basso A capacità di funzionamento illimitato A capacità limitata Agiscono in parallelo Agiscono in modo seriale Predisposti per le attività durature Disponibili per tempi limitati 39 Ivi. 30 Basso consumo di risorse Alto dispendio di risorse Rigidi, adatti per compiti ripetitivi Flessibili, impiegati in compiti creativi e in attività riflessive Richiedono un allerta generica Richiedano un allerta focale 2.2 Il ruolo dell’attenzione nei processi di elaborazione e selezione della risposta. Le capacità attenzionali per gli esseri umani sono fondamentali per la selezione dell’azione, nel senso che è possibile filtrare o attenuare gli stimoli irrilevanti e aumentare l’intensità dell’elaborazione per gli stimoli rilevanti, ai fini di un comportamento adattivo. Un approccio della funzione attenzionale, che tenta di considerare la necessità di scegliere un comportamento appropriato per le diverse situazioni, è quello della “selezione dell’azione”.40 Alcuni aspetti di questo approccio teorico sono condivisi e sostenuti nella “teoria della percezione di Gibson”41. “La teoria della selezione dell’attenzione considera la selezione attenzionale come un processo dipendente dalla necessità di avere ad ogni istante di tempo uno stimolo che guida il comportamento, piuttosto di considerare il processo come un risultato di una risorsa limitata specifica, oppure come un sistema strutturato “a collo di bottiglia”. «Questo approccio attenzionale basato sul comportamento, è stato applicato con successo per spiegare i cambiamenti della natura dell’elaborazione attenzionale rilevabile durante lo svolgimento di compiti, in cui sono richieste differenti tipi di risposte».42 Inoltre, ulteriori applicazioni sono state utilizzate per comprendere meglio “il funzionamento dei fenomeni attenzionali”43. I meccanismi attenzionali possono essere evitati per mezzo del processo di automatizzazione. Una breve e conveniente spiegazione del funzionamento del 40 Allport, A. (1987). Selection for Action: Some Behavioral and Neuropsychological Consideration of Attention and Action. In H. Heuer & A. F. Sanders (Eds.), Perspectives on Perception and Action. London: Lawrence Erlbaum Associates. Vedi anche del medesimo autore: (1993). Attention and Control: Have we been asking the wrong question? A critical review of twenty-five years, Attention and Performance XIV: Synergies in experimental psychology, artificial intelligence, and cognitive neuroscience. Cambridge, MA.: MIT Press. 41 Gibson J. J. (1979). The ecological approach to visual perception. Boston: Houghton Mifflin. 42 Brown T. L. (1996). Attentional selection and word processing in Stroop and word search task: The role of selection for action. American Journal of Psychology, 109(2), 265 – 286. 43 Allport, A. (1993). Op. e pp. cit. Vedi anche: Styles, E. A. (1997). The Psychology of Attention. Hove: Psychology Press Ltd. 31 processo di automatizzazione, è ipotizzare che gli esseri umani siano in grado di sviluppare delle capacità e dei comportamenti che, per essere eseguiti, non richiedono il coinvolgimento e la supervisione del sistema attenzionale. Pertanto, l’automaticità delle elaborazioni può essere interpretata in termini di apprendimento dinamico, che interagendo con l’attenzione, aumenta il livello di complessità del concetto di selezione dell’azione discusso precedentemente. Inoltre, è possibile ipotizzare che il sistema attenzionale sia caratterizzato da due tipi di attenzione: una di tipo dinamica e l’altra di tipo preparatoria. Prima che arrivi l’informazione da elaborare, l’attenzione preparatoria prepara per l’appunto la soglia di attivazione della regione coinvolta nell’elaborazione dei segnali che caratterizzano l’informazione. L’attenzione dinamica viene attivata da un segnale di attivazione, che compare dopo che un’elaborazione ha avuto inizio. Il modello di Cohen utilizza un’attenzione di tipo preparatoria. 2.3 La prova di interferenza colore – parola di Stroop. 2.3.1 Le origini storiche e strutturali del test dei colori di Stroop. Il CWT (COLOR-WORD TEST) o Test di Stroop risale agli esperimenti condotti da “J. Cattell, sulla registrazione delle differenze tra color naming e word creating”44 e alle ricerche di “E.R. Jaensch, sulle situazioni di interferenza create dal dover nominare il colore dell’inchiostro con cui è scritto il nome di un colore diverso”45. L’interferenza del colore incongruo nella lettura della parola, che riguarda una delle prove del test, è stata in seguito indicata come ‘reversed Stroop interference’ o ‘effetto Stroop’. Il Test di Stroop originale è un compito di denominazione: il soggetto deve dire il nome del colore con cui è scritta una parola. Ad esempio, se lo stimolo è la parola “casa”, il soggetto deve rispondere "rosso", che è il colore con cui è scritta la parola. Nel test di Stroop, però, le parole sono dei nomi di colori, ed il compito dei soggetti è quindi quello di denominare il colore con cui sono scritti; un esempio potrebbe essere la parola “verde”; il soggetto deve rispondere “blu”, perché blu è il colore dello stimolo. 44 45 Cattell, J. M. (1886). The time it takes to see and name objects. Mind, 11, 63 – 65. Jaensch, E. R. (1929). Grundformen menschlichen Seins. Berlin: Otto Elsner. 32 «Nel 1935 Stroop scoprì un effetto interferenza: rispondere al secondo stimolo, (dire “blu” se la parola è “verde”), è più difficile che rispondere al primo stimolo, (dire “rosso” se la parola è “casa”) in quanto la parola “verde” interferisce con il nome del colore. BLU VERDE GIALLO ROSA ROSSO ARANCIONE GRIGIO NERO PORPORA VIOLA BIANCO MARRONE Il test è costituito da 2 serie di 3 tavole: la tavola W o delle parole, composta da 100 parole disposte in una matrice 10x10, la tavola C o dei colori, composta da 100 quadrati di cinque colori, la tavola CW o dei nomi di colore, scritti con inchiostro di colore diverso. Quest’ultima tavola ha tutte le caratteristiche di una situazione conflittuale, perché la tendenza a leggere la parola, più forte, deve essere inibita a favore della tendenza, più debole, a nominare il colore. La seconda serie ha i medesimi stimoli, ma presentati in ordine inverso. Le tavole sono solitamente presentate nell’ordine W, C, CW e si valuta il tempo impiegato dal soggetto per completarle»46. 2.3.2 Evidenze sperimentali dell’effetto Stroop. Lo studio classico dei tempi di reazione, ossia del tempo impiegato dal soggetto normale e non deficitario per completare il test di Stroop, viene rappresentato dai seguenti grafici: 46 Stroop J. R. (1935). Studies of interference in serial verbal reactions. Journal of Experimental Psychology, 18, 643 – 662. 33 Figura 2.1 – Rilevazione sperimentale di Dunbar e MacLeod47: - - - Effetto di forte interferenza nella condizione di conflitto di denominazione del colore. Debole effetto del colore nella lettura della parola. La condizione di controllo non è influenzata dagli altri processi (per esempio leggere la parola “nero” scritta di colore nero). Significatività statistica riscontrata nella condizione di conflitto tra colore e parola (per esempio la parola “rosso” scritta di colore verde), e nella condizione congruente. Un’ulteriore caratteristica dell’effetto Stroop sottoposta ad analisi, è stata la velocità di elaborazione della lettura della parola, che risulta essere rapida e superiore al processo di elaborazione dell’informazione del colore, giustificando l’assenza dell’effetto di interferenza del colore nella lettura della parola. Questa caratteristica della velocità di elaborazione, è stata studiata da Glaser e Glaser48 nel 1982, variando indipendentemente le informazioni del colore e della parola, utilizzando il paradigma sperimentale della presentazione asincronizzata degli stimoli, SOA. Quindi, gli autori, considerando i dati originali della velocità di elaborazione rilevati durante lo svolgimento del test di Stroop, hanno progettato una situazione sperimentale dove era possibile presentare prima il colore e poi la parola, per verificare l’ipotesi della presenza, (come era logico pensare sino ad allora), di interferenza del colore sulla parola. Ciò che è mostrato sul grafico riportato di seguito, dimostra che il colore presentato 400 msec prima della parola, non ha teoricamente nessun effetto sulla lettura della parola. 47 48 Dunbar, K., & MacLeod, C. M. (1984). Op. cit. e pp. cit. Glaser, M. O., & Glaser, W. R. (1982). Op. cit. e pp. cit. 34 Figura 2.2 – Rilevazione sperimentale di Glaser e Glaser49: - - Per la lettura della parola, l’intervallo negativo del SOA significa che il colore precede la parola. Per la denominazione del colore, l’intervallo negativo del SOA significa che la parola precede il colore. Persino quando la parola viene presentata 400 msec prima, il colore non ha effetto sulla lettura della parola. Questi risultati invalidano il modello della velocità di elaborazione. Cong = Congruenza Conf = Conflitto Pertanto questi risultati sostengono l’ipotesi secondo cui il circuito neurale della lettura della parola, è più forte rispetto al circuito neurale della denominazione del colore; ipotesi questa, contestualizzata e trattata nell’implementazione del modello dell’effetto Stroop di Choen et al.50 2.3.3 L’attenzione per la spiegazione dell’effetto Stroop. I risultati del test di Stroop sono stati di solito spiegati e interpretati in termini di elaborazione automatica – controllata: per esempio questa distinzione è stata vivacemente sostenuta nei lavori del 1975 di Posner e Snyder51. Gli autori considerano la lettura della parola come un processo automatico, involontario e cognitivamente non impegnativo. La denominazione del colore è un processo controllato e richiede sforzo e supervisione attenzionale. I processi automatici, per la loro esecuzione, non richiedono attenzione, e il test di Stroop sembra suggerire che la lettura della parola viene eseguita anche quando l’attenzione sia utilizzata per ignorare o sopprimere attivamente l’informazione parola. Lo studio di questo fenomeno necessita di una teoria, o modello, in grado di fornire un compromesso a livello di interazione quantitativa tra l’attenzione, l’elaborazione e l’apprendimento. Le modellizzazioni connessioniste, caratterizzate da attivazioni delle unità e da pesi 49 Ibidem Cohen, J. D., Dunbar, K., & McClelland, J. L. (1990). Op. cit. e pp. cit. 51 Posner, M. L., & Snyder, C. R. (1975). Attention and cognitive control. In R. L. Solso (Eds.), Information processing and cognition (pp. 55 – 85). Hilsdale, NJ: Erlbaum. 50 35 di connessione, forniscono un fondamento quantitativo per lo studio dell’interazione dei suddetti fattori. Recenti ricerche hanno evidenziato che gli effetti automatici di lettura della parola, riscontrati durante lo svolgimento del compito di Stroop, sono influenzati dal contesto del compito, (vedi le ricerche di Dishon Berkovits e Algom52), dalla regolazione attenzionale, (vedi le ricerche di Besner, Slotz, e Boutilier53), e dalla compatibilità reciproca tra gli stimoli e del tipo di risposta richiesta, (vedi le ricerche di Durgin54 e di Zhang e Kornblum55). Queste evidenze sperimentali sostengono quella ipotesi che interpreta l’automaticità come un fenomeno relativo, piuttosto che assoluto, caratterizzato dalla codificazione di una particolare rappresentazione di stimolo – risposta, coinvolgendo direttamente l’attenzione e il contesto. Questa ipotesi risulta essere in contraddizione con quanto affermato dalle ricerche precedenti, che sostenevano che l’automaticità consisteva in una risposta statica e involontaria ad uno stimolo. I modelli connessionistici sono lo strumento ideale per studiare le più recenti concettualizzazioni dell’automaticità. 2.4 Applicazioni dell’effetto Stroop 2.4.1 La prova di interferenza colore – parola di Stroop, è uno dei compiti più frequentemente utilizzati per studiare l’attenzione selettiva nell’elaborazione visiva. Come è stato già accennato precedentemente, la difficoltà principale dei soggetti per lo svolgimento corretto del compito di Stroop sta nel prestare selettivamente attenzione al colore dell’inchiostro con cui è scritta la parola, tentando di ignorare al tempo stesso la parola, nome del colore. 52 Dishon Berkovits, M, & Algom (2000). The Stroop effect: It is not the robust phenomenon that you have thought it to be. Memory and Cognition, 28 (8), 1437 – 1449. 53 Besner, D., Slotz, J. A., & Boutilier (1997). The Stroop effect and the myth of automaticity. Psychonomic Bullettin & Review, 4(2), 221 – 225. 54 Durgin, F. H. (2000). The reverse Stroop effect. Psychonomic Bullettin & Review, 7(1), 121 – 125. 55 Zhang, H. Z., & Kornblum, S. (1998). The effects of stimulus – response mapping and irrelevant stimulus – response and stimulus – stimulus overlap in four – choice stroop tasks with single – carrier stimuli. Journal of Experimental Psychology – Human Perception and Performance, 24(1), 3 – 19. 36 Una spiegazione del perché il test di Stroop sia così impegnativo, potrebbe essere data dal fatto che, per la maggior parte delle persone adulte, leggere è diventato un processo altamente automatizzato, al di fuori del controllo conscio. Per questa ragione, è difficile impedire intenzionalmente di leggere e concentrarsi esclusivamente sulla denominazione del colore dell’inchiostro, senza prestare attenzione al nome del colore della parola scritta. Una spiegazione alternativa potrebbe essere quella sostenuta nel 1991 da MacLeod56, ipotizzando che l’output di una risposta si verifichi quando le vie di elaborazione mentale per produrre la risposta sono sufficientemente attivate. Nel test di Stroop, la parola colorata attiverebbe una via di flusso dell’informazione corticale per pronunciare quella parola, mentre il nome corrispondente al colore dell’inchiostro attiverebbe un’altra via per la denominazione del colore; queste due vie di attivazione simultanee interferiscono tra loro. In questa situazione ci vuole più tempo per arrivare alla forza di attivazione sufficiente per fornire la denominazione del colore, rispetto alla risposta, con essa in conflitto, di lettura della parola. Quando ai soggetti, per esempio, viene chiesto di leggere a voce alta la parola presentata: se questa denomina un colore ma è scritta in modo cromaticamente incongruente, “rosso” scritto in giallo, “blu” scritto in verde, vi è un rallentamento del tempo necessario alla lettura e un numero maggiore di errori rispetto a una condizione di congruenza. Quindi, è possibile ipotizzare che «il conflitto che caratterizza l’effetto Stroop è determinato dalla simultaneità, fattore temporale, delle informazioni da elaborare e da trascurare, il che, trattandosi di informazioni visive stabili nel tempo, obbliga l’attenzione a riverificare ripetutamente se si sta dirigendo sul target. […] Pertanto l’effetto Stroop può anche essere utilizzato per verificare una specifica ipotesi temporale […] cioè che la valutazione della durata temporale sia funzione della quantità degli eventi da elaborare: ossia, a parità oggettiva di durate, vengono soggettivamente giudicate più lunghe le durate in cui ci sono più eventi da elaborare, come ad esempio nella condizione significato – colore, rispetto alle condizioni solo colore».57 56 MacLeod, C. (1991). Half a century of research on the Stroop effect: An integrative review. Psychological Bullettin, 109(2), 163 – 203. 57 Robert J. Sternberg. (2000). Attenzione selettiva. cit., p. 101. 37 Inoltre, l’effetto Stroop è stato utilizzato, con i necessari adattamenti, per esempio in studi sul rapporto fra significato letterale e metaforico nella comprensione della metafora, o sull’interferenza figura – parola in ricerche sulla produzione linguistica. 2.4.2 Utilizzare l’effetto Stroop per lo studio della distinzione tra processi automatici e processi controllati. Cohen et al.58 hanno progettato e implementato nel simulatore PDP, la struttura del compito di Stroop, per lo studio della distinzione strutturale e cognitiva dei processi automatici e controllati. Come è stato spiegato precedentemente, il processo controllato viene coinvolto durante lo svolgimento del test di Stroop, nella situazione di interferenza tra la denominazione del colore con cui è stata scritta la parola, e il nome della parola facente riferimento ad un colore diverso rispetto alla tonalità dello stimolo visualizzato. Cohen et al.59 dimostrano come le attivazioni di tipo top-down, che provengono dalla corteccia frontale, possono attivare i processi controllati, prevalendo sulla superiorità delle informazioni di tipo associativo codificate dalla corteccia posteriore. 58 Cohen, J. D., Dunbar, K., & McClelland, J. L. (1990). On the control of automatic processes: A parallel distributed processing model of the Stroop effect. Psychological Review, 97(3), 332 – 361. Vedi anche : Cohen, J. D., Servan – Schreiber, D. (1992). Context, cortex, and dopamine: A connectionist approach to behavior and biology in schizophrenia. Psychological Review, 99, 45 – 77. Vedi anche : Cohen, J. D., Huston, T. A. (1994). Progress in the use of interactive models for understanding attention and performance. In C. Umilta, & M. Moscovitch (Eds.), Attentino and performance XV (pp. 1 – 19). Cambridge, MA: MIT Press. 59 Cohen, J. D., Dunbar, K., & McClelland, J. L. (1990). Op. cit., pp. 332 – 361. 38 Corteccia premotoria Corteccia Corteccia motrice primaria Corteccia somatosensitiva associativa somatosensitiva primaria unimodale Area Associativa anteriore Area associativa posteriore Corteccia prefrontale Corteccia visiva primaria Area associativa Corteccia uditiva limbica primaria Corteccia associativa uditiva unimodale Corteccia associativa visiva unimodale Figura 2.3 – Disegno schematico tratto dal manuale Principi di Neuroscienze60. Le cortecce associative occupano gran parte della superficie esterna dell’encefalo. Disegno schematico della superficie laterale del cervello umano, che mette in evidenza le regioni occupate dalle cortecce sensoriale e motrice primarie, delle cortecce motrici e sensoriali di ordine superiore, e delle tre cortecce associative. Questa ipotesi, suggerisce che le attivazioni frontali supportano l’indebolimento dei processi coinvolti nella denominazione del colore, facilitando lo svolgimento dei processi di lettura della parola. La corteccia frontale è quindi importante per questo processo di interferenza, perché permette di mantenere nel tempo lo stato di attivazione della rappresentazione attinente al compito. A livello strutturale, il modello è costituito da un gruppo di neuroni che hanno un’attivazione di tipo addizionale, (unità appartenenti ipoteticamente alla corteccia frontale). Questi neuroni supportano i processi del circuito nervoso deputato all’indebolimento delle attivazioni. E’ possibile, pertanto, applicare questo meccanismo per capire il ruolo della corteccia frontale nei molti altri compiti complessi, per esempio nel processo di 60 Eric R. Kandel, James H. Schwartz, & Thomas M. Jessell. (2003 ). Integrazione delle funzioni sensitive e motorie: cortecce associative e capacità cognitive cerebrali, Principi di neuroscienze. Edizione Italiana, Casa Editrice Ambrosiana, p. 347. 39 risoluzione dei problemi, ‘problem solving’. Processi complessi come il ‘problem solving’, potrebbero richiedere meccanismi di controllo in quei processi basati su attivazioni, permettendo la gestione di rappresentazioni che possono essere combinate in molteplici modi. 2.5 Studi di fRMI durante lo svolgimento della prova di interferenza colore – parola di Stroop. La maggior parte degli studi di rilevazione fRMI sostengono la cornice teorica concettualizzata nel lavoro del 1990 da Cohen et al.61 Diversi autori62 hanno riscontrato e dimostrato l’esistenza di una persistente attivazione della corteccia prefrontale (PFC), durante lo svolgimento del compito di Stroop. Queste rilevazioni dimostrano il ruolo centrale delle regioni frontali per il mantenimento della struttura del compito, ma non spiegano come le attivazioni frontali controllano l’esecuzione del compito. Negli studi di Banich et al.63 sono stati rilevati aspetti significativi sulla natura dell’influenza delle attivazioni frontali. Gli autori osservarono un aumento dell’attivazione della corteccia cingolare anteriore e della PFC dorsolaterale, nelle prove in cui vi era una condizione di conflitto. Inoltre, i medesimi autori, trovarono un’attivazione di conflitto con le attivazioni sopraindicate, localizzata in una configurazione di aree cerebrali, identificate dagli autori come aree coinvolte per l’elaborazione di ignorare una specifica dimensione del compito. L’attivazione di massima intensità delle aree deputate all’elaborazione di ignorare una specifica dimensione del compito, veniva osservata solo quando anche le aree frontali di 61 Cohen, J. D., Dunbar, K., & McClelland, J. L. (1990). Op. cit., pp. cit. Banich, M., Milham, M., Jacobson, B., Webb, A., Wszalek, T., Cohen, N., & Kramer, A. (2000; in press). Attentional selection and the processing of task – irrelevant information: Insight from fRMI examination of the Stroop task. In C. M. Casanova, & M. Ptito (Eds.), Vision: from neurons to cognition. Amsterdam: Elsaviar Science. Vedi anche: Banich, M., Milham, M. P., Atchley, R., Cohen, N. J., Webb, A., Wszalek, T., Kramer, A. F., Liang, Z. P., Barad, V., Gullett, D., Shah, C., & Brown, C. (2000a). Prefrontal regions play a predominant role in imposing an attentional ‘set’: evidence from fRMI. Cognitive Brain Research, 10, 1 – 9. Vedi anche: Banich, M., Milham, M. P., Atchley, R., Cohen, N. J., Webb, A., Wszalek, T., Kramer, A. F., Liang, Z. P., Wright, A., Shenker, J., & Magin, R. (2000b). fRMI studies of Stroop tasks reveal unique roles of anterior and posterior brain systems in attentional selection. Journal of Cognitive Neuroscience, 12, 988 – 1000. Vedi anche: Zysset, S., Muller, K., Lohmann, G., & von Cramon, D. Y. (2001). Color – word matching Stroop task: Separating interference and response conflict. Neuroimage, 13, 29 – 36. 63 Banich et al. (2000b). Op. cit. pp. cit. 62 40 controllo erano intensamente attivate. Questi risultati sembrano contraddire “le modellizzazioni classiche dell’effetto Stroop”,64 basate sul controllo attenzionale, perché supportano l’ipotesi secondo cui nelle aree cerebrali frontali di controllo è proprio il controllo attenzionale ad inibire direttamente le aree coinvolte all’elaborazione di ignorare una specifica dimensione del compito. Figura 2.4 – Risultati fRMI di Benich et al.65 Risultati fRMI di due condizioni del compito dello Stroop. Le aree evidenziate mostrano un aumento dell’attivazione nella condizione di conflitto, rispetto alla condizione neutrale. Nel compito di colore – parola è possibile osservare un’attivazione nella regione superiore del lobo parietale superiore sinistro, un’attivazione nella regione inferiore laterale sinistra del lobo parietale,e un’attivazione della PFC dorsolaterale. Ulteriori studi66, invece, hanno raccolto dati sperimentali a favore del coinvolgimento della componente di controllo attenzionale, durante lo svolgimento del compito Stroop: in particolare hanno riscontrato un aumento dell’attivazione, attribuibile alle differenze significative di interazione di tipo eccitatorio, esistenti tra il circuito neurale di denominazione del colore e di lettura della parola, e in generale un aumento dell’intensità di attivazione di tipo ‘top – down’, proveniente dalle unità colore della corteccia prefrontale. Infatti, gli autori hanno concluso che la spiegazione del fenomeno del controllo attenzionale è rintracciabile nella caratteristica delle connessioni eccitatorie di tipo ‘top – down’, in quanto durante lo svolgimento di una prova caratterizzata dal doppio compito, i medesimi risultano essere in competizione reciproca per la produzione della risposta e a prevalere è il compito dominante. 64 Cohen, J. D., Dunbar, K., & McClelland, J. L. (1990). Op. cit., pp. cit. Vedi anche: Cohen, J. D., Servan – Schreiber, D. (1992). Op. cit., pp. cit. Vedi anche: Cohen J. D., Huston, T. A. (1994). Op. cit., pp. cit. 65 Benich et al. (2000; in press). Op. cit. 66 Seth A. Herd, Randall C. O’Reilly. (2002). Accounting for Stroop Task Neuroimaging Data: Lateral Interactions & Frontal Rappresentations. Journal of Cognitive Neuroscience, 106, 585 – 592. 41 Capitolo 3. La modellizzazione neurale della prova di interferenza colore – parola di Stroop. 3.1 Le diverse interpretazioni per la spiegazione dell’effetto Stroop. Micheal Posner e Charles Snyder67 applicarono direttamente al compito Stroop la distinzione tra processi automatici e controllati, considerando le tre seguenti assunzioni: a) la lettura della parola è automatica, b) la denominazione del colore è controllata, e c) se le uscite di uno dei due processi è in conflitto, uno dei due processi sarà rallentato. Con questa interpretazione, è possibile riscontrare che la lettura della parola, è più veloce della denominazione del colore, perché la velocità di elaborazione di un processo automatico, è più rapida. Il risultato riscontrato dagli autori, è stato che il colore dell’inchiostro con il quale è scritta la parola, non ha effetti sull’elaborazione della parola, perché la denominazione del colore è controllata, e quindi volontaria; quindi il processo di denominazione del colore non viene attivato, quando il compito è di ignorare il colore e leggere la parola. E’ stato riscontrato, inoltre, che una parola in conflitto con il proprio colore, interferisce con la denominazione del colore, perché l’automaticità di lettura della parola interferisce con le uscite, provocando un rallentamento della risposta. Questa interpretazione del compito Stroop descrive un metodo generale che è stato usato per valutare l’automaticità di due processi arbitrari, A e C, sulla base della loro velocità di elaborazione e sul pattern di interferenza che influisce con la loro produzione. Se A è più veloce di C, e se A interferisce con C, ma C non interferisce con A, allora A è automatico e C è controllato. Questo ragionamento è valido se i processi A e C sono dello stesso tipo, e comparabili nella loro difficoltà intrinseca, e nel numero di elaborazioni necessarie. Questo metodo, utile per identificare se un processo è automatico oppure volontario, ha riscontrato ampia approvazione nella comunità scientifica. Comunque, le evidenze sperimentali di una recente serie di esperimenti, condotti da MacLeod e Dunbar,68 suggeriscono che questa interpretazione non fornisce una completa spiegazione delle caratteristiche dei processi coinvolti durante lo svolgimento del compito Stroop. 67 Posner, M. L., & Snyder, C. R. (1975). Op. cit. pp. cit. MacLeod, C. M., & Dunbar, K. (1988). Training and Stroop – like interference: Evidence for a continuum of automaticity. Journal of Experimental Psychology: Learning, Memory, and Cognition, 14, 126 – 135. 68 42 All’inizio della prova sperimentale ai soggettivi veniva insegnato ad utilizzare i nomi dei colori come parole, che facevano riferimento a delle forme che apparivano di colore neutro. Dopo 288 prove (72 prove per stimolo) i soggetti potevano eseguire questo compito di forma – nome senza difficoltà. A questo punto l’effetto che il colore dell’inchiostro aveva sulla denominazione della forma veniva valutato per mezzo di stimoli congruenti e in conflitto (per es. forma colorata in conflitto, oppure in congruenza con il nome corrispondente, precedentemente assegnato e appreso). Il colore dell’inchiostro produceva significativi effetti di interferenza e facilitazione. Invece, quando la prova veniva invertita e ai soggetti era chiesto di considerare il colore dell’inchiostro con il quale era disegnata la forma (prova di colore – nome), il nome della forma non aveva effetto. Inoltre, gli autori dell’esperimento avevano anche notato che i tempi di reazione della prova forma – nome (condizione di controllo), erano più lenti rispetto alla prova classica colore – nome (condizione di controllo). I risultati di questo esperimento sono pertanto incompatibili con la spiegazione del compito Stroop, in termini di elaborazione controllata versus elaborazione automatica. Questi risultati sono comunque coerenti con il seguente ragionamento: a) la denominazione del colore è più lenta della lettura della parola, b) la denominazione del colore è influenzata dall’informazione della parola stessa e c) il colore dell’inchiostro non influenza la lettura della parola, quindi la denominazione del colore deve essere un processo controllato. Ulteriori esperimenti degli autori rovesciano il ruolo della denominazione del colore: a) la denominazione del colore era più veloce della denominazione della forma, b) la denominazione del colore non era influenzata dalla forma del nome, c) il colore dell’inchiostro interferiva con (e facilitava) la denominazione della forma. Quindi, la conclusione dei suddetti risultati ipotizza che la denominazione del colore sia automatica. Per risolvere le incongruenze rilevate nelle ricerche sperimentali è possibile dicotomizzare i processi controllati e i processi automatici: supponendo che i compiti di lettura della parola, di denominazione del colore e di denominazione della forma, siano situati lungo un continuum. Questa ipotesi è suggerita dalle rispettive velocità relative delle performance e dai patterns degli effetti di interferenza, rilevati durante lo svolgimento di questi compiti. Quindi, la lettura della parola può interferire ed è più veloce rispetto alla denominazione del colore, così come la denominazione del colore può interferire e può essere più veloce 43 rispetto alla denominazione della forma. Questo continuum, quindi, ipotizza che la velocità di elaborazione e gli effetti di interferenza sono variabili continue che dipendono dal grado di automatizzazione del compito. Numerosi studi hanno dimostrato che la pratica produce gradualmente e incrementa continuativamente la velocità di elaborazione. MacLeod e Dunbar69 hanno esaminato questa variabile sottoponendo ai soggetti un apprendimento del compito di denominazione della forma, con 144 prove in 20 giorni. I tempi di reazione mostravano un graduale e progressivo miglioramento con la pratica. Gli effetti dei patterns di interferenza osservati dagli autori suggeriscono che la velocità di elaborazione e gli effetti di interferenza assumono una natura continua e sono strettamente dipendenti dalla pratica. Inoltre, i dati rilevati indicano che sia la velocità di elaborazione, sia gli effetti di interferenza possono essere usati per identificare se un processo è automatico o controllato. Queste osservazioni suggeriscono una serie di domande per quanto riguarda la relazione tra i processi di lettura della parole, denominazione del colore e denominazione della forma: - come interpretare i risultati conseguenti alla loro interazione? - Quali tipi di meccanismi possono descrivere i cambiamenti della natura continuativa della velocità di elaborazione e degli effetti di interferenza in funzione della pratica? - Quale tipo di relazione esiste tra l’attenzione e i fenomeni di interferenza e velocità? Il contesto teorico di questo articolo di ricerca è fondato sui principi dell’elaborazione distribuita in parallelo (PDP). Nell’articolo è stata descritta e ipotizzata una modellizzazione che simula l’effetto Stroop, in cui sia la velocità dei processi e sia gli effetti di interferenza sono fattori dipendenti da una variabile comune, denominata forza di elaborazione. Il modello propone un meccanismo costituito da tre attributi di automaticità: il primo, descrive come la forza varia in funzione della pratica; il secondo, mostra come la forza relativa di due processi in competizione, determina il pattern degli effetti di interferenza osservati; e il terzo, descrive come la forza di un processo, determina l’estensione, il tutto gestito per mezzo dell’attenzione. 69 Ibidem 44 Il modello ha dirette implicazioni sul metodo classico di discriminazione dei processi automatici da quelli controllati. Infatti, il modello mostra che le differenze della velocità di elaborazione e gli effetti di interferenza nel test di Stroop, possono emergere dalle differenze delle forze di elaborazione; quindi, questi fenomeni, non possono essere considerati criteri affidabili per la rilevazione della distinzione tra i processi automatici e i processi controllati. 3.2 Il modello. 3.2.1 L’architettura, i processi e la rappresentazione dell’informazione. Il modello è costituito da due vie neurali: una deputata all’elaborazione dell’informazione colore, l’altra deputata all’elaborazione dell’informazione parola. Entrambe le vie convergono in un meccanismo comune di risposta. Ciascuna via neurale è caratterizzata da un set di unità di input, un set di unità intermedie, e un set di unità di uscita. Ciascuna unità di ingresso delle due vie neurali è connessa con tutte le unità intermedie della corrispondente via neurale. Le unità intermedie di entrambe le vie neurali sono connesse con tutte le unità di uscita del modello. Figura 3.1- L’architettura neurale:70 le unità in basso sono le unità di ingresso, e le unità in alto sono le unità di uscita, di risposta. 70 Cohen, J. D., Dunbar, K., & McClelland, J. L. (1990). Op. cit. pp. cit. 45 Inoltre, ciascuna unità è caratterizzata da un errore sistematico (bias): un valore costante, aggiunto all’ingresso della rete. L’elaborazione di questo sistema è di tipo feed-forward. Gli stimoli sono generati dall’attivazione delle unità, al livello dell’ingresso della rete. L’attivazione, poi, è propagata alle unità intermedie e gradualmente alle unità di uscita. La risposta viene generata quando l’attivazione accumulata da una delle unità di uscita supera la soglia di attivazione dell’unità. Per il superamento della soglia di attivazione, il tempo di reazione è linearmente rappresentato dal numero di cicli di elaborazione impiegati. Ci sono, inoltre, due unità che identificano il tipo di richiesta del compito. Queste due unità attenzionali sono connesse alle unità intermedie delle due vie neurali di elaborazione, e sono impiegate per lo spostamento dell’attenzione su una delle due vie. I singoli stimoli e le risposte sono delle rappresentazioni discrete, con le quali è possibile rappresentare ogni colore, per mezzo di una singola unità di ingresso, della corrispondete via neurale del colore; inoltre, ogni parola, è rappresentata per mezzo di una singola unità di ingresso della corrispondente via neurale della parola. Similmente, ogni unità di uscita rappresenta una potenziale risposta della rete. Figura 3.2 – La modellizzazione neurale dell’effetto Stroop:71 - la PFC, la corteccia prefrontale, rappresenta le condizioni del compito Stroop: cn = denominazione del colore, wr = lettura della parola. - Le attivazioni dei patterns, corrispondono alla condizione .751 .262 .95 di conflitto della denominazione del colore. .95 - L’input del colore è rosso (r), l’input della parola è verde (G), e la condizione del compito, attivato dalla PFC, è la denominazione del colore (cn), .95 .95 .701 il quale influenza le unità nascoste per la denominazione del colore (le due unità a sinistra dello strato nascosto), attivando le unità di uscita della rete, la risposta in questo caso corrisponde a rosso (rd). La struttura di tipo top-down della corteccia prefrontale (PFC) ha ciascuna unità connessa al gruppo corrispondente di due unità dello strato nascosto: l’unità della denominazione del colore della PFC (cn) è connessa con le unità “g” e “r” dello 71 Ibidem. In Chadley K. Dawson, Randall C.O’ Reilly, and James L. McClelland. (2003). Op. cit. 46 strato nascosto, l’unità della lettura della parola della PFC (wr) è connessa con le unità “G” e “R” dello strato nascosto. Questa particolare struttura di connessioni è fondata e sostenuta dalla seguente ipotesi: la PFC, nella realtà umana, ha una struttura di rappresentazioni distinte per la denominazione del colore e per la lettura della parola. Per simulare questo sistema di mantenimento delle rappresentazioni, non influenzabile dalle diverse condizioni sperimentali, gli ingressi delle unità della PFC sono indipendenti ed esterni alla rete neurale del compito Stroop. 3.2.2 I meccanismi di apprendimento e l’andamento temporale dell’elaborazione Uno degli obbiettivi del modello è stato quello di spiegare la relazione tra l’apprendimento e l’andamento temporale dei processi psicologici coinvolti, durante lo svolgimento del compito Stroop. Il modello a cascata di McClelland72 è un meccanismo per la simulazione dell’andamento temporale dei processi psicologici. In questo sistema, l’informazione viene rappresentata per mezzo dell’attivazione delle unità di una rete multistrato generica, di tipo feed-forward. L’ingresso è un pattern di attivazione, presentato alle unità di livello più basso. Inoltre, quando un pattern di attivazione viene elaborato dalle unità al livello più alto, viene generata la risposta della rete. L’aggiornamento delle attivazioni delle unità è basato sulla somma pesata delle attivazioni dell’ingresso, ricevute dalle unità del livello precedente della rete. L’attivazione dell’unità è la media degli ingressi della rete in funzione del tempo. Questa funzione temporale della media stabilisce l’andamento temporale di elaborazione del modello. Un problema riscontrato utilizzando un modello a cascata è che la funzione di attivazione è di tipo lineare. Quindi, l’attivazione delle unità diventa una semplice somma pesata degli ingressi ricevuti. Una rete che assume una funzione di aggiornamento di tipo lineare, anche se è strutturata in strati multipli, è caratterizzata da una limitazione intrinseca delle operazioni fondamentali di elaborazione. Per risolvere questo problema, una rete neurale deve avere uno strato 72 McClelland, J. L. (1979). Parallel distributed processing: Implications for cognition and development. In R. G. M. Morris (Ed.), Parallel distributed processing: Implications for psychology and neurobiology. (pp. 8 – 45). Oxford, England: Oxford University Press. 47 di unità, tra le unità di ingresso e le unità di uscita, che genera una relazione di non linearità tra l’ingresso e l’uscita. Un secondo problema con il modello ‘a cascata’ è che il meccanismo di apprendimento non è soddisfacente. Per risolvere questi problemi, innanzitutto, è necessario introdurre nei processi una funzione di non linearità, che permetta di calcolare l’attivazione dell’unità, costringendo l’attivazione delle unità ad assumere un valore compreso tra 0 e 1. La risposta a un nuovo input può essere prodotta in un singolo passo di elaborazione, ad ogni livello, cosi ché gli effetti di un nuovo input, possono essere propagati nella rete, su tutti i livelli e in qualsiasi momento. Le proprietà dinamiche di un modello a cascata possono essere considerate solo se si assume che, dall’ingresso della rete alle unità, ci sia un’operazione di calcolo della media che consideri l’aspetto temporale prima di calcolare i valori dell’attivazione. E’ necessario, inoltre, assumere che i valori dell’attivazione abbiano un andamento asintotico, che dipende dal pattern di ingresso e dalla forza delle connessioni della rete. L’algoritmo di apprendimento utilizzato in questo modello, è il backpropagation, descritto da Rumelhart, Hinton, e William.73 Durante la fase di apprendimento può accadere che, per mezzo dell’aggiustamento delle forze di connessione, si riduce la differenza tra i patterns prodotti in uscita e il pattern desiderato, in risposta all’ingresso corrente. Questa differenza è una misura che descrive l’errore di performance della rete. La riduzione dell’errore è possibile attraverso la ripetizione ciclica dei seguenti passi: a) presentare un pattern all’ingresso che deve essere appreso; b) permettere alla rete di generare il suo pattern asintotico di uscita; c) elaborare la differenza tra questo pattern di uscita e il pattern desiderato; d) propagare all’indietro l’informazione derivata da questa differenza, a tutte le unità degli strati intermedi della rete; e) permettere ad ogni unità di aggiustare la sua forza di connessione, sulla base dell’informazione dell’errore. Ripetendo e applicando questa sequenza di passi, ad ogni membro di un set di pattern di input, la rete può essere allenata ad approssimare il pattern di uscita desiderato per ciascun pattern di ingresso. 73 Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Op. cit. pp. cit. 48 La non linearità dell’aggiornamento dell’attivazione è comparabile con l’algoritmo backpropagation. Inoltre, alle unità, è permesso di raggiungere i valori di attivazione asintotica, prima che l’informazione di errore venga elaborata al livello di uscita. 3.2.3 La variabilità e il meccanismo di selezione delle risposte. Nella realtà, gli individui, anche se sembrano avere una completa padronanza nell’esecuzione di un compito, esibiscono comunque variabilità nelle loro risposte. Questo può essere riscontrabile, per esempio, nella distribuzione dei tempi di reazione durante l’esecuzione di un compito. Per rilevare queste variabilità e per fornire al modello la dimensione di variabilità nei tempi di reazione, gli autori hanno introdotto nel modello il fattore di casualità, per mezzo di un rumore normalmente distribuito aggiunto all’ingresso della rete per ciascuna unità.74 In aggiunta alla variabilità nel processo di attivazione, la variabilità è implementata anche nel meccanismo di risposta. Per modellizzare la variabilità della risposta è stato assunto che la scelta di una risposta è basata su un percorso casuale (vedi gli studi di Link),75 o processo di diffusione, (vedi gli studi di Ratcliff).76 Per implementare questo assunto, ogni possibile risposta è stata associata ad un contatore, che riceve in ingresso le unità di uscita della rete. All’inizio di ogni prova tutti i contatori sono impostati a 0. Ad ogni passo di elaborazione, ciascun contatore aggiunge al totale una piccola quantità numerica. L’ammontare è causale e normalmente distribuito, con una media che è in funzione delle risposte della rete e con una deviazione standard prefissata. La media è proporzionale alla differenza tra l’attivazione della corrispondente unità e l’attivazione dell’unità più attiva. La risposta della rete viene generata quando uno dei contatori raggiunge il valore soglia. Nella simulazione, il valori di deviazione standard è impostato a 0.1 e il valore di soglia a 1.0. Questo meccanismo di riposta – selezione è articolato diversamente rispetto alle altre strutture della rete. Per esempio, il meccanismo di risposta – selezione è lineare, mentre le altre strutture della rete non sono lineari. 74 Cohen, J. D., Dunbar, K., & McClelland, J. L. (1990). Op. cit. e pp. cit. Link, S. W. (1975). The relative judgement theory of two choice response time. Journal of Mathematical Psychology, 12, 114 – 135. 76 Ratcliff, R. (1978). A theory of memory retrieval. Psychological Review, 85, 59 – 108. 75 49 Inoltre, nella seguente modellizzazione, è di fondamentale importanza il ruolo dell’attenzione, perché permette di selezionare uno dei due processi in competizione, in base alle caratteristiche del compito presentato alla rete. Quindi, per mezzo di questo meccanismo, uno dei due compiti richiede specificazioni per essere presentato all’ingresso del modello: “rispondere al colore” oppure “rispondere alla parola”. Gli autori assumevano che questa informazione viene resa disponibile dall’uscita di un altro modulo, che decodifica e interpreta le istruzioni del compito. Comunque, l’interesse principiale degli autori è focalizzato sul modo con cui l’informazione del compito, e la corrispondente distribuzione dell’attenzione, influenza l’elaborazione del circuito coinvolto per l’elaborazione del compito corrispondente. Quindi, uno degli obiettivi principali di questo modello è mostrare come l’attenzione interagisce con la forza di elaborazione, e riscontrare la stessa configurazione di effetti, osservati durante lo svolgimento del compito Stroop, dai soggetti sperimentali reali. L’informazione del compito è rappresentata nel modello allo stesso modo delle altre informazioni: un pattern di attivazione in un set di unità di elaborazione. Per questa ragione, sono state incluse nella rete due unità addizionali: una che rappresenta la richiesta di denominazione del colore e l’altra rappresenta la richiesta di lettura della parola. Quindi, un particolare compito da svolgere è specificato per mezzo di queste unità di richiesta (unità di demand). Le unità per la richiesta del tipo di compito gestiscono l’elaborazione aggiustando i livelli di attivazione delle unità delle due vie neurali principali: l’intervallo dinamico di risposta delle unità del compito corrispondente è regolato a metà; invece, le unità non corrispondenti al tipo di compito assumono un intervallo dinamico di risposta molto basso, in modo da renderle relativamente insensibili. Inoltre, gli autori assumono che la forza delle connessioni, dalle unità di richiesta del tipo di compito alle unità intermedie di ciascuna via neurale, sia impostata ad un intervallo intermedio, così ché le unità non corrispondenti alla via neurale assumano un valore più basso rispetto alle unità corrispondenti al tipo di compito. L’influenza regolatrice di questi livelli di attivazione è di tipo non lineare: la funzione di attivazione non lineare permette di sensibilizzare e regolare le unità, per mezzo di correzioni del livello base di attivazione. Questi aggiustamenti sono svolti per mezzo dell’attivazione delle unità di demand. 50 Le connessioni delle unità per la richiesta del tipo di compito, con le unità intermedie di ciascuna via neurale, permettono alle unità di demand di guidare i livelli di attivazione delle unità di ingresso, nella via neurale corrispondente. 3.3 La Simulazione. Nel seguente paragrafo, viene descritto il modo con il quale il modello simula il comportamento delle performance degli essere umani durante lo svolgimento del compito Stroop. Inoltre, vengono descritti i diversi metodi sperimentali utilizzati nelle diverse simulazioni. Le seguenti simulazioni forniscono una descrizione degli attribuiti che caratterizzano l’automatizzazione, in relazione alla pratica, e quindi rendono possibile evidenziare la relazione esistente tra l’attenzione e l’automatizzazione. Tutte le simulazioni sono caratterizzate da due fasi principali, una fase di apprendimento e una fase di test. 3.3.1 La fase di apprendimento. La fase di apprendimento per una rete neurale è necessaria affinché la rete medesima riesca a produrre risposte corrette, quando l’informazione è presentata in ciascuna delle due vie neurali di elaborazione. I patterns di apprendimento sono costituiti dalla specificazione del tipo di compito e dall’input della corrispondente via neurale. Per esempio, un pattern del tipo “rosso – colore – null”, attiva l’unità di ingresso rosso nella via neurale colore, e l’unità di richiesta del tipo di compito, a “risposta al colore”; nessuna attivazione, invece, per quanto riguarda le unità di ingresso per la parola. La rete, per produrre la risposta corretta allo stimolo, deve essere allenata per produrre un’attivazione dell’unità di uscita “rosso”. Coerentemente all’assunzione secondo cui, nell’esperienza di tutti i giorni, i soggetti umani raramente considerano il tipo di stimolo percepito, la congruenza e il conflitto degli stimoli non vengono considerati nella struttura dell’apprendimento. Al di fuori della fase di apprendimento, la forza delle connessioni tra le unità intermedie e le unità di uscita è piccola e impostata con valori casuali. Le connessioni tra le unità di ingresso e le unità intermedie, assumono valori compresi 51 tra più e meno 2; il valore generato al livello dello strato intermedio della rete corrisponde alle distinte rappresentazioni di ciascun input. Questa struttura di forze è coerente con l’assunzione secondo cui, i soggetti umani, sono capaci di codificare le informazioni sensoriali (per es. colori e forma delle parole), ad un livello intermedio di rappresentazione, ma non sono capaci di produrre e rappresentare le corrispondenti risposte verbali. L’influenza dell’attenzione è implementata per mezzo di parametri di deviazione delle unità intermedie e per mezzo di forze di connessione provenienti dalle unità di richiesta del tipo di compito. In questo modo, quando una specifica unità di demand è attivata, le unità intermedie della via neurale corrispondente assumono all’ingresso un valore di base di 0.0. Le unità intermedie della via neurale non corrispondente assumono invece un valore di attivazione di base molto più basso. I valori di attivazione di base delle unità della via neurale non corrispondente riflettono l’effetto di filtraggio per un dato compito, e permettono quindi di variare le forme degli esperimenti. In ciascuna prova di apprendimento, viene presentato alla rete neurale un pattern di input e a tutte le unità sono trasmessi i valori asintotici del pattern. Per ciascuna unità di uscita, vengono elaborati i diversi rapporti di comparazione tra i valori dell’attivazione attuale e i valori dell’attivazione desiderata. Questi rapporti vengono interpretati come segnali di errore, necessari per calcolare i cambiamenti che devono essere apportati alle forze di connessione, per mezzo della procedura di apprendimento backpropagation.77 I valori delle forze di connessione, delle vie neurali di elaborazione del colore e della parola sono modificabili e impostati dalla procedura di apprendimento sopradescritta. Le connessioni, tra le unità di richiesta del tipo di compito e le unità intermedie di ciascun circuito neurale, e i valori di deviazione, che descrivono l’ntervallo di attivazione delle unità, non sono modificabili. Il processo di apprendimento avanza fintanto che la rete neurale non è in grado di elaborare correttamente tutti gli stimoli test. Uno degli obiettivi del modello è stato quello di descrivere e rappresentare la relazione esistente tra gli effetti di pratica e l’automaticità raggiungibile. Nel contesto reale del compito Stroop, «la lettura della parola, viene considerata come un compito intensamente praticato dalle persone, molto più praticato rispetto al 77 Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Op. cit. e pp. cit 52 compito di denominazione del colore».78 Per modellizzare questa differenza di pratica, gli autori hanno differenziato la quantità di apprendimento per i patterns della parola rispetto ai patterns del colore.79 Ciascun pattern della parola viene presentato in ogni epoca, così che la probabilità che sia presentato un pattern del colore per una data epoca, è di 0.1. Questa condizione determina la quantità di presentazione dei patterns della parola: i patterns della parola sono presentati 10 volte più spesso rispetto ai patterns del colore; quindi, la rete neurale riceve un maggiore apprendimento, ossia molta più pratica per la lettura della parola, rispetto alla denominazione del colore. Alla fine dell’apprendimento, per mezzo della modalità di visualizzazione grafica delle connessioni, viene mostrato che la forza delle connessioni del circuito neurale della parola è più forte rispetto al circuito neurale del colore. Figura 3.2 – La modellizzazione neurale dell’effetto Stroop:80 Sebbene la differenza tra le attivazioni delle unità, della lettura della parola (l’unità “G” del circuito neurale di lettura della parola), e della denominazione del colore (l’unità “g” del circuito neurale della denominazione del colore), non sia grande, essa permette comunque di riprodurre l’effetto di superiorità di lettura della parola. Per ulteriori chiarimenti delle altre parti della rete neurale, vedi la didascalia della figura 3.2 3.3.2 La fase di test. La rete neurale è stata testata con 12 patterns di input corrispondenti a tutti i possibili stimoli di un compito Stroop, costituito da solo due possibili risposte (per es. “rosso” e “verde”). Questi patterns rappresentano, per ciascun ingresso (rosso o verde) e per ciascun compito (lettura della parola e denominazione del colore), 78 Brown, W. (1915). Practice in associating color-names with colors. Psychological Review, 22, 45 – 55. Vedi anche: MacLeod, C. M., Dunbar, K. (1988). Op. cit. pp. cit. Vedi anche: Posner, M. L., & Snyder, C. R. (1975). Op. cit. e pp. cit. 79 Cohen, J. D., Dunbar, K., & McClelland, J. L. (1990). Op. cit. e pp. cit. 80 Cohen, J. D., Dunbar, K., & McClelland, J. L. (1990). Op. cit. e pp. cit. In Chadley K. Dawson, Randall C.O’ Reilly, and James L. McClelland. (2003). Op. cit. e pp. cit. 53 stimoli di controllo, stimoli congruenti e stimoli in conflitto. La presentazione di uno specifico pattern consiste nell’attivazione della corrispondente unità di ingresso, oppure nell’attivazione di una delle due unità di richiesta del tipo di compito da svolgere, unità di demand. Per esempio, uno stimolo in conflitto, nella denominazione del colore (la parola Verde scritta in Rosso), è rappresentata per mezzo dell’attivazione dell’unità di ingresso colore rosso, dell’unità di demand, “in attesa del colore”, e dell’unità di ingresso della parola Verde. Ciascuna prova del test inizia per mezzo dell’attivazione della corrispondente unità di demand e, quindi, con la conseguente attivazione di tutte le unità a riposo. Questo tipo di attivazione, imposta la rete in uno stato di ready, pronta ad accogliere il compito corrispondente. A questo punto, le unità intermedie del circuito neurale selezionato e le unità di uscita assumono un livello di attivazione a riposo di 0.5; le unità intermedie del circuito neurale in competizione sono relativamente inattive: 0.01. Quando il pattern per la fase di test viene presentato, il sistema inizia a ciclare, fintanto ché l’attivazione accumulata da una delle unità di uscita non raggiunge la soglia di risposta che la caratterizza. Il numero dei cicli necessari per eccedere la soglia viene registrato dal simulatore, per essere poi considerato come tempo di reazione di quel particolare pattern di ingresso. Il sistema poi si resetta, per iniziare una prova successiva. I valori dei dati riportati alla fine della fase di prova, rappresentano la distribuzione dei tempi di reazione di 100 prove, eseguite per ciascuna condizione. Per semplificare la comparazione tra i tempi di reazione empirici riscontrati nella realtà e la performance del modello, i tempi di reazione della simulazione rilevati vengono trasformati. Per ciascuna simulazione, viene eseguita la regressione lineare dei dati della simulazione sui dati empirici. 3.3.3 La simulazione dell’effetto Stroop di base. La seguente simulazione, descrive e spiega la natura dei dati empirici dell’effetto Stroop di base: - la lettura della parola, è più veloce rispetto alla denominazione del colore. - La lettura della parola, non è influenzata dal colore dell’inchiostro con il quale è stata scritta. 54 Il colore della parola, apparentemente, non ha nessun effetto sulla quantità di tempo necessaria alla lettura della parola. I tempi di reazione della lettura della parola, nella condizione di conflitto e congruenza, sono uguali a quelli della condizione di controllo. Questo fenomeno era stato originariamente scoperto da Stroop.81 Inoltre, questo risultato è estremamente resistente a livello empirico, e difficilmente influenzabile. «Persino quando il colore con il quale è scritta la parola appare prima della parola stessa, non viene provocata interferenza con la lettura della parola».82 La parola influenza la denominazione del colore, quando la parola è in conflitto, e di conseguenza aumentano i tempi di reazione per la denominazione del colore rispetto alla condizione di controllo. Questo fenomeno è resistente e presente in quasi tutte le persone. L’effetto persiste anche quando il colore dell’inchiostro è presentato, per esempio, in una posizione leggermente spostata rispetto alla parola; la parola, continua ad interferire con la denominazione del nome del colore. Nella condizione di congruenza, la parola che facilita la denominazione del nome del colore, produce una diminuzione dei tempi di reazione rispetto alla condizione di controllo. Vi è meno facilitazione che interferenza: questa affermazione è stata valutata dai risultati delle ricerche di Dunbar & MacLeod,83 che avevano come obiettivo quello di valutare gli effetti di congruenza e incongruenza, riscontrando che la quantità di facilitazione è minore rispetto alla quantità di interferenza. I risultati della simulazione riproducono tutti gli effetti empirici riscontrati nei soggetti reali, durante lo svolgimento del compito Stroop. La lettura della parola è più veloce rispetto alla denominazione del colore, perché la differenza della quantità di apprendimento, distribuita tra i due circuiti neurali, permette al circuito di elaborazione dell’informazione parola di essere più forte e resistente rispetto al circuito di elaborazione dell’informazione colore. La rete è stata molto più allenata con gli stimoli parola che con gli stimoli colore, perché le unità del circuito neurale della parola hanno ricevuto molte più prove, incrementando così la propria forza di connessione. Questa differenza di apprendimento permette all’attivazione del circuito neurale di denominazione della parola, di accumularsi molto più velocemente nelle unità di uscita, rispetto al circuito di denominazione del colore. Quindi, più è veloce l’accumularsi 81 Stroop J. R. (1935). Op. cit. e pp. cit. Glaser, M. O., & Glaser, W. R. (1982). Op. cit. e pp. cit. 83 Dunbar, K., & MacLeod, C. M. (1984). Op. cit. pp. cit. 82 55 dell’attivazione nell’unità per la risposta corretta (le unità per la competizione vengono inibite), più è veloce il raggiungimento della soglia per la produzione della risposta. La forza del circuito neurale determina la velocità di elaborazione. La differenza nella forza dei due circuiti è anche spiegabile per mezzo della differenza degli effetti di interferenza, che caratterizzano i due tipi di compito. Il primo considera il fallimento dell’informazione colore per effetto del compito di lettura della parola. In questa condizione, l’unità di richiesta del tipo di compito imposta le unità intermedie del circuito di lettura della parola in uno stato di risposta, così che l’informazione è vincolata a percorrere questo circuito. Quindi, siccome l’attenzione non è posizionata sul circuito del colore, le unità del suddetto circuito rimangono in uno stato a riposo di non risposta, e l’accumulazione dell’informazione, al livello delle unità intermedie, è severamente attenuata. Inoltre, le connessioni tra le unità del livello intermedio e le unità di uscita del circuito neurale del colore sono indebolite, cosi che l’informazione accumulata nelle unità intermedie, trasmessa al livello dell’uscita, è molto più indebolita rispetto all’informazione che percorre il circuito della parola. Entrambi questi fattori diminuiscono l’impatto dell’informazione del colore sulla risposta della rete, favorendo l’elaborazione dell’informazione della parola. Conseguentemente, i tempi di reazione nel compito di lettura della parola sono minimamente influenzati dalla presenza dall’input congruente o incongruente del colore. I risultati differiscono quando il compito è quello di denominare il nome del colore con il quale è scritta la parola. L’attenzione è posizionata sul circuito corrispondente, così che le unità intermedie sono sensibilizzate alla risposta, permettendo all’informazione di scorrere il circuito, senza attenuazioni, fino al livello di uscita. In questa condizione, sono le unità del circuito neurale della parola ad essere relativamente insensibili alla risposta. Questa situazione è comunque condizionata dalla forza delle connessioni del circuito della parola, contribuendo ad una maggiore attivazione al livello delle unità intermedie: le connessioni, dalle unità intermedie alle unità di uscita di questo circuito, sono più forti rispetto al circuito del colore, così che l’informazione che viene accumulata nelle unità intermedie influenza maggiormente la risposta delle unità di uscita. Quindi, alcune informazioni percorrono il circuito della parola pur non avendo l’attenzione indirizzata su tale circuito. Questa informazione non è comunque sufficiente a determinare quale risposta deve essere prodotta, ma influenza i tempi di reazione 56 producendo interferenze e facilitazioni del compito di denominazione del colore. Questa elaborazione dell’informazione, nel circuito neurale della parola, senza che gli sia stata indirizzata attenzione, produce risposte involontarie di lettura della parola, e produce effetti di facilitazione e interferenza. Il quarto risultato riscontrato è che la quantità di interferenza è maggiore rispetto alla quantità di facilitazione. Nel modello ci sono due fattori che contribuiscono a questo risultato. Uno è dovuto alla non linearità della funzione di attivazione. Questo attributo impone un livello massimo di attivazione dell’unità di risposta corrispondente, caratterizzato da un andamento asimmetrico tra gli effetti di eccitazione ricevuti dal circuito neurale irrilevante, nella condizione di congruenza, e gli effetti di inibizione, ricevuti nella condizione di conflitto. Questa attivazione asintotica caratterizza le tre prove sperimentali di denominazione del colore. Come è stato precedentemente argomentato, la massima attivazione è riscontrabile nella condizione di congruenza, e la minima attivazione nella condizione di conflitto. Questi risultati, nella condizione di congruenza, sono causati dal circuito irrilevante perché contribuisce all’eccitazione dell’ingresso dell’unità di risposta. Invece, nella condizione di conflitto, il circuito irrilevante contribuisce a livello inibitorio, diminuendo l’attivazione degli ingressi delle unità di risposta. Inoltre, anche se l’incremento delle attivazioni degli ingressi della rete, nella condizione di congruenza, è uguale alla diminuzione delle attivazioni nella condizione di conflitto, l’effetto sull’attivazione delle unità di risposta non è simmetrico: l’inibizione ha un effetto maggiore rispetto all’eccitazione. Questa differenza è causata dalla funzione non lineare di attivazione delle unità, caratterizzata da una regione di non linearità, in cui l’aumento dell’attivazione nell’ingresso ha un effetto minore sull’attivazione, rispetto alla diminuzione. Un secondo fattore, che contribuisce all’asimmetria quantitativa dell’effetto di interferenza e facilitazione, è riscontrabile nella caratteristica negativa di accelerazione della curva, relativa all’attivazione, in rapporto ai cicli di elaborazione. Questa accelerazione negativa della curva costituisce una proprietà intrinseca dei meccanismi ‘a cascata’, la cui negatività causa una lieve asimmetria degli effetti di interferenza e facilitazione. Questa lieve asimmetria è un effetto debole e non sufficiente a influenzare la proporzione 2:1 dell’interferenza sulla facilitazione. 57 Quindi, la funzione logaritmica e il meccanismo ‘a cascata’ sono stati implementati nel modello per introdurre nei processi la caratteristica di non linearità e per permettere alle elaborazioni in generale (meccanismi di apprendimento e andamento temporale di elaborazione), e all’attenzione in particolare, di modulare le risposte delle unità delle vie neurali; non sono stati perciò utilizzati per produrre l’asimmetria tra l’interferenza e la facilitazione. La maggior parte delle teorie84 rifiuta l’ipotesi di un unico meccanismo di elaborazione responsabile degli effetti di interferenza e facilitazione, sostenendo invece che i meccanismi coinvolti siano rispettivamente distinti. Questo modello, di contrasto, sostiene e dimostra che è possibile considerare un unico meccanismo di elaborazione. 3.3.4 La simulazione degli effetti SOA: la velocità di elaborazione e la forza delle vie neurali. I risultati della precedente simulazione dimostrano che la forza delle vie neurali, condiziona e determina la velocità di elaborazione e le influenze tra i processi (interferenza e facilitazione). Nella seguente simulazione viene dimostrata l’esistenza di un ulteriore fattore, insieme alla velocità di elaborazione, responsabile degli effetti di interferenza e facilitazione. Questo secondo fattore è la forza della via neurale. I risultati della velocità di elaborazione dell’effetto Stroop ipotizzano che l’asimmetria dell’effetto di interferenza, tra la lettura della parola e la denominazione del colore, è causata dalla maggiore velocità di esecuzione del processo di lettura della parola. Se non vengono considerati altri fattori, è possibile assumere che l’effetto Stroop può essere invertito, se l’informazione colore viene presentata prima della parola. Glaser e Glaser,85 nelle loro ricerche, non avevano trovato alcun risultato a sostegno di questa ipotesi: l’informazione colore non interferiva con la lettura della parola, anche se l’informazione colore veniva presentata 400 ms prima dell’informazione parola. 84 Glaser, M. O., & Glaser, W. R. (1982). Op. cit. e pp. cit. Vedi anche: MacLeod, C. M., & Dunbar, K. (1988). 85 Ibidem. 58 Gli autori dell’articolo hanno simulato l’esperimento di Glaser e Glaser, attivando prima le unità di ingresso del colore e poi le unità di ingresso della parola. Il ritardo veniva impostato per mezzo del numero di cicli, corrispondente al paradigma sperimentale SOA, utilizzato nell’esperimento reale di Glaser e Glaser. Per simulare la riduzione degli effetti di interferenza e facilitazione, osservata nell’esperimento degli autori, a 0 ms di SOA, è stata incrementa la dimensione dell’effetto dell’attenzione di entrambi i circuiti neurali per mezzo della diminuzione dell’attività di riposo degli ingressi delle unità della rete (da –4.0 a –4.9). Quando il colore precede la parola, il modello mostra un lieve effetto del colore sulla parola, che, se messo a confronto con l’effetto della parola sul colore, risulta essere molto piccolo. Quindi il modello coincide con i dati empirici, suggerendo che la differenza della velocità di elaborazione non è l’unica e la principale causa dell’interferenza osservata durante lo svolgimento del compito Stroop. Infatti, il modello mostra che l’interferenza è sostanzialmente influenzata dalla differenza della forza di elaborazione: quando l’attenzione è rivolta al circuito neurale più debole (il colore), le attivazioni prodotte a livello dell’uscita sono minori rispetto a quando l’attenzione viene rivolta al circuito neurale più forte (la parola). Quindi, questo risultato dimostra che il circuito neurale più debole produce minore interferenza, indipendentemente dal tempo impiegato per lo svolgimento del processo di elaborazione. Tuttavia è riscontrabile una discrepanza tra il modello e i dati empirici. La simulazione mostra la stessa influenza del colore sulla lettura della parola, quando il colore è presentato sufficientemente prima della parola; invece, i dati empirici di Neumann86 indicano che il colore, quando viene mostrato prima della parola, è in grado di produrre una piccola quantità di interferenza con la lettura della parola. Una seconda discrepanza, rispetto all’esperimento di Glaser e Glaser: i soggetti, nella realtà, mostravano una piccolissima interferenza della denominazione del colore, quando la parola veniva presentata 200 ms prima rispetto al colore. Inizialmente, per spiegare questa interferenza, gli autori avevano ipotizzato che questo risultato era attribuibile agli effetti di strategia. In seguito, i Glasers hanno aggiunto che il manifestarsi di questo effetto poteva essere in parte dovuto al coinvolgimento di un processo di abituazione. Al modello non è stato implementato 86 Citato negli studi di Phaff, R. H. (1986). A connectionist model for attention: Restricting parallel processing though modulary. Unpublished doctoral dissertation, Unit of Experimental Psychology, University of Leiden, The Netherlands. 59 questo tipo di processo, ed è per questo motivo che la simulazione mostra una maggiore quantità di interferenza rispetto ai dati empirici rilevati. Per concludere, sebbene il modello non raccoglie tutti gli aspetti dei dati empirici, dimostra ed evidenzia chiaramente il punto centrale della questione, ossia che la differenza della forza di elaborazione è in grado di spiegare perché, presentando uno stimolo debole prima e uno stimolo forte dopo, la compensazione temporale tra le due presentazioni non ha effetto e fallisce a causa della differenza della velocità di elaborazione, in relazione agli effetti di interferenza e facilitazione. Gli effetti della pratica e la legge della potenza. Una delle principali proposte di questo modello è stata quella di mostrare come, al variare della quantità di pratica, varia la forza del circuito neurale, influenzando la velocità di elaborazione e gli effetti di interferenza; questi risultati sono stati osservati anche in contesti sperimentali reali. Numerosi studi hanno dimostrato che l’incremento e l’andamento della velocità di elaborazione, in funzione della pratica, può essere descritto per mezzo di una legge della potenza.87 Alcuni autori, hanno persino suggerito che tutti i modelli di automaticità devono evidenziare e rispettare questa legge. La legge della potenza del tempo di reazione (RT), in funzione del numero delle prove di apprendimento (N), è la seguente: RT = a + bN -c dove a è il valore asintotico del tempo di reazione, b è la differenza tra lo stato iniziale e la performance asintotica, e c è il coefficiente di apprendimento associato al processo in corso di esecuzione. Quando questa funzione viene rappresentata e visualizzata sugli assi cartesiani, il tempo di reazione segue un andamento lineare con il numero di prove con un’inclinazione uguale a c. Generalmente l’RT è la media della distribuzione dei tempi di reazione di un processo a un dato punto di apprendimento. 87 Anderson, J. R. (1982). Acqusition of cognitive skill. Psychological Review, 89, 369 – 406. Vedi anche: Kolers, P. A. (1976). Reading a year later. Journal of Experimental Psychology: Human Learning and Memory, 2, 554 – 565. Vedi anche: Logan, G. D. (1988). Toward an instance theory of automatization. Psychological Review, 95, 492 – 527. Vedi anche: Newell, A., & Rosenbloom, P. S. (1981). Mechanism of skill acquisition and the law of practice. In J. R. Anderson (Ed.), Cognitive skill and their acquisition, (pp. 1 – 55). Hillsdale, NJ: Erlbaum. 60 Per valutare sul modello queste proprietà, gli autori dell’articolo hanno allenato la rete sulla prova di denominazione del colore per 100000 epoche. Ad intervalli regolari, alla rete venivano presentate 100 prove test (condizione di controllo). I grafici risultanti mostravano che le rette che rappresentano la media del tempo di reazione e la deviazione standard erano molto vicine e seguivano la stessa direzione. Sono due le ragioni che permettono di determinare l’apprendimento secondo una legge della potenza. La prima è che l‘apprendimento della rete è guidato dall’errore, ossia il valore del peso di ogni connessione è regolato sulla base della quantità di differenza intercorrente tra l’attivazione di ciascuna uscita e il valore desiderato (il target). All’inizio dell’apprendimento, questa differenza è grande e di conseguenza, anche i cambiamenti dei pesi delle connessioni sono grandi. Sebbene i cambiamenti dei pesi diventino sempre più piccoli, per mezzo della pratica, il processo di aggiustamento continua fintanto ché c’è apprendimento. Questa continuità pressoché “infinita” di apprendimento è causata dalla configurazione dei valori target per l’attivazione delle unità impostati a 1.0 e 0.0 per tutti gli altri. Usando una funzione logaritmica, questi valori target non possono essere mai raggiunti, perché l’ingresso delle unità ha caratteristiche finite. Per questo motivo l’errore viene sempre prodotto, e quindi un rafforzamento delle connessioni è sempre possibile. Tuttavia, questo rafforzamento diminuisce progressivamente con l’apprendimento, e quindi il miglioramento dei tempi di reazione diverrà sempre meno. La seconda ragione della diminuzione del miglioramento dei tempi di reazione con la pratica, è rintracciabile nel rafforzamento delle connessioni e nella diminuzione dell’influenza sulle attivazioni (e quindi sui tempi di reazione). Questo comportamento è causato dalla non linearità della funzione di attivazione: quando una connessione (o una struttura di connessioni) è abbastanza forte per produrre un’attivazione vicina allo 0.0 o 1.0, ulteriori cambiamenti hanno piccoli effetti sulle unità. Questa considerazione è valida solo quando le rappresentazioni prossime agli strati finali sono ben definite, e solo quando l’apprendimento è coinvolto principalmente nelle connessioni localizzate tra gli strati prossimi allo strato finale e lo strato di uscita. L’apprendimento backpropagation, in una rete multistrato, è caratterizzato da una lunga e lenta fase iniziale di apprendimento, seguita da uno o più periodi di rapide accelerazioni, ed infine da una fase che segue la legge della potenza. Quindi, quando viene eseguito l’apprendimento su entrambi gli strati di 61 connessione di ingresso e di uscita, il miglioramento dei tempi di reazione non segue la legge della potenza dall’inizio dell’apprendimento. La ‘legge della potenza’ può essere rispettata all’inizio dell’apprendimento solo quando la potenza delle connessioni, tra le unità di ingresso e quelle intermedie, è significativa. Nonostante queste connessioni in ingresso siano modificate durante l’apprendimento, le connessioni di uscita possono essere modificate per permettere ai valori iniziali delle connessioni di ingresso di eseguire con successo il compito. Sebbene questa considerazione può essere interpretata come critica all’algoritmo di apprendimento backpropagation, essa riflette le limitazioni dell’applicabilità della ‘legge della potenza’, applicabile pertanto solo ad alcuni tipi di apprendimento. In particolare, non può essere applicata nelle simulazioni in cui è prevista una rappresentazione intermedia, necessaria per lo svolgimento di un compito. Questa condizione implica più di una fase di apprendimento per quei pesi di connessione distribuiti in più strati, come è stato osservato nella rete backpropagation. Gli autori hanno utilizzato un modello backpropagation per evidenziare e rilevare le caratteristiche di apprendimento durante lo “svolgimento di una serie di compiti”.88 3.3.5 L’attenzione e l’elaborazione. La ragione principale degli studi degli effetti di interferenza è stata quella di riuscire a fornire dei risultati che riescano a descrivere e a spiegare le necessità del coinvolgimento dei diversi processi dell’attenzione. Come nel compito Stroop, l’informazione del canale irrilevante non era attesa. Questa informazione disattesa, pur non avendole rivolta l’attenzione, può produrre interferenza durante l’elaborazione. La mancanza di richiesta di attenzione è uno dei principali criteri del fenomeno dell’automaticità. Inoltre, è stato di solito ipotizzato che i processi automatici non solo non richiedono attenzione, ma non sono neanche influenzati dall’attenzione. Su questa ipotesi, Kahneman e Treisman89 hanno sostenuto l’ipotesi secondo cui i processi automatici sono soggetti a controllo per mezzo dell’attenzione, sebbene 88 McClelland, J. L. (1989). Parallel distributed processing: Implications for cognition and development. In R. G. Morris (Ed.), Parallel distributed processing: Implications for psychology and neurobiology (pp. 8 – 45). Oxford, England: Oxford University Press. 89 Kahneman, D., & Treisman, A. (1984). Changing view of attention and automaticity. In R. Parasuraman, D. R. Davies, & J. Beatty (Eds.), Varieties of attention (pp. 29 – 61). New York: Academic Press. 62 alcuni singoli processi possono non essere sensibili al controllo. Nel modello della simulazione 1, viene mostrato che l’elaborazione viene eseguita anche senza attenzione, facendo così un diretto riferimento teorico ai processi automatici involontari. Sebbene la parola veniva elaborata senza che l’attenzione gli fosse rivolta, essa riusciva comunque ad interferire con la denominazione del colore, senza però determinare la risposta. Il processo più forte veniva guidato dall’attenzione. Inoltre, il modello mostrava che il controllo per mezzo dell’attenzione riusciva a sviluppare un graduale effetto di interferenza in funzione della forza di elaborazione, incrementata per mezzo dell’apprendimento. Nella seguente simulazione, gli autori esaminano la relazione tra la richiesta di attenzione e la forza di elaborazione. Innanzitutto, viene mostrato l’effetto di riduzione dell’attenzione, sulla performance di denominazione del colore e di lettura della parola. La quantità di attenzione assegnata al compito è rappresentata per mezzo dei valori di attivazione delle unità del tipo di richiesta compito, associate con il tipo di compito corrispondente. Pertanto, la simulazione evidenziava i seguenti due fenomeni. 1. Per un dato livello di performance, la denominazione del colore richiedeva maggiore attenzione rispetto alla lettura della parola. I due tipi di compiti erano comunque influenzati dall’allocazione dell’attenzione. Infatti, anche l’elaborazione della lettura della parola mostrava una diminuzione di intensità, in relazione alla diminuzione dell’attenzione assegnatagli. 2. Sebbene il circuito più forte sia poco guidato dall’attenzione, le risorse della medesima erano maggiormente influenzate dalle circostanze che caratterizzavano il compito, rispetto alla sola forza dei circuiti neurali. Infatti, le risorse che la denominazione del colore richiedeva all’attenzione erano guidate da tre differenti condizioni: a) non vi è nessuna informazione di competizione e nessuna informazione di conflitto, da parte b) di un processo più debole (denominazione della forma, prima della fase di apprendimento), c) oppure da parte di un processo più forte (lettura della parola). Nelle due condizioni di conflitto, la denominazione del colore richiedeva diverse risorse all’attenzione, in funzione della forza del circuito in competizione. La performance del modello, guidata da queste condizioni, dimostrava che sebbene l’elaborazione può avvenire anche in assenza di attenzione, tutti i processi sono 63 influenzati dall’attenzione. Come gli altri attribuiti di automaticità, anche la richiesta di attenzione variava in funzione della forza del circuito neurale. Più forte è un processo, minore è la richiesta di attenzione, e minore è la sensibilità al controllo dell’attenzione, aumentando la capacità di produrre interferenza. 3.4 Discussione dei risultati. Gli autori hanno mostrato che i meccanismi di un modello basato su reti neurali possono spiegare molti fenomeni riguardanti l’attenzione e l’automaticità. Per quanto riguarda l’effetto Stroop, il modello mostra che questi meccanismi sono in grado di descrivere un’ampia varietà di effetti rilevati negli studi empirici con soggetti umani. Per esempio tra gli effetti più importanti è stato possibile simulare l’asimmetria tra gli effetti di interferenza, tra la lettura della parola e la denominazione del colore, cioè il fatto che «gli effetti di interferenza sono maggiori rispetto agli effetti di facilitazione»,90 oppure il paradigma SOA per il compito Stroop, ossia «presentando il colore prima della parola, viene prodotta una minore interferenza, che potrebbe essere spiegata dalla differenza della velocità di elaborazione».91 Inoltre, il modello riesce a produrre molti dei fenomeni associati con l’emergere dell’automaticità: la diminuzione dei tempi di reazione, le deviazioni che seguono la legge della potenza,92 «l’aumento della capacità di produzione di interferenza, accompagnata dalla riduzione della sensibilità alle interferenze»,93 ed infine «la graduale riduzione, da parte dei processi coinvolti durante l’esecuzione di un compito, delle risorse dell’attenzione durante il processo di apprendimento».94 Il modello fornisce una spiegazione generale per questi risultati, in termini di forza di elaborazione dei circuiti neurali. Questa ipotesi è sostenuta da molte altre teorie dell’automaticità, che descrivono in modo esplicito meccanismi di elaborazione dal quale sono stati rilevati i relativi fenomeni empirici. Questi meccanismi forniscono 90 MacLeod, C. M., & Dunbar, K. (1988). Op. cit. e pp. cit. Glaser, M. O., & Glaser, W. R. (1982). Op. cit. e pp. cit. 92 Logan, G. D. (1988). Op. cit e pp. cit. Vedi anche: Newell, A., & Rosenbloom, P. S. (1981). Op. cit e pp. cit. 91 93 MacLeod, C. M., & Dunbar, K. (1988). Op. cit. e pp. cit. Logan, G. D. (1978). Attention in character classification : Evidence for the automaticity of component stages. Journal of Experimental Psychology: General, 107, 32 – 63. Vedi anche: Schneider, W., & Shiffrin, R. (1977). Op. cit. e pp. cit. 94 64 una base per l’apprendimento per l’andamento temporale dell’elaborazione e per l’influenza dell’attenzione. Un’altra importante caratteristica riscontrata nelle simulazioni, è stata quella delle proprietà dell’automaticità, che risultano essere continue ed emergono in funzione della forza di un processo, relativo alle forze dei processi in competizione. La simulazione non riesce a modellizzare in maniera perfetta la condizione in cui la parola viene presentata sufficientemente prima, rispetto alla presentazione del colore, con la conseguente riduzione dell’interferenza, che invece viene riscontrata negli studi sperimentali reali con soggetti umani. Inoltre, il modello non considera i meccanismi per l’elaborazione delle componenti di natura strategica coinvolte durante lo svolgimento di nuovi compiti. 3.4.1 Riconsiderazione dei processi volontari e automatici. Il modello dimostra che le differenze negli effetti di interferenza non sono sufficienti a produrre una distinzione tra i differenti tipi di elaborazione. Un’assunzione generale è stata quella del criterio di discriminazione tra il processo automatico e il processo controllato; ossia, quando un processo interferisce con un altro, il processo che produce interferenza è automatico e l’altro è controllato. Il modello mostra che, questa discriminazione, può essere spiegata dalla differenza della forza dei due processi, usando a livello qualitativo lo stesso meccanismo. Inoltre, sia il modello che le evidenze empiriche dimostrano che lo stesso processo può, coerentemente ai criteri di interferenza, apparire controllato in un contesto e automatico in un altro. Il modello, inoltre, ipotizza l’esistenza di un continuum di automaticità, senza rifiutare l’ipotesi di un’elaborazione esclusivamente controllata. All’estremo inferiore del continuum dell’automaticità, dove non c’è un circuito capace di eseguire un compito, l’elaborazione è obbligata a percorrere diverse strade. Per esempio, quando a un soggetto viene detto di dire “rosso”, quando lo stimolo presentato è una particolare figura generata in modo casuale, e di dire “verde” e “blu” per le altre figure. Inizialmente, il soggetto fallirà le associazioni durante l’esecuzione del compito. A questo punto, il compito potrebbe essere eseguito con l’assistenza dello sperimentatore (per es. il soggetto potrebbe ricordare la parola del colore, che corrisponde alla forma visualizzata sullo schermo). I soggetti potrebbero 65 provare a imparare ciascuna corrispondenza, usando le associazioni verbali per le forme (per es. l’arancione è il nome della forma che somiglia alla Florida), o utilizzando mnemotencniche alternative. I ricercatori assumevano che questi processi facevano affidamento a circuiti indiretti, che possono essere usati per stabilire velocemente piccole e poche associazioni arbitrarie; un’ulteriore assunzione che è stata fatta, è quella di considerare l’elaborazione di questi circuiti lenta e caratterizzata da un intensivo sforzo di mantenimento della rappresentazione del tipo di compito da svolgere. Contemporaneamente, come nella pratica, i soggetti ricevono feedback riguardanti le risposte, così che le connessioni iniziano a costruire un circuito neurale, che infine permette di rispondere direttamente alla risposta corretta, senza il ricorso alla mediazione verbale indiretta, o alla mediazione mnemonica, oppure ad entrambe. Inoltre, l’apprendimento di queste vie neurali, avvenuto in maniera più graduale, caratterizza il circuito di una maggiore forza e velocità rispetto alle vie neurali indirette. Inoltre, vi è una parziale corrispondenza tra la distinzione diretta-indiretta e la tradizionale distinzione tra controllata e automatica. Ricordando quanto detto precedentemente, un processo basato su circuiti neurali indiretti è caratterizzato da un insieme di attribuiti, tipici del processo controllato: lento, caratterizzato da una serie di passi che possono essere disturbati oppure influenzati da interferenze varie, e può dipendere dalla memoria dichiarativa (per es. “La florida è arancione”), oppure da altre mnemotecniche, che necessitano di sforzi a livello attenzionale e di allocazione dell’attenzione. Al lato opposto, ad alti livelli di pratica, l’esecuzione diretta del compito corrisponde similmente allo svolgimento automatico del compito: l’elaborazione è più veloce, minore sensibilità all’interferenza, una maggiore capacità di produrre interferenza, e una minore influenza da parte dell’allocazione dell’attenzione. In entrambe le considerazioni, la corrispondenza non sussiste per la seguente riflessione: come è stato dimostrato nella simulazione di questo articolo, un processo che è completamente di tipo diretto può, sotto alcune condizioni, esibire tutte le proprietà di solito ascritte al processo controllato. Gli autori, quindi, propongono di classificare in diretti e indiretti i processi che sono stati precedentemente considerati come controllati. In un’elaborazione di tipo diretto, ci potrebbe essere un continuum di forza del circuito neurale coinvolto, che permette di indicare il grado di automaticità di un processo. 66 Il modello fornisce una esplicita descrizione delle elaborazioni di tipo diretto, e mostra come i cambiamenti nella forza di questi processi, risultanti dalla pratica, siano in grado di cambiare qualitativamente la performance del compito. Il modello non fa alcun riferimento esplicito all’elaborazione di tipo indiretto, perché l’obbiettivo principale del modello è stato quello di cogliere la natura e l’interazione dei processi di tipo diretto. 3.4.2 L’attenzione intesa come meccanismo di controllo dell’elaborazione. E’ stata precedentemente descritta la distinzione tra processi diretti e indiretti, e la dicotomia tradizionale tra elaborazione automatica e controllata. Entrambi questi tipi di elaborazione possono manifestare performance che descrivono le caratteristiche classiche associate con l’elaborazione controllata: la lenta velocità di elaborazione e la sensibilità all’interferenza. La stessa differenza può essere riscontrata tra i seguenti due approcci, che riguardano il controllo attenzionale dell’elaborazione. Il nodo centrale di questa distinzione teorica, tra elaborazione controllata e automatica, è situato nelle due seguenti assunzioni di base: a) l’elaborazione controllata è dipendente dall’allocazione dell’attenzione; b) l’elaborazione automatica può essere svolta indipendentemente dall’attenzione. Vi è, comunque, la ragione di credere che siano pochi i processi immuni dall’influenza dell’attenzione. Nelle simulazioni del modello, anche il circuito neurale più forte, in cui l’elaborazione coinvolta era caratterizzata da tutti gli attributi di automaticità, l’elaborazione era influenzata dall’allocazione dell’attenzione. Per esempio, nella simulazione dell’effetto Stroop di base, sebbene l’elaborazione presente nel circuito della parola veniva svolta senza l’allocazione dell’attenzione, essa riusciva comunque a produrre interferenza con la denominazione del colore; l’elaborazione era parziale e insufficiente per determinare quale risposta doveva essere prodotta. Infatti, nella simulazione trattata nel paragrafo 3.3.6, è stato dimostrato che il processo di lettura della parola è direttamente influenzato dai cambiamenti dell’allocazione dell’attenzione. I compiti svolti per mezzo di elaborazioni automatiche, come per esempio la lettura della parola, sono soggetti al controllo attenzionale perché si ipotizza l’esistenza di numerosi processi che partecipano alla determinazione di quella particolare capacità 67 (la lettura), dei quali alcuni potrebbero essere automatici ed altri controllati. Con questa ipotesi è possibile spiegare il comportamento controllato su un compito, per mezzo dell’allocazione o dell’assenza di allocazione dell’attenzione, sui processi controllati coinvolti, preservando, in tal modo, l’indipendenza dei processi automatici dagli effetti dell’attenzione. Quindi, il modello degli autori asserisce che tutti i processi potrebbero essere soggetti, in gradi diversi, al controllo per mezzo dell’attenzione. Partendo dall’ipotesi che tutti i processi cognitivi sono soggetti, in gradi diversi, al controllo attenzionale, la domanda è come questo controllo può essere ottenuto. L’attenzione viene implementata, nel modello, in termini di sistema di regolazione dell’elaborazione dei circuiti neurali corrispondenti, per mezzo degli ingressi delle unità di attenzione, le task demand (le unità di richiesta del tipo di compito da svolgere), che causano uno slittamento della sensibilità di elaborazione delle unità del circuito neurale corrispondente al tipo di compito da svolgere. L’attenzione utilizza lo stesso meccanismo di elaborazione. Le connessioni, dalle unità dell’attenzione alle unità del circuito neurale, sono dello stesso tipo delle connessioni del circuito neurale stesso, e l’informazione attenzionale è rappresentata allo stesso modo delle altre informazioni della rete: un pattern di attivazione, rappresentato per mezzo di un set di unità. L’ingresso ricevuto da un circuito neurale dalle unità attenzionali è qualitativamente uguale all’ingresso ricevuto dalle altre unità della rete. L’attenzione, pertanto, può essere intesa come un’ulteriore fonte di informazione, che fornisce un contesto per l’elaborazione dei segnali di un particolare circuito neurale. Nella realtà della modellizzazione, un modulo attenzionale, può essere inteso come un modulo generale che ha una struttura di connessioni che permette di regolare l’elaborazione degli altri circuiti neurali. Ci potrebbero così essere molti moduli per un sistema, oppure un modulo per regolare uno o più circuiti neurali. Questa ipotesi del controllo attenzionale è simile all’ipotesi delle risorse multiple proposta da altri autori.95 95 Allport, D. A. (1982). Attention and performance. In G. I. Claxton (Ed.), New directions in cognitive psychology (pp. 112 – 153). London: Reutledge & Kegan Paul. Vedi anche: Hirst, W., & Kalmar, D. (1987). Characterizing attentional resources, Journal of Experimental Psychology: General, 116, 68 – 81. Vedi anche: Navon, D., & Gopher, D. (1979). On the economy of human processing system. Psychology Review, 86, 214 – 255. Vedi anche: Wickens, D. D. (1984). Processing resources in attention. In R. Parasuraman, D. R. Davies, & J. Beatty (Eds.), Varieties of attention (pp. 63 – 102). New York: Academic Press. 68 Nel modello degli autori del presente articolo, i meccanismi per la modulazione dei circuiti neurali, usati per implementare la selezione del tipo di compito, per lo svolgimento del compito dello Stroop (colore o parola), possono essere anche utilizzati per implementare canali di selezione per liste dicotomiche, allocazione dell’attenzione spaziale, ricerca per categorie e in altri compiti, dove è necessaria l’attenzione selettiva. Infine, per quanto riguarda i meccanismi per la modulazione dell’attenzione, è stata sollevata la seguente problematica: l’attenzione facilita l’elaborazione del circuito neurale atteso, oppure sopprime il circuito neurale disatteso, o entrambi. L’attenzione potrebbe essere implementata anche come un effetto di facilitazione o inibizione, oppure come una combinazione di entrambi. Nella simulazione, gli autori interpretavano l’attenzione come un effetto di facilitazione: la specificazione del tipo di compito impostava le unità del circuito neurale corrispondente, in un intervallo di maggiore probabilità di risposta. Questo meccanismo permette di descrivere il fenomeno principale dell’effetto Stroop, e la relazione tra pratica, automaticità e attenzione. E’ possibile anche che l’attenzione abbia un ruolo di filtro, in grado di escludere dall’elaborazione i messaggi potenzialmente interferenti. Per esempio, l’elaborazione è di solito più lenta sulle prove di controllo, se sono caratterizzate con prove di interferenza. E’ pertanto possibile assumere che l’attenzione è richiesta, sia per sopprimere il canale disatteso, e sia per aumentare la forza e la velocità di elaborazione del canale atteso; in questo modo, il canale disatteso soppresso è obbligato a richiedere risorse esterne, diverse dall’altro canale. 3.4.3 La natura continua dell’elaborazione. L’assunzione considerata dagli autori di questo articolo è interpretare, in questo caso, l’informazione degli stimoli e del compito Stroop in generale, come qualitativamente continua e propagata in modo continuo da un livello a quello successivo. Questa assunzione distingue il modello degli autori dagli altri modelli discreti, in cui l’elaborazione deve essere completata prima a un livello, per poi passare a quello successivo. Nel modello presentato dagli autori, l’informazione a un livello è continuamente disponibile ai livelli precedenti. Quindi, un livello non deve essere necessariamente completato per influenzare la performance. E 69 precisamente, le informazioni elaborate in modo parziale dal circuito neurale più forte producono effetti di interferenza e facilitazione. 70 Capitolo 4. La critica principale mossa al modello dell’effetto Stroop 4.1 Introduzione. L’articolo di J.R. Stroop96 dell’attenzione e dell’interferenza è stato pubblicato più di 60 anni fa. Da quel periodo in poi, il compito Stroop e le molte altre versioni che si sono susseguite sono state utilizzate in diversi settori clinici e sperimentali. La popolarità del compito Stroop è stata in larga parte dovuta dalla fondatezza scientifica di due effetti o due aspetti che sono centrali per le capacità attenzionali dell’uomo: l’automaticità di elaborazione della parola e le caratteristiche del controllo attenzionale. Cohen, Dunbar e McClelland97 hanno proposto e sviluppato una modellizzazione del compito Stroop, di tipo PDP (elaborazione distribuita in parallelo). Una proposta molto interessante che ipotizza concetti relativi alla velocità di elaborazione della parola e del colore e considera l’automaticità a livello quantitativo. Coerentemente all’ipotesi di Cohen et al., l’effetto Stroop può essere modellizzato per mezzo di una rete neurale di tipo connessionista, caratterizzata da pesi di connessione dei circuiti neurali del colore e della parola, che variano in modo continuo in funzione dei diversi livelli di pratica effettuata dai due circuiti di elaborazione colore e parola. Le forze delle connessioni variano in modo continuo perché l’automaticità, anziché descritta per mezzo di una dicotomia: automatico non automatico, viene descritta in termini di continuum. Inoltre, il modello di Cohen et al. riesce a cogliere la maggior parte dei fenomeni rilevati dai contesti sperimentali reali durante lo svolgimento del compito Stroop: l’asimmetria tra la facilitazione e l’interferenza, gli effetti di asincronizzazione della presentazione degli stimoli, gli effetti di pratica e gli effetti della struttura delle risposte. Questo capitolo è strutturato in quattro paragrafi. Il primo descrive e dimostra che il modello di Cohen et al. incontra alcune difficoltà quando viene implementato con i risultati della ricerca sperimentale reale di Spieler et al.98 96 Stroop J. R. (1935). Op. cit. e pp. cit. Cohen, J. D., Dunbar, K., & McClelland, J. L. (1990). Op. cit. e pp. cit. 98 Spieler, D. H., Balta, D. A., & Faust, M. E. (1996). Stroop performance in normal older adults and individuals with senile dementia of the Alzheimer’s type. Journal of Experimental Psychology: Human Perception and Performance, 22, 461 – 479. 97 71 Il secondo capitolo analizza modelli alternativi caratterizzati da diverse architetture neurali, che hanno lo scopo di eliminare i problemi riscontrati dalla modellizzazione di Cohen et al. Nel terzo capitolo vengono presentati i risultati di un esperimento che dimostrano e descrivono i problemi del modello di Cohen et al.: in particolare, quando la manipolazione della dimensione strutturale della rete viene effettuata direttamente sull’architettura della medesima. Infine, il capitolo si conclude con una discussione delle implicazioni dei risultati riscontrati, sia nel modello di Cohen et al. e sia negli altri modelli che tentano di descrivere le due dimensioni di elaborazione (colore, parola), utilizzando lo stesso tipo di architettura neurale. 4.2 La modellizzazione di Spieler et al. Per confrontare gli studi di Spieler et al. con la modellizzazione di Cohen et al. è stato necessario apportare due variazioni nell’architettura del modello di Cohen et al. Il primo cambiamento è stato quello di estendere la modellizzazione da due a quattro colori e nomi dei colori. Il secondo cambiamento è stato necessario per giustificare la natura qualitativa degli stimoli neutrali: per Cohen et al. era una riga di X, invece per Spieler et al. erano quattro parole non-colori (cattivo, povero, profondo e legale). L’utilizzazione di un maggior numero di stimoli e una condizione neutrale diversa, significava aggiungere alla vecchia struttura neurale di Cohen et. al. nuove unità di input, nascoste e di uscita. La quantità di apprendimento fornita alla nuova rete neurale corrispondeva all’arbitraria limitazione impostata da Cohen et al.: la rete neurale deve riuscire a riprodurre una risposta corretta entro 50 cicli. Inoltre, le condizioni neutrali sono state simulate per mezzo dell’attivazione, in corrispondenza dell’ingresso del colore, di una parola non colore: questa particolare attivazione veniva prodotta in seguito alla corrispondente attivazione del nodo del compito, in relazione al tipo di compito da svolgere (denominazione del colore oppure lettura della parola). Il problema principale dell’implementazione degli studi di Spieler et al. sul modello di Cohen et al. era la differenza dei dati riscontrati durante la lettura della parola e la denominazione del colore, che nel modello originale, le differenze tra i tempi di 72 reazione dei due compiti erano minori rispetto ai dati empirici rilevati dal modello di Spieler et al. Una possibile spiegazione è ipotizzare che la differenza riscontrata tra i risultati sia dovuta all’utilizzo, da parte della modellizzazione di Spieler et al., di un disegno sperimentale di tipo idiosincratico e quindi non era una condizione classica per studiare l’effetto Stroop. Per esempio, negli studi di Spieler et al. risultano evidenti due aspetti principali che caratterizzano la differenziazione con l’architettura originale di Cohen et al. La prima differenza è causata dall’asimmetria tra il numero dei colori (quattro) e il numero delle parole (otto). La seconda differenza è causata dal numero di items che è maggiore negli studi di Spieler et al. (4 – 8) rispetto all’architettura 2 – 2 di Cohen et al. Considerando queste differenze è bene scegliere tra i due disegni sperimentali quello che è più rappresentativo per lo studio dell’effetto Stroop: è difficile trovare degli studi che analizzano l’effetto Stroop utilizzando solo due colori e due parole. Infatti, gli autori di questo articolo esaminano la sezione metodologica degli studi di Dunbar e MacLeod,99 perché è da qui che Cohen et al. riprendono e modellizzano i dati. Gli studi di Dunbar e MacLeod erano caratterizzati da 5 nomi di colori integrati con 45 parole non – colore. Quindi, l’architettura 2 – 2 implementata da Cohen et al. non rifletteva coerentemente il suddetto disegno sperimentale. 4.3 L’asimmetria tra le architetture neurali. Inizialmente, la differenza strutturale tra le due reti neurali sembrava essere la conseguenza principale per giustificare le differenze dei risultati tra le due modellizzazioni. Infatti, utilizzando una struttura simmetria a livello delle due unità di ingresso e dello strato nascosto per ciascun circuito neurale (come nel modello Cohen et al.), l’attività a riposo della risposta delle unità risulta essere di 0.5, quando le unità per la richiesta del tipo di compito sono attivate. In questo caso l’ingresso della somma delle risposte delle unità è di 0.0; questo risultato riflette il bilanciamento degli ingressi inibitori ed eccitatori. In un disegno asimmetrico, come quello di Spieler et al., questo bilanciamento non era riproducibile. Quando l’unità di richiesta del tipo di compito per il circuito neurale del colore è attivata, tutte le 99 Dunbar, K., & MacLeod, C. M. (1984). Op. cit. e pp. cit. 73 risposte delle unità che corrispondono al circuito neurale del colore (rosso, verde, giallo e blu) assumono un livello di attivazione di 0.2. Quando le unità per il tipo di compito del circuito neurale della parola sono attivate, tutte le risposte delle unità assumono un’attivazione di 0.01. Tutte queste differenze tra le attivazioni a risposo vengono causate dalla grande quantità di ingressi inibitori che influenzano la risposta delle unità e che provengono dal circuito neurale della parola, versus il circuito neurale del colore. Per spiegare queste differenze tra le due modellizzazioni neurali, gli autori di questo articolo hanno implementato due nuove architetture che avevano un maggior numero di unità rispetto al modello originale, e che preservavano la condizione di simmetria. Utilizzavano un’architettura simile a quella descritta precedentemente ma senza le parole non – colore. Quindi queste simulazioni erano caratterizzate dalla stessa architettura del modello di Cohen et al. (1990), ma erano estese a 3 e a 4 colori. Comunque questa simmetria non eliminava il problema della discrepanza con i dati empirici rilevati dal modello di Spieler et al. 4.4 Il numero delle unità della rete influisce sulla performance del compito. La seconda principale differenza tra l’architettura neurale di Cohen et al. e la modellizzazione di Spieler et al. è riscontrabile nella dimensione della struttura della rete neurale. Quindi, gli autori dell’articolo hanno ipotizzato la possibilità che la differenza della dimensione strutturale della rete neurale, sia la spiegazione della discrepanza osservata tra il modello e i dati empirici osservati. Come è stato spiegato precedentemente, quando la quantità delle unità della rete neurale viene aumentata, il modello originale incontrava le difficoltà principali per descrivere i dati empirici, perché la simulazione manifestava una diminuzione della differenza relativa tra le condizioni della parola e del colore. Per esempio, la diminuzione della differenza relativa è conseguente dell’aumento delle latenze di risposta della parola, causato dall’aumento delle unità del circuito neurale corrispondente; invece le latenze della risposta delle unità del colore diminuiscono all’aumentare del numero delle unità del circuito corrispondente. Questi risultati di risposta della rete, non sono quindi coerenti e consistenti rispetto ai dati empirici rilevati da Spieler et al. 74 In generale, i risultati empirici classici dei tempi di reazione durante lo svolgimento del compito Stroop sono che il tempo impiegato per la denominazione del nome di un colore aumenta e il tempo impiegato per leggere una parola non viene quasi per niente influenzato. Quindi è importante comprendere il motivo della relazione della quantità del numero di cicli necessari alla risposta nelle condizioni di colore e parola, con l’aumentare del numero delle riposte alternative che caratterizzano il disegno sperimentale. Per spiegare questa relazione è necessario considerare la modalità di distribuzione dei pesi delle connessioni sulla rete neurale. Nel modello di Cohen et al. (1990) i pesi delle connessioni per ciascuna unità di uscita e per ciascuna unità dello strato nascosto, sono dello stesso e di segno opposto. Per esempio, nel modello di Cohen et al. il peso della connessione tra una unità dello strato nascosto e l’unità di uscita “rosso” del circuito neurale della parola era di 2.5 e all’unità di risposta “verde” era –2.5. I pesi del circuito neurale del colore erano 1.3 e –1.3. Quindi i pesi delle connessioni erano bilanciati e la risposta delle unità era situata nell’intervallo di attivazione più sensibile 0.5. Tuttavia nelle architetture neurali che avevano più di due unità per ciascun circuito, l’ingresso eccitatorio e inibitorio delle unità di risposta non era bilanciato. Per esempio, nell’architettura di tipo 4 – 4 il peso di connessione tra il circuito neurale della parola dell’unità di risposta “rosso” e una unità dello strato nascosto era di 3.3; invece i pesi provenienti dalle altre tre unità dello strato nascosto erano a –2.6. Nel circuito neurale del colore vi era un peso di 1.8 e gli altri tre pesi a –1.5. Quindi, in una configurazione di questo tipo, dove in ciascuna via neurale vi sono più di due unità, le unità di risposta ricevono una quantità di ingressi inibitori maggiore rispetto agli ingressi eccitatori. La convergenza dei tempi impiegati per produrre una risposta tra le condizioni di colore e parola, nelle architetture simmetriche, sembrava essere causata dallo stesso meccanismo responsabile delle difficoltà riscontate nell’architettura asimmetrica. Uno dei modi per analizzare questo effetto è quello di esaminare le attivazioni a riposo delle unità di risposta, dopo che le unità per l’assegnazione dell’attenzione al tipo di compito sono state attivate. Nel modello di Cohen et al. 2 – 2, con l’attivazione delle unità di attenzione, le unità di risposta raggiungevano un attivazione a riposo di 0.5. Questo valore veniva raggiunto per mezzo della somma delle attivazioni di 0.0 provenienti dal bilanciamento degli ingressi. Questo stato della rete è importante per due ragioni: la prima è che le attività a riposo delle unità 75 di risposta sono situate nella funzione di attivazione in un intervallo di maggiore sensibilità: questa situazione permette alle unità di rispondere velocemente ai piccoli cambiamenti di attivazione. La seconda ragione è che con entrambe le unità di risposta ad un’attivazione a riposo di 0.5 è possibile, alle attivazioni delle due unità, di raggiungere, in breve tempo, una maggiore diversificazione delle attivazioni conducendo le attivazioni in direzioni opposte. La velocità di diversificazione delle due attivazioni tra le due unità rappresenta la competizione tra le unità di risposta e determina la velocità della risposta stessa. Quindi, se entrambe le unità assumono uno stato iniziale a un valore vicino alle attivazioni minime e massime di 0.0 e 1.0, la risposta viene rallentata. Per esempio, considerando le diverse unità di risposta della seguente configurazione, quando le unità di richiesta del tipo di compito sono attivate al compito parola. In una architettura di tipo 4 – 4 con l’unità di attenzione parola attivata, ciascuna unità di risposta aveva raggiunto un’attivazione a riposo di 0.09. Questo valore era risultato da una grande quantità di ingressi inibitori (un peso di 3.3 e gli altri tre pesi a – 2.6). In un’architettura asimmetrica 4 – 8 (quattro colori e 8 parole) con l’unità di attenzione parola attivata ciascuna unità di risposta del colore aveva raggiunto un attivazione a riposo di 0.01 (un peso a 3.9 e gli altri sette pesi a –1.9). La diminuzione delle attivazioni influenzava le unità di risposta situate in un intervallo minore di sensibilità e riduceva, tra le unità, la capacità di diversificazione delle attivazioni con il conseguente rallentamento della velocità della risposta. Inoltre, quando l’unità del tipo di richiesta del compito colore era attivata, veniva prodotto anche un decremento delle attivazioni a riposo perché i pesi di connessione delle unità del circuito neurale del colore venivano indeboliti. Quindi, con l’aumentare del numero delle unità, il numero di cicli necessari per produrre una risposta, nella condizione della parola rispetto alla condizione colore, aumentano producendo così una convergenza della performance della parola e del colore. Invece, nella simulazione di Spieler et al., sebbene la latenza di lettura della parola aumentava, le latenze di denominazione del colore non aumentavano. La rete neurale per rispondere correttamente agli stimoli riceveva in tutte le condizioni un apprendimento minore a 50 cicli. Con l’aumentare della dimensione della rete, nella condizione di colore incongruente, l’apprendimento si manteneva relativamente costante intorno ai 50 cicli. Con la condizione di colore neutrale l’apprendimento diventava leggermente più veloce, perché i pesi delle connessioni del circuito 76 neurale della parola erano più forti e quindi la qualità e la quantità dell’apprendimento era migliore: maggiore era la forza di connessione del circuito neurale della parola, nella condizione di congruenza del colore, maggiore era la quantità di attivazione e di conseguenza un tempo di produzione della risposta più veloce. Un altro metodo, forse più adatto, per il confronto dei risultati utilizzando delle reti neurali è quello di non considerare la limitazione dei 50 cicli. Questa assunzione è stata valutata per mezzo di simulazioni con architetture neurali di 3 – 3, 4 – 4 e 4 – 8 a 1000 epoche di apprendimento. Anche con questa assunzione il problema della convergenza tra le condizioni colore - parola non viene eliminato. Il numero dei cicli necessari per rispondere alle condizioni della parola aumentava con l’aumentare del numero delle unità, invece nella condizione di congruenza del colore, il numero dei cicli si manteneva relativamente stabile. In conclusione, la migliore diversificazione tra le condizioni della parola e del colore è raggiungibile solo per mezzo di un’architettura simmetrica caratterizzata dal minor numero di unità possibili: l’architettura 2 – 2 usata da Cohen et al. è la configurazione più adatta per modellizzare i dati empirici di Stroop. Invece, se viene utilizzata una modellizzazione che riflette la manipolazione empirica degli studi sperimentali reali per mezzo dell’aumento del numero delle unità della rete, il modello non risulta essere sufficientemente adatto per descrivere i dati empirici perché le latenze di risposta tra il colore e la parola convergono. 4.5 Conseguenze sperimentali della debolezza del modello. Come è stato già discusso precedentemente, utilizzando la modellizzazione di Cohen et al. è possibile riscontrare che aumentando la grandezza dell’architettura della rete neurale (il numero delle unità del circuito neurale del colore e della parola), la differenza tra la performance della parola e la performance del colore diminuisce. In contrapposizione con quanto evidenzia il modello di Cohen et al. gli studi sperimentali sulle performance durante lo svolgimento del compito Stroop, suggeriscono che incrementando il numero degli stimoli viene riscontrato un rallentamento della denominazione del colore e una piccola influenza sulla lettura 77 della parola, con un aumento della differenza tra le performance del colore e della parola. Gli autori dell’articolo per studiare sistematicamente questo effetto della dimensione della struttura della rete hanno introdotto delle variabili aggiuntive, necessarie per adattare l’architettura della rete di Cohen et al. alle esigenze della nuova struttura neurale. Per determinare se i risultati di un esperimento potevano essere confrontati con il modello di Cohen et. al., veniva condotto un esperimento che era costituito da un’analisi fattoriale della differenza tra le varie dimensioni delle strutture neurali. L’esperimento era costituito da tre differenti strutture neurali diverse per dimensione. Una struttura aveva le stesse dimensioni dell’architettura neurale del modello di Cohen (1990), caratterizzato da due risposte alternative. Le altre due strutture della rete avevano tre e quattro risposte alternative con una dimensione che rifletteva rispettivamente una struttura di 3 – 3 e di 4 – 4. I risultati di questo esperimento possono essere trattati in due modi: il primo è che i dati derivati dalla struttura 2 – 2 possono essere confrontati direttamente con l’architettura di Cohen et. al. Il secondo modo è quello di utilizzare i risultati derivati dalla manipolazione della dimensione della struttura neurale, per verificare l’influenza prodotta dalle diverse dimensioni della struttura neurale sulla differenziazione delle performance durante lo svolgimento della prova colore o della prova parola. I risultati di queste simulazioni evidenziano che pur variando la dimensione della struttura della rete, le performance di lettura della parola si mantengono comunque più veloci delle prestazioni di denominazione del colore. Un risultato di importanza maggiore è stato rilevato dal confronto delle differenze delle performance tra la lettura della parola e la denominazione del colore: al variare della dimensione della struttura neurale, aumentando il numero di risposte alternative, le latenze della lettura della parola diminuiscono leggermente rispetto alla più consistente diminuzione delle latenze della denominazione del colore. Questa caratteristica dei risultati era stata suggerita anche da MacLeod.100 Con l’influenza della dimensione della struttura neurale vi è anche una particolare configurazione degli effetti di interferenza e facilitazione che influisce sulla differenziazione della parola – colore. In particolare, vi è una leggera influenza della performance di lettura della parola in condizioni di congruenza parola – 100 MacLeod, C. (1991). Op. cit. e pp. cit. 78 colore. Quando è considerata la performance della denominazione del colore viene prodotto un rovesciamento delle performance tra gli effetti di interferenza e gli effetti di facilitazione: vengono prodotti grandi effetti di interferenza, che aumentano in funzione della dimensione strutturale della rete, con la conseguente diminuzione degli effetti di facilitazione. Questo risultato non sorprende se si considera, come suggerito da MacLeod, che la soglia di riferimento utilizzata per misurare gli effetti di facilitazione e interferenza era una riga neutrale di lettere X. Questa considerazione aggravava il livello di validità del modello di Cohen et al., perché le reti neurali implementate dagli autori, anche se producevano effetti di facilitazione, risultavano essere minori degli effetti di interferenza. In conclusione, le singole analisi condotte su ciascuna simulazione confrontate con i dati empirici rilevati negli ambienti sperimentali reali, dimostrano che con l’aumentare del numero delle unità, sia che venga mantenuta la simmetria, la qualità della modellizzazione diminuisce perché i risultati prodotti dalle simulazioni si discostano troppo dai risultati rilevati nella realtà. 4.6 Discussione dei risultati. L’obiettivo principale ed iniziale di questo studio era la modellizzazione dei cambiamenti delle performance riscontrati nell’invecchiamento e in soggetti affetti dalla demenza di Alzheimer durante lo svolgimento del compito Stroop, utilizzando il modello connessionista di Cohen et al. Per realizzare questo obiettivo, gli autori hanno implementato un’architettura neurale leggermente differente dall’architettura di Cohen et al. Per mezzo di questa nuova architettura è stato possibile rilevare tutti i dati empirici della denominazione del colore, ma non riuscire a fornire una completa descrizione dei dati riscontrati durante lo svolgimento della lettura della parola. Per affrontare questa discussione, ossia se il problema riscontrato era stato prodotto dall’utilizzazione di un’architettura asimmetrica, gli autori hanno implementato due nuove strutture neurali caratterizzate da un’architettura simmetrica. Questa architettura simmetrica forniva una rappresentazione migliore dei dati empirici, ma incontrava problemi nel descrivere, nelle varie condizioni, alcune particolari configurazioni dei risultati sperimentali reali. Questa insufficienza, per gli autori, significava riesaminare i dati simulati dal modello di 79 Cohen et al., e sollevava la questione del verificare se veramente l’architettura implementata simulava la manipolazione degli obiettivi dell’esperimento. Gli autori dell’articolo osservarono che l’esperimento simulato per mezzo del modello di Cohen et al. faceva riferimento a un disegno sperimentale caratterizzato da un numero maggiore di items del set di risposta rispetto all’architettura 2 – 2 implementata. Per verificare la conseguenza di questa discrepanza, gli autori analizzarono i risultati dell’esperimento per studiare le possibili conseguenze prodotte dalle differenze delle dimensioni strutturali tra le reti. L’architettura di Cohen et al. non era capace di descrivere alcuni aspetti importanti dei risultati dell’esperimento reale. Cohen et al. sostenevano che il loro modello che interpretava i due processi (colore, parola), come caratterizzati, a livello qualitativo, dagli stessi meccanismi e che differivano solo per la loro forza e resistenza, riusciva a cogliere le differenze tra le performance per mezzo della velocità di elaborazione, caratterizzate da una configurazione di effetti di interferenza che descriveva la differenziazione tra i processi automatici e controllati. Il modello in realtà non mostrava questi effetti e l’affermazione sostenuta da Cohen et al. non può essere considerata, perché i risultati sono stati interpretati per mezzo della seguente assunzione: i processi di lettura della parola e di denominazione del colore sono meccanismi qualitativamente identici. Invece, gli autori di questo articolo considerano la possibilità dell’esistenza di molti diversi processi che contribuiscono all’esecuzione dei processi di lettura della parola e di denominazione del colore. Per esempio, gli autori preferiscono assumere un approccio di tipo identificativo: identificazione della parola per mezzo di una lettura a livello visivo, eseguita da un circuito neurale caratterizzato dall’elaborazione di informazioni di mappe fonologiche, provenienti direttamente dalle configurazioni ortografiche (vedi gli studi di Coltheart e di Seidenberg & McClelland).101 Questo percorso di tipo non semantico della lettura della parola potrebbe prevalere quando gli stimoli vengono ripetuti per mezzo delle sessioni di sperimentazione, come negli studi dello Stroop. In questo modo, le latenze delle risposte di lettura della parola si mantengono relativamente veloci e non dovrebbero 101 Coltheart, M. (1978). Lexical access in a simple reading task. In G. Underwood (Ed.), Strategies of information processing (pp. 151 – 216). London: Academic Press. Vedi anche: Seidenberg, M., & McClelland, J. (1989). A distributed, developmental model of word recognition and naming. Psychological Review, 96, 523 – 568. 80 essere influenzate dalle manipolazioni della dimensione della rete neurale e quindi dovrebbero essere poco sensibili alle piccole informazioni del colore, come è stato osservato negli studi empirici svolti nella realtà umana. Sebbene sia possibile utilizzare un percorso di tipo non semantico per mezzo dell’aumento di pratica, gli autori dell’articolo ipotizzano che tale percorso non dovrebbe essere coinvolto nel processo di denominazione del colore. Nella denominazione del colore i soggetti sono più propensi a percepire la tonalità degli stimoli, come rappresentazioni a livello di significato. Le performance durante lo svolgimento di questi tipi di compiti, se sono messe a confronto con le performance di lettura della parola, risultano essere molto più lente nella condizione di denominazione del colore. Questo risultato può dipendere in parte dalla dimensione della struttura del compito: quando viene richiesto di utilizzare un maggior numero di risposte di tipo colore è probabile che i soggetti, per generare la risposta di denominazione del colore, non utilizzino un semplice rilevamento degli stimoli – risposta. In questa situazione, con l’aumento della quantità degli stimoli è possibile riscontrare un rallentamento della denominazione del colore: infatti le parole influenzano e guidano direttamente la risposta per mezzo della coerenza ortografica e della rilevazione fonologica, e quindi un aumento della dimensione produrrà una minore influenza sulle performance. Gli autori ipotizzano l’esistenza di notevoli differenze tra l’elaborazione dei circuiti neurali della lettura della parola e i circuiti neurali della denominazione del colore, e quindi un modello che utilizza delle strutture neurali uguali per ciascun circuito non riuscirà mai a descrivere completamente le operazioni coinvolte durante l’esecuzione dei compiti parola – colore del test di Stroop. Con questa interpretazione, risulta evidente che il modello di Cohen et al. potrebbe essere utile per la modellizzazione degli effetti di interferenza a livello di significato, evidenziati anche negli studi dello Stroop; inoltre è stato utile anche per la concettualizzazione e l’implementazione delle operazioni di specificazione necessarie per identificare il tipo di compito da svolgere (lettura della parola e denominazione del colore). Questi sistemi attenzionali per la specificazione del tipo di compito, sono necessari per produrre la differenziazione tra le performance e per evidenziare le caratteristiche che differenziano la lettura della parola dalla denominazione del colore. 81 Inoltre, gli autori di questo articolo propongono la concettualizzazione e l’implementazione di argomenti riguardanti la dimensione strutturale della rete neurale e dell’asimmetria tra i circuiti neurali. Questi concetti sono importanti per comprendere meglio i problemi osservati durante la fase di apprendimento della rete. Le modellizzazioni non sono state, in ogni caso, capaci di descrivere completamente tutti i dati osservati negli esperimenti condotti con soggetti umani, in particolare le differenze delle performance tra la lettura della parola e la denominazione del colore. Gli autori sostengono inoltre che le difficoltà osservate nell’assunzione teorica di Cohen et al. siano rintracciabili nell’aver considerato dello stesso tipo l’elaborazione tra i processi di lettura della parola e di denominazione del colore, e che la differenza principale tra i circuiti neurali sia la quantità di pratica svolta. Il principale fallimento dell’adattamento del modello sui dati empirici era risultato dall’incapacità delle simulazioni di riflettere accuratamente le differenze di velocità della condizione parola, in relazione alla velocità della condizione colore. Infatti, il modello non riusciva a simulare perfettamente la performance della denominazione del colore quando veniva considerata da sola, perché il modello di Cohen et al. considerava i due compiti influenzati reciprocamente, in proporzione al livello di automaticità raggiunto. Pertanto è impossibile considerare solo un compito senza avere il coinvolgimento dell’altro. Gli autori di questo articolo, inoltre, sostengono che è necessario implementare un percorso qualitativamente distinto per la lettura della parola. Un percorso separato e diretto alla rappresentazione visuale degli stimoli parola, per mezzo di un output articolatorio. Questa soluzione potrebbe risultare più adatta a descrivere, simultaneamente, gli effetti asimmetrici di congruenza nella lettura della parola e nella denominazione del colore e la superiorità della parola sulla denominazione del colore. Nonostante le molteplici critiche ai molti aspetti del modello di Cohen et al., gli autori dell’articolo commentano positivamente le molte potenzialità del modello. Per esempio, il modello si serve di un eccellente ambiente di sviluppo per descrivere gli effetti di interferenza a livello di significato: è uno dei pochi modelli computazionali che permette di simulare le performance del compito Stroop, e quindi può essere utilizzato per compiere delle valutazioni empiriche. Inoltre, il modello raccoglie molti aspetti della denominazione del colore: l’asimmetria tra la 82 facilitazione e l’interferenza, l’asincronizzazione temporale della presentazione degli stimoli e gli effetti di pratica. Infine, una caratteristica importante del modello è la modellizzazione di un modulo per la selezione del tipo di compito. La principale critica mossa dagli autori è stata quella di utilizzare un’architettura identica per entrambi i percorsi di lettura della parola e di denominazione del colore. Gli autori rifiutano l’ipotesi sostenuta da Cohen et al. che i processi dei due percorsi siano qualitativamente identici. 83 Capitolo 5. La risposta degli autori alla critica di Spider et al. 5.1 Introduzione. Spieler et al. hanno riportato nuovi dati empirici e nuovi risultati delle simulazioni102 che contestano e criticano il modello di Cohen et al.103 L’obiettivo principale della modellizzazione era lo studio delle performance rilevate durante lo svolgimento del compito dello Stroop. Questa critica faceva riferimento alle capacità del modello di simulare i tempi di reazione al variare del numero degli stimoli che caratterizzavano il tipo di compito. In particolare, riportavano dei dati rilevati in ambienti sperimentali reali, indicando che con l’aumentare della dimensione strutturale del compito aumentavano i tempi impiegati per la denominazione del colore e l’aumento era maggiore rispetto ai tempi di lettura della parola. Quindi, con queste evidenze sperimentali era possibile sostenere che il modello di Cohen et al. esibiva un comportamento contrario alle performance dei soggetti sperimentali reali. Gli autori del modello originale reagiscono alle critiche sostenendo le tre seguenti affermazioni. La prima è che negli studi di Spieler et al. non erano considerati gli stessi meccanismi descritti da Cohen et al., rivolti alla modellizzazione degli effetti causati dalla dimensione strutturale del tipo di compito. Quando gli autori dell’articolo originale implementano questi meccanismi nella simulazione viene riscontrato un miglioramento a livello qualitativo dell’adattamento della modellizzazione ai dati sperimentali. Nella seconda parte della discussione sono state considerate le principali limitazioni del modello originale. Queste limitazioni sono per la maggior parte causate dall’utilizzazione di inibizioni di tipo feed – forward. Gli autori del seguente articolo espongono in breve i risultati di un recente lavoro sperimentale che 102 Kanne, S. M., Balta, D. A., Spieler, D. H., & Faust, M. E. (1998). Explorations of Cohen, Dunbar, and McClelland’s (1990) connectionist model of Stroop performance. Psychological Review, 105, 174 – 187. 103 Cohen, J. D., Dunbar, K., & McClelland, J. L. (1990). Op. cit. e pp. cit. 84 considera queste limitazioni implementando inibizioni di tipo ricorrente anziché utilizzare inibizioni di tipo feed – forward.104 Infine, gli autori evidenziano alcune assunzioni teoriche del modello originale che mettono in relazione il processo di lettura della parola con il processo di denominazione del colore. Anche se gli autori sono d’accordo con Spieler et al. sulla probabile esistenza di importanti differenze tra questi processi, non concordano sul fatto che i loro risultati descrivano ed evidenzino questi fattori. Inoltre, gli autori del seguente articolo ripropongono e confermano l’assunzione originale della cornice teorica di riferimento: la tipologia delle differenze tra le due elaborazioni non deve essere considerata allo stesso livello della distinzione di tipo qualitativo, assunta per descrivere e distinguere l’elaborazione controllata dall’elaborazione automatica. 5.2 Gli effetti della dimensione strutturale del compito nel modello originale. 5.2.1 Assunzioni teoriche diverse, risultati sperimentali diversi. Gli studi di Spieler et al. non consideravano esaurientemente i meccanismi impiegati dagli autori dell’articolo originale per simulare gli effetti della dimensione strutturale del compito. Questi meccanismi implementavano le principali caratteristiche degli effetti attenzionali. Infatti, Spieler et al. utilizzavano diverse reti neurali per simulare le diverse dimensioni strutturali del compito; ciascuna rete veniva allenata in base al diverso numero di stimoli. Questa implementazione differiva da quella di Cohen et al. per descrivere gli effetti della dimensione del compito, per mezzo dello spostamento dell’attenzione tra le unità che rappresentano gli stimoli e le risposte della rete. Nella concettualizzazione originale non sembrava possibile che i partecipanti, prima di svolgere l’esperimento, avessero avuto diverse reti neurali ciascuna allenata a riconoscere le diverse parole che identificavano il tipo di colore presentato. Piuttosto sembrava più ragionevole assumere che la variazione del numero degli 104 Cohen, J. D., McClelland, J. L., & Usher, M. (1998). A PDP approach to set size effects within the Stroop task: Reply to Kanne, Balota, Spieler, and Faust (1998). Psychological Review, 105, 174 187. 85 stimoli e delle risposte, in un dato esperimento o condizione, causa dei cambiamenti nella dinamica dello spostamento dell’attenzione tra le unità: il risultato di questi cambiamenti produce una grande e unica rappresentazione dei potenziali stimoli e risposte; tutte le unità di tutti gli stimoli vengono rappresentate dal partecipante come entità familiari. Con questa interpretazione, il modo più adatto per simulare gli effetti della dimensione strutturale del compito potrebbe essere quella di allenare una singola rete neurale con il massimo numero di stimoli e risposte che caratterizzano l’esperimento. Per valutare la performance della rete era possibile variare le dimensioni della rete medesima durante l’assegnazione dell’attenzione agli stimoli e alle risposte che dovevano essere valutate. Spieler et al. assumono la suddetta interpretazione riportando i risultati di una simulazione che era caratterizzata da un’architettura neurale di 4 – 4, allenata a rispondere correttamente ai quattro stimoli per mezzo dello spostamento dell’attenzione; non veniva però, in questo modo, simulato l’apprendimento in funzione degli effetti della dimensione strutturale della rete neurale. Inoltre Cohen et al. consideravano un principio fondamentale per implementare l’elaborazione degli effetti attenzionali di allocazione: l’attenzione garantisce che tutte le unità che costituisco un circuito neurale assumano un’attività a riposo che sia localizzata in un intervallo della funzione di attivazione di maggiore sensibilità (in questo caso, nella funzione logaritmica corrispondeva a un livello di attività di 0.5). Quindi, una delle ragioni principali del perché le simulazioni di Spieler et al. non riuscivano ad adattarsi ai dati prodotti dalle simulazioni dell’articolo originale, è rintracciabile nella mancanza, nella cornice sperimentale adottata, del suddetto principio. Questo principio, nel modello originale, veniva implementato al livello dello strato intermedio: i pesi delle connessioni controbilanciavano positivamente la deviazione negativa di attivazione delle unità e le connessioni che provenivano dalle unità di richiesta del tipo di compito (unità che rappresentavano il sistema attenzionale). Come avevano fatto notare Spieler et al., la simmetria dei pesi eccitatori ed inibitori in un architettura di tipo 2 – 2 garantisce all’ingresso della rete, per ciascuna unità, un’attività a riposo di zero e quindi le attivazioni, per questa ragione, assumevano un valore di 0.5. Questo comportamento non è riscontrabile in un’architettura neurale asimmetrica, oppure più grande di 2 – 2. Questa incongruenza dei risultati può essere risolta permettendo ai partecipanti di conoscere, anticipatamente, il tipo di richiesta del compito da svolgere ed avere, in 86 questo modo, l’effetto dei livelli a riposo di tutte le unità del compito corrispondente a 0.5. Gli autori della risposta alla critica, quindi, sostengono che l’adattamento del modello all’impostazione originale non può essere considerato valido perché non è stato rispettato il principio fondamentale del modello di Cohen et al.: il ruolo dell’attenzione di spostare le elaborazioni delle unità del circuito neurale corrispondente al tipo di richiesta del compito, nella regione della funzione di attivazione più sensibile. 5.2.2 La modellizzazione del sistema attenzionale. Gli effetti attenzionali in relazione al tipo di compito sono necessari per stabilire il ruolo dell’attenzione durante la presentazione degli stimoli di un particolare compito: l’attenzione, in questo modo, configura lo stato delle unità corrispondenti al tipo di compito in una condizione specifica. Questi effetti possono essere implementati in una simulazione in diversi modi. Uno di questi è implementando esplicitamente un set di unità che rappresentano la conoscenza che hanno i partecipanti a proposito dei differenti tipi di condizioni richieste dal tipo di compito che deve essere svolto: questo tipo di conoscenza fornisce alle unità del circuito neurale corrispondente un determinato livello di attivazione. Gli autori nel modello originale utilizzavano queste unità di richiesta del tipo di compito da svolgere per rappresentare la conoscenza che avevano i partecipanti per quanto riguarda la dimensione degli stimoli per una data condizione del compito (per esempio, denominazione del colore oppure lettura della parola), in modo da preattivare le unità dello strato intermedio del circuito neurale corrispondente. Un altro modo per preattivare lo stato dello unità è quello di influenzare le loro deviazioni per mezzo di piccole variazioni, per arrivare, prima che inizi la fase di apprendimento, ad un’attivazione di 0.5. Un aspetto principale della questione riguarda il modo in cui viene propagata e sviluppata l’attivazione delle unità di richiesta del tipo di compito da svolgere e come le unità del circuito neurale corrispondente possono essere influenzate, così come può essere adattato il concetto di allocazione dell’attenzione per un dato compito o condizione. La situazione può essere ulteriormente complicata se si considera che l’attivazione delle rappresentazioni del compito e le configurazioni 87 delle deviazioni delle unità possono essere dinamicamente modificate dall’esperienza accumulata dai partecipanti per svolgere un particolare tipo di compito. I meccanismi sottostanti a questi processi sono di principale interesse per tutte quelle teorie che tentano di spiegare il modo con il quale l’attenzione viene distribuita. Comunque, come è stato chiaramente sostenuto da Cohen et al. questo aspetto nel modello originale non veniva considerato come obiettivo: L’obiettivo di questo articolo…non è quello di trovare la modalità di interpretazione più valida per implementare un particolare tipo di compito, oppure come le decisioni che riguardano l’assegnazione dell’attenzione possono essere prodotte. Piuttosto gli autori sono concentrati su come l’informazione del compito e la corrispondente assegnazione dell’attenzione influenzano l’elaborazione del circuito neurale, direttamente coinvolto nello svolgimento del compito. Quindi, il modello non aveva come obiettivo quello di spiegare come le unità di richiesta del tipo di compito influenzavano la conoscenza dei partecipanti in relazione all’esperienza acquisita precedentemente con il tipo di compito da svolgere. Piuttosto il modello aveva come obiettivo quello di mostrare come i meccanismi ipotizzati potevano descrivere e considerare gli effetti attenzionali. La caratteristica principale del modello è situata in questi meccanismi che producono effetti attenzionali, per mezzo dello spostamento delle attivazioni di tutte le unità a riposo del compito corrispondente nella regione più sensibile della loro funzione di attivazione. Sebbene il modello originale non considerasse la situazione in cui vi era asimmetria fra i pesi delle connessioni, questa condizione può essere trattata assumendo che i meccanismi responsabili dell’allocazione dell’attenzione impostano l’attivazione delle unità in un set di risposta che azzera gli ingressi ricevuti e produce un livello di attivazione a riposo di 0.5. Questa configurazione delle attivazioni è coerente, a livello dello strato intermedio, con i principi di implementazione degli effetti attenzionali di Cohen et al. Quindi è necessario sottolineare che le simulazioni di Spieler et al. non implementano questi meccanismi attenzionali, centrali invece per la spiegazione e l’implementazione dei principi che costituiscono il contesto teorico del modello originale. 88 5.2.3 Riconsiderazione delle simulazioni di Spieler et al. Per analizzare come questi fattori attenzionali possono influire sulle performance delle simulazioni di Spieler et al. e giustificare i risultati riscontrati dagli autori del modello originali, gli autori della risposta alla critica ripropongono delle simulazioni che meglio implementano i principi descritti nei paragrafi precedenti. La simulazione era simile a quella proposta dagli autori della critica, caratterizzata da una configurazione di pesi di connessione uguale al modello 4 – 4 di Spieler et al. Gli autori volevano sperimentare l’eventualità che con l’aggiunta dei meccanismi attenzionali discussi precedentemente era possibile migliorare la capacità della simulazione di descrivere i dati empirici riscontrati nella realtà umana. Sono tre, quindi, i cambiamenti apportati da Cohen et al. sulla simulazione di Spieler et al.. Il primo cambiamento è stato apportato sulla deviazione dei parametri coinvolti all’elaborazione dei valori che caratterizzano i processi, per produrre un livello di attivazione a riposo delle unità di uscita uguale a 0.5. Questo cambiamento è stato necessario per implementare l’ipotesi sostenuta dagli autori, ossia che le deviazioni dei valori riflettono e riproducono le influenze dell’attenzione. Il valore di deviazione differisce tra i compiti di lettura della parola e denominazione del colore perché differiscono anche i pesi di connessione tra le unità intermedie e le unità di uscita del circuito neurale corrispondente al tipo di compito. I valori di deviazione differiscono anche per ciascun tipo di compito in funzione della dimensione strutturale del compito stesso. Queste variazioni tra la dimensione della struttura del compito e il tipo di compito da svolgere rispettano il contesto sperimentale degli studi empirici reali: ciascun partecipante era valutato per un’unica dimensione del compito e gli sperimentatori potevano regolare l’allocazione dell’attenzione del partecipante, in modo da ottimizzare la sensibilità della rappresentazione corrispondente al tipo di compito da svolgere. Nel secondo cambiamento è stata aumentata la dimensione degli effetti attenzionali coinvolti durante lo svolgimento del compito, aumentando la deviazione negativa delle unità intermedie (–4.5) e incrementando a 4.5 i valori dei pesi di connessione tra lo strato intermedio e le unità di richiesta del tipo di compito. E’ stato necessario questo cambiamento per adattare le maggiori dimensioni della struttura neurale e per simulare le piccole influenze del colore e della parola, osservate e riportate nei 89 dati di Spieler et al. in riferimento ai dati empirici reali di Dunbar e MacLeod.105 Infine, è stata modificata la sensibilità di risposta delle unità alle influenze prodotte durante lo svolgimento del compito: l’attivazione a riposo delle unità dello strato nascosto e dello strato di uscita era stata impostata a un livello inferiore rispetto al punto di maggiore sensibilità della funzione di attivazione. Con questa configurazione, la media dei tempi di reazione degli stimoli per ciascuna condizione di ciascun compito in relazione alla dimensione strutturale del compito, mostra che la simulazione riesce a produrre un migliore adattamento dei dati empirici: in particolare, come era stato riscontrato nella simulazione di Spieler et al., i tempi della denominazione del colore in funzione della dimensione strutturale del compito aumentano anziché diminuire. Questi risultati suggeriscono che è possibile risolvere alcuni problemi sollevati dalla critica di Spieler et al., impostando tutte le unità del circuito neurale corrispondente al tipo di compito a livello dello strato intermedio e a livello dello strato di uscita, nell’intervallo più sensibile del range dinamico della funzione di attivazione che caratterizza le unità del circuito neurale, corrispondente al tipo di compito da svolgere. 5.2.4 I molteplici fattori che influenzano la performance della modellizzazione neurale dell’effetto Stroop. Tuttavia la simulazione incontra ancora qualche problema, nel descrivere alcune caratteristiche dei tempi di reazione dei dati empirici riscontrati nella realtà: sebbene i tempi di denominazione del colore diminuiscono in funzione della dimensione strutturale del compito, questo effetto non è ancora abbastanza grande e sufficiente a descrivere le evidenze sperimentali reali. Inoltre, è probabile che i tempi di lettura della parola riscontrati nella simulazione siano ancora troppo grandi per descrivere validamente i dati sperimentali. Anche nelle simulazioni di Spieler et al. sono stati osservati degli effetti simili e sono stati attribuiti al fatto che i livelli di attivazione a riposo delle unità erano troppo bassi rispetto al valore di 0.5 delle reti neurali più grandi. Tali effetti persistono anche nelle simulazioni di questo articolo, pur se le attivazioni a riposo delle unità di uscita sono state impostate ad un intervallo di sensibilità più alto. Questo risultato suggerisce che le analisi degli effetti medesimi condotte da Spieler et al. sono incomplete e poco affidabili. Le loro 105 Dunbar, K., & MacLeod, C. M. (1984). Op. cit. e pp. cit. 90 analisi erano maggiormente focalizzate sulla non linearità della funzione di attivazione. Inoltre, nel modello degli autori di questo articolo sono stati presentati ulteriori possibili fattori che influenzano le dinamiche di elaborazione: per esempio gli effetti della funzione ‘a cascata’ influenzano la media dei tempi di reazione e l’interazione tra questa caratteristica e la funzione di attivazione (per esempio, la differenza tra le attivazioni accumulate dalle unità più attive). Uno degli obbiettivi principali di questo articolo è proprio quello di condurre un’analisi dettagliata di questi effetti e la modalità con cui questi effetti possono essere messi in relazione con gli effetti della dimensione strutturale del compito. Gli autori, inoltre, sono consapevoli della presenza di ulteriori problemi per quanto riguarda la validità dei risultati prodotti dalla loro simulazione: per esempio, come avevano evidenziato Spieler et al., la simulazione produce una quantità di facilitazione maggiore nella condizione di congruenza in relazione alla dimensione strutturale del compito; un comportamento questo che non era stato evidenziato nella condizione sperimentale reale. Lo scopo delle simulazioni degli autori di questo articolo è quello di mostrate come è possibile migliorare le capacità di un modello nel descrivere i dati empirici reali, implementando i principi centrali del contesto teorico su cui vengono basate le spiegazioni dei dati empirici riscontrati. La presenza di ulteriori fattori di implementazione che influenzano le performance di un modello: fattori che erano stati identificati nell’articolo di Cohen et al. e utilizzati per ottimizzare la capacità di adattamento della condizione artificiale con quella reale; quindi analizzare questi fattori significa migliorare la qualità della modellizzazione. Questi fattori, nel caso specifico della modellizzazione della prova di interferenza colore – parola di Stroop, includono anche la specificità dell’intervallo di apprendimento dei colori e delle parole, il criterio di arresto dell’apprendimento e le influenze prodotte dall’attenzione a livello dello strato intermedio e dello strato di uscita. Inoltre, come era stato evidenziato nell’articolo originale, vi sono ulteriori complesse interdipendenze tra questi parametri. Per esempio, l’aspetto della quantità relativa di apprendimento fornito alle parole e ai colori. 91 5.2.5 La condizione di lettura della parola e di denominazione del colore. Nell’articolo originale, gli autori assumevano che i partecipanti avessero avuto una maggiore esperienza con la lettura della parola rispetto alla denominazione del colore. Non vi sono, comunque, dati empirici che giustifichino direttamente questa assunzione; l’intervallo specifico delle prove di apprendimento per la lettura della parola e per la denominazione del colore veniva considerato come un parametro indipendente, che creava le condizioni adatte e necessarie per produrre un valore che descriveva, nel miglior modo possibile, i dati empirici riguardanti il paradigma della prova di interferenza colore – parola di Stroop: la velocità relativa della lettura della parola versus la velocità relativa di denominazione del colore. La proporzione 5:1 utilizzata per produrre l’adattamento migliore dei risultati della simulazione ai dati empirici riscontrati nella realtà, risultava essere ottimale per un’architettura neurale di tipo 2 – 2 e quindi di conseguenza, la stessa proporzione non può essere considerata per un’architettura neurale più grande. Inoltre, questi parametri interagiscono con la forza degli effetti attenzionali coinvolti al livello dello strato intermedio e di uscita. Gli autori non avevano esaurientemente analizzato questi parametri e condizioni, ipotizzando quindi che una delle possibili cause dei problemi riscontrati nelle architetture neurali più grandi sia dovuta alla differenza che intercorre nella quantità di effetti che caratterizzano un’architettura neurale più grande, con una proporzione 5:1 troppo piccola per questa particolare struttura neurale. Una proporzione più grande potrebbe riuscire meglio a descrivere i risultati della lettura della parola riscontrati nella realtà, essendo influenzata di meno dalla dimensione strutturale del compito rispetto alla denominazione del colore. Inoltre, gli autori della modellizzazione originale non avevano analizzato gli effetti di asimmetria del numero di colori e parole che caratterizzavano la fase di apprendimento della rete neurale: questo aspetto risulta essere uno degli studi principali descritti e sostenuti nell’articolo di Spieler et al. L’asimmetria, quindi, potrebbe interagire con gli effetti della dimensione strutturale del compito (per esempio l’apprendimento di un maggior numero di parole rispetto ai colori potrebbe aiutare a diminuire gli effetti causati dalla dimensione strutturale del compito sulla parola). 92 5.2.6 Il problema della dimensione strutturale del compito. Spieler et al. riportarono lo studio e l’implementazione di alcuni dei possibili fattori coinvolti durante lo svolgimento del compito Stroop (per esempio l’intervallo di apprendimento, il criterio di arresto e l’asimmetria nel numero di colori e parole). Non avevano però effettuato lo studio di altri fattori, come per esempio la forza degli effetti dell’attenzione. Infatti, le loro simulazioni non erano caratterizzate dai meccanismi attenzionali, che nel modello originale implementano uno dei principi centrali della cornice teorica di riferimento: tutte le unità di un circuito neurale, corrispondente alla richiesta del tipo di compito da eseguire, assumono un’attivazione a riposo localizzata nell’intervallo più sensibile della loro funzione di attivazione. Pertanto gli autori di questo articolo sostengono che sia prematuro non considerare gli aspetti principali del modello originale. Inoltre, gli autori giustificano la mancanza dei meccanismi che descrivono la dimensione strutturale del compito con la seguente affermazione: la modellizzazione 2 – 2 era la struttura neurale più semplice e più adatta per descrivere e implementare i principi necessari alla produzione dei fenomeni di principale interesse, rilevati sui soggetti sperimentali reali durante lo svolgimento della prova di interferenza colore – parola di Stroop. Per implementare un’architettura neurale più grande è necessario cambiare i valori dei parametri di deviazione e il valore dei pesi delle connessioni del sistema attenzionale. La situazione si complica quando viene variata la dimensione strutturale della rete neurale: per implementare questo tipo di variazione è necessario aggiungere ulteriori meccanismi, per esempio sistemi responsabili della gestione e della variazione dei parametri di deviazione. Spieler et al. analizzarono in maniera diretta e sistematica gli effetti della variazione strutturale della rete neurale, manipolando la quantità di stimoli e di risposte. Questa variazione interessa complessivamente anche il sistema attenzionale di allocazione. Quindi, con tutte queste considerazioni è probabile che nel modello originale ci siano delle limitazioni fondamentali che devono essere analizzate. Gli autori della risposta alla critica, pertanto propongono e considerano un recente lavoro che analizza queste limitazioni. 93 5.3 Gli effetti causati dalla dimensione della struttura neurale e i meccanismi di inibizione. Una caratteristica del modello che Cohen et al. considerano come una delle principali limitazioni è l’utilizzo di un’architettura di elaborazione di tipo feed – forward. Alcuni recenti modelli utilizzano tra gli strati connessioni di tipo eccitatorio e tra le unità dello stesso strato connessioni di tipo inibitorio. Le connessioni inibitorie tra gli strati causano dei problemi alle reti connessioniste che sono caratterizzate da unità di tipo locale, ossia da quelle unità che, nella modellizzazione di un processo cognitivo, hanno la funzione di rilevatore del tipo di entità cognitiva coinvolta: lettere, parole o concetti - per esempio “il colore verde”. Il problema è evidente nel caso in cui un’attivazione di uno strato della rete neurale risulta essere parziale tra le possibili alternative che la possono rendere completa. L’inibizione di tipo feed – forward è in grado di risolvere questo problema, utilizzando queste attivazioni parziali a livello dello strato successivo. Per descrivere meglio il problema si può considerare il modello delle attivazioni interattive per la percezione della lettera di McClelland e Rumelhart.106 Il modello era costituito da una parola formata da tre lettere e a ciascuna lettera era assegnata una specifica posizione. Ipotizzando che venga presentato uno stimolo ambiguo, si attivano per ciascuna posizione due alternative: R oppure P nella prima posizione, E o F nella seconda e D o B nella terza. Per questi stimoli vi è solo una parola che si adatta correttamente a ciascuna delle tre posizioni e a una sola lettera tra le lettere alternative disponibili. Se l’attivazione di ciascuna alternativa a una data configurazione di unità attiva delle alternative al livello successivo che sono corrispondenti alla risposta corretta e inibisce le alternative al livello successivo che non sono corrispondenti alla risposta corretta, non vengono prodotte le attivazioni delle risposte alternative. Il problema viene risolto sostituendo le inibizioni di tipo bottom – up con inibizioni ricorrenti oppure laterali. Questa sostituzione viene implementata per mezzo della reciproca inibizione delle connessioni di ciascuna unità: ciascuna unità, infatti, è connessa con le altre dello stesso strato. In questo caso alcune parole riceveranno un’eccitazione di tipo botton – up e solo l’unita della parola “red” sarà attivata in una sola occasione in ciascuna delle tre posizioni. Come è stato dimostrato nelle simulazioni del presente capitolo, le influenze laterali 106 McClelland, J. L., & Rumelhart, D. E. (1981). Op. cit. e pp. cit. 94 inibitorie permettono all’alternativa migliore tra le possibili risposte, di essere scelta anche quando vi sono molte alternative di risposta in competizione. Per questa ed altre ragioni, McClelland et al. hanno sviluppato un modello alternativo ai modelli classici ‘a cascata’. In questo nuovo modello, tra i diversi livelli della rete vi sono solo connessioni di tipo eccitatorio e tra le connessioni delle unità dello stesso livello, per avere un vincitore tra le competizioni coinvolte vengono utilizzati processi di inibizione laterale. Considerando quanto detto precedentemente, gli autori di questo articolo descrivono le due ragioni principali per giustificare la scelta fatta da Cohen et al., ossia quella di utilizzare una logica di tipo feed – forward anziché di tipo inibitorio ricorrente. La prima ragione è rintracciabile nella struttura del modello originale, semplice e perfettamente adattato al caso in cui vi erano solo due alternative di risposta diametralmente opposte (rosso e verde). In questa situazione il risultato dell’esecuzione della prova era rappresentato dall’attivazione di una delle due possibili alternative e l’attivazione veniva considerata a livello della forza di attivazione. La seconda ragione è rintracciabile negli algoritmi di apprendimento implementati. Per una rete neurale connessionista è stato più opportuno utilizzare algoritmi di tipo feed-forward, senza utilizzare inibizioni ricorrenti o laterali. Inoltre, gli autori sostengono che gli effetti di rafforzamento graduale dei pesi di connessione, riscontrati nelle reti neurali di tipo feed – forward, possono essere analizzati per mezzo degli effetti di apprendimento. Gli autori, infine, suggeriscono l’implementazione di nuovi modelli che utilizzino reti neurali caratterizzate da inibizioni di tipo ricorrente anziché di tipo feed – forward, proponendo versioni semplificate di modellizzazione dell’effetto Stroop che utilizzano algoritmi di tipo ricorrente. In alcuni recenti lavori di Usher e Cohen107 gli autori hanno sviluppato versioni migliori del modello, assumendo una direzione che ha come obiettivo l’analisi degli effetti causati dalla dimensione strutturale della rete neurale, come proposto successivamente da Spieler et al. nella critica al modello originale di Cohen et al. 107 Usher, M., & Cohen, J. D. (1997). A connectionist model of the Stroop task revisited: Reaction time distributions and different effects on facilitation and interference captured by a single set of mechanism. Manuscript in preparation. 95 5.4 La lettura della parola versus la denominazione del colore. Gli autori Cohen et al. sono stati molto influenzati dalle caratteristiche dei modelli connessionisti, in particolare da quei modelli che sono caratterizzati dall’inibizione di tipo ricorrente, perché riescono a riprodurre importanti evidenze sperimentali per quanto riguarda l’analisi dei meccanismi sottostanti ai fenomeni attenzionali. La descrizione fornita dagli autori per quanto riguarda, invece, le performance prodotte dal modello durante lo svolgimento del compito di interferenza colore – parola di Stroop hanno il vantaggio non solo di evidenziare l’esistenza dei possibili meccanismi coinvolti ma anche di evidenziare, nell’implementazione, alti livelli di parsimonia e coerenza rispetto agli effetti riscontrati nella realtà. Uno dei punti principali proposto da Cohen et al. era l’ipotesi dell’esistenza di processi qualitativamente distinti che possono essere descritti e prodotti per mezzo di meccanismi qualitativamente identici. Gli autori di questo articolo riconoscono che questa affermazione è troppo restrittiva, in particolare per quanto riguarda i compiti di lettura della parola e di denominazione del colore che sembrano essere caratterizzati da meccanismi di diversa natura. Gli autori, inoltre, sono consapevoli del fatto che riproporre gli stessi effetti della realtà, non significa riproporre il corretto e completo funzionamento dei meccanismi effettivamente coinvolti. Infatti, come suggerito da Spieler et al. sono state riscontrate importanti differenze tra la denominazione del colore e la lettura della parola. Anche se questa eventualità è stata confermata, è possibile comunque continuare a descrivere e a considerare, nei modelli connessionistici in particolare, questi tipi di processi in termini di circuiti neurali caratterizzati da un’elaborazione qualitativamente identica. Questa possibilità non è stata ancora completamente analizzata, sia utilizzando l’architettura del modello originale di Cohen et al. e sia utilizzando architetture neurali caratterizzate da inibizione di tipo ricorrente. L’interpretazione principale degli autori dell’articolo originale sostiene che «gli effetti dello Stroop possono essere spiegati per mezzo delle differenze della forza dei due processi, che utilizzano meccanismi qualitativamente identici».108 Anche se questa affermazione non è giustificabile, è comunque presente un aspetto altrettanto centrale e importante, riguardante la similarità a livello qualitativo delle elaborazioni prodotte dai circuiti neurali, continuando comunque a rispettare la 108 Cohen, J. D., Dunbar, K., & McClelland, J. L. (1990). Op. cit. e pp. cit 96 distinzione tra elaborazione controllata e automatica. Ipotizzando, per esempio, che per spiegare la differenza nel compito dello Stroop degli effetti riscontrati durante la denominazione del colore e durante la lettura della parola, sia necessario un sistema aggiuntivo per l’elaborazione della denominazione del colore (per esempio, un’ulteriore strato a livello delle unità intermedie, un circuito neurale deputato alla rappresentazione del significato assunto da un colore, come è stato suggerito da Spieler et al.). Sebbene sia possibile che i circuiti neurali coinvolti, per ciascun tipo di compito, non siano identici, i meccanismi sottostanti ai due tipi di compiti usati per descrivere i fenomeni riscontrati durante lo svolgimento del compito Stroop, possono avere delle caratteristiche qualitativamente simili. Questo non significa che durante il compito di denominazione del colore sia necessario considerare un unico meccanismo, oppure dei meccanismi qualitativamente distintiti. Questa interpretazione risulta essere in contrasto con la teoria classica che considera la denominazione del colore come un processo controllato e la lettura della parola come un processo automatico e che questa differenza coinvolge meccanismi qualitativamente distinti. Vi sono anche altre possibili differenze tra la lettura della parola e la denominazione del colore. Per esempio, è stato proposto che la lettura della parola è un compito che utilizza una parziale ma regolare rappresentazione tra lo spelling e la lettura della parola, invece questo meccanismo non è presente nella denominazione del colore. Coerentemente con questa interpretazione, i diversi tipi di rappresentazione possono differire per ciascun circuito neurale. Quindi, come per le ipotesi a sostegno delle influenze prodotte dall’attenzione, gli autori hanno proposto l’esistenza di possibili interazioni tra i fattori rappresentazionali che caratterizzano il tipo di compito da svolgere. Comunque è probabile che le interazioni non siano rilevanti e sufficienti per descrivere la configurazione degli effetti osservati durante lo svolgimento del compito Stroop, perché, come è stato osservato in molte delle varianti del compito originale, gli stessi effetti possono essere prodotti anche quando vengono utilizzati altri tipi di stimoli, come per esempio in compiti in cui lo stimolo è un riferimento spaziale oppure una figura. Uno degli aspetti più importante del compito Stroop sono gli effetti prodotti durante lo svolgimento del compito, simulati nel modello originale per mezzo della ‘forza di elaborazione’: la ‘forza di elaborazione’, è il fattore principale per descrivere questi effetti, allo stesso livello di importanza delle differenze che caratterizzano i circuiti 97 neurali coinvolti. La ‘forza di elaborazione’ è una variabile continua e nel modello originale viene ipotizzato che le differenze qualitative presenti in questa variabile possono essere sufficienti per descrivere gli effetti prodotti dallo svolgimento del compito Stroop. Questa ipotesi risulta essere in contrasto con la più classica delle assunzioni teoriche, ossia quella che interpreta questi effetti in termini di differenziazioni qualitative tra le elaborazioni. Infine, è necessario chiarire che la cornice teorica assunta dagli autori dell’articolo originale e dagli autori del seguente articolo, non sostiene l’ipotesi secondo cui sia possibile spiegare la performance di tutti i compiti in termini di meccanismi qualitativamente simili. Per esempio, è possibile ipotizzare l’esistenza di meccanismi differenti durante lo svolgimento di un compito nuovo e insolito, in particolare tra le associazioni stimoli e risposte che lo caratterizzano. Gli autori non credono che le differenziazioni riscontrate nelle prove sperimentali originali tra la lettura della parola e la denominazione del colore siano prodotte per mezzo di questo particolare aspetto, poiché entrambi i tipi di compiti sono caratterizzati da associazioni stimoli – risposta altamente familiari. 5.5 Discussione dei risultati. Gli autori riconoscono che i dati presentati da Spieler et al. sono interessanti e significativi se non si considerano i principi fondamentali del modello originale. Gli autori non sono comunque d’accordo con Cohen et al. a proposito delle capacità dei principi di descrivere i dati sperimentali reali; questa discordanza è confermata e giustificata dagli studi sperimentali riportati da Spieler et al., caratterizzati da meccanismi che riescono meglio a descrivere i dati sperimentali reali. Uno dei risultati principali del loro studio è stato quello dell’allocazione dell’attenzione a tutti i livelli della rete neurale, ché per mezzo dell’attivazione prodotta dal sistema attenzionale, le funzioni di attivazione delle unità corrispondenti al tipo di compito da svolgere venivano impostate nella regione più sensibile per produrre una risposta. Spieler et al. non implementano questo principio a livello dello strato di uscita. Quindi, gli autori di questo articolo riconoscono la debolezza dei risultati degli esperimenti prodotti dalla simulazione originale. Inoltre, propongono lo studio e l’implementazione di ulteriori fattori - come per esempio la specificazione di un intervallo di apprendimento per i colori e per le parole, il criterio di arresto 98 dell’apprendimento, la dimensione delle influenze attenzionali ai livelli intermedi e di uscita - sostenendo che il modello originale può riuscire a simulare e a valutare esaurientemente questo tipo di fenomeni. Inoltre, gli autori sono consapevoli del fatto che l’aver utilizzato nel modello originale inibizioni di tipo feed – forward ha caratterizzato il modello di un fattore di forte limitazione, e per questo motivo propongono una nuova e possibile cornice di lavoro per estendere le capacità della simulazione e per risolvere la limitazione introducendo l’implementazione di inibizioni di tipo ricorrente. Infine, i dati di Spieler et al. evidenziano una importante questione che riguarda i meccanismi che determinano l’allocazione dell’attenzione. Questi meccanismi non sono stati consideranti negli obiettivi del modello originale ma sono, comunque, intimamente collegati con i tipi di effetti attenzionali implementati. Gli autori concludono che per mezzo di questi lavori sia possibile evidenziare maggiormente la stretta relazione esistente tra gli studi sperimentali reali e i tentativi di riuscire a cogliere i risultati di questi studi per mezzo di modelli simulativi artificiali di tipo esplicito. 99 Conclusioni La modellizzazione originale del compito di Stroop, sviluppata da Cohen et. al., suggeriva che anziché considerare il fenomeno dell’automaticità come un processo del tipo “tutto o nulla” può essere, invece, interpretato in termini di continuum basato sulla forza di elaborazione dei processi che lo caratterizzano. Gli autori hanno descritto una struttura di meccanismi, in grado di produrre gradualmente e continuamente rafforzamenti dei processi coinvolti durante lo svolgimento del compito Stroop ed evidenziato la modalità con il quale questi meccanismi possono descrivere i vari effetti prodotti dall’automaticità. In particolare, questi meccanismi descrivono e ipotizzano la possibile esistenza di un continuum che caratterizza gli attributi dell’automaticità, in relazione al continuum, dimostrato anche a livello sperimentale reale, degli effetti di pratica. Nel modello le differenze nella pratica determinano le differenze della ‘forza di elaborazione’ e questa relazione permette di simulare le stesse performance osservate durante lo svolgimento del compito Stroop dai soggetti umani. Il modello indica anche che interpretando lo Stroop come un “effetto” è possibile modellizzare il medesimo per mezzo della competizione di due processi qualitativamente simili, i quali differiscono solo per la loro forza di attivazione. A livello neurologico, il modello suggerisce ed ipotizza il modo con cui la corteccia frontale è coinvolta nello svolgimento dei processi volontari. Questo coinvolgimento è caratterizzato da un’attivazione di tipo top – down e supporta l’indebolimento dei processi, così come accade, per esempio, per lo svolgimento del compito di denominazione del colore. Dalla critica riportata da Spieler et al., gli autori riconoscono che i dati presentati sono interessanti e significativi se non si considerano i principi fondamentali del modello originale. Sono d’accordo, comunque, sul fatto che l’aver utilizzato nel modello originale inibizioni di tipo feed – forward sia stata una fonte di limitazione per le potenzialità del modello; e per questo motivo propongono una nuova e possibile cornice di lavoro per estendere le capacità della simulazione e per risolvere la limitazione, introducendo l’implementazione di inibizioni di tipo ricorrente. Infine, i dati di Spieler et al. evidenziano una importante questione che riguarda il funzionamento dei meccanismi che determinano l’allocazione dell’attenzione. 100 Questi meccanismi non sono stati considerati negli obiettivi del modello originale ma sono, comunque, intimamente collegati con i tipi di effetti attenzionali implementati. Quindi, per mezzo di questi lavori è stato possibile evidenziare maggiormente la stretta relazione esistente tra gli studi sperimentali reali e i tentativi di riuscire a cogliere i risultati di questi studi per mezzo di modelli simulativi artificiali di tipo esplicito. Il simulatore PDP++, l’approccio teorico a cui il software fa riferimento e il come un modello teorico possa essere implementato, controllato e gestito per mezzo del simulatore medesimo, forniscono nuovi contesti sperimentali alternativi per descrivere e spiegare fenomeni di tipo cognitivo. Utilizzare il simulatore PDP++ significa utilizzare uno strumento metodologico alternativo di ricerca sperimentale per l’implementazione e l’applicazione di processi percettivi e/o cognitivi. I risultati possono essere facilmente confrontati con i risultati di altre ricerche sperimentali che adottano metodologie di ricerca diverse da quella qui considerata. In ambito psicologico sono state proposte varie modellizzazioni di processi cognitivo - percettivi, fra cui la modellizzazione fatta da Cohen et al. descritta precedentemente, il modello proposto da Plaut e Shallice per la rappresentazione distribuita delle parole in rapporto alla dislessia.109 Munakata et al. invece propongono un modello che rappresenta le dinamiche e le interazioni dei sistemi di memoria,110 Hinton il riconoscimento visuale della forma degli oggetti,111 ecc. I risultati di questi lavori possono essere confrontati con i risultati di ricerche sperimentali di altri autori eseguite in contesti sperimentali reali. 109 Plaut, D. C. & Shallice, T. (1993). Deep dyslexia: A case study of connectionist neuropsychology. Cognitive Neuropsychology, 10(5), 377 – 500. 110 Munakata, Y., McClelland, J. L., Johnson, M. J., & Siegler, R. S. (1997). Rathinking infant knowledge: Toward an adaptive process account of successes and failures in object permanence tasks. Psychological Review, 104, 686 – 713. 111 Hinton, G. E. (1991). A parallel computational that assigns canonical object – based frames of reference. Proceedings of the 7th IJCAI (pp. 683 – 685). Vancouver. 101 Riferimenti Bibliografici Allport, A. (1987). Selection for Action: Some Behavioral and Neuropsychological Consideration of Attention and Action. In H. Heuer & A. F. Sanders (Eds.), Perspectives on Perception and Action. London: Lawrence Erlbaum Associates. Allport, A. (1993). Attention and Control: Have we been asking the wrong question? A critical review of twenty-five years, Attention and Performance XIV: Synergies in experimental psychology, artificial intelligence, and cognitive neuroscience. Cambridge, MA.: MIT Press. Allport, D. A. (1982). Attention and performance. In G. I. Claxton (Ed.), New directions in cognitive psychology (pp. 112 – 153). London: Reutledge & Kegan Paul. Anderson, J. R. (1982). Acqusition of cognitive skill. Psychological Review, 89, 369 – 406. Banich, M., Milham, M. P., Atchley, R., Cohen, N. J., Webb, A., Wszalek, T., Kramer, A. F., Liang, Z. P., Barad, V., Gullett, D., Shah, C., & Brown, C. (2000a). Prefrontal regions play a predominant role in imposing an attentional ‘set’: evidence from fRMI. Cognitive Brain Research, 10, 1 – 9. Banich, M., Milham, M. P., Atchley, R., Cohen, N. J., Webb, A., Wszalek, T., Kramer, A. F., Liang, Z. P., Wright, A., Shenker, J., & Magin, R. (2000b). fRMI studies of Stroop tasks reveal unique roles of anterior and posterior brain systems in attentional selection. Journal of Cognitive Neuroscience, 12, 988 – 1000. Banich, M., Milham, M., Jacobson, B., Webb, A., Wszalek, T., Cohen, N., & Kramer, A. (2000; in press). Attentional selection and the processing of task – irrelevant information: Insight from fRMI examination of the Stroop task. In C. M. Casanova, & M. Ptito (Eds.), Vision: from neurons to cognition. Amsterdam: Elsaviar Science. Besner, D., Slotz, J. A., & Boutilier (1997). The Stroop effect and the myth of automaticity. Psychonomic Bullettin & Review, 4(2), 221 – 225. Brown T. L. (1996). Attentional selection and word processing in Stroop and word search task: The role of selection for action. American Journal of Psychology, 109(2), 265 – 286. Brown, W. (1915). Practice in associating color-names with colors. Psychological Review, 22, 45 – 55. Bryson, A. E., & Ho, Y. C. (1969). Applied optimal control. New York: Blaisdel. Cattell, J. M. (1886). The time it takes to see and name objects. Mind, 11, 63 – 65. Chadley K. Dawson, Randall C.O’ Reilly, and James L. McClelland. (2003). Introduction to the PDP++ Software. The PDP++ Software Users Manual, Carnagie Mellon University, p. 2. Cleeremans, A., & French, R. M. (1996). From chicken squawking to cognition: Levels of description and the computational approach of psychology. Psychologica Belgica, 36(1 – 2), pp. 5 – 29. Cohen, J. D., Dunbar, K., & McClelland, J. L. (1990). On the control of automatic processes: A parallel distributed processing model of the Stroop effect. Psychological Review, 97(3), 332 – 361. In Chadley K. Dawson, Randall C.O’ Reilly, and James L. McClelland. (2003). The PDP++ Software ver. 3.1, Carnagie Mellon University. Cohen, J. D., Dunbar, K., & McClelland, J. L. (1990). On the control of automatic processes: A parallel distributed processing model of the Stroop effect. Psychological Review, 97(3), 332 – 361. Cohen, J. D., Huston, T. A. (1994). Progress in the use of interactive models for understanding attention and performance. In C. Umilta, & M. Moscovitch (Eds.), Attentino and performance XV (pp. 1 – 19). Cambridge, MA: MIT Press. Cohen, J. D., McClelland, J. L., & Usher, M. (1998). A PDP approach to set size effects within the Stroop task: Reply to Kanne, Balota, Spieler, and Faust (1998). Psychological Review, 105, 174 187. Cohen, J. D., Servan – Schreiber, D. (1992). Context, cortex, and dopamine: A connectionist approach to behavior and biology in schizophrenia. Psychological Review, 99, 45 – 77. Coltheart, M. (1978). Lexical access in a simple reading task. In G. Underwood (Ed.), Strategies of information processing (pp. 151 – 216). London: Academic Press. Crick, F. & Asanuma, C. (1986). Certain Aspects of the Anatomy and Physiology of the Cerebral Cortex. In D. E. Rumelhart, J. L. McClelland, & the PDP Research Group, op. cit., Vol. 2,pp. 333 – 371. Crick, F. H. C. (1989). The recent excitement about neural network. Nature, 337, 129 – 132. Di Paolo, E. A., Noble, J., & Bullock, S. (2000). Simulation model as opaque thought experiments, Artificial Life Vii. Cambridge, MA: MIT Press, pp. 497 – 506. Dishon Berkovits, M, & Algom (2000). The Stroop effect: It is not the robust phenomenon that you have thought it to be. Memory and Cognition, 28 (8), 1437 – 1449. 102 Dunbar, K., & MacLeod, C. M. (1984). A horse race of a different color: Stroop interference patterns with transformed words. Journal of Experimental Psychology: Human perception and Performance, 10, pp. 662 – 639. Durgin, F. H. (2000). The reverse Stroop effect. Psychonomic Bullettin & Review, 7(1), 121 – 125. Eric R. Kandel, James H. Schwartz, & Thomas M. Jessell. (2003 ). Integrazione delle funzioni sensitive e motorie: cortecce associative e capacità cognitive cerebrali, Principi di neuroscienze. Edizione Italiana, Casa Editrice Ambrosiana, p. 347. Gibson J. J. (1979). The ecological approach to visual perception. Boston: Houghton Mifflin. Glaser, M. O., & Glaser, W. R. (1982). Time course analysis of the Stroop phenomenon. Journal of Experimental Psychology: Human Perception and Performance, 8, pp. 875 – 894. Hebb, D.O. (1949). The Organization of behavior. New York: Wiley. Hinton, G. E. (1991). A parallel computational that assigns canonical object – based frames of reference. Proceedings of the 7th IJCAI (pp. 683 – 685). Vancouver. Hinton, G. E., McClelland, J. L., & Rumelhart, D. E. (1986). Distributed representation. In D. E. Rumelhart, J. L. McClelland, & PDP Research Group (Eds.), Parallel distributed processing. Volume 1: Foundations. Cambridge, MA: MIT Press, Chap. 3, pp. 77 – 109. Hirst, W., & Kalmar, D. (1987). Characterizing attentional resources, Journal of Experimental Psychology: General, 116, 68 – 81. Hodgkin, A. L., & Huxley, A. F. (1952). A quantitative description of membrane current and its application to conduction and excitation in nerve. Journal of Neurophysiology (London), 117, 500 – 544. Hopfield, J. J. (1984). Neurons with graded response have collective computational properties like those of two – state neurons. Proceedings of the National Academy of Sciences, 81, 3088 – 3092. Jaensch, E. R. (1929). Grundformen menschlichen Seins. Berlin: Otto Elsner. Kahneman, D., & Treisman, A. (1984). Changing view of attention and automaticity. In R. Parasuraman, D. R. Davies, & J. Beatty (Eds.), Varieties of attention (pp. 29 – 61). New York: Academic Press. Kanne, S. M., Balta, D. A., Spieler, D. H., & Faust, M. E. (1998). Explorations of Cohen, Dunbar, and McClelland’s (1990) connectionist model of Stroop performance. Psychological Review, 105, 174 – 187. Kolers, P. A. (1976). Reading a year later. Journal of Experimental Psychology: Human Learning and Memory, 2, 554 – 565. Link, S. W. (1975). The relative judgement theory of two choice response time. Journal of Mathematical Psychology, 12, 114 – 135. Logan, G. D. (1978). Attention in character classification : Evidence for the automaticity of component stages. Journal of Experimental Psychology: General, 107, 32 – 63. Logan, G. D. (1988). Toward an instance theory of automatization. Psychological Review, 95, 492 – 527. MacLeod, C. (1991). Half a century of research on the Stroop effect: An integrative review. Psychological Bullettin, 109(2), 163 – 203. MacLeod, C. M., & Dunbar, K. (1988). Training and Stroop – like interference: Evidence for a continuum of automaticity. Journal of Experimental Psychology: Learning, Memory, and Cognition, 14, 126 – 135. McClelland, J. L. (1979). Parallel distributed processing: Implications for cognition and development. In R. G. M. Morris (Ed.), Parallel distributed processing: Implications for psychology and neurobiology. (pp. 8 – 45). Oxford, England: Oxford University Press. McClelland, J. L. (1989). Parallel distributed processing: Implications for cognition and development. In R. G. Morris (Ed.), Parallel distributed processing: Implications for psychology and neurobiology (pp. 8 – 45). Oxford, England: Oxford University Press. McClelland, J. L., & Rumelhart, D. E. (1981). An interactive activation model of context effects in letter perception: Part 1. An account of basic findings. Psychological Review, 88(5), 375 – 407. McClelland, J. L., & Rumelhart, D. E. (1986). A distributed model of human learning and memory. In J. L. McClelland, D. E. Rumelhart, & PDP Research Group (Eds.), Parallel distributed processing. Volume 2: Psychological and biological models. Cambridge, MA: MIT Press, pp. 170 – 215. McCulloch, W. S., & Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity. Bullettin of Mathematical Biophysics, 5, 115 – 133. Minai, A. A., & Levy, W. B. (1994). Setting the activity level in sparse random networks. Neural Computation, 6, pp. 85 – 99. Minsky, M. L., & Papert, S. A. (1969). Perceptrons. Cambridge, MA: MIT Press. 103 Munakata, Y., McClelland, J. L., Johnson, M. J., & Siegler, R. S. (1997). Rathinking infant knowledge: Toward an adaptive process account of successes and failures in object permanence tasks. Psychological Review, 104, 686 – 713. Navon, D., & Gopher, D. (1979). On the economy of human processing system. Psychology Review, 86, 214 – 255. Newell, A., & Rosenbloom, P. S. (1981). Mechanism of skill acquisition and the law of practice. In J. R. Anderson (Ed.), Cognitive skill and their acquisition, (pp. 1 – 55). Hillsdale, NJ: Erlbaum. Parisi, D. (1992). Contro “cognitivo”. Sistemi Intelligenti, 4, pp.159-165. Parisi, D. (1997). Scienza cognitiva oggi. Giornale Italiano di Psicologia, 24, pp. 475-492. Phaff, R. H. (1986). A connectionist model for attention: Restricting parallel processing though modulary. Unpublished doctoral dissertation, Unit of Experimental Psychology, University of Leiden, The Netherlands. Plaut, D. C. & Shallice, T. (1993). Deep dyslexia: A case study of connectionist neuropsychology. Cognitive Neuropsychology, 10(5), 377 – 500. Posner, M. L., & Snyder, C. R. (1975). Attention and cognitive control. In R. L. Solso (Eds.), Information processing and cognition (pp. 55 – 85). Hilsdale, NJ: Erlbaum. Posner, M. L., & Snyder, C. R. (1975). Op. cit. e pp. cit. Randall C.O’Reilly e Yuko Munakata, (2000). Computational Explorations in Cognitive Neuroscience, A Bredford Book, Cambridge, MA: MIT Press. Ratcliff, R. (1978). A theory of memory retrieval. Psychological Review, 85, 59 – 108. Robert J. Sternberg. (2000). L’elaborazione in parallelo: il modello connessionista. Psicologia Cognitiva, trad. da. Cognitive Psychology (1996). Rinehart & Winston. Piccin. Nuova Libraria s.p.a. Padova, pp. 256 - 260. Robert J. Sternberg. (2000). Psicologia Cognitiva, trad. da Cognitive Psychology (1996). Rinehart & Winston. Piccin. Nuova Libraria s.p.a. Padova. Rosenblatt, F. (1958). The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, 65, 386 – 408. Rumelhart, D. E. McClelland, J. L., & the PDP Research Group. (1986). Parallel Distributed Processing: Explorations in the microstructure of cognition, Cambridge, MA: The MIT Press. Rumelhart, D.E., Hinton, G. E., & Williams, R. J. (1986b). Learning representations by back – propagating errors. Nature, 323, 533 – 536. Schneider, W., & Shiffrin, R. (1977). Controlled and automatic human information processing. Psychological Review, 84, pp. 1 – 66 e pp. 127 - 190. Seidenberg, M., & McClelland, J. (1989). A distributed, developmental model of word recognition and naming. Psychological Review, 96, 523 – 568. Seth A. Herd, Randall C. O’Reilly. (2002). Accounting for Stroop Task Neuroimaging Data: Lateral Interactions & Frontal Rappresentations. Journal of Cognitive Neuroscience, 106, 585 – 592. Spieler, D. H., Balta, D. A., & Faust, M. E. (1996). Stroop performance in normal older adults and individuals with senile dementia of the Alzheimer’s type. Journal of Experimental Psychology: Human Perception and Performance, 22, 461 – 479. Stroop J. R. (1935). Studies of interference in serial verbal reactions. Journal of Experimental Psychology, 18, 643 – 662. Styles, E. A. (1997). The Psychology of Attention. Hove: Psychology Press Ltd. Usher, M., & Cohen, J. D. (1997). A connectionist model of the Stroop task revisited: Reaction time distributions and different effects on facilitation and interference captured by a single set of mechanism. Manuscript in preparation. Vallacher, R. R., & Nowak, A. (1997). The emergence of dynamical social psychology. Psychological Inquiry, 8(2), pp. 73 – 99. Wickens, D. D. (1984). Processing resources in attention. In R. Parasuraman, D. R. Davies, & J. Beatty (Eds.), Varieties of attention (pp. 63 – 102). New York: Academic Press. Zhang, H. Z., & Kornblum, S. (1998). The effects of stimulus – response mapping and irrelevant stimulus – response and stimulus – stimulus overlap in four – choice stroop tasks with single – carrier stimuli. Journal of Experimental Psychology – Human Perception and Performance, 24(1), 3 – 19. Zipser, D., & Andersen, R. A. (1988). A backpropagation programmed network that simulates response properties of a subset of posterior parietal neurons. Nature, 331, 679 – 684. Zysset, S., Muller, K., Lohmann, G., & von Cramon, D. Y. (2001). Color – word matching Stroop task: Separating interference and response conflict. Neuroimage, 13, 29 – 36. 104