articolo - Parlaritaliano.it
Transcript
articolo - Parlaritaliano.it
ASIMMETRIA NELLA PERCEZIONE VOCALICA DI L1: UNO STUDIO DI SINTESI ARTICOLATORIA DEL CONTINUUM [i]-[e] 1 Charalampos Karypidis1, Gilles Guglielmi2, Angelica V. Costagliola1-3 LPP - UMR 7018, CNRS / Université de la Sorbonne Nouvelle- Paris 3, PARIGI, 2ARP / UFRL Université Paris 7 - Denis Diderot, PARIGI, 3CRIL / Università degli Studi Lecce - Dip. Filologia, Linguistica e Letteratura, LECCE [email protected], [email protected], [email protected] 1. SOMMARIO Durante gli ultimi venticinque anni, è stato sollevato un dibattito sull’ipotesi che la discriminazione vocalica sia influenzata dall’ordine dello stimolo nella presentazione e di conseguenza si è cominciato ad indagare minuziosamente sul ruolo delle vocali periferiche nella nostra percezione. In studi recenti, per la sintesi dei continua vocalici, si è utilizzato il frazionamento della distanza euclidea F1/F2 tra due prototipi in punti equidistanti (quei prototipi che meglio possono rappresentare due differenti categorie vocaliche). Tuttavia, i suoni ottenuti non erano abbastanza naturali, visto che ad alcuni di loro erano state assegnate delle combinazioni di valori formantici che non potevano essere prodotte da un canale orale umano. Inoltre, l’assegnazione di valori fissi per F3 ed F4 ha generato un falso picco spettrale (circa 3100 Hz e quindi vicino a quello di [i]), inducendo in questo modo gli informatori ad identificare più [i] di quante ne avrebbero dovuto realmente identificare. Un recente studio sui prototipi vocalici suggerisce che [i] ha una zona di percezione molto ristretta, nonostante le sue caratteristiche di stabilità acustica e perifericità, e nonostante l’assenza di [e] medio-alta nel sistema. Prendendo in considerazione queste incongruenze metodologiche, abbiamo scelto di elaborare i nostri stimoli usando la sintesi articolatoria. Abbiamo quindi sintetizzato un prototipo sintetico francese [i] (stimolo numero 1, il più estremo) e modificato progressivamente, in 9 posizioni successive, i suoi parametri (altezza della mascella e posizione della lingua) verso un prototipo sintetico francese [e] (stimolo numero 10, il meno estremo). Successivamente abbiamo sottoposto il continuum delle 10 vocali a 34 informatori nativi francofoni somministrando: a) un test di identificazione all’interno del quale gli informatori dovevano identificare come [i] oppure [e] 7 ripetizioni di ciascuno stimolo presentato in ordine casuale; b) un test di discriminazione all’interno del quale agli informatori venivano presentate 34 combinazioni di stimoli [18 coppie di stimoli con una distanza nel continuum dell’ordine di uno stimolo (9 combinazioni, 2 ordini di presentazione: Forward-avanti e Reverse-indietro) e 16 coppie di stimoli con una distanza nel continuum dell’ordine di due stimoli (8 combinazioni, 2 ordini di presentazione: Forward e Reverse)]. Agli informatori veniva chiesto se le due vocali che sentivano fossero uguali oppure differenti. L’intervallo di silenzio tra gli stimoli (o anche ISI: Inter-Stimulus Interval) è stato fissato a 250 ms ed ogni coppia è stata presentata cinque volte. 695 I risultati del test di identificazione rivelano una chiara percezione quantica delle due categorie. I risultati del test di discriminazione dimostrano che: a) la discriminazione è meno agevole quando uno stimolo più estremo (sul piano dell’F2') è presentato in seconda posizione e b) la discriminazione è significativamente più agevole quando la distanza nel continuum è dell’ordine di due stimoli ed in entrambi gli ordini di presentazione. 2. INTRODUZIONE Il fenomeno dell’asimmetria nella percezione vocalica (anche conosciuto come “effetto dell’ordine”) è descritto chiaramente da Cowan & Morse (1986), i quali sostengono che, in una coppia di stimoli, la qualità percepita del primo stimolo cambia gradualmente verso una posizione neutrale nello spazio vocalico. La loro supposizione è basata sui risultati precedentemente forniti da Shigeno & Fujisaki (1980), i quali sostengono che l’effetto della seconda vocale sull’etichettatura della prima (contrasto retroattivo) è più elevato dell’inverso (contrasto proattivo), perché la prima vocale doveva essere immagazzinata più a lungo nella memoria. Tuttavia, i risultati dell’esperimento 1 di Cowan & Morse (1986) suggeriscono che le vocali possono avere ognuna il proprio punto neutrale. Repp & Crowder (1990), citando i risultati di una ricerca precedente (Repp et al., 1979), considerano il contrasto retroattivo come fornendo una spiegazione non plausibile per l’effetto dell’ordine. In un articolo molto interessante, Medin & Barsalou (1987: 474-475) hanno discusso la nozione di “punti di riferimento”, sia per la percezione sensoriale che per cultura generale: “Reference points can be either salient values on dimensions that structure categories or they can be prototypes that contain characteristic and ideal attributes of the category.”. Secondo Kuhl (1991), questi “punti di riferimento” non sono nient’altro che quei prototipi che meglio rappresentano una determinata categoria fonemica, e che la stessa Kuhl nomina “perceptual magnets”. Eseguendo una serie di esperimenti, la studiosa ha fornito una prova convincente sul fatto che le categorie vocaliche sono strutturate secondo la prototipicità dello stimolo e che i prototipi che meglio rappresentano una data categoria giocano un ruolo importante nella nostra percezione, dato che la loro natura è rappresentata nella memoria a lungo termine. D’altro lato, una serie di articoli contestano la validità del fenomeno dell’asimmetria. Ancor più considerevolmente, Lotto et al. (1998) sostengono che l’effetto dell’ordine è il mero risultato di un’inconsistenza metodologica: “[...] category membership is determined by identification of sounds in isolation, whereas, discrimination tasks include pairs of stimuli.” (ibid: 3648). Allo stesso tempo, gli stessi studiosi sostengono che la scelta degli stimoli operata da Kuhl non fosse appropriata dato che la sua [i] non-prototipica apparteneva effettivamente ad un’altra categoria fonemica. Quest’ultimo controargomento è anche sostenuto da Sussman & Lauckner-Morano (1995). Basandosi su esperimenti eseguiti da diversi studiosi (Kuhl, 1991; Swoboda et al., 1978, tra gli altri), Polka & Bohn (2003) hanno generalizzato l’ipotesi di Kuhl sostenendo che virtualmente qualsiasi vocale può servire come punto di riferimento, purché sia più periferica di quella successiva: “Asymmetries in vowel perception occur such that discrimination of a vowel change presented in one direction is easier compared to the same change presented in the reverse direction [...] the more peripheral vowel within a contrast serves as a reference or 696 perceptual anchor.”. Tuttavia, il termine “periferico” è stato oggetto di diverse interpretazioni. Tradizionalmente, quest’ultimo è legato o ad una posizione estrema su uno degli angoli dello spazio vocalico, o ad una posizione sulla periferia (margini) dello spazio vocalico. In questo contributo, consideriamo come “periferici” tutti quegli stimoli su uno degli angoli dello spazio vocalico (che sia sul piano F1-F2, F2-F3 o F1-F2'). In studi precedenti, per la sintesi dei continua vocalici si è utilizzato il frazionamento della distanza Euclidea F1/F2 in Hertz tra due prototipi in punti equidistanti (quei prototipi che meglio possono rappresentare due differenti categorie fonemiche). Tuttavia, i suoni ottenuti non erano abbastanza naturali, visto che alla maggior parte di loro erano state assegnate delle combinazioni di valori formantici che non potevano essere prodotte da un canale orale umano (Boë et al., 1989). Inoltre, l’assegnazione di valori fissi per F3 ed F4 (rispettivamente 3010 e 3300 Hz) a tutti gli stimoli del continuum [i]–[e] (su cui si concentra questo contributo), ha generato un falso picco spettrale che raggruppa F3 ed F4 – un attributo tipico di [i] in certe lingue come il francese (cfr. Tabella 1) e l’inglese americano (Hillenbrand, 1995). A loro volta, gli informatori sono stati indotti in questo modo ad identificare più [i] di quante ne avrebbero dovuto realmente identificare e a spostare quindi la frontiera di identificazione verso [e] (per risultati simili, cfr. Iverson & Kuhl, 2000). Questa vicinanza di F3 ed F4 è stata messa in evidenza da una selezionata sintesi di formanti “a cascata” (cascade formant synthesizer, Klatt, 1980), che ha rinforzato l’ampiezza delle due formanti, mascherando percettivamente le formanti più basse, su cui si focalizzano i contributi precedenti. Contrariamente, una sintesi parallela di formanti (parallel formant synthesizer) tratterebbe le due formanti come discrete e non prenderebbe in considerazione la loro distanza relativamente minima. Inoltre, un recente studio sui prototipi vocalici (Karypidis et al., in preparazione-b) suggerisce che [i] ha una zona di percezione molto ristretta, nonostante la sua stabilità acustica (Stevens, 1989) e nonostante l’assenza di vocali vicine ([e] medio-alta o [y]) nel sistema che potrebbero potenzialmente occupare parte del suo spazio percettivo. La nostra ipotesi iniziale parte dal fatto che la percezione del contrasto [i]-[e] non è basata esclusivamente su F1 ed F2, ma su F2', e quindi abbiamo esaminato il fenomeno dell’asimmetria (cioè se la discriminazione tra due vocali è quindi facilitata quando la vocale più periferica è presentata in seconda posizione) costruendo un continuum vocalico, in cui tutti i parametri acustici sono stati modificati simultaneamente. Per quanto ne sappiamo, l’unico metodo che permette di ottenere degli stimoli quanto più naturali possibile è il modello articolatorio di Maeda (1990), meglio conosciuto come VTCALCs che: “offers the advantage of physiological realism by integrating articulatory constraints.” (Boë et al., 1989). Modificando tutti i parametri simultaneamente, gli informatori sarebbero stati costretti ad usare l’intero spettro di ogni stimolo per trovare indici acustici invece di provare ad estrarre unicamente F1 ed F2 dallo spettro (che costituiva il caso in studi precedenti poichè F3, F4 ed F5 erano sempre fissati). 3. ESPERIMENTO 1 In questo esperimento, gli informatori hanno identificato ogni stimolo come [i] oppure [e]. Lo scopo di questo studio è quello di collocare la frontiera di identificazione tra [i]–[e] e di verificare quali formanti permettono agli informatori di distinguere i due fonemi. La 697 collocazione di questa frontiera è stata successivamente utilizzata per l’interpretazione dei risultati di discriminazione (esperimento 2). 3.1 Informatori 34 informatori francofoni dai 18 ai 51 anni di età (media=30.9 anni; deviazione standard=9 anni) hanno partecipato all’esperimento. Tutti sono parlanti nativi del francese e non sembrano presentare problemi uditivi. 3.2 Stimoli Gli stimoli sono stati sintetizzati con il modello articolatorio di Maeda (1990), installato su un computer Toshiba Satellite A10. Bark 1 F1 F2 F3 F4 F1 F2 F3 F4 F2' [i] 308 2064 2976 3407 3.11 13.22 15.63 16.49 15.92 [e] 365 1961 2644 3362 3.68 12.88 14.87 16.41 13.54 1 247.6 2290.5 3157.1 2 3838.1 2.4 13.92 16.01 17.22 16.41 2 278.6 2290.5 3157.1 3838.1 2.7 13.92 16.01 17.22 16.41 3 309.5 2259.5 3002.4 3838.1 3 13.83 15.69 17.22 16.20 4 309.5 2228.6 2909.5 3838.1 3 13.73 15.49 17.22 16.07 5 340.5 2228.6 2847.6 3838.1 3.3 13.73 15.35 17.22 14.27 6 340.5 2197.6 2785.7 3807.1 3.3 13.64 15.21 17.17 14.16 7 371.4 2166.7 2723.8 3807.1 3.6 13.55 15.06 17.17 14.05 8 371.4 2135.7 2661.9 3807.1 3.6 13.45 14.91 17.17 13.94 9 402.4 2104.8 2631 3807.1 3.9 13.35 14.83 17.17 13.84 10 402.4 2042.9 2600 3776.2 3.9 13.15 14.76 17.12 13.69 Tabella 1: Parametri acustici in Hertz e Bark1 delle vocali [i] ed [e] francesi di informatori di sesso maschile (Calliope, 1989: 84) e dei 10 stimoli sintetizzati. stimolo Hertz Abbiamo cominciato col sintetizzare una prototipica 3 [i] (stimolo no. 1, il più periferico) usando il file .LAM (Linear Articulatory Model) fornito dal programma sopracitato. Abbiamo successivamente modificato i parametri, l’altezza della mascella e la posizione della lingua (le uniche differenze articolatorie tra le due vocali in questione, secondo il modello) in 9 posizioni 1 Un convertitore da Hertz in Bark è disponibile sul sito: http://www.ling.su.se/staff/hartmut/umrechnung.htm 2 VTCALCs non può calcolare l’F3 effettivo a causa della sua bassa ampiezza o larghezza di banda. In questo caso, abbiamo preso in considerazione che l’F3 dello stimolo 1 è uguale all’F3 dello stimolo 2. 3 Abbiamo considerato gli stimoli 1 e 10 come prototipici basandoci su tre criteri: a) la loro somiglianza acustica ai prototipi proposti in letteratura (cfr. Tabella 1), b) la loro quasi perfetta esattezza di identificazione e c) il grado di effetto di warping percettivo osservato intorno ad essi (più lo stimolo è vicino al prototipo è più difficile la discriminazione). 698 graduali verso una prototipica3 [e] (stimolo no. 10, il meno periferico). Abbiamo così ottenuto un continuum vocalico di 10 stimoli. Per tutti gli stimoli, la frequenza fondamentale saliva dai 121 ai 130 Hz su 1/3 e poi è scesa a 100 Hz sui 2/3 finali. La durata è stata fissata a 350 ms per tutti gli stimoli. Questi ultimi sono stati sintetizzati ad una frequenza di campionamento pari a 11025 Hz e ad una quantizzazione di 16 bit e sono stati registrati come file mono .wav nel formato PCM (Pulse Code Modulation). La Tabella 1 presenta i valori formantici dei 10 stimoli. 3.3 Procedura Gli stimoli sono stati presentati tramite cuffie “Creative”, in una stanza piccola e calma e l’esperimento è stato eseguito su un Toshiba 300CDS laptop dal secondo autore dell’articolo. Il livello approssimativo del volume è stato scelto intuitivamente per far sì che gli stimoli dessero un’impressione realistica (ovviamente per quanto realistiche possano apparire le vocali sintetizzate) ed è stato lo stesso per tutti gli informatori. Il software usato come interfaccia per l’esperimento è stato Praat for Windows (Boersma & Weenink, 2001). Tutti gli stimoli sono stati presentati sette volte ciascuno, in ordine casuale e senza ripetizioni consecutive dello stesso stimolo. Le risposte possibili erano <i> ed <é> (gli innegabili corrispettivi ortografici di [i] ed [e] in francese), presentati sul desktop all’interno di rettangoli gialli, sui quali gli informatori cliccavano con il mouse per dare la risposta. Dopo ogni risposta, lo stimolo successivo veniva presentato con una pausa di 0.5 secondi. C’è stata anche un’ulteriore pausa dopo venti stimoli presentati e agli informatori veniva chiesto di cliccare in qualunque punto dello schermo per poter continuare l’esperimento. La maggior parte degli informatori cliccava quasi istantaneamente all’apparizione di questo messaggio sul desktop, e ciò sta ad indicare che l’esperimento non era eccessivamente difficile. L’esperimento è stato preceduto da un breve training in cui tutte le 10 vocali venivano presentate due volte, in ordine casuale e senza ripetizioni consecutive dello stesso stimolo. 3.4 Risultati e Discussione Prima di tutto, era evidente l’esigenza di verificare se la percentuale di identificazione per ciascuno stimolo era dovuta al caso e quindi è stato effettuato un test binomiale (Uitenbroek, 1997) 4 . Quindi, per N=238 (7 ripetizioni di ogni stimolo x 34 informatori), α=0.01 (livello dell’ambito di confidenza) e π=0.5 (presunta proporzione per ciascuna risposta: [i] oppure [e]), la percentuale di identificazione per ogni stimolo non è dovuta al caso (>59%). Una rappresentazione grafica dei risultati di identificazione (Figura 1) indica che la transizione da [i] ad [e] è altamente quantica. Lo stimolo 4 ha il tasso più basso di tutti gli altri elementi della categoria di [i] anche se le sue formanti sono abbastanza vicine a quelle della produzione del prototipo [i] della letteratura (Tabella 1), mentre gli stimoli da 1 a 3 erano molto più anteriori di quanto ci si potesse aspettare. La categoria di [e] non costituisce un’eccezione nel nostro studio: tutti gli stimoli (6-10) che sono stati identificati come [e] ad un tasso molto elevato (>90%), sono molto più anteriori di quanto ci si potesse aspettare, e hanno un F2 molto più elevato di quello del prototipo francese [e]. 4 Disponibile su: http://home.clara.net/sisa/binomial.htm 699 Identification score % Con l’ausilio del software di statistica Systat 11.0, abbiamo effettuato un test ANOVA ad un fattore (stimolo) per verificare se gli informatori rispondevano allo stesso modo a tutti gli stimoli e abbiamo riscontrato un effetto significativo dello stimolo sulla risposta [F(9)=406.27, p<0.01]. 100 75 E 50 I 25 0 1 2 3 4 5 6 7 8 9 10 Stimulus number Figura 1. Risultati di identificazione dei 10 stimoli. D’altra parte, la Figura 1 mostra un cambiamento improvviso nell’etichettatura, che è piuttosto raro per le vocali, per non parlare delle vocali lunghe. Inoltre, l’estrazione delle formanti (Tabella 1) non può sufficientemente spiegare questo cambiamento brusco da [i] ad [e], poichè le formanti seguono un’evoluzione piuttosto continua (relazione acusticoarticolatoria non quantica). Pertanto, abbiamo convertito questi valori in Bark, usando la formula di Traunmüller (1990)1: z= [26.81/(1+ 1960/f)]-0.53 dove f sta per “frequenza” e z sta per “critical band rate z” e abbiamo calcolato l’F2' (Mantakas, 1986) 5 per ogni stimolo (Tabella 1, ultima colonna). Questa volta, la non-linearità nell’evoluzione di F2' (relazione quantica tra l’output acustico e la percezione) spiega perfettamente i risultati di identificazione, dato che gli stimoli identificati come [i] sono distinti da quelli identificati come [e] dalla presenza di un indice acustico [+estremo alto F2']. Conseguentemente, abbiamo supposto che F2' gioca un certo ruolo nel contrasto [i]–[e] in francese, almeno in contesto isolato.. Per capire meglio l’utilità di F2' (che rappresenta il peso percettivo globale delle formanti più alte – F2, F3 ed F4 – e il cui calcolo dipende dallo loro distanza relativa), abbiamo preparato spettri di ampiezza (Figure 2a e 2b) di 4 stimoli: 1, 4, 5 e 10 con l’ausilio del software di acustica Praat (Boersma & Weenink, 2001). Per l’estrazione delle curve spettrali, abbiamo selezionato una finestra di 0.0389 ms (i 5 periodi tra la 12° e la 17° pulsazione glottidale, vale a dire dal 12° al 16° periodo). Il punto di inizio della selezione corrispondeva a 0.09577 ms dall’inizio del file e il punto finale a 0.13457 ms. Il pitch medio era di 128.67 Hz e il punto medio della finestra corrisponde approssimativamente al punto più alto del pitch dell’intero 5 La formula è anche disponibile in Schwartz (1997). Uno script Praat è disponibile sul sito web del primo autore: http://www.geocities.com/ch_karypidis/ 700 stimolo. Per ciò che concerne i parametri avanzati del sonogramma nella finestra Praat (Advanced spectrogram settings), si è optato per Gaussian per la window shape e 6 dB/oct per la pre-emphasis. Dopo l’estrazione spettrale, abbiamo usato un cepstral smoothing (larghezza di banda=500 Hz) per rendere gli spettri più leggibili. I 4 stimoli sopracitati sono stati scelti perché sono dei prototipi (stimoli 1 e 10) oppure perché sono collocati sulle frontiere delle due categorie (stimoli 4 e 5), così come sono stati percepiti nell’esperimento 1. Figura 2: Spettri di ampiezza sovrapposti di a) i prototipi [i] ed [e] (stimoli 1 e 10) e b) i due stimoli collocati vicino alla frontiera di identificazione (stimoli 4 e 5). Le linee tratteggiate rappresentano le vocali identificate come [i] e quelle continue rappresentano gli elementi di [e]. La Figura 2a mostra una grande concentrazione di energia intorno ai 3800 Hz per lo stimolo 1 mentre, per lo stimolo 10, una quantità significativa di energia, si colloca intorno ai 2200 Hz. Questa differenza di dislocazione di energia è infatti responsabile del divario di F2' tra i due prototipi (Tabella 1). Tenuto conto di ciò, abbiamo esaminato la Figura 2b per poter capire il cambiamento improvviso del modello di risposta. Un esame più attento mette in evidenza che per lo stimolo 4, l’ampiezza della seconda massa di energia (corrispondente ad F3 ed F4) è la differenza spettrale tra i due stimoli, percepiti come appartenenti a due distinte categorie, è difficilmente evidente [(Flanagan, 1957) riporta che la minima precisione per quantizzare l’ampiezza formantica è ±3 dB per F2 e ±5 dB per F3]. In questo modo la collocazione della frontiera tra [i] ed [e] non può essere spiegata su delle basi spettrali/acustiche. Chiaramente, dai nostri risultati e dalla nostra metodologia sorgono molte domande e ulteriori esperimenti sono necessari per poter spiegare il ruolo di F2'. Uno studio in corso sul contrasto [i]-[y] cerca di ri-esaminare la dislocazione delle masse di energia e la natura quantica della relazione tra l’output acustico e la percezione. Inoltre, un’investigazione dei contrasti [u][o] e [y]-[ø] ci permetterebbe di verificare se F2' (o elevato o non elevato) è legato anche al tratto [+alto] in francese. 4. ESPERIMENTO 2 Questo esperimento consiste nella discriminazione di tipo AX, in cui gli stessi stimoli dell’esperimento 1 sono stati presentati in coppie ed in entrambi gli ordini, con una distanza di 1 o 2 stimoli lungo il continuum. Lo scopo di questo studio è quello di esaminare se l’effetto dell’ordine può essere attestato usando la sintesi articolatoria e modificando tutte le formanti 701 allo stesso tempo. Inoltre, abbiamo cercato di verificare se l’effetto dell’ordine si manifesta solamente quando sono presenti le vocali estreme oppure se è legato alla tipicalità. 4.1 Informatori Gli informatori sono quelli descritti nel paragrafo 2. Un informatore è stato escluso per avere giudicato tutte le coppie diverse (media = 30.6 anni; deviazione standard = 8.9 anni). 4.2 Stimoli Gli stimoli sono quelli descritti nel paragrafo 2. 4.3 Procedura Le condizioni esterne dell’esperimento sono quelle descritte nell’esperimento 1. Agli informatori sono state presentate per cinque volte 18 coppie di stimoli con una distanza nel continuum dell’ordine di uno stimolo (9 combinazioni, 2 ordini di presentazione: Forwardavanti e Reverse-indietro) e 16 coppie di stimoli con una distanza nel continuum dell’ordine di due stimoli (8 combinazioni, 2 ordini di presentazione: Forward-avanti e Reverse-indietro) in ordine casuale e senza ripetizioni consecutive dello stesso stimolo. Nell’ordine Forward (avanti), il primo stimolo presentato è più estremo del secondo mentre nell’ordine Reverse (indietro), lo stimolo più estremo viene presentato in seconda posizione. La Tabella 2 mostra le quattro differenti combinazioni di stimoli. Gruppo di coppie Ordine Distanza Simbolo Numero di degli stimoli coppie 1-2, 3-4, ... , 9-10 Forward (avanti) 1 For1 9 2-1, 4-3, ... , 10-9 Reverse (indietro) 1 Rev1 9 1-3, 2-4, ... , 8-10 Forward (avanti) 2 For2 8 3-1, 4-2, ... , 10-8 Reverse (indietro) 2 Rev2 8 Tabella 2: I quattro gruppi delle coppie (“Simbolo”= il modo in cui ci riferiremo al gruppo delle coppie lungo tutto l’articolo). L’intervallo di silenzio tra gli stimoli è stato fissato a 250 ms. Secondo Cowan & Morse (1986), l’informazione immagazzinata nella memoria uditiva è memorizzata in maniera più efficace quando l’intervallo di silenzio tra gli stimoli è fissato al valore sopracitato. Agli informatori veniva richiesto se le vocali presentate in coppia fossero le stesse oppure differenti. Dopo ogni risposta, la prima vocale della coppia successiva veniva presentata con una pausa di 0.50 secondi. L’esperimento è stato interrotto ogni 15 coppie di stimoli, proponendo una breve pausa e chiedendo agli informatori di cliccare in qualsiasi punto dello schermo per poter continuare l’esperimento. Gli informatori hanno trovato questo esperimento più difficile rispetto all’esperimento 1. Anche questo esperimento è stato preceduto da un breve training in cui tutte le 34 coppie di stimoli sono state presentate una sola volta ed in ordine casuale. 4.4 Risultati e discussione L’effetto dell’ordine predice che i risultati della discriminazione (M) per le coppie in cui l’elemento più periferico è presentato in prima posizione (For1 e For2), sarebbero inferiori 702 rispetto a quelli delle coppie nell’ordine opposto (Rev1 e Rev2). In altre parole, le nostre ipotesi (H) sono le seguenti: H0: MFor< MRev H1: MFor1 < MRev1 H2: MFor2 < MRev2 I t-test appaiati rivelano che l’effetto dell’ordine è significativo per entrambe le ipotesi H1 [t(296)= -5.7368, p <0.01)] e H2 [t(263)= -4.9795, p<0.01)], in questo modo le ipotesi H1 e H2 risultano valide. Figura 3. Risultati di discriminazione per coppie nelle condizioni a) distanza di 1 stimolo lungo il continuum e b) distanza di 2 stimoli lungo il continuum. Ciononostante, i grafici nelle Figure 3a e 3b suggeriscono che, in entrambe le condizioni (distanza di 1 o 2 stimoli lungo il continuum), le uniche coppie che manifestano il fenomeno dell’asimmetria sono quelle in cui lo stimolo più periferico è caratterizzato da un F2' estremamente elevato (vale a dire le coppie contenenti gli stimoli 1, 2, 3 o 4, tutti identificati come [i]). Ulteriori t-test appaiati hanno verificato questa ipotesi (Tabella 3). Gruppo di coppie di vocali Grado di Libertà valore di t valore di p A 1-2, ..., 4-5 131 -6.8017 <0.01 B 5-6, ..., 9-10 164 -1.3286 0.09 C 1-3, ..., 4-6 131 -7.5669 <0.01 D 5-7, ..., 8-10 131 0.3681 0.64 Tabella 3: Risultati dei t-test appaiati (Ordine Forward vs. Reverse) per coppie con almeno un elemento di [i] (gruppi A, C) e coppie senza nessun elemento di [i] (gruppi B, D). Per ogni gruppo, i risultati dell’ordine Forward (avanti) e Reverse (indietro) sono stati paragonati. I risultati della Tabella 3 il fenomeno dell’asimmetria è azionato soltanto dagli elementi di [i]), potrebbero essere spiegati dal fatto che [i], come avevamo già menzionato nell’introduzione, è considerata acusticamente come una vocale più stabile rispetto a [e]. (Stevens, 1989; Badin et al., 1990) Schwartz et al. (2005), citando un articolo precedente 703 (Schwartz & Escudier, 1989), affermano che gli stimoli con una convergenza formantica, a livello di F2–F3 o di F3–F4, sono più stabili nella memoria a breve termine e producono un rischio di errore (level of false alarms) inferiore rispetto agli stimoli non-focali. Chiaramente, un esperimento focalizzato sull’intervallo di silenzio tra gli stimoli deluciderebbe il ruolo de la memoria uditiva e fonetica nella discriminazione e nel meccanismo dell’asimmetria. Secondo Secondo Repp (1990), ad un lungo intervallo di silenzio tra gli stimoli, gli informatori fanno più affidamento sulla caratterizzazione fonemica della prima vocale da discriminare, mentre, ad un breve intervallo usano maggiormente la loro memoria uditiva. Abbiamo ulteriormente tentato di verificare se l’importanza della differenza acustica (distanza di 1 o 2 stimoli lungo il continuum) abbia un effetto sulla discriminazione. Per questo proposito, abbiamo eseguito i seguenti confronti: a) For1 vs. For2 e b) Rev1 vs. Rev2. I t-test non appaiati indicano che gli informatori discriminano meglio quando la differenza nel continuum è dell’ordine di 2 stimoli: a) For1 vs. For2: [t(559)= -14.27, p<0.01] e b) Rev1 vs. Rev2: [t(559)= -12.44, p<0.01], e cioè quando la differenza acustica è più grande. Figura 4. Differenza in Bark tra le coppie di stimoli. Le curve di discriminazione nelle Figure 3a e 3b mostrano un’inclinazione discendente con i rispettivi picchi coincidenti con le coppie contenenti gli elmenti di due diverse categorie fonemiche (coppie 4-5, 3-5 e 4-6). Secondo Lotto (1998), la collocazione di questo picco non ci dovrebbe sorprendere poichè i contrasti tra le frontiere fonemiche producono generalmente delle percentuali di discriminazione più elevate. Inoltre, la forma e la collocazione di queste curve sono conformi ai risultati di Kuhl (1991): “When a stimulus perceived as having high category goodness was used as the referent vowel in the discrimination task, overall percent-correct scores were significantly lower, indicating difficulty in perceiving differences between the prototype and other members of the category.”. Tuttavia, a meno che il prototipo della categoria [e] non sia collocato nel campo di variazione del nostro continuum sintetizzato (comunque, i tassi di identificazione per gli stimoli da 7 a 10 sono vicini al 100%), l’ipotesi di Kuhl non può spiegare perché l’effetto dell’ordine si presenta solo con gli stimoli della categoria di [i]. Inoltre, non sappiamo realmente come l’informazione che concerne il livello di prototipicità (“buono”/”cattivo” prototipo che rappresenta una data categoria) sia immagazzinata nella nostra memoria a breve termine. 704 Nella figura 4 abbiamo calcolato la differenza acustica (in tutte e quattro le formanti) tra gli stimoli accoppiati. Possiamo notare nuovamente che i picchi di discriminazione delle Figure 3a e 3b non coincidono con i picchi delle Figure 4a e 4b e ancora una volta l’ipotesi dell’F2’ fornisce una migliore spiegazione dei picchi. Tuttavia i risultati della discriminazione per la coppia 4-5 (il picco nella condizione di distanza di 1 stimolo, ordine Reverse) non raggiunge il livello del caso (risultato=49%), suggerendo che la differenza acustica (le formanti separate e la relativa ampiezza) tra i due stimoli è infinitesimale e che la discriminazione per questa coppia non è basata principalmente sull’etichettatura fonetica. 5. CONCLUSIONE Polka & Bohn (2003) hanno supposto che le vocali estreme hanno la capacità di rimanere più a lungo nella memoria a breve termine rispetto agli stimoli non-estremi. Usando la sintesi articolatoria (Maeda, 1990) per preparare un continuum [i]–[e], abbiamo studiato l’importanza delle formanti più elevate per il sopracitato contrasto [i]–[e] in francese. Secondo la letteratura (Calliope, 1989), un prototipo sintetico [i] è focale vista la vicinanza di F3 ed F4 (e quindi un F2' molto elevato). Infatti, i risultati di identificazione hanno evidenziato un’evoluzione brusca di F2' lungo il continuum: quando F3 era troppo lontano da F4 per formare una singola massa di energia (che amplificherebbe la loro rispettiva intensità), le risposte sono diventate uniformemente [e], indicando che [i] ha F2' estremamente elevato, come ci si aspettava. D’altro lato, l’ampiezza formantica relativa e l’evoluzione delle formanti separate non convergevano con le curve di identificazione. L’esperimento 2 ha fornito un risultato contro le ipotesi generalizzate di Polka, dato che il fenomeno dell’asimmetria si è manifestato soltanto per gli elementi della categoria di [i]. Se i punti di riferimento fossero stati collocati alle frontiere delle foneme, entrambe le categorie fonetiche avrebbero mostrato un effetto dell’ordine. Una spiegazione possibile potrebbe essere la natura focale di [i] (vicinanza di F3 ed F4). Basandoci sui risultati forniti da Schwartz & Escudier (1989), abbiamo ipotizzato che le vocali focali sono più stabili nella memoria a breve termine, e ciò rende la discriminazione meno agevole. Ulteriori esperimenti con altre vocali focali ([u], [a], [y] e [o]) deluciderebbero il loro ruolo nella nostra percezione. Ancora una volta la differenza acustica tra gli stimoli accoppiati non convergeva con le curve di discriminazione. I risultati di uno studio in corso sull’italiano meridionale (e più precisamente il salentino) e lo spagnolo (Karypidis et al., in preparazione-a) hanno dimostrato che l’effetto dell’ordine si manifesta unicamente in sistemi in cui [i] ed [e] sono caratterizzate da valori di F2’ discretamente distinti. Nel salentino soltanto [i] ha un F2' molto elevato (Grimaldi, 2003) mentre nello spagnolo sia [e] che [i] sono estremi sul piano dell’F2' (Quilis & Esgueva, 1983). Quest’ultimo studio supporta nostra ipotesi che, in certe lingue, il contrasto [i]–[e] potrebbe essere basato principalmente non sulla differenza di F1 o F2, ma sulla presenza o assenza di un indice acustico [+estremo alto F2']. D’altro lato, potremmo supporre con una certa sicurezza che gli elementi di [i] sono caratterizzati da un’inclinazione ascendente (cominciando da F2) mentre gli elementi di [e] mostrano un’inclinazione discendente. In questo modo supponiamo che questo parametro 705 acustico (concentrazione di energia in diverse regioni nelle frequenze più alte) è dietro la discriminabilità degli stimoli 4 e 5. RINGRAZIAMENTI Gli autori sono riconoscenti a Nick Clements, Annie Rialland e Mirko Grimaldi per i commenti alle diverse versioni di questo articolo così come a due anonimi critici. Un ringraziamento anche a tutti i 34 informatori che ci hanno dedicato parte del loro tempo e della loro energia. 6. BIBLIOGRAFIA Badin, P.; Perrier, P.; Boë, L. J.; Abry, C., 1990. Vocalic nomograms: Acoustic and articulatory considerations upon formant convergences. Journal of the Acoustical Society of America, 87, 1290-1300. Boë, L. J.; Perrier, P.; Guérin, B.; Schwartz, J. L., 1989. Maximal vowel space. In Proceedings of the I European Conference on Speech Communication and Technology, Paris, 281-284. Boersma, P.; Weenink, D., 2001. PRAAT, a system for doing phonetics by computer. Glot International, 5(9/10), 341-345. Calliope 1989. La parole et son traitement automatique, J. P. Tubach (a c. d.), Paris: Masson. Cowan, N.; Morse, P. A., 1986. The use of auditory and phonetic memory in vowel discrimination. Journal of the Acoustical Society of America, 79, 500-507. Grimaldi, M., 2003. Nuove ricerche sul vocalismo tonico del Salento meridionale. Analisi acustica e trattamento fonologico dei dati. Alessandria: Edizioni dell’Orso. Hillenbrand, J.; Getty, M.; Clark, M.; Wheeler, K., 1995. Acoustic characteristics of American English vowels. Journal of the Acoustical Society of America, 97, 3099-3111. Iverson, P.; Kuhl, P. K., 2000. Perceptual magnet and phoneme boundary effects in speech perception: do they arise from a common mechanism?. Perception & Psychophysics, 62, 874886. Karypidis, C.; Colazo-Simon, A.; Costagliola, A. V., in preparazione-a. Asymmetry in vowel perception in L2: evidence from articulatory synthesis of an [[i]~]-[e] continuum. Karypidis, Ch.; Costagliola, A. V.; Colazo-Simon, A., in preparazione-b. Vowel prototypes assimilation: a cross-linguistic perceptual study of five-vowel systems. Klatt, D. H., 1980. Software for a cascade/parallel formant synthesizer. Journal of the Acoustical Society of America, 67, 737-793. Kuhl, P. K., 1991. Human adults and human infants show a “perceptual magnet effect” for the prototypes of speech categories, monkeys do not. Perception & Psychophysics, 50, 93-107. Lotto, A. J.; Kluender, K. R. e Holt, L. L., 1998. Depolarizing the perceptual magnet effect. Journal of the Acoustical Society of America, 103, 3648-3655. 706 Maeda, S., 1990. Compensatory articulation during speech; evidence from the analysis and synthesis of vocal-tract shapes using an articulatory model. In A. Marchal, W. J. Hardcastle (a c. d.) Speech Production and Speech Modelling, Kluwer Academic Publishers, 131-149. Mantakas, M.; Schwartz, J. L.; Escudier, P., 1986. Modèle de prédiction du ‘deuxième formant effectif’ F’2 - application à l’étude de la labialité des voyelles avant du français. In Proceedings of the XV Journées d’étude sur la parole, 157-161. Medin, D. L.; Barsalou, L. W., 1987. Categorical processes and categorical perception. In S. Harnad (a c. d.) Categorical Perception, Cambridge: Cambridge University Press, 455-490. Polka, L.; Bohn, O. S., 2003. Asymmetries in vowel perception. Speech Communication, 41, 221-231. Quilis, A.; Esqueva, M., 1983. Realización de los fonemas vocálicos españoles en posición fonética normal. In M. Esgueva, M. Cantarero (a c. d.) Estudios de Fonética I, Madrid: CSIC (Collectanea Phonetica VII), 137-252. Repp, B. H.; Crowder, R. G., 1990. Stimulus order effects in vowel discrimination. Journal of the Acoustical Society of America, 88(5), 2080-2090. Repp, B.; Healy, A. F.; Crowder, R. G., 1979. Categories and context in the perception of isolated steady-state vowels. Journal of Experimental Psychology: Human Perception and Performance, 5, 129-145. Schwartz, J. L.; Abry, C.; Boë, L. J.; Menard, L.; Vallee, N., 2005. Asymmetries in vowel perception in the context of the Dispersion-Focalisation Theory. Speech Communication, 45, 425-434. Schwartz, J. L.; Escudier, P., 1989. A strong evidence for the existence of a large-scale integrated spectral representation in vowel perception. Speech Communication, 8, 235-259. Shigeno, S.; Fujisaki, H., 1980. Context Effects in Phonetic and Non-Phonetic Vowel Judgments. Annual Bulletin Research Institute of Logopedics and Phoniatrics, Faculty of Medecine, University of Tokyo, 14, 217-224. Stevens, K. N., 1989. On the Quantal Nature of Speech. Journal of Phonetics, 17, 3-45. Sussman, J. E.; Lauckner-Morano, V. J., 1995. Further tests of the perceptual magnet effect in the perception of [i]: Identification and change/no-change discrimination. Journal of the Acoustical Society of America, 97, 539-552. Swoboda, P. J.; Kass, J.; Morse, P. A.; Leavitt, L. A., 1978. Memory factors in vowel discrimination of normal and at-risk infants. Child Development, 49, 332-339. Traunmüller, H., 1990. Analytical expressions for the tonotopic sensory scale. Journal of the Acoustical Society of America, 88, 97-100. Uitenbroek, D. G., 1997. SISA-Binomial, http://home.clara.net/sisa/binomial.htm 707