articolo - Parlaritaliano.it

Transcript

articolo - Parlaritaliano.it
ASIMMETRIA NELLA PERCEZIONE VOCALICA DI L1: UNO
STUDIO DI SINTESI ARTICOLATORIA DEL CONTINUUM [i]-[e]
1
Charalampos Karypidis1, Gilles Guglielmi2, Angelica V. Costagliola1-3
LPP - UMR 7018, CNRS / Université de la Sorbonne Nouvelle- Paris 3, PARIGI, 2ARP / UFRL
Université Paris 7 - Denis Diderot, PARIGI, 3CRIL / Università degli Studi Lecce - Dip. Filologia,
Linguistica e Letteratura, LECCE
[email protected], [email protected], [email protected]
1. SOMMARIO
Durante gli ultimi venticinque anni, è stato sollevato un dibattito sull’ipotesi che la
discriminazione vocalica sia influenzata dall’ordine dello stimolo nella presentazione e di
conseguenza si è cominciato ad indagare minuziosamente sul ruolo delle vocali periferiche
nella nostra percezione.
In studi recenti, per la sintesi dei continua vocalici, si è utilizzato il frazionamento della
distanza euclidea F1/F2 tra due prototipi in punti equidistanti (quei prototipi che meglio
possono rappresentare due differenti categorie vocaliche). Tuttavia, i suoni ottenuti non erano
abbastanza naturali, visto che ad alcuni di loro erano state assegnate delle combinazioni di
valori formantici che non potevano essere prodotte da un canale orale umano. Inoltre,
l’assegnazione di valori fissi per F3 ed F4 ha generato un falso picco spettrale (circa 3100 Hz e
quindi vicino a quello di [i]), inducendo in questo modo gli informatori ad identificare più [i] di
quante ne avrebbero dovuto realmente identificare. Un recente studio sui prototipi vocalici
suggerisce che [i] ha una zona di percezione molto ristretta, nonostante le sue caratteristiche di
stabilità acustica e perifericità, e nonostante l’assenza di [e] medio-alta nel sistema.
Prendendo in considerazione queste incongruenze metodologiche, abbiamo scelto di
elaborare i nostri stimoli usando la sintesi articolatoria. Abbiamo quindi sintetizzato un
prototipo sintetico francese [i] (stimolo numero 1, il più estremo) e modificato
progressivamente, in 9 posizioni successive, i suoi parametri (altezza della mascella e posizione
della lingua) verso un prototipo sintetico francese [e] (stimolo numero 10, il meno estremo).
Successivamente abbiamo sottoposto il continuum delle 10 vocali a 34 informatori nativi
francofoni somministrando:
a) un test di identificazione all’interno del quale gli informatori dovevano identificare come [i]
oppure [e] 7 ripetizioni di ciascuno stimolo presentato in ordine casuale;
b) un test di discriminazione all’interno del quale agli informatori venivano presentate 34
combinazioni di stimoli [18 coppie di stimoli con una distanza nel continuum dell’ordine di uno
stimolo (9 combinazioni, 2 ordini di presentazione: Forward-avanti e Reverse-indietro) e 16
coppie di stimoli con una distanza nel continuum dell’ordine di due stimoli (8 combinazioni, 2
ordini di presentazione: Forward e Reverse)]. Agli informatori veniva chiesto se le due vocali
che sentivano fossero uguali oppure differenti. L’intervallo di silenzio tra gli stimoli (o anche
ISI: Inter-Stimulus Interval) è stato fissato a 250 ms ed ogni coppia è stata presentata cinque
volte.
695
I risultati del test di identificazione rivelano una chiara percezione quantica delle due
categorie.
I risultati del test di discriminazione dimostrano che: a) la discriminazione è meno agevole
quando uno stimolo più estremo (sul piano dell’F2') è presentato in seconda posizione e b) la
discriminazione è significativamente più agevole quando la distanza nel continuum è
dell’ordine di due stimoli ed in entrambi gli ordini di presentazione.
2. INTRODUZIONE
Il fenomeno dell’asimmetria nella percezione vocalica (anche conosciuto come “effetto
dell’ordine”) è descritto chiaramente da Cowan & Morse (1986), i quali sostengono che, in una
coppia di stimoli, la qualità percepita del primo stimolo cambia gradualmente verso una
posizione neutrale nello spazio vocalico. La loro supposizione è basata sui risultati
precedentemente forniti da Shigeno & Fujisaki (1980), i quali sostengono che l’effetto della
seconda vocale sull’etichettatura della prima (contrasto retroattivo) è più elevato dell’inverso
(contrasto proattivo), perché la prima vocale doveva essere immagazzinata più a lungo nella
memoria. Tuttavia, i risultati dell’esperimento 1 di Cowan & Morse (1986) suggeriscono che le
vocali possono avere ognuna il proprio punto neutrale. Repp & Crowder (1990), citando i
risultati di una ricerca precedente (Repp et al., 1979), considerano il contrasto retroattivo come
fornendo una spiegazione non plausibile per l’effetto dell’ordine.
In un articolo molto interessante, Medin & Barsalou (1987: 474-475) hanno discusso la
nozione di “punti di riferimento”, sia per la percezione sensoriale che per cultura generale:
“Reference points can be either salient values on dimensions that structure categories or they
can be prototypes that contain characteristic and ideal attributes of the category.”. Secondo
Kuhl (1991), questi “punti di riferimento” non sono nient’altro che quei prototipi che meglio
rappresentano una determinata categoria fonemica, e che la stessa Kuhl nomina “perceptual
magnets”. Eseguendo una serie di esperimenti, la studiosa ha fornito una prova convincente sul
fatto che le categorie vocaliche sono strutturate secondo la prototipicità dello stimolo e che i
prototipi che meglio rappresentano una data categoria giocano un ruolo importante nella nostra
percezione, dato che la loro natura è rappresentata nella memoria a lungo termine.
D’altro lato, una serie di articoli contestano la validità del fenomeno dell’asimmetria. Ancor
più considerevolmente, Lotto et al. (1998) sostengono che l’effetto dell’ordine è il mero
risultato di un’inconsistenza metodologica: “[...] category membership is determined by
identification of sounds in isolation, whereas, discrimination tasks include pairs of stimuli.”
(ibid: 3648). Allo stesso tempo, gli stessi studiosi sostengono che la scelta degli stimoli operata
da Kuhl non fosse appropriata dato che la sua [i] non-prototipica apparteneva effettivamente ad
un’altra categoria fonemica. Quest’ultimo controargomento è anche sostenuto da Sussman &
Lauckner-Morano (1995).
Basandosi su esperimenti eseguiti da diversi studiosi (Kuhl, 1991; Swoboda et al., 1978, tra
gli altri), Polka & Bohn (2003) hanno generalizzato l’ipotesi di Kuhl sostenendo che
virtualmente qualsiasi vocale può servire come punto di riferimento, purché sia più periferica di
quella successiva: “Asymmetries in vowel perception occur such that discrimination of a vowel
change presented in one direction is easier compared to the same change presented in the
reverse direction [...] the more peripheral vowel within a contrast serves as a reference or
696
perceptual anchor.”. Tuttavia, il termine “periferico” è stato oggetto di diverse interpretazioni.
Tradizionalmente, quest’ultimo è legato o ad una posizione estrema su uno degli angoli dello
spazio vocalico, o ad una posizione sulla periferia (margini) dello spazio vocalico. In questo
contributo, consideriamo come “periferici” tutti quegli stimoli su uno degli angoli dello spazio
vocalico (che sia sul piano F1-F2, F2-F3 o F1-F2').
In studi precedenti, per la sintesi dei continua vocalici si è utilizzato il frazionamento della
distanza Euclidea F1/F2 in Hertz tra due prototipi in punti equidistanti (quei prototipi che
meglio possono rappresentare due differenti categorie fonemiche). Tuttavia, i suoni ottenuti non
erano abbastanza naturali, visto che alla maggior parte di loro erano state assegnate delle
combinazioni di valori formantici che non potevano essere prodotte da un canale orale umano
(Boë et al., 1989). Inoltre, l’assegnazione di valori fissi per F3 ed F4 (rispettivamente 3010 e
3300 Hz) a tutti gli stimoli del continuum [i]–[e] (su cui si concentra questo contributo), ha
generato un falso picco spettrale che raggruppa F3 ed F4 – un attributo tipico di [i] in certe
lingue come il francese (cfr. Tabella 1) e l’inglese americano (Hillenbrand, 1995). A loro volta,
gli informatori sono stati indotti in questo modo ad identificare più [i] di quante ne avrebbero
dovuto realmente identificare e a spostare quindi la frontiera di identificazione verso [e] (per
risultati simili, cfr. Iverson & Kuhl, 2000). Questa vicinanza di F3 ed F4 è stata messa in
evidenza da una selezionata sintesi di formanti “a cascata” (cascade formant synthesizer, Klatt,
1980), che ha rinforzato l’ampiezza delle due formanti, mascherando percettivamente le
formanti più basse, su cui si focalizzano i contributi precedenti. Contrariamente, una sintesi
parallela di formanti (parallel formant synthesizer) tratterebbe le due formanti come discrete e
non prenderebbe in considerazione la loro distanza relativamente minima. Inoltre, un recente
studio sui prototipi vocalici (Karypidis et al., in preparazione-b) suggerisce che [i] ha una zona
di percezione molto ristretta, nonostante la sua stabilità acustica (Stevens, 1989) e nonostante
l’assenza di vocali vicine ([e] medio-alta o [y]) nel sistema che potrebbero potenzialmente
occupare parte del suo spazio percettivo.
La nostra ipotesi iniziale parte dal fatto che la percezione del contrasto [i]-[e] non è basata
esclusivamente su F1 ed F2, ma su F2', e quindi abbiamo esaminato il fenomeno
dell’asimmetria (cioè se la discriminazione tra due vocali è quindi facilitata quando la vocale
più periferica è presentata in seconda posizione) costruendo un continuum vocalico, in cui tutti i
parametri acustici sono stati modificati simultaneamente. Per quanto ne sappiamo, l’unico
metodo che permette di ottenere degli stimoli quanto più naturali possibile è il modello
articolatorio di Maeda (1990), meglio conosciuto come VTCALCs che: “offers the advantage of
physiological realism by integrating articulatory constraints.” (Boë et al., 1989). Modificando
tutti i parametri simultaneamente, gli informatori sarebbero stati costretti ad usare l’intero
spettro di ogni stimolo per trovare indici acustici invece di provare ad estrarre unicamente F1 ed
F2 dallo spettro (che costituiva il caso in studi precedenti poichè F3, F4 ed F5 erano sempre
fissati).
3. ESPERIMENTO 1
In questo esperimento, gli informatori hanno identificato ogni stimolo come [i] oppure [e].
Lo scopo di questo studio è quello di collocare la frontiera di identificazione tra [i]–[e] e di
verificare quali formanti permettono agli informatori di distinguere i due fonemi. La
697
collocazione di questa frontiera è stata successivamente utilizzata per l’interpretazione dei
risultati di discriminazione (esperimento 2).
3.1 Informatori
34 informatori francofoni dai 18 ai 51 anni di età (media=30.9 anni; deviazione standard=9
anni) hanno partecipato all’esperimento. Tutti sono parlanti nativi del francese e non sembrano
presentare problemi uditivi.
3.2 Stimoli
Gli stimoli sono stati sintetizzati con il modello articolatorio di Maeda (1990), installato su
un computer Toshiba Satellite A10.
Bark 1
F1
F2
F3
F4
F1
F2
F3
F4
F2'
[i]
308
2064
2976
3407
3.11 13.22 15.63 16.49 15.92
[e]
365
1961
2644
3362
3.68 12.88 14.87 16.41 13.54
1
247.6 2290.5 3157.1 2 3838.1
2.4
13.92 16.01 17.22 16.41
2
278.6 2290.5
3157.1 3838.1
2.7
13.92 16.01 17.22 16.41
3
309.5 2259.5
3002.4 3838.1
3
13.83 15.69 17.22 16.20
4
309.5 2228.6
2909.5 3838.1
3
13.73 15.49 17.22 16.07
5
340.5 2228.6
2847.6 3838.1
3.3
13.73 15.35 17.22 14.27
6
340.5 2197.6
2785.7 3807.1
3.3
13.64 15.21 17.17 14.16
7
371.4 2166.7
2723.8 3807.1
3.6
13.55 15.06 17.17 14.05
8
371.4 2135.7
2661.9 3807.1
3.6
13.45 14.91 17.17 13.94
9
402.4 2104.8
2631
3807.1
3.9
13.35 14.83 17.17 13.84
10
402.4 2042.9
2600
3776.2
3.9
13.15 14.76 17.12 13.69
Tabella 1: Parametri acustici in Hertz e Bark1 delle vocali [i] ed [e] francesi di informatori di
sesso maschile (Calliope, 1989: 84) e dei 10 stimoli sintetizzati.
stimolo
Hertz
Abbiamo cominciato col sintetizzare una prototipica 3 [i] (stimolo no. 1, il più periferico)
usando il file .LAM (Linear Articulatory Model) fornito dal programma sopracitato. Abbiamo
successivamente modificato i parametri, l’altezza della mascella e la posizione della lingua (le
uniche differenze articolatorie tra le due vocali in questione, secondo il modello) in 9 posizioni
1
Un convertitore da Hertz in Bark è disponibile sul sito:
http://www.ling.su.se/staff/hartmut/umrechnung.htm
2
VTCALCs non può calcolare l’F3 effettivo a causa della sua bassa ampiezza o larghezza di
banda. In questo caso, abbiamo preso in considerazione che l’F3 dello stimolo 1 è uguale all’F3
dello stimolo 2.
3
Abbiamo considerato gli stimoli 1 e 10 come prototipici basandoci su tre criteri: a) la loro
somiglianza acustica ai prototipi proposti in letteratura (cfr. Tabella 1), b) la loro quasi perfetta
esattezza di identificazione e c) il grado di effetto di warping percettivo osservato intorno ad
essi (più lo stimolo è vicino al prototipo è più difficile la discriminazione).
698
graduali verso una prototipica3 [e] (stimolo no. 10, il meno periferico). Abbiamo così ottenuto
un continuum vocalico di 10 stimoli. Per tutti gli stimoli, la frequenza fondamentale saliva dai
121 ai 130 Hz su 1/3 e poi è scesa a 100 Hz sui 2/3 finali. La durata è stata fissata a 350 ms per
tutti gli stimoli. Questi ultimi sono stati sintetizzati ad una frequenza di campionamento pari a
11025 Hz e ad una quantizzazione di 16 bit e sono stati registrati come file mono .wav nel
formato PCM (Pulse Code Modulation). La Tabella 1 presenta i valori formantici dei 10
stimoli.
3.3 Procedura
Gli stimoli sono stati presentati tramite cuffie “Creative”, in una stanza piccola e calma e
l’esperimento è stato eseguito su un Toshiba 300CDS laptop dal secondo autore dell’articolo. Il
livello approssimativo del volume è stato scelto intuitivamente per far sì che gli stimoli dessero
un’impressione realistica (ovviamente per quanto realistiche possano apparire le vocali
sintetizzate) ed è stato lo stesso per tutti gli informatori. Il software usato come interfaccia per
l’esperimento è stato Praat for Windows (Boersma & Weenink, 2001). Tutti gli stimoli sono
stati presentati sette volte ciascuno, in ordine casuale e senza ripetizioni consecutive dello
stesso stimolo. Le risposte possibili erano <i> ed <é> (gli innegabili corrispettivi ortografici di
[i] ed [e] in francese), presentati sul desktop all’interno di rettangoli gialli, sui quali gli
informatori cliccavano con il mouse per dare la risposta. Dopo ogni risposta, lo stimolo
successivo veniva presentato con una pausa di 0.5 secondi. C’è stata anche un’ulteriore pausa
dopo venti stimoli presentati e agli informatori veniva chiesto di cliccare in qualunque punto
dello schermo per poter continuare l’esperimento. La maggior parte degli informatori cliccava
quasi istantaneamente all’apparizione di questo messaggio sul desktop, e ciò sta ad indicare che
l’esperimento non era eccessivamente difficile.
L’esperimento è stato preceduto da un breve training in cui tutte le 10 vocali venivano
presentate due volte, in ordine casuale e senza ripetizioni consecutive dello stesso stimolo.
3.4 Risultati e Discussione
Prima di tutto, era evidente l’esigenza di verificare se la percentuale di identificazione per
ciascuno stimolo era dovuta al caso e quindi è stato effettuato un test binomiale (Uitenbroek,
1997) 4 . Quindi, per N=238 (7 ripetizioni di ogni stimolo x 34 informatori), α=0.01 (livello
dell’ambito di confidenza) e π=0.5 (presunta proporzione per ciascuna risposta: [i] oppure [e]),
la percentuale di identificazione per ogni stimolo non è dovuta al caso (>59%).
Una rappresentazione grafica dei risultati di identificazione (Figura 1) indica che la
transizione da [i] ad [e] è altamente quantica. Lo stimolo 4 ha il tasso più basso di tutti gli altri
elementi della categoria di [i] anche se le sue formanti sono abbastanza vicine a quelle della
produzione del prototipo [i] della letteratura (Tabella 1), mentre gli stimoli da 1 a 3 erano molto
più anteriori di quanto ci si potesse aspettare. La categoria di [e] non costituisce un’eccezione
nel nostro studio: tutti gli stimoli (6-10) che sono stati identificati come [e] ad un tasso molto
elevato (>90%), sono molto più anteriori di quanto ci si potesse aspettare, e hanno un F2 molto
più elevato di quello del prototipo francese [e].
4
Disponibile su: http://home.clara.net/sisa/binomial.htm
699
Identification score %
Con l’ausilio del software di statistica Systat 11.0, abbiamo effettuato un test ANOVA ad un
fattore (stimolo) per verificare se gli informatori rispondevano allo stesso modo a tutti gli
stimoli e abbiamo riscontrato un effetto significativo dello stimolo sulla risposta [F(9)=406.27,
p<0.01].
100
75
E
50
I
25
0
1
2
3
4
5
6
7
8
9
10
Stimulus number
Figura 1. Risultati di identificazione dei 10 stimoli.
D’altra parte, la Figura 1 mostra un cambiamento improvviso nell’etichettatura, che è
piuttosto raro per le vocali, per non parlare delle vocali lunghe. Inoltre, l’estrazione delle
formanti (Tabella 1) non può sufficientemente spiegare questo cambiamento brusco da [i] ad
[e], poichè le formanti seguono un’evoluzione piuttosto continua (relazione acusticoarticolatoria non quantica). Pertanto, abbiamo convertito questi valori in Bark, usando la
formula di Traunmüller (1990)1:
z= [26.81/(1+ 1960/f)]-0.53
dove f sta per “frequenza” e z sta per “critical band rate z” e abbiamo calcolato l’F2'
(Mantakas, 1986) 5 per ogni stimolo (Tabella 1, ultima colonna). Questa volta, la non-linearità
nell’evoluzione di F2' (relazione quantica tra l’output acustico e la percezione) spiega
perfettamente i risultati di identificazione, dato che gli stimoli identificati come [i] sono distinti
da quelli identificati come [e] dalla presenza di un indice acustico [+estremo alto F2'].
Conseguentemente, abbiamo supposto che F2' gioca un certo ruolo nel contrasto [i]–[e] in
francese, almeno in contesto isolato..
Per capire meglio l’utilità di F2' (che rappresenta il peso percettivo globale delle formanti
più alte – F2, F3 ed F4 – e il cui calcolo dipende dallo loro distanza relativa), abbiamo
preparato spettri di ampiezza (Figure 2a e 2b) di 4 stimoli: 1, 4, 5 e 10 con l’ausilio del software
di acustica Praat (Boersma & Weenink, 2001). Per l’estrazione delle curve spettrali, abbiamo
selezionato una finestra di 0.0389 ms (i 5 periodi tra la 12° e la 17° pulsazione glottidale, vale a
dire dal 12° al 16° periodo). Il punto di inizio della selezione corrispondeva a 0.09577 ms
dall’inizio del file e il punto finale a 0.13457 ms. Il pitch medio era di 128.67 Hz e il punto
medio della finestra corrisponde approssimativamente al punto più alto del pitch dell’intero
5
La formula è anche disponibile in Schwartz (1997). Uno script Praat è disponibile sul sito web
del primo autore: http://www.geocities.com/ch_karypidis/
700
stimolo. Per ciò che concerne i parametri avanzati del sonogramma nella finestra Praat
(Advanced spectrogram settings), si è optato per Gaussian per la window shape e 6 dB/oct per
la pre-emphasis. Dopo l’estrazione spettrale, abbiamo usato un cepstral smoothing (larghezza di
banda=500 Hz) per rendere gli spettri più leggibili. I 4 stimoli sopracitati sono stati scelti perché
sono dei prototipi (stimoli 1 e 10) oppure perché sono collocati sulle frontiere delle due
categorie (stimoli 4 e 5), così come sono stati percepiti nell’esperimento 1.
Figura 2: Spettri di ampiezza sovrapposti di a) i prototipi [i] ed [e] (stimoli 1 e 10) e b) i due
stimoli collocati vicino alla frontiera di identificazione (stimoli 4 e 5). Le linee tratteggiate
rappresentano le vocali identificate come [i] e quelle continue rappresentano gli elementi di [e].
La Figura 2a mostra una grande concentrazione di energia intorno ai 3800 Hz per lo stimolo
1 mentre, per lo stimolo 10, una quantità significativa di energia, si colloca intorno ai 2200 Hz.
Questa differenza di dislocazione di energia è infatti responsabile del divario di F2' tra i due
prototipi (Tabella 1). Tenuto conto di ciò, abbiamo esaminato la Figura 2b per poter capire il
cambiamento improvviso del modello di risposta. Un esame più attento mette in evidenza che
per lo stimolo 4, l’ampiezza della seconda massa di energia (corrispondente ad F3 ed F4) è la
differenza spettrale tra i due stimoli, percepiti come appartenenti a due distinte categorie, è
difficilmente evidente [(Flanagan, 1957) riporta che la minima precisione per quantizzare
l’ampiezza formantica è ±3 dB per F2 e ±5 dB per F3]. In questo modo la collocazione della
frontiera tra [i] ed [e] non può essere spiegata su delle basi spettrali/acustiche.
Chiaramente, dai nostri risultati e dalla nostra metodologia sorgono molte domande e
ulteriori esperimenti sono necessari per poter spiegare il ruolo di F2'. Uno studio in corso sul
contrasto [i]-[y] cerca di ri-esaminare la dislocazione delle masse di energia e la natura quantica
della relazione tra l’output acustico e la percezione. Inoltre, un’investigazione dei contrasti [u][o] e [y]-[ø] ci permetterebbe di verificare se F2' (o elevato o non elevato) è legato anche al
tratto [+alto] in francese.
4. ESPERIMENTO 2
Questo esperimento consiste nella discriminazione di tipo AX, in cui gli stessi stimoli
dell’esperimento 1 sono stati presentati in coppie ed in entrambi gli ordini, con una distanza di 1
o 2 stimoli lungo il continuum. Lo scopo di questo studio è quello di esaminare se l’effetto
dell’ordine può essere attestato usando la sintesi articolatoria e modificando tutte le formanti
701
allo stesso tempo. Inoltre, abbiamo cercato di verificare se l’effetto dell’ordine si manifesta
solamente quando sono presenti le vocali estreme oppure se è legato alla tipicalità.
4.1 Informatori
Gli informatori sono quelli descritti nel paragrafo 2. Un informatore è stato escluso per
avere giudicato tutte le coppie diverse (media = 30.6 anni; deviazione standard = 8.9 anni).
4.2 Stimoli
Gli stimoli sono quelli descritti nel paragrafo 2.
4.3 Procedura
Le condizioni esterne dell’esperimento sono quelle descritte nell’esperimento 1. Agli
informatori sono state presentate per cinque volte 18 coppie di stimoli con una distanza nel
continuum dell’ordine di uno stimolo (9 combinazioni, 2 ordini di presentazione: Forwardavanti e Reverse-indietro) e 16 coppie di stimoli con una distanza nel continuum dell’ordine di
due stimoli (8 combinazioni, 2 ordini di presentazione: Forward-avanti e Reverse-indietro) in
ordine casuale e senza ripetizioni consecutive dello stesso stimolo. Nell’ordine Forward
(avanti), il primo stimolo presentato è più estremo del secondo mentre nell’ordine Reverse
(indietro), lo stimolo più estremo viene presentato in seconda posizione. La Tabella 2 mostra le
quattro differenti combinazioni di stimoli.
Gruppo di coppie
Ordine
Distanza
Simbolo Numero di
degli stimoli
coppie
1-2, 3-4, ... , 9-10
Forward (avanti)
1
For1
9
2-1, 4-3, ... , 10-9
Reverse (indietro)
1
Rev1
9
1-3, 2-4, ... , 8-10
Forward (avanti)
2
For2
8
3-1, 4-2, ... , 10-8
Reverse (indietro)
2
Rev2
8
Tabella 2: I quattro gruppi delle coppie (“Simbolo”= il modo in cui ci riferiremo al gruppo delle
coppie lungo tutto l’articolo).
L’intervallo di silenzio tra gli stimoli è stato fissato a 250 ms. Secondo Cowan & Morse
(1986), l’informazione immagazzinata nella memoria uditiva è memorizzata in maniera più
efficace quando l’intervallo di silenzio tra gli stimoli è fissato al valore sopracitato. Agli
informatori veniva richiesto se le vocali presentate in coppia fossero le stesse oppure differenti.
Dopo ogni risposta, la prima vocale della coppia successiva veniva presentata con una pausa di
0.50 secondi. L’esperimento è stato interrotto ogni 15 coppie di stimoli, proponendo una breve
pausa e chiedendo agli informatori di cliccare in qualsiasi punto dello schermo per poter
continuare l’esperimento. Gli informatori hanno trovato questo esperimento più difficile rispetto
all’esperimento 1.
Anche questo esperimento è stato preceduto da un breve training in cui tutte le 34 coppie di
stimoli sono state presentate una sola volta ed in ordine casuale.
4.4 Risultati e discussione
L’effetto dell’ordine predice che i risultati della discriminazione (M) per le coppie in cui
l’elemento più periferico è presentato in prima posizione (For1 e For2), sarebbero inferiori
702
rispetto a quelli delle coppie nell’ordine opposto (Rev1 e Rev2). In altre parole, le nostre ipotesi
(H) sono le seguenti:
H0: MFor< MRev
H1: MFor1 < MRev1
H2: MFor2 < MRev2
I t-test appaiati rivelano che l’effetto dell’ordine è significativo per entrambe le ipotesi H1
[t(296)= -5.7368, p <0.01)] e H2 [t(263)= -4.9795, p<0.01)], in questo modo le ipotesi H1 e H2
risultano valide.
Figura 3. Risultati di discriminazione per coppie nelle condizioni a) distanza di 1 stimolo
lungo il continuum e b) distanza di 2 stimoli lungo il continuum.
Ciononostante, i grafici nelle Figure 3a e 3b suggeriscono che, in entrambe le condizioni
(distanza di 1 o 2 stimoli lungo il continuum), le uniche coppie che manifestano il fenomeno
dell’asimmetria sono quelle in cui lo stimolo più periferico è caratterizzato da un F2'
estremamente elevato (vale a dire le coppie contenenti gli stimoli 1, 2, 3 o 4, tutti identificati
come [i]). Ulteriori t-test appaiati hanno verificato questa ipotesi (Tabella 3).
Gruppo di coppie di vocali
Grado di Libertà valore di t valore di p
A
1-2, ..., 4-5
131
-6.8017
<0.01
B
5-6, ..., 9-10
164
-1.3286
0.09
C
1-3, ..., 4-6
131
-7.5669
<0.01
D
5-7, ..., 8-10
131
0.3681
0.64
Tabella 3: Risultati dei t-test appaiati (Ordine Forward vs. Reverse) per coppie con almeno un
elemento di [i] (gruppi A, C) e coppie senza nessun elemento di [i] (gruppi B, D). Per ogni
gruppo, i risultati dell’ordine Forward (avanti) e Reverse (indietro) sono stati paragonati.
I risultati della Tabella 3 il fenomeno dell’asimmetria è azionato soltanto dagli elementi di
[i]), potrebbero essere spiegati dal fatto che [i], come avevamo già menzionato
nell’introduzione, è considerata acusticamente come una vocale più stabile rispetto a [e].
(Stevens, 1989; Badin et al., 1990) Schwartz et al. (2005), citando un articolo precedente
703
(Schwartz & Escudier, 1989), affermano che gli stimoli con una convergenza formantica, a
livello di F2–F3 o di F3–F4, sono più stabili nella memoria a breve termine e producono un
rischio di errore (level of false alarms) inferiore rispetto agli stimoli non-focali. Chiaramente,
un esperimento focalizzato sull’intervallo di silenzio tra gli stimoli deluciderebbe il ruolo de la
memoria uditiva e fonetica nella discriminazione e nel meccanismo dell’asimmetria. Secondo
Secondo Repp (1990), ad un lungo intervallo di silenzio tra gli stimoli, gli informatori fanno più
affidamento sulla caratterizzazione fonemica della prima vocale da discriminare, mentre, ad un
breve intervallo usano maggiormente la loro memoria uditiva.
Abbiamo ulteriormente tentato di verificare se l’importanza della differenza acustica
(distanza di 1 o 2 stimoli lungo il continuum) abbia un effetto sulla discriminazione. Per questo
proposito, abbiamo eseguito i seguenti confronti: a) For1 vs. For2 e b) Rev1 vs. Rev2. I t-test
non appaiati indicano che gli informatori discriminano meglio quando la differenza nel
continuum è dell’ordine di 2 stimoli: a) For1 vs. For2: [t(559)= -14.27, p<0.01] e b) Rev1 vs.
Rev2: [t(559)= -12.44, p<0.01], e cioè quando la differenza acustica è più grande.
Figura 4. Differenza in Bark tra le coppie di stimoli.
Le curve di discriminazione nelle Figure 3a e 3b mostrano un’inclinazione discendente con i
rispettivi picchi coincidenti con le coppie contenenti gli elmenti di due diverse categorie
fonemiche (coppie 4-5, 3-5 e 4-6). Secondo Lotto (1998), la collocazione di questo picco non ci
dovrebbe sorprendere poichè i contrasti tra le frontiere fonemiche producono generalmente
delle percentuali di discriminazione più elevate.
Inoltre, la forma e la collocazione di queste curve sono conformi ai risultati di Kuhl (1991):
“When a stimulus perceived as having high category goodness was used as the referent vowel
in the discrimination task, overall percent-correct scores were significantly lower, indicating
difficulty in perceiving differences between the prototype and other members of the category.”.
Tuttavia, a meno che il prototipo della categoria [e] non sia collocato nel campo di variazione
del nostro continuum sintetizzato (comunque, i tassi di identificazione per gli stimoli da 7 a 10
sono vicini al 100%), l’ipotesi di Kuhl non può spiegare perché l’effetto dell’ordine si presenta
solo con gli stimoli della categoria di [i]. Inoltre, non sappiamo realmente come l’informazione
che concerne il livello di prototipicità (“buono”/”cattivo” prototipo che rappresenta una data
categoria) sia immagazzinata nella nostra memoria a breve termine.
704
Nella figura 4 abbiamo calcolato la differenza acustica (in tutte e quattro le formanti) tra gli
stimoli accoppiati. Possiamo notare nuovamente che i picchi di discriminazione delle Figure 3a
e 3b non coincidono con i picchi delle Figure 4a e 4b e ancora una volta l’ipotesi dell’F2’
fornisce una migliore spiegazione dei picchi.
Tuttavia i risultati della discriminazione per la coppia 4-5 (il picco nella condizione di
distanza di 1 stimolo, ordine Reverse) non raggiunge il livello del caso (risultato=49%),
suggerendo che la differenza acustica (le formanti separate e la relativa ampiezza) tra i due
stimoli è infinitesimale e che la discriminazione per questa coppia non è basata principalmente
sull’etichettatura fonetica.
5. CONCLUSIONE
Polka & Bohn (2003) hanno supposto che le vocali estreme hanno la capacità di rimanere
più a lungo nella memoria a breve termine rispetto agli stimoli non-estremi. Usando la sintesi
articolatoria (Maeda, 1990) per preparare un continuum [i]–[e], abbiamo studiato l’importanza
delle formanti più elevate per il sopracitato contrasto [i]–[e] in francese. Secondo la letteratura
(Calliope, 1989), un prototipo sintetico [i] è focale vista la vicinanza di F3 ed F4 (e quindi un
F2' molto elevato). Infatti, i risultati di identificazione hanno evidenziato un’evoluzione brusca
di F2' lungo il continuum: quando F3 era troppo lontano da F4 per formare una singola massa di
energia (che amplificherebbe la loro rispettiva intensità), le risposte sono diventate
uniformemente [e], indicando che [i] ha F2' estremamente elevato, come ci si aspettava. D’altro
lato, l’ampiezza formantica relativa e l’evoluzione delle formanti separate non convergevano
con le curve di identificazione.
L’esperimento 2 ha fornito un risultato contro le ipotesi generalizzate di Polka, dato che il
fenomeno dell’asimmetria si è manifestato soltanto per gli elementi della categoria di [i]. Se i
punti di riferimento fossero stati collocati alle frontiere delle foneme, entrambe le categorie
fonetiche avrebbero mostrato un effetto dell’ordine. Una spiegazione possibile potrebbe essere
la natura focale di [i] (vicinanza di F3 ed F4). Basandoci sui risultati forniti da Schwartz &
Escudier (1989), abbiamo ipotizzato che le vocali focali sono più stabili nella memoria a breve
termine, e ciò rende la discriminazione meno agevole. Ulteriori esperimenti con altre vocali
focali ([u], [a], [y] e [o]) deluciderebbero il loro ruolo nella nostra percezione. Ancora una volta
la differenza acustica tra gli stimoli accoppiati non convergeva con le curve di discriminazione.
I risultati di uno studio in corso sull’italiano meridionale (e più precisamente il salentino) e
lo spagnolo (Karypidis et al., in preparazione-a) hanno dimostrato che l’effetto dell’ordine si
manifesta unicamente in sistemi in cui [i] ed [e] sono caratterizzate da valori di F2’
discretamente distinti. Nel salentino soltanto [i] ha un F2' molto elevato (Grimaldi, 2003)
mentre nello spagnolo sia [e] che [i] sono estremi sul piano dell’F2' (Quilis & Esgueva, 1983).
Quest’ultimo studio supporta nostra ipotesi che, in certe lingue, il contrasto [i]–[e] potrebbe
essere basato principalmente non sulla differenza di F1 o F2, ma sulla presenza o assenza di un
indice acustico [+estremo alto F2'].
D’altro lato, potremmo supporre con una certa sicurezza che gli elementi di [i] sono
caratterizzati da un’inclinazione ascendente (cominciando da F2) mentre gli elementi di [e]
mostrano un’inclinazione discendente. In questo modo supponiamo che questo parametro
705
acustico (concentrazione di energia in diverse regioni nelle frequenze più alte) è dietro la
discriminabilità degli stimoli 4 e 5.
RINGRAZIAMENTI
Gli autori sono riconoscenti a Nick Clements, Annie Rialland e Mirko Grimaldi per i
commenti alle diverse versioni di questo articolo così come a due anonimi critici. Un
ringraziamento anche a tutti i 34 informatori che ci hanno dedicato parte del loro tempo e della
loro energia.
6. BIBLIOGRAFIA
Badin, P.; Perrier, P.; Boë, L. J.; Abry, C., 1990. Vocalic nomograms: Acoustic and articulatory
considerations upon formant convergences. Journal of the Acoustical Society of America, 87,
1290-1300.
Boë, L. J.; Perrier, P.; Guérin, B.; Schwartz, J. L., 1989. Maximal vowel space. In Proceedings
of the I European Conference on Speech Communication and Technology, Paris, 281-284.
Boersma, P.; Weenink, D., 2001. PRAAT, a system for doing phonetics by computer. Glot
International, 5(9/10), 341-345.
Calliope 1989. La parole et son traitement automatique, J. P. Tubach (a c. d.), Paris: Masson.
Cowan, N.; Morse, P. A., 1986. The use of auditory and phonetic memory in vowel
discrimination. Journal of the Acoustical Society of America, 79, 500-507.
Grimaldi, M., 2003. Nuove ricerche sul vocalismo tonico del Salento meridionale. Analisi
acustica e trattamento fonologico dei dati. Alessandria: Edizioni dell’Orso.
Hillenbrand, J.; Getty, M.; Clark, M.; Wheeler, K., 1995. Acoustic characteristics of American
English vowels. Journal of the Acoustical Society of America, 97, 3099-3111.
Iverson, P.; Kuhl, P. K., 2000. Perceptual magnet and phoneme boundary effects in speech
perception: do they arise from a common mechanism?. Perception & Psychophysics, 62, 874886.
Karypidis, C.; Colazo-Simon, A.; Costagliola, A. V., in preparazione-a. Asymmetry in vowel
perception in L2: evidence from articulatory synthesis of an [[i]~]-[e] continuum.
Karypidis, Ch.; Costagliola, A. V.; Colazo-Simon, A., in preparazione-b. Vowel prototypes
assimilation: a cross-linguistic perceptual study of five-vowel systems.
Klatt, D. H., 1980. Software for a cascade/parallel formant synthesizer. Journal of the
Acoustical Society of America, 67, 737-793.
Kuhl, P. K., 1991. Human adults and human infants show a “perceptual magnet effect” for the
prototypes of speech categories, monkeys do not. Perception & Psychophysics, 50, 93-107.
Lotto, A. J.; Kluender, K. R. e Holt, L. L., 1998. Depolarizing the perceptual magnet effect.
Journal of the Acoustical Society of America, 103, 3648-3655.
706
Maeda, S., 1990. Compensatory articulation during speech; evidence from the analysis and
synthesis of vocal-tract shapes using an articulatory model. In A. Marchal, W. J. Hardcastle (a
c. d.) Speech Production and Speech Modelling, Kluwer Academic Publishers, 131-149.
Mantakas, M.; Schwartz, J. L.; Escudier, P., 1986. Modèle de prédiction du ‘deuxième formant
effectif’ F’2 - application à l’étude de la labialité des voyelles avant du français. In Proceedings
of the XV Journées d’étude sur la parole, 157-161.
Medin, D. L.; Barsalou, L. W., 1987. Categorical processes and categorical perception. In S.
Harnad (a c. d.) Categorical Perception, Cambridge: Cambridge University Press, 455-490.
Polka, L.; Bohn, O. S., 2003. Asymmetries in vowel perception. Speech Communication, 41,
221-231.
Quilis, A.; Esqueva, M., 1983. Realización de los fonemas vocálicos españoles en posición
fonética normal. In M. Esgueva, M. Cantarero (a c. d.) Estudios de Fonética I, Madrid: CSIC
(Collectanea Phonetica VII), 137-252.
Repp, B. H.; Crowder, R. G., 1990. Stimulus order effects in vowel discrimination. Journal of
the Acoustical Society of America, 88(5), 2080-2090.
Repp, B.; Healy, A. F.; Crowder, R. G., 1979. Categories and context in the perception of
isolated steady-state vowels. Journal of Experimental Psychology: Human Perception and
Performance, 5, 129-145.
Schwartz, J. L.; Abry, C.; Boë, L. J.; Menard, L.; Vallee, N., 2005. Asymmetries in vowel
perception in the context of the Dispersion-Focalisation Theory. Speech Communication, 45,
425-434.
Schwartz, J. L.; Escudier, P., 1989. A strong evidence for the existence of a large-scale
integrated spectral representation in vowel perception. Speech Communication, 8, 235-259.
Shigeno, S.; Fujisaki, H., 1980. Context Effects in Phonetic and Non-Phonetic Vowel
Judgments. Annual Bulletin Research Institute of Logopedics and Phoniatrics, Faculty of
Medecine, University of Tokyo, 14, 217-224.
Stevens, K. N., 1989. On the Quantal Nature of Speech. Journal of Phonetics, 17, 3-45.
Sussman, J. E.; Lauckner-Morano, V. J., 1995. Further tests of the perceptual magnet effect in
the perception of [i]: Identification and change/no-change discrimination. Journal of the
Acoustical Society of America, 97, 539-552.
Swoboda, P. J.; Kass, J.; Morse, P. A.; Leavitt, L. A., 1978. Memory factors in vowel
discrimination of normal and at-risk infants. Child Development, 49, 332-339.
Traunmüller, H., 1990. Analytical expressions for the tonotopic sensory scale. Journal of the
Acoustical Society of America, 88, 97-100.
Uitenbroek, D. G., 1997. SISA-Binomial, http://home.clara.net/sisa/binomial.htm
707