In G. Marotta e N. Nocchi (a cura di)

Transcript

In G. Marotta e N. Nocchi (a cura di)
In G. Marotta e N. Nocchi (a cura di), La coarticolazione. Atti delle XIII Giornate di
Studio del Gruppo di Fonetica Sperimentale (A.I.A.) (Associazione Italiana di Acustica)
(Pisa, 28-30 Novembre, 2002), Pisa, Edizioni ETS, pp. 45-58.
LA COARTICOLAZIONE NELLA ARTICULATORY PHONOLOGY1
Mario Vayra
Università di Siena, sede di Arezzo
1. UNITA’ LINGUISTICHE E UNITA’ DI PRODUZIONE
La teoria linguistica ha prodotto nei secoli una considerevole mole di argomenti a
favore dell'esistenza di unità cognitive discrete, fondamentali nella strutturazione del
linguaggio. L'analisi dei linguisti mostra che la parola non è un insieme privo di struttura,
ma risulta piuttosto composta di elementi appartenenti a un inventario limitato di unità
fonologiche discrete. Esse non sono dotate di significato indipendente, ma possono
combinarsi reiteratamente in molteplici modi (e con relativa libertà), per formare la vasta
schiera di forme lessicali che costituiscono i vocabolari delle lingue del mondo. Numerose
le unità, dal micro- al macro-livello, variamente ipotizzate come unità fonologiche: tratti
fonologici, gesti, fonemi (in senso lato, segmenti), morae, sillabe, costituenti subsillabici
(quali attacco, nucleo, rima e coda sillabici), strutture gestuali e piedi metrici ([26]).
Linguisti e studiosi del segnale linguistico concordano comunque su un fatto: nel
momento in cui tali unità si manifestano nella produzione di parole e frasi, sia la loro
realizzazione spazio-temporale attraverso il sistema articolatorio, sia le loro caratteristiche
acustiche e uditive, conseguenti all'atto di produzione, appaiono altamente variabili e
dipendenti dal contesto. Tale variabilità è stata ampiamente discussa da fonetisti e studiosi
del segnale vocale sotto titoli diversi, quali, ad esempio, coarticolazione, coproduzione,
variabilità contestuale e variabilità prosodica (cfr. [13]).
Oggi sappiamo che i movimenti articolatori specifici di unità adiacenti non si
presentano come sequenziali in natura. Piuttosto, essi si rivelano come ampiamente
sovrapposti (coarticolati) e interattivi. Ciò ha conseguenze che rendono il segnale
linguistico, sia acustico, sia fisiologico, alquanto diverso dalla rappresentazione simbolica
che ne danno i sistemi di scrittura. Nel dominio acustico, non si ha una realizzazione
invariante per una determinata unità fonologica distribuita in contesti diversi: un fenomeno,
questo, che ha fatto parlare di lack of invariance. Inoltre, i margini, o confini, fra unità non
sono impliciti nel segnale linguistico: una proprietà, questa, denominata lack of
segmentability. In altri termini, non ci sono pause o "spazi vuoti" a demarcare in modo
1
Dedico con gratitudine questo mio 'esercizio' a Cathi Browman e Lou Goldstein,
riconoscendo il debito contratto, non solo in queste pagine, verso di loro e il loro lavoro.
sistematico le unità fonologiche, siano esse gesti, segmenti o parole. (Nel segnale acustico
sono invero presenti discontinuità d'ampiezza e spettrali, che tuttavia non sempre indicano
la presenza di confini, sebbene, in accordo alla Quantal Theory di Stevens, esse possano
fornire informazione importante sull'identità dei segmenti (cfr. [38], [39]). D'altra parte, la
Motor Theory of Speech Perception di Liberman e colleghi assume (nelle diverse versioni
di questa teoria) che proprio questa trasmissione in parallelo di informazione nel segnale
acustico, dovuta alla coarticolazione dei movimenti articolatori, dia origine a un evento
percettivo altamente efficiente seppure complesso, che consente al sistema di produzione di
codificare e trasmettere informazione ad alta velocità (si rinvia a [27], per una silloge di
scritti fondamentali nell'evoluzione della teoria).
Di fatto, i primi tentativi di trovare unità discrete e ricombinabili nelle registrazioni
del segnale acustico hanno generato fallimenti sorprendenti; fallimenti che da allora si sono
regolarmente reiterati ed estesi al dominio, articolatorio, elettromiografico, aerodinamico e
uditivo (cfr. [30]). Osservano Goldstein & Fowler ([19]), come, proprio in risposta a tali
fallimenti, i segmenti fonologici siano stati rimossi dal dominio dei fenomeni osservabili
'pubblicamente', e si sia assunto che essi sono unità fondamentalmente mentali, le quali
vengono distrutte nell'atto di produzione, per essere ricostruite 'soltanto' nella mente di chi
percepisce (in linea, così, con [21]).
2. ARTICULATORY PHONOLOGY
I 'gesti articolatori' come unità fonologiche.
La Articulatory Phonology di Catherine Browman e Louis Goldstein (cfr. [1], [3],
[4], [6]) è una teoria fonologica (ma si vedano le obiezioni di Clements, [14], circa lo status
fonologico della teoria), la quale assume, seguendo sostanzialmente Fowler [16], che i
fallimenti continuamente perpetuatisi nell'identificare, entro il segnale acustico di una
registrazione, unità fonologiche empiricamente osservabili - 'pubbliche', secondo
l'espressione degli autori - discendano dalla scelta di un livello di descrizione troppo
superficiale dell'atto di parola, e che sia invece possibile decomporre l'azione del tratto
vocale durante la produzione del parlato in unità discrete ricombinabili (cfr. [6]). Secondo
questa prospettiva teorica tra struttura fonologica e struttura fisica vige una relazione
naturale, potenzialmente governata da leggi. Specificamente, la tesi è che sia possibile
concepire le due strutture come descrizioni - l'una 'macroscopica' (low-dimensional), l'altra
'microscopica' (high-dimensional) -, di un singolo sistema auto-organizzato complesso (cfr.,
ad esempio, [25]).
Il presente lavoro si propone di presentare, in termini elementari, alcuni aspetti
formali del trattamento della coarticolazione gestuale entro il quadro teorico della
Articulatory Phonology (di qui in avanti AP), e di indicarne la rilevanza empirica in merito
alla 'spiegazione' di importanti proprietà fonologiche della struttura sillabica.
L'idea di fondo da cui muove l'intero impianto della AP è semplice: se è vero che i
prodotti acustici e articolatori delle azioni della produzione parlata sono continui e
dipendenti-dal-contesto, sono invece discrete e indipendenti dal contesto le azioni che
impegnano il tratto vocale e regolano i movimenti dei suoi articolatori. In altre parole, le
unità fonologiche sarebbero astratte rispetto alle variabili acustiche e articolatorie che
tipicamente si misurano, ma non così astratte da fuggire il reame del tratto vocale per
rifugiarsi nella mente. Sono astratte perché di 'grana grossa' (low dimensional, a un livello
macroscopico di descrizione) in rapporto agli specifici movimenti degli articolatori e alla
struttura acustica che possono specificarle ([18]; [17]).
La AP ipotizza che una descrizione del parlato in termini di gesti articolatori offra
degli strumenti che catturano proprietà sia fisiche, sia fonologiche del segnale vocale.
Nella AP il flusso parlato è decomposto in una serie di gesti che controllano le
azioni di insiemi distinti di articolatori entro il tratto vocale. Questi gesti sono
simultaneamente unità d'azione e unità di informazione.
I gesti sono unità d'azione in quanto costituiscono delle strutture coordinative (cfr.
[41]; [16]; [23]). Ogni gesto è un sistema dinamico neuromotorio, che guida la
coordinazione di un insieme di articolatori e muscoli (potenzialmente indipendenti) nella
formazione di una specifica costrizione del tratto vocale. Un gesto di chiusura labiale, ad
esempio, comporta l'azione coordinata di tre articolatori: labbro superiore, labbro inferiore
e mandibola, insieme a una quindicina di muscoli distinti. Quando un'occlusione labiale è
attiva nel tratto vocale, tutti questi articolatori e muscoli risultano funzionalmente vincolati,
in modo tale che le loro attività cooperano al raggiungimento dell'obiettivo dell'occlusione
labiale.
Il comportamento di questi articolatori, coordinato e funzionale alla formazione (e al
rilascio) di una costrizione locale nel tratto vocale (la 'meta funzionale' del gesto, o task), è
stato modellato come un Task-Dynamic System (cfr. [23]; [34]; [35]; [36]; [37])'2
I gesti costituiscono delle unità d'informazione, in quanto potenzialmente distintivi.
Gesti individuali possono essere usati per distinguere il significato di due parole, cioè per
creare un'opposizione fonologica, mediante ad esempio la presenza vs. assenza di un gesto
particolare, o mediante differenze per quanto riguarda luogo o grado di una medesima
costrizione gestuale.
In sintesi, i gesti sono unità astratte d'opposizione fonologica (una proprietà
'macroscopica'), ma, essendo riconducibili a sistemi dinamici che guidano la coordinazione
di molteplici articolatori e muscoli, essi sono intrinsecamente definiti in relazione alle loro
proprietà fisiche ('microscopiche').
S'è detto che ogni gesto regola la formazione di una costrizione nel tratto vocale per
mezzo di uno dei sottoinsiemi indipendetemente controllabili di articolatori. Occorre
soffermarsi su questo punto.
La teoria e il modello.
La AP identifica a tutt'oggi sei distinti congegni o organi responsabili della
formazione e del rilascio di costrizioni entro il tratto vocale: labbra, apice dorso e radice
della lingua, velo e laringe. Nel caso di un gesto di chiusura labiale, ad esempio, le labbra
costituiscono i terminal devices o end effectors di un sistema dinamico: labbro superiore,
labbro inferiore e mandibola insieme formano l'effector system.
È importante notare che questa teoria tratta gli 'organi vocali' come intrinsecamente
distinti e indipendenti, nonostante il fatto che essi, condividendo articolatori e muscoli,
condividano anche taluni 'gradi di libertà' meccanici (la mandibola, ad esempio, partecipa
2
Un sistema dinamico è descritto da un'equazione (o una serie di equazioni) che esprime il
cambiamento di stato di un sistema nel tempo. Si noti che un gesto può essere modellato
come un sistema dinamico con un insieme fisso di valori parametrici ([35]). Ciò significa
che l'equazione che identifica un gesto è fissa e invariante nel tempo, anche se gli
articolatori si muovono in modo continuo. Inoltre, il modo in cui gli articolatori si muovono
lungo l'asse temporale è specifico del particolare sistema dinamico interessato, quindi
l'unità gestuale invariante trova una specificazione diretta nel moto stesso.
ai tre sistemi costituiti rispettivamente da labbra, apice e dorso della lingua). Gli organi
sono considerati distinti, in quanto le parti dell'anatomia vocale che si avvicinano per
formare costrizioni sono differenti; e indipendenti in quanto ciascuno di questi organi può
formare una costrizione senza che necessariamente ciò determini una costrizione da parte di
qualche altro organo (questo argomento risale a Halle, [20], che si riferisce agli organi
come ad 'articolatori').
Nel quadro della AP, i gesti articolatori, cioè le azioni di costrizione di organi
distinti, costituiscono gli atomi di un sistema combinatorio, in quanto soddisfano la
proprietà fonologica di creare distinzioni discrete ([3]; [40]). In altre parole, due
combinazioni di gesti sono analizzate come fonologicamente distintive se comprendono
almeno un gesto di costrizione distinto. A titolo d'esempio, le parole pacco e tacco si
distingueranno in quanto, in posizione iniziale, la prima contiene un gesto labiale e la
seconda un gesto linguo-laminale.
Naturalmente non tutte le opposizioni fonologiche usate dalle lingue del mondo
implicano gesti di organi (o effectors) diversi. Parole come pino e fino sono distinte dalla
natura del gesto labiale ad inizio di parola, non dal tipo di organo implicato nel gesto
stesso.3 La AP è in grado di esprimere queste ulteriori distinzioni fononogiche, in quanto
ogni organo può produrre più di un tipo di gesti distintivi.
3
Goldstein & Fowler ([19]) osservano che, nei sistemi fonologici delle diverse lingue, le
opposizioni fra organi sono quelle primarie. Così, mentre tutte le lingue oppongono gesti di
costrizione prodotti da labbra, dorso e apice della lingua, opposizioni fonologiche 'intraorgano' ([p, f] o [t,T]) non sono universali.
Figura 1. Tract variables e articolatori ad esse associati nel Modello Gestuale
Computazionale degli Haskins Laboratories (da Browman & Goldstein, 1992).
I gesti sono tipicamente differenziati entro le dimensioni del grado (Constriction
Degree) e del luogo (Constriction Location) di una costrizione prodotta dall'organo
pertinente. Le 'mete funzionali' (tasks) di un determinato organo possono essere specificate
entro dimensioni denominate (vocal) tract variables (cfr. [5]; [37]). La parte superiore
sinistra della Figura 1 elenca l'inventario delle 'variabili del tratto' attualmente implementate
nel modello gestuale computazionale in via di elaborazione presso gli Haskins Laboratories
(cfr. [9]; [33], [37]; [4], [5]); nella parte inferiore della figura, il profilo longitudinale del
tratto vocale illustra le loro definizioni geometriche. La parte superiore destra della figura
elenca il gruppo di articolatori associato a ciascuna delle variabili; al di sotto, l'indicazione
degli articolatori è sovrapposta al profilo di un modello del tratto vocale.
Il modello computazionale elaborato agli Haskins comprende tre sottomodelli,
schematizzati alla Figura 2. Una trascrizione dell'enunciato che si intende 'sintetizzare' è
immessa nel sottocomponente linguistico del modello (Linguistic Gestural Model), che
contiene la 'conoscenza' della composizione gestuale delle parole (inglesi). L'uscita del
modello è uno 'spartito gestuale' (o gestural score; cfr. sezione seguente), il quale specifica
quali siano i gesti costitutivi dell'enunciato (in termini di specificazioni proprie della taskdynamics), e come essi si dispongano l'uno rispetto all'altro.
Figura 2. Componenti del Modello Gestuale Computazionale (da [6]).
La specificazione dinamica comprende i valori parametrici di un sistema dinamico
di secondo ordine (point attractor), che regola la formazione di una costrizione per mezzo
dell'organo pertinente. I valori parametrici si riferiscono a: posizione di equilibrio del
sistema dinamico (corrispondente al 'bersaglio' fonetico da realizzare (o tract variable);
elasticità (correlata alla costante temporale della formazione della costrizione) e
smorzamento. Ad esempio, un 'compito' (task) di chiusura labiale implica un cambiamento
nel tempo della distanza fra labbro superiore e inferiore. Durante il periodo di attivazione
del gesto labiale, al parametro 'posizione di equilibrio' relativo alla 'variabile del tratto' Lip
Aperture, è assegnato il valore che consente al gesto labiale il conseguimento della 'meta' di
chiusura labiale. I valori parametrici di 'elasticità' e 'smorzamento', combinati, determinano
invece la quantità di tempo che il sistema impiegherà per conseguire la meta della chiusura
labiale.
Il gestural score costituisce l'ingresso al Task-Dynamic Model di Saltzman e colleghi.
(cfr. [33], [34], [35]; [37]). Questo modello calcola la risposta di un gruppo di articolatori
simulati computazionalmente (cfr. parte destra della Figura 1) ai valori dinamici imposti a
quel particolare sistema dinamico. Si noti a questo riguardo che, in genere, i gesti (come
unità fonologiche) sono associati a specificazioni invarianti (indipendenti dal contesto)
delle 'variabili del tratto' (tract variables). A causa della possibile sovrapposizione
temporale fra i gesti, i movimenti dei singoli articolatori non esibiranno comunque
invarianza contestuale: alcuni degli articolatori, infatti, possono partecipare alla struttura
coordinativa di un altro gesto, prodotto in competizione.
Infine, i movimenti di questi articolatori 'simulati' costituiscono l'ingresso al Vocal Tract
Model, che calcola i mutamenti nel tempo della forma del tratto vocale, la 'funzione di
trasferimento' acustica e la forma d'onda in uscita.
Coordinazione e sovrapposizione gestuale
In sintonia con gli assunti delle fonologie non-lineari, secondo cui gli elementi primi
di un sistema fonologico non si combinano in sequenze lineari, l'ipotesi della AP è che i
gesti siano coordinati in strutture più elaborate di tipo molecolare ('costellazioni'), strutture
entro le quali essi possono sovrapporsi temporalmente.
Secondo la AP, tale coproduzione dei gesti può spiegare gran parte della dipendenza
dal contesto che si osserva nel segnale vocale. Come si è visto, l'origine del fenomeno
risiede nella natura stessa dei distinti organi articolatori, i quali condividono muscoli e
articolatori. Quando due gesti si sovrappongono, le attività dei gradi di libertà individuali
dipendono da entrambi i gesti in competizione. Consideriamo - adattando all'italiano un
esempio centrato sull'inglese di Goldstein e Fowler ([19].) - la sovrapposizione, nelle
sequenze [di] e [du], del gesto di costrizione laminare per la consonante con il gesto dorsale
associato alle vocali. Secondo gli assunti della AP, in entrambe le sequenze il gesto
laminale prodotto è il medesimo (indipendente-dal-contesto), mentre è diverso il contributo
dei vari gradi di libertà degli articolatori (lamina e dorso della lingua), perché diversi sono i
'vincoli' (constraints) posti dai gesti vocalici associati rispettivamente a [i] e [u]. La teoria
della task-dynamics offre un modello formale di tale variabilità dipendente dal contesto.
La AP rappresenta il combinarsi dei gesti, gli atomi del sistema, in più ampie
molecole, coordinando ('vincolando') i gesti individuali fra loro. Nel suo attuale assetto
computazionale la AP produce, per un qualsivoglia enunciato (in inglese), una 'struttura
gestuale' che consiste di un insieme di gesti e della specificazione del modo in cui questi
sono temporalmente coordinati fra loro. Vari lavori di Browman & Goldstein sono volti a
mostrare come tali strutture gestuali possano catturare generalizzazioni soggiacenti a
numerosi tipi di regole allofoniche e di alternanze fonologiche.
La Figura 3a (tratta da [7]) mostra la 'struttura gestuale' della parola pawn ("pedina",
"pegno"), con la vocale posteriore non arrotondata, comune nella pronuncia dell'inglese
americano (['pAn]). Le righe orizzontali rappresentano i 'livelli' (tiers) associati a ciascuno
dei distinti 'organi' attualmente utilizzati dal modello. Le etichette associate a ciascun gesto
('clo', 'alv', ad esempio) sono abbreviazioni per i valori numerici (o campi di valori
numerici) dei parametri dinamici che specificano la 'meta' (tract variables) di una
determinata costrizione Così, il gesto apicale (Tongue Tip) alla fine della parola pawn è
specificato, relativamente al 'grado di costrizione', per un valore che produrrà chiusura
completa, e, relativamente al 'luogo di costrizione', per un valore che situerà la restrizione
all’altezza della cresta alveolare.
Figura 3. (a) 'Struttura gestuale' per la parola pawn. Le linee collegano i gesti la cui
coordinazione è specificata lessicalmente nel modello computazionale. (b) 'Spartito
gestuale' (Gestural score). L'estensione orizzontale dei riquadri rettangolari rappresenta gli
intervalli d'attivazione dei gesti (adattata da [7]).
Le linee collegano le particolari coppie di gesti, entro la parola, la cui coordinazione
è specificata esplicitamente entro il modello della struttura gestuale. ([6]). La coordinazione
dei gesti è ottenuta mediante coordinazione di fase (phasing): nella struttura gestuale è cioè
indicato che una determinata fase del moto di un membro della coppia cade
simultaneamente ad una determinata fase dell’altro membro. Ai fini del presente lavoro, il
punto rilevante non è né l’ipotesi specifica che la coordinazione sia raggiunta attraverso
'coordinazione di fase', né la meccanica del fatto. Ciò che preme notare è invece che la
coordinazione è specificata localmente, per coppie di gesti. Posta questa condizione, ne
consegue che per un enunciato di n gesti, una specificazione di n-1 coppie determinerà
completamente la struttura temporale dell'enunciato. Così, per la parola pawn il modello
prevede cinque gesti e quattro specificazioni di fase.
Date le n-1 specificazioni di fase e la specificazione dei parametri dinamici
intrinseci, il modello calcola gli intervalli di attivazione relativi a ciascun gesto. Il risultato
è ciò che è stato denominato uno 'spartito gestuale' (gestural score). Osserviamo che gli
intervalli d'attivazione dei gesti si sovrappongono parzialmente (Figura 3b). Mentre le
strutture gestuali sono proprietà fisse, lessicali, di una parola, i valori quantitativi dei
parametri dinamici dei gesti e le relazioni di fase possono essere scalari, possono cioè
essere quantitativamente scalati in funzione di varie condizioni intrinseche all’atto di
parola. Lo spartito gestuale riflette questa operazione di scaling.
3. STRUTTURA SILLABICA E 'COMPETIZIONE DEI VINCOLI'
Un problema con lo spartito gestuale è stato messo in luce dal lavoro di Dany Byrd
(1996 a, b). Le relazioni di fase, entro un enunciato, possono essere diverse l’una dall’altra
per quanto riguarda la forza del vincolo che impongono alla sovrapposizione temporale fra
gesti (relative timing). Per fare un esempio: mentre i gesti di costrizione orale relativi a
consonanti in posizione di 'attacco' sillabico (onset) esibiscono poca variabilità nella
sovrapposizione, e dunque rivelano un rapporto di phasing altamente vincolato, i gesti
consonantici in posizione di 'coda' sillabica e quelli che valicano i confini di sillaba sono
significativamente molto più variabili in fatto di overlapping. Byrd ha proposto un phase
window model per spiegare il fenomeno, estendendo così il lavoro di Keating ([24]) dal
dominio spaziale a quello temporale.
Un metodo alternativo è quello cui oggi attendono Goldstein, Browman e colleghi.
L’idea è di associare ad ogni relazione di fase entro l’unità lessicale una sua 'forza': una
'forza di vincolo' (bonding o coupling strength), che rappresenti il grado di coesione fra
gesti. Da un punto di vista computazionale, allora, le fonti di variazione scalare nella
sovrapposizione gestuale (fonti dovute a fattori quali velocità di elocuzione, stile, prosodia),
influenzerebbero una determinata coppia di gesti in proporzione inversa alla forza della
relazione di fase che li vincola. Così, la considerevole variabilità nella sovrapposizione fra
gesti consonantici in posizione di 'coda' potrebbe originare, ad esempio, da variazioni locali
di velocità di elocuzione. Secondo questa ipotesi, tali cambiamenti di velocità
eserciterebbero un effetto più debole sulle consonanti in posizione di 'attacco', a causa della
forza maggiore, in quella posizione, dei vincoli di fase fra gesti consonantici
Questa nozione potrebbe aiutarci a render conto dei diversi contesti in cui la
variabilità nella sovrapposizione gestuale è tale da divenire percepibile. Browman &
Goldstein ([4]) mostrano che, nel parlato informale, i gesti possono 'slittare' l'uno sull'altro
fino a produrre la percezione di cancellazioni e assimilazioni consonantiche. Emerge
nitidamente da questo lavoro come, in tutti questi casi, i gesti che slittano sovrapponendosi
non siano parte della medesima unità lessicale. Così, se ipotizziamo che il phasing postlessicale fra gesti presenti alla fine di un'unità lessicale e all’inizio della successiva abbia
una 'forza di vincolo' debole (o, se possibile, nulla), riusciamo, in larga misura, a render
conto della distribuzione di simili assimilazioni e cancellazioni.
Arricchire il modello di un principio di bonding strength ha anche un'interessante
conseguenza formale. Infatti, se ad ogni relazione-di fase è associata una certa forza, cade il
motivo di limitarsi a specificare n-1 relazioni di fase in uno spartito gestuale. Si possono
infatti specificare anche relazioni di fase incompatibili, o in competizione: la struttura
temporale 'reale' che affiora nel gestural score potrà in questo caso essere computata dal
modello come quella che massimizza il rispetto dei vincoli in competizione: vincoli 'pesati'
in relazione alla rispettive forze.
Vedremo che non si tratta soltanto di una curiosità o di un preziosismo formale:
questo principio delle 'relazioni di fase in competizione' permette infatti di 'spiegare' alcune
proprietà fini ma solide della struttura sillabica. La discussione che segue è volta ad
illustrare questo passaggio importante nell'evoluzione della AP (e più in generale del
Modello Gestuale Computazionale elaborato agli Haskins). A tal fine mi sarà di guida un
recente articolo di Browman & Goldstein ([8]).
Il lavoro in questione trae le mosse da una serie di problemi, teorici e descrittivi,
posti dalla 'scoperta' del cosiddetto C-Center Effect In alcuni contributi i due studiosi - con
loro collaboratori - hanno descritto il comportamento delle consonanti in posizione di
attacco sillabico come una possibile eccezione al principio della specificazione di fase
locale, da gesto a gesto ([2]; [22]; [10]). Questi lavori mostrano che i gesti consonantici
degli attacchi sillabici esibiscono in modo sistematico un effetto - dagli Autori denominato
C-Center - in cui i gesti di costrizione orale che formano l'attacco sembrano coordinarsi, in
termini di relazione di fase, come un singolo blocco unitario rispetto al gesto vocalico.
I dati-campione presentati alla Figura 4 (e tratti da [8]) mostrano tale effetto. I
grafici presentano dati acustici e articolatori relativi a un parlante che produce gli enunciati
"cuff SAYED", "cuff PAID e cuff SPAYED" (i soggetti erano stati istruiti ad accentuare le
parole in maiuscolo). I dati articolatori sono costituiti da funzioni temporali delle variabili
Tongue Tip Constriction Degree e Lip Aperture (distanza verticale fra le labbra) calcolate
sulla base di dati radiografici. Le aree ombreggiate rappresentano gli intervalli temporali
durante i quali l'apice della lingua o le labbra raggiungono e mantengono i presunti 'valoribersaglio' (target values), relativi ai gesti delle consonanti iniziali. Le curve sono allineate
rispetto al momento di massima costrizione apicale per la consonante finale di parola,
momento rappresentato dalle linee continue nere.4 I dati articolatori relativi a sayed e paid
mostrano che, in queste parole, i centri degli 'intervalli-bersaglio' (indicati dalle linee
tratteggiate verticali) coincidono considerevolmente e che il gesto apicale (in paid) e il
gesto labiale (in sayed) sono coordinati con la medesima fase del gesto vocalico.
4
Gli AA. scelgono, come punto d'allineamento, la fase di occlusione apicale associata alla
consonante finale, perché assumono che la coordinazione fra gesto vocalico e gesto
consonantico finale di parola non cambi in funzione della consonante iniziale di parola.
Allineare le due curve rispetto alla consonante finale equivale pertanto, da questo punto di
vista, ad allinearle rispetto ad un punto qualsiasi della vocale (che, sulla base dei dati
articolatori disponibili, gli AA.non avrebbero potuto misurare direttamente, mancando
l'informazione relativa al gesto dorsale associato alla vocale).
Figura 4. Forma d’onda e funzioni temporali relative alle variabili Tongue Tip Constriction
Degree e Lip Aperture per gli enunciati “cuff SAYED”, “cuff PAID” e “cuff SPAYED”. Le
funzioni temporali sono stimate sulla base di dati radiografici (da [8]).
Il grafico relativo a spayed offre tuttavia uno scenario alquanto diverso. Qui né il
gesto apicale né quello labiale risultano allineati al resto della parola come lo sono in sayed
e paid. In spayed il gesto apicale ha inizio prima che in sayed, mentre il gesto labiale ha
inizio dopo che in paid. Comunque, il C-Center dei due gesti (indicato dalla linea
tratteggiata) si allinea con i C-Centers delle consonanti che in paid e sayed occupano
singolarmente la posizione di 'attacco'.
Il C-Center è calcolato come la media dei centri degli intervalli temporali in cui i
gesti individuali raggiungono il proprio bersaglio (aree ombreggiate). Tale procedura indica
che; pur aggiungendo gesti all'attacco sillabico, la media degli 'intervalli-bersaglio'
dell'intero insieme di gesti mantiene una relazione temporale stabile rispetto alla vocale. È
questo il cosiddetto effetto C-Center. Una simile generalizzazione - osservano i due studiosi
- non può essere catturata da una relazione di fase da gesto a gesto di tipo locale. Di fatto,
sembra piuttosto di trovarsi dinanzi ad una proprietà globale dei gesti di costrizione che
formano un attacco sillabico. Attacchi di tre consonanti funzionano esattamente in questo
modo.
Browman & Goldstein ([8]) hanno tuttavia proposto un metodo alternativo per
modellare il fenomeno. Utilizzando relazioni di fase e vincoli 'in competizione', essi
suggeriscono un'analisi dell'effetto C-Center che mantiene il principio della relazione di
fase da gesto a gesto (locale) anche per gli attacchi sillabici, e offre altresì una 'spiegazione'
maggiormente fondata su principi indipendenti. L'ipotesi dei due studiosi è che nell'effetto
C-Center entrino in gioco due tipi diversi di relazione di fase, fra loro in competizione: una
relazione denominata C-V che coordina la fase dei gesti consonantici e di quelli vocalici, e
una relazione C-C che coordina fra loro gesti consonantici successivi. Mi sembra
interessante ripercorre l'argomentazione degli AA.
Figura 5. Tre spartiti gestuali per spayed. (a) e (b) sono spartiti gestuali ipotetici (e
irrealizzati); (c) è uno spartito reale. Le frecce mostrano la coordinazione imposta dalla
relazione C-V. La linea verticale indica il punto ipotetico entro i gesti vocalici in cui la
relazione C-V coordina le consonanti. I riquadri bianchi rappresentano le violazioni della
relazione C-V imposte dal vincolo C-C (da [8]).
Browman & Goldstein scartano la possibilità, teoricamente esistente, che ciascun
gesto consonantico compreso in un attacco sillabico complesso intrattenga con la vocale
esattamente la medesima relazione temporale (la cosiddetta relazione C-V) che avrebbe in
una sillaba in cui l'attacco contenesse una sola consonante. Se questa fosse l'unica relazione
di fase ad essere specificata, osservano gli AA., è evidente che tutti i gesti consonantici
nell'attacco risulterebbero sincroni (come mostra la Figura 5a). In tal caso lo spartito
gestuale di spayed non garantirebbe il requisito di 'recuperabilità' percettiva dei segmenti
fonetici ([32]). Ciò significa che l'ascoltatore non sarebbe in grado di udire insieme, in
modo affidabile, sia il gesto labiale, sia quello apicale.
L'ipotesi di Browman & Goldstein è quella di una specificazione di fase
supplementare (la relazione C-C), che vincoli fra loro le fasi delle consonanti così da
renderle recuperabili. Al fine di superare la tendenza delle consonanti a sincronizzarsi,
osservano, occorre che questa relazione abbia una forza maggiore della relazione C-V.
Inoltre, per minimizzare la violazione di entrambe le relazioni di fase, i gesti consonantici
dovrebbero trovarsi equamente dislocati nel tempo dal punto specificato dalla relazione CV. Queste ipotesi sono illustrate alla Figura 5 (b, c). La Figura 5b mostra uno spartito
gestuale (ipotetico e irrealizzato) in cui il gesto labiale mantiene la relazione C-V, mentre il
gesto apicale è anticipato dalla relazione C-V. Questo spartito gestuale presenta una
violazione del vincolo C-V maggiore rispetto allo spartito della Figura 5c, in cui i due gesti
sono egualmente spostati rispetto al punto specificato dalla relazione C-V (si vedano i
riquadri bianchi). Tale configurazione, concludono Browman & Goldstein, è esattamente
quella che si osserva nei dati e che è stata descritta come effetto C-Center.
Una spiegazione dei C-Centers in termini di 'relazioni di fase in competizione'
presenta indubbiamente diversi vantaggi rispetto a quella secondo cui i gesti consonantici in
posizione d'attacco sillabico sono coordinati come una singola unità al gesto della vocale
seguente. Per le loro potenziali implicazioni nello sviluppo della AP come teoria
fonologica, mi limiterò a sottolineare i seguenti vantaggi:
i) Non è necessaria una relazione di fase non-locale fra gesti: tutte le relazioni di
fase coordinano dunque un gesto all'altro.
ii) Ciascuna delle relazioni in competizione può essere concepita come un vincolo
legato a un principio funzionale soggiacente: la relazione C-V assicura la trasmissione in
parallelo di consonanti e vocali ([28]); la relazione C-C assicura la recuperabilità percettiva
dei segmenti fonetici ([32]).
c) la nozione di 'relazioni di fase in competizione' può aiutarci a spiegare la
maggiore stabilità nella sovrapposizione articolatoria, che caratterizza le consonanti in
posizione d'attacco rispetto a quelle in posizione di coda. Si consideri in primo luogo che
non ci sono elementi certi a favore di un effetto C-Center per consonanti in coda. Se si
accoglie la proposta di relazioni di fase in competizione del tipo C-V e C-C, sembra
ragionevole supporre che le consonanti finali non siano attratte alla simultaneità da una
relazione V-C parallela a quella C-V. Ma se questa ipotesi è corretta, ne consegue che in
posizione di coda non è necessario un forte vincolo C-C, che impedisca alle consonanti di
sincronizzarsi.
Browman & Goldstein suggeriscono, infine, che questa asimmetria fra attacco e
coda potrebbe anche costituire la base fonetica della generale 'mancanza di peso' degli
attacchi sillabici (cfr. [15]). A causa della relazione C-V, infatti, l'aggiungersi di una
consonante all'attacco incrementerebbe la durata globale della sillaba in misura minore
della durata della consonante aggiunta. Mentre, mancando una relazione di tipo V-C per le
code sillabiche, l'aggiungersi di una consonante aumenterebbe la durata della sillaba
dell'intera durata della consonante aggiunta.
4. CONCLUSIONI
L'introduzione di vincoli, di forza diversa e in competizione, nelle strutture
gestuali ha un costo teorico per il modello della AP, poiché offre un numero assai maggiore
di potenziali gradi di libertà alla descrizione di strutture fonologiche. Le strutture gestuali
usate effettivamente dalle diverse lingue del mondo implicano solo un esiguo sotto-insieme
dei valori, a priori possibili, relativi a 'coordinazione di fase' e 'forza del vincolo'. Ma in che
modo le strutture gestuali giungono ad avere questa particolare serie ristretta di proprietà?
Nell'ambito della AP, la questione si pone oggi come centrale. In altre parole, ci si chiede in
che modo i vincoli fra gli elementi primi della fonologia gestuale, o atomi, riescano a creare
una serie ristretta di strutture stabili più ampie, di tipo molecolare, le cui proprietà sono a
fondamento di unità linguistiche 'tradizionali' come segmenti, sillabe e costituenti sillabici.
Il presente lavoro si deve fermare qui (per ragioni di spazio assai meno che di
competenza). Ma, a partire da questi interrogativi, si sono aperti nuovi fronti di ricerca. I
ricercatori che agli Haskins Laboratories oggi lavorano al Computational Gestural Model
pensano, ad esempio, che una risposta possa venire da una approccio basato su principi di
auto-organizzazione (l'emergere spontaneo di un ordine): principi che attraversano i domini
della fisica, della biologia, dell'economia, della sociologia, dell'antropologia. Lindblom
([29]), Lindblom, MacNeilage & Studdert-Kennedy ([31]), hanno aperto la strada. La
Articulatory Phonology di Catherine Browman e Louis Goldstein - oggi impegnata nel
tentativo di comprendere l'auto-organizzazione delle strutture gestuali - continua il
cammino.
BIBLIOGRAFIA
[1] Browman, C. P. & Goldstein, L. (1986), "Towards an articulatory phonology",
Phonology Yearbook, Vol. 3, pp. 219-252.
[2] Browman, C.P. & Goldstein, L. (1988), "Some notes on syllable structure in
articulatory phonology", Phonetica, Vol. 45, pp. 140-155.
[3] Browman, C. & Goldstein, L. (1989), "Articulatory gestures as phonological units",
Phonology, Vol. 6, pp. 201-251.
[4] Browman, C. P. & Goldstein, L. (1990a), "Tiers in Articulatory Phonology with Some
Implications for Casual Speech", In J. Kingston & M. Beckman (eds.), Papers in
Laboratory Phonology I : Between the Grammar and the Physics of Speech,
Cambridge University Press, Cambridge, U.K.
[5] Browman, C. P. & Goldstein, L. (1990b), "Gestural specifications using dynamicallydefined articulatory structures", Journal of Phonetics, Vol. 18, pp. 411-424.
[6] Browman, C. P. & Goldstein, L. (1992), "Articulatory Phonology: An Overview",
Phonetica, Vol. 49, pp. 155-180.
[7] Browman, C. P. & Goldstein, L. (1995), Dynamics and Articulatory Phonology, in T.
van Gelder & R. Port, eds., Mind as Motion: Explorations in the Dynamics of
Cognition, MIT Press, Cambridge, MA, pp. 175-193.
[8] Browman, C. P. & Goldstein, L. (2000), "Competing constraints on intergestural
coordination and self-organization of phonological structures", Bulletin de la
Communication Parlée, Vol. 5, pp. 25-34.
[9] Browman, C.P., Goldstein, L., Kelso J.A.S., Rubin, P. & Saltzman, E. (1984),
"Articulatory Synthesis for Underlying Dynamics", Journal of Acoustics Society
of America, Vol. 75: S 22-S23 (A).
[10] Byrd, D. (1995), "C-Centers Revisited", Phonetica, Vol. 52, pp. 285-306.
[11] Byrd, D. (1996a), "Influences on articulatory timing in consonant sequences", Journal
of Phonetics, Vol. 24, pp. 209-244.
[12] Byrd, D. (1996b), "A phase window framework for articulatory timing", Phonology,
Vol. 13, pp. 139-169.
[13] Byrd, D. & Saltzman, E., "The elastic phrase: Modelling the dynamics of boundaryadjacent lengthening", Journal of Phonetics, in c. di pubblicazione.
[14] Clements, G. N. (1992), "Phonological Primes: Features or Gestures?", Phonetica,
Vol. 49, 3-4, pp.181-193.
[15] Davis, S. (1988), "Syllable onsets as a factor in stress rules", Phonology, Vol. 5, pp. 119
[16] Fowler, C. A. (1980), "Coarticulation and theories of extrinsic timing", Journal of
Phonetics, Vol. 8, pp.113-133.
[17] Fowler, C. A. (1986), "An event approach to the study of speech perception from a
direct-realist perspective", Journal of. Phonetics, Vol. 14, pp. 3-28.
[18] Gibson, J. (1979), The Ecological Approach to Visual Perception, Houghton-Mifflin,
Boston.
[19] Goldstein, L. & Fowler, C. "Articulatory Phonology: A phonology for public
language use", in corso di pubblicazione.
[20] Halle, M. (1983), "On distinctive features and their articulatory implementation",
Natural Language and Linguistic Theory, Vol. 1, pp. 91-105.
[21] Hockett, C. (1955), A Manual of Phonetics, Indiana University Press, Bloomington,
Indiana.
[22] Honorof, D. N. & Browman, C.P., (1995), "The center or edge: How are consonant
clusters organized with respect to the vowel?". In K. Elenius & P. Branderud
(eds.), Proceedings of the XIII International Congress of Phonetic Sciences, Vol.
3, KTH and Stockholm University, pp. 552-555.
[23] Kelso, J. A. S., Saltzman, E. & Tuller, B. (1986), "The Dynamical Perspective on
Speech Production: Data and Theory", Journal of Phonetics, Vol. 14, pp. 29-59.
[24] Keating, P. A. (1990), The window model of coarticulation: Articulatory evidence. In
J. Kingston & M. Beckman (eds.), Papers in Laboratory Phonology I : Between
the Grammar and the Physics of Speech, Cambridge University Press,
Cambridge, U.K.
[25] Kugler, P. N. & Turvey, M. T. (1987), Information, Natural Law and the SelfAssembly of Rhythmic Movement, Lawrence Erlbaum Associates, Hillsdale, NJ.
[26] Ladefoged, P. (20014), A Course in Phonetics, Harcourt, Orlando, FL.
[27] Liberman, A. M. (1996), Speech: A Special Code, MIT Press, Cambridge, MA
[28] Liberman, A., M., Cooper, F. S., Shankweiler, D. & Studdert-Kennedy, M. (1967),
"Perception of the speech code", Psychological Review, Vol. 74, pp. 431-461.
[29] Lindblom, B. (1986), Phonetic Universals in Vowel Systems. In J. Ohala & J. J.
Jaeger (eds.), Experimental Phonology, Academic Press, Orlando, FL, pp. 13-44.
[30] Lindblom, B. (1990), Explaining Phonetic Variation: A Sketch of the H & H Theory,
in Hardcastle, W. J. & Marchal, A. (eds.), Speech Production and Speech
Modelling, Kluwert, Dordrecht, pp. 403-439.
[31] Lindblom, B., Mac Neilage, P. & Studdert-Kennedy, M. (1983), Self-Organizing
Processes and the Explanation of Language Universals. In B. Butterworth, B.
comrie & Ö. Dahl (eds.), Explanations for Language Universals, Mouton, The
Hague, pp. 181-203.
[32] Mattingly, I. (1981), "Phonetic Representation and Speech Synthesis by Rule". In T.
Myers, J. Laver & J. Anderson (eds.), The Cognitive Representation of Speech,
North Holland, Amsterdam, pp. 415-420.
[33] Saltzman, E. (1986), Task Dynamic Coordination of the Speech Articulators: A
preliminary Model. Generation and Modulation of Action Patterns. In H. Heuer
& C. Fromm (eds.), Experimental Brain Research, Series 15, pp. 129-144,
Springer-Verlag, New York.
[34] Saltzman, E. (1991), The Task Dynamic Model in Speech Production. In H. F. M.
Peters, W. Hulstijn & C.W. Starkweather (eds.), Speech Motor Control and
Stuttering, Elsevier Science Publishers, Amsterdam, pp. 37-52.
[35] Saltzman, E. (1995), Dynamics and Coordinate Systems in skilled sensorimotor
activity. In T. van Gelder & R. Port (eds)., Mind as Motion: Explorations in the
Dynamics of Cognition, MIT Press, Cambridge, MA, pp. 150-173.
[36] Saltzman, E. & Kelso, J. A. S. (1987), "Skilled Actions: A Task-Dynamic Approach,
Psychological Review, Vol. 94, pp. 84-106.
[37] Saltzman, E. & Munhall, K. (1989), "A Dynamical Approach to gestural Patterning in
speech Production, Ecological Psychology", Vol. 1, pp. 333-382.
[38] Stevens, K. (1989), "On the Quantal Nature of Speech," Journal of Phonetics, Vol.17,
pp. 3-45.
[39] Stevens, K. (1999), Acoustic Phonetics, MIT Press, Cambridge, MA.
[40] Studdert-Kennedy, M. (1998), The Particulate Origins of Language Generativity. In
Hurford, J., Studdert-Kennedy, M. & Knight, C (eds.), Approaches to the
Evolution of Language, Cambridge University Press, Cambridge, U.K., pp. 202221.
[41] Turvey, M. T. (1977), Preliminaries to a Theory of Action with Reference to Vision.
In R. Shaw & J. Bransford (eds.), Perceiving, Acting and Knowing: Towards an
Ecological Psychology, Lawrence Erlbaum Associates., Hillsdale, N.J., pp. 211265.