In G. Marotta e N. Nocchi (a cura di)
Transcript
In G. Marotta e N. Nocchi (a cura di)
In G. Marotta e N. Nocchi (a cura di), La coarticolazione. Atti delle XIII Giornate di Studio del Gruppo di Fonetica Sperimentale (A.I.A.) (Associazione Italiana di Acustica) (Pisa, 28-30 Novembre, 2002), Pisa, Edizioni ETS, pp. 45-58. LA COARTICOLAZIONE NELLA ARTICULATORY PHONOLOGY1 Mario Vayra Università di Siena, sede di Arezzo 1. UNITA’ LINGUISTICHE E UNITA’ DI PRODUZIONE La teoria linguistica ha prodotto nei secoli una considerevole mole di argomenti a favore dell'esistenza di unità cognitive discrete, fondamentali nella strutturazione del linguaggio. L'analisi dei linguisti mostra che la parola non è un insieme privo di struttura, ma risulta piuttosto composta di elementi appartenenti a un inventario limitato di unità fonologiche discrete. Esse non sono dotate di significato indipendente, ma possono combinarsi reiteratamente in molteplici modi (e con relativa libertà), per formare la vasta schiera di forme lessicali che costituiscono i vocabolari delle lingue del mondo. Numerose le unità, dal micro- al macro-livello, variamente ipotizzate come unità fonologiche: tratti fonologici, gesti, fonemi (in senso lato, segmenti), morae, sillabe, costituenti subsillabici (quali attacco, nucleo, rima e coda sillabici), strutture gestuali e piedi metrici ([26]). Linguisti e studiosi del segnale linguistico concordano comunque su un fatto: nel momento in cui tali unità si manifestano nella produzione di parole e frasi, sia la loro realizzazione spazio-temporale attraverso il sistema articolatorio, sia le loro caratteristiche acustiche e uditive, conseguenti all'atto di produzione, appaiono altamente variabili e dipendenti dal contesto. Tale variabilità è stata ampiamente discussa da fonetisti e studiosi del segnale vocale sotto titoli diversi, quali, ad esempio, coarticolazione, coproduzione, variabilità contestuale e variabilità prosodica (cfr. [13]). Oggi sappiamo che i movimenti articolatori specifici di unità adiacenti non si presentano come sequenziali in natura. Piuttosto, essi si rivelano come ampiamente sovrapposti (coarticolati) e interattivi. Ciò ha conseguenze che rendono il segnale linguistico, sia acustico, sia fisiologico, alquanto diverso dalla rappresentazione simbolica che ne danno i sistemi di scrittura. Nel dominio acustico, non si ha una realizzazione invariante per una determinata unità fonologica distribuita in contesti diversi: un fenomeno, questo, che ha fatto parlare di lack of invariance. Inoltre, i margini, o confini, fra unità non sono impliciti nel segnale linguistico: una proprietà, questa, denominata lack of segmentability. In altri termini, non ci sono pause o "spazi vuoti" a demarcare in modo 1 Dedico con gratitudine questo mio 'esercizio' a Cathi Browman e Lou Goldstein, riconoscendo il debito contratto, non solo in queste pagine, verso di loro e il loro lavoro. sistematico le unità fonologiche, siano esse gesti, segmenti o parole. (Nel segnale acustico sono invero presenti discontinuità d'ampiezza e spettrali, che tuttavia non sempre indicano la presenza di confini, sebbene, in accordo alla Quantal Theory di Stevens, esse possano fornire informazione importante sull'identità dei segmenti (cfr. [38], [39]). D'altra parte, la Motor Theory of Speech Perception di Liberman e colleghi assume (nelle diverse versioni di questa teoria) che proprio questa trasmissione in parallelo di informazione nel segnale acustico, dovuta alla coarticolazione dei movimenti articolatori, dia origine a un evento percettivo altamente efficiente seppure complesso, che consente al sistema di produzione di codificare e trasmettere informazione ad alta velocità (si rinvia a [27], per una silloge di scritti fondamentali nell'evoluzione della teoria). Di fatto, i primi tentativi di trovare unità discrete e ricombinabili nelle registrazioni del segnale acustico hanno generato fallimenti sorprendenti; fallimenti che da allora si sono regolarmente reiterati ed estesi al dominio, articolatorio, elettromiografico, aerodinamico e uditivo (cfr. [30]). Osservano Goldstein & Fowler ([19]), come, proprio in risposta a tali fallimenti, i segmenti fonologici siano stati rimossi dal dominio dei fenomeni osservabili 'pubblicamente', e si sia assunto che essi sono unità fondamentalmente mentali, le quali vengono distrutte nell'atto di produzione, per essere ricostruite 'soltanto' nella mente di chi percepisce (in linea, così, con [21]). 2. ARTICULATORY PHONOLOGY I 'gesti articolatori' come unità fonologiche. La Articulatory Phonology di Catherine Browman e Louis Goldstein (cfr. [1], [3], [4], [6]) è una teoria fonologica (ma si vedano le obiezioni di Clements, [14], circa lo status fonologico della teoria), la quale assume, seguendo sostanzialmente Fowler [16], che i fallimenti continuamente perpetuatisi nell'identificare, entro il segnale acustico di una registrazione, unità fonologiche empiricamente osservabili - 'pubbliche', secondo l'espressione degli autori - discendano dalla scelta di un livello di descrizione troppo superficiale dell'atto di parola, e che sia invece possibile decomporre l'azione del tratto vocale durante la produzione del parlato in unità discrete ricombinabili (cfr. [6]). Secondo questa prospettiva teorica tra struttura fonologica e struttura fisica vige una relazione naturale, potenzialmente governata da leggi. Specificamente, la tesi è che sia possibile concepire le due strutture come descrizioni - l'una 'macroscopica' (low-dimensional), l'altra 'microscopica' (high-dimensional) -, di un singolo sistema auto-organizzato complesso (cfr., ad esempio, [25]). Il presente lavoro si propone di presentare, in termini elementari, alcuni aspetti formali del trattamento della coarticolazione gestuale entro il quadro teorico della Articulatory Phonology (di qui in avanti AP), e di indicarne la rilevanza empirica in merito alla 'spiegazione' di importanti proprietà fonologiche della struttura sillabica. L'idea di fondo da cui muove l'intero impianto della AP è semplice: se è vero che i prodotti acustici e articolatori delle azioni della produzione parlata sono continui e dipendenti-dal-contesto, sono invece discrete e indipendenti dal contesto le azioni che impegnano il tratto vocale e regolano i movimenti dei suoi articolatori. In altre parole, le unità fonologiche sarebbero astratte rispetto alle variabili acustiche e articolatorie che tipicamente si misurano, ma non così astratte da fuggire il reame del tratto vocale per rifugiarsi nella mente. Sono astratte perché di 'grana grossa' (low dimensional, a un livello macroscopico di descrizione) in rapporto agli specifici movimenti degli articolatori e alla struttura acustica che possono specificarle ([18]; [17]). La AP ipotizza che una descrizione del parlato in termini di gesti articolatori offra degli strumenti che catturano proprietà sia fisiche, sia fonologiche del segnale vocale. Nella AP il flusso parlato è decomposto in una serie di gesti che controllano le azioni di insiemi distinti di articolatori entro il tratto vocale. Questi gesti sono simultaneamente unità d'azione e unità di informazione. I gesti sono unità d'azione in quanto costituiscono delle strutture coordinative (cfr. [41]; [16]; [23]). Ogni gesto è un sistema dinamico neuromotorio, che guida la coordinazione di un insieme di articolatori e muscoli (potenzialmente indipendenti) nella formazione di una specifica costrizione del tratto vocale. Un gesto di chiusura labiale, ad esempio, comporta l'azione coordinata di tre articolatori: labbro superiore, labbro inferiore e mandibola, insieme a una quindicina di muscoli distinti. Quando un'occlusione labiale è attiva nel tratto vocale, tutti questi articolatori e muscoli risultano funzionalmente vincolati, in modo tale che le loro attività cooperano al raggiungimento dell'obiettivo dell'occlusione labiale. Il comportamento di questi articolatori, coordinato e funzionale alla formazione (e al rilascio) di una costrizione locale nel tratto vocale (la 'meta funzionale' del gesto, o task), è stato modellato come un Task-Dynamic System (cfr. [23]; [34]; [35]; [36]; [37])'2 I gesti costituiscono delle unità d'informazione, in quanto potenzialmente distintivi. Gesti individuali possono essere usati per distinguere il significato di due parole, cioè per creare un'opposizione fonologica, mediante ad esempio la presenza vs. assenza di un gesto particolare, o mediante differenze per quanto riguarda luogo o grado di una medesima costrizione gestuale. In sintesi, i gesti sono unità astratte d'opposizione fonologica (una proprietà 'macroscopica'), ma, essendo riconducibili a sistemi dinamici che guidano la coordinazione di molteplici articolatori e muscoli, essi sono intrinsecamente definiti in relazione alle loro proprietà fisiche ('microscopiche'). S'è detto che ogni gesto regola la formazione di una costrizione nel tratto vocale per mezzo di uno dei sottoinsiemi indipendetemente controllabili di articolatori. Occorre soffermarsi su questo punto. La teoria e il modello. La AP identifica a tutt'oggi sei distinti congegni o organi responsabili della formazione e del rilascio di costrizioni entro il tratto vocale: labbra, apice dorso e radice della lingua, velo e laringe. Nel caso di un gesto di chiusura labiale, ad esempio, le labbra costituiscono i terminal devices o end effectors di un sistema dinamico: labbro superiore, labbro inferiore e mandibola insieme formano l'effector system. È importante notare che questa teoria tratta gli 'organi vocali' come intrinsecamente distinti e indipendenti, nonostante il fatto che essi, condividendo articolatori e muscoli, condividano anche taluni 'gradi di libertà' meccanici (la mandibola, ad esempio, partecipa 2 Un sistema dinamico è descritto da un'equazione (o una serie di equazioni) che esprime il cambiamento di stato di un sistema nel tempo. Si noti che un gesto può essere modellato come un sistema dinamico con un insieme fisso di valori parametrici ([35]). Ciò significa che l'equazione che identifica un gesto è fissa e invariante nel tempo, anche se gli articolatori si muovono in modo continuo. Inoltre, il modo in cui gli articolatori si muovono lungo l'asse temporale è specifico del particolare sistema dinamico interessato, quindi l'unità gestuale invariante trova una specificazione diretta nel moto stesso. ai tre sistemi costituiti rispettivamente da labbra, apice e dorso della lingua). Gli organi sono considerati distinti, in quanto le parti dell'anatomia vocale che si avvicinano per formare costrizioni sono differenti; e indipendenti in quanto ciascuno di questi organi può formare una costrizione senza che necessariamente ciò determini una costrizione da parte di qualche altro organo (questo argomento risale a Halle, [20], che si riferisce agli organi come ad 'articolatori'). Nel quadro della AP, i gesti articolatori, cioè le azioni di costrizione di organi distinti, costituiscono gli atomi di un sistema combinatorio, in quanto soddisfano la proprietà fonologica di creare distinzioni discrete ([3]; [40]). In altre parole, due combinazioni di gesti sono analizzate come fonologicamente distintive se comprendono almeno un gesto di costrizione distinto. A titolo d'esempio, le parole pacco e tacco si distingueranno in quanto, in posizione iniziale, la prima contiene un gesto labiale e la seconda un gesto linguo-laminale. Naturalmente non tutte le opposizioni fonologiche usate dalle lingue del mondo implicano gesti di organi (o effectors) diversi. Parole come pino e fino sono distinte dalla natura del gesto labiale ad inizio di parola, non dal tipo di organo implicato nel gesto stesso.3 La AP è in grado di esprimere queste ulteriori distinzioni fononogiche, in quanto ogni organo può produrre più di un tipo di gesti distintivi. 3 Goldstein & Fowler ([19]) osservano che, nei sistemi fonologici delle diverse lingue, le opposizioni fra organi sono quelle primarie. Così, mentre tutte le lingue oppongono gesti di costrizione prodotti da labbra, dorso e apice della lingua, opposizioni fonologiche 'intraorgano' ([p, f] o [t,T]) non sono universali. Figura 1. Tract variables e articolatori ad esse associati nel Modello Gestuale Computazionale degli Haskins Laboratories (da Browman & Goldstein, 1992). I gesti sono tipicamente differenziati entro le dimensioni del grado (Constriction Degree) e del luogo (Constriction Location) di una costrizione prodotta dall'organo pertinente. Le 'mete funzionali' (tasks) di un determinato organo possono essere specificate entro dimensioni denominate (vocal) tract variables (cfr. [5]; [37]). La parte superiore sinistra della Figura 1 elenca l'inventario delle 'variabili del tratto' attualmente implementate nel modello gestuale computazionale in via di elaborazione presso gli Haskins Laboratories (cfr. [9]; [33], [37]; [4], [5]); nella parte inferiore della figura, il profilo longitudinale del tratto vocale illustra le loro definizioni geometriche. La parte superiore destra della figura elenca il gruppo di articolatori associato a ciascuna delle variabili; al di sotto, l'indicazione degli articolatori è sovrapposta al profilo di un modello del tratto vocale. Il modello computazionale elaborato agli Haskins comprende tre sottomodelli, schematizzati alla Figura 2. Una trascrizione dell'enunciato che si intende 'sintetizzare' è immessa nel sottocomponente linguistico del modello (Linguistic Gestural Model), che contiene la 'conoscenza' della composizione gestuale delle parole (inglesi). L'uscita del modello è uno 'spartito gestuale' (o gestural score; cfr. sezione seguente), il quale specifica quali siano i gesti costitutivi dell'enunciato (in termini di specificazioni proprie della taskdynamics), e come essi si dispongano l'uno rispetto all'altro. Figura 2. Componenti del Modello Gestuale Computazionale (da [6]). La specificazione dinamica comprende i valori parametrici di un sistema dinamico di secondo ordine (point attractor), che regola la formazione di una costrizione per mezzo dell'organo pertinente. I valori parametrici si riferiscono a: posizione di equilibrio del sistema dinamico (corrispondente al 'bersaglio' fonetico da realizzare (o tract variable); elasticità (correlata alla costante temporale della formazione della costrizione) e smorzamento. Ad esempio, un 'compito' (task) di chiusura labiale implica un cambiamento nel tempo della distanza fra labbro superiore e inferiore. Durante il periodo di attivazione del gesto labiale, al parametro 'posizione di equilibrio' relativo alla 'variabile del tratto' Lip Aperture, è assegnato il valore che consente al gesto labiale il conseguimento della 'meta' di chiusura labiale. I valori parametrici di 'elasticità' e 'smorzamento', combinati, determinano invece la quantità di tempo che il sistema impiegherà per conseguire la meta della chiusura labiale. Il gestural score costituisce l'ingresso al Task-Dynamic Model di Saltzman e colleghi. (cfr. [33], [34], [35]; [37]). Questo modello calcola la risposta di un gruppo di articolatori simulati computazionalmente (cfr. parte destra della Figura 1) ai valori dinamici imposti a quel particolare sistema dinamico. Si noti a questo riguardo che, in genere, i gesti (come unità fonologiche) sono associati a specificazioni invarianti (indipendenti dal contesto) delle 'variabili del tratto' (tract variables). A causa della possibile sovrapposizione temporale fra i gesti, i movimenti dei singoli articolatori non esibiranno comunque invarianza contestuale: alcuni degli articolatori, infatti, possono partecipare alla struttura coordinativa di un altro gesto, prodotto in competizione. Infine, i movimenti di questi articolatori 'simulati' costituiscono l'ingresso al Vocal Tract Model, che calcola i mutamenti nel tempo della forma del tratto vocale, la 'funzione di trasferimento' acustica e la forma d'onda in uscita. Coordinazione e sovrapposizione gestuale In sintonia con gli assunti delle fonologie non-lineari, secondo cui gli elementi primi di un sistema fonologico non si combinano in sequenze lineari, l'ipotesi della AP è che i gesti siano coordinati in strutture più elaborate di tipo molecolare ('costellazioni'), strutture entro le quali essi possono sovrapporsi temporalmente. Secondo la AP, tale coproduzione dei gesti può spiegare gran parte della dipendenza dal contesto che si osserva nel segnale vocale. Come si è visto, l'origine del fenomeno risiede nella natura stessa dei distinti organi articolatori, i quali condividono muscoli e articolatori. Quando due gesti si sovrappongono, le attività dei gradi di libertà individuali dipendono da entrambi i gesti in competizione. Consideriamo - adattando all'italiano un esempio centrato sull'inglese di Goldstein e Fowler ([19].) - la sovrapposizione, nelle sequenze [di] e [du], del gesto di costrizione laminare per la consonante con il gesto dorsale associato alle vocali. Secondo gli assunti della AP, in entrambe le sequenze il gesto laminale prodotto è il medesimo (indipendente-dal-contesto), mentre è diverso il contributo dei vari gradi di libertà degli articolatori (lamina e dorso della lingua), perché diversi sono i 'vincoli' (constraints) posti dai gesti vocalici associati rispettivamente a [i] e [u]. La teoria della task-dynamics offre un modello formale di tale variabilità dipendente dal contesto. La AP rappresenta il combinarsi dei gesti, gli atomi del sistema, in più ampie molecole, coordinando ('vincolando') i gesti individuali fra loro. Nel suo attuale assetto computazionale la AP produce, per un qualsivoglia enunciato (in inglese), una 'struttura gestuale' che consiste di un insieme di gesti e della specificazione del modo in cui questi sono temporalmente coordinati fra loro. Vari lavori di Browman & Goldstein sono volti a mostrare come tali strutture gestuali possano catturare generalizzazioni soggiacenti a numerosi tipi di regole allofoniche e di alternanze fonologiche. La Figura 3a (tratta da [7]) mostra la 'struttura gestuale' della parola pawn ("pedina", "pegno"), con la vocale posteriore non arrotondata, comune nella pronuncia dell'inglese americano (['pAn]). Le righe orizzontali rappresentano i 'livelli' (tiers) associati a ciascuno dei distinti 'organi' attualmente utilizzati dal modello. Le etichette associate a ciascun gesto ('clo', 'alv', ad esempio) sono abbreviazioni per i valori numerici (o campi di valori numerici) dei parametri dinamici che specificano la 'meta' (tract variables) di una determinata costrizione Così, il gesto apicale (Tongue Tip) alla fine della parola pawn è specificato, relativamente al 'grado di costrizione', per un valore che produrrà chiusura completa, e, relativamente al 'luogo di costrizione', per un valore che situerà la restrizione all’altezza della cresta alveolare. Figura 3. (a) 'Struttura gestuale' per la parola pawn. Le linee collegano i gesti la cui coordinazione è specificata lessicalmente nel modello computazionale. (b) 'Spartito gestuale' (Gestural score). L'estensione orizzontale dei riquadri rettangolari rappresenta gli intervalli d'attivazione dei gesti (adattata da [7]). Le linee collegano le particolari coppie di gesti, entro la parola, la cui coordinazione è specificata esplicitamente entro il modello della struttura gestuale. ([6]). La coordinazione dei gesti è ottenuta mediante coordinazione di fase (phasing): nella struttura gestuale è cioè indicato che una determinata fase del moto di un membro della coppia cade simultaneamente ad una determinata fase dell’altro membro. Ai fini del presente lavoro, il punto rilevante non è né l’ipotesi specifica che la coordinazione sia raggiunta attraverso 'coordinazione di fase', né la meccanica del fatto. Ciò che preme notare è invece che la coordinazione è specificata localmente, per coppie di gesti. Posta questa condizione, ne consegue che per un enunciato di n gesti, una specificazione di n-1 coppie determinerà completamente la struttura temporale dell'enunciato. Così, per la parola pawn il modello prevede cinque gesti e quattro specificazioni di fase. Date le n-1 specificazioni di fase e la specificazione dei parametri dinamici intrinseci, il modello calcola gli intervalli di attivazione relativi a ciascun gesto. Il risultato è ciò che è stato denominato uno 'spartito gestuale' (gestural score). Osserviamo che gli intervalli d'attivazione dei gesti si sovrappongono parzialmente (Figura 3b). Mentre le strutture gestuali sono proprietà fisse, lessicali, di una parola, i valori quantitativi dei parametri dinamici dei gesti e le relazioni di fase possono essere scalari, possono cioè essere quantitativamente scalati in funzione di varie condizioni intrinseche all’atto di parola. Lo spartito gestuale riflette questa operazione di scaling. 3. STRUTTURA SILLABICA E 'COMPETIZIONE DEI VINCOLI' Un problema con lo spartito gestuale è stato messo in luce dal lavoro di Dany Byrd (1996 a, b). Le relazioni di fase, entro un enunciato, possono essere diverse l’una dall’altra per quanto riguarda la forza del vincolo che impongono alla sovrapposizione temporale fra gesti (relative timing). Per fare un esempio: mentre i gesti di costrizione orale relativi a consonanti in posizione di 'attacco' sillabico (onset) esibiscono poca variabilità nella sovrapposizione, e dunque rivelano un rapporto di phasing altamente vincolato, i gesti consonantici in posizione di 'coda' sillabica e quelli che valicano i confini di sillaba sono significativamente molto più variabili in fatto di overlapping. Byrd ha proposto un phase window model per spiegare il fenomeno, estendendo così il lavoro di Keating ([24]) dal dominio spaziale a quello temporale. Un metodo alternativo è quello cui oggi attendono Goldstein, Browman e colleghi. L’idea è di associare ad ogni relazione di fase entro l’unità lessicale una sua 'forza': una 'forza di vincolo' (bonding o coupling strength), che rappresenti il grado di coesione fra gesti. Da un punto di vista computazionale, allora, le fonti di variazione scalare nella sovrapposizione gestuale (fonti dovute a fattori quali velocità di elocuzione, stile, prosodia), influenzerebbero una determinata coppia di gesti in proporzione inversa alla forza della relazione di fase che li vincola. Così, la considerevole variabilità nella sovrapposizione fra gesti consonantici in posizione di 'coda' potrebbe originare, ad esempio, da variazioni locali di velocità di elocuzione. Secondo questa ipotesi, tali cambiamenti di velocità eserciterebbero un effetto più debole sulle consonanti in posizione di 'attacco', a causa della forza maggiore, in quella posizione, dei vincoli di fase fra gesti consonantici Questa nozione potrebbe aiutarci a render conto dei diversi contesti in cui la variabilità nella sovrapposizione gestuale è tale da divenire percepibile. Browman & Goldstein ([4]) mostrano che, nel parlato informale, i gesti possono 'slittare' l'uno sull'altro fino a produrre la percezione di cancellazioni e assimilazioni consonantiche. Emerge nitidamente da questo lavoro come, in tutti questi casi, i gesti che slittano sovrapponendosi non siano parte della medesima unità lessicale. Così, se ipotizziamo che il phasing postlessicale fra gesti presenti alla fine di un'unità lessicale e all’inizio della successiva abbia una 'forza di vincolo' debole (o, se possibile, nulla), riusciamo, in larga misura, a render conto della distribuzione di simili assimilazioni e cancellazioni. Arricchire il modello di un principio di bonding strength ha anche un'interessante conseguenza formale. Infatti, se ad ogni relazione-di fase è associata una certa forza, cade il motivo di limitarsi a specificare n-1 relazioni di fase in uno spartito gestuale. Si possono infatti specificare anche relazioni di fase incompatibili, o in competizione: la struttura temporale 'reale' che affiora nel gestural score potrà in questo caso essere computata dal modello come quella che massimizza il rispetto dei vincoli in competizione: vincoli 'pesati' in relazione alla rispettive forze. Vedremo che non si tratta soltanto di una curiosità o di un preziosismo formale: questo principio delle 'relazioni di fase in competizione' permette infatti di 'spiegare' alcune proprietà fini ma solide della struttura sillabica. La discussione che segue è volta ad illustrare questo passaggio importante nell'evoluzione della AP (e più in generale del Modello Gestuale Computazionale elaborato agli Haskins). A tal fine mi sarà di guida un recente articolo di Browman & Goldstein ([8]). Il lavoro in questione trae le mosse da una serie di problemi, teorici e descrittivi, posti dalla 'scoperta' del cosiddetto C-Center Effect In alcuni contributi i due studiosi - con loro collaboratori - hanno descritto il comportamento delle consonanti in posizione di attacco sillabico come una possibile eccezione al principio della specificazione di fase locale, da gesto a gesto ([2]; [22]; [10]). Questi lavori mostrano che i gesti consonantici degli attacchi sillabici esibiscono in modo sistematico un effetto - dagli Autori denominato C-Center - in cui i gesti di costrizione orale che formano l'attacco sembrano coordinarsi, in termini di relazione di fase, come un singolo blocco unitario rispetto al gesto vocalico. I dati-campione presentati alla Figura 4 (e tratti da [8]) mostrano tale effetto. I grafici presentano dati acustici e articolatori relativi a un parlante che produce gli enunciati "cuff SAYED", "cuff PAID e cuff SPAYED" (i soggetti erano stati istruiti ad accentuare le parole in maiuscolo). I dati articolatori sono costituiti da funzioni temporali delle variabili Tongue Tip Constriction Degree e Lip Aperture (distanza verticale fra le labbra) calcolate sulla base di dati radiografici. Le aree ombreggiate rappresentano gli intervalli temporali durante i quali l'apice della lingua o le labbra raggiungono e mantengono i presunti 'valoribersaglio' (target values), relativi ai gesti delle consonanti iniziali. Le curve sono allineate rispetto al momento di massima costrizione apicale per la consonante finale di parola, momento rappresentato dalle linee continue nere.4 I dati articolatori relativi a sayed e paid mostrano che, in queste parole, i centri degli 'intervalli-bersaglio' (indicati dalle linee tratteggiate verticali) coincidono considerevolmente e che il gesto apicale (in paid) e il gesto labiale (in sayed) sono coordinati con la medesima fase del gesto vocalico. 4 Gli AA. scelgono, come punto d'allineamento, la fase di occlusione apicale associata alla consonante finale, perché assumono che la coordinazione fra gesto vocalico e gesto consonantico finale di parola non cambi in funzione della consonante iniziale di parola. Allineare le due curve rispetto alla consonante finale equivale pertanto, da questo punto di vista, ad allinearle rispetto ad un punto qualsiasi della vocale (che, sulla base dei dati articolatori disponibili, gli AA.non avrebbero potuto misurare direttamente, mancando l'informazione relativa al gesto dorsale associato alla vocale). Figura 4. Forma d’onda e funzioni temporali relative alle variabili Tongue Tip Constriction Degree e Lip Aperture per gli enunciati “cuff SAYED”, “cuff PAID” e “cuff SPAYED”. Le funzioni temporali sono stimate sulla base di dati radiografici (da [8]). Il grafico relativo a spayed offre tuttavia uno scenario alquanto diverso. Qui né il gesto apicale né quello labiale risultano allineati al resto della parola come lo sono in sayed e paid. In spayed il gesto apicale ha inizio prima che in sayed, mentre il gesto labiale ha inizio dopo che in paid. Comunque, il C-Center dei due gesti (indicato dalla linea tratteggiata) si allinea con i C-Centers delle consonanti che in paid e sayed occupano singolarmente la posizione di 'attacco'. Il C-Center è calcolato come la media dei centri degli intervalli temporali in cui i gesti individuali raggiungono il proprio bersaglio (aree ombreggiate). Tale procedura indica che; pur aggiungendo gesti all'attacco sillabico, la media degli 'intervalli-bersaglio' dell'intero insieme di gesti mantiene una relazione temporale stabile rispetto alla vocale. È questo il cosiddetto effetto C-Center. Una simile generalizzazione - osservano i due studiosi - non può essere catturata da una relazione di fase da gesto a gesto di tipo locale. Di fatto, sembra piuttosto di trovarsi dinanzi ad una proprietà globale dei gesti di costrizione che formano un attacco sillabico. Attacchi di tre consonanti funzionano esattamente in questo modo. Browman & Goldstein ([8]) hanno tuttavia proposto un metodo alternativo per modellare il fenomeno. Utilizzando relazioni di fase e vincoli 'in competizione', essi suggeriscono un'analisi dell'effetto C-Center che mantiene il principio della relazione di fase da gesto a gesto (locale) anche per gli attacchi sillabici, e offre altresì una 'spiegazione' maggiormente fondata su principi indipendenti. L'ipotesi dei due studiosi è che nell'effetto C-Center entrino in gioco due tipi diversi di relazione di fase, fra loro in competizione: una relazione denominata C-V che coordina la fase dei gesti consonantici e di quelli vocalici, e una relazione C-C che coordina fra loro gesti consonantici successivi. Mi sembra interessante ripercorre l'argomentazione degli AA. Figura 5. Tre spartiti gestuali per spayed. (a) e (b) sono spartiti gestuali ipotetici (e irrealizzati); (c) è uno spartito reale. Le frecce mostrano la coordinazione imposta dalla relazione C-V. La linea verticale indica il punto ipotetico entro i gesti vocalici in cui la relazione C-V coordina le consonanti. I riquadri bianchi rappresentano le violazioni della relazione C-V imposte dal vincolo C-C (da [8]). Browman & Goldstein scartano la possibilità, teoricamente esistente, che ciascun gesto consonantico compreso in un attacco sillabico complesso intrattenga con la vocale esattamente la medesima relazione temporale (la cosiddetta relazione C-V) che avrebbe in una sillaba in cui l'attacco contenesse una sola consonante. Se questa fosse l'unica relazione di fase ad essere specificata, osservano gli AA., è evidente che tutti i gesti consonantici nell'attacco risulterebbero sincroni (come mostra la Figura 5a). In tal caso lo spartito gestuale di spayed non garantirebbe il requisito di 'recuperabilità' percettiva dei segmenti fonetici ([32]). Ciò significa che l'ascoltatore non sarebbe in grado di udire insieme, in modo affidabile, sia il gesto labiale, sia quello apicale. L'ipotesi di Browman & Goldstein è quella di una specificazione di fase supplementare (la relazione C-C), che vincoli fra loro le fasi delle consonanti così da renderle recuperabili. Al fine di superare la tendenza delle consonanti a sincronizzarsi, osservano, occorre che questa relazione abbia una forza maggiore della relazione C-V. Inoltre, per minimizzare la violazione di entrambe le relazioni di fase, i gesti consonantici dovrebbero trovarsi equamente dislocati nel tempo dal punto specificato dalla relazione CV. Queste ipotesi sono illustrate alla Figura 5 (b, c). La Figura 5b mostra uno spartito gestuale (ipotetico e irrealizzato) in cui il gesto labiale mantiene la relazione C-V, mentre il gesto apicale è anticipato dalla relazione C-V. Questo spartito gestuale presenta una violazione del vincolo C-V maggiore rispetto allo spartito della Figura 5c, in cui i due gesti sono egualmente spostati rispetto al punto specificato dalla relazione C-V (si vedano i riquadri bianchi). Tale configurazione, concludono Browman & Goldstein, è esattamente quella che si osserva nei dati e che è stata descritta come effetto C-Center. Una spiegazione dei C-Centers in termini di 'relazioni di fase in competizione' presenta indubbiamente diversi vantaggi rispetto a quella secondo cui i gesti consonantici in posizione d'attacco sillabico sono coordinati come una singola unità al gesto della vocale seguente. Per le loro potenziali implicazioni nello sviluppo della AP come teoria fonologica, mi limiterò a sottolineare i seguenti vantaggi: i) Non è necessaria una relazione di fase non-locale fra gesti: tutte le relazioni di fase coordinano dunque un gesto all'altro. ii) Ciascuna delle relazioni in competizione può essere concepita come un vincolo legato a un principio funzionale soggiacente: la relazione C-V assicura la trasmissione in parallelo di consonanti e vocali ([28]); la relazione C-C assicura la recuperabilità percettiva dei segmenti fonetici ([32]). c) la nozione di 'relazioni di fase in competizione' può aiutarci a spiegare la maggiore stabilità nella sovrapposizione articolatoria, che caratterizza le consonanti in posizione d'attacco rispetto a quelle in posizione di coda. Si consideri in primo luogo che non ci sono elementi certi a favore di un effetto C-Center per consonanti in coda. Se si accoglie la proposta di relazioni di fase in competizione del tipo C-V e C-C, sembra ragionevole supporre che le consonanti finali non siano attratte alla simultaneità da una relazione V-C parallela a quella C-V. Ma se questa ipotesi è corretta, ne consegue che in posizione di coda non è necessario un forte vincolo C-C, che impedisca alle consonanti di sincronizzarsi. Browman & Goldstein suggeriscono, infine, che questa asimmetria fra attacco e coda potrebbe anche costituire la base fonetica della generale 'mancanza di peso' degli attacchi sillabici (cfr. [15]). A causa della relazione C-V, infatti, l'aggiungersi di una consonante all'attacco incrementerebbe la durata globale della sillaba in misura minore della durata della consonante aggiunta. Mentre, mancando una relazione di tipo V-C per le code sillabiche, l'aggiungersi di una consonante aumenterebbe la durata della sillaba dell'intera durata della consonante aggiunta. 4. CONCLUSIONI L'introduzione di vincoli, di forza diversa e in competizione, nelle strutture gestuali ha un costo teorico per il modello della AP, poiché offre un numero assai maggiore di potenziali gradi di libertà alla descrizione di strutture fonologiche. Le strutture gestuali usate effettivamente dalle diverse lingue del mondo implicano solo un esiguo sotto-insieme dei valori, a priori possibili, relativi a 'coordinazione di fase' e 'forza del vincolo'. Ma in che modo le strutture gestuali giungono ad avere questa particolare serie ristretta di proprietà? Nell'ambito della AP, la questione si pone oggi come centrale. In altre parole, ci si chiede in che modo i vincoli fra gli elementi primi della fonologia gestuale, o atomi, riescano a creare una serie ristretta di strutture stabili più ampie, di tipo molecolare, le cui proprietà sono a fondamento di unità linguistiche 'tradizionali' come segmenti, sillabe e costituenti sillabici. Il presente lavoro si deve fermare qui (per ragioni di spazio assai meno che di competenza). Ma, a partire da questi interrogativi, si sono aperti nuovi fronti di ricerca. I ricercatori che agli Haskins Laboratories oggi lavorano al Computational Gestural Model pensano, ad esempio, che una risposta possa venire da una approccio basato su principi di auto-organizzazione (l'emergere spontaneo di un ordine): principi che attraversano i domini della fisica, della biologia, dell'economia, della sociologia, dell'antropologia. Lindblom ([29]), Lindblom, MacNeilage & Studdert-Kennedy ([31]), hanno aperto la strada. La Articulatory Phonology di Catherine Browman e Louis Goldstein - oggi impegnata nel tentativo di comprendere l'auto-organizzazione delle strutture gestuali - continua il cammino. BIBLIOGRAFIA [1] Browman, C. P. & Goldstein, L. (1986), "Towards an articulatory phonology", Phonology Yearbook, Vol. 3, pp. 219-252. [2] Browman, C.P. & Goldstein, L. (1988), "Some notes on syllable structure in articulatory phonology", Phonetica, Vol. 45, pp. 140-155. [3] Browman, C. & Goldstein, L. (1989), "Articulatory gestures as phonological units", Phonology, Vol. 6, pp. 201-251. [4] Browman, C. P. & Goldstein, L. (1990a), "Tiers in Articulatory Phonology with Some Implications for Casual Speech", In J. Kingston & M. Beckman (eds.), Papers in Laboratory Phonology I : Between the Grammar and the Physics of Speech, Cambridge University Press, Cambridge, U.K. [5] Browman, C. P. & Goldstein, L. (1990b), "Gestural specifications using dynamicallydefined articulatory structures", Journal of Phonetics, Vol. 18, pp. 411-424. [6] Browman, C. P. & Goldstein, L. (1992), "Articulatory Phonology: An Overview", Phonetica, Vol. 49, pp. 155-180. [7] Browman, C. P. & Goldstein, L. (1995), Dynamics and Articulatory Phonology, in T. van Gelder & R. Port, eds., Mind as Motion: Explorations in the Dynamics of Cognition, MIT Press, Cambridge, MA, pp. 175-193. [8] Browman, C. P. & Goldstein, L. (2000), "Competing constraints on intergestural coordination and self-organization of phonological structures", Bulletin de la Communication Parlée, Vol. 5, pp. 25-34. [9] Browman, C.P., Goldstein, L., Kelso J.A.S., Rubin, P. & Saltzman, E. (1984), "Articulatory Synthesis for Underlying Dynamics", Journal of Acoustics Society of America, Vol. 75: S 22-S23 (A). [10] Byrd, D. (1995), "C-Centers Revisited", Phonetica, Vol. 52, pp. 285-306. [11] Byrd, D. (1996a), "Influences on articulatory timing in consonant sequences", Journal of Phonetics, Vol. 24, pp. 209-244. [12] Byrd, D. (1996b), "A phase window framework for articulatory timing", Phonology, Vol. 13, pp. 139-169. [13] Byrd, D. & Saltzman, E., "The elastic phrase: Modelling the dynamics of boundaryadjacent lengthening", Journal of Phonetics, in c. di pubblicazione. [14] Clements, G. N. (1992), "Phonological Primes: Features or Gestures?", Phonetica, Vol. 49, 3-4, pp.181-193. [15] Davis, S. (1988), "Syllable onsets as a factor in stress rules", Phonology, Vol. 5, pp. 119 [16] Fowler, C. A. (1980), "Coarticulation and theories of extrinsic timing", Journal of Phonetics, Vol. 8, pp.113-133. [17] Fowler, C. A. (1986), "An event approach to the study of speech perception from a direct-realist perspective", Journal of. Phonetics, Vol. 14, pp. 3-28. [18] Gibson, J. (1979), The Ecological Approach to Visual Perception, Houghton-Mifflin, Boston. [19] Goldstein, L. & Fowler, C. "Articulatory Phonology: A phonology for public language use", in corso di pubblicazione. [20] Halle, M. (1983), "On distinctive features and their articulatory implementation", Natural Language and Linguistic Theory, Vol. 1, pp. 91-105. [21] Hockett, C. (1955), A Manual of Phonetics, Indiana University Press, Bloomington, Indiana. [22] Honorof, D. N. & Browman, C.P., (1995), "The center or edge: How are consonant clusters organized with respect to the vowel?". In K. Elenius & P. Branderud (eds.), Proceedings of the XIII International Congress of Phonetic Sciences, Vol. 3, KTH and Stockholm University, pp. 552-555. [23] Kelso, J. A. S., Saltzman, E. & Tuller, B. (1986), "The Dynamical Perspective on Speech Production: Data and Theory", Journal of Phonetics, Vol. 14, pp. 29-59. [24] Keating, P. A. (1990), The window model of coarticulation: Articulatory evidence. In J. Kingston & M. Beckman (eds.), Papers in Laboratory Phonology I : Between the Grammar and the Physics of Speech, Cambridge University Press, Cambridge, U.K. [25] Kugler, P. N. & Turvey, M. T. (1987), Information, Natural Law and the SelfAssembly of Rhythmic Movement, Lawrence Erlbaum Associates, Hillsdale, NJ. [26] Ladefoged, P. (20014), A Course in Phonetics, Harcourt, Orlando, FL. [27] Liberman, A. M. (1996), Speech: A Special Code, MIT Press, Cambridge, MA [28] Liberman, A., M., Cooper, F. S., Shankweiler, D. & Studdert-Kennedy, M. (1967), "Perception of the speech code", Psychological Review, Vol. 74, pp. 431-461. [29] Lindblom, B. (1986), Phonetic Universals in Vowel Systems. In J. Ohala & J. J. Jaeger (eds.), Experimental Phonology, Academic Press, Orlando, FL, pp. 13-44. [30] Lindblom, B. (1990), Explaining Phonetic Variation: A Sketch of the H & H Theory, in Hardcastle, W. J. & Marchal, A. (eds.), Speech Production and Speech Modelling, Kluwert, Dordrecht, pp. 403-439. [31] Lindblom, B., Mac Neilage, P. & Studdert-Kennedy, M. (1983), Self-Organizing Processes and the Explanation of Language Universals. In B. Butterworth, B. comrie & Ö. Dahl (eds.), Explanations for Language Universals, Mouton, The Hague, pp. 181-203. [32] Mattingly, I. (1981), "Phonetic Representation and Speech Synthesis by Rule". In T. Myers, J. Laver & J. Anderson (eds.), The Cognitive Representation of Speech, North Holland, Amsterdam, pp. 415-420. [33] Saltzman, E. (1986), Task Dynamic Coordination of the Speech Articulators: A preliminary Model. Generation and Modulation of Action Patterns. In H. Heuer & C. Fromm (eds.), Experimental Brain Research, Series 15, pp. 129-144, Springer-Verlag, New York. [34] Saltzman, E. (1991), The Task Dynamic Model in Speech Production. In H. F. M. Peters, W. Hulstijn & C.W. Starkweather (eds.), Speech Motor Control and Stuttering, Elsevier Science Publishers, Amsterdam, pp. 37-52. [35] Saltzman, E. (1995), Dynamics and Coordinate Systems in skilled sensorimotor activity. In T. van Gelder & R. Port (eds)., Mind as Motion: Explorations in the Dynamics of Cognition, MIT Press, Cambridge, MA, pp. 150-173. [36] Saltzman, E. & Kelso, J. A. S. (1987), "Skilled Actions: A Task-Dynamic Approach, Psychological Review, Vol. 94, pp. 84-106. [37] Saltzman, E. & Munhall, K. (1989), "A Dynamical Approach to gestural Patterning in speech Production, Ecological Psychology", Vol. 1, pp. 333-382. [38] Stevens, K. (1989), "On the Quantal Nature of Speech," Journal of Phonetics, Vol.17, pp. 3-45. [39] Stevens, K. (1999), Acoustic Phonetics, MIT Press, Cambridge, MA. [40] Studdert-Kennedy, M. (1998), The Particulate Origins of Language Generativity. In Hurford, J., Studdert-Kennedy, M. & Knight, C (eds.), Approaches to the Evolution of Language, Cambridge University Press, Cambridge, U.K., pp. 202221. [41] Turvey, M. T. (1977), Preliminaries to a Theory of Action with Reference to Vision. In R. Shaw & J. Bransford (eds.), Perceiving, Acting and Knowing: Towards an Ecological Psychology, Lawrence Erlbaum Associates., Hillsdale, N.J., pp. 211265.