1 Fonetica: le strutture ei processi Renata Savy 1
Transcript
1 Fonetica: le strutture ei processi Renata Savy 1
Fonetica: le strutture e i processi Renata Savy 1. Introduzione Rispetto alle altre discipline della linguistica, la fonetica è, insieme alla fonologia, quella che ha a che fare con una sola delle modalità semiotiche attraverso cui il linguaggio si manifesta, riferendosi per definizione all’analisi della lingua parlata. La fonetica è infatti, nella sua definizione ‘minima’, la disciplina che studia i suoni, in particolare i suoni linguistici, prodotti dall’apparato fonatorio umano. Per questo, essa non può essere decisamente distinta e separata dalla fonologia, che si occupa dell’organizzazione linguistica dei suoni. Il quadro sintetico della disciplina fonetica che stiamo qui per delineare sottende, pertanto, almeno due questioni interrelate: da un lato, come e quanto la fonetica si rapporta ad altre discipline; dall’altro, se è possibile una teoria fonetica autonoma, distinta da quella di altri settori della lingua. L’oggetto di indagine della fonetica sembra che si ricavi in un certo senso per sottrazione dalle definizioni comparatorie che tradizionalmente si danno di fonetica e fonologia: tutte poggiano su alcuni elementi comuni, ma adottano punti di vista differenti nel delineare la direzione del rapporto tra le due discipline (si vedano, ad esempio, Romito 2000:19; Laver 1994:20; Ladefoged 1988; e Marotta in questo volume). Nella definizione comune ‘ampia’, la fonetica si occupa degli elementi fonici della voce materiali e continui, nella loro dimensione fisica e temporale, che convogliano al contempo informazione linguistica e altre informazioni paralinguistiche ed extralinguistiche; descrive il modo in cui detti elementi vengono prodotti e percepiti, il come, il perché e le circostanze delle loro modificazioni; ma soprattutto si occupa di identificare e descrivere le proprietà dei suoni che sono necessarie, in una determinata lingua, a distinguere parole e ad assicurare la comprensione; e ancora, in altri termini, di definire le basi fisiologiche e fisiche che servono a determinare le categorie da usare nella descrizione linguistica. L’aspetto del continuo (o continuum) è comunemente sottolineato come proprietà intrinseca della materia acustica, legata al suo sviluppo temporale come alle sue modalità di produzione (cfr. §2.2.3). Tuttavia, l’analisi fonetica cerca di identificare e descrivere gli elementi, le ‘unità’ che formano il continuum e deve pertanto necessariamente discretizzare questa materia. 1 L’altro elemento comune è il riconoscimento che gli elementi fonici veicolano oltre l’informazione linguistica, una quota significativa di informazione cosiddetta paralinguistica ed extralinguistica1: uno dei compiti della fonetica è dar conto delle regolarità e dei tratti convenzionalmente (culturalmente) utilizzati come segnali paralinguistici di attitudini, emozioni, relazioni col contesto situazionale, ecc…, e di quelli che marcano l’identità extralinguistica del parlante. In alcuni casi, questo viene presentato come obiettivo primario e proprio dell’analisi fonetica; in altri (in verità la maggioranza) costituisce un obiettivo secondario e conseguente a quello della descrizione delle proprietà fisiche, pertinenti sul piano dell’analisi linguistica. Dati questi obiettivi, la fonetica non può fare a meno di accedere alle categorizzazioni del sistema, in primo luogo quello fonologico: ogni descrizione fonetica approda a, o ha alle spalle, una qualche classificazione linguistico-fonologica, che non pertiene direttamente al suo campo d’indagine, ma che la sostiene e giustifica, così come non si può trattare di fonologia senza riferirsi, per esempio, ai tratti articolatori o acustici e alle loro descrizioni, appartenenti tradizionalmente all’ambito di studio della fonetica. Il rapporto con un livello astratto e sistemico è ancora insito nel riferimento comune e diffuso ai processi fonetici come ‘modificazioni’ dei suoni: tale formulazione implica chiaramente un’unità di misura rispetto alla quale tali modificazioni (che fanno parte del dato concreto rilevato) vengono descritte (cfr. §3). Una spiegazione di questo tipo dei processi fonetici e dunque la loro predicibilità, diviene di importanza fondamentale nella ricerca di invarianti che assicurino la comprensione (cfr §5). Gli approcci alla teoria fonetica differiscono sostanzialmente nel ruolo che le viene riconosciuto all’interno di una teoria semiotica generale: si va da posizioni per così dire ‘ancillari’ della fonetica rispetto alla fonologia (Romito 2000:18), fino a quelle che sostengono che entrambe hanno a che fare con forma e sostanza degli elementi di seconda articolazione, con una differenza delineabile solo in termini di centralità (Laver 1994:20). La scelta del tipo di dati fondamento dell’analisi rappresenta un importante questione teorico-metodologica. Una distinzione primaria va fatta tra il parlato di laboratorio (suoni prodotti specificamente per le analisi fonetiche in condizioni artificiali) e il parlato spontaneo (materiali sonori raccolti al di fuori delle condizioni sperimentali). Il primo è stato per lungo tempo la base unica di fondamento e verifica delle teorie fonetiche, limitando a monte il campo dei fenomeni osservabili. 1 Risiede in questo la differenza tra Language e Speech, coppia terminologica molto in uso nella letteratura in lingua inglese e che solo parzialmente può essere tradotta in ‘Lingua e Parlato’: lo Speech veicola la Lingua, ma anche altro che non fa parte della lingua (v. per esempio Ladefoged 2001:3). 2 Una svolta decisiva nell’ampliamento della base dei dati degli studi fonetici è rappresentata dallo sviluppo dei sistemi informatici che consentono oggi la conservazione e la gestione di grandi corpora vocali2. Le potenzialità di tali strumenti influenzano le metodologie e le pratiche di analisi, ma hanno ripercussioni più o meno dirette anche sul versante teorico: una delle strade per la costruzione di una teoria fonetica generale è infatti quella di un ampliamento della base di osservazioni, che copra tutto il range delle possibili variazioni esecutive e si sostanzi di un fondamento quantitativo e statistico. Gran parte della terminologia fonetica è in comune e in rapporto con quella della fonologia, a partire dall’unità basica dell’analisi fonetica, il fono, termine che (insieme a quello di allofono, o variante) indica il suono linguistico come realizzazione concreta dell’unità astratta fonema (si veda Marotta in questo volume). Esistono poi termini specifici utilizzati in ciascuna branca della fonetica. Con configurazione articolatoria o il più recente gesto articolatorio, si fa riferimento alla dinamica di produzione del suono; in relazione all’aspetto acustico è usato spesso il termine neutro segnale; sul piano uditivo-percettivo è comune invece stimolo sonoro o linguistico. Il termine comune che ricorre più frequentemente nel lessico fonetico è un generico segmento, dietro il cui uso si nasconde una concezione teorica non poco problematica3. Il segmento fonetico è un’unità lineare discreta, in linea teorica corrispondente ad un’unità linguistica astratta e delimitabile all’interno della catena fonica. Nonostante tanto teorie fonetiche quanto fonologiche recenti (si veda Marotta in questo volume) abbiano messo in luce l’aspetto non lineare delle unità e negato al segmento uno statuto di realtà oggettiva (ma non psicologica), esso resta un costrutto analitico e un veicolo descrittivo comodo e di facile impiego (perché basato su una competenza alfabetica radicata) utilizzato almeno nelle fasi iniziali di una descrizione (Laver 1994:566 e sgg.). All’aspetto continuo dei suoni del linguaggio ci si può, invece, riferire variamente con continuum fonico, catena fonica o con un generico stringa fonetica. 2. Articolazioni della fonetica La fonetica si articola tradizionalmente in tre (o quattro) sottodiscipline. La fonetica articolatoria studia la fisiologia e il funzionamento degli organi fonatori per e durante la 2 Esistono vari tipi di corpora provenienti da produzioni spontanee o semi-spontanee elicitate, vale a dire ottenute attraverso tecniche ‘distrattive’ che consentono di osservare comportamenti fonici naturali, sebbene in condizioni ambientali controllate 3 Tale concezione si può far risalire alle basi dello strutturalismo europeo e agli assunti teorici di articolazione, linearità e soprattutto segmentabilità della catena linguistica in unità (enunciati sostanzialmente da Saussure: 1916:136-138), che costituiscono gli assiomi fondamentali del ‘paradigma segmentale’, prospettiva che deve molto alla rappresentazione scritta della lingua. 3 produzione dei suoni linguistici. La fonetica acustica studia la struttura fisica dei suoni linguistici sotto forma di segnali sonori. La fonetica uditiva studia la fisiologia e il funzionamento dei meccanismi uditivi e la risposta sensoriale (meccanica) del sistema uditivo ai suoni linguistici. Infine la fonetica percettiva studia il modo in cui il suono linguistico come stimolo sensoriale, una volta trasmesso al sistema centrale, viene elaborato, identificato e riconosciuto. La distinzione tra fonetica uditiva e percettiva (non sempre riportata nelle rassegne sull’argomento) dà conto della differenza tra processo fisiologico e processo cognitivo nella ricezione. E’ in questa dinamica che hanno luogo i processi di categorizzazione e si esplica la corrispondenza tra unità astratte (linguistiche e fonologiche) e realizzazioni concrete, di cui la ricerca fonetica deve rendere conto. Si è soliti operare un’ulteriore distinzione tra fonetica segmentale e fonetica soprasegmentale: la prima tratta, per definizione, le ‘unità’ linguistiche identificate in forma di ‘segmenti’ fonici, come vocali, consonanti, sillabe, ecc…; la seconda tratta elementi e/o proprietà che superano i confini del segmento: tradizionalmente ci si riferisce, con questo termine, a fenomeni ritmici e intonativi (v. §2.4), ma vi possono rientrare diversi fenomeni che riguardano la connessione tra più segmenti. 2.1 Fonetica articolatoria 2.1.1 I meccanismi basilari della produzione La produzione di suoni avviene attraverso quattro meccanismi distinti responsabili di fasi diverse della fonazione: 1) pneumatico (l’aria prodotta dai polmoni viene sospinta dal diaframma attraverso la trachea); 2) glottidale (nella laringe, il flusso d’aria viene trasformato in suono udibile - segnale sonoro o ‘glottico’ o ‘laringale’ - dalla vibrazione delle corde o pliche vocali); 3) articolatorio e 4) oronasale (le configurazioni assunte attraverso le posizioni degli organi articolatori attivi– lingua e labbra – e passivi - ugola, palato duro e molle, denti – e le cavità nasali fungono da risuonatori e modificano il suono). Se la descrizione dei primi due meccanismi è prevalentemente (ma non esclusivamente) fisiologica, i processi articolatorio e oronasale sono coinvolti più da vicino nella descrizione dei tratti linguistici pertinenti del suono prodotto, poiché in queste fasi si verifica la differenziazione dei suoni che divengono così distinguibili e ‘classificabili’. 2.1.2 Le classificazioni della fonetica articolatoria Tradizionalmente il meccanismo di articolazione dei suoni linguistici viene descritto in base a classi di suoni distinti per modo e luogo di articolazione. Per modo di articolazione si intende il tipo e il grado di ‘costrizione’ che gli organi articolatori raggiungono per la 4 produzione di un determinato suono, includendo la posizione del velo palatino. I modi di articolazione comunemente descritti sono: Modo occlusivo fricativo approssimante nasale laterale vibrante vocalico Tipo e grado di costrizione costrizione massima costrizione media costrizione minima con abbassamento del velo e passaggio d’aria nella cavità nasale con costrizione centrale e passaggio d’aria lateralmente alla lingua con alternanza di costrizioni e rilasci costrizione nulla Tabella 1. Modi di articolazione A questi si aggiungono di frequente combinazioni articolatorie che danno luogo a modalità come l’affricata (un’occlusione totale seguita da una fase di media costrizione) o la lateralefricativa, e simili. Per luogo di articolazione, invece, si intende il punto o la zona del cavo orale in cui la costrizione (di qualunque grado essa sia) ha effetto. I luoghi di articolazione primari (elencati dalla massima alla minima distanza dalla glottide) sono: Luogo labiale dentale alveolare palatale velare ululare faringale epiglottale glottale Descrizione sintetica con avvicinamento del labbro inferiore e superiore con avvicinamento della punta della lingua contro i denti superiori con avvicinamento della punta della lingua contro gli alveoli con avvicinamento del dorso della lingua contro il palato duro con avvicinamento della radice della lingua contro il palato molle (o velo) con movimenti dell’ugola con restringimenti delle pareti alte della faringe con restringimenti delle pareti basse della faringe con restringimento della glottide Tabella 2. Luoghi di articolazione Il continuum fisico dell’apparato buccale discretizzato in queste ‘macrozone’ viene poi spesso ulteriormente suddiviso, per dar conto di articolazioni ai margini delle principali, in zone post-alveolari, pre-palatali, post-palatali, pre-velari. Per le vocali, i luoghi di articolazione corrispondono a discretizzazioni più o meno fini dell’apparato rispetto alle dimensioni verticale (alto, basso, medio-alto, medio-basso) e longitudinale (anteriore, centrale, posteriore), cui vengono aggiunte informazioni sulla conformazione delle labbra (protruse o distese). In un’ottica squisitamente segmentale, l’oggetto di tale descrizione è l’insieme dei segmenti fonici identificati in base alle loro proprietà distintive in tutti i sistemi linguistici conosciuti e analizzati. Si tratta, dunque, di una descrizione totalmente classificatoria nella quale il rapporto con il livello fonologico è in un certo senso autoevidente. 5 Tale classificazione ha un suo riflesso nella matrice principale di simboli alla base dell’IPA (International Phonetic Alphabet)4, il sistema comunemente usato per trascrivere foneticamente. Nonostante l’intenzione di creare un sistema di trascrizione ‘in grado di rappresentare tutte le possibili realizzazioni foniche al di là di quelle che costituiscono i diversi sistemi di lingua’ (Giannini e Pettorino 1992:94), l’IPA è, per stessa ammissione di uno dei suoi più autorevoli rappresentanti (Ladefoged 1990) sostanzialmente un alfabeto fonologico che rappresenta classi di suoni (cioè fonemi), arricchito da un inventario suppletivo di simboli che catturano alcuni dettagli sistematici, ma non distintivi. Figura 1. Proprio su questi aspetti dell’IPA e sui principi della trascrizione, si ripropone la discussione su quale grado di astrattezza, o viceversa di dettaglio, deve o può raggiungere un sistema di trascrizione. Il dibattito aperto vede posizioni di diverso taglio: da quella ‘antropofonica’ di Lindblom (1990) che sostiene che ogni suono linguistico possibile (definito all’interno di un “universal phonetic space”) dovrebbe essere rappresentato, ma ciò avrebbe come conseguenza un collasso del sistema stesso di rappresentazione; a quella di Pierrehumbert (1990) che definisce ‘utopistico’ e ‘incoerente’ un inventario universale fatto di elementi discreti che non sembrano avere lo stesso statuto cognitivo dei segmenti fonologici; a quella mediatrice e ‘statistica’ di Ladefoged (1990) che vede come unica via possibile l’osservazione di dati quantitativamente significativi sul maggiore numero di lingue possibili e la loro descrizione in termini di categorie appropriate all’oggetto di descrizione. 2.1.3 Dinamica articolatoria e setting In tempi più recenti, con l’approfondimento delle conoscenze dei meccanismi fisiologici dell’articolazione, sono stati proposti altri tipi di descrizione dei suoni, nelle intenzioni meno classificatorie e più attente alla dinamica reale dell’articolazione. In realtà, anche in questo caso, ciò che si descrive è il ‘segmento’, o qualcosa che unisce più segmenti, anche se inteso in termini più autonomi da una pre-classificazione linguistica. Laver (1994) dedica diversi capitoli agli aspetti dinamici dell’articolazione, di cui diamo qui di seguito una sintesi limitata ai punti salienti. In primo luogo, ogni articolazione si realizza attraverso una dinamica analizzabile in almeno tre fasi: una fase di onset (o attacco), in cui gli organi articolatori iniziano il movimento verso il loro target (o bersaglio articolatorio); una fase mediana (di ‘tenuta’) in cui il bersaglio viene raggiunto o almeno approssimato; una fase di offset (o rilascio) in cui si 4 Per una storia dell’IPA si vedano Giannini e Pettorino 1992; Ladefoged 1990. 6 assiste ad un movimento di ritorno alla posizione di inerzia o di transizione verso una successiva articolazione. Alcune articolazioni mancano o hanno una notevole riduzione della fase mediana (segmenti transizionali). In secondo luogo un ‘segmento’ può essere prodotto con movimenti simultanei che riguardano più di un luogo e diversi gradi di costrizione (per es. un’occlusione labio-velare): si parla, in questi casi, di doppie articolazioni o articolazioni multiple, in cui è presente una costrizione primaria ed altre secondarie. Questi termini vengono utilizzati anche per riferirsi a modificazioni di un’articolazione sotto l’influsso di segmenti adiacenti si hanno così segmenti velarizzati, labializzati, palatalizzati, laringalizzati, ecc. (quando la modificazione è del luogo di articolazione) o retroflessi, nasalizzati, ecc. (quando la modificazione riguarda il modo di articolazione). Figura 2 Nel parlato continuo, soprattutto veloce, inoltre, le fasi articolatorie sono spesso sovrapposte. Per questo tipo di produzione si parla di relazioni coordinatorie (o strutture coordinative) che si verificano all’interno di un setting articolatorio definito come una configurazione articolatoria dinamica coinvolta nella realizzazione di più segmenti adiacenti che condividono alcuni tratti (Laver 1994). Questo modello di descrizione è alla base delle più recenti teorie dell’articolazione e della coarticolazione (cfr. §3), che costituiscono il settore della fonetica in cui si sono concentrati maggiormente gli sforzi modellistici e teorici. 2.2 Fonetica acustica. 2.2.1 I principi del suono e l’analisi dei segnali I suoni vocali si configurano come onde sonore complesse, analizzabili e scomponibili in una serie di componenti semplici. Il segnale vocale può essere periodico (o quasi-periodico) quando è generato da una sorgente elastica (le pliche vocali) o aperiodico, se generato da sorgenti sopraglottidali (collocate in qualche punto del cavo orale) solitamente definito rumore. Il segnale acustico generato dalla sorgente (periodica o aperiodica) viene modificato nella sua struttura dall’azione di risuonatori costituiti dalle varie configurazioni assunte dal cavo orale attraverso il posizionamento degli organi articolatori: ogni configurazione funziona da ‘cassa di risonanza’ con una sua specifica risposta al segnale d’ingresso. I segnali linguistici vengono solitamente descritti attraverso un insieme di parametri5: 5 Non si tratta di tutti i parametri acustici utilizzati nell’analisi dei segnali (per i quali si possono consultare manuali basilari di fisica acustica), ma solo di quelli maggiormente in uso nelle descrizioni fonetico-acustiche. 7 parametro frequenza fondamentale (f0) Intensità (I) Frequenza formantica (F1, F2, Fn…) descrizione l’inverso del periodo di oscillazione della sorgente (1/T), indica il numero di cicli di oscillazione nell’unità di tempo (sec) e corrisponde alla frequenza della prima componente armonica del segnale periodico Pressione sonora per unità di superficie, determinata dall’ampiezza massima del movimento oscillatorio Frequenza centrale (o di taglio) di ognuna delle risonanze o antirisonanze del segnale periodico Unità di misura Hz = Hertz (n°cicli/sec.) dB = Decibel (unità relativa) Hz = Hertz Tabella 3. Parametri acustici La durata temporale è un altro parametro di cui ci si serve nelle misure acustiche, ma esso non è proprio e costitutivo del segnale, quanto della sua suddivisione in unità linguistiche. 2.2.2 Le classificazioni della fonetica acustica Le descrizioni fonetico-acustiche dei suoni linguistici sono finalizzate, in prima istanza, all’individuazione nel segnale di regolarità dei parametri fisici che possano essere messe in corrispondenza con tratti articolatori e con differenze che operino a livello fonologico. I foni consonantici si distinguono in due classi: quella a struttura di rumore e quella a struttura formantica. Della prima fanno parte i foni costrittivi (occlusivi, fricativi, affricati). Alla seconda appartengono le consonanti a costrizione minima o parziale (laterali, approssimanti, nasali). Queste sono tutte sonore e presentano componenti armoniche con risonanze (gruppi di armoniche amplificate dal risuonatore) e antirisonanze (gruppi di armoniche smorzate o annullate dal risuonatore) la cui posizione in frequenza dipende dal luogo di articolazione. I foni vocalici sono caratterizzati da strutture formantiche (risonanze) ben definite e di intensità elevata (maggiore per quelli più aperti, minore per quelli alti e chiusi, prodotti con maggior grado di costrizione). Le differenze tra le vocali (differenze timbriche) sono da individuare nel diverso posizionamento relativo in frequenza delle formanti. La frequenza delle prime due formanti, F1 ed F2, è infatti funzione rispettivamente dei parametri articolatori di altezza e longitudinalità. Figura 3 Anche questo tipo di descrizione prende le mosse da una tassonomia fonemica data a priori: ciò che si descrive, in prima istanza, sono caratteristiche fisiche di classi di suoni distinti a livello di sistema linguistico e identificati prima di tutto su un piano articolatorio. Esistono classificazioni dei suoni vocali più ‘puramente’ acustiche basate sull’individuazione di ‘microsegmenti’ dell’onda sonora che presentano alcune caratteristiche 8 relazionabili a parametri articolatori, secondo la teoria acustica di produzione del suono (Fant (1960). 2.2.3 Il continuum acustico, la segmentazione e la variabilità acustica Ciò che appare nella rappresentazione spettroacustica di una stringa di parlato è un segnale ininterrotto nel suo sviluppo temporale, all’interno del quale non sono facilmente e immediatamente identificabili unità o microsegmenti corrispondenti alle unità della lingua in base a caratteristiche certe e stabili. La fonetica acustica, fin dai suoi esordi, ha quindi messo in crisi il concetto stesso di segmento, inteso come somma di tratti univoci e compresenti, e di linearità nella disposizione delle unità foniche. Gli esempi sono innumerevoli. Basti pensare alla definizione che, sul piano acustico, Ladefoged (2001:47) dà delle produzioni consonantiche in generale: ‘most consonants are just ways of beginning or ending vowels’. Le consonanti, infatti, non sono determinate unicamente dalle proprietà di distribuzione spettrale del rumore, ma anche (e a volte soprattutto) dagli andamenti delle transizioni formantiche delle porzioni vocaliche ‘adiacenti’. Casi ancora più evidenti riguardano le sequenze contenenti più elementi vocalici consecutivi, dittonghi, o articolazioni nasali: le strutture formantiche sono in questo caso costituite interamente da zone transizionali, senza soluzione di continuità che giustifichi l’individuazione di un confine tra unità. La presenza di ‘nasalità’ (o nasalizzazione) è poi uno dei fenomeni coarticolatori più pervasivi (cfr. §3) che si manifesta con un’estensione temporale variabile, ma piuttosto ampia, modificando le strutture formantiche della sequenza con la sovrapposizione di risonanze ed antirisonanze aggiuntive. Figura 4 L’altro punto critico della descrizione acustica dei suoni emerge dall’osservazione dell’estrema variabilità della sostanza fonica che molto spesso rende difficile l’individuazione immediata di regolarità dei parametri fisici. Tale variabilità può essere inter-segmentale o intra-segmentale. La prima comprende i fenomeni coarticolatori ed è in qualche misura predicibile. La seconda invece riguarda, da un lato, le variazioni intersoggettive nella produzione, legate a caratteristiche extralinguistiche e sociolinguistiche (quali sesso, età, tratti idiosincratici del parlante), dall’altro le variazioni, anche da parte di uno stesso parlante, dipendenti da fattori situazionali, comunicativi o del tutto aleatori. Infine, una fonte di variabilità tutta interna al piano fonetico e che ancora una volta richiede la valutazione di parametri relativi è quella condizionata da fattori prosodici (cfr. §2.4) 9 2.3 Fonetica uditiva e percettiva. 2.3.1 I principi fisiologici del meccanismo uditivo e i fondamenti psicoacustici Il sistema uditivo è strutturato in moduli funzionali per ricevere e pre-elaborare il suono. Le porzioni più esterne dell’apparato uditivo, l’orecchio esterno e l’orecchio medio, si limitano a convogliare le onde sonore verso l’organo di trasduzione vero e proprio, l’orecchio interno: questo converte le vibrazioni meccaniche in segnali elettrici che giungono, attraverso il nervo acustico, come impulsi neurali fino alle aree primarie dell’udito presenti nelle cortecce dei due emisferi cerebrali. Le risposte sensoriali del sistema uditivo agli stimoli acustici vengono studiate attraverso le leggi della psicoacustica: le capacità predittive di queste leggi sono limitate ad un ambito probabilistico e sono valide soltanto all’interno di rigorosi approcci metodologici. In breve, a partire da stimoli sonori semplici (toni puri), si richiedono agli ascoltatori alcune valutazioni soggettive, come: a) l’individuazione della soglia minima di ricezione dello stimolo; b) la stima assoluta del valore di una data grandezza acustica all’interno dello stimolo sonoro; c) la valutazione delle differenze tra stimoli sonori simili, ma non uguali. In questo modo vengono identificati: a) il campo di udibilità, cioè l’insieme dei suoni udibili dall’orecchio umano compresi tra soglie di frequenza e intensità; b) le relazioni tra tali grandezze fisiche e le corrispondenti sensazioni uditive (rispettivamente pitch o altezza, loudness o forza); c) la soglia differenziale, cioè la soglia di minima rilevazione delle differenze tra due stimoli. 2.3.2 Le classificazioni uditivo-percettive dei suoni I paradigmi della psicoacustica prevedono due tipi di test, comunemente denominati ‘test percettivi’ (Uguzzoni 1990). I test di identificazione richiedono che l’ascoltatore associ ad uno stimolo sonoro una etichetta descrittiva, scelta all’interno di un insieme limitato (closed set) o non limitato (open set) di possibili opzioni. I test di discriminazione servono a verificare sotto quali condizioni acustiche coppie di stimoli relativamente simili fra di loro sono riconosciuti come uguali o differenti: le risposte dell’ascoltatore sono impiegate per determinare la minima differenza acustica in grado di garantire la distinguibilità relativa dei due stimoli presentati nella coppia. Nei test psicoacustici si utilizzano, di norma, stimoli ‘sintetizzati’ in cui un solo indice per volta, o un’associazione controllata di indici acustici, vengono variati in modo quantitativamente predeterminato e organizzati in una serie che riproduce un continuum 10 fonetico di rilevanza fonologica (per esempio, un passaggio graduale da una vocale all’altra o da una consonante occlusiva bilabiale ad una dentale). In tal modo è possibile studiare come un continuum fonetico venga segmentato in base alle categorie fonologiche di una determinata lingua e quale sia il parametro acustico che funziona da indice di discriminazione. Facendo appello al sistema fonologico, i risultati di questi test sono ovviamente linguospecifici. I test di identificazione sono usati pure per convalidare le ipotesi fatte sul piano acustico e soprattutto articolatorio: essi tentano di dimostrare, infatti, che le classificazioni acustiche e articolatorie hanno un valore predittivo intrinseco perché corrispondenti a distinzioni uditivopercettive. Resta il fatto che, anche in questo caso, ciò che è distintivo percettivamente per un parlante di una lingua, non lo è necessariamente per il parlante di un’altra lingua: per esempio, la distinzione tra una fricativa alveolare [s] e una prepalatale [S] dà risultati interpretabili con uditori inglesi (o italiani), ma non con ascoltatori olandesi, che non posseggono questa distinzione nel sistema fonologico (Fry 1976: 378)6. I test di discriminazione, inoltre, hanno dimostrato che per alcuni suoni linguistici la percezione è categorica mentre per altri è continua. Si parla di percezione categorica quando il risultato di un test di discriminazione, effettuato su insieme di stimoli sonori disposti lungo un continuum determinato dai valori che assume un dato parametro acustico, mostra sistematicamente picchi di massima prestazione in coincidenza di confini categoriali (per esempio di fonema): in questo modo funziona, ad esempio, la percezione delle differenze consonantiche. Si parla, invece, di percezione continua nel caso di suoni per i quali il potere discriminativo non risulta mai alterato dalla posizione della coppia nel continuum, e per le quali le prestazioni degli ascoltatori non presentano praticamente mai incertezze (massima discriminazione): è continua, ad esempio, la percezione delle differenze vocaliche. I risultati di una serie di test su stimoli linguistici hanno evidenziato una ‘scala di categoricità’ costituita, in ordine decrescente, da foni occlusivi, nasali, liquidi, semivocali, fricativi, vocali (Uguzzoni, 1990:126). 2.4 Fonetica soprasegmentale. Il termine ‘soprasegmentale’ viene normalmente e specificamente impiegato per riferirsi agli aspetti prosodici del parlato, che comprendono i due piani ritmico-temporale e 6 Va ricordato, inoltre, che l’intera metodologia dei test descritti è basata su una pre-classificazione che influenza necessariamente (soprattutto nei test a risposta chiusa) le scelte e le risposte del soggetto, forzandolo a identificare categorie nella batteria di stimoli di natura continua (Cutugno e Savy 1995). 11 intonativo-melodico, in cui si realizza una stretta e complessa interazione tra articolazione, acustica e percezione della voce. Il piano ritmico è dato dalla dinamica di interazione nel tempo di elementi prominenti e meno prominenti nella stringa fonetica, mentre il piano intonativo è costituito dalle variazioni di pitch (variazioni melodiche) e loudness (variazioni intensive). Non si può descrivere lo stato dell’arte degli studi prosodici che costituiscono un settore di ricerca immenso e che ha avuto enorme fortuna, soprattutto negli ultimi 30 anni7 con l’esplosione delle descrizioni delle lingue europee e delle lingue tonali; ci si limiterà, pertanto, ad una presentazione dei principali parametri, unità e fenomeni pertinenti. 2.4.1 Parametri e Unità L’analisi fonetico-prosodica si fonda sul rilevamento di variazioni e non di costanti attraverso la misurazione di parametri che hanno la caratteristica della relatività. Sono infatti pertinenti, sul piano temporale, le variazioni di durata dei segmenti, sul piano intonativo, oltre che i valori di altezza (f0) e intensità (I) i loro andamenti (sotto forma di curve) nel tempo. I tre parametri co-occorrono nel segnalare le unità e le parti prominenti a diversi livelli nella stringa fonetica, ma la definizione di prominenza si basa necessariamente su un raffronto comparativo tra elementi. Inoltre, i valori assoluti di durata, f0 e I devono anche essere valutati in relazione a valori medi del range e delle abitudini del parlante e del ‘registro’ utilizzato in una determinata situazione. Nel quadro di tale relatività assume particolare rilievo la definizione delle unità di analisi prosodica; anche in questo caso si pone il problema del rapporto tra continuità fonica e discretezza linguistica. L’unità di base del ritmo è la sillaba, categoria linguistica funzionale che possiede un suo statuto a livello intuitivo e percettivo Una panoramica delle definizioni di sillaba rivela una sua caratterizzazione sia come gruppo motorio che come gruppo acustico (Cutugno et al. 2001: 206 e sgg.). La sillaba viene definita, tanto sul piano fonetico che fonologico (si veda il capitolo di Marotta in questo volume), come un agglomerato di elementi fonici intorno ad un picco di sonorità o intensità (il nucleo, di norma vocalico). L’unità d’analisi dell’intonazione è una porzione di stringa denominata generalmente, Unità Tonale (Tone Unit - TU), o Sintagma Intonativo (Intonational Phrase). In molti approcci (Halliday 1976) essa è definita come un’unità melodica che demarca blocchi informativi del messaggio; in altri, di stampo generativo (Beckman e Pierrehumbert, 1986), 7 Si vedano i numerosissimi contributi degli atti di ICPhS 1999 e 2003 e di Speech Prosody 2002; 2004. 12 corrisponde a un costituente della gerarchia fonologica. Sul piano strettamente fonetico la TU è identificabile attraverso una serie di marche di confine (boundary markers: presenza di pause nel flusso della catena fonica, andamento calante dei parametri di f0 e I (declination intonativa), allungamento dell’ultima sillaba tonica (prepausal lenghtening). La suddivisione tra piano ritmico e intonativo ha valore solo descrittivo; sillaba e TU hanno infatti pertinenza per entrambi i piani e costituiscono, piuttosto che unità di costruzione, ‘domini’ di fenomeni prosodici. 2.4.2 Fenomeni prosodici L’analisi ritmica consiste nell’individuazione delle alternanze tra sillabe forti e sillabe deboli all’interno di una stringa. L’elemento che determina la prominenza o la forza di una sillaba è l’accento, foneticamente determinato da aumento di intensità, aumento di durata, variazione significativa di f0 rispetto agli elementi adiacenti. Nelle lingue cosiddette ad accento dinamico o intensivo i primi due parametri costituiscono i correlati acustici più stabili dell’accento lessicale (stress)8, mentre nelle lingue tonali sono le variazioni di f0 ad avere maggiore significatività. La posizione e la sequenza di accenti lessicali danno luogo al contorno ritmico di un enunciato. Gli studi fonetici sul ritmo hanno ricevuto in generale scarsa attenzione e sono stati incentrati essenzialmente sul tema dell’isocronia, cioè sull’individuazione di regolarità temporali tra porzioni della stringa; la distinzione tra lingue ad isocronia sillabica (durata media sillabica costante) e lingue ad isocronia accentuale (durata media costante degli intervalli accentuali), sebbene ormai decisamente ridimensionata ha avuto seguito in una serie di studi specifici volti a determinare la differenza ritmica percepibile tra le lingue (Bertinetto e Magno Caldognetto 1993, Ramus et al. 1999). Di gran lunga più numerosi sono gli studi fonetici dell’intonazione, cioè dei patterns melodici o tonali determinati dall’andamento della curva di f0 all’interno di unità intonative. Anche in questo caso si individuano zone di prominenza prosodica sulla base della presenza di accenti tonali (pitch accents), identificabili con accenti di frase, accenti d’enfasi o focus. Gli accenti tonali sono foneticamente realizzati su elementi sillabici attraverso variazioni significative di f0 (positive o negative) rispetto all’andamento medio (baseline) e al contorno locale: ciò che conta è dunque, ancora una volta, non il valore assoluto di f0, quanto la presenza e l’entità di un movimento relativo. 8 Il termine inglese ‘stress’ contrapposto ad ‘accent’ dà conto della differenza tra accenti lessicali e accenti di frase o tonali (cfr. oltre) 13 L’analisi intonativa ha ricevuto grande impulso dallo sviluppo, in ambito fonologico, della Teoria Autosegmentale dell’Intonazione (per la quale si rimanda al capitolo di Marotta in questo volume) che ha incanalato gli sforzi modellistici verso l’individuazione di categorie fonologiche discrete e distintive (i Toni Accentuali) con valore funzionale (Marotta 2003). 2.4.3 Funzioni prosodiche Più di qualunque altro settore della teoria fonetica, il campo degli studi prosodici è quello che maggiormente mette in crisi l’idea di una fonetica pura e dura, separata dagli altri livelli della linguistica. L’aspetto più affascinante degli studi consiste, infatti, nell’individuazione e nell’analisi delle funzioni linguistiche (oltre che paralinguistiche) della prosodia, in particolar modo dell’intonazione. Da sempre è stato sottolineato il rapporto tra organizzazione prosodica e strutturazione informativa degli enunciati: la stessa definizione di Unità Tonale come blocco informativo si basa sul presupposto che essa consista in un’unità di pianificazione del discorso. Un aspetto dell’intonazione che continua a suscitare l’interesse di molti studi è il rapporto tra prosodia e sintassi: pur rifiutando l’idea di un isomorfismo tra i due livelli della grammatica, si è cercato di volta in volta di definire il dominio sintattico dei fenomeni intonativi e di stabilire correlazioni e co-estensività più ‘probabili’ con alcune strutture (come quella di clausola). Si riconoscono dunque funzioni testuali (di marcatura di elementi salienti, di informazione data e nuova, di focus, etc.) e grammaticali (di espressione di contrasti sistematici come quelli tra modalità, per esempio dichiarativa e interrogativa) tanto alla suddivisione della catena fonica in unità intonative, che alla loro strutturazione melodica interna. Infine, di particolare rilievo è il rapporto diretto tra struttura intonativa e piano della significazione, sia sul versante semantico che pragmatico. Tutto ciò fa della prosodia un livello privilegiato di interfaccia tra il piano del contenuto, i livelli di struttura grammaticale e la realizzazione fonica del messaggio linguistico. 3. Coarticolazione e processi fonetici Come sottolinea Marotta (2003:3) la coarticolazione costituisce un ‘aspetto costante e assai pervasivo della produzione linguistica’, prodotto di processi dinamici di intersezione e sovrapposizione spazio-temporale di articolazioni: la causa primaria di tali sovrapposizioni risiede nell’interazione tra i meccanismi centrali, che inviano comandi neuromotori, operando “in parallelo”, e il principio fisiologico di inerzia degli organi articolatori preposti all’esecuzione. 14 Si fa spesso riferimento alla coarticolazione come ad un processo fonetico di influenza reciproca esercitata da un elemento articolatorio sul contesto e dal contesto sull’elemento, descrivendola quindi come fenomeno di adattamento oppure come estensione di tratti articolatori e acustici tra le unità. In questa definizione rientrano, in prima istanza, tanto i fenomeni di variazione allofonica (grammaticalizzata e lessicalizzata, cfr. AlbanoLeoni e Maturi 1998: 60; per es. la sonorizzazione di /s/ in [z] davanti a consonante sonora), quanto i processi di assimilazione largamente trattati dalla fonetica storica tradizionale (Marotta 2003:5, per es. l’assimilazione di nessi consonantici -ct- in –tt-, nel passaggio dal latino all’italiano), cui si aggiungono molti altri fenomeni di variabilità contestuale. Nei modelli della coarticolazione (una sintesi criticaè in Farnetani e Recasens 1999) emergono, tuttavia, divergenze teoriche su quali tra i fenomeni del parlato connesso rientrino nel dominio coarticolatorio, e conseguentemente sulla definizione stessa della natura del fenomeno, del livello a cui si manifesta, della sua funzione e degli effetti sul piano della comunicazione. Anche in questo caso il problema si pone nel rapporto tra piano fonetico e fonologico: l’obiettivo comune delle teorie della coarticolazione risiede nel tentativo di colmare la distanza tra le unità discrete del piano fonologico astratto e la realizzazione fonica concreta, attraverso modelli predittivi della variabilità acustica e articolatoria. Secondo le teorie di traslazione (o temporizzazione estrinseca) le unità di input del processo articolatorio sono le unità segmentali della linguistica tradizionale, non specificate nella loro dimensione temporale, che vengono tradotte nella catena fonica mediante processi di regolazione temporale e sincronizzazione. Uno dei modelli più conosciuti è quello della ‘Adaptive Variability’ (variabilità adattiva) sviluppato da Lindblom (1983, 1990). I modelli ispirati a fonologie di matrice generativa (Feature-speading Theory, Daniloff e Hammarberg 1973; Look-ahead model, Henke 1966) pongono il processo coarticolatorio non a livello di realizzazione fonetica, ma a livello di pianificazione, attribuendo la variabilità al dominio di competenza fonologica: le unità di input, definite in termini di tratti fonologici (si veda il capitolo di Marotta, in questo volume), risultano modificate prima che il comando motorio le traduca in meccanismo articolatorio, da un’espansione di tratti di un segmento a segmenti adiacenti non specificati per quegli stessi tratti. Nel modello ‘a finestra’ (Window model, Keating 1990), infine, si introduce una relazione tra piano fonologico e fonetico con l’introduzione di un livello intermedio di rappresentazione: i segmenti astratti, specificati o meno per tratti, sono convertiti da regole fonologiche in configurazioni spazio-temporali (target) dinamiche e variabili, associate ad una finestra di valori, più o meno ampia a seconda del grado di specificazione di un tratto. 15 Figura 5 Le teorie di coproduzione (dette anche di temporizzazione intrinseca o dell’azione, Fowler 1979; Fowler e Saltzman 1993), invece, ispirate alla Fonologia Articolatoria (Browman e Goldstein 1992) si distinguono dalle precedenti perché considerano come unità di input azioni o gesti articolatori dinamici, specificati anche temporalmente già a livello fonologico-astratto: i gesti sono strutture coordinative pianificate (cfr. anche § 2.1.3), funzionali di per sé al raggiungimento di una meta (task), che non vengono modificate nella realizzazione. Figura6 Per finire, nel peso sempre maggiore attribuito alle strutture prosodiche come fattore di organizzazione del parlato, rientrano anche alcuni approcci alla coarticolazione, sia nel definire l’unità sillabica come dominio di alcuni fenomeni coarticolatori (Altmann 1997), sia nel considerare come determinanti o inibenti fattori quali la posizione dell’accento o i confini di unità prosodiche. 4. I rapporti tra le tre fonetiche. Un punto centrale della teoria fonetica è lo studio dell’interazione fra i livelli considerati per esplicitare un piano di corrispondenze che renda predicibile il processo di decodifica. In quest’ottica una teoria fonetica consiste nel descrivere e predire come una determinata realizzazione articolatoria è resa acusticamente e quali sono i parametri acustici che vengono utilizzati dal sistema uditivo e percettivo per decodificare il suono e risalire all’entità astratta che rappresenta; in linee più generali, significa osservare come il significante si sostanzia e come dalla sostanza del suono si risale alla forma del significante. In questo rapporto si esplica il ruolo della fonetica come scienza del linguaggio a tutti gli effetti. Due appaiono gli aspetti centrali. Il primo può essere illustrato prendendo spunto dall’approccio ‘antropofonico’ (cfr. §2.1.2) alla descrizione dei suoni linguistici suggerito da Lindblom, il quale nota che rispetto alle potenzialità fisiologiche dell’apparato, il range complessivo dei gesti articolatori mostra una decisa ‘underexploitation’ (sottoimpiego; Lindblom 1983:219). La domanda è: perché alcuni suoni, alcune articolazioni sono largamente utilizzate ed altre no? La risposta fa riferimento da un lato a fattori fisiologici, dall’altro a constraints linguistico-comunicativi (Laver 1994: 96 e sgg). Ci sono, in sostanza, tre posizioni prevalenti che pongono in evidenza una perfetta integrazione del sistema e del suo funzionamento. 16 La prima (che sottosta ad alcune teorie come la ‘Quantal Theory’ di Stevens 1989) mette in relazione diretta i tre livelli sul piano della stabilità (perceptual stability): i suoni più frequenti sono quelli che risultano prodotti in zone articolatorie stabili, e che danno luogo a plateau acustici all’interno dei quali le minime differenziazioni non sono percettivamente apprezzabili. La seconda si basa su un principio di adeguata e sufficiente distintività percettiva (perceptual contrast): si producono suoni che garantiscano la massima distinguibilità perché il sistema percettivo ha precedenza su quello produttivo. La terza è la cosiddetta ‘prospettiva ecologica’ di Lindblom (1983), in cui requisiti articolatori come quello di economia (il sistema motorio, in assenza di necessità particolari, tende a compiere il minimo sforzo possibile) e di plasticità (il sistema si adatta a raggiungere il bersaglio articolatorio in ogni condizione) concorrono con constraints percettivi. I tre principi determinano un core di suoni statisticamente più presenti nelle lingue del mondo, che costituiscono una sorta di phonetic universals (cfr. gli studi di Ohala 1979; Lindblom 1986; Lindblom e Maddieson 1988). L’altro aspetto, sostanzialmente non lontano dal primo, che coinvolge il rapporto tra il versante articolatorio, acustico e percettivo, riguarda il modo in cui si riesce a risalire dalla infinita variabilità delle realizzazioni alle invarianti astratte: la soluzione a tale questione è argomento di studi e teorie di percezione fonetica, cui possiamo solo brevemente accennare in questa sede. 5. Fonetica e percezione Le teorie di percezione che affrontano il versante cognitivo del processo di ricezione fonica devono necessariamente confrontarsi con le produzioni reali ‘ipoarticolate’ e variabili. In termini ristretti esse devono spiegare come, a partire dalle differenze acustiche, suoni diversi vengono riconosciuti come foneticamente equivalenti (e quindi realizzazione di una categoria fonologica). In termini più ampi, devono spiegare come e se la ricostruzione del messaggio linguistico avvenga a partire dalla percezione e riconoscimento delle singole unità fonetiche. Le teorie di percezione si rifanno a modelli di tipo bottom-up (dal basso verso l’alto, dal piccolo al grande) o di tipo top-down (dall’alto verso il basso, dal grande al piccolo). I modelli di primo tipo vedono il processo percettivo partire dal segnale acustico e dal riconoscimento dalle unità più piccole successivamente aggregate a formare unità sempre più grandi; il significato globale del messaggio viene ricostruito attraverso la componenzialità dei significati. Nei modelli del secondo tipo, viceversa, la conoscenza parte da domini ‘superiori’ 17 e da ‘macrounità percettive’ (cfr. Albano Leoni 1998), cui viene associato un significato globale, confrontato poi e definito con quello di unità di livello via via inferiore. La maggioranza dei modelli di percezione fonetica è per lo più incentrata su processi di tipo bottom-up, sebbene una componente top-down sia più o meno esplicitamente presente in ciascuno di essi con peso variabile. Ciò implica necessariamente il riconoscimento di invarianti di ‘livello basso’, identificate variamente a livello di pattern articolatorio o di segnale acustico. Le teorie articolatorie (Motor Theory, Liberman e Mattingly 1985; Direct Realism, Fowler 1986; fino ai più recenti modelli di Action Theory e Articulatory Phonology citati in §3) si basano sul presupposto che tra articolazione e percezione ci sia un rapporto diretto che in qualche modo trascende la materialità del segnale fisico. Parlante e ascoltatore utilizzano le stesse categorie: l’invarianza è, dunque, nel comando neuromotorio, sottostante il gesto articolatorio, che l’ascoltatore ricostruisce con una copia a livello del suo sistema nervoso. Nelle teorie acustiche (Analysis by Synthesis: Stevens 1996; Quantal Theory: Stevens 1989) si sostiene che l’ascoltatore decodifica il segnale acustico (analysis) generando un pattern interno (sempre nel sistema sensoriale, periferico) di confronto (synthesis): la comparazione avviene a livello neuroacustico e l’invariante è costituita da una matrice di segmenti fonetici e di tratti distintivi esplicitamente definiti su base spettrale. Nelle cosiddette teorie passive tratti distintivi estrapolati dal segnale vengono direttamente elaborati da un’analisi uditiva periferica (Auditory Theory: Fant 1967) o messe a confronto con rappresentazioni prototipiche immagazzinate in memoria (Fuzzy Logical: Massaro e Oden 1980). La teoria cosiddetta ‘H&H’ (Lindblom 1990; 1996) basata sul concetto di variabilità adattiva (cfr. §3), considera la ricerca di invarianti effetto di una ‘sovrastima’ dell’informazione presente nel segnale: il processo di percezione è un processo dinamico di integrazione di informazione interna ed esterna al segnale e soprattutto interattivo con vari livelli di conoscenza e di esperienza dell’ascoltatore. Il problema dell’invarianza viene superato attribuendo meno rilievo al segnale e non si pone il problema della sua segmentazione, semplicemente perché essa non viene assunta come base della decodifica del messaggio, per lo meno non ai livelli più bassi del processo. In questa visione si attua un vero e proprio superamento dell’ottica fonetica verso un modello integrato di comunicazione. 6. Conclusioni. Il quadro fin troppo sintetico della fonetica delineato in queste pagine, pur avendo tralasciato molti aspetti d’interesse, può essere sufficiente a mostrarne la natura di disciplina 18 ‘di confine’ che copre un’ampio dominio di interazioni: nei suoi fondamenti essa ha a che fare con la fisiologia, l’acustica, la psicoacustica, la psicologia; all’interno della teoria linguistica dialoga necessariamente con il piano fonologico in primo luogo, ma anche morfologico, sintattico, semantico, pragmatico, attraverso l’interfaccia affidata alla dimensione prosodica. In quest’ottica, una teoria fonetica autonoma non è forse un obiettivo possibile né da perseguire. Sebbene a livello descrittivo possa rimanere utile una rigida separazione tra livelli d’analisi, ciò non deve far perdere di vista la complessità di un quadro costituito da infinite relazioni e condizionato da diversi fattori. Proprio quei settori meno ‘strutturati’, come la fonetica (o la pragmatica), tradizionalmente trascurati dalla linguistica teorica perché non facilmente sistematizzabili, mostrano l’importanza di un approccio multidisciplinare e di teorie basate sul ‘reticolo’: le sovrapposizioni rilevabili tra le aree altro non sono, infatti, che il palesamento della struttura multilivello e integrata della facoltà di linguaggio. 19