per una linguistica corpus-based dell`italiano parlato

Transcript

per una linguistica corpus-based dell`italiano parlato
PER UNA LINGUISTICA CORPUS BASED
DELL’ITALIANO PARLATO: LE UNITÀ DI
RIFERIMENTO
Emanuela Cresti - Paola Gramigni1
Lablita - Dipartimento di Italianistica - Firenze
[email protected]
SOMMARIO
Il presente contributo intende inserirsi in un dibattito che ormai si sta sviluppando in
Italia e che concerne tre punti affiorati nell’ambito degli studi linguistici e che sembrano
convergere:
- lo studio della lingua parlata e in particolare di quella spontanea;
- la linguistica dei corpora orali;
- l’impiego di strumenti informatici per l’archiviazione, lo studio sperimentale e il
recupero di informazione linguistica ed in particolare di quella parlata.
Non potrò soffermarmi su nessuno di questi in maniera ampia. Per quanto riguarda il
primo punto mi pare che un Convegno come questo ed il successo di pubblico e di
partecipazione scientifica che ha ottenuto, sia la migliore prova di come attuale sia la
ricerca sul parlato in Italia; vorrei allora aggiungere solo un augurio a tale risultato,
quello che, dischiusasi questa porta, essa venga veramente aperta. In altre parole, è
ormai tempo di cimentarsi con il parlato “genuino”, ovvero quello che mettiamo in atto
in maniera continua in tutta la nostra vita e per ogni tipo di occasione, quello faccia a
faccia, quello in cui la programmazione è simultanea all’esecuzione o comunque non la
determina, quello che è soggetto alla mutevolezza dei rapporti umani che sono
imprevedibili e trascinano con loro anche le nostre risposte verbali.
Per il secondo punto, gli strumenti di registrazione della voce (ma anche dell’immagine
e dell’immagine in movimento) e, passando automaticamente al terzo punto, la capacità
di archiviazione digitale della stessa, hanno cambiato completamente il quadro della
ricerca nel settore e reso possibile uno studio su corpora, che in fondo è cominciato solo
pochi anni fa e in ogni caso sembrava attuabile solo per la lingua scritta. La formazione
di corpora – e propriamente possono essere definiti tali solo archivi digitali ampi,
raccolti secondo criteri espliciti, organizzati secondo formati standard, consultabili, ecc.
– ha fornito un dominio d’indagine che alla metà del secolo scorso, ma ancora per 20 o
30 anni successivi, non poteva nemmeno essere immaginata. In qualche modo tale
presupposto negativo è stato la premessa di una linguistica innatista, tutta basata sulla
1
A E. Cresti si deve la concezione e stesura dell’articolo. P. Gramigni è autrice del paragrafo 4 e si
devono a lei la ricerca ed identificazione degli esempi.
competenza e refrattaria alla verifica sperimentale, che sembrava dovesse occupare tutto
il campo della teoria linguistica. La linguistica dei corpora apre, dunque, anche
prospettive teoriche nuove.
Per il terzo punto, vorremmo notare che i settori effettivamente sviluppati con
programmi informatici sono stati per il momento due: quello sul lessico, iniziato su
corpora scritti e travasato poi su corpora di parlato (concordanze, lessici di frequenza,
lessici specialistici, ecc.), che può contare ormai su strumenti di analisi automatica, e
quello sugli aspetti fonetici (segmentali) della lingua parlata, connessi in particolare alle
ricadute industriali (riconoscitori della voce e sintesi). È in uno stadio molto più iniziale,
invece, l’analisi e la notazione degli aspetti intonativi e la loro archiviazione digitale,
mentre ancora non esiste nessun programma di analisi automatica dei dati
suprasegmentali. Evidentemente esistono ormai anche sistemi di etichettamento morfosintattico (semi-automatico in verità) e parser sintattici, ma per il momento di limitato
funzionamento ed impiego.
Ci auguriamo che anche per questi settori la ricerca avanzi e permetta di fondere
conoscenze nuove, ricavate dallo studio teorico ed empirico, con strumenti informatici
anch’essi nuovi e finalizzati non solo alla tecnologia e all’industria linguistica ma anche
alla scienza del linguaggio.
1. GLI STUDI MORFO-SINTATTICI DEL PARLATO
Nel quadro dei temi sopra delineati il nostro contributo s’inserisce presentando
brevemente
- i corpora orali , in massima parte di parlato spontaneo, raccolti presso LABLITA ;
- alcuni dei risultati nel campo delle ricerche morfo-sintattiche su corpora orali,
portati avanti dalla nostra équipe;
Non ci soffermeremo, invece, sugli aspetti informatici, che pure sono stati necessari per
fare le raccolte e le analisi e sui nuovi programmi che vengono sviluppati presso il
Laboratorio. Il presente contributo è rivolto, però, soprattutto ad alcuni problemi
fondazionali che da sempre caratterizzano lo studio del parlato; questo anche in
relazione alla constatazione che mentre da un lato, molto positivamente, si stanno
diffondendo studi che ormai prendono come proprio oggetto i dati dei corpora orali,
dall’altro però non li analizzano con strumenti informatici, ma con i tradizionali metodi
di indagine linguistica; ma soprattutto non sembrano tener pienamente conto della loro
specificità orale e in particolare della loro caratterizzazione intonativa.
Il settore è molto importante perché apre alla descrizione e allo studio un campo di
indagine nuovo, anche se i prodromi della ricerca possono essere rintracciati già alla
metà dell’800 e naturalmente sono stati sviluppati poi per tutto il ’900. Ma come
abbiamo detto, in fondo fino a una diecina di anni fa mancava l’oggetto appropriato di
indagine: ampi corpora rappresentativi dell’uso parlato, trascritti, ma anche
sincronizzati al loro ascolto, o meglio ancora al loro segnale acustico e a tutti i suoi
principali parametri. La maggior parte degli studi italiani, però, pur essendo impostata
sulla base di esempi che in effetti sono ripresi da corpora parlati, e per ovvie ragioni
trascritti, sono vagliati e considerati alla stregua di esempi scritti. La conseguenza è che
la descrizione morfo-sintattica che ne deriva finisce per offrire un paradigma ridotto,
una specie di caso impoverito o monco, rispetto a quello che deriva dalla descrizione
2
della lingua scritta o della lingua ideale di competenza. Tutte le motivazioni per le quali
gli esempi concreti sono stati realizzati nella dinamica interattiva dello scambio verbale
e il fatto che siano realizzati tramite segnale sonoro e, diciamo subito, con sequenza
segmentale ma strutturata entro patterns prosodici, vengono perduti. Quello che viene
preso in considerazione in questa maniera è una specie di calco piatto del dato, di
“pianta scritta” del dato orale, che non è adeguata a rappresentare il parlato e che,
d’altro canto, non è stata concepita per la scrittura.
Certo è impossibile cogliere tutti gli aspetti della produzione parlata, ma lo stesso allora
si potrebbe dire anche di quella scritta. Forse il problema sta nel fatto che regna ancora
molta confusione circa l’identificazione di quali siano le caratteristiche specifiche e
veramente rilevanti del parlato, perché forse basterebbe cogliere quelle e tenerne conto
per avere un dato più rispondente al reale. Rispetto agli anni ‘80, da quando ho
cominciato a proporre che la caratteristica principale del parlato era la sua valenza e la
sua strutturazione pragmatica, termini come illocuzione, articolazione informativa, topic
e comment sono divenuti molto più familiari e, direi, certo non per mio merito, ma per
una consonanza di interessi che hanno avuto una discreta circolazione ed impiego
nell’ambito della linguistica italiana. Quello che, però, non appare compreso ed assunto
sono le implicazioni che essi trascinano, ovvero se si considera un livello come quello
illocutivo e dell’articolazione dell’informazione, debitamente segnalati dall’intonazione,
poi non è possibile condurre studi di morfo-sintassi che prescindano totalmente da tale
struttura. Non è corretto continuare a valutare le espressioni parlate come se fossero
“linearizzate”, prescindendo dalla marca intonativa che sistematicamente le scandisce e
non considerando quei raggruppamenti necessari al compimento di funzioni
informative, secondo le quali esse espressioni risultano organizzate.
Il considerare come legati gruppi di parole che sono stati prodotti in maniera separata,
per chiari confini prosodici, mette in ogni caso di fronte a sequenze non corrispondenti a
quello che effettivamente è stato realizzato2, ma anche a strutture sintattiche incongrue o
agrammaticali che sono solo il risultato di un’interpretazione forzata. A volte per
cercare di darne giustificazione si procede ad operazioni di “ricostruzione” di una
struttura sintattica che non c’è, ma che dovrebbe essere presente nella mente del
parlante e che, per poter essere formulata, deve fare ricorso ad un tipo di ellissi
particolare, che non solo giustifichi ciò che non c’è, ma soprattutto giustifichi quello
che non è recuperabile a nessun titolo.
Un’altra forma di soluzione del problema è quella che potremmo chiamare “lessicale”,
che pratica la creazione di nuove parti del discorso o classi lessicali. In esse vengono
catalogate singole parole in base alla loro funzione informativa – emblematica quella
dei segnali discorsivi – e vengono radunate in questo modo espressioni disparate per
caratteri semantici, morfologici, sintattici e distributivi, sulla base della congruenza dei
quali si è finora definito classi come Verbo o Pronome o Congiunzione. Un’altra
soluzione ancora è quella di aggiungere sottoclassi a classi già esistenti e, quindi, di
gonfiare a dismisura, per esempio, una classe come quella delle interiezioni, nella cui
sottoparte, chiamata “interiezione secondaria”, è possibile trovare un qualsiasi aggettivo
qualificativo che abbia un certo uso illocutivo come brava o zitti o perfetto, ecc.
Circolano poi gli avverbi esclamativi, tutta la serie dei pronomi interrogativi, gli avverbi
cosiddetti olofrastici, ecc.
2
Una diversità rilevante, per esempio, riguarda lo scarto di modalità che spesso interessa gruppi di parole
facenti capo a scansioni tonali distinte. Un breve accenno sull’argomento anche a fine del presente
contributo.
3
Quindi, sintassi di strutture non rispondenti al dato e sintassi della ricostruzione fondata
sull’ellissi, nuove classi lessicali costruite su criteri non coerenti, sottoclassi non
motivate di classi esistenti sembrano tutte soluzioni ad hoc per rispondere alla evidenza
offerta dai dati del parlato che esiste qualcosa che difficilmente può essere risolto con
gli strumenti ed i livelli finora considerati nell’analisi linguistica.
Uno studio del parlato, condotto sul riscontro empirico, in realtà non può prescindere
dalla considerazione della strutturazione informativa dello stesso e della sua
segnalazione intonativa, anche perché solo attraverso essa noi possiamo identificare
quelle unità di riferimento superiori alla parola, secondo le quali il parlato si organizza.
Ed è proprio attraverso l’identificazione di esse unità che passa la possibilità di condurre
ricerche statistiche significative e, in prospettiva, anche con programmi informatici.
Bisogna anticipare che tali unità non hanno definizione sintattica né possono essere
risolte con una etichetta lessicale. Il che non vuol dire che non esista sintassi nella
lingua parlata, ma vuol dire solo che essa “vige” all’interno di un dominio strutturato su
base diversa, ovvero pragmatica con segnalazione intonativa.
Procederemo, quindi, alla presentazione delle due principali unità di riferimento
(superiori alla parola) della lingua parlata: l’enunciato e l’unità d’informazione.
2. L’ENUNCIATO
La principale unità di riferimento della lingua parlata superiore alla parola (mot,
fr.; word, in.)3 può essere indicata nell’enunciato (énoncé, fr.; utterance, in.)4 ed esiste
un certo accordo nel riconoscere ad esso una generica valenza di unità “tipica”
dell’organizzazione testuale parlata. Ma nella letteratura circolano definizioni diverse
del concetto, le più importanti tra le quali sono:
1) definizione dialogica;
2) definizione temporale;
3) definizione sintattica;
4) definizione pragmatica.
2.1 Definizione dialogica
La definizione dialogica, che è forse tra le più “antiche”, indica come unità “naturale”
della lingua parlata la battuta o turno dialogico del parlante e lo identifica in maniera,
potremmo dire, immediata con il cambio di voce, ovvero con il passaggio da silenzio di
un parlante al successivo silenzio dello stesso.
battuta o turno dialogico (da silenzio a silenzio del parlante)
*MAR: sì //
*MAX: vai //
*MAX: qui giri subito / eh // subito la freccia // metti la &frez [///] la seconda //
subito // eh // # messo ?
*MAR: <sì sì> //
*MAX: [<] <xxx la &sec> + piano //
*MAR: qui ? (Scuola guida)
3
4
Per una approfondita discussione del concetto, si veda Blanche-Benveniste (1997).
Si veda Cresti (2001).
4
*MAR: non è la stessa cosa di quell’altra macchina / evidentemente // evidentemente
/ allora mi toccano troppo [///] toccano troppo i comandi loro // scusa // allora / diciamo
così // # io / non [/] non [/] non è esattamente come mi risponde quell’altra macchina //
con &quel + allora vuol dire / che c’è quell’altro che &no [///] che / cioè / che guida lui
// (Scuola guida)5
Come risulta evidente dagli esempi, ripresi da un dialogo spontaneo in un contesto
fortemente interattivo (una lezione di guida), uno stesso parlante, nella stessa situazione,
può produrre turni di una sola parola, come accade spesso in contesti improntati a
finalità pragmatiche, ma anche turni molto più lunghi ed articolati. Il turno, dunque, è
caratterizzato da una variabilità estrema di “riempimento” e, inoltre, appare
imprevedibile; d’altro canto nel caso, per esempio, di un racconto o di una spiegazione,
esso può protrarsi anche per molti minuti (corrispondenti a pagine di trascrizione) e non
è realistico pensare che nessuna forma di organizzazione testuale, dopo quella di parola,
sia messa in atto al suo interno. Quindi, se il turno dialogico può essere assunto come
una delle unità che caratterizzano il parlato, non può però essere scelto come definizione
dell’enunciato che dovrebbe essere l’unità di organizzazione del testo parlato.
2.2 Definizione temporale
L’enunciato è stato poi spesso identificato con un’unità temporale, ovvero con una
sequenza che si caratterizza ancora come transizione da silenzio a silenzio di uno stesso
parlante, ma dove tale silenzio non è interpretato alla luce dell’inizio e della fine del
turno, ma come silenzio-pausa all’interno di esso. Naturalmente non si può escludere
che a volte esista una coincidenza tra i due, ma il criterio di identificazione non è lo
stesso. Infatti, quello che viene individuato con la pausa non è l’entità naturale dello
scambio verbale (turno), ma un’entità di scansione entro il flusso sonoro, che ha il
proprio valore oggettivo in una misura temporale del testo.
La prima notazione da fare è che nel parlato spontaneo, fortemente interattivo, le pause
sono molto rare. Naturalmente anche la frequenza delle stesse cambia a seconda dei
limiti temporali che vengono scelti per valutare una disfluenza come pausa; tutti sanno
che la realizzazione delle consonanti sorde risulta ad una verifica strumentale come
“vuoto” e quindi, per esempio, non è possibile scegliere dei silenzi troppo brevi, che
rischiano di comprendere anche fenomeni di tipo diverso. Ma anche lo stile individuale
è determinante; quindi, silenzi anche molto brevi nel parlato di un soggetto possono in
realtà valere come pause, mentre per parlanti lenti e con allungamenti delle vocali finali
a volte è molto difficile valutare che cos’è una pausa. È possibile indicare una durata
con valore assoluto di riferimento, almeno 250ms di assenza di segnale (f0 e intensità),
per poter essere sicuri della realizzazione di una pausa?
5
L’asterisco seguito da tre lettere maiuscole, due punti e uno spazio, è il modo di indicare ogni parlante
entro il formato CHAT (*ABC: ). L’esempio e i successivi sono accompagnati da diversi segni diacritici,
che sono stati sviluppati nel nostro lavoro di archiviazione elettronica del parlato e che, più in generale,
rimandano al sistema CHAT (Mac Whinney, 1997) e ad una implementazione fattane per l’italiano
(Moneglia & Cresti, 1997). I più importanti sono il segno di doppia sbarra (//), che sta ad indicare la fine
di un enunciato segnalata prosodicamente, e la sbarra semplice (/), che segnala la fine di unità
d’informazione segnalata prosodicamente. Il cancelletto (#) indica una pausa chiaramente percepibile e
misurabile, e diversi diacritici, come sbarra semplice, doppia o tripla tra parentesi quadre ( [/]), forme di
retracting, falsa partenza, ecc. La e commerciale (&), invece, indica un frammento di parola non
calcolabile entro il lessico di frequenza.
5
a) da pausa a pausa
*BOR: ne troviamo / scusate # balbettio / come tutto ciò / che va /dalla prima parola
/ alle / &dal # dalle # dalla fine delle vocalizzazioni/ alle prime parole // nello stesso
tempo / nello stesso periodo / si differenzia / la nozione / di ecolalia // # &he / di cui /
proprio / il referente preciso / scusate # non riesco a identificarlo // (Lezione)
Nell’esempio, ripreso da una lezione universitaria, la parlante, che ha eloquio veloce,
produce una serie di vuoti, segnalati dal diacritico a cancelletto (#), che chiaramente
sono pause. Si può, tuttavia, notare come esse corrispondano sistematicamente a
“incidenti”, a incertezze nella scelta di lemmi, a cambi di programma e non sembra,
invece, che siano finalizzate all’organizzazione del testo all’interno della battuta. Del
resto, esistono ormai molti studi che in maniera concorde sottolineano che la
causazione, e in modo assoluto nel parlato spontaneo6, è dovuta a fatti casuali e solo in
piccola parte (forse il 20%?) serve a rafforzare fenomeni che in maniera strutturale sono
invece segnalati dall’intonazione. Il silenzio (parametro negativo) può, seguendole,
massimizzare scansioni intonative, ma la scansione è tutta a carico di parametri positivi
per la nostra percezione (movimenti di f0, durata, intensità) ed occorre
sistematicamente, anche senza essere seguita dal rafforzamento della pausa. Non
sembra, quindi, che la pausa, anche per quella percentuale in cui rafforza la scansione,
possa essere indicata come il segnale di identificazione di entità dell’organizzazione
parlata, ma caso mai sembra esserlo proprio la scansione stessa.
b) da pausa virtuale a pausa virtuale
Proprio a causa delle difficoltà sopra esposte – circa la valutazione di una quantità
assoluta di riferimento temporale congrua per la pausa, circa la distinzione tra quelle
casuali e quelle strutturali e circa l’assenza di pausa in punti nevralgici e, al contrario,
ben indicati dai valori positivi dell’intonazione – l’ipotesi di poter ricondurre
l’organizzazione testuale parlata alla causazione, invece di fare riferimento a come essa
concretamente appare realizzata nei corpora, fa ricorso a volte ad un concetto di
pausazione virtuale. La pausa, quindi, non sarebbe tanto quella che viene realizzata o
per motivi accidentali di esecuzione – e quindi evidentemente da espungere dal novero
dei casi probanti l’organizzazione – o, comunque, effettivamente prodotta – che
abbiamo detto sono casi piuttosto scarsi –, ma quella che potrebbe essere “inserita” a
proposito e in maniera sistematica all’interno del testo parlato.
*EST: no ascolta qui sopra sì
*EST: no // ascolta / qui sopra ? sì // (Estetista)
*EST: piedi mani cera completa bracci ago sopracciglia baffino
tutto quello tutto
*EST: <piedi / mani / cera completa> // bracci / ago / sopracciglia / baffino /
tutto // quello + tutto // (Estetista)
6
Si veda Giannelli (1992) per una rassegna degli studi tradizionali sulla pausa. Ricordiamo anche i
principali studi sul parlato italiano che concordano su questo punto, come Sornicola (1981) e Voghera
(1992). Per alcuni aspetti fonetici della questione, cfr. Hirst & Di Cristo (1998).
6
Degli esempi sopra riportati, ripresi da un testo dialogico spontaneo (una seduta di
depilazione) e che non presentavano alcuna pausa al loro interno di battuta, sono state
date due versioni: la prima con trascrizione lineare senza alcun segno diacritico e la
seconda corredata da quei diacritici che nella nostra tradizione corrispondono alla
segnalazione dei principali confini prosodici (/, //), ai segnali di sovrapposizione (
)
e a quelli di cambio di programma (+). Come si capisce, la seconda versione, integrata
dai diacritici intonativi, permette di apprezzare la volontà organizzatrice del testo da
parte del parlante e ci mostra dove dovrebbero cadere le pause virtuali (#) tramite
l’equiparazione al segno di doppia sbarra (//) indicante la fine di enunciato. Proprio tale
organizzazione, però, rivela come non sia decidibile a priori dove sarebbe stato “giusto”
inserire una pausa virtuale: infatti, che cosa impedirebbe di proporre scansioni come le
seguenti, che appaiono altrettanto o forse più “ragionevoli” di quelle invece
effettivamente attuate dalla parlante:
*EST: no / ascolta // # qui sopra / sì //#
*EST: piedi / mani //# cera completa / bracci //# ago / sopracciglia / baffino //#
tutto quello / tutto //#
Naturalmente si può obiettare che i precedenti sarebbero esempi limite – ma in realtà
sono propri della usuale comunicazione interattiva – e quello che si vuol dire è che nel
caso di una normale sequenza frastica esisterebbero luoghi deputati per la pausa
virtuale. Consideriamo, allora, una sequenza di espressioni che si immagina
corrispondano ad una frase canonica come la seguente:
Carlo va a Roma
si potrebbe pensare che la scansione più comune dovrebbe essere quella che vede una
pausa prima della frase e alla sua fine:
# Carlo va a Roma // #
A parte la bassa percentuale di frasi linearizzate nel parlato, in particolare di esempi
cosiffatti, con il soggetto preceduto da un silenzio, soggetto antecedente il proprio
predicato e linearizzato con esso, senza pause, entro la stessa partizione tonale, il tutto
seguito invece da una chiara pausa, esistono ancor più rare occorrenze che non delle
pause di rinforzo. Naturalmente niente ci vieta di pensare che così vada bene, ma ci
sarebbe da chiedersi perché non venga realizzata quasi mai, dato che dovrebbe essere la
più normale delle organizzazioni testuali.
Più comuni sono, invece, realizzazioni come la seguente – ma, sia ben chiaro,
all’interno di un continuum fonico né preceduto né seguito da pausa – con un tipo di
scansione interna di tipo debole, che non è certo una pausa, ma potrebbe essere
identificata con una pausa virtuale:
Carlo / # va a Roma //
Naturalmente, la realizzazione di forze illocutive diverse o funzioni informative diverse
implicherebbe possibilità di scansione diversa dell’espressione in questione, ma anche
7
mantenendoci all’interno di una illocuzione assertiva, niente vieta che la sequenza
lineare per esigenze pragmatiche possa essere realizzata come due diversi enunciati:
*ABC: Chi è partito?
*DEF: Carlo // # va a Roma // #
o, ancora, possa risultare scandita in modo inatteso:
*ABC: ma dove mai / va Carlo?
*DEF: Carlo va / # a Roma //
In realtà il problema che viene in qualche modo messo in luce dalla difficoltà e
dall’incertezza di attribuire pause virtuali è quello dell’adeguatezza del concetto di frase
e della gerarchia sintattica implicata per analizzare la lingua parlata. Se l’organizzazione
testuale parlata fosse fondata su strutture frasali, probabilmente pause virtuali, magari
maggiori e minori, potrebbero essere inserite in maniera coerente nei punti
corrispondenti ai nodi della gerarchia stessa, con alcune sedi privilegiate. Di esse, anche
se non in maniera maggioritaria e sistematica, dovrebbero affiorare un numero congruo
di realizzazioni concrete in corpus; ma questo non ha riscontro. Il concetto di pausa
virtuale, quindi, non è altro che un modo per cercare di ritrovare nel parlato
un’organizzazione sintattica che appare non essere quella sua propria e di schiacciare il
concetto di enunciato su quello di frase7.
2.3 Definizione sintattica: “frase detta”
In effetti la più comune definizione di enunciato è proprio quella che, partendo da un
quadro teorico che prevede competenza ed esecuzione, tende ad identificarlo con
l’esecuzione dell’entità sintattica a base della competenza, ovvero tratta l’enunciato in
termini di frase “detta”. Esistono, tuttavia, due definizioni fondamentali di frase:
a) quella che si fonda sulla relazione soggetto-predicato e vede una indipendenza del
primo dal secondo, che per lo più è realizzato tramite un verbo;
b) quella che si fonda direttamente sulla struttura argomentale del verbo, ivi
compreso un agente-tema da esso dipendente, ovvero identifica la frase con la
proiezione massima di V.
a) Relazione soggetto-predicato legati entro la stessa unità tonale (Bally)
Per quanto concerne la prima definizione possiamo rilevare che, in effetti, tali
costrutti esistono nel parlato, ma, per sondaggi condotti sui nostri corpora LABLITA,
sappiamo che si mantengono al di sotto di quel 5%, che può essere considerato un dato
percentuale di massa critica per fenomeni rilevanti e costitutivi, potremmo dire tipici,
del parlato.
*PAO: io ‘un ho mica capito nulla // (Nomine in ruolo)
*ANG: e lui gli racconta tutta la sua storia // (Teo e Angela)
*PM1: il processo comincia oggi // (Pubblico Ministero)
7
Si vedano, per la discussione circa l’inadeguatezza del concetto di frase come entità di riferimento del
parlato, Quirk et alii (1985); Miller & Weinert (1998); Biber et alii (1999); Cresti (2000); Cresti (2001).
8
*EDU: e il lupo dormiva // (I sette capretti)
- 5% degli enunciati (dati LABLITA)
In ogni caso, le frasi legate, soggetto-predicato, che vengono realizzate sono spesso
costituite da soggetti pronominali, da espressioni deittiche e, naturalmente, anche da
gruppi nominali, ma sono combinate in modo che se il soggetto è più pesante allora
viene ridotto il predicato, entro una strategia produttiva che privilegia unità tonali di
portata sillabica molto contenuta (dalle 7 alle 11 sillabe). Non sembra, quindi, che tale
struttura rispecchi in effetti quello che invece è il ruolo della frase nella lingua scritta,
nella quale essa appare costituire in effetti il “mattone” del testo e nella quale è possibile
legare soggetti molto complessi ed estesi a qualsivoglia tipo di predicato. In sostanza, la
frase legata, soggetto-predicato realizzati lessicalmente entro la stessa partizione tonale,
non può rappresentare il costrutto tipico secondo il quale verrebbe organizzato
sintatticamente un testo parlato.
b) proiezione massima del Verbo (clausola)
Nel caso, invece, che per frase s’intenda un sintagma verbale più o meno riempito in
tutte le sue valenze, costrutto che noi indichiamo con il termine di clausola, allora in
effetti possiamo constatare che la maggioranza delle produzioni parlate (dal 62 al 70% a
seconda della tipologia sociolinguistica e diafasica dei testi) ha tale conformazione.
*VAL: anche perché / non lo sapevo ancora // (Nomine in ruolo)
*LUC: poi / li puoi anche scaldare // (Minestra di pane)
*FRA: non mi danno libero / i’ quindici giugno // (Tiramisù)
*GNO: [<] <no / più che fatto / l’ ho visti fare / ecco> // (Veglia)
*MAR: esalta le forme // (Liceali)
Il fatto che una maggioranza di produzioni abbia tale caratteristica non impedisce, però,
che ben il 38% dei testi di parlato spontaneo abbia una struttura non di clausola e a volte
non presenti neppure una strutturazione sintagmatica. I dati a nostra disposizione sono
piuttosto rilevanti e significativi, perché li possiamo ricavare per l’italiano da un lavoro
di Scarano (in questo volume), condotto sul corpus di parlato informale italiano, del
progetto UE C-ORAL-ROM, per 82.500 parole e circa 13.000 enunciati, che individua
ben un 38%, appunto, di enunciati “nominali”, ovvero, privi di una forma verbale di
modo finito8.
*EST: palestra ? (Estetista)
*GIA: per questo poi ... (Cuba)
*MIC: De Niro / niente // (Cinema)
*PAP: un ponte di pietre // (Fiaba)
38% enunciati non verbali per l’italiano (Scarano, 2003a).
8
Cfr. Scarano (in questo volume).
9
Il risultato, però, è ancora più rilevante perché costituisce una conferma, se si vuole
sorprendente per la nostra lingua, del dato statistico rilevato per l’inglese-americano
dalla Longman Grammar, che riporta una percentuale appunto del 38% di non-clausole
a partire da un corpus di conversazioni di 5 milioni di entrate:
38% verbless utterances, senza struttura di clausola per l’inglese-americano
(Longman Grammar)
Ora, il 38% vuol dire che più di un terzo delle produzioni parlate non corrisponde a SV
e il dato, che supera di molto il limite della massa critica, non può non essere
considerato tipico del parlato. Quindi la clausola, anche se ampiamente e in maniera
maggioritaria realizzata, non è la forma esclusiva di strutturazione e, in sostanza, non
può proporsi come definizione sintattica dell’enunciato e rappresentare l’organizzazione
testuale del parlato.
2.4 Definizione pragmatica
Già dagli anni ‘80 andiamo proponendo una definizione pragmatica dell’enunciato
(enunciato come corrispettivo dell’atto linguistico), inteso come ogni espressione che
sia interpretabile pragmaticamente, ovvero come ogni espressione attraverso la quale
venga compiuta una illocuzione (Austin, 1962). Ricordiamo che secondo la proposta
austiniana ogni atto linguistico è la risultante dell’attuazione simultanea di tre diversi
atti: quello locutivo, quello illocutivo e quello perlocutivo
ogni espressione interpretabile pragmaticamente
*SMN: con chi esci ? (Macellaio) (domanda di cortesia)
*MAX: ferma // (Scuola guida) (ordine)
*EST: palestra ? (Estetista) (sollecito)
*ALB: meno cotta ? (Alimentari) (richiesta di precisazione)*GNO: [<] <no / più che
fatto / l’ ho visti fare / ecco> // (Veglia) (precisazione)
*RIN: ah // (Veglia) (assenso)
La mancanza di definizione sintattica dell’enunciato – resa necessaria da quel 38% di
casi che non ha struttura né di frase né di clausola e che addirittura può essere costituita
da una sola parola e perfino da un’interiezione – potrebbe indurre, però, a pensare che
“tutto sia lecito” e che non si possano individuare limiti e regole dell’enunciato.
Per prima cosa dobbiamo notare che la definizione pragmatica dell’enunciato implica
che esso deve corrispondere ad un esempio effettivamente realizzato e del quale sia
possibile valutare la forza illocutiva9, mentre non sono adeguati esempi ideali fuori di
attuazione. Esiste, poi, una fondamentale condizione semantica costituita dal fatto che
l’espressione deputata a compiere illocuzione deve essere un’espressione lessicale piena
(parola). Ma la condizione può essere apprezzata meglio in forma negativa, perché
recita che tutto ciò che sia o valga come morfema non ha le caratteristiche semantiche
sufficienti per divenire un enunciato. Per intendersi, le interiezioni sono tipicamente e in
9
Naturalmente niente vieta da un lato che un parlante si sia interrotto e ciò che abbia prodotto non sia un
enunciato, ovvero saremo di fronte ad un caso di enunciato interrotto, o ad una falsa partenza, o ad un
frammento; dall’altra è chiaro che noi possiamo produrre enunciati in laboratorio o fare exempla ficta di
enunciato, ma in ogni caso dovremo assegnare loro una illocuzione e indicare con quale intonazione la
realizzino, perché essi possano valere in ogni caso come istanze di enunciato.
10
maniera propria impiegate a fare enunciato, benché il loro significato lessicale sia vago
e mutevole, diciamo subito, in connessione al tipo di illocuzione e all’intonazione
conseguente con la quale il parlante le realizza, mentre un qualsiasi morfema flessivo,
ma anche un clitico o un articolo o una preposizione, il cui significato appare forse più
determinato grammaticalmente di quello di un’interiezione, non fanno enunciato (a
meno di casi particolari di contrasto, ma in realtà assai rari e difficili).
condizione semantica minima: l’enunciato deve essere costituito almeno da
un’espressione lessicale piena (anche un’interiezione, con esclusione di morfemi legati
e liberi)
*EST: palestra ? (sollecito)
*GNO: [<] <no / più che fatto / l’ ho visti fare / ecco> // (precisazione)
*ALB: meno cotta ? (richiesta di precisazione)
*RIN: ah // (Veglia) (assenso)
Esiste poi una condizione che possiamo chiamare formale, costituita dal fatto che
l’espressione in questione, sia essa un’interiezione o una clausola con subordinata, deve
essere realizzata da un pattern intonativo, ben formato, dedicato al compimento di una
qualche illocuzione e percettivamente rilevante10.
condizione formale: un enunciato deve essere realizzato da un pattern intonativo
(percettivamente rilevante, ben formato e dedicato al compimento dell’illocuzione)
Per poter apprezzare meglio tale condizione, dobbiamo ritornare sulla proposta
austiniana e introdurre brevemente la reinterpretazione che è stato possibile formulare
sulla base dello studio empirico dei nostri corpora, alla luce della quale proponiamo le
seguenti definizioni dei tre atti locutivo, illocutivo e perlocutivo e delle relazioni che tra
essi intercorrono.
In sintesi:
- l’atto perlocutivo attiva, per insorgenza pulsionale come reazione al rapporto con
l’interlocutore, la trasformazione di un’immagine mentale in immagine verbale
attraverso la sua concreta manifestazione fisica, sotto forma di un affetto verso
l’interlocutore;
- l’atto illocutivo traduce l’affetto in schema di comportamento verbale sulla base di
convenzioni pragmatiche, socio-culturali, cognitive e, in questo modo, realizza
l’atteggiamento del parlante (base affettiva) verso l’interlocutore secondo schemi
comunicativi convenzionali;
- l’atto locutivo realizza, propriamente, la manifestazione fonetica, lessicale,
morfosintattica e semantica di cui è sostanziata l’immagine verbale.
Come si può vedere, l’ordine di presentazione degli atti è rovesciato rispetto alla
tradizione filosofica, che inizia dall’atto locutivo per terminare in maniera sfocata in
quello perlocutivo. Crediamo, invece, che il fondamento pulsionale del linguaggio sia il
suo motore, anche se evidentemente gli atti, come abbiamo detto, sono simultanei e,
10
Si veda ‘t Hart et alii (1990); Cresti & Firenzuoli (2000); Cresti (2000); Firenzuoli (2003).
11
come si può capire, l’uno interamente dipendente dall’altro. In particolare, però, bisogna
sottolineare che esiste un’interfaccia formale tra l’atto illocutivo e quello locutivo,
costituita dall’intonazione.
atto illocutivo
interfaccia intonativa
atto locutivo
Il comportamento comunicativo-verbale (atto illocutivo) è segnalato dall’intonazione
che organizza in pattern prosodico la sequenza fonetica (atto locutivo). Quindi
l’intonazione serve a demarcare nel continuum fonico ciò che corrisponde ad un atto
illocutivo, ovvero a identificare un enunciato nella sequenza delle espressioni parlate.
3. L’UNITÀ D’INFORMAZIONE
Ma per proseguire nella nostra descrizione e nell’individuazione dell’altra entità di
riferimento, l’unità d’informazione, dobbiamo segnalare che l’intonazione ha anche
un’altra funzione oltre a quella della demarcazione degli enunciati nel flusso del parlato,
quella di scandire all’interno di essi gruppi di parole. L’intonazione, quindi, organizza
sistematicamente le sequenze sonore (segmentali) che compongono l’enunciato in
gruppi di parole tramite raggruppamenti suprasegmentali. Le parole facenti capo al
gruppo sono unificate dallo svolgimento di una stessa funzione informativa, che le lega
in modo da farne un’unità d’informazione. Le funzioni informative sono molteplici, ma
tutte dipendono a qualche titolo da quella illocutiva.
La struttura informativa dell’enunciato, infatti, è regolata secondo un principio che vede
il compimento dell’illocuzione come la parte informativa (comment) necessaria e
sufficiente dell’enunciato – e che nella tradizione è stato variamente identificato come
rema o come nuovo o come focus – e vede la possibilità di altre parti caratterizzate da
funzioni informative complementari ad essa, ma opzionali. Tutti i gruppi di parole
caratterizzati dallo svolgimento di una funzione informativa e scandite dall’intonazione
sono, appunto, unità d’informazione. Quindi l’enunciato è un pattern informativo,
ovvero è costituito da una unità d’informazione necessaria dedicata al compimento
illocutivo, il comment, e da altre unità d’informazione complementari ad esso, ma
opzionali.
atto allocutivo (pattern pragmatico: campo, inciso, forza,appendice, ecc.)
interfaccia intonativa (pattern prosodico: prefix, inciso, root, suffix, ecc.)
enunciato (pattern informativo: topic, inciso, comment, appendice, ecc.)
Come è possibile capire, gli enunciati possono presentare una articolazione informativa
piuttosto complessa; essa, in ogni caso, è sistematicamente segnalata dall’intonazione.
Sulla descrizione di tale rapporto non possiamo soffermarci e rimandiamo ai diversi
lavori sull’argomento di cui alcuni presenti anche in questi atti e, più in generale, a
Cresti (2000) e a Firenzuoli (2003).
Vorremmo solo concludere ricordando che il pattern informativo è letto in maniera
tendenzialmente isomorfa da un pattern intonativo, composto da unità tonali di
tipologia diversa, di cui una sola (root) è necessaria e sufficiente ad assolvere alla buona
formazione del pattern tonale e che è dedicata alla realizzazione del comment. Altre
12
unità tonali opzionali come, per esempio, quella di tipo prefix, è dedicata alla lettura di
unità informativa di topic, quella di suffix, a unità informativa di appendice, quella di
inciso, alla lettura di inciso, quella di introduttore, alla lettura degli introduttori locutivi.
Sono in corso lavori sperimentali sulle altre unità tonali dedicate alle diverse unità
d’informazione.
Riportiamo nel paragrafo successivo il repertorio delle unità d’informazione, con i loro
nomi e la sigla normalmente usata per etichettarli, con la frequenza ricavata da indagini
– là dove ne siamo in possesso, su campionamenti di parlato tra gli 8000 e i 10000
enunciati – e con una breve descrizione della loro funzione e delle caratteristiche modali
rilevanti e dalle principali regole distributive e caratteri intonativi a nostra disposizione.
3.1 Unità d’informazione primarie
Comment: COM (100%)
Funzione: compie la forza illocutiva dell’atto, la sua modalità è determinata
dall’illocuzione;
Distribuzione: è necessario per la realizzazione (illocutiva) dell’atto;
Intonazione: a) viene intonato con una unità tonale di tipo root;
b) esistono molte forme intonative specifiche dedicate al compimento
di diverse illocuzioni ( per il momento ne sono state indivuate una trentina)11
*VAL: anche perché / non lo sapevo ancora // (spiegazione) (Nomine in ruolo)
*LUC: poi / li puoi anche scaldare // (Minestra di pane) (suggerimento)
*SMN: con chi esci ? (Macellaio) (domanda di cortesia)
*MAX: ferma // (Scuola guida) (ordine)
*EST: palestra ? (Estetista) (sollecito)
*ALB: meno cotta ? (Alimentari) (richiesta di precisazione)
Topic: TOP (20%)
Funzione: esprime il campo di applicazione della forza del comment, distanziando
l’enunciato dal riferimento contestuale, ha una propria modalità;
Distribuzione: a) precede l’unità di comment;
b) è iterabile;
Intonazione: a) viene intonato con una unità tonale di tipo prefix;
b) esistono almeno tre forme intonative dedicate
*SAB: però / se ti viene uno davanti alto / non vedi nulla // (Concerto) (Topic /
Comment)
*DAN : la fodera / gliela forniscono ? (Pellettiere) (Topic / Comment)
*GUG: la Marretti / chi l’ è ? (Affidamento) (Topic / Comment)
*KAT: magari / crude / riempian di più // (Zucchine) (Topic / Comment)
*LUC: a vedella / insomma / ti fa effetto //(Famiglia) (Topic / Comment)
11
Si veda Cresti & Firenzuoli (2000); Cresti (2000); Firenzuoli (2003).
13
*ANG : stasera / l’ho regolato com’era // (Mixer) (Topic / Comment)
Appendice: APP12 (11%)
Funzione: integra testualmente la locuzione dell’unità di Topic o di Comment, eredita
la modalità dell’unità integrata;
Distribuzione: a) segue l’unità di Topic o di Comment di cui è integrazione;
b) è iterabile (C;
Intonazione: viene intonato con una unità di tipo suffix
*TAM: ce l’ ho io / la ricetta // (Festa Simone) (Comment / Appendice)
*ALM : ma ero dispettosa / dispettosa //(Alma) (Comment / Appendice)
*CAR : invece manca Schwarz / manca // (Stadio) (Comment / Appendice)
*SAN : e qui indicate il vostro codice contribuente / che è lo stesso //(Esattoria)
(Comment / Appendice)
*TIZ : sì sì sì / dell’anno scorso // (Veglia) (Comment / Appendice)
3. 2 Le unità a carattere dialogico
Incipit: ICP
Funzione: sancisce la presa di turno o la conferma nel corso dello svolgimento del
turno stesso;
Distribuzione: a) apre il turno e l’enunciato;
b) è iterabile.
*MAR: allora / il cognome tuo è ? (Espresso) (Incipit – Comment)
*VAL: quindi / loro dovevano stare [///] devono seguire / le fasce / e fare l’
attribuzione // (Nomine in ruolo) (incipit – comment1 – comment2)
Allocutivo: ALL
Funzione: richiama direttamente l’interlocutore per assicurare la sua attenzione
all’enunciato;
Distribuzione: a) ha distribuzione libera;
b) non è iterabile.
*TAM: Veronica / sai icché pensavo ? (Festa Simone) (Allocutivo – Comment)
*LAK: c’ hai un bicchiere/ Giacomo ?(Poker) (Comment – Allocutivo)
12
Nel lavoro di etichettamento delle unità d’informazione nei corpora parlati sono state usate le sigle
APT e APC per indicare rispettivamente appendice di Topic e di Comment.
14
Fatico: FAT
Funzione: sollecita percettivamente l’interlocutore per assicurare l’apertura del
canale di comunicazione;
Distribuzione: a) ha distribuzione libera;
b) è iterabile.
*GIA: loro / con tutti provano / capito // (Cuba) (Topic – Comment – Fatico)
*SIM: senti / &do [/] indo’ ? (Appuntamento pomeridiano) (Fatico – Comment)
Conativo: CON
Funzione: sollecita o rafforza una richiesta di comportamento dell’interlocutore in
relazione alla locuzione dell’enunciato;
Distribuzione: a) occorre in posizione iniziale o finale del pattern informativo;
b) è iterabile.
*MAU : dammi duemilacinquecinquanta / vai // (Alimentari) (Comment – Conativo)
*MT1 : dai / stasera / scusa / se vai via presto / non si può parlare // (XXXX)
(Donativo – Topic – Fatico – Topic – Comment)
3.3 Unità d’informazione con funzione metalinguistica
Inciso: INX (8%)
Funzione: costituisce un inserto metalinguistico entro l’enunciato, rispetto al quale
esprime una modalità di scarto;
Distribuzione: a) non occorre in inizio di enunciato;
b) può essere inserito all’interno di un comment, di un topic o di una
appendice;
c) può contenere a sua volta un altro inciso;
d) è iterabile;
Intonazione: l’unità di inciso è intonato da un’unità di tipo parentetico
*PRE: mi pare che / l’architetto Pastelli / abbia posto l’accento / giustamente /
sull’esigenza di omogeneizzazione / che è la sua ipotesi attuale del servizio // (Riunione
direttiva) (Topic / Comment interrotto / Inciso / Comment / Appendice )
*PRE: e poi giustamente / e probabilmente ne aveva i sui motivi / ha lasciato il
campo // (Riunione direttiva) (Comment interrotto / Inciso / Comment)
*TIZ: guardare i bambini / &he / impegnan parecchio / io dico la verità // (Tiziana)
(Topic / Comment / Inciso)*PM1 : quini lei / sicuramente / può dire quello che vuole //
(Pubblico ministero) (Topic / Inciso / Comment)
15
Introduttore locutivo: ILO (4%)
Funzione: segnala un comment metalinguistico (discorso riportato, esemplificazioni,
elencazione, istruzioni verbali, ecc.), ha una propria modalità;
Distribuzione: a) precede immediatamente il comment metalinguistica;
b) non è iterabile;
Intonazione: viene intonato con una unità di tipo introduttivo
*MRA: ma poi gli ho detto / ma di chi è stata /’ della professoressa ?” (Marito e
moglie) (Introduttore locutivo / Discorso riportato)
*SAS: mi fa / che sei qui /’ a i’ seminario di’ Moneglia ?” (Ricevimento)
(Introduttore locutivo / Discorso riportato)
*TIZ: della serie / i giovani briachi / il sabato sera / a picchiarsi in piazza
Indipendenza // (Sbornia) (Introduttore locutivo / esempio )
*SAN: la gli dice /m’hanno detto in esattoria /’ MB è una ditta individuale //”
(Esattoria) (Introduttore locutivo / istruzione )
In conclusione, le unità di riferimento del parlato, superiori alla parola, sono due:
l’enunciato e l’unità d’informazione. L’enunciato può presentarsi in forma semplice,
composto da una sola unità d’informazione, il comment, oppure sotto forma di pattern
informativo composto dal comment e da varie unità d’informazione con funzioni
diverse. L’enunciato e le unità d’informazione che lo compongono (atto locutivo) hanno
definizione funzionale pragmatica (atto illocutivo) ed hanno un’interfaccia intonativa.
Più del 50% degli enunciati è articolato informativamente.
4. IL CRITERIO ILLOCUTIVO E LA SUA APPLICAZIONE A GRANDI CORPORA DI PARLATO
Sulla base di una ricerca ventennale, condotta sullo studio empirico di corpora di
parlato spontaneo e di esperimenti di laboratorio, abbiamo reso operativa l’ipotesi
teorica che esista un’equivalenza tra l’unità di riferimento della lingua parlata
(enunciato) e unità dell’attività umana (atto), e che essa sia segnalata dall’intonazione,
giungendo alla formulazione di quello che chiamiamo criterio illocutivo. Con esso
s’intende quel criterio che permette di mettere in relazione:
- da una parte il riconoscimento immediato prosodico, su base percettiva, degli
enunciati all’interno del continuum fonico13;
- dall’altra il riconoscimento contemporaneo dei caratteri pragmatici, socio-culturali
e cognitivi che l’enunciato attua e che ci permettono di apprezzarne la forza illocutiva.
Se una sequenza parlata non è ben formata intonativamente e non presenta la
caratteristica di essere intonata da un pattern codificato di una certa lingua, essa non
viene riconosciuta come enunciato; del resto, se essa viene attuata con comportamenti e
in contesti aberranti non viene riconosciuta come l’appropriato compimento di un atto
13
Il semplice ascolto della produzione parlata ci mette in grado di individuare quale sequenza di parole
costituisca un’entità a sé per caratteri prosodici (pattern tonale) e, quindi, di identificare il suo
corrispettivo locutivo.
16
linguistico convenzionale. Esistono lavori sperimentali in entrambi i settori, per quanto
riguarda l’intonazione, come abbiamo già detto, ma anche per quanto riguarda gli
aspetti pragmatici e la formulazione di un repertorio delle azioni linguistiche
convenzionali (illocuzioni). Diversamente dalle tassonomie finora proposte esso non è
fondato su caratteri del lessico o della modalità, spesso assimilata all’illocuzione, ma su
contenuti affettivi e conformato secondo tratti pragmatici di vario tipo, convenzionali.
Anche per queste ricerche rimandiamo alla bibliografia.
Vogliamo segnalare, invece, che l’ipotesi e il criterio illocutivo scaturitone sono stati
applicati sistematicamente a grandi corpora di lingua spontanea sia italiani (corpora
LABLITA) che romanzi (Progetto UE C-ORAL-ROM) e che, sulla base di esso è stata
condotta la trascrizione digitalizzata dei testi, che riportano sempre la scansione
maggiore (quella di tipo terminale e che individua gli enunciati) e in larga parte anche la
scansione interna all’enunciato, che ne segnala l’articolazione informativa. In questi
corpora sono rintracciabili direttamente nel livello della trascrizione del testo, e non in
quello della sua notazione prosodica, le unità di riferimento (enunciati e unità di
informazione).
È stato sviluppato, poi, un programma informatico di sincronizzazione di ogni enunciato
alla propria controparte sonora ed ai suoi parametri acustici (spettro, f0, durata,
intensità), con la formazione di basi di dati degli enunciati, intesi come file di
allineamento testo/suono/ parametri acustici.
Sulla base del criterio illocutivo, dunque, è stato possibile archiviare grandi basi di dati
delle unità di riferimento del parlato. A partire da esse sono state condotte già molte
ricerche di tipo morfosintattico, lessicale e semantico.
Seguono le tavole che in maniera sintetica espongono il contenuto dei corpora di
LABLITA e solo un accenno al corpus romanzo C-ORAL-ROM, al quale è dedicato un
intero contributo presente in questi atti14.
4.1 Corpora di LABLITA15
I Corpora di LABLITA di parlato italiano (dati aggiornati al 30/04/2003)
Corpus di laboratorio (1973-2003) (220 sessioni) – 104 ore di registrazione
48 ore di trascrizioni in formato CHAT con annotazione prosodica (confini maggiori
e minori)
390.441 parole
53.658 enunciati
Sonoro interamente digitalizzato
Corpus Stammerjohann – (1965) 48 ore di registrazione
3 ore di trascrizioni in formato CHAT con annotazione prosodica (confini maggiori e
minori)
27.036 parole
3.918 enunciati
(è prevista per la fine di giugno la trascrizione di circa 100.000 parole e circa 14.000
enunciati)
14
Per una descrizione dettagliata del corpus C-ORAL-ROM, si veda il contributo di Moneglia (in questo
volume). Si vedano, inoltre: Cresti et alii (2002); Cresti & Moneglia (2002); Cresti & Moneglia (in corso
di stampa).
15
<http://lablita.dit.unifi.it>.
17
Sonoro interamente digitalizzato
Parlato radio-televisivo (37 sessioni) – 24 ore di registrazione
11 ore di trascrizioni in formato CHAT con annotazione prosodica (confini maggiori
e minori)
91.860 parole
9.486 enunciati
Sonoro interamente digitalizzato
Corpus telefonico (69 sessioni) - 3 ore di registrazione
3 ore di trascrizioni in formato CHAT con annotazione prosodica (confini maggiori e
minori)
26.017 parole
4.267 enunciati
Dialoghi spontanei – 1 ora e 40 minuti di registrazione
1 ora e 40 minuti di trascrizioni in formato CHAT con annotazione prosodica
(confini maggiori e minori)
15.866 parole
2.622 enunciati
Dialoghi uomo-macchina – 1 ora e 20 minuti di registrazione
1ora e 20 minuti di trascrizioni in formato CHAT con annotazione prosodica (confini
maggiori e minori)
10.151 parole
1645 enunciati
Parlato cinematografico (12 film)
a) Corpus Rossi – 6 film (1948 – 1957)
9 ore e 36 minuti di sonoro
68.000 parole (trascrizione integrale in formato CHAT semplificato)
b) Corpus Cresti – 6 film (1947-1994)
8ore e 33 minuti di sonoro
49.000 parole (trascrizione parziale in formato CHAT)
Parlato della prima acquisizione (dialoghi adulto-bambino 12-36 mesi)
a) Corpus di Ferrara – 20 raccolte longitudinali in un asilo nido (181 sessioni)
52 ore circa
181 protocolli (trascrizione in formato CHAT semplificato)
b) Corpus di Firenze – 10 raccolte longitudinali in famiglia (102 sessioni)
33 ore circa
102 protocolli (trascrizione in formato CHAT semplificato)
Sonoro parzialmente digitalizzato.
4.2 Il Corpus romanzo C-ORAL-ROM IST 2000-2622816
C-ORAL-ROM Corpus – Integrated reference corpora for spoken romance
languages
16
<http://lablita.dit.unifi.it>.
18
Corpora comparabili di parlato spontaneo per italiano, francese, spagnolo e
portoghese (distribuito da ELDA)
Circa 30/35 ore di registrazione per lingua
Almeno 300.000 parola per lingua
Circa 40.000 enunciati per lingua
Corpus italiano
36 ore di registrazione e trascrizione
308.815 parole
37.235 enunciati
Providers nazionali:
• UFIR.DIT (LABLITA) Università di Firenze
• FUL.CLUL Lisboa Universitade
• LLI UAM Universidad Autónoma de Madrid
• UPRO Université de Provence
Quello che in ogni caso ci interessa sottolineare è che l’ipotesi della corrispondenza
intonazione-articolazione informativa e della sua apprezzabilità percettiva sembra
ampiamente convalidata dalla pratica di trascrizione che ne è stata fatta ormai da molti
anni e dai più disparati trascrittori – e sia detto, nella maggior parte dei casi non esperti:
studenti universitari di primo anno, insegnanti che frequentano corsi di specializzazione
per l’insegnamento, ma del tutto digiuni di formazione linguistica. Ma quello che
appare più rilevante è “l’esportazione” del criterio illocutivo a parlanti lingue diverse
dall’italiano, che hanno mostrato di essere pienamente in grado di applicarlo a lingue
che, pur presentando proprie specificità intonative, hanno potuto essere analizzate
sistematicamente secondo gli stessi principi. La nostra proposta, in realtà, ha una forte
corrispondenza con quella prassi che tutti noi mettiamo in atto quotidianamente, quando
ascoltiamo e interpretiamo quello che ci viene detto. Non ci dobbiamo sorprendere,
quindi, se un qualsiasi parlante a seguito di qualche istruzione e un breve
addestramento, se è in grado di trascrivere il parlato, lo è anche di segnalarne i confini
prosodici, indicanti il compimento di enunciato e le principali unità d’informazione da
cui esso è scandito. Abbiamo già effettuato un test di controllo sulla consistenza dei
criteri di assegnazione della scansione tonale (più brani parlati, sempre gli stessi, fatti
scandire da trascrittori diversi in maniera indipendente); il test è stato condotto
all’interno di ciascuna delle équipes nazionali partecipanti al Progetto europeo. Il livello
dell’accordo è risultato molto alto e nel caso di italiano, spagnolo e portoghese si attesta
su l’84%17.
5. LA LINGUISTICA DEI CORPORA ORALI (CORPUS BASED LINGUISTICS)
Ci si può chiedere, tuttavia, che ricadute possa avere il fatto che grandi corpora siano
archiviati con allineamento testo/suono/parametri acustici, ma soprattutto che grandi
corpora siano organizzati come base dati delle proprie unità di riferimento (enunciati).
Esiste un vantaggio evidente ed immediato, quello di poter studiare ed analizzare non
più solamente un testo trascritto, muto, la pianta scritta, appunto, del dato orale, ma il
dato abbinato di testo e suono e, ancor più, di poterlo confrontare con la sua
17
Sono in corso validazioni più generali sull’intero corpus romanzo.
19
contropartita acustica (f0, spettro, intensità, durata) e procedere in verifiche strumentali,
che confermino o correggano le ipotesi fatte solo su base percettiva. Anche perché,
come abbiamo mostrato, questo è l’unico modo di poter identificare le unità di
riferimento superiori alla parola, che hanno una sistematica contropartita intonativa. Al
di là di questo, che tuttavia si propone come il nuovo dominio dell’oralità, il fatto di
avere un corpus “misurato” rispetto al numero dei suoi enunciati, ovvero rispetto a
quella che propriamente è la sua organizzazione testuale, costituisce una specie di base
necessaria per gli studi linguistici “corpus based” e ogni tipo di misurazione e statistica
prende l’avvio da essa.
Le misure dei corpora finora impiegate come unità di riferimento per i dati statistici
sono state:
- numero di parole, per ora l’unica universalmente riconosciuta;
- durata temporale, che però è molto poco significativa, in particolare nel campo del
parlato spontaneo e soprattutto nelle registrazioni di ambiente, perché possiamo trovare
silenzi interminabili, velocità di eloquio diversissime, ecc.
Ma è chiaro a tutti i ricercatori che si sono cimentati con la lingua parlata e che
intendono sviluppare una linguistica dei corpora che non sia solo studio del lessico18,
che i valori di frequenza di un certo fenomeno morfosintattico e la sua rilevanza, se ha
poco senso valutarli rispetto al tempo (per esempio, quante relative al minuto), non ne
ha neppure molto valutarli rispetto al numero di parole, perché una frase relativa o un
qualsiasi fenomeno morfosintattico, che può avere estensione in numero di parole la più
varia, non può essere misurato rispetto al totale delle parole di un corpus. Non è, infatti,
il numero di parole la caratteristica che identifica il costrutto, esso è valido come
un’entità, e come tale, quindi, deve essere rapportato ad un’unità di riferimento congrua.
La mancanza proprio di tale unità non è un problema di poco conto e la difficoltà teorica
è così rilevante che anche la Longman grammar, che si propone per il momento come la
trattazione più completa ed avanzata di linguistica dei corpora, denuncia in ogni caso un
impasse. Infatti, gli autori indicano l’utterance come unità di riferimento del parlato e
ne danno anche una definizione in termini di speech act, ma mancando di un criterio di
identificazione della stessa all’interno del loro corpus, come invece noi facciamo con il
criterio illocutivo, non possono farvi ricorso per nessuna misurazione. Sono costretti, da
un certo punto di vista, a ricercare anche un’unità sintattica di riferimento, che
propongono sia quella che essi chiamano C-unit, nella quale sono comprese sia clausole
che non clausole, sulla base di quella verifica empirica che mostra che un 38% della
produzione parlata non ha struttura di SV. Ma come tutti possono capire, qualsiasi entità
che nella propria definizione includa se stessa ed il proprio contrario è un’entità
teoricamente vacua. Tanto è vero che la C-unit non è presa a riferimento nella
presentazione dei loro risultati di frequenza, che continuano ad essere proposti in
relazione al numero delle parole. Nella Grammatica, quindi, è possibile visionare
attraverso un efficace sistema di rappresentazione grafica “l’addensamento” di un
fenomeno rispetto ad uno “sfondo”, misurato in migliaia o milioni di parole, e la diversa
distribuzione di esso nei vari domini linguistici (lingua scritta accademica, di finzione,
giornali, parlato conversazionale). Ma mancano dati che esplicitino quale sia il reale
rilievo di un certo costrutto all’interno del corpus in relazione ad un’entità congrua; per
18
Si veda, per una posizione diversa, Rossigni Favretti (2000).
20
esempio, della frase scissa rispetto…forse al numero di frasi – non definibili e non
rilevanti – nel corpus di riferimento? O alle C-unit che sintatticamente possono
comprendere sia interiezioni come gruppi nominali come avverbi o qualsiasi tipo di
sintagma?
Evidentemente la nostra soluzione è che tale conto sia fatto rispetto al numero degli
enunciati, che in maniera uniforme permettono di analizzare un qualsiasi testo parlato:
la frase scissa, per esempio, viene per prima cosa identificata all’interno di un
enunciato, poi ne vengono contate tutte le occorrenze e queste rapportate al numero
degli enunciati, permettendo una misurazione di frequenza che ha un parametro di
riferimento.
Per quanto riguarda il punto a) possiamo citare, per esempio, alcuni riscontri relativi a
quelli che da sempre sono stati indicati come i principali fenomeni sintattici del parlato
e che sono stati considerati “tipici” di esso. Intendiamo, per prima cosa, ciò che
complessivamente può essere chiamato “sintassi segmentata” e, secondariamente, ciò
che è stato indicato come relativizzazione non-standard.
Esistono dei dati, rispetto al primo punto, secondo i quali se noi misuriamo i fenomeni
di sintassi segmentata (dislocate a sinistra, dislocate a destra, anacoluti, temi sospesi,
scisse, pseudo-scisse), identificati ciascuno in rapporto ad un enunciato, e li rapportiamo
al totale degli enunciati, essi non superano, e si badi, nel loro complesso quel 5% che
può essere considerato una soglia di rilievo per un qualsiasi dato. Le dislocate a sinistra
e a destra, che sono le più frequenti, su un corpus di 9283 enunciati assommano a 265,
rispettivamente 147 e 118, quindi costituiscono meno del 3% degli enunciati. Inoltre,
come è stato mostrato in maniera dettagliata da vari lavori e in particolare da Scarano19,
la gran parte dei costrutti segmentati sono riconducibili a forme di
grammaticalizzazione (espressioni temporali, doppia marcatura di pronome, ecc.) che
non possono essere considerati veri fenomeni di sintassi. Pur mancando di un dato
esteso di confronto, da alcuni sondaggi, poi, sembrerebbe che la dislocazione a sinistra,
la scissione e la pseudoscissione siano fenomeni percentualmente più frequenti nello
scritto.
-5% sintassi segmentata
Delle relative non-standard, che probabilmente, invece, non hanno larga diffusione nello
scritto, anche se in autori come Pavese o Pasolini sono certamente presenti, possiamo in
ogni caso segnalare la loro esiguità20. La ricerca sull’argomento, che è stata condotta su
corpora molto estesi e variati di parlato; in particolare, tramite il campionamento di
LABLITA, rispetto al quale è possibile misurare con precisione il numero di enunciati,
permette di evidenziare che la percentuale delle relative non-standard è solo del 0,1%
sul totale degli enunciati
da 0,1 a 1% relative non-standard
Quindi, alcune “strutture” che sono state tramandate dalla letteratura come
caratterizzanti il parlato, nel momento che possano essere misurate rispetto ad unità di
riferimento (enunciato), rivelano la loro marginalità.
19
20
Si veda Rossi (1999a); Rossi (1999b); Scarano & Giani (in corso di stampa); Scarano (2003a).
Si veda Aureli (in questo volume).
21
Sono altri i fenomeni che probabilmente appaiono più significativi per la strutturazione
del parlato, ci riferiamo ad un insieme di casi che può essere indicato come “enunciati
pseudo-retti”, ovvero enunciati (autonomi per la loro interpretabilità pragmatica) che
però iniziano con congiunzioni normalmente considerate nello scritto come coordinanti
o subordinanti. Esse presupporrebero la presenza di configurazioni complesse
(principali o reggenti) che in realtà non esistono (e a nostro avviso non sono ricostruibili
tramite ipotesi di ellissi fantastiche). Parallelamente agli enunciati pseudo-retti troviamo
poi gli enunciati “falsamente sospesi”, come nel caso delle protasi mai concluse da
un’apodosi21. In realtà, quasi mai in essi c’è qualcosa di non concluso, perché
l’intonazione di tali enunciati permette di identificare il compimento di illocuzioni come
l’espressione di ovvietà, o la protesta, o l’invito, che quindi assicurano il compimento
dell’enunciato stesso22.
Altrettanto rilevanti sono risultati in positivo ricavabili dalle ricerche sistematiche
condotte ancora da Scarano su vari settori del parlato, di cui citiamo solo quello sulle
funzioni e distribuzioni degli aggettivi qualificativi. Veniamo a conoscenza così di dati,
mai noti prima, ricavati dallo spoglio di ampi corpora scritti e parlati, sulla diversa
frequenza della funzione attributiva entro SN e predicativa entro SV, rispettivamente
all’incirca del 75% vs 25%. Ma, soprattutto, nel parlato scopriamo l’esistenza di
aggettivi qualificativi che non sono modificatori né di nomi né di verbi, ma hanno
autonomia di funzione informativa, quando addirittura non costituiscano enunciato a sé.
Si badi che l’uso di aggettivi con valore funzionale autonomo copre ben l’11% delle
occorrenze degli stessi, dimostrandosi quindi fenomeno tipico del parlato23. Sulla
caratteristica non verbale del 38% degli enunciati, sempre indagata da Scarano, abbiamo
già detto e rimandiamo al lavoro in questo volume.
Un dato interessante emerge anche dal lavoro sulla distribuzione della persona verbale e
della sua valutazione in relazione agli enunciati e alle diverse unità d’informazione, per
cui l’apparente riduzione della persona verbale alla terza singolare, in teoria assimilabile
alla riduzione di modi e tempi verbali nel parlato, nel momento che venga valutata in
maniera disaggregata, in connessione al compimento illocutivo e delle funzioni
informative, rivela una precisa conservazione delle diverse forme personali24.
Per il punto b), quello che risulta assolutamente evidente è, al di là del fatto che ogni
enunciato è caratterizzato illocutivamente e che la varietà delle azioni illocutive
compiute interessa ogni tipo di testo, la sistematicità dell’articolazione informativa e
dell’organizzazione degli enunciati sulla base di tale strutturazione. Come è possibile
vedere dalle frequenze già anticipate per le diverse unità di informazione, derivate da
una serie di studi sistematici condotti in LABLITA, questa è una caratteristica pervasiva
del parlato e più del 50% degli enunciati ne usufruisce per la sua organizzazione25. E se
possiamo constatare una più accentuata e frequente variazione illocutiva (maggior
numero di enunciati brevi e diverse tipologie illocutive messe in atto) nel parlato
“informale”, l’articolazione dell’informazione diventa dominante in tipologie di testo
21
Si veda Lombardi Vallauri (in questo volume).
Per la descrizione delle diverse illocuzioni e dei loro corrispettivi intonativi si veda Firenzuoli (2003);
Firenzuoli (in questo volume).
23
Si veda Scarano (1999); Scarano (in questo volume).
24
Si veda Cresti (in corso di stampa[b]).
25
Non possiamo anticipare un dato statistico preciso, perché a quelli da noi già posseduti sulle principali
unità d’informazione deve essere aggiunto il calcolo della frequenza di tutte le unità di valore dialogico
(incipit, fatico, allocutivo, conativo), che sono molto usate e a volte ripetute in uno stesso enunciato, ma
sulle quali sono ancora in corso lavori di ricerca.
22
22
più formale e a qualche titolo “programmato”. È vero che in essi cresce anche la
strutturazione sintattica, ma in maniera non paragonabile al rilievo supportato
dall’articolazione informativa.
+ 50% degli enunciati caratterizzati da articolazione informativa
Se mettiamo insieme i dati riportati nei punti a) e b) e li sommiamo a quelle ricerche
che ormai ci hanno mostrato in modo inconfutabile la “semplificazione” della struttura
sintattica (quasi assenza della coordinazione, riduzione dei gradi e delle tipologie di
subordinazione, scarso riempimento lessicale della reggenza sia verbale che nominale)
ci rendiamo conto che il quadro di riferimento degli studi sintattici, nel momento che
vogliano occuparsi del parlato, non può rimanere invariato, a meno di non volersi
arrendere a quella fotografia piatta dei dati di cui abbiamo accennato all’inizio.
Nell’ottica di un rinnovamento della ricerca sul parlato già ormai dagli anni ‘90 è stato
ripreso un concetto di macrosintassi26, che ha portato a nuove prospettive. Anche se con
angolature diverse, la prospettiva è stata sviluppata in Europa da vari studiosi e gruppi
di ricerca che si interessano sia di lingua orale che scritta. Pensiamo, prima fra tutti, a
Claire Blanche-Benveniste ed al suo gruppo del GARS (Aix-en-Provence), ma anche a
studiosi come Berrendonner, Beguelin, Ferrari, delle Università svizzere di Ginevra e
Neuchatel, e alla romanistica danese con Andersen e Nolke27. Un dato che accomuna
queste ricerche è uno studio corpus based e nella maggior parte dei casi aperto al
parlato; ma probabilmente è proprio da una ricerca empirica, condotta su corpora orali,
che deriva anche l’unanime riconoscimento del ruolo insostituibile dell’intonazione
nella determinazione delle entità linguistiche oggetto di studio. Da tale identificazione
emerge a sua volta che tali entità non possono essere spiegate secondo i tradizionali
parametri della costituenza sintattica. Le soluzioni, come si diceva, sono in parte
diverse, ma comune è il riconoscimento di un livello linguistico fino ad ora non
identificato e l’ipotesi dell’esistenza di tipologie di relazione “macrosintattica”, ovvero
di relazioni oltre la reggenza.
Ed è in questa direzione che vengono svolte anche in LABLITA ricerche di tipo
morfosintattico, che nell’interpretazione dei fenomeni non prescindono mai dai
raggruppamenti segnalati dall’intonazione e caratterizzati dallo svolgimento di funzioni
informative. Non è compito di questo contributo scendere nella trattazione di tale
argomento, ma quello che in parte abbiamo già indicato28 mostra che esistono relazioni
tra le espressioni linguistiche che non possono essere ridotte al solo criterio della
gerarchia sintattica e ultimamente della reggenza (microsintassi). Uno degli aspetti
principali delle relazioni macrosintattiche è legato alla modalità, sulla base
dell’assunzione che ogni espressione attuata ha modalità, ovvero esprime
l’atteggiamento del parlante sul contenuto locutivo messo in atto. Da questo discende
una differenza fondamentale con la sintassi linearizzata o di competenza: molto
semplicemente, mentre ogni configurazione sintattica è dominata da una stessa
26
Il concetto e il termine di macrosintassi era stato proposto da Weinrich nei suoi seminari a Kiel agli
inizi degli anni ‘60, portando a ricerche e pubblicazioni nel campo della linguistica tedesca. Ma di fatto
l’impostazione era stata abbandonata e la ripresa si deve in primis a C. Blanche-Benveniste e, in genere,
ad una linguistica francofona.
27
Si vedano le pubblicazioni che raccolgono i contributi di due recenti Convegni internazionali sulla
macrosintassi: Andersen & Nolke (2001); Scarano (2003b).
28
Si veda Cresti (2000) , in particolare il capitolo VIII; Cresti (2003).
23
modalità, l’enunciato attraverso la sua composizione in unità funzionalmente attivate è
la risultante di modalità diverse. Nella definizione delle unità d’informazione abbiamo
indicato le diverse caratteristiche di modalità di ciascuna di esse29. Questa, per esempio,
è una delle ragioni per cui considerare come se fossero linearizzate e, quindi, strutturate
secondo una gerarchia sintattica, espressioni che invece sono state prodotte in maniera
funzionalmente distinta e, quindi, anche con caratteri precipui di modalità, vuol dire
azzerare la loro specificità semantica.
Speriamo con queste brevi note di essere riusciti a evidenziare l’importanza di
procedere nella ricerca sul parlato a partire da unità di riferimento come l’enunciato e le
unità d’informazione, identificate tramite l’intonazione e caratterizzate dalla loro
illocuzione e articolazione informativa. Speriamo anche di aver indicato come esse si
candidino come quelle unità di riferimento, sulle quali si è svolto un così ampio
dibattito in anni recenti, e che appaiono necessarie per ricerche corpus based che
intendano proporre dati di frequenza per ogni tipo di fenomeno morfosintattico.
BIBLIOGRAFIA
Aureli, M. (in questo volume) Le relative non-standard in alcuni corpora di italiano parlato (LIR, LIP,
LABLITA, AVIP).
Austin, J. L. (1962) How to do things with words. Oxford: Oxford University Press.
Andersen, H. L. & Nolke, H. (éds.) (2001) Macro-syntaxe et macro-sémantique. Berne: Peter Lang.
Beguelin, M.-J. (2003) Variations entre macro- et micro-syntaxe; de quelques phenomenes de
grammaticalisation. In Macrosyntaxe et pragmatique: l’analyse de la langue orale (A. Scarano, éd.), pp.
111-131. Roma: Bulzoni.
Berrendonner, A. (2003) Eléments pour une macro-syntaxe. Action communicatives, types de clauses,
structures periodiques. In Macrosyntaxe et pragmatique: l’analyse de la langue orale (A. Scarano, éd.),
pp. 93-109. Roma: Bulzoni.
Biber, D., Johansson, S., Leceh, G., Conrad, S. & Finegan, E. (1999) The Longman grammar of spoken
and written English. London: Longman.
Blanche-Benveniste, C. (1997) The unit in written and oral language. In Writing development. An
interdisciplinary view (C. Pontecorvo, ed.), pp. 21-45. Amsterdam, Philadelphia: Benjamin Publishing
Company.
Blanche-Benveniste, C. (2003) Le recouvrement de la syntaxe et de la macro-syntaxe. In Macrosyntaxe et
pragmatique: l’analyse de la langue orale (A. Scarano, éd.), pp. 53-75. Roma: Bulzoni.
Cresti, E. (1987) L’articolazione dell’informazione nel parlato. In Gli Italiani parlati (AA.VV.), pp. 2790. Firenze: Accademia della Crusca.
Cresti, E. (1999) Force illocutoire, articulation topic-comment et contours prosodique en italien parlé,
Faits de langues, 13, 168-181.
Cresti, E. (a cura di) (2000) Corpus di italiano parlato, voll. I-II, CD-Rom. Firenze: Accademia della
Crusca.
Cresti, E. (2001) Per una nuova definizione di frase. In Studi di Storia della lingua italiana offerti a
Ghino Ghinassi (P. Bongrani, A. Dardi, M. Fanfani & R. Tesi, a cura di), pp. 511-550. Firenze: Le
Lettere.
Cresti, E. (2002a) Illocuzione e modalità. In La parola al testo. Scritti per Bice Mortara-Garavelli (P.
Beccarla & C. Marello, a cura di), pp. 133-145. Torino: Ed. Dell’Orso.
Cresti, E. (2002b) Alcune riflessioni sulla marcatezza e sul concetto di focus. In L’infinito & oltre.
Omaggio a Gunver Skytte (H. Jansen, P. Polito, L. Schlosser & E. Strudsholm, a cura di), pp. 107-129.
Odense: Odense University Press.
Cresti, E. (2003) Illocution et modalité dans le comment et le topic. In Macrosyntaxe et pragmatique:
l’analyse de la langue orale (A. Scarano, éd.), pp. 75-117. Roma: Bulzoni.
29
Si vedano, per la distinzione tra illocuzione e modalità, Cresti (2002a); Cresti (2003). Una
comunicazione sulla relazione tra modalità, illocuzione e funzioni informative è stata da me presentata
presso il centro di linguistica dell’Università di Lisbona (CLUL) il 4-V-2003. Ne è in preparazione la
versione scritta per un volume in onore di G. Nencioni.
24
Cresti, E. (in corso di stampa[a]) Per una nuova classificazione dell’illocuzione a partire da un corpus di
parlato (LABLITA). In Atti del VI Convegno internazionale SILFI, Duisburg giugno 2000 (E. Burr, a cura
di). Pisa: Cesati.
Cresti, E. (in corso di stampa[b]) La categoria della persona: analisi delle forme verbali di un campione di
parlato (LABLITA). In Atti del XXXV Congresso SLI, Parigi 20-22 settembre 2001 (M. GiacomoMarcellesi, a cura di). Roma: Bulzoni.
Cresti, E. & Firenzuoli, V. (1999) Illocution et profils intonatifs de l’italien, Revue française de
linguistique appliquèe, IV-2, 77-98.
Cresti, E., Martin, Ph. & Moneglia, M. (1999) L’intonazione delle illocuzioni naturali rappresentative:
analisi e validazione percettiva. In Atti delle VIII Giornate di Studio del GFS (R. Delmonte, a cura di), pp.
51-63.
Cresti, E. & Firenzuoli V. (2002) L’articolazione informativa topic-comment e comment-appendice:
correlati intonativi. In Atti delle XII Giornate di Studio del GFS, “La fonetica acustica come strumento di
analisi della variazione linguistica in Italia”, Macerata 13-15 dicembre 2001 (A. Regnicoli, a cura di),
pp. 153-160. Roma: Il Calamo.
Cresti, E., Moneglia, M., Bacelar do Nascimento, A., Moreno Sandoval, J. V., Martin, Ph., Cresti, E.,
Choukri, K. & Falavigna, D. (2002) The C-ORAL-ROM project. New methods for spoken language
archives in a multilingual romance corpus. In Proceedings LREC 2002, ELRA, Parigi, pp. 2-10.
Cresti, E. & Moneglia, M. (in corso di stampa) Il Progetto C-ORAL-ROM. In Atti del XXXIV Convegno
SLI, “Italia linguistica anno Mille - Italia linguistica anno Duemila”, Firenze 19-21 ottobre 2000 (N.
Maraschio, a cura di). Firenze: Accademia della Crusca.
Ferrari, A. (2003) Pour une analyse informationelle de l’écrit. In Macrosyntaxe et pragmatique: l’analyse
de la langue orale (A. Scarano, éd. ), pp. 147-173. Roma: Bulzoni.
Martin, Ph. & Moneglia, M. (2003) L’intonation des illocutions naturelles représentatives: analyse et
validation perceptive. In Macro-syntaxe et pragmatique. L’analyse linguistique de l’oral (A. Scarano,
éd.), pp. 243-263. Roma: Bulzoni.
Ferri, C. (in preparazione) Caratteristiche morfosintattiche, intonative e di frequenza dell’Appendice di
Comment in un Corpus di parlato italiano (LABLITA). Università degli studi di Firenze.
Firenzuoli, V. (2000) Ordine e istruzione-Espressione di incredulità e contrasto. Descrizione di profili
intonativi dal corpus di italiano parlato LABLITA. In Atti delle X Giornate di Studio del GFS, “Il
parlante e la sua lingua”, Napoli 13-15 dicembre 1999 (D. Locchi, a cura di), pp. 99-110.
Firenzuoli, V. (2003) Repertorio delle forme intonative di valore illocutivo dell’italiano. Analisi
sperimentale di un corpus di parlato spontaneo (corpus LABLITA). Tesi di dottorato (aprile 2003).
Firenze: Università degli studi di Firenze.
Firenzuoli, V. (in corso di stampa) Verso un nuovo approccio allo studio dell’intonazione a partire da
corpora di parlato: esempi di profili intonativi di valore illocutivo dell’italiano. In Atti del XXXIV
Congresso Internazionale di studi della SLI, “Italia Linguistica anno Mille - Italia Linguistica anno
Duemila”, Firenze 19-21 ottobre 2000 (N. Maraschio, a cura di). Firenze: Accademia della Crusca.
Firenzuoli, V. (in questo volume) La forma intonativa di valore illocutivo: un repertorio “corpus based”.
Firenzuoli, V. & Tucci, I. (2003) L’unità informativa di inciso: correlati intonativi. In Atti delle XIII
Giornate di Studio del GFS, Pisa 28-30 novembre 2002 (G. Marotta & N. Nocchi, a cura di), pp. 185-192.
Voghera, M. (1992) Sintassi e intonazione dell’italiano parlato. Bologna: Il Mulino.
Giani, D. (2003) Le discours direct rapporté dans l’italien parlé et écrit. In Macro-syntaxique et
pragmatique: l’analyse linguistique de l’orale (A. Scarano, éd.), pp. 203-212. Roma: Bulzoni.
Giani, D. (in corso di stampa) Il verbo dire nell’italiano parlato: articolazione informativa e sintassi. I Atti
del XXXV Congresso Internazionale SLI, Parigi 20-22 settembre 2001 (M. Giacomo-Marcellesi, a cura
di). Roma: Bulzoni.
Giani, D. (in preparazione) Il discorso riportato nell’italiano parlato e scritto. Tesi di dottorato. Firenze:
Università degli Studi di Firenze.
Giannelli, L. (1992) Sul valore comunicativo delle pause “vuote” nella narrazione e nel proverbio, nella
prospettiva funzionale della frase. In Storia e teoria dell’interpunzione (E. Cresti, L. Toschi & N.
Maraschio, a cura di), pp. 311-354. Roma: Bulzoni.
Gramigni, P. (2003) Le corpora de LABLITA. Une analyse comparative. In Macrosyntaxe et
pragmatique: l’analyse linguistique de l’orale (A. Scarano, éd.), pp. 229-258. Roma: Bulzoni.
‘t Hart, J., Collier, R. & Cohen, A. (1990) A perceptual study of intonation. Cambridge: Cambridge
University Press.
Hirst, D. & Di Cristo, A. (1998) Intonation System: a Survey of Twenty Languages. Cambridge:
Cambridge University Press.
25
<http://lablita.dit.unifi.it>.
Lombardi Vallauri, E. (in questo volume) “Pragmaticizzazione” dell’incompletezza semantica
nell’italiano parlato: le ipotetiche sospese.
MacWhinney, B. (1997) Il progetto CHILDES. Pisa: Ed. Del Cerro.
Miller, J. & Weinert, R. (1998) Spontaneous spoken Language: Syntax and Discourse. Oxford: Oxford
Clarendon Press.
Panunzi, A. (2002) La variazione primaria dei verbi generali ad alta frequenza. Dati quantitativi e
qualitativi nel campionamento del corpus di italiano parlato LABLITA. Tesi di Laurea. Firenze:
Università degli Studi di Firenze.
Panunzi, A. & Moneglia, M. (in questo volume) La variazione primaria del verbo nel lessico dei corpora
di parlato.
Quirk, R., Greenbaum, S., Leech, G. & Svartvik, J. (1985) A comprehensive grammar of the English
Language. London: Longman.
Rossi, F. (1999a) Le parole dello schermo. Roma: Bulzoni.
Rossi, F. (1999b) Non lo sai che ora è? Alcune considerazioni sull’intonazione e sul valore pragmatico
degli enunciati con dislocazione a destra, Studi di Grammatica italiana, XVIII, 145-193.
Rossi, F. (in corso di stampa) Tratti pragmatici e prosodici della dislocazione a destra nel parlato
spontaneo. In Atti del VII Conferenza SILFI, “Tradizione e innovazione”, Duisburg 28 giugno-1 luglio
2000 (E. Burr, a cura di). Pisa: Cesati.
Rossini Faretti, R. (a cura di) (2000) Linguistica informatica. Roma: Bulzoni.
Scarano, A. (1999) Aggettivi qualificativi in italiano parlato. Uno studio su corpora di italiano scritto e
parlato. Tesi di dottorato. Firenze: Università degli Studi di Firenze.
Scarano, A. (2002) Frasi relative e pseudo-relative in italiano: sintassi, semantica e articolazione
dell’informazione. Roma: Bulzoni.
Scarano, A. (2003a) Les constructions de syntaxe segmentée: syntaxe, macro-syntaxe et articulation de
l’information. In Macrosyntaxe et pragmatique: l’analyse linguistique de l’orale (A. Scarano, éd.), pp.
183-201. Roma: Bulzoni.
Scarano, A. (éd.) (2003b) Macrosyntaxe et pragmatique: l’analyse linguistique de l’orale. Roma:
Bulzoni.
Scarano, A. (in questo volume) Enunciati nominali in un corpus di parlato. Appunti per una grammatica
corpus based.
Scarano, A. & Giani, D. (in corso di stampa) Analisi di alcune strutture nella varietà scritta e parlata
dell’italiano contemporaneo. In Atti del XXXIV Congresso internazionale di studi della SLI, “Italia
linguistica anno Mille - Italia linguistica anno Duemila”, Firenze, 19-21 ottobre 2000 (N. Maraschio, a
cura di). Firenze: Accademia della Crusca.
Signorini, S. (in questo volume) Il Topic: criteri di identificazione e correlati morfo-sintattici in un corpus
di italiano parlato.
Signorini, S. & Firenzuoli, V. (2003) L’unità informativa di topic: correlati intonativi. In Atti delle XIII
Giornate di Studio del GFS, “La coarticolazione”, Pisa 28-30 novembre 2002 (G. Marotta & N. Nocchi,
a cura di), pp. 177-184.
Sornicola, R. (1981) Sul parlato. Bologna: Il Mulino.
Tucci, I. (in questo volume) L’inciso: caratteristiche morfosintattiche e intonative in un corpus di
riferimento.
26