per una linguistica corpus-based dell`italiano parlato
Transcript
per una linguistica corpus-based dell`italiano parlato
PER UNA LINGUISTICA CORPUS BASED DELL’ITALIANO PARLATO: LE UNITÀ DI RIFERIMENTO Emanuela Cresti - Paola Gramigni1 Lablita - Dipartimento di Italianistica - Firenze [email protected] SOMMARIO Il presente contributo intende inserirsi in un dibattito che ormai si sta sviluppando in Italia e che concerne tre punti affiorati nell’ambito degli studi linguistici e che sembrano convergere: - lo studio della lingua parlata e in particolare di quella spontanea; - la linguistica dei corpora orali; - l’impiego di strumenti informatici per l’archiviazione, lo studio sperimentale e il recupero di informazione linguistica ed in particolare di quella parlata. Non potrò soffermarmi su nessuno di questi in maniera ampia. Per quanto riguarda il primo punto mi pare che un Convegno come questo ed il successo di pubblico e di partecipazione scientifica che ha ottenuto, sia la migliore prova di come attuale sia la ricerca sul parlato in Italia; vorrei allora aggiungere solo un augurio a tale risultato, quello che, dischiusasi questa porta, essa venga veramente aperta. In altre parole, è ormai tempo di cimentarsi con il parlato “genuino”, ovvero quello che mettiamo in atto in maniera continua in tutta la nostra vita e per ogni tipo di occasione, quello faccia a faccia, quello in cui la programmazione è simultanea all’esecuzione o comunque non la determina, quello che è soggetto alla mutevolezza dei rapporti umani che sono imprevedibili e trascinano con loro anche le nostre risposte verbali. Per il secondo punto, gli strumenti di registrazione della voce (ma anche dell’immagine e dell’immagine in movimento) e, passando automaticamente al terzo punto, la capacità di archiviazione digitale della stessa, hanno cambiato completamente il quadro della ricerca nel settore e reso possibile uno studio su corpora, che in fondo è cominciato solo pochi anni fa e in ogni caso sembrava attuabile solo per la lingua scritta. La formazione di corpora – e propriamente possono essere definiti tali solo archivi digitali ampi, raccolti secondo criteri espliciti, organizzati secondo formati standard, consultabili, ecc. – ha fornito un dominio d’indagine che alla metà del secolo scorso, ma ancora per 20 o 30 anni successivi, non poteva nemmeno essere immaginata. In qualche modo tale presupposto negativo è stato la premessa di una linguistica innatista, tutta basata sulla 1 A E. Cresti si deve la concezione e stesura dell’articolo. P. Gramigni è autrice del paragrafo 4 e si devono a lei la ricerca ed identificazione degli esempi. competenza e refrattaria alla verifica sperimentale, che sembrava dovesse occupare tutto il campo della teoria linguistica. La linguistica dei corpora apre, dunque, anche prospettive teoriche nuove. Per il terzo punto, vorremmo notare che i settori effettivamente sviluppati con programmi informatici sono stati per il momento due: quello sul lessico, iniziato su corpora scritti e travasato poi su corpora di parlato (concordanze, lessici di frequenza, lessici specialistici, ecc.), che può contare ormai su strumenti di analisi automatica, e quello sugli aspetti fonetici (segmentali) della lingua parlata, connessi in particolare alle ricadute industriali (riconoscitori della voce e sintesi). È in uno stadio molto più iniziale, invece, l’analisi e la notazione degli aspetti intonativi e la loro archiviazione digitale, mentre ancora non esiste nessun programma di analisi automatica dei dati suprasegmentali. Evidentemente esistono ormai anche sistemi di etichettamento morfosintattico (semi-automatico in verità) e parser sintattici, ma per il momento di limitato funzionamento ed impiego. Ci auguriamo che anche per questi settori la ricerca avanzi e permetta di fondere conoscenze nuove, ricavate dallo studio teorico ed empirico, con strumenti informatici anch’essi nuovi e finalizzati non solo alla tecnologia e all’industria linguistica ma anche alla scienza del linguaggio. 1. GLI STUDI MORFO-SINTATTICI DEL PARLATO Nel quadro dei temi sopra delineati il nostro contributo s’inserisce presentando brevemente - i corpora orali , in massima parte di parlato spontaneo, raccolti presso LABLITA ; - alcuni dei risultati nel campo delle ricerche morfo-sintattiche su corpora orali, portati avanti dalla nostra équipe; Non ci soffermeremo, invece, sugli aspetti informatici, che pure sono stati necessari per fare le raccolte e le analisi e sui nuovi programmi che vengono sviluppati presso il Laboratorio. Il presente contributo è rivolto, però, soprattutto ad alcuni problemi fondazionali che da sempre caratterizzano lo studio del parlato; questo anche in relazione alla constatazione che mentre da un lato, molto positivamente, si stanno diffondendo studi che ormai prendono come proprio oggetto i dati dei corpora orali, dall’altro però non li analizzano con strumenti informatici, ma con i tradizionali metodi di indagine linguistica; ma soprattutto non sembrano tener pienamente conto della loro specificità orale e in particolare della loro caratterizzazione intonativa. Il settore è molto importante perché apre alla descrizione e allo studio un campo di indagine nuovo, anche se i prodromi della ricerca possono essere rintracciati già alla metà dell’800 e naturalmente sono stati sviluppati poi per tutto il ’900. Ma come abbiamo detto, in fondo fino a una diecina di anni fa mancava l’oggetto appropriato di indagine: ampi corpora rappresentativi dell’uso parlato, trascritti, ma anche sincronizzati al loro ascolto, o meglio ancora al loro segnale acustico e a tutti i suoi principali parametri. La maggior parte degli studi italiani, però, pur essendo impostata sulla base di esempi che in effetti sono ripresi da corpora parlati, e per ovvie ragioni trascritti, sono vagliati e considerati alla stregua di esempi scritti. La conseguenza è che la descrizione morfo-sintattica che ne deriva finisce per offrire un paradigma ridotto, una specie di caso impoverito o monco, rispetto a quello che deriva dalla descrizione 2 della lingua scritta o della lingua ideale di competenza. Tutte le motivazioni per le quali gli esempi concreti sono stati realizzati nella dinamica interattiva dello scambio verbale e il fatto che siano realizzati tramite segnale sonoro e, diciamo subito, con sequenza segmentale ma strutturata entro patterns prosodici, vengono perduti. Quello che viene preso in considerazione in questa maniera è una specie di calco piatto del dato, di “pianta scritta” del dato orale, che non è adeguata a rappresentare il parlato e che, d’altro canto, non è stata concepita per la scrittura. Certo è impossibile cogliere tutti gli aspetti della produzione parlata, ma lo stesso allora si potrebbe dire anche di quella scritta. Forse il problema sta nel fatto che regna ancora molta confusione circa l’identificazione di quali siano le caratteristiche specifiche e veramente rilevanti del parlato, perché forse basterebbe cogliere quelle e tenerne conto per avere un dato più rispondente al reale. Rispetto agli anni ‘80, da quando ho cominciato a proporre che la caratteristica principale del parlato era la sua valenza e la sua strutturazione pragmatica, termini come illocuzione, articolazione informativa, topic e comment sono divenuti molto più familiari e, direi, certo non per mio merito, ma per una consonanza di interessi che hanno avuto una discreta circolazione ed impiego nell’ambito della linguistica italiana. Quello che, però, non appare compreso ed assunto sono le implicazioni che essi trascinano, ovvero se si considera un livello come quello illocutivo e dell’articolazione dell’informazione, debitamente segnalati dall’intonazione, poi non è possibile condurre studi di morfo-sintassi che prescindano totalmente da tale struttura. Non è corretto continuare a valutare le espressioni parlate come se fossero “linearizzate”, prescindendo dalla marca intonativa che sistematicamente le scandisce e non considerando quei raggruppamenti necessari al compimento di funzioni informative, secondo le quali esse espressioni risultano organizzate. Il considerare come legati gruppi di parole che sono stati prodotti in maniera separata, per chiari confini prosodici, mette in ogni caso di fronte a sequenze non corrispondenti a quello che effettivamente è stato realizzato2, ma anche a strutture sintattiche incongrue o agrammaticali che sono solo il risultato di un’interpretazione forzata. A volte per cercare di darne giustificazione si procede ad operazioni di “ricostruzione” di una struttura sintattica che non c’è, ma che dovrebbe essere presente nella mente del parlante e che, per poter essere formulata, deve fare ricorso ad un tipo di ellissi particolare, che non solo giustifichi ciò che non c’è, ma soprattutto giustifichi quello che non è recuperabile a nessun titolo. Un’altra forma di soluzione del problema è quella che potremmo chiamare “lessicale”, che pratica la creazione di nuove parti del discorso o classi lessicali. In esse vengono catalogate singole parole in base alla loro funzione informativa – emblematica quella dei segnali discorsivi – e vengono radunate in questo modo espressioni disparate per caratteri semantici, morfologici, sintattici e distributivi, sulla base della congruenza dei quali si è finora definito classi come Verbo o Pronome o Congiunzione. Un’altra soluzione ancora è quella di aggiungere sottoclassi a classi già esistenti e, quindi, di gonfiare a dismisura, per esempio, una classe come quella delle interiezioni, nella cui sottoparte, chiamata “interiezione secondaria”, è possibile trovare un qualsiasi aggettivo qualificativo che abbia un certo uso illocutivo come brava o zitti o perfetto, ecc. Circolano poi gli avverbi esclamativi, tutta la serie dei pronomi interrogativi, gli avverbi cosiddetti olofrastici, ecc. 2 Una diversità rilevante, per esempio, riguarda lo scarto di modalità che spesso interessa gruppi di parole facenti capo a scansioni tonali distinte. Un breve accenno sull’argomento anche a fine del presente contributo. 3 Quindi, sintassi di strutture non rispondenti al dato e sintassi della ricostruzione fondata sull’ellissi, nuove classi lessicali costruite su criteri non coerenti, sottoclassi non motivate di classi esistenti sembrano tutte soluzioni ad hoc per rispondere alla evidenza offerta dai dati del parlato che esiste qualcosa che difficilmente può essere risolto con gli strumenti ed i livelli finora considerati nell’analisi linguistica. Uno studio del parlato, condotto sul riscontro empirico, in realtà non può prescindere dalla considerazione della strutturazione informativa dello stesso e della sua segnalazione intonativa, anche perché solo attraverso essa noi possiamo identificare quelle unità di riferimento superiori alla parola, secondo le quali il parlato si organizza. Ed è proprio attraverso l’identificazione di esse unità che passa la possibilità di condurre ricerche statistiche significative e, in prospettiva, anche con programmi informatici. Bisogna anticipare che tali unità non hanno definizione sintattica né possono essere risolte con una etichetta lessicale. Il che non vuol dire che non esista sintassi nella lingua parlata, ma vuol dire solo che essa “vige” all’interno di un dominio strutturato su base diversa, ovvero pragmatica con segnalazione intonativa. Procederemo, quindi, alla presentazione delle due principali unità di riferimento (superiori alla parola) della lingua parlata: l’enunciato e l’unità d’informazione. 2. L’ENUNCIATO La principale unità di riferimento della lingua parlata superiore alla parola (mot, fr.; word, in.)3 può essere indicata nell’enunciato (énoncé, fr.; utterance, in.)4 ed esiste un certo accordo nel riconoscere ad esso una generica valenza di unità “tipica” dell’organizzazione testuale parlata. Ma nella letteratura circolano definizioni diverse del concetto, le più importanti tra le quali sono: 1) definizione dialogica; 2) definizione temporale; 3) definizione sintattica; 4) definizione pragmatica. 2.1 Definizione dialogica La definizione dialogica, che è forse tra le più “antiche”, indica come unità “naturale” della lingua parlata la battuta o turno dialogico del parlante e lo identifica in maniera, potremmo dire, immediata con il cambio di voce, ovvero con il passaggio da silenzio di un parlante al successivo silenzio dello stesso. battuta o turno dialogico (da silenzio a silenzio del parlante) *MAR: sì // *MAX: vai // *MAX: qui giri subito / eh // subito la freccia // metti la &frez [///] la seconda // subito // eh // # messo ? *MAR: <sì sì> // *MAX: [<] <xxx la &sec> + piano // *MAR: qui ? (Scuola guida) 3 4 Per una approfondita discussione del concetto, si veda Blanche-Benveniste (1997). Si veda Cresti (2001). 4 *MAR: non è la stessa cosa di quell’altra macchina / evidentemente // evidentemente / allora mi toccano troppo [///] toccano troppo i comandi loro // scusa // allora / diciamo così // # io / non [/] non [/] non è esattamente come mi risponde quell’altra macchina // con &quel + allora vuol dire / che c’è quell’altro che &no [///] che / cioè / che guida lui // (Scuola guida)5 Come risulta evidente dagli esempi, ripresi da un dialogo spontaneo in un contesto fortemente interattivo (una lezione di guida), uno stesso parlante, nella stessa situazione, può produrre turni di una sola parola, come accade spesso in contesti improntati a finalità pragmatiche, ma anche turni molto più lunghi ed articolati. Il turno, dunque, è caratterizzato da una variabilità estrema di “riempimento” e, inoltre, appare imprevedibile; d’altro canto nel caso, per esempio, di un racconto o di una spiegazione, esso può protrarsi anche per molti minuti (corrispondenti a pagine di trascrizione) e non è realistico pensare che nessuna forma di organizzazione testuale, dopo quella di parola, sia messa in atto al suo interno. Quindi, se il turno dialogico può essere assunto come una delle unità che caratterizzano il parlato, non può però essere scelto come definizione dell’enunciato che dovrebbe essere l’unità di organizzazione del testo parlato. 2.2 Definizione temporale L’enunciato è stato poi spesso identificato con un’unità temporale, ovvero con una sequenza che si caratterizza ancora come transizione da silenzio a silenzio di uno stesso parlante, ma dove tale silenzio non è interpretato alla luce dell’inizio e della fine del turno, ma come silenzio-pausa all’interno di esso. Naturalmente non si può escludere che a volte esista una coincidenza tra i due, ma il criterio di identificazione non è lo stesso. Infatti, quello che viene individuato con la pausa non è l’entità naturale dello scambio verbale (turno), ma un’entità di scansione entro il flusso sonoro, che ha il proprio valore oggettivo in una misura temporale del testo. La prima notazione da fare è che nel parlato spontaneo, fortemente interattivo, le pause sono molto rare. Naturalmente anche la frequenza delle stesse cambia a seconda dei limiti temporali che vengono scelti per valutare una disfluenza come pausa; tutti sanno che la realizzazione delle consonanti sorde risulta ad una verifica strumentale come “vuoto” e quindi, per esempio, non è possibile scegliere dei silenzi troppo brevi, che rischiano di comprendere anche fenomeni di tipo diverso. Ma anche lo stile individuale è determinante; quindi, silenzi anche molto brevi nel parlato di un soggetto possono in realtà valere come pause, mentre per parlanti lenti e con allungamenti delle vocali finali a volte è molto difficile valutare che cos’è una pausa. È possibile indicare una durata con valore assoluto di riferimento, almeno 250ms di assenza di segnale (f0 e intensità), per poter essere sicuri della realizzazione di una pausa? 5 L’asterisco seguito da tre lettere maiuscole, due punti e uno spazio, è il modo di indicare ogni parlante entro il formato CHAT (*ABC: ). L’esempio e i successivi sono accompagnati da diversi segni diacritici, che sono stati sviluppati nel nostro lavoro di archiviazione elettronica del parlato e che, più in generale, rimandano al sistema CHAT (Mac Whinney, 1997) e ad una implementazione fattane per l’italiano (Moneglia & Cresti, 1997). I più importanti sono il segno di doppia sbarra (//), che sta ad indicare la fine di un enunciato segnalata prosodicamente, e la sbarra semplice (/), che segnala la fine di unità d’informazione segnalata prosodicamente. Il cancelletto (#) indica una pausa chiaramente percepibile e misurabile, e diversi diacritici, come sbarra semplice, doppia o tripla tra parentesi quadre ( [/]), forme di retracting, falsa partenza, ecc. La e commerciale (&), invece, indica un frammento di parola non calcolabile entro il lessico di frequenza. 5 a) da pausa a pausa *BOR: ne troviamo / scusate # balbettio / come tutto ciò / che va /dalla prima parola / alle / &dal # dalle # dalla fine delle vocalizzazioni/ alle prime parole // nello stesso tempo / nello stesso periodo / si differenzia / la nozione / di ecolalia // # &he / di cui / proprio / il referente preciso / scusate # non riesco a identificarlo // (Lezione) Nell’esempio, ripreso da una lezione universitaria, la parlante, che ha eloquio veloce, produce una serie di vuoti, segnalati dal diacritico a cancelletto (#), che chiaramente sono pause. Si può, tuttavia, notare come esse corrispondano sistematicamente a “incidenti”, a incertezze nella scelta di lemmi, a cambi di programma e non sembra, invece, che siano finalizzate all’organizzazione del testo all’interno della battuta. Del resto, esistono ormai molti studi che in maniera concorde sottolineano che la causazione, e in modo assoluto nel parlato spontaneo6, è dovuta a fatti casuali e solo in piccola parte (forse il 20%?) serve a rafforzare fenomeni che in maniera strutturale sono invece segnalati dall’intonazione. Il silenzio (parametro negativo) può, seguendole, massimizzare scansioni intonative, ma la scansione è tutta a carico di parametri positivi per la nostra percezione (movimenti di f0, durata, intensità) ed occorre sistematicamente, anche senza essere seguita dal rafforzamento della pausa. Non sembra, quindi, che la pausa, anche per quella percentuale in cui rafforza la scansione, possa essere indicata come il segnale di identificazione di entità dell’organizzazione parlata, ma caso mai sembra esserlo proprio la scansione stessa. b) da pausa virtuale a pausa virtuale Proprio a causa delle difficoltà sopra esposte – circa la valutazione di una quantità assoluta di riferimento temporale congrua per la pausa, circa la distinzione tra quelle casuali e quelle strutturali e circa l’assenza di pausa in punti nevralgici e, al contrario, ben indicati dai valori positivi dell’intonazione – l’ipotesi di poter ricondurre l’organizzazione testuale parlata alla causazione, invece di fare riferimento a come essa concretamente appare realizzata nei corpora, fa ricorso a volte ad un concetto di pausazione virtuale. La pausa, quindi, non sarebbe tanto quella che viene realizzata o per motivi accidentali di esecuzione – e quindi evidentemente da espungere dal novero dei casi probanti l’organizzazione – o, comunque, effettivamente prodotta – che abbiamo detto sono casi piuttosto scarsi –, ma quella che potrebbe essere “inserita” a proposito e in maniera sistematica all’interno del testo parlato. *EST: no ascolta qui sopra sì *EST: no // ascolta / qui sopra ? sì // (Estetista) *EST: piedi mani cera completa bracci ago sopracciglia baffino tutto quello tutto *EST: <piedi / mani / cera completa> // bracci / ago / sopracciglia / baffino / tutto // quello + tutto // (Estetista) 6 Si veda Giannelli (1992) per una rassegna degli studi tradizionali sulla pausa. Ricordiamo anche i principali studi sul parlato italiano che concordano su questo punto, come Sornicola (1981) e Voghera (1992). Per alcuni aspetti fonetici della questione, cfr. Hirst & Di Cristo (1998). 6 Degli esempi sopra riportati, ripresi da un testo dialogico spontaneo (una seduta di depilazione) e che non presentavano alcuna pausa al loro interno di battuta, sono state date due versioni: la prima con trascrizione lineare senza alcun segno diacritico e la seconda corredata da quei diacritici che nella nostra tradizione corrispondono alla segnalazione dei principali confini prosodici (/, //), ai segnali di sovrapposizione ( ) e a quelli di cambio di programma (+). Come si capisce, la seconda versione, integrata dai diacritici intonativi, permette di apprezzare la volontà organizzatrice del testo da parte del parlante e ci mostra dove dovrebbero cadere le pause virtuali (#) tramite l’equiparazione al segno di doppia sbarra (//) indicante la fine di enunciato. Proprio tale organizzazione, però, rivela come non sia decidibile a priori dove sarebbe stato “giusto” inserire una pausa virtuale: infatti, che cosa impedirebbe di proporre scansioni come le seguenti, che appaiono altrettanto o forse più “ragionevoli” di quelle invece effettivamente attuate dalla parlante: *EST: no / ascolta // # qui sopra / sì //# *EST: piedi / mani //# cera completa / bracci //# ago / sopracciglia / baffino //# tutto quello / tutto //# Naturalmente si può obiettare che i precedenti sarebbero esempi limite – ma in realtà sono propri della usuale comunicazione interattiva – e quello che si vuol dire è che nel caso di una normale sequenza frastica esisterebbero luoghi deputati per la pausa virtuale. Consideriamo, allora, una sequenza di espressioni che si immagina corrispondano ad una frase canonica come la seguente: Carlo va a Roma si potrebbe pensare che la scansione più comune dovrebbe essere quella che vede una pausa prima della frase e alla sua fine: # Carlo va a Roma // # A parte la bassa percentuale di frasi linearizzate nel parlato, in particolare di esempi cosiffatti, con il soggetto preceduto da un silenzio, soggetto antecedente il proprio predicato e linearizzato con esso, senza pause, entro la stessa partizione tonale, il tutto seguito invece da una chiara pausa, esistono ancor più rare occorrenze che non delle pause di rinforzo. Naturalmente niente ci vieta di pensare che così vada bene, ma ci sarebbe da chiedersi perché non venga realizzata quasi mai, dato che dovrebbe essere la più normale delle organizzazioni testuali. Più comuni sono, invece, realizzazioni come la seguente – ma, sia ben chiaro, all’interno di un continuum fonico né preceduto né seguito da pausa – con un tipo di scansione interna di tipo debole, che non è certo una pausa, ma potrebbe essere identificata con una pausa virtuale: Carlo / # va a Roma // Naturalmente, la realizzazione di forze illocutive diverse o funzioni informative diverse implicherebbe possibilità di scansione diversa dell’espressione in questione, ma anche 7 mantenendoci all’interno di una illocuzione assertiva, niente vieta che la sequenza lineare per esigenze pragmatiche possa essere realizzata come due diversi enunciati: *ABC: Chi è partito? *DEF: Carlo // # va a Roma // # o, ancora, possa risultare scandita in modo inatteso: *ABC: ma dove mai / va Carlo? *DEF: Carlo va / # a Roma // In realtà il problema che viene in qualche modo messo in luce dalla difficoltà e dall’incertezza di attribuire pause virtuali è quello dell’adeguatezza del concetto di frase e della gerarchia sintattica implicata per analizzare la lingua parlata. Se l’organizzazione testuale parlata fosse fondata su strutture frasali, probabilmente pause virtuali, magari maggiori e minori, potrebbero essere inserite in maniera coerente nei punti corrispondenti ai nodi della gerarchia stessa, con alcune sedi privilegiate. Di esse, anche se non in maniera maggioritaria e sistematica, dovrebbero affiorare un numero congruo di realizzazioni concrete in corpus; ma questo non ha riscontro. Il concetto di pausa virtuale, quindi, non è altro che un modo per cercare di ritrovare nel parlato un’organizzazione sintattica che appare non essere quella sua propria e di schiacciare il concetto di enunciato su quello di frase7. 2.3 Definizione sintattica: “frase detta” In effetti la più comune definizione di enunciato è proprio quella che, partendo da un quadro teorico che prevede competenza ed esecuzione, tende ad identificarlo con l’esecuzione dell’entità sintattica a base della competenza, ovvero tratta l’enunciato in termini di frase “detta”. Esistono, tuttavia, due definizioni fondamentali di frase: a) quella che si fonda sulla relazione soggetto-predicato e vede una indipendenza del primo dal secondo, che per lo più è realizzato tramite un verbo; b) quella che si fonda direttamente sulla struttura argomentale del verbo, ivi compreso un agente-tema da esso dipendente, ovvero identifica la frase con la proiezione massima di V. a) Relazione soggetto-predicato legati entro la stessa unità tonale (Bally) Per quanto concerne la prima definizione possiamo rilevare che, in effetti, tali costrutti esistono nel parlato, ma, per sondaggi condotti sui nostri corpora LABLITA, sappiamo che si mantengono al di sotto di quel 5%, che può essere considerato un dato percentuale di massa critica per fenomeni rilevanti e costitutivi, potremmo dire tipici, del parlato. *PAO: io ‘un ho mica capito nulla // (Nomine in ruolo) *ANG: e lui gli racconta tutta la sua storia // (Teo e Angela) *PM1: il processo comincia oggi // (Pubblico Ministero) 7 Si vedano, per la discussione circa l’inadeguatezza del concetto di frase come entità di riferimento del parlato, Quirk et alii (1985); Miller & Weinert (1998); Biber et alii (1999); Cresti (2000); Cresti (2001). 8 *EDU: e il lupo dormiva // (I sette capretti) - 5% degli enunciati (dati LABLITA) In ogni caso, le frasi legate, soggetto-predicato, che vengono realizzate sono spesso costituite da soggetti pronominali, da espressioni deittiche e, naturalmente, anche da gruppi nominali, ma sono combinate in modo che se il soggetto è più pesante allora viene ridotto il predicato, entro una strategia produttiva che privilegia unità tonali di portata sillabica molto contenuta (dalle 7 alle 11 sillabe). Non sembra, quindi, che tale struttura rispecchi in effetti quello che invece è il ruolo della frase nella lingua scritta, nella quale essa appare costituire in effetti il “mattone” del testo e nella quale è possibile legare soggetti molto complessi ed estesi a qualsivoglia tipo di predicato. In sostanza, la frase legata, soggetto-predicato realizzati lessicalmente entro la stessa partizione tonale, non può rappresentare il costrutto tipico secondo il quale verrebbe organizzato sintatticamente un testo parlato. b) proiezione massima del Verbo (clausola) Nel caso, invece, che per frase s’intenda un sintagma verbale più o meno riempito in tutte le sue valenze, costrutto che noi indichiamo con il termine di clausola, allora in effetti possiamo constatare che la maggioranza delle produzioni parlate (dal 62 al 70% a seconda della tipologia sociolinguistica e diafasica dei testi) ha tale conformazione. *VAL: anche perché / non lo sapevo ancora // (Nomine in ruolo) *LUC: poi / li puoi anche scaldare // (Minestra di pane) *FRA: non mi danno libero / i’ quindici giugno // (Tiramisù) *GNO: [<] <no / più che fatto / l’ ho visti fare / ecco> // (Veglia) *MAR: esalta le forme // (Liceali) Il fatto che una maggioranza di produzioni abbia tale caratteristica non impedisce, però, che ben il 38% dei testi di parlato spontaneo abbia una struttura non di clausola e a volte non presenti neppure una strutturazione sintagmatica. I dati a nostra disposizione sono piuttosto rilevanti e significativi, perché li possiamo ricavare per l’italiano da un lavoro di Scarano (in questo volume), condotto sul corpus di parlato informale italiano, del progetto UE C-ORAL-ROM, per 82.500 parole e circa 13.000 enunciati, che individua ben un 38%, appunto, di enunciati “nominali”, ovvero, privi di una forma verbale di modo finito8. *EST: palestra ? (Estetista) *GIA: per questo poi ... (Cuba) *MIC: De Niro / niente // (Cinema) *PAP: un ponte di pietre // (Fiaba) 38% enunciati non verbali per l’italiano (Scarano, 2003a). 8 Cfr. Scarano (in questo volume). 9 Il risultato, però, è ancora più rilevante perché costituisce una conferma, se si vuole sorprendente per la nostra lingua, del dato statistico rilevato per l’inglese-americano dalla Longman Grammar, che riporta una percentuale appunto del 38% di non-clausole a partire da un corpus di conversazioni di 5 milioni di entrate: 38% verbless utterances, senza struttura di clausola per l’inglese-americano (Longman Grammar) Ora, il 38% vuol dire che più di un terzo delle produzioni parlate non corrisponde a SV e il dato, che supera di molto il limite della massa critica, non può non essere considerato tipico del parlato. Quindi la clausola, anche se ampiamente e in maniera maggioritaria realizzata, non è la forma esclusiva di strutturazione e, in sostanza, non può proporsi come definizione sintattica dell’enunciato e rappresentare l’organizzazione testuale del parlato. 2.4 Definizione pragmatica Già dagli anni ‘80 andiamo proponendo una definizione pragmatica dell’enunciato (enunciato come corrispettivo dell’atto linguistico), inteso come ogni espressione che sia interpretabile pragmaticamente, ovvero come ogni espressione attraverso la quale venga compiuta una illocuzione (Austin, 1962). Ricordiamo che secondo la proposta austiniana ogni atto linguistico è la risultante dell’attuazione simultanea di tre diversi atti: quello locutivo, quello illocutivo e quello perlocutivo ogni espressione interpretabile pragmaticamente *SMN: con chi esci ? (Macellaio) (domanda di cortesia) *MAX: ferma // (Scuola guida) (ordine) *EST: palestra ? (Estetista) (sollecito) *ALB: meno cotta ? (Alimentari) (richiesta di precisazione)*GNO: [<] <no / più che fatto / l’ ho visti fare / ecco> // (Veglia) (precisazione) *RIN: ah // (Veglia) (assenso) La mancanza di definizione sintattica dell’enunciato – resa necessaria da quel 38% di casi che non ha struttura né di frase né di clausola e che addirittura può essere costituita da una sola parola e perfino da un’interiezione – potrebbe indurre, però, a pensare che “tutto sia lecito” e che non si possano individuare limiti e regole dell’enunciato. Per prima cosa dobbiamo notare che la definizione pragmatica dell’enunciato implica che esso deve corrispondere ad un esempio effettivamente realizzato e del quale sia possibile valutare la forza illocutiva9, mentre non sono adeguati esempi ideali fuori di attuazione. Esiste, poi, una fondamentale condizione semantica costituita dal fatto che l’espressione deputata a compiere illocuzione deve essere un’espressione lessicale piena (parola). Ma la condizione può essere apprezzata meglio in forma negativa, perché recita che tutto ciò che sia o valga come morfema non ha le caratteristiche semantiche sufficienti per divenire un enunciato. Per intendersi, le interiezioni sono tipicamente e in 9 Naturalmente niente vieta da un lato che un parlante si sia interrotto e ciò che abbia prodotto non sia un enunciato, ovvero saremo di fronte ad un caso di enunciato interrotto, o ad una falsa partenza, o ad un frammento; dall’altra è chiaro che noi possiamo produrre enunciati in laboratorio o fare exempla ficta di enunciato, ma in ogni caso dovremo assegnare loro una illocuzione e indicare con quale intonazione la realizzino, perché essi possano valere in ogni caso come istanze di enunciato. 10 maniera propria impiegate a fare enunciato, benché il loro significato lessicale sia vago e mutevole, diciamo subito, in connessione al tipo di illocuzione e all’intonazione conseguente con la quale il parlante le realizza, mentre un qualsiasi morfema flessivo, ma anche un clitico o un articolo o una preposizione, il cui significato appare forse più determinato grammaticalmente di quello di un’interiezione, non fanno enunciato (a meno di casi particolari di contrasto, ma in realtà assai rari e difficili). condizione semantica minima: l’enunciato deve essere costituito almeno da un’espressione lessicale piena (anche un’interiezione, con esclusione di morfemi legati e liberi) *EST: palestra ? (sollecito) *GNO: [<] <no / più che fatto / l’ ho visti fare / ecco> // (precisazione) *ALB: meno cotta ? (richiesta di precisazione) *RIN: ah // (Veglia) (assenso) Esiste poi una condizione che possiamo chiamare formale, costituita dal fatto che l’espressione in questione, sia essa un’interiezione o una clausola con subordinata, deve essere realizzata da un pattern intonativo, ben formato, dedicato al compimento di una qualche illocuzione e percettivamente rilevante10. condizione formale: un enunciato deve essere realizzato da un pattern intonativo (percettivamente rilevante, ben formato e dedicato al compimento dell’illocuzione) Per poter apprezzare meglio tale condizione, dobbiamo ritornare sulla proposta austiniana e introdurre brevemente la reinterpretazione che è stato possibile formulare sulla base dello studio empirico dei nostri corpora, alla luce della quale proponiamo le seguenti definizioni dei tre atti locutivo, illocutivo e perlocutivo e delle relazioni che tra essi intercorrono. In sintesi: - l’atto perlocutivo attiva, per insorgenza pulsionale come reazione al rapporto con l’interlocutore, la trasformazione di un’immagine mentale in immagine verbale attraverso la sua concreta manifestazione fisica, sotto forma di un affetto verso l’interlocutore; - l’atto illocutivo traduce l’affetto in schema di comportamento verbale sulla base di convenzioni pragmatiche, socio-culturali, cognitive e, in questo modo, realizza l’atteggiamento del parlante (base affettiva) verso l’interlocutore secondo schemi comunicativi convenzionali; - l’atto locutivo realizza, propriamente, la manifestazione fonetica, lessicale, morfosintattica e semantica di cui è sostanziata l’immagine verbale. Come si può vedere, l’ordine di presentazione degli atti è rovesciato rispetto alla tradizione filosofica, che inizia dall’atto locutivo per terminare in maniera sfocata in quello perlocutivo. Crediamo, invece, che il fondamento pulsionale del linguaggio sia il suo motore, anche se evidentemente gli atti, come abbiamo detto, sono simultanei e, 10 Si veda ‘t Hart et alii (1990); Cresti & Firenzuoli (2000); Cresti (2000); Firenzuoli (2003). 11 come si può capire, l’uno interamente dipendente dall’altro. In particolare, però, bisogna sottolineare che esiste un’interfaccia formale tra l’atto illocutivo e quello locutivo, costituita dall’intonazione. atto illocutivo interfaccia intonativa atto locutivo Il comportamento comunicativo-verbale (atto illocutivo) è segnalato dall’intonazione che organizza in pattern prosodico la sequenza fonetica (atto locutivo). Quindi l’intonazione serve a demarcare nel continuum fonico ciò che corrisponde ad un atto illocutivo, ovvero a identificare un enunciato nella sequenza delle espressioni parlate. 3. L’UNITÀ D’INFORMAZIONE Ma per proseguire nella nostra descrizione e nell’individuazione dell’altra entità di riferimento, l’unità d’informazione, dobbiamo segnalare che l’intonazione ha anche un’altra funzione oltre a quella della demarcazione degli enunciati nel flusso del parlato, quella di scandire all’interno di essi gruppi di parole. L’intonazione, quindi, organizza sistematicamente le sequenze sonore (segmentali) che compongono l’enunciato in gruppi di parole tramite raggruppamenti suprasegmentali. Le parole facenti capo al gruppo sono unificate dallo svolgimento di una stessa funzione informativa, che le lega in modo da farne un’unità d’informazione. Le funzioni informative sono molteplici, ma tutte dipendono a qualche titolo da quella illocutiva. La struttura informativa dell’enunciato, infatti, è regolata secondo un principio che vede il compimento dell’illocuzione come la parte informativa (comment) necessaria e sufficiente dell’enunciato – e che nella tradizione è stato variamente identificato come rema o come nuovo o come focus – e vede la possibilità di altre parti caratterizzate da funzioni informative complementari ad essa, ma opzionali. Tutti i gruppi di parole caratterizzati dallo svolgimento di una funzione informativa e scandite dall’intonazione sono, appunto, unità d’informazione. Quindi l’enunciato è un pattern informativo, ovvero è costituito da una unità d’informazione necessaria dedicata al compimento illocutivo, il comment, e da altre unità d’informazione complementari ad esso, ma opzionali. atto allocutivo (pattern pragmatico: campo, inciso, forza,appendice, ecc.) interfaccia intonativa (pattern prosodico: prefix, inciso, root, suffix, ecc.) enunciato (pattern informativo: topic, inciso, comment, appendice, ecc.) Come è possibile capire, gli enunciati possono presentare una articolazione informativa piuttosto complessa; essa, in ogni caso, è sistematicamente segnalata dall’intonazione. Sulla descrizione di tale rapporto non possiamo soffermarci e rimandiamo ai diversi lavori sull’argomento di cui alcuni presenti anche in questi atti e, più in generale, a Cresti (2000) e a Firenzuoli (2003). Vorremmo solo concludere ricordando che il pattern informativo è letto in maniera tendenzialmente isomorfa da un pattern intonativo, composto da unità tonali di tipologia diversa, di cui una sola (root) è necessaria e sufficiente ad assolvere alla buona formazione del pattern tonale e che è dedicata alla realizzazione del comment. Altre 12 unità tonali opzionali come, per esempio, quella di tipo prefix, è dedicata alla lettura di unità informativa di topic, quella di suffix, a unità informativa di appendice, quella di inciso, alla lettura di inciso, quella di introduttore, alla lettura degli introduttori locutivi. Sono in corso lavori sperimentali sulle altre unità tonali dedicate alle diverse unità d’informazione. Riportiamo nel paragrafo successivo il repertorio delle unità d’informazione, con i loro nomi e la sigla normalmente usata per etichettarli, con la frequenza ricavata da indagini – là dove ne siamo in possesso, su campionamenti di parlato tra gli 8000 e i 10000 enunciati – e con una breve descrizione della loro funzione e delle caratteristiche modali rilevanti e dalle principali regole distributive e caratteri intonativi a nostra disposizione. 3.1 Unità d’informazione primarie Comment: COM (100%) Funzione: compie la forza illocutiva dell’atto, la sua modalità è determinata dall’illocuzione; Distribuzione: è necessario per la realizzazione (illocutiva) dell’atto; Intonazione: a) viene intonato con una unità tonale di tipo root; b) esistono molte forme intonative specifiche dedicate al compimento di diverse illocuzioni ( per il momento ne sono state indivuate una trentina)11 *VAL: anche perché / non lo sapevo ancora // (spiegazione) (Nomine in ruolo) *LUC: poi / li puoi anche scaldare // (Minestra di pane) (suggerimento) *SMN: con chi esci ? (Macellaio) (domanda di cortesia) *MAX: ferma // (Scuola guida) (ordine) *EST: palestra ? (Estetista) (sollecito) *ALB: meno cotta ? (Alimentari) (richiesta di precisazione) Topic: TOP (20%) Funzione: esprime il campo di applicazione della forza del comment, distanziando l’enunciato dal riferimento contestuale, ha una propria modalità; Distribuzione: a) precede l’unità di comment; b) è iterabile; Intonazione: a) viene intonato con una unità tonale di tipo prefix; b) esistono almeno tre forme intonative dedicate *SAB: però / se ti viene uno davanti alto / non vedi nulla // (Concerto) (Topic / Comment) *DAN : la fodera / gliela forniscono ? (Pellettiere) (Topic / Comment) *GUG: la Marretti / chi l’ è ? (Affidamento) (Topic / Comment) *KAT: magari / crude / riempian di più // (Zucchine) (Topic / Comment) *LUC: a vedella / insomma / ti fa effetto //(Famiglia) (Topic / Comment) 11 Si veda Cresti & Firenzuoli (2000); Cresti (2000); Firenzuoli (2003). 13 *ANG : stasera / l’ho regolato com’era // (Mixer) (Topic / Comment) Appendice: APP12 (11%) Funzione: integra testualmente la locuzione dell’unità di Topic o di Comment, eredita la modalità dell’unità integrata; Distribuzione: a) segue l’unità di Topic o di Comment di cui è integrazione; b) è iterabile (C; Intonazione: viene intonato con una unità di tipo suffix *TAM: ce l’ ho io / la ricetta // (Festa Simone) (Comment / Appendice) *ALM : ma ero dispettosa / dispettosa //(Alma) (Comment / Appendice) *CAR : invece manca Schwarz / manca // (Stadio) (Comment / Appendice) *SAN : e qui indicate il vostro codice contribuente / che è lo stesso //(Esattoria) (Comment / Appendice) *TIZ : sì sì sì / dell’anno scorso // (Veglia) (Comment / Appendice) 3. 2 Le unità a carattere dialogico Incipit: ICP Funzione: sancisce la presa di turno o la conferma nel corso dello svolgimento del turno stesso; Distribuzione: a) apre il turno e l’enunciato; b) è iterabile. *MAR: allora / il cognome tuo è ? (Espresso) (Incipit – Comment) *VAL: quindi / loro dovevano stare [///] devono seguire / le fasce / e fare l’ attribuzione // (Nomine in ruolo) (incipit – comment1 – comment2) Allocutivo: ALL Funzione: richiama direttamente l’interlocutore per assicurare la sua attenzione all’enunciato; Distribuzione: a) ha distribuzione libera; b) non è iterabile. *TAM: Veronica / sai icché pensavo ? (Festa Simone) (Allocutivo – Comment) *LAK: c’ hai un bicchiere/ Giacomo ?(Poker) (Comment – Allocutivo) 12 Nel lavoro di etichettamento delle unità d’informazione nei corpora parlati sono state usate le sigle APT e APC per indicare rispettivamente appendice di Topic e di Comment. 14 Fatico: FAT Funzione: sollecita percettivamente l’interlocutore per assicurare l’apertura del canale di comunicazione; Distribuzione: a) ha distribuzione libera; b) è iterabile. *GIA: loro / con tutti provano / capito // (Cuba) (Topic – Comment – Fatico) *SIM: senti / &do [/] indo’ ? (Appuntamento pomeridiano) (Fatico – Comment) Conativo: CON Funzione: sollecita o rafforza una richiesta di comportamento dell’interlocutore in relazione alla locuzione dell’enunciato; Distribuzione: a) occorre in posizione iniziale o finale del pattern informativo; b) è iterabile. *MAU : dammi duemilacinquecinquanta / vai // (Alimentari) (Comment – Conativo) *MT1 : dai / stasera / scusa / se vai via presto / non si può parlare // (XXXX) (Donativo – Topic – Fatico – Topic – Comment) 3.3 Unità d’informazione con funzione metalinguistica Inciso: INX (8%) Funzione: costituisce un inserto metalinguistico entro l’enunciato, rispetto al quale esprime una modalità di scarto; Distribuzione: a) non occorre in inizio di enunciato; b) può essere inserito all’interno di un comment, di un topic o di una appendice; c) può contenere a sua volta un altro inciso; d) è iterabile; Intonazione: l’unità di inciso è intonato da un’unità di tipo parentetico *PRE: mi pare che / l’architetto Pastelli / abbia posto l’accento / giustamente / sull’esigenza di omogeneizzazione / che è la sua ipotesi attuale del servizio // (Riunione direttiva) (Topic / Comment interrotto / Inciso / Comment / Appendice ) *PRE: e poi giustamente / e probabilmente ne aveva i sui motivi / ha lasciato il campo // (Riunione direttiva) (Comment interrotto / Inciso / Comment) *TIZ: guardare i bambini / &he / impegnan parecchio / io dico la verità // (Tiziana) (Topic / Comment / Inciso)*PM1 : quini lei / sicuramente / può dire quello che vuole // (Pubblico ministero) (Topic / Inciso / Comment) 15 Introduttore locutivo: ILO (4%) Funzione: segnala un comment metalinguistico (discorso riportato, esemplificazioni, elencazione, istruzioni verbali, ecc.), ha una propria modalità; Distribuzione: a) precede immediatamente il comment metalinguistica; b) non è iterabile; Intonazione: viene intonato con una unità di tipo introduttivo *MRA: ma poi gli ho detto / ma di chi è stata /’ della professoressa ?” (Marito e moglie) (Introduttore locutivo / Discorso riportato) *SAS: mi fa / che sei qui /’ a i’ seminario di’ Moneglia ?” (Ricevimento) (Introduttore locutivo / Discorso riportato) *TIZ: della serie / i giovani briachi / il sabato sera / a picchiarsi in piazza Indipendenza // (Sbornia) (Introduttore locutivo / esempio ) *SAN: la gli dice /m’hanno detto in esattoria /’ MB è una ditta individuale //” (Esattoria) (Introduttore locutivo / istruzione ) In conclusione, le unità di riferimento del parlato, superiori alla parola, sono due: l’enunciato e l’unità d’informazione. L’enunciato può presentarsi in forma semplice, composto da una sola unità d’informazione, il comment, oppure sotto forma di pattern informativo composto dal comment e da varie unità d’informazione con funzioni diverse. L’enunciato e le unità d’informazione che lo compongono (atto locutivo) hanno definizione funzionale pragmatica (atto illocutivo) ed hanno un’interfaccia intonativa. Più del 50% degli enunciati è articolato informativamente. 4. IL CRITERIO ILLOCUTIVO E LA SUA APPLICAZIONE A GRANDI CORPORA DI PARLATO Sulla base di una ricerca ventennale, condotta sullo studio empirico di corpora di parlato spontaneo e di esperimenti di laboratorio, abbiamo reso operativa l’ipotesi teorica che esista un’equivalenza tra l’unità di riferimento della lingua parlata (enunciato) e unità dell’attività umana (atto), e che essa sia segnalata dall’intonazione, giungendo alla formulazione di quello che chiamiamo criterio illocutivo. Con esso s’intende quel criterio che permette di mettere in relazione: - da una parte il riconoscimento immediato prosodico, su base percettiva, degli enunciati all’interno del continuum fonico13; - dall’altra il riconoscimento contemporaneo dei caratteri pragmatici, socio-culturali e cognitivi che l’enunciato attua e che ci permettono di apprezzarne la forza illocutiva. Se una sequenza parlata non è ben formata intonativamente e non presenta la caratteristica di essere intonata da un pattern codificato di una certa lingua, essa non viene riconosciuta come enunciato; del resto, se essa viene attuata con comportamenti e in contesti aberranti non viene riconosciuta come l’appropriato compimento di un atto 13 Il semplice ascolto della produzione parlata ci mette in grado di individuare quale sequenza di parole costituisca un’entità a sé per caratteri prosodici (pattern tonale) e, quindi, di identificare il suo corrispettivo locutivo. 16 linguistico convenzionale. Esistono lavori sperimentali in entrambi i settori, per quanto riguarda l’intonazione, come abbiamo già detto, ma anche per quanto riguarda gli aspetti pragmatici e la formulazione di un repertorio delle azioni linguistiche convenzionali (illocuzioni). Diversamente dalle tassonomie finora proposte esso non è fondato su caratteri del lessico o della modalità, spesso assimilata all’illocuzione, ma su contenuti affettivi e conformato secondo tratti pragmatici di vario tipo, convenzionali. Anche per queste ricerche rimandiamo alla bibliografia. Vogliamo segnalare, invece, che l’ipotesi e il criterio illocutivo scaturitone sono stati applicati sistematicamente a grandi corpora di lingua spontanea sia italiani (corpora LABLITA) che romanzi (Progetto UE C-ORAL-ROM) e che, sulla base di esso è stata condotta la trascrizione digitalizzata dei testi, che riportano sempre la scansione maggiore (quella di tipo terminale e che individua gli enunciati) e in larga parte anche la scansione interna all’enunciato, che ne segnala l’articolazione informativa. In questi corpora sono rintracciabili direttamente nel livello della trascrizione del testo, e non in quello della sua notazione prosodica, le unità di riferimento (enunciati e unità di informazione). È stato sviluppato, poi, un programma informatico di sincronizzazione di ogni enunciato alla propria controparte sonora ed ai suoi parametri acustici (spettro, f0, durata, intensità), con la formazione di basi di dati degli enunciati, intesi come file di allineamento testo/suono/ parametri acustici. Sulla base del criterio illocutivo, dunque, è stato possibile archiviare grandi basi di dati delle unità di riferimento del parlato. A partire da esse sono state condotte già molte ricerche di tipo morfosintattico, lessicale e semantico. Seguono le tavole che in maniera sintetica espongono il contenuto dei corpora di LABLITA e solo un accenno al corpus romanzo C-ORAL-ROM, al quale è dedicato un intero contributo presente in questi atti14. 4.1 Corpora di LABLITA15 I Corpora di LABLITA di parlato italiano (dati aggiornati al 30/04/2003) Corpus di laboratorio (1973-2003) (220 sessioni) – 104 ore di registrazione 48 ore di trascrizioni in formato CHAT con annotazione prosodica (confini maggiori e minori) 390.441 parole 53.658 enunciati Sonoro interamente digitalizzato Corpus Stammerjohann – (1965) 48 ore di registrazione 3 ore di trascrizioni in formato CHAT con annotazione prosodica (confini maggiori e minori) 27.036 parole 3.918 enunciati (è prevista per la fine di giugno la trascrizione di circa 100.000 parole e circa 14.000 enunciati) 14 Per una descrizione dettagliata del corpus C-ORAL-ROM, si veda il contributo di Moneglia (in questo volume). Si vedano, inoltre: Cresti et alii (2002); Cresti & Moneglia (2002); Cresti & Moneglia (in corso di stampa). 15 <http://lablita.dit.unifi.it>. 17 Sonoro interamente digitalizzato Parlato radio-televisivo (37 sessioni) – 24 ore di registrazione 11 ore di trascrizioni in formato CHAT con annotazione prosodica (confini maggiori e minori) 91.860 parole 9.486 enunciati Sonoro interamente digitalizzato Corpus telefonico (69 sessioni) - 3 ore di registrazione 3 ore di trascrizioni in formato CHAT con annotazione prosodica (confini maggiori e minori) 26.017 parole 4.267 enunciati Dialoghi spontanei – 1 ora e 40 minuti di registrazione 1 ora e 40 minuti di trascrizioni in formato CHAT con annotazione prosodica (confini maggiori e minori) 15.866 parole 2.622 enunciati Dialoghi uomo-macchina – 1 ora e 20 minuti di registrazione 1ora e 20 minuti di trascrizioni in formato CHAT con annotazione prosodica (confini maggiori e minori) 10.151 parole 1645 enunciati Parlato cinematografico (12 film) a) Corpus Rossi – 6 film (1948 – 1957) 9 ore e 36 minuti di sonoro 68.000 parole (trascrizione integrale in formato CHAT semplificato) b) Corpus Cresti – 6 film (1947-1994) 8ore e 33 minuti di sonoro 49.000 parole (trascrizione parziale in formato CHAT) Parlato della prima acquisizione (dialoghi adulto-bambino 12-36 mesi) a) Corpus di Ferrara – 20 raccolte longitudinali in un asilo nido (181 sessioni) 52 ore circa 181 protocolli (trascrizione in formato CHAT semplificato) b) Corpus di Firenze – 10 raccolte longitudinali in famiglia (102 sessioni) 33 ore circa 102 protocolli (trascrizione in formato CHAT semplificato) Sonoro parzialmente digitalizzato. 4.2 Il Corpus romanzo C-ORAL-ROM IST 2000-2622816 C-ORAL-ROM Corpus – Integrated reference corpora for spoken romance languages 16 <http://lablita.dit.unifi.it>. 18 Corpora comparabili di parlato spontaneo per italiano, francese, spagnolo e portoghese (distribuito da ELDA) Circa 30/35 ore di registrazione per lingua Almeno 300.000 parola per lingua Circa 40.000 enunciati per lingua Corpus italiano 36 ore di registrazione e trascrizione 308.815 parole 37.235 enunciati Providers nazionali: • UFIR.DIT (LABLITA) Università di Firenze • FUL.CLUL Lisboa Universitade • LLI UAM Universidad Autónoma de Madrid • UPRO Université de Provence Quello che in ogni caso ci interessa sottolineare è che l’ipotesi della corrispondenza intonazione-articolazione informativa e della sua apprezzabilità percettiva sembra ampiamente convalidata dalla pratica di trascrizione che ne è stata fatta ormai da molti anni e dai più disparati trascrittori – e sia detto, nella maggior parte dei casi non esperti: studenti universitari di primo anno, insegnanti che frequentano corsi di specializzazione per l’insegnamento, ma del tutto digiuni di formazione linguistica. Ma quello che appare più rilevante è “l’esportazione” del criterio illocutivo a parlanti lingue diverse dall’italiano, che hanno mostrato di essere pienamente in grado di applicarlo a lingue che, pur presentando proprie specificità intonative, hanno potuto essere analizzate sistematicamente secondo gli stessi principi. La nostra proposta, in realtà, ha una forte corrispondenza con quella prassi che tutti noi mettiamo in atto quotidianamente, quando ascoltiamo e interpretiamo quello che ci viene detto. Non ci dobbiamo sorprendere, quindi, se un qualsiasi parlante a seguito di qualche istruzione e un breve addestramento, se è in grado di trascrivere il parlato, lo è anche di segnalarne i confini prosodici, indicanti il compimento di enunciato e le principali unità d’informazione da cui esso è scandito. Abbiamo già effettuato un test di controllo sulla consistenza dei criteri di assegnazione della scansione tonale (più brani parlati, sempre gli stessi, fatti scandire da trascrittori diversi in maniera indipendente); il test è stato condotto all’interno di ciascuna delle équipes nazionali partecipanti al Progetto europeo. Il livello dell’accordo è risultato molto alto e nel caso di italiano, spagnolo e portoghese si attesta su l’84%17. 5. LA LINGUISTICA DEI CORPORA ORALI (CORPUS BASED LINGUISTICS) Ci si può chiedere, tuttavia, che ricadute possa avere il fatto che grandi corpora siano archiviati con allineamento testo/suono/parametri acustici, ma soprattutto che grandi corpora siano organizzati come base dati delle proprie unità di riferimento (enunciati). Esiste un vantaggio evidente ed immediato, quello di poter studiare ed analizzare non più solamente un testo trascritto, muto, la pianta scritta, appunto, del dato orale, ma il dato abbinato di testo e suono e, ancor più, di poterlo confrontare con la sua 17 Sono in corso validazioni più generali sull’intero corpus romanzo. 19 contropartita acustica (f0, spettro, intensità, durata) e procedere in verifiche strumentali, che confermino o correggano le ipotesi fatte solo su base percettiva. Anche perché, come abbiamo mostrato, questo è l’unico modo di poter identificare le unità di riferimento superiori alla parola, che hanno una sistematica contropartita intonativa. Al di là di questo, che tuttavia si propone come il nuovo dominio dell’oralità, il fatto di avere un corpus “misurato” rispetto al numero dei suoi enunciati, ovvero rispetto a quella che propriamente è la sua organizzazione testuale, costituisce una specie di base necessaria per gli studi linguistici “corpus based” e ogni tipo di misurazione e statistica prende l’avvio da essa. Le misure dei corpora finora impiegate come unità di riferimento per i dati statistici sono state: - numero di parole, per ora l’unica universalmente riconosciuta; - durata temporale, che però è molto poco significativa, in particolare nel campo del parlato spontaneo e soprattutto nelle registrazioni di ambiente, perché possiamo trovare silenzi interminabili, velocità di eloquio diversissime, ecc. Ma è chiaro a tutti i ricercatori che si sono cimentati con la lingua parlata e che intendono sviluppare una linguistica dei corpora che non sia solo studio del lessico18, che i valori di frequenza di un certo fenomeno morfosintattico e la sua rilevanza, se ha poco senso valutarli rispetto al tempo (per esempio, quante relative al minuto), non ne ha neppure molto valutarli rispetto al numero di parole, perché una frase relativa o un qualsiasi fenomeno morfosintattico, che può avere estensione in numero di parole la più varia, non può essere misurato rispetto al totale delle parole di un corpus. Non è, infatti, il numero di parole la caratteristica che identifica il costrutto, esso è valido come un’entità, e come tale, quindi, deve essere rapportato ad un’unità di riferimento congrua. La mancanza proprio di tale unità non è un problema di poco conto e la difficoltà teorica è così rilevante che anche la Longman grammar, che si propone per il momento come la trattazione più completa ed avanzata di linguistica dei corpora, denuncia in ogni caso un impasse. Infatti, gli autori indicano l’utterance come unità di riferimento del parlato e ne danno anche una definizione in termini di speech act, ma mancando di un criterio di identificazione della stessa all’interno del loro corpus, come invece noi facciamo con il criterio illocutivo, non possono farvi ricorso per nessuna misurazione. Sono costretti, da un certo punto di vista, a ricercare anche un’unità sintattica di riferimento, che propongono sia quella che essi chiamano C-unit, nella quale sono comprese sia clausole che non clausole, sulla base di quella verifica empirica che mostra che un 38% della produzione parlata non ha struttura di SV. Ma come tutti possono capire, qualsiasi entità che nella propria definizione includa se stessa ed il proprio contrario è un’entità teoricamente vacua. Tanto è vero che la C-unit non è presa a riferimento nella presentazione dei loro risultati di frequenza, che continuano ad essere proposti in relazione al numero delle parole. Nella Grammatica, quindi, è possibile visionare attraverso un efficace sistema di rappresentazione grafica “l’addensamento” di un fenomeno rispetto ad uno “sfondo”, misurato in migliaia o milioni di parole, e la diversa distribuzione di esso nei vari domini linguistici (lingua scritta accademica, di finzione, giornali, parlato conversazionale). Ma mancano dati che esplicitino quale sia il reale rilievo di un certo costrutto all’interno del corpus in relazione ad un’entità congrua; per 18 Si veda, per una posizione diversa, Rossigni Favretti (2000). 20 esempio, della frase scissa rispetto…forse al numero di frasi – non definibili e non rilevanti – nel corpus di riferimento? O alle C-unit che sintatticamente possono comprendere sia interiezioni come gruppi nominali come avverbi o qualsiasi tipo di sintagma? Evidentemente la nostra soluzione è che tale conto sia fatto rispetto al numero degli enunciati, che in maniera uniforme permettono di analizzare un qualsiasi testo parlato: la frase scissa, per esempio, viene per prima cosa identificata all’interno di un enunciato, poi ne vengono contate tutte le occorrenze e queste rapportate al numero degli enunciati, permettendo una misurazione di frequenza che ha un parametro di riferimento. Per quanto riguarda il punto a) possiamo citare, per esempio, alcuni riscontri relativi a quelli che da sempre sono stati indicati come i principali fenomeni sintattici del parlato e che sono stati considerati “tipici” di esso. Intendiamo, per prima cosa, ciò che complessivamente può essere chiamato “sintassi segmentata” e, secondariamente, ciò che è stato indicato come relativizzazione non-standard. Esistono dei dati, rispetto al primo punto, secondo i quali se noi misuriamo i fenomeni di sintassi segmentata (dislocate a sinistra, dislocate a destra, anacoluti, temi sospesi, scisse, pseudo-scisse), identificati ciascuno in rapporto ad un enunciato, e li rapportiamo al totale degli enunciati, essi non superano, e si badi, nel loro complesso quel 5% che può essere considerato una soglia di rilievo per un qualsiasi dato. Le dislocate a sinistra e a destra, che sono le più frequenti, su un corpus di 9283 enunciati assommano a 265, rispettivamente 147 e 118, quindi costituiscono meno del 3% degli enunciati. Inoltre, come è stato mostrato in maniera dettagliata da vari lavori e in particolare da Scarano19, la gran parte dei costrutti segmentati sono riconducibili a forme di grammaticalizzazione (espressioni temporali, doppia marcatura di pronome, ecc.) che non possono essere considerati veri fenomeni di sintassi. Pur mancando di un dato esteso di confronto, da alcuni sondaggi, poi, sembrerebbe che la dislocazione a sinistra, la scissione e la pseudoscissione siano fenomeni percentualmente più frequenti nello scritto. -5% sintassi segmentata Delle relative non-standard, che probabilmente, invece, non hanno larga diffusione nello scritto, anche se in autori come Pavese o Pasolini sono certamente presenti, possiamo in ogni caso segnalare la loro esiguità20. La ricerca sull’argomento, che è stata condotta su corpora molto estesi e variati di parlato; in particolare, tramite il campionamento di LABLITA, rispetto al quale è possibile misurare con precisione il numero di enunciati, permette di evidenziare che la percentuale delle relative non-standard è solo del 0,1% sul totale degli enunciati da 0,1 a 1% relative non-standard Quindi, alcune “strutture” che sono state tramandate dalla letteratura come caratterizzanti il parlato, nel momento che possano essere misurate rispetto ad unità di riferimento (enunciato), rivelano la loro marginalità. 19 20 Si veda Rossi (1999a); Rossi (1999b); Scarano & Giani (in corso di stampa); Scarano (2003a). Si veda Aureli (in questo volume). 21 Sono altri i fenomeni che probabilmente appaiono più significativi per la strutturazione del parlato, ci riferiamo ad un insieme di casi che può essere indicato come “enunciati pseudo-retti”, ovvero enunciati (autonomi per la loro interpretabilità pragmatica) che però iniziano con congiunzioni normalmente considerate nello scritto come coordinanti o subordinanti. Esse presupporrebero la presenza di configurazioni complesse (principali o reggenti) che in realtà non esistono (e a nostro avviso non sono ricostruibili tramite ipotesi di ellissi fantastiche). Parallelamente agli enunciati pseudo-retti troviamo poi gli enunciati “falsamente sospesi”, come nel caso delle protasi mai concluse da un’apodosi21. In realtà, quasi mai in essi c’è qualcosa di non concluso, perché l’intonazione di tali enunciati permette di identificare il compimento di illocuzioni come l’espressione di ovvietà, o la protesta, o l’invito, che quindi assicurano il compimento dell’enunciato stesso22. Altrettanto rilevanti sono risultati in positivo ricavabili dalle ricerche sistematiche condotte ancora da Scarano su vari settori del parlato, di cui citiamo solo quello sulle funzioni e distribuzioni degli aggettivi qualificativi. Veniamo a conoscenza così di dati, mai noti prima, ricavati dallo spoglio di ampi corpora scritti e parlati, sulla diversa frequenza della funzione attributiva entro SN e predicativa entro SV, rispettivamente all’incirca del 75% vs 25%. Ma, soprattutto, nel parlato scopriamo l’esistenza di aggettivi qualificativi che non sono modificatori né di nomi né di verbi, ma hanno autonomia di funzione informativa, quando addirittura non costituiscano enunciato a sé. Si badi che l’uso di aggettivi con valore funzionale autonomo copre ben l’11% delle occorrenze degli stessi, dimostrandosi quindi fenomeno tipico del parlato23. Sulla caratteristica non verbale del 38% degli enunciati, sempre indagata da Scarano, abbiamo già detto e rimandiamo al lavoro in questo volume. Un dato interessante emerge anche dal lavoro sulla distribuzione della persona verbale e della sua valutazione in relazione agli enunciati e alle diverse unità d’informazione, per cui l’apparente riduzione della persona verbale alla terza singolare, in teoria assimilabile alla riduzione di modi e tempi verbali nel parlato, nel momento che venga valutata in maniera disaggregata, in connessione al compimento illocutivo e delle funzioni informative, rivela una precisa conservazione delle diverse forme personali24. Per il punto b), quello che risulta assolutamente evidente è, al di là del fatto che ogni enunciato è caratterizzato illocutivamente e che la varietà delle azioni illocutive compiute interessa ogni tipo di testo, la sistematicità dell’articolazione informativa e dell’organizzazione degli enunciati sulla base di tale strutturazione. Come è possibile vedere dalle frequenze già anticipate per le diverse unità di informazione, derivate da una serie di studi sistematici condotti in LABLITA, questa è una caratteristica pervasiva del parlato e più del 50% degli enunciati ne usufruisce per la sua organizzazione25. E se possiamo constatare una più accentuata e frequente variazione illocutiva (maggior numero di enunciati brevi e diverse tipologie illocutive messe in atto) nel parlato “informale”, l’articolazione dell’informazione diventa dominante in tipologie di testo 21 Si veda Lombardi Vallauri (in questo volume). Per la descrizione delle diverse illocuzioni e dei loro corrispettivi intonativi si veda Firenzuoli (2003); Firenzuoli (in questo volume). 23 Si veda Scarano (1999); Scarano (in questo volume). 24 Si veda Cresti (in corso di stampa[b]). 25 Non possiamo anticipare un dato statistico preciso, perché a quelli da noi già posseduti sulle principali unità d’informazione deve essere aggiunto il calcolo della frequenza di tutte le unità di valore dialogico (incipit, fatico, allocutivo, conativo), che sono molto usate e a volte ripetute in uno stesso enunciato, ma sulle quali sono ancora in corso lavori di ricerca. 22 22 più formale e a qualche titolo “programmato”. È vero che in essi cresce anche la strutturazione sintattica, ma in maniera non paragonabile al rilievo supportato dall’articolazione informativa. + 50% degli enunciati caratterizzati da articolazione informativa Se mettiamo insieme i dati riportati nei punti a) e b) e li sommiamo a quelle ricerche che ormai ci hanno mostrato in modo inconfutabile la “semplificazione” della struttura sintattica (quasi assenza della coordinazione, riduzione dei gradi e delle tipologie di subordinazione, scarso riempimento lessicale della reggenza sia verbale che nominale) ci rendiamo conto che il quadro di riferimento degli studi sintattici, nel momento che vogliano occuparsi del parlato, non può rimanere invariato, a meno di non volersi arrendere a quella fotografia piatta dei dati di cui abbiamo accennato all’inizio. Nell’ottica di un rinnovamento della ricerca sul parlato già ormai dagli anni ‘90 è stato ripreso un concetto di macrosintassi26, che ha portato a nuove prospettive. Anche se con angolature diverse, la prospettiva è stata sviluppata in Europa da vari studiosi e gruppi di ricerca che si interessano sia di lingua orale che scritta. Pensiamo, prima fra tutti, a Claire Blanche-Benveniste ed al suo gruppo del GARS (Aix-en-Provence), ma anche a studiosi come Berrendonner, Beguelin, Ferrari, delle Università svizzere di Ginevra e Neuchatel, e alla romanistica danese con Andersen e Nolke27. Un dato che accomuna queste ricerche è uno studio corpus based e nella maggior parte dei casi aperto al parlato; ma probabilmente è proprio da una ricerca empirica, condotta su corpora orali, che deriva anche l’unanime riconoscimento del ruolo insostituibile dell’intonazione nella determinazione delle entità linguistiche oggetto di studio. Da tale identificazione emerge a sua volta che tali entità non possono essere spiegate secondo i tradizionali parametri della costituenza sintattica. Le soluzioni, come si diceva, sono in parte diverse, ma comune è il riconoscimento di un livello linguistico fino ad ora non identificato e l’ipotesi dell’esistenza di tipologie di relazione “macrosintattica”, ovvero di relazioni oltre la reggenza. Ed è in questa direzione che vengono svolte anche in LABLITA ricerche di tipo morfosintattico, che nell’interpretazione dei fenomeni non prescindono mai dai raggruppamenti segnalati dall’intonazione e caratterizzati dallo svolgimento di funzioni informative. Non è compito di questo contributo scendere nella trattazione di tale argomento, ma quello che in parte abbiamo già indicato28 mostra che esistono relazioni tra le espressioni linguistiche che non possono essere ridotte al solo criterio della gerarchia sintattica e ultimamente della reggenza (microsintassi). Uno degli aspetti principali delle relazioni macrosintattiche è legato alla modalità, sulla base dell’assunzione che ogni espressione attuata ha modalità, ovvero esprime l’atteggiamento del parlante sul contenuto locutivo messo in atto. Da questo discende una differenza fondamentale con la sintassi linearizzata o di competenza: molto semplicemente, mentre ogni configurazione sintattica è dominata da una stessa 26 Il concetto e il termine di macrosintassi era stato proposto da Weinrich nei suoi seminari a Kiel agli inizi degli anni ‘60, portando a ricerche e pubblicazioni nel campo della linguistica tedesca. Ma di fatto l’impostazione era stata abbandonata e la ripresa si deve in primis a C. Blanche-Benveniste e, in genere, ad una linguistica francofona. 27 Si vedano le pubblicazioni che raccolgono i contributi di due recenti Convegni internazionali sulla macrosintassi: Andersen & Nolke (2001); Scarano (2003b). 28 Si veda Cresti (2000) , in particolare il capitolo VIII; Cresti (2003). 23 modalità, l’enunciato attraverso la sua composizione in unità funzionalmente attivate è la risultante di modalità diverse. Nella definizione delle unità d’informazione abbiamo indicato le diverse caratteristiche di modalità di ciascuna di esse29. Questa, per esempio, è una delle ragioni per cui considerare come se fossero linearizzate e, quindi, strutturate secondo una gerarchia sintattica, espressioni che invece sono state prodotte in maniera funzionalmente distinta e, quindi, anche con caratteri precipui di modalità, vuol dire azzerare la loro specificità semantica. Speriamo con queste brevi note di essere riusciti a evidenziare l’importanza di procedere nella ricerca sul parlato a partire da unità di riferimento come l’enunciato e le unità d’informazione, identificate tramite l’intonazione e caratterizzate dalla loro illocuzione e articolazione informativa. Speriamo anche di aver indicato come esse si candidino come quelle unità di riferimento, sulle quali si è svolto un così ampio dibattito in anni recenti, e che appaiono necessarie per ricerche corpus based che intendano proporre dati di frequenza per ogni tipo di fenomeno morfosintattico. BIBLIOGRAFIA Aureli, M. (in questo volume) Le relative non-standard in alcuni corpora di italiano parlato (LIR, LIP, LABLITA, AVIP). Austin, J. L. (1962) How to do things with words. Oxford: Oxford University Press. Andersen, H. L. & Nolke, H. (éds.) (2001) Macro-syntaxe et macro-sémantique. Berne: Peter Lang. Beguelin, M.-J. (2003) Variations entre macro- et micro-syntaxe; de quelques phenomenes de grammaticalisation. In Macrosyntaxe et pragmatique: l’analyse de la langue orale (A. Scarano, éd.), pp. 111-131. Roma: Bulzoni. Berrendonner, A. (2003) Eléments pour une macro-syntaxe. Action communicatives, types de clauses, structures periodiques. In Macrosyntaxe et pragmatique: l’analyse de la langue orale (A. Scarano, éd.), pp. 93-109. Roma: Bulzoni. Biber, D., Johansson, S., Leceh, G., Conrad, S. & Finegan, E. (1999) The Longman grammar of spoken and written English. London: Longman. Blanche-Benveniste, C. (1997) The unit in written and oral language. In Writing development. An interdisciplinary view (C. Pontecorvo, ed.), pp. 21-45. Amsterdam, Philadelphia: Benjamin Publishing Company. Blanche-Benveniste, C. (2003) Le recouvrement de la syntaxe et de la macro-syntaxe. In Macrosyntaxe et pragmatique: l’analyse de la langue orale (A. Scarano, éd.), pp. 53-75. Roma: Bulzoni. Cresti, E. (1987) L’articolazione dell’informazione nel parlato. In Gli Italiani parlati (AA.VV.), pp. 2790. Firenze: Accademia della Crusca. Cresti, E. (1999) Force illocutoire, articulation topic-comment et contours prosodique en italien parlé, Faits de langues, 13, 168-181. Cresti, E. (a cura di) (2000) Corpus di italiano parlato, voll. I-II, CD-Rom. Firenze: Accademia della Crusca. Cresti, E. (2001) Per una nuova definizione di frase. In Studi di Storia della lingua italiana offerti a Ghino Ghinassi (P. Bongrani, A. Dardi, M. Fanfani & R. Tesi, a cura di), pp. 511-550. Firenze: Le Lettere. Cresti, E. (2002a) Illocuzione e modalità. In La parola al testo. Scritti per Bice Mortara-Garavelli (P. Beccarla & C. Marello, a cura di), pp. 133-145. Torino: Ed. Dell’Orso. Cresti, E. (2002b) Alcune riflessioni sulla marcatezza e sul concetto di focus. In L’infinito & oltre. Omaggio a Gunver Skytte (H. Jansen, P. Polito, L. Schlosser & E. Strudsholm, a cura di), pp. 107-129. Odense: Odense University Press. Cresti, E. (2003) Illocution et modalité dans le comment et le topic. In Macrosyntaxe et pragmatique: l’analyse de la langue orale (A. Scarano, éd.), pp. 75-117. Roma: Bulzoni. 29 Si vedano, per la distinzione tra illocuzione e modalità, Cresti (2002a); Cresti (2003). Una comunicazione sulla relazione tra modalità, illocuzione e funzioni informative è stata da me presentata presso il centro di linguistica dell’Università di Lisbona (CLUL) il 4-V-2003. Ne è in preparazione la versione scritta per un volume in onore di G. Nencioni. 24 Cresti, E. (in corso di stampa[a]) Per una nuova classificazione dell’illocuzione a partire da un corpus di parlato (LABLITA). In Atti del VI Convegno internazionale SILFI, Duisburg giugno 2000 (E. Burr, a cura di). Pisa: Cesati. Cresti, E. (in corso di stampa[b]) La categoria della persona: analisi delle forme verbali di un campione di parlato (LABLITA). In Atti del XXXV Congresso SLI, Parigi 20-22 settembre 2001 (M. GiacomoMarcellesi, a cura di). Roma: Bulzoni. Cresti, E. & Firenzuoli, V. (1999) Illocution et profils intonatifs de l’italien, Revue française de linguistique appliquèe, IV-2, 77-98. Cresti, E., Martin, Ph. & Moneglia, M. (1999) L’intonazione delle illocuzioni naturali rappresentative: analisi e validazione percettiva. In Atti delle VIII Giornate di Studio del GFS (R. Delmonte, a cura di), pp. 51-63. Cresti, E. & Firenzuoli V. (2002) L’articolazione informativa topic-comment e comment-appendice: correlati intonativi. In Atti delle XII Giornate di Studio del GFS, “La fonetica acustica come strumento di analisi della variazione linguistica in Italia”, Macerata 13-15 dicembre 2001 (A. Regnicoli, a cura di), pp. 153-160. Roma: Il Calamo. Cresti, E., Moneglia, M., Bacelar do Nascimento, A., Moreno Sandoval, J. V., Martin, Ph., Cresti, E., Choukri, K. & Falavigna, D. (2002) The C-ORAL-ROM project. New methods for spoken language archives in a multilingual romance corpus. In Proceedings LREC 2002, ELRA, Parigi, pp. 2-10. Cresti, E. & Moneglia, M. (in corso di stampa) Il Progetto C-ORAL-ROM. In Atti del XXXIV Convegno SLI, “Italia linguistica anno Mille - Italia linguistica anno Duemila”, Firenze 19-21 ottobre 2000 (N. Maraschio, a cura di). Firenze: Accademia della Crusca. Ferrari, A. (2003) Pour une analyse informationelle de l’écrit. In Macrosyntaxe et pragmatique: l’analyse de la langue orale (A. Scarano, éd. ), pp. 147-173. Roma: Bulzoni. Martin, Ph. & Moneglia, M. (2003) L’intonation des illocutions naturelles représentatives: analyse et validation perceptive. In Macro-syntaxe et pragmatique. L’analyse linguistique de l’oral (A. Scarano, éd.), pp. 243-263. Roma: Bulzoni. Ferri, C. (in preparazione) Caratteristiche morfosintattiche, intonative e di frequenza dell’Appendice di Comment in un Corpus di parlato italiano (LABLITA). Università degli studi di Firenze. Firenzuoli, V. (2000) Ordine e istruzione-Espressione di incredulità e contrasto. Descrizione di profili intonativi dal corpus di italiano parlato LABLITA. In Atti delle X Giornate di Studio del GFS, “Il parlante e la sua lingua”, Napoli 13-15 dicembre 1999 (D. Locchi, a cura di), pp. 99-110. Firenzuoli, V. (2003) Repertorio delle forme intonative di valore illocutivo dell’italiano. Analisi sperimentale di un corpus di parlato spontaneo (corpus LABLITA). Tesi di dottorato (aprile 2003). Firenze: Università degli studi di Firenze. Firenzuoli, V. (in corso di stampa) Verso un nuovo approccio allo studio dell’intonazione a partire da corpora di parlato: esempi di profili intonativi di valore illocutivo dell’italiano. In Atti del XXXIV Congresso Internazionale di studi della SLI, “Italia Linguistica anno Mille - Italia Linguistica anno Duemila”, Firenze 19-21 ottobre 2000 (N. Maraschio, a cura di). Firenze: Accademia della Crusca. Firenzuoli, V. (in questo volume) La forma intonativa di valore illocutivo: un repertorio “corpus based”. Firenzuoli, V. & Tucci, I. (2003) L’unità informativa di inciso: correlati intonativi. In Atti delle XIII Giornate di Studio del GFS, Pisa 28-30 novembre 2002 (G. Marotta & N. Nocchi, a cura di), pp. 185-192. Voghera, M. (1992) Sintassi e intonazione dell’italiano parlato. Bologna: Il Mulino. Giani, D. (2003) Le discours direct rapporté dans l’italien parlé et écrit. In Macro-syntaxique et pragmatique: l’analyse linguistique de l’orale (A. Scarano, éd.), pp. 203-212. Roma: Bulzoni. Giani, D. (in corso di stampa) Il verbo dire nell’italiano parlato: articolazione informativa e sintassi. I Atti del XXXV Congresso Internazionale SLI, Parigi 20-22 settembre 2001 (M. Giacomo-Marcellesi, a cura di). Roma: Bulzoni. Giani, D. (in preparazione) Il discorso riportato nell’italiano parlato e scritto. Tesi di dottorato. Firenze: Università degli Studi di Firenze. Giannelli, L. (1992) Sul valore comunicativo delle pause “vuote” nella narrazione e nel proverbio, nella prospettiva funzionale della frase. In Storia e teoria dell’interpunzione (E. Cresti, L. Toschi & N. Maraschio, a cura di), pp. 311-354. Roma: Bulzoni. Gramigni, P. (2003) Le corpora de LABLITA. Une analyse comparative. In Macrosyntaxe et pragmatique: l’analyse linguistique de l’orale (A. Scarano, éd.), pp. 229-258. Roma: Bulzoni. ‘t Hart, J., Collier, R. & Cohen, A. (1990) A perceptual study of intonation. Cambridge: Cambridge University Press. Hirst, D. & Di Cristo, A. (1998) Intonation System: a Survey of Twenty Languages. Cambridge: Cambridge University Press. 25 <http://lablita.dit.unifi.it>. Lombardi Vallauri, E. (in questo volume) “Pragmaticizzazione” dell’incompletezza semantica nell’italiano parlato: le ipotetiche sospese. MacWhinney, B. (1997) Il progetto CHILDES. Pisa: Ed. Del Cerro. Miller, J. & Weinert, R. (1998) Spontaneous spoken Language: Syntax and Discourse. Oxford: Oxford Clarendon Press. Panunzi, A. (2002) La variazione primaria dei verbi generali ad alta frequenza. Dati quantitativi e qualitativi nel campionamento del corpus di italiano parlato LABLITA. Tesi di Laurea. Firenze: Università degli Studi di Firenze. Panunzi, A. & Moneglia, M. (in questo volume) La variazione primaria del verbo nel lessico dei corpora di parlato. Quirk, R., Greenbaum, S., Leech, G. & Svartvik, J. (1985) A comprehensive grammar of the English Language. London: Longman. Rossi, F. (1999a) Le parole dello schermo. Roma: Bulzoni. Rossi, F. (1999b) Non lo sai che ora è? Alcune considerazioni sull’intonazione e sul valore pragmatico degli enunciati con dislocazione a destra, Studi di Grammatica italiana, XVIII, 145-193. Rossi, F. (in corso di stampa) Tratti pragmatici e prosodici della dislocazione a destra nel parlato spontaneo. In Atti del VII Conferenza SILFI, “Tradizione e innovazione”, Duisburg 28 giugno-1 luglio 2000 (E. Burr, a cura di). Pisa: Cesati. Rossini Faretti, R. (a cura di) (2000) Linguistica informatica. Roma: Bulzoni. Scarano, A. (1999) Aggettivi qualificativi in italiano parlato. Uno studio su corpora di italiano scritto e parlato. Tesi di dottorato. Firenze: Università degli Studi di Firenze. Scarano, A. (2002) Frasi relative e pseudo-relative in italiano: sintassi, semantica e articolazione dell’informazione. Roma: Bulzoni. Scarano, A. (2003a) Les constructions de syntaxe segmentée: syntaxe, macro-syntaxe et articulation de l’information. In Macrosyntaxe et pragmatique: l’analyse linguistique de l’orale (A. Scarano, éd.), pp. 183-201. Roma: Bulzoni. Scarano, A. (éd.) (2003b) Macrosyntaxe et pragmatique: l’analyse linguistique de l’orale. Roma: Bulzoni. Scarano, A. (in questo volume) Enunciati nominali in un corpus di parlato. Appunti per una grammatica corpus based. Scarano, A. & Giani, D. (in corso di stampa) Analisi di alcune strutture nella varietà scritta e parlata dell’italiano contemporaneo. In Atti del XXXIV Congresso internazionale di studi della SLI, “Italia linguistica anno Mille - Italia linguistica anno Duemila”, Firenze, 19-21 ottobre 2000 (N. Maraschio, a cura di). Firenze: Accademia della Crusca. Signorini, S. (in questo volume) Il Topic: criteri di identificazione e correlati morfo-sintattici in un corpus di italiano parlato. Signorini, S. & Firenzuoli, V. (2003) L’unità informativa di topic: correlati intonativi. In Atti delle XIII Giornate di Studio del GFS, “La coarticolazione”, Pisa 28-30 novembre 2002 (G. Marotta & N. Nocchi, a cura di), pp. 177-184. Sornicola, R. (1981) Sul parlato. Bologna: Il Mulino. Tucci, I. (in questo volume) L’inciso: caratteristiche morfosintattiche e intonative in un corpus di riferimento. 26