Ethan Frome - Parlaritaliano
Transcript
Ethan Frome - Parlaritaliano
AVIP Documento di specifiche per la rappresentazione, analisi e codifica dei dati. Trascrizione ed etichettatura dei livelli segmentali. R. Savy 1. INTRODUZIONE. 1.1. Rappresentazione dei dati: trascrizione, etichettatura, codifica. 1.2. Livelli di trascrizione ed etichettatura. 1.3. Segmentazione 2. TRASCRIZIONE ED ETICHETTATURA ORTOGRAFICA. 2.1. Criteri per la trascrizione/annotazione ortografica del corpus AVIP A - . Preliminari generali. B - Strumentazione; nome e formato dei files di trascrizione. C - Trascrizione della sequenza lessicale ed elementi linguistici semi-lessicali D - Trascrizione dei fenomeni verbali non lessicali E - Trascrizione dei fenomeni vocali non verbali F - Trascrizione dei fenomeni non vocali non comunicativi G - Commenti del trascrittore. 2.2. Etichettatura per parole (livello WRD) A - Generazione della lista di parole (files HSW) B - Etichettatura sul segnale (livello WRD). 3. TRASCRIZIONE ED ETICHETTATURA FONEMICA. 3.1. Criteri per la trascrizione fonemica del corpus AVIP (livelli PHM e PHB). 3.2. Etichettatura fonologica standard (livello PHM). 3.3. Etichettatura fonologica regionale o ‘fonetica larga’ (livello PHB). 4. TRASCRIZIONE ED ETICHETTATURA FONETICA. 4.1. Criteri per la trascrizione/etichettatura fonetica del corpus AVIP (livello PHN). A - Tratti e fenomeni fonetici da descrivere. B - Etichettatura fonetica 5. DETTAGLIO DI ALCUNE SOLUZIONI ADOTTATE PER LA CODIFICA DELLE DIVERSE VARIETÀ DEL CORPUS AVIP. 5.1. Definizione del tratto [dialettale] in area toscana (unità di Pisa) 5.2. Differenze nell’etichettatura a livello WRD-PHM per la varietà pisana. 5.3. Differenze nell’etichettatura delle sequenze dialettali e delle disfluenze a livello PHB. 5.4. Sottoinsieme di etichettatura fonetica (PHN) implementato per la varietà pisana. 5.5. Etichettatura di vocali e dittonghi a livello PHN: varietà pisana/varietà napoletana. A - Annotazione dei timbri adottata dall’unità di Napoli. B - Annotazione dei timbri adottata dall’unità di Pisa. C - Etichettatura dei dittonghi effettuata dall’unità di Pisa 5.6. Alcune soluzioni specifiche adottate per l’etichettatura del parlato di bambini ipoacusici. APPENDICE [A] Codici per l’annotazione del testo in trascrizione ortografica APPENDICE [B] Codici Sampa per la trascrizione fonologica APPENDICE [C] Codici X-Sampa per la trascrizione fonetica APPENDICE [D] RIFERIMENTI BIBLIOGRAFICI ed altre fonti utilizzate 1. INTRODUZIONE. Il presente documento costituisce l’insieme delle specifiche adottate per la rappresentazione, l’analisi e la codifica dei dati raccolti per la costituzione del corpus AVIP. Le norme adottate si basano sul tentativo di soddisfare due requisiti fondamentali, quello dell’omogeneità o compatibilità con altri corpora costituiti per lo studio della lingua orale (principalmente in ambito europeo) e quello dell’adeguatezza agli obiettivi proposti nella formulazione del progetto di costituzione del corpus AVIP. La soddisfazione del primo requisito ha richiesto un lavoro di ricognizione degli standard di rappresentazione e codifica messi a punto nei molteplici progetti sviluppati in ambito europeo; alcune di queste proposte verranno riassunte nelle loro linee generali all’interno di questo documento, per aree di interesse, tentando di metterne in luce principalmente gli aspetti che le accomunano tra loro e che costituiscono il terreno su cui si inserisce anche la presente proposta. (Per la rassegna completa delle fonti di riferimento consultate, cfr. APPENDICE [D]) Il tipo di rappresentazione e codifica necessario alla costituzione di un corpus dipende, tuttavia, strettamente dagli obiettivi che ci si prefigge di raggiungere sotto vari aspetti: in primo luogo il tipo di informazioni che si vogliono raccogliere e catalogare e i settori di studio e di ricerca cui si intende servire, ma anche il tipo di utenza cui è rivolto essenzialmente il corpus, l’accessibilità da parte di un’utenza più ampia, gli ambiti di applicazione per i quali la raccolta è rilevante, ecc. La valutazione di tali obiettivi che devono essere primariamente definiti e circoscritti determina i criteri di costruzione, di organizzazione e di rappresentazione del corpus. Il progetto AVIP è nato con lo scopo di costituire un corpus di dialoghi spontanei per lo studio linguistico in generale e soprattutto fonetico della lingua italiana parlata e delle sue varietà; è rivolto dunque primariamente ad un pubblico di ricercatori del settore linguisticofonetico, ma vuole essere aperto ed accessibile a tutti coloro che siano interessati più in generale allo studio delle interazioni verbali e delle strutture linguistiche del parlato, nonché a coloro che lavorano nell’ambito della ricerca tecnologica applicata al parlato (metodi e sistemi di sintesi e riconoscimento automatico). 1.1. Rappresentazione dei dati: trascrizione, etichettatura, codifica. La costituzione di un corpus linguistico (tanto di lingua scritta che di lingua orale) non consiste nella semplice accumulazione sistematica di materiale, ma richiede una riflessione su molti aspetti che incidono in modo diretto sul risultato finale ottenuto (Llisterri, 1997:1) Perché un insieme di dati fonici (in forma di segnale acustico registrato e immagazzinato) costituisca un corpus accessibile da parte di un’utenza varia è necessario che esso sia in primo luogo rappresentato e poi organizzato e dotato di una struttura. Il procedimento di rappresentazione dei dati di un corpus di lingua parlata prevede diverse operazioni effettuabili in stadi separati, successivi o simultanei. Il primo stadio è quello della trascrizione, la conversione del materiale fonico da onda sonora transitoria in forma scritta, fissa e permanente; a questo stadio è prevista anche un’operazione di annotazione, che consiste nella introduzione di informazioni aggiuntive, da parte di chi effettua l’operazione, relative a fenomeni linguistici, situazionali, comunicativi in senso lato, della registrazione, etc.... Il procedimento di trascrizione non richiede necessariamente (almeno per certi livelli, cfr. oltre §1.2) l’accesso alla rappresentazione del segnale acustico digitalizzato, è cioè indipendente dal software di analisi del segnale (Cfr. Wells et al, 1989:160-161). La seconda operazione è quella dell’etichettatura, cioè l’associazione di simboli definiti (etichette) a ciascun determinato elemento del corpus, secondo la definizione delle sue proprietà; in questa fase rientrano altre operazioni come la segmentazione del materiale fonico, l’analisi e l’allineamento temporale; è richiesto pertanto l’accesso ad una rappresentazione del segnale acustico digitalizzato (forma d’onda, sonagramma, etc..). Le decisioni relative a questi aspetti non sono puramente meccaniche, ma richiedono un’attenta analisi linguistica del materiale, accompagnata da una pianificazione globale delle future possibilità di utilizzo del corpus: tutti i tipi di rappresentazione del parlato sono il risultato di un’attività di analisi e classificazione (Gibbon et al., 1997:146). Attraverso l’insieme di operazioni sopra definite si giunge alla creazione di uno schema di codifica tanto dei fenomeni rappresentati ai diversi livelli del corpus, quanto delle loro corrispondenti etichette. La codifica è lo strumento che dota il corpus di una struttura, che permette di mantenere una distinzione tra i dati e la loro forma di rappresentazione e che consente lo scambio e l’utilizzazione del corpus per scopi diversi da quelli per cui è stato costituito (Llisterri, 1997:1-2). 1.2. Livelli di trascrizione ed etichettatura. Si distinguono diversi livelli di trascrizione ed etichettatura del materiale linguistico che costituisce un corpus di parlato. Il tipo e il numero dei livelli che si scelgono dipendono ancora una volta direttamente dall’obiettivo che ci si propone nella costituzione del corpus e sua utilizzazione successiva: se, ad esempio, lo scopo della raccolta dei dati è quello dello studio delle dinamiche conversazionali, sarà pertinente approssimativamente un livello di trascrizione ortografica relativo ai turni della conversazione, arricchito da più livelli di annotazione relativi ad atteggiamenti attitudinali, informazioni contestuali, sovrapposizioni e alternanze di turni, fenomeni gestuali, etc...ed eventualmente un livello di trascrizione prosodica; se lo scopo è quello della codifica lessicale e morfosintattica di testi orali, sarà pertinente un livello di trascrizione ortografica, con annotazioni di tipo sintattico-semantico e un livello di etichettatura lessicale e morfologica. Per quanto riguarda la costituzione di database orientati allo studio fonetico-linguistico del parlato, sono state avanzate diverse proposte sui possibili livelli di trascrizione ed etichettatura all’interno dei vari progetti sviluppati in Europa. All’interno del progetto ESPRIT-SAM (Speech Assesment Methods), da cui sono nati i corpora EUROM-0 e EUROM-1, è stata sviluppata la proposta di Barry & Fourcin (1992) che prevede 5 livelli possibili di trascrizione/etichettatura fonetica: 1) Livello fisico, in cui si etichettano le proprietà acustiche presenti nel segnale sonoro. 2) Livello acustico-fonetico, in cui si marcano le proprietà dei segmenti in termini di categorie fonetiche come occlusione, frizione, sonorità, nasalizzazione... 3) Livello di trascrizione stretta, in cui si caratterizzano i segmenti fonetici utilizzando i simboli di un alfabeto fonetico. 4) Livello di trascrizione fonologica, in cui si segnalano solo gli elementi funzionalmente distintivi che si incontrano in parole pronunciate in isolamento (citation form). 5) Livello di trascrizione larga, in cui attraverso i simboli corrispondenti agli elementi fonologici si trascrivono realizzazioni allofoniche condizionate dal contesto. A questi si aggiunge la annotazione prosodica, considerata indipendente. Una proposta simile è quella sviluppata all’interno del progetto PHONDAT (cfr. Tillmann & PompinoMarschall, 1993) che prevede ancora 5 livelli di etichettatura: acustico-subfonemico, segmentale, realizzazioni fonetiche, forma canonica lessicale, ortografico. All’interno dell’iniziativa EAGLES (cfr. Gibbon et al, 1997) la questione della trascrizione/etichettatura di corpora orali è stata affrontata da due diverse prospettive: quella della fonetica acustica e tecnologia del parlato e quella della linguistica del corpus. Alla prima risale il lavoro del SLWG (Spoken Language Working Group) che raccomanda (sulla base delle proposte sviluppate in progetti come SAM, PhonDat, SpeechDat, Verbmobil, etc...) una procedura di trascrizione in 9 livelli, corrispondenti ai 5 di Barry & Fourcin (1992), cui si aggiungono: 6) un livello primario ed ineliminabile di trascrizione/etichettatura ortografica; 7) un livello di annotazione morfosintattica, semantica e pragmatica; 8) un livello di trascrizione/etichettatura prosodica; 9) un livello di annotazione dei fenomeni non linguistici, prodotti dal parlante o esterni, e paralinguistici. Tra le molte raccomandazioni del Gruppo SLWG è bene sottolineare le seguenti due: - scegliere i livelli di trascrizione/etichettatura più adeguati agli obiettivi del corpus ed evitare di imbarcarsi, se non necessario, nelle procedure di trascrizione stretta di livello più basso (livelli 1-3) - documentare accuratamente tutte le fasi della procedura di trascrizione/etichettatura. Per la codifica del corpus AVIP, in considerazione dei suoi obiettivi primari, sono stati proposti come pertinenti i seguenti livelli di trascrizione/etichettatura: 1) ortografica, con annotazione aggiuntiva di fenomeni non linguistici (§2) ; 2) fonologica standard, per ‘citation forms’ (§3 [3.2]); 3) fonologica delle varietà o fonetica larga, per segmenti fonemici (§3 [3.3]) 4) fonetica stretta (con alcune limitazioni, cfr. §4); 5) prosodica (per questo livello è presente un documento di specifiche separato). Ognuno dei paragrafi di questo documento dedicato ai criteri adottati per la trascrizione/etichettatura di AVIP, fa esplicito riferimento ai dialoghi del corpus prodotti con il metodo del Map task, per i quali si considerano le produzioni di entrambi i parlanti (Giver e Follower); tuttavia i medesimi criteri sono stati applicati anche al materiale raccolto con metodo differente per la porzione di corpus dedicata al parlato infantile, per il quale sono state prese in esame le sole produzioni del bambino (Follower). 1.3. Segmentazione Una questione fondamentale nella etichettatura di database di parlato riguarda la scelta del tipo di procedura di segmentazione da adottare, automatica o manuale. Una procedura di segmentazione automatica consente di etichettare grandi masse di dati, riducendo i costi in termini di tempo e sforzo; lo svantaggio di questa soluzione consiste in un basso grado di accuratezza nella definizione dei confini (Gibbon et al. 1997:153-154). In genere l’affidabilità della segmentazione automatica decresce con l’aumentare del livello di ‘finezza’ dell’etichettatura: l’etichettatura lessicale-ortografica di una lista di parole isolate è un procedimento più semplice dell’etichettatura di segmenti fonemici e/o fonetici di sequenze di parlato continuo e/o spontaneo, essendo il rapporto tra segnale acustico ed etichetta linguistica più chiaro e definito (Wells et al., 1989:161:162). La segmentazione manuale assicura una maggiore accuratezza (sebbene con diversi gradi di accordo fra i trascrittori, cfr. Eisen, 1993; Cole et al. 1994; Cosi & Omologo, 1991), ma implica tempi molto lunghi e pertanto mal si adatta alla etichettatura di database molto ampi; essa richiede inoltre la definizione esplicita di criteri procedurali per assicurare l’omogeneità (intra- e inter- trascrittori) delle operazioni. Dati questi presupposti, la soluzione più spesso adottata è quella di un procedimento semi-automatico di segmentazione in cui, alla fase di definizione automatica dei confini segue una fase di controllo e modifica manuale (Gibbon et al.,1997:153). Per l’etichettatura del corpus AVIP, la procedura di segmentazione adottata è in parte direttamente dipendente dal software di ausilio (la cui architettura è definita e descritta in altro documento specifico), in parte regolata da criteri comuni basati sull’esperienza nel campo della fonetica strumentale. La segmentazione avviene in maniera semiautomatica: il sistema provvede a fornire inizialmente un’ipotesi di segmentazione ai livelli gerarchicamente più bassi (cioè quelli legati al segnale, PHB e PHN, cfr. §3 e §4); l’operatore può accettare l’ipotesi fornita dal sistema oppure modificarla a suo piacimento spostando i marcatori, annullandoli o inserendone altri. Per garantire una uniformità negli interventi dei vari operatori addetti alla procedura è necessario, tuttavia, che siano fissati dei criteri ed adottata una strategia di segmentazione comune. A questo scopo si è fatto riferimento ad una serie di ‘regole operative’ suggerite e sviluppate all’interno del progetto ESPRIT-SAM 2589 (cfr. Cosi & Omologo, 1991:376). Le due regole di procedura fondamentali sono le seguenti: REGOLA N. 1 - Individuati visivamente sulla forma d’onda temporale o sullo spettrogramma del segnale evidenti "eventi acustici"... questi dovrebbero essere immediatamente indicati [...] REGOLA N. 2 - Nei casi di incertezza .... individuate uditivamente e visivamente sulla forma d’onda o sullo spettrogramma del segnale due possibili unità ... adiacenti tra loro, si procede all’ascolto iterativo di una porzione estesa di segnale,...compresa in una finestra posizionata in modo tale che il suo bordo destro inizialmente consenta l’ascolto solo della prima delle due unità e successivamente, in modo progressivo, si sposti verso destra fino a che anche la seconda unità possa essere percepita. Memorizzata questa posizione, si ripete la procedura appena utilizzata, considerando in questa seconda fase una finestra di segnale di dimensioni equivalenti alla precedente, ma posizionata questa volta alla sinistra del confine di possibile separazione delle due unità. [...] Memorizzata anche la seconda posizione, si utilizzerà, come effettivo confine di separazione fra le due unità, la posizione corrispondente all’ ‘evento significativo’ più vicino al punto medio relativo ai due cursori precedentemente ottenuti. A queste regole principali si aggiungono una serie di suggerimenti pratici, relativi a situazioni particolari (cfr. anche Salza, 1991). Si tratta, in linee generali, di una procedura che si basa prevalentemente sulla valutazione uditiva di porzioni di segnale e fa ricorso, solo secondariamente, all’osservazione dei parametri acustici. Il risultato di questo processo è la definizione dei confini tra i segmenti e delle relative caselle di etichettatura. Anche il procedimento di analisi, attraverso il quale si è giunti alla trascrizione, è stato in prima istanza uditivo, accompagnato da verifiche strumentali; queste ultime sono state basate essenzialmente su due tipi di rappresentazione: • la forma d’onda del segnale; • lo spettrogramma basato su analisi FFT. 2. TRASCRIZIONE ED ETICHETTATURA ORTOGRAFICA. Il primo livello di trascrizione da prendere in considerazione è dunque quello della rappresentazione del testo completo prodotto dal parlante, utilizzando la forma ortografica convenzionale. Questo livello di rappresentazione è comune a tutti i tipi di corpora orali, qualunque sia la loro applicazione (dall’analisi delle interazioni verbali conversazionali, allo sviluppo di sistemi di sintesi e riconoscimento di parlato). Proprio per questo motivo, è stata sviluppata una gran quantità di proposte di codifica ortografica del testo. Di particolare importanza è il progetto internazionale della TEI (Text Encoding Initiative) che si propone la messa a punto di uno standard per la codifica di testi letterari e linguistici (SGML- Standard Generalized Markup Language): una parte dell’iniziativa è dedicata alla trascrizione di corpora orali e alla rappresentazione degli elementi strutturali di base - informazioni contestuali, informazioni temporali, enunciati, pause, elementi vocali non lessicali -, degli elementi paralinguistici - tempo, tono di voce, ritmo, rango tonale, qualità di voce -, delle sovrapposizioni di turno, degli elementi prosodici, etc... La TEI ha dato origine a varie applicazioni come CES (Corpus Encoding standard) e MULTEXT (Multilingual Text Tools and Corpora) che si occupano di fornire specifiche di codifica e annotazione di testi di parlato, ma a livello prevalentemente morfo-sintattico, lessicale e prosodico1. Un’altra iniziativa, la DRI (Discourse Resource Initiative) e il Multiparty Discourse Group (sottoparte della DRI) fornisce un diverso schema di annotazione (DAMSL - Dialogue Acts Mark-up in Several Layers) per la trascrizione e la codifica di dialoghi in termini di speech acts (atti illocutivi), informazioni sullo status comunicativo dei dialoghi, classificazione del contenuto degli enunciati e relazioni tra dialoghi e prosodia2. Altri schemi di trascrizione/annotazione/etichettatura ortografica, meno complessi e più orientati alla trascrizione di corpora per lo studio prevalentemente fonetico del parlato, sono stati sviluppati dal Gruppo di Lavoro sui Testi Orali e il Gruppo di Lavoro sulla Lingua Orale di EAGLES, all’interno dei progetti SPEECHDAT e all’interno del progetto Verbmobil-KIEL CORPUS. Le differenze maggiori tra i vari schemi di trascrizione/annotazione/etichettatura riguardano il ‘come’ della procedura, cioè l’uso di strumenti, di etichette e di metodologie diverse; c’è invece sostanziale accordo e omogeneità sia sui principi generali che regolano la procedura, sia sul ‘cosa’ trascrivere e annotare. Tra i criteri generali per una buona trascrizione (riassunti in Edwards, 1993) i principali sono quelli della sistematicità e predicibilità, e quello della leggibilità del testo trascritto, che si ottiene attraverso alcuni accorgimenti: iconicità delle dimensioni tempo-spazio, prossimità di trascrizione di eventi correlati, separabilità visiva di eventi diversi, priorità logica nella codifica di informazioni utili all’interpretazione di eventi successivi, uso di marche facilmente memorizzabili e compattezza di annotazione. Per quel che riguarda gli elementi minimi che è necessario rientrino nella procedura di trascrizione/annotazione, si considerano generalmente i seguenti: - documentazione sociobiografica del parlante; - informazioni generali circa la situazione comunicativa; - informazioni generali circa le caratteristiche e la qualità di voce; - alternanze e sovrapposizioni di turni dialogici; - sequenza lessicale di ciascun turno; - uso di una punteggiatura minima che renda il testo leggibile e interpretabile; - altri fenomeni linguistici (semi-lessicali), come abbreviazioni, spellings, sequenze di lettere, sequenze di numeri, forme ridotte di parole (abbreviazioni) e forme troncate, errori di pronuncia, interiezioni; - fenomeni linguistici-verbali non lessicali, come articolazioni di esitazione, pause piene e vuote, false partenze, allungamenti di programmazione; - fenomeni vocali non verbali prodotti dal parlante, come colpi di tosse, risate, starnuti, sospiri, inspirazioni, rumori vari prodotti con le labbra o la lingua, raschiamenti di voce...; - fenomeni non vocali e non comunicativi, come rumori di fondo, rumori di strada, rumori di carta.... - commenti vari del trascrittore sul contenuto linguistico (es: forme o sequenze inintellegibili, varianti dialettali, etc...) e sulla registrazione (accidenti vari come interruzioni, abbassamenti di volume, etc...). Altra caratteristica comune ai sistemi di annotazione di dialoghi è l’incorporazione dell’informazione prosodica nel livello di trascrizione ortografica, ma ciò accade perché pochi dialoghi sono trascritti ed etichettati 1 Lo schema di annotazione SGML della TEI è utilizzato nei progetti COBUILD e, nelle linee essenziali con qualche modifica, nel HCRC-Maptask Corpus. 2 Alcuni dialoghi annotati con DAMSL sono all’interno dei progetti TRIPS, VERBMOBIL e MAPTASK. foneticamente. Nella procedura proposta in EAGLES e nei progetti di corpora per la fonetica (Speechdat, Verbmobil, PhonDat, Polyphone...), la trascrizione prosodica viene data a parte con relativa etichettatura e allineamento al segnale (curva di f0). Su questi stessi principi generali e sulle linee principali condivise da tutte le proposte si basa lo schema di trascrizione, annotazione ed etichettatura ortografica adottato per il corpus AVIP. 2.1. Criteri per la trascrizione/annotazione ortografica del corpus AVIP Per una lista completa dei codici utilizzati nella trascrizione ortografica, si rimanda alla tabella in APPENDICE [A]. A - . Preliminari generali. 1) Per la parte del progetto cui si riferisce questo documento non è stato previsto alcun livello di annotazione di tipo morfo-sintattico, lessicale, semantico-testuale3. 2) La fase di pura trascrizione, preliminare e indipendente dalla visualizzazione di qualunque forma di rappresentazione del segnale acustico (forma d’onda, spettrogramma, etc...), è stata effettuata a partire dal semplice ascolto del materiale registrato. 3) La trascrizione è stata effettuata in stadi successivi di ‘complicazione’ o arricchimento, vale a dire concentrando dapprima l’attenzione sul contenuto linguistico-lessicale del testo e incorporando, in una o più fasi successive, la punteggiatura interpretativa, l’annotazione dei fenomeni non lessicali, vocali non verbali, non vocali e i commenti del trascrittore. 4) L’annotazione del testo fa uso di codici specificati in lingua italiana. 5) Uno degli scopi della trascrizione è stata la generazione di un testo disponibile successivamente per la fase di analisi ed etichettatura. 6) La trascrizione e annotazione riguarda tutti e solo gli eventi acustici (linguistici e non linguistici) udibili; ciò considerando che tali eventi sono presenti nella forma d’onda del segnale e richiedono una valutazione ad ogni fase di etichettatura. Per lo stesso motivo, tutto quanto si verifichi a basso livello sonoro e non sia intrusivo per il segnale è stato omesso dall’annotazione. 3 L’annotazione testuale è stata effettuata in altra fase del progetto, prendendo come punto di riferimento le trascrizioni semplici così prodotte ed implementandole con sistemi di codifica specifici. Per questo si rimanda al documento apposito. 7) Ogni evento udibile è stato annotato nella trascrizione nella sua corretta posizione temporale; se un evento si verifica contemporaneamente a una parte di testo (sequenza lessicale) o altro evento è stato collocato prima dell’inizio del testo cui si riferisce e è stata indicata la sequenza cui si sovrappone. B - Strumentazione; nome e formato dei files di trascrizione. 1) Per la trascrizione è stato utilizzato un editor di testo. 2) I file di trascrizione sono stati immagazzinati in formato testo (TXT). Ogni file contiene la trascrizione relativa ad un intero dialogo realizzato con una coppia di mappe e dunque la trascrizione dei turni di una coppia di parlanti. 3) Per i nomi dei file di testo è stato utilizzato un formato compatibile e paragonabile facilmente a quello proposto per i file di analisi ed etichettatura generati dal software di ausilio, che contiene: • un codice della lunghezza di una lettera identificativo della mappa con la quale è stato realizzato il dialogo; • due cifre identificative del numero del dialogo; • una lettera identificativa della varietà d’italiano parlata. Sono ovviamente assenti il codice identificativo del ruolo dell’informatore e quello identificativo del numero di turno del parlante (sostituiti da una serie di ‘_’). Esempio: A01____N. TXT si riferirà alla trascrizione del dialogo 01, realizzato con la coppia di mappe A nella varietà di italiano N. 4) All’interno di ciascun file è presente un’intestazione in cui sono contenute alcune informazioni generali circa la produzione del dialogo e i parlanti (le stesse sono contenute nel file di intestazione .HDR per il software di costruzione dell’archivio). Le righe di testo hanno le seguenti denominazioni e formati: ING: (informazioni sull’Instruction Giver: nome, età, sesso, eventualmente segni particolari e generali sulla qualità di voce) INF: (informazioni sull’Instruction Follower: nome, età, sesso, eventualmente segni particolari e generali sulla qualità di voce) LOC: (luogo e data della registrazione) DUR: (durata totale del dialogo) CON: (condizioni generali della registrazione: ad esempio se esistono parti non registrate o particolarmente rumorose, interventi di altre voci, etc...) CMT: (eventuali commenti generali del trascrittore) 5) L’unità di trascrizione all’interno del file è il turno dialogico di ciascun parlante. Per ‘turno’ è stata considerata la ‘presa di parola’ da parte di uno dei due interlocutori, sia che essa interrompa effettivamente il turno dell’altro locutore, sia che si sovrapponga a quest’ultimo senza costituire necessariamente interruzione (per esempi di sovrapposizione senza interruzione, si veda al punto E.3). Di norma non è stata considerata interruzione di turno la presa di parola con funzione fatica (per esempio, manifestazioni di assenso, espressioni di esitazione, sorpresa, disappunto da parte dell’interlocutore, false partenze e simili): in questi casi si è ritenuta fondamentale indicazione di unità la coerenza semantico-pragmatica interna alla produzione di uno stesso locutore. Tuttavia, l’interpretazione di alcuni casi è inevitabilmente condizionata da un qualche grado di soggettività. 6) Ogni turno è preceduto da un indice di una lettera (identificativa del parlante e suo ruolo: G = Instruction Giver; F = Instruction Follower) e di un numero a tre cifre (indicante l’ordine di turno del dialogo). La numerazione dei turni all’interno del dialogo è rigidamente sequenziale, per evitare sfasature tra i due locutori. Esempio: G047 è il turno numero 47 del parlante con ruolo di Instruction Giver. F048 è il turno numero 48 del parlante con ruolo di Instruction Follower (immediatamente seguente il precedente G047). 7) L’indice è seguito da un ‘due punti’ (:) e 2 spazi bianchi prima dell’inizio del testo. Ogni riga successiva di testo inizia con 7 spazi bianchi (perché risulti allineata alla precedente, nel formato ASCII). 8) Alla fine di ciascun turno possono essere inserite, dopo una riga bianca, una o più righe di commenti del trascrittore. 9) Tra un turno e il successivo sono inserite due righe bianche. 10) La presenza di una pausa percepita tra un turno e il successivo è segnalata su una riga a parte, separata da due righe dal turno precedente e dal successivo (cfr. oltre, punto D.1). 11) I segni di punteggiatura sono separati dal testo con uno spazio bianco. C - Trascrizione della sequenza lessicale ed elementi linguistici semi-lessicali 1) La sequenza lessicale è stata trascritta in linea di massima senza utilizzare lettere maiuscole. Queste sono limitate alla trascrizione di nomi propri e sigle (es: Sara, AVIP). 2) Nel caso di parole che prevedono più forme possibili di scrittura (es: finora o fin’ora o fin ora) ne è stata scelta una (ricorrendo all’uso di un dizionario) ed è stata mantenuta la stessa forma di trascrizione per tutto il testo. 3) Le parole in forma ridotta sono trascritte secondo la pronuncia (es: prof per professore); nel caso di forme con aferesi o elisione è stato utilizzato l’apostrofo convenzionale (es: ‘ste per queste, m’ha per mi ha...) 4) Frammenti di parole non finite (disfluenze) sono marcati con ‘+’ alla fine del frammento (es: non lo ve+, non lo vedo) 5) Eventuali interruzioni interne all’elemento lessicale sono marcate con ‘_’ (es: mon_tato) 6) Errori di pronuncia e lapsus che danno luogo a non-parole sono marcati con ‘*’ all’inizio della parola (es: *altanelante per altalenante); ciò serve a distinguerli in maniera non ambigua da eventuali errori di battitura. 7) Le forme dialettali sono state trascritte cercando di seguire il più possibile la pronuncia e adottando un criterio di normalizzazione per la scrittura, mantenuto invariato per ogni occorrenza del termine (es: guaglione) 8) Le sequenze di lettere che formano sigle o acronimi sono trascritte così come pronunciate e quindi: se la sigla e/o acronimo è stata sciolta in sequenza di parole, è trascritta come parola (es: AVIP); se la sigla e/o acronimo è stata pronunciata scandendo ciascuna lettera componente in forma fonetica, le lettere sono state trascritte in maiuscolo, tra ‘//’ e separate da uno spazio. (es: /A/ /V/ /I/ /P/); se la sigla e/o acronimo è stata pronunciata scandendo ciascuna lettera in forma di citazione alfabetica, è trascritta secondo la forma usata e le lettere sono separate da un ‘-’ (es: A-Vu-I-Pi oppure A-Vi-I-P). 9) Le sequenze di numeri non sono state trascritte in forma di cifre, ma secondo il modo in cui sono state pronunciate (es: ventinovemila, centouno oppure cento e uno...). 10) Punteggiatura: è stato utilizzato un inventario minimo di punteggiatura che comprende i simboli ‘?’ per la frase interrogativa, ‘!’ per le esclamazioni, e ‘,’ per confini sintatticosemantici chiaramente percepiti, come, ad esempio, le frasi parentetiche (es: lei mi ha dato qualcosa da leggere ? no, mi sembra). Questo livello di punteggiatura non deve essere inteso come una trascrizione di tipo prosodico. D - Trascrizione dei fenomeni verbali non lessicali Questa categoria di fenomeni prevede l’annotazione tra < > . 1) Le pause vuote sono state annotate distinguendo diverse categorie: nel caso in cui il flusso logico del discorso non risulti interrotto e l’enunciato continui dopo la pausa: ‘<pb>’ per una pausa breve, ‘<pl>’ per una pausa lunga (la vedi ? <pb> sulla sinistra <pl> c'è scritto fiume); Le pause a fine turno sono indicate come <pb> o <pl>, secondo la lunghezza e collocate su una riga a parte; Qualora una pausa, di lunghezza notevole, interrompa l’enunciato e il discorso riprenda con un altro enunciato, verrà marcata con <P> (es: ma tu <P> no, vabbè allora fai una cosa…); 2) Le pause piene possono essere di due tipi: se riempite da fenomeni interiettivi in senso lato, sono trascritte con due tipi di marche, <eeh> per la semplice vocalizzazione, <ehm> per la nasalizzazione con o senza vocalizzazione (es: <ehm> vabbè allora <eeh> fai un mezzo cerchio…); se riempite da allungamenti dell’ultima vocale o (più raramente) consonante di parola, saranno marcate con la duplice ripetizione della vocale <vv> o consonante <cc> alla fine dell’elemento lessicale interessato (es: allora<aa>…; con<nn>…; il simbolo tra <> è da intendersi come puramente convenzionale, indipendentemente dal timbro e durata effettivi con cui è realizzato). 3) Le articolazioni di esitazione sono state trattate come le pause piene di primo e secondo tipo; è stato segnalato inoltre l’allungamento consonantico iniziale (quando significativo) con il simbolo <cc> all’inizio dell’elemento lessicale interessato (es: <ss>sì) 4) Le segnalazioni di assenso sono annotate simbolicamente in 5 categorie: <eh>, <ah>, <mh>, <ahah>, <mhmh>; a queste si aggiunge il simbolo <’mbè> con valore di assenso o domanda <’mbè?>. 5) Il simbolo <oh> segnala la fine di un sub-task e l’inizio di un nuovo sub-task. 6) Le esclamazioni (espressioni di sorpresa, soddisfazione,etc..) sono seguite da ‘!’ (<ah!>, <oh!>, <eh!>) 7) Le false partenze senza pausa di interruzione sono marcate con ‘/’ (es: ma tu / dove sta questa figura?). E - Trascrizione dei fenomeni vocali non verbali Tutti i fenomeni di questo tipo sono trascritti tra < > e inseriti nella esatta collocazione dentro il testo, prima di eventuali segni di punteggiatura (es: ma che stai dicendo <risata> ?). 1) Sono previsti i seguenti 7 tipi di annotazione: <risata>, <tosse>, <starnuto>, <sospiro>, <inspirazione>, <schiocco di lingua>, <raschiamento>; altri fenomeni non classificabili sotto queste etichette saranno annotati genericamente come <f.vocale>. 2) Sovrapposizioni. Nel caso in cui il fenomeno vocale si verifichi in contemporanea ad una sequenza lessicale, è stato inserito prima dell’inizio della sequenza in questione; i due eventi contemporanei sono delimitati da ‘#’ prima e dopo, senza inserimento di spazi bianchi: esempio: # <risata> ma che stai dicendo ?# indica che la <risata> si sovrappone all’intera sequenza ‘ma che stai dicendo?’. 3) Sovrapposizioni di turno: la sequenza cui si sovrappone la produzione dell’altro locutore è delimitata da ‘#’ prima e dopo e preceduta dalla notazione tra < > del codice di turno cui è sovrapposta; naturalmente lo stesso avviene nel turno corrispondente dell’altro informatore: esempio: G007: #<F008> <pl> sulla# sinistra <pb> c'è scritto fiume F008: #<G007> no# <pl> non c'è 4) Sovrapposizioni multiple: nel caso di sovrapposizioni di più fenomeni vocali (di vario tipo) e/o di un turno (o parte di esso) a sequenze lessicali di estensione diversa si è ritenuto opportuno l’utilizzo aggiuntivo di { } (parentesi graffe) direzionali per delimitare propriamente i margini destro e sinistro della sequenza interessata da uno dei due elementi. In questi casi il simbolo # è dedicato all’indicazione di sovrapposizione di turno, la parentesi al fenomeno di altro tipo4. Se i fenomeni (e/o annotazioni) sono più d’uno, alla fine della sequenza interessata racchiusa tra { } è stato anche ripetuto l’elemento notazionale: Esempi: 1) G001: io #<F002> non ce l’ho {<risata> il banano}# 2) G001: io #<F002> non ce l’ho {<risata> questo# banano} 3) G001: #<F002> io non {<risata> ce l’ho# {[sottovoce] questo <risata>} banano [sottovoce]} L’esempio (1) indica che all’intera sequenza ‘non ce l’ho il banano’ si sovrappone il (o parte del) turno F002 ed alla sola porzione ‘il banano’ si sovrappone anche un fenomeno vocale (risata) prodotto dallo stesso parlante G. L’esempio (2) indica che alla sequenza ‘non ce l’ho questo’ si sovrappone il turno F002, mentre alla sequenza ‘questo banano’ si sovrappone la risata. Nell’esempio (3), il turno F002 si sovrappone a ‘io non ce l’ho’, la risata si sovrappone a ‘ce l’ho questo’ e l’annotazione di tono di voce (cfr. oltre, G.2) si riferisce alla sequenza ‘questo banano’. 5) Parole o sequenze inintellegibili sono state sostituite dall’annotazione <inintellegibile>. F - Trascrizione dei fenomeni non vocali non comunicativi 1) Tutti gli eventi acustici non prodotti dal parlante (come rumori di strada, di fondo, di carta, etc...) sono stati annotati indistintamente come <RUMORE>. 2) Per la collocazione e la sovrapposizione con sequenze di parlato valgono le stesse norme di cui ai punti E.2-4 (es: ma che stai <RUMORE> dicendo ?, oppure #<RUMORE> che mi stai dicendo ?#, etc...) 4 In alcuni casi di sovrapposizione non ambigua possono essere stati mantenuti i cancelletti multipli (questa G - Commenti del trascrittore. 1) I commenti generali del trascrittore sono per lo più nell’intestazione del file (cfr. B4, CMT), se si riferiscono all’intero dialogo o in una riga a sé alla fine del turno, se si riferiscono ad un singolo turno (cfr. B8). 2) Tuttavia, commenti a proposito di parti delimitate di testo sono stati annotati tra parentesi quadre [ ]: ad esempio significativi cambi di voce come [bisbigliando], oppure [gridando]. Per la collocazione e la sovrapposizione col testo, si veda sopra ai punti E.2-4, F.2 (es: # [gridando] ma che stai dicendo ?#) 3) Le forme dialettali sono state annotate con [dialettale] dopo l’elemento lessicale se si riferiscono ad una sola parola (es: guagliò [dialettale]), o prima di una sequenza, sempre inclusa tra #, se si riferiscono a più d’una parola (es: #[dialettale] c’a ditto ?#). NOTA: La definizione del tratto [dialettale] può differire in misura notevole tra le diverse varietà di italiano di cui è costituito il corpus AVIP: per maggiori dettagli si veda il §5.1. 2.2. Etichettatura per parole (livello WRD)5 A - Generazione della lista di parole (files HSW) 1) A partire dal testo in trascrizione ortografica sono stati generati altri files contenenti ciascuno la trascrizione di un singolo turno dialogico. 2) I files hanno nome identico al file di trascrizione del dialogo da cui provengono, con indicazione aggiuntiva del numero di turno, ed estensione ‘.HSW’. Esempio: A01G003B.HSW si riferisce alla trascrizione del turno G003 del dialogo 01, realizzato con la coppia di mappe A nella varietà di italiano B. 3) I files di trascrizione dei turni costituiscono l’input (sotto forma di elenco) per l’implementazione del livello di etichettatura WRD (cfr. punto B) e per il sistema di conversione automatica che genera la trascrizione fonologica del testo (livello PHM, cfr. oltre soluzione è stata adottata, ad esempio, nelle trascrizioni del corpus pisano). 5 La descrizione dei livelli di etichettatura contenuta in questi paragrafi riflette un criterio sequenziale ‘dall’alto verso il basso’ (secondo il modo in cui i files vengono visualizzati dal programma) e non la sequenza delle fasi di etichettatura e di costruzione del database (per la quale cfr. il documento specifico di architettura del software). §3.2). 4) Al fine di consentire la corretta lettura e conversione da parte del software di ausilio, relativamente all’indicazione degli accenti di parola, si è reso necessario adottare i seguenti accorgimenti: a) i caratteri accentati delle parole ossitone sono stati sostituiti da V+ " (doppie virgolette; es: è → e"; città → citta", etc...); b) le parole troncate che danno come risultato forme ossitone (es: anda’ per andare) sono trascritte come le precedenti (→ anda" ); c) le parole troncate che danno come risultato forme non-ossitone (es: prende’ per prendere) mantengono la grafia con apostrofo (prende’). B - Etichettatura sul segnale (livello WRD). 1) Per la fase di etichettatura ortografica allineata al segnale (effettuata utilizzando il software di ausilio), l’unità di acquisizione è il turno trascritto nel file .HSW che viene ‘letto’ automaticamente dal programma. 2) L’etichettatura sul segnale rende automaticamente disponibile, per ciascun turno, un file ascii .WRD ‘linkato’ a quello contenente il segnale, in cui ogni parola etichettata è accompagnata dalla segnalazione del valore temporale degli istanti di inizio e fine. 3) Nella finestra di etichette predisposta (WRD = parole) la segmentazione del segnale in parole è allineata alla segmentazione dei livelli inferiori: ogni parola ha come confine un estremo che corrisponde ad un confine di qualche segmento inferiore. 4) La segmentazione ed etichettatura in parole presuppone una definizione precisa di ciò che si intende con ‘parola’ nella trascrizione: si è ritenuto opportuno utilizzare la convenzione della lingua scritta per cui parola è ‘ciascuna sequenza di lettere compresa tra due spazi bianchi e non interrotta al suo interno’. 5) Tuttavia, anche le forme ortografiche legate da apostrofo, che costituiscano o meno ‘parole fonologiche’, sono state considerate come parole unitarie ed etichettate in un’unica casella (dunque |l’anima|, ma anche |quest’anima|)6 6 Lo stesso criterio si applica anche a forme che possono essere considerate dialettali, annotate in trascrizione ortografica con apostrofo: per esempio le varianti dialettali dell’articolo determinativo, come l’abeti per gli abeti è stata trattata al pari di l’abete. Le sequenze di numeri sono state considerate come un’unica parola (es: |millenovecentonovantotto|) Le sequenze di lettere in spelling fonetico o in forma di citazione (cfr. §2.1 C8) di sigle sono state considerate come parole separate. 6) Sono stati etichettati a livello WRD tutti gli elementi descritti in §2.1 C; D; E; F; la cui annotazione è mantenuta tra <>. Esempio: WRD: |<f.vocale>| #<F002> questo# |....... 7) Non sono stati invece etichettati i commenti annotati tra [] (che vengono automaticamente filtrati dal programma). 8) Le parole non realizzate (prevalentemente monosillabiche) sono state etichettate nella casella della parola successiva tra ( ) Esempio: WRD: |quando| (e") uscito |...... 9) Il marker di inizio della prima parola del turno (quando non corrisponde all’inizio assoluto del file) è stato etichettato col simbolo ‘__’ (doppio underscore) 3. TRASCRIZIONE ED ETICHETTATURA FONEMICA. Il secondo livello di trascrizione/etichettatura previsto per un corpus di parlato è quello della trascrizione fonemica (o fonologica), in cui vengono resi simbolicamente solo gli elementi distintivi della lingua (fonemi), categorie astratte cui le realizzazioni concrete si riferiscono. Questo livello (preso in considerazione nei progetti di corpora per lo studio fonetico-linguistico) è variamente interpretato e descritto nell’ambito delle diverse proposte di standardizzazione e adottato con modalità differenti nei vari progetti. In linea di principio vengono considerati due livelli distinti di trascrizione fonemica: 1) la trascrizione in ‘forma di citazione’ o ‘forma canonica’, in cui vengono rappresentate le forme di pronuncia isolata delle parole; 2) la trascrizione ‘fonotipica’ (detta anche fonetica larga), in cui, oltre agli elementi propriamente distintivi, vengono normalmente rappresentati anche i fenomeni di fonosintassi e le varianti allofoniche condizionate dal contesto e perciò predicibili. L’inclusione, nella procedura di etichettatura di un corpus, della ‘forma canonica’ risponde ad una doppia logica, legata soprattutto a necessità tecnologiche: in primo luogo, questa forma permette di derivare automaticamente, attraverso un set di regole, il secondo livello di trascrizione (fonotipica); in secondo luogo, a partire dalle forme canoniche si può generare automaticamente un dizionario fonetico, partendo da un corpus trascritto (Llisterri, 1997:14). Questo livello è, infatti, direttamente relazionato con quello di rappresentazione ortografica: anche tecnicamente è sviluppato attraverso programmi di conversione automatica grafema-fonema. La trascrizione ‘fonotipica’, sviluppata nei progetti SAM, costituisce, invece, un livello intermedio tra la rappresentazione fonetica e quella puramente fonologica. A questo stadio, di norma, non è richiesto ancora il ricorso al segnale e alla forma effettivamente prodotta, realizzata dal parlante: la trascrizione è realizzata automaticamente attraverso un sistema di regole e un set chiuso di allofoni che permettono di raggiungere il compromesso tra la pronuncia isolata e la pronuncia in parlato connesso (cfr. per esempio, Mariño & Llisterri, 1993). Tuttavia, Barry & Fourcin (1992:10), che si riferiscono a questo livello come ‘trascrizione fonetica larga’, lo intendono riferito direttamente al segnale. Kohler et al. (1995:25 e sgg), invece, nel Kiel Corpus of Spontaneous Speech, utilizzano nella trascrizione ‘canonica’ (che è generata automaticamente per regole) un set di simboli più ampio di quello fonologico della lingua, e nella fase di etichettatura (che prevede il ricorso al segnale) simboli addizionali per dar conto delle ‘modificazioni’ rispetto alla forma canonica. A ben vedere, dunque, questo livello di trascrizione riassume in sè caratteristiche di un livello puramente fonologico e caratteristiche di un livello più fonetico; in sostanza, appaiono diversamente interpretati, a seconda delle esigenze, i confini tra ‘trascrizione canonica’, ‘trascrizione fonotipica’ e ‘trascrizione fonetica’. In particolare, un processo di etichettatura vera e propria richiede necessariamente tanto il ricorso al segnale, quanto una valutazione più sottile delle forme prodotte (dunque una trascrizione più stretta). Questa situazione si rispecchia anche nella scelta del tipo di alfabeto da utilizzare per questo livello di trascrizione: la proposta di EAGLES (Gibbon et al., 1997:158-159) è quella di utilizzare l’alfabeto SAMPA (un alfabeto fonemico, cfr. oltre §4 e APPENDICE [B]) tanto per la trascrizione ‘canonica’ che per quella ‘fonotipica’; la proposta di Mariño & Llisterri (per lo spagnolo, 1993) è di utilizzare X-SAMPA (un estensione del SAMPA nata per scopi più propriamente fonetici, cfr. oltre §4 e APPENDICE [C]; Wells, 1994) per entrambi; Kohler et al. (1995) utilizzano X-SAMPA per la forma ‘canonica’ e una versione ulteriormente modificata per quella di etichettatura/modificazione. 3.1. Criteri per la trascrizione fonemica del corpus AVIP (livelli PHM e PHB). Nell’affrontare la definizione di specifiche per la trascrizione fonemica del corpus AVIP, si è dovuto tener conto di alcune problematiche di tipo teorico-linguistico che sorgono quando si consideri, da un lato, la peculiare situazione della lingua italiana e, dall’altro, la caratterizzazione del corpus stesso sotto il profilo della stratificazione diatopica. Il corpus è infatti costituito da più varietà regionali di italiano, più o meno distanti tra loro sul versante fonetico-fonologico, ognuna delle quali presenta regole di tipo fonologico e fonotattico diverse e diverse distribuzioni di alcuni allofoni determinate sul solo piano lessicale. Sorgono dunque alcune difficoltà già al momento della generazione di una trascrizione in ‘forma canonica’. Di solito si raccomanda, per questa operazione, il ricorso a dizionari di pronuncia accreditati da cui derivare la forma di pronuncia ‘standard’. Ora, com’è noto, la definizione di un ‘italiano standard’ pone non pochi problemi di ordine teorico; si può dire che l’italiano standard (almeno sul versante fonetico), piuttosto che una realtà, rappresenta un’astrazione costruita sulle diverse varietà regionali di italiano. Il Manuale di pronuncia italiana di L. Canepari (1992), per esempio, riconosce una situazione complessa circa le regole dell’ortoepìa: "Si può - o si deve - partire, quindi, dall’oggettiva constatazione che oggi c’è una pronuncia dei ‘professionisti della dizione’ che non corrisponde (più) esattamente a quella indicata dai vari dizionari o vocabolari della lingua italiana, e nemmeno a quella fornita dagli specifici repertòri d’ortoepìa, più o meno ufficiali [...] Questi strumenti, infatti ... quasi sempre danno una sola pronuncia per ogni parola, mentre a volte ne esistono due (o anche di più) ugualmente ‘corrette’; inoltre, spesso la sola pronuncia indicata è semplicemente quella che ‘dovrebbe essere’, non quella che è usata davvero, o che perlomeno prevale" (Canepari, 1992:20-21). Canepari classifica le varianti di pronuncia delle ‘regioni standardizzanti’ (Toscana, Umbria, Marche, Lazio e Roma, cfr. Canepari, 1992:22 e sgg.) in sette categorie secondo una scala di accettabilità che vede al primo posto la pronuncia moderna, attuale, largamente accettata7. Le varianti ortoèpiche hanno rilevanza in particolar modo per un numero ristretto di variazioni fonematiche più frequenti e/o tipiche: si tratta della distribuzione lessicale dei duplici timbri di ‘e’ ed ‘o’ (aperti /E/, /O/ e chiusi /e/, /o/) anche nei dittonghi ‘je’ e ‘wo’; della distribuzione delle varianti sorda e sonora di s-intervocalica (/s/, /z/); della distribuzione delle varianti sorda e sonora di ‘z’ (/ts/ e /dz/) in alcune posizioni o in alcuni suffissi; dell’applicazione della geminazione sintagmatica (o rafforzamento sintattico). Un altro problema riguarda lo statuto delle consonanti geminate (per esempio /ss/ in ‘messa’) e lunghe o rafforzate ‘per posizione’ (/ts/, /dz/, /S/, /L/, /J/ intervocaliche): mentre le prime sono considerate unanimemente fonemi della lingua (o nessi bi-fonematici), per le seconde sono stati avanzati recentemente dubbi circa il loro statuto fonematico (cfr Endo&Bertinetto, 1999). Sebbene nelle trascrizioni fonematiche correnti venga indicato, di norma, il rafforzamento di tali segmenti in determinati contesti, sembra non si tratti di una scelta tra realizzazioni pertinenti, bensì dell’applicazione di regole allofoniche, implementate 7 Ugualmente consigliabili sono le pronunce tradizionale (di base toscana/fiorentina che un tempo era l’unica accolta), temperata (che può evere una certa diffusione in Toscana, ma soprattutto nel resto del centro linguistico) e ammessa (con diffusione più limitata nel centro o in sue zone). diversamente da varietà a varietà (talvolta addirittura variabili per uno stesso locutore). Considerata, dunque, la situazione appena descritta, si è scelto, per il livello di trascrizione ed etichettatura fonologica del corpus AVIP, il seguente tipo di codifica: 1) un livello di trascrizione fonologica ‘standard’, per forma di citazione (parole isolate), considerata modello astratto di riferimento per le variazioni regionali (livello PHM, per i dettagli cfr. §3.2); 2) un livello di trascrizione fonologica regionale, per segmenti fonemici, che approssima maggiormente la realtà delle produzioni foniche e può quindi essere considerato come una trascrizione ‘fonetica larga’ (livello PHB, per i dettagli cfr. §3.3). Nessuno dei due livelli prevede l’annotazione dei fenomeni di fonosintassi, che sono invece presenti nella trascrizione/etichettatura fonetica stretta (livello PHN, cfr. oltre §4); per l’utente del database, sarà possibile, pertanto, un confronto visivo immediato tra la forma fonologica prevista idealmente per ogni unità lessicale e la forma fonetica realizzata quando la parola sia a) ‘calata’ nel contesto della stringa (informazioni di tipo fonosintattico) e b) effettivamente prodotta e articolata in parlato connesso e spontaneo. 3.2. Etichettatura fonologica standard (livello PHM). 1) L’etichettatura sul segnale per questo livello è stata effettuata ancora per unità lessicali, in forma di citazione direttamente allineata al livello superiore WRD: le due forme etichettate hanno dunque markers di inizio e fine corrispondenti e files ‘linkati’ (.WRD e .PHM) della stessa struttura. 2) La trascrizione è stata generata attraverso un programma di conversione automatica grafema-fonema (per i dettagli circa l’architettura, le regole dell’algoritmo e la lista delle eccezioni si rimanda al documento specifico). 3) E’ stato utilizzato l’alfabeto fonemico SAMPA (versione per l’italiano sviluppata nel progetto ESPRIT 1541-SAM, 1989, per il dettaglio e la descrizione cfr. APPENDICE [B]). 4) A questo livello di trascrizione ovviamente non tutti gli elementi descritti in §2.1 ricevono conversione fonologica. In particolare sono convertiti: a) gli elementi linguistici lessicali (anche in questo livello le forme legate da apostrofo sono etichettate in un’unica casella, es: WRD: |l’albergo| → PHM: |lalb"Ergo|) Non sono convertiti, invece, (o vengono mantenuti nella loro forma ortografica): b) le disfluenze come parole troncate (es: WRD: |cin+| per cinque→ PHM: |cin+|) e interrotte (es: WRD: |cin_que|→ PHM: |cin_que| ), lapsus (es: WRD: |*satto|→ PHM: |*satto|); c) I segni di punteggiatura (limitatamente a ‘?’ e ‘!’); d) tutti i fenomeni annotati tra <> (es: WRD: |<eeh>| → PHM: |<eeh>|; WRD: |<f.vocale>| → PHM: |<f.vocale>|, etc...); e) i simboli # {} [] che indicano le sovrapposizioni e i commenti (es: WRD: |#<F002> casa#| → PHM: |<F002> k"aza|; WRD: |casa| → PHM: |k"aza|, etc...); f) le forme dialettali che ovviamente non hanno posto in una trascrizione fonologica standard; g) le parole non realizzate in WRD e racchiuse tra () (es: WRD: |(e") uscito| → PHM: |(e") uS"ito|) 5) A questo livello di trascrizione è segnalata la posizione dell’accento lessicale primario mediante il simbolo " premesso alla vocale tonica (es: PHM: |segr"eto|). La segnalazione dell’accento è mantenuta anche sulle parole funzionali polisillabiche. Le parole derivate da troncamento mantengono l’accento nella posizione originaria della forma completa (es: WRD: |anda"+| → PHM: |and"a|); Le parole monosillabiche di norma non sono accentate (es: WRD: |lo| → PHM: |lo|), a meno che non abbiano l’accento anche nella grafia (es: WRD: |si"| → PHM: |s"i|; WRD: |e"| → PHM: |"E|) 6) Sulla versione generata in maniera automatica sono stati effettuati alcuni interventi di modifica manuali, in relazione ai problemi di cui si è discusso in apertura (§3.1). In particolare: a) per quanto riguarda le variazioni fonematiche, non sempre predicibili per regole, nella distribuzione dei timbri aperti e chiusi delle vocali medie (/E-e/, /O-o/), delle forme sorda e sonora di ‘s-intervocalico’ (/s-z/) e di ‘z’ (/ts-dz/); la trascrizione proposta dal programma di conversione è stata verificata e confrontata con la ‘forma moderna’ (prima forma) riportata nel Pronunciario del Manuale di pronuncia italiana di Canepari (1992) e, ove discordante, sostituita (es: /v"erso/ → |v"Erso|; /rizal"ire/ → |risal"ire|; /ts"ukkero/ → |dz"ukkero|, etc...) b) per le consonanti cosiddette ‘lunghe per posizione’ o rafforzate (/S/, /L/, /N/, /ts/, /dz/ intervocaliche) è stata adottata sempre la trascrizione con unico simbolo (es: WRD: |bagno| → PHM: |b"aJo|) sia nel caso in cui questo sia previsto nella grafia (es: WRD: |negozio| → PHM: |neg"Otsjo|), sia nel caso in cui la grafia preveda il simbolo doppio (es: WRD: |magazzino| → PHM: |magadz"ino|)8. Il doppio simbolo consonantico è stato, invece, mantenuto per la geminazione consonantica vera e propria (vale a dire relativa a foni in distribuzione non complementare, es: WRD: |palla| → PHM: |p"alla|). 3.3. Etichettatura fonologica regionale o ‘fonetica larga’ (livello PHB). 1) Il secondo livello di etichettatura fonemica è stato effettuato attraverso la segmentazione del segnale fonema-x-fonema: pertanto ad ogni segmento individuabile sul segnale è stata assegnata un’etichetta fonologica in una casella. 2) Questo costituisce il livello primario di etichettatura, vale a dire il primo livello segmentato e trascritto (anche in assenza di segmentazione-etichettatura strettamente fonetica); può essere considerato anche con valore di trascrizione fonetica larga, effettuata utilizzando ancora l’alfabeto fonetico SAMPA (cfr. APPENDICE [B]). 3) Al livello PHB non sono stati etichettati e sono stati sostituiti dal simbolo ‘__’ (che indica una casella vuota): a) le disfluenze (parole troncate e interrotte, con o senza cambi di progetto; articolazioni di esitazione; cfr. §2.1 C, D); b) tutti i fenomeni annotati tra <> (cfr. §2.1 D, E, F: pause piene e vuote; segnalazioni di assenso, domanda, fine sub-task, etc...fenomeni vocali non verbali; rumori); c) brevi porzioni di segnale corrispondenti a pause molto brevi (non percepibili uditivamente) che nelle trascrizioni ortografiche sono state talvolta indicate con una virgola. 4) Non è stata segnalata la collocazione dell’accento lessicale: trattandosi di un livello di trascrizione fonetica larga, l’accento non può essere assegnato a priori di un’analisi di tipo prosodico (rimandata ad altro livello, cfr. documento specifico). 5) La Cancellazione di fonema è stata segnalata attraverso il simbolo ‘-’ anteposto all’etichetta del fonema cancellato, collocata nella casella corrispondente al fonema precedente (a sinistra) se interna alla parola o a fine parola; in quella corrispondente al fonema successivo (a destra) se ad inizio di parola es: PHB: |f|i|n-o|; es: PHB: |p|i|p|a|-in|b|o|kk|a| 6) L’ Inserzione di fonema è stata segnalata attraverso l’introduzione del simbolo ‘+’in una casella a sé stante, senza specificare l’etichetta es: PHB: |p|i|p|+|a| 7) Un’ Incertezza nella segmentazione è stata segnalata attraverso l’uso del simbolo ‘%’ prima e dopo il marker incerto; a destra e sinistra dell’etichetta se entrambi i markers sono incerti es: PHB: |n%|%o|n| (incertezza tra prima /n/ ed /o/) es: PHB: |l|a%|%n%|%a| (incertezza tra prima /a/ ed /n/ e tra /n/ e seconda /a/) Il simbolo è stato utilizzato anche per indicare l’inizio del silenzio di un’occlusiva o affricata sorda ad inizio assoluto di enunciato o dopo pausa (cui è stato assegnato valore convenzionale rispettivamente di 70ms e 35ms) es: PHB: __|%p|i|p|a| Inoltre può essere marcata con % la fine assoluta del turno (nell’ultimo fono etichettato) qualora non sia stato possibile determinarne con sicurezza il termine (es: nel caso di sovrapposizioni, desonorizzazioni, etc…). 8 Come previsto nel SAMPA per l’italiano. 8) La Traccia lasciata da un elemento fonemico cui si può assegnare una porzione di segnale (sebbene spesso di dimensioni ridotte) ma non classificabile con un’etichetta precisa è stata segnalata attraverso il simbolo ‘*’ premesso all’etichetta originaria (tale simbolo può essere inserito anche a livello fonetico, cfr. oltre §4, B4) es: PHB: |a|*l|t|a|l|E|n|a| 9) Le consonanti geminate in distribuzione non complementare sono state etichettate in un’unica casella; es: PHB: |a|ll|o|r|a| es: PHB: |f|a|tt|o La trascrizione delle geminazioni dovute ad assimilazione è stata rimandata al livello fonetico (PHN, cfr §4.1, B3), a meno che non si tratti di forme ‘lessicalizzate’ o sistematiche nella varietà considerata (vedi oltre, punto 15; la geminazione non è stata considerata come fenomeno di inserzione fonemica). Nel caso di geminazione da assimilazione interna alla parola è stato assegnato nella casella del fonema adiacente un simbolo di cancellazione all’etichetta della consonante assimilata; la consonante che assimila è stata interpretata come geminata (a livello PHN; cfr. oltre §4.1, B3) es: PHB: |r|i|t|o-r|n|i| (realizzato [ritonni]) es: PHB: |k|we|s-t|o| (realizzato [kwesso]) Allo stesso modo l’annotazione degli scempiamenti è stata rimandata a livello fonetico (lo scempiamento non è stato considerato come fenomeno di cancellazione fonemica). L’indicazione del Raddoppiamento Sintattico è rimandata a livello fonetico 10) I dittonghi sono stati etichettati in un’unica casella: per i dittonghi cosiddetti ‘ascendenti’ si è utilizzata la trascrizione convenzionale ‘semiV+V’; per i dittonghi propri o ‘discendenti’, l’annotazione ‘V+V’: es: PHB: |f|jo|r|e| es: PHB: |f|ai| La trascrizione di monottongazione e dittongazione è stata rimandata al livello fonetico (cfr. §4.1, B2; non sono stati trattati rispettivamente come casi di cancellazione e inserzione fonemica9) 11) Le vocali in iato sono etichettate in caselle diverse es: PHB: |p|a|u|r|a| 12) Gli incontri vocalici a confine di parola non sono stati considerati dittonghi e sono dunque etichettati in caselle diverse es: PHB: |p|i|p|a|i|n|b|o|kk|a| I casi di apocope e/o aferesi sono trattati come fenomeni di cancellazione vocalica: es: PHB: |p|i|p-a|i|n|b|o|kk|a| (apocope) es: PHB: |p|i|p|a|-in|b|o|kk|a| (aferesi) I casi di sinalefe sono segnalati con indicazione del timbro solo a livello fonetico (PHN); i markers di etichetta a livello PHB sono stati collocati in un punto variabile tra i due segmenti, laddove fosse possibile individuare il confine sulla base dell’analisi parametrica del segnale, sempre accompagnati dal simbolo % (marker incerto); in caso di indecidibilità del confine, il marker è stato posto esattamente a metà della porzione di segnale corrispondente ai due fonemi, con l’indicazione di %: es: PHB: |p|i|p|a%|%i|n|b|o|kk|a| Gli incontri tra vocali di timbro uguale , dove risulti chiaramente percepibile la presenza di più di un elemento (esclusi quindi i casi di apocope e aferesi) sono stati trattati allo stesso modo: marker di confine in un punto variabile o a metà della porzione vocalica, sempre accompagnato dall’indicazione di incertezza (%): es: PHB: |k|a|s|a%|%a|m|a|r|e| 13) Le assimilazioni consonantiche a confine di parola (tra parole adiacenti) non sono state etichettate; la porzione di segnale corrispondente è stata convenzionalmente segmentata a metà (accompagnata dal %): 9 Fatta eccezione per alcuni casi particolari, per i quali cfr. §5.5, C. es: PHB: |n|o|n%|%m|o|l|t|o| 14) Poiché a questo livello di etichettatura si fa esplicito riferimento alla fonologia delle varietà di italiano etichettate, le varianti regionali per e/E, o/O, s/z, ts/dz (cfr. sopra, §3.1) sono state trascritte secondo la loro distribuzione nella varietà considerata (indipendentemente dalla loro effettiva realizzazione fonetica) es: PHM: |k|O|z|a| standard PHB: |k|O|s|a| varietà campana |k|o|s|a| varietà pugliese 15) In base allo stesso criterio, è stato segnalato o meno il rafforzamento delle consonanti /L/ /J/ /S/ /ts/ /dz/ in posizione intervocalica: es: PHB: |n|e|g|O|tts|jo| oppure |n|e|g|O|ts|jo| PHB: |b|a|JJ|o| oppure |b|a|J|o| 16) Ugualmente sono state trascritte ed etichettate le geminazioni (o rafforzamenti) sistematiche di altre consonanti per ciascuna varietà (ad esempio /b/ e /dZ/ intervocaliche nella varietà campana) o lessicalizzate (e quindi presenti già nella trascrizione ortografica) es: PHB: |au|t|o|m|O|bb|i|l|e| varietà campana es: PHB: |a|rr|i|v|a|ttS|i| varietà toscana (=arrivarci) 17) Il procedimento di etichettatura, come per gli altri livelli, ha generato un file ‘linkato’ .PHB in cui per ogni simbolo trascritto è segnalato il valore temporale degli istanti di inizio e fine. 4. TRASCRIZIONE ED ETICHETTATURA FONETICA. Il terzo livello di trascrizione/etichettatura previsto nella codifica di database di lingua parlata è quello della trascrizione fonetica, in cui si marcano e ‘si trascrivono i segmenti che compongono la stringa fonica con particolare riferimento ai loro attributi articolatori, acustici e percettivi’ (Tomlinson, 1987:3), utilizzando i simboli di un alfabeto fonetico. Una trascrizione fonetica di un corpus di parlato risulta necessaria dal momento che ‘the spoken versions of orthographically identical word forms show a great phonetic variations in their segmental ... realization. In most European languages the phonetic form of a given word is in fact extremely variable depending on the context and other well defined intervening variables such as speaking styles and context of situation [...] A given word can totally disappear phonetically or can be reduced to some reflection of segmental features in the prosody of utterance. Most of these incospicuous variations appear only in a narrow phonetic transcription of a given pronunciation.’ (Gibbon et al., 1997:83) La trascrizione fonetica ‘stretta’, tiene conto quindi dei fenomeni di modificazione condizionati dal contesto e predicibili, ma anche di altri tipi di modificazioni legate a variabili individuali, regionali (-dialettali), stilistiche, etc... A questo livello di trascrizione, l’inventario dei simboli deve comprendere, a differenza del livello di trascrizione precedente, anche molti suoni che non hanno statuto fonemico nella lingua. A questo scopo si rende necessario l’uso di un alfabeto fonetico ricco e dettagliato, che comprenda tutte le varianti allofoniche (posizionali e libere) previste per una data lingua e metta a disposizione un buon numero di diacritici per la codifica di ‘articolazioni secondarie’ (nasalizzazioni, labializzazioni, palatalizzazioni, etc...) e altre modificazioni articolatorie (-acustiche) dei suoni (es: sonorizzazioni, desonorizzazioni, lenizioni, etc...). Nell’ambito dei vari progetti europei, nazionali e internazionali, sono state adottate e applicate diverse convenzioni di codifica, dalle quali sono nati altrettanti alfabeti fonetici utilizzabili nella trascrizione di molte lingue del mondo: il primo (in ordine di tempo), ma anche più famoso e usato di tutti è l’alfabeto IPA (International Phonetic Alphabet), il quale tuttavia presenta l’inconveniente di non poter essere rappresentato interamente attraverso il codice ASCII (essendo composto di più di 256 caratteri) e di pregiudicare la ‘portabilità’, l’interscambio di un corpus tra diverse piattaforme software. I vari alfabeti fonetici sviluppati successivamente (SAMPA e X-SAMPA, WORLDBET, UNIBET e PHONASCII, KLATTBET, ARPABET, TIMBET, MRPA, etc...) sono nati col preciso intento di ovviare a questo inconveniente. Tra questi, SAMPA (versione fonemica) e X-SAMPA (versione estesa fonetica), nati all’interno dei progetti europei ESPRIT-SAM, si sono affermati negli ultimi anni come standard di codifica di corpora per lo studio fonetico e le applicazioni tecnologiche. Per la loro descrizione (in versione italiana) si rimanda alle APPENDICI [B] e [C]. 4.1. Criteri per la trascrizione/etichettatura fonetica del corpus AVIP (livello PHN). Il procedimento per la codifica fonetica del corpus AVIP (facendo diretto ricorso alla rappresentazione digitalizzata del segnale acustico in forma d’onda e/o sonagramma ed alla segmentazione della stringa) parte dall’analisi dettagliata dei foni presenti e delle loro caratteristiche fisiche. Attraverso l’osservazione e la descrizione di un insieme definito (ma piuttosto ampio) di tratti e di fenomeni acustici (cfr. punto A) si è giunti ad una etichettatura e trascrizione che si può definire ‘intermedia’ tra una trascrizione larga ed una stretta, utilizzando un set di simboli dell’alfabeto fonetico SAMPA in versione estesa (X-SAMPA, cfr. Wells 1994; cfr. APPENDICE [C]). A - Tratti e fenomeni fonetici da descrivere. E’ stato definito a priori un set massimo di fenomeni da analizzare e da descrivere simbolicamente attraverso l’etichettatura fonetica. Tale set chiuso comprende: 1) per i foni VOCALICI a - fenomeni di riduzione e sostituzione timbrica b - fenomeni di dittongazione e monottongazione c - fenomeni di nasalizzazione; 2) per i foni CONSONANTICI a - fenomeni di assimilazione (anticipatoria e posticipatoria); b - fenomeni di lenizione (scempiamenti, sonorizzazioni, fricativizzazioni di occlusive ed affricate, realizzazioni approssimanti); c - fenomeni di fortizione (raddoppiamenti, desonorizzazioni, aspirazioni di occlusive); d - altre articolazioni secondarie (palatalizzazioni, ‘sillabicizzazione’, aspirazioni). 3) Ovviamente sono stati osservati ed annotati i fenomeni di ‘caduta’ o mancanza (rispetto alla forma attesa) di alcuni segmenti (o sillabe o porzioni più ampie di segnale). NOTA: Rispetto al set massimo definito a priori, per ciascuna varietà del corpus AVIP è stato analizzato e descritto un sottoinsieme dei fenomeni; in alcuni casi sono state adottate soluzioni specifiche parzialmente divergenti da quanto descritto in questo paragrafo. Per il dettaglio si rimanda al §5.4. B - Etichettatura fonetica 1) Per la trascrizione è stata selezionata una lista chiusa di simboli all’interno del lungo elenco di X-SAMPA. Questa lista comprende tutti i simboli necessari a rappresentare i fenomeni di cui sopra: a - i simboli relativi ai 7 fonemi vocalici dell’italiano; b - i simboli relativi ai 23 fonemi consonantici dell’italiano (comprese le semivocali); c - i simboli per gli allofoni condizionati velari e labiodentali della nasale dentale ([N] e [M]) e l’allofono fricativo della affricata palatale sonora ([Z] presente nella varietà toscana di italiano); d - una serie di simboli diacritici e accoppiamenti di simboli per rappresentare alcune delle modificazioni di cui al punto B-2b,c,d di questo paragrafo (sonorizzazioni e desonorizzazioni, approssimanti, fricativizzazioni, etc...) e B-1c (nasalizzazione); Per la lista completa dei simboli si rimanda all’APPENDICE [C]. 2)- i dittonghi e le dittongazioni sono stati segmentati ed etichettati in caselle separate; il marker di confine tra i due elementi è stato spesso accompagnato dall’indicazione di incertezza (%); es: PHB: |f|ju|m|e| PHN: |f|j%|%u|m|e| es: PHB: |p|i|p|a| PHN: |p|i|p|j%|%a| E’ stata specularmente indicata anche la monottongazione: es: PHB: |f|ai| PHN: |f|E| 3) le consonanti geminate e le geminazioni spontanee, da assimilazione, da Raddoppiamento Sintattico sono etichettate in un’unica casella es: PHB: |b|o|kk|a| PHN: |b|o|kk|a| es: PHB: |k|we|s-t|o| PHN: |k|w|e|ss|o| es: PHB: |O|f|a|tt|o| PHN: |O|ff|a|tt|o| (da: ho fatto) Solo nel caso di assimilazione al confine di parola è stata mantenuta la divisione a metà in due foni (con simbolo di %) es: PHB: |u|n%|%m|E|ddz|o| PHN: |u|m%|%m|E|ddz|o| E’ stato specularmente indicato anche lo scempiamento: es: PHB: |d|e|ll|o| PHN: |d|e|l|o| 4) La traccia lasciata da un fonema può essere etichettata col simbolo corrispondente alla sua realizzazione fonetica effettiva o, dove ciò non fosse possibile, semplicemente marcata dal simbolo * (come a livello PHB, cfr. supra §3.3, 8). 5) A questo livello sono annotati i fenomeni di fonosintassi che si verificano al confine tra parole (Raddoppiamento Sintattico (cfr. sopra), apocope, aferesi, sinalefe...). 6) Sono stati analizzati e trascritti anche i fenomeni semilessicali (disfluenze, esitazioni, etc.. descritti in §2.1 C) e le forme dialettali. 7) I fenomeni verbali non lessicali (come le pause, cfr §2.1, D), vocali non verbali (§2.1 E) e non vocali (§2.1, F) tutti ortograficamente trascritti tra <>, non sono stati etichettati; nelle caselle è stato posto il simbolo ‘__’. 8) Il procedimento di etichettatura, come per gli altri livelli, ha generato un file ‘linkato’ .PHN in cui per ogni simbolo trascritto è segnalato il valore temporale degli istanti di inizio e fine. 5. DETTAGLIO DI ALCUNE SOLUZIONI ADOTTATE PER LA CODIFICA DELLE DIVERSE VARIETÀ DEL CORPUS AVIP. I paragrafi che seguono descrivono alcune specifiche particolari definite internamente a ciascuna unità del gruppo AVIP. 5.1. Definizione del tratto [dialettale] in area toscana (unità di Pisa) La decisione su ciò che è propriamente [dialettale] e ciò che è [regionale] (o marcato in diafasia, diastratia, diamesia) dipende notevolmente dal sostrato linguistico di partenza. A differenza di quanto avviene, per esempio per la varietà campana (in cui la distanza tra dialetto e varietà regionale è piuttosto nettamente percepita e definita), nel parlato di Toscana manca, di fatto, un salto di codice che renda immediatamente riconoscibile un item come dialettale: esistono, si può dire, molti registri, ma un codice solo. Considerando la situazione peculiare dei dialetti toscani rispetto agli altri dialetti dell'Italia linguistica, si è ritenuto necessario adottare una definizione precisa per il tratto [dialettale]: E’ stata pertanto costituita una lista di casi ai quali assegnare l’etichetta [dialettale]: si tratta di una lista parziale, 'partigiana', attraverso la quale tuttavia e' possibile render conto, anche ad una prima lettura, di quale sia il "tasso di dialettalità" dei dialoghi trascritti. Sono stati considerati [dialettali] alcuni eventi di tipo fonetico/fonologico, morfologico e lessicale. Ad esempio: - le assimilazioni consonantiche del tipo "arrivacci" per "arrivarci" - il passaggio /kw/ > /v/ ("vesto", "vi"...) - i casi di dileguo di /k/ intervocalica (al posto del fonema e' stato inserito un apostrofo: es. "mi'a [dialettale]" per "mica") - i fenomeni di soggiacenza del tipo "ho visto gatti" per 'ho visto i gatti'; l'articolo soggiacente viene indicato con l'apostrofo solo qualora sia recuperabile con certezza: "ho visto ' [dialettale] gatti"10; - le preposizioni articolate d'area occidentale: "dela", "dala"...; 10 I nomi delle icone segnate sulle mappe possono essere menzionati appunto come icone, e quindi non sono introdotti dall’articolo determinativo, oppure possono essere menzionati come luoghi (il giardino delle visite, il magazzino...): in alcuni casi l’interpretazione è difficile (se non impossibile) dal momento che l’articolo determinativo maschile plurale, se c’è, è soggiacente (es. trovi mobili Elena, che può essere interpretato sia ‘trovi i mobili Elena’ sia ‘trovi [l’icona] mobili Elena’). Anche con l’art. il ci sono casi fortemente ambigui: es. ma ristorante..., che può essere ‘ma [l’icona] ristorante...’ o ‘ma il ristorante’ con la cancellazione di i precons. e l’assimilazione della laterale alla vibrante seguente [la lunghezza della vibrante non può essere comunque un indizio affidabile dal momento che ma produce RS]. In alcuni casi, es. ma magazzino, le interpretazioni possono essere tre, dal momento che [m] intensa può essere dovuta al RS, all’articolo determinativo ‘l (o ‘r) assimilato (ma il magazzino), oppure all’articolo indeterminativo un assimilato (ma un magazzino). È stato deciso - nei (numerosi) casi di incertezza - di scegliere la soluzione più neutra: trattare i nomi delle icone appunto come tali, indicando ogni volta, nella riga di commento a livello ortografico, la possibile presenza dell’articolo. - la negazione " ’un"; -gli infiniti tronchi, che andranno trascritti: "anda" " [dialettale], "teme" " [dialettale], "legge’ " [dialettale], "mori" " [dialettale]; - il pronome dialettale -e'-; 5.2. Differenze nell’etichettatura a livello WRD-PHM per la varietà pisana. Sul livello di etichettatura ortografica e di ‘citation form’ non è stato segnalato il marker d’inizio della prima parola assoluta del turno. L’informazione relativa al confine sinistro di parola è recuperabile, nel database, ai livelli inferiori PHB e PHN. 5.3. Differenze nell’etichettatura delle sequenze dialettali e delle disfluenze a livello PHB. Mentre per il livello PHM, che contiene la trascrizione fonologica delle forme di citazione in italiano standard, non è stata effettuata alcuna etichettatura delle forme dialettali, a livello PHB (fonologia delle varietà) ciascuna unità ha operato scelte differenti. Per i motivi sopra esposti (§5.1), le forme annotate come [dialettali] nella varietà pisana hanno ricevuto una codifica anche a livello di trascrizione fonologica regionale. Per la varietà napoletana, invece, ritenendo che non esista una ‘fonologia codificata’ e standardizzata del dialetto, le forme propriamente dialettali sono state etichettate esclusivamente a livello delle realizzazioni fonetiche (PHN). Per la varietà pisana, inoltre, sono state etichettate a livello PHB anche le disfluenze (parole troncate e/o interrotte, lapsus, articolazioni di esitazione etc…, cfr. §2.1, C, D e §3.3, punto 3a). Infine, sul livello PHB per la varietà pisana non è stata segnalata attraverso il simbolo ‘*’ la traccia di un elemento fonemico; il simbolo è associato unicamente all’etichetta sul livello PHN. 5.4. Sottoinsieme di etichettatura fonetica (PHN) implementato per la varietà pisana. Dal set massimo definito in §4.1, A, l’unità di Pisa ha selezionato i seguenti fenomeni fonetici per la fase di analisi ed etichettatura: 1) Raddoppiamento Fonosintattico. 2) per il consonantismo: a) l’affricazione di /s/ (per lo più in posizione postconsonantica); b) il passaggio a fricativa palatale sorda/sonora dell’affricata palatale sorda/sonora; c) i fenomeni di indebolimento delle occlusive. 3) per il vocalismo: a) i casi di desonorizzazione; b) la monottongazione dei dittonghi e la dittongazione dei monottonghi; c) i casi di nasalizzazione. Per quanto riguarda i fenomeni di indebolimento, il diacritico '_h' è stato adottato per il continuum difficilmente categorizzabile rappresentato dalle realizzazioni indebolite delle occlusive; l’indicazione '_h' copre quindi una grande varietà di fenomeni (dai diversi gradi di aspirazione alle fricative glottidali). Il simbolo '_f' è stato, invece, limitato all'annotazione delle laterali e vibranti fricativizzate. 5.5. Etichettatura di vocali e dittonghi a livello PHN: varietà pisana/varietà napoletana. A) Annotazione dei timbri adottata dall’unità di Napoli. Per le modificazioni dei timbri vocalici (riduzioni, sostituzioni), rinunciando all’annotazione esatta del risultato della modifica, è stato introdotto l’uso del diacritico ‘!’ davanti a vocale (es: [!a]), a significare un timbro diverso da quello atteso. Parimenti il diacritico è stato utilizzato dinanzi a vocale nasalizzata (es: [!a~]), considerando la nasalizzazione come una modifica timbrica. L’etichetta ‘@’, invece, indica una vocale centrale indistinta qualunque (vale a dire, senza distinzioni di altezza) ed è stata utilizzata solo come allofono di una consonante sonora (spesso /r/) o come articolazione aggiunta (corrispondente ad un ‘+’ sul livello fonologico), più raramente come simbolo nella dittongazione vocalica spontanea (spesso dinanzi ad /r/, es: /E/ ⇒ [E@]). B) Annotazione dei timbri adottata dall’unità di Pisa. Per l’annotazione dei timbri è stato adottato un criterio percettivo riferito ad una finestra temporale ampia: sono stati riportati come lapsus i casi di mutamento timbrico chiaramente percipibili in contesto. Considerazioni e analisi più dettagliate riguardano i casi di monottongazione dei dittonghi e dittongazione dei monottonghi. In questi casi, è stato riportato il timbro risultante dal mutamento (es: /fai/ realizzato come [fE]) La nasalizzazione è stata segnalata solo nei casi in cui non sia predicibile per regola oppure nel caso in cui si sia verificata cancellazione della nasale, e rimanga solo la vocale nasalizzata. Inoltre l’epitesi di foni nasali (es: [faim] per fai) non è stata specificata a livello PHB e PHN, dove è stata solo segnalata dalla presenza del simbolo ‘+’ che indica genericamente l’inserzione. Per contro, le epitesi vocaliche (del tipo [sie] per si), assai diffuse nelle parlate toscane, sono state etichettate a livello PHN e segnalate dal simbolo ‘+’ a livello PHB. C) Etichettatura dei dittonghi effettuata dall’unità di Pisa. A livello fonetico i dittonghi (e le dittongazioni) non sono stati segmentati nelle due parti costituenti. Inoltre non sono stati considerati casi di monottongazione forme come [va] per vai, [and"a] per andai, [fa] per fai; per queste forme la mancanza dell’elemento post-nucleare è considerata un caso di elisione (tipico del parlato di Toscana) e pertanto segnalata a livello fonologico (PHB) come cancellazione. 5.6. Alcune soluzioni specifiche adottate per l’etichettatura fonologica/fonetica (PHB/PHN) del parlato di bambini ipoacusici. L’etichettatura del parlato dei bambini ipoacusici, mancando studi dettagliati sulle realizzazioni fonetiche, è stata limitata al solo livello fonologico della varietà (PHB) e secondo le norme definite in questo documento. Il livello fonetico (PHN) consiste, pertanto, nella copia del livello PHB. Sono stati tuttavia annotate le Inserzioni e Cancellazioni di fonema APPENDICE [A] Codici per l’annotazione del testo in trascrizione ortografica. Elementi linguistici lessicali e semi-lessicali: Simbolo Applicazione Esempio d’uso (e descrizione) A,B,C... (lettere maiuscole) // (doppio slash) (trattino) Nomi propri, Sigle e Acronimi sequenze di lettere pronunciate in forma fonetica sequenze di lettere pronunciate in forma di citazione alfabetica Maria AVIP /A/ /V/ /I/ /P/ A-Vu-I-Pi A-Vi-I-Pi forme con aferesi ed elisione ‘ste (queste) m’ha (mi ha) ’ (apostrofo) + (simbolo di addizione) * (asterisco) ? (punto interrogativo) ! (punto esclamativo) , (virgola) -frammenti di parole troncate (apposto a fine parola) da+ (dato) -non-parole da lapsus ed errori (apposto ad inizio parola) *altanelante frase interpretata come interrogativa (separato dal testo con uno spazio) vieni ? frase interpretata come esclamativa (separato dal testo con uno spazio) vieni ! confine sintattico-semantico percepito (separato dal testo con uno spazio) no , mi sembra Fenomeni verbali non lessicali; fenomeni vocali non verbali; fenomeni non vocali non comunicativi < > Simbolo (e descrizione) <pl> <pb> <P> <eeh> <ehm> <vv> (v= vocale) <cc> (c= consonante) / (slash) _ (underscore) Applicazione pausa vuota <pb>: breve, <pl>: lunga (senza interruzione del discorso) pausa vuota media/lunga con interruzione di discorso pausa piena con vocalizzazione o nasalizzazione pausa piena con allungamento dell’ultima vocale o consonante di parola allungamento della consonante iniziale di parole falsa partenza senza pausa di interruzione (separata dal testo con uno spazio) interruzioni interne all’elemento lessicale fenomeni vocali non verbali <risata>, <tosse>, <starnuto>, prodotti dal parlante Inseriti nella esatta collocazione <sospiro>, <inspirazione>, dentro il testo, prima di eventuale <schiocco di lingua>, punteggiatura Esempio d’uso il banano <pb> ce l’hai? ma io <P> vabbè riprendiamo allora <eeh> ce l’hai ? o <ehm> allora<aa> non<nn> <ss>senti un tra+ / ce l’hai questo? mon_tato ma dove ce l’hai <risata> ? <raschiamento> <f.vocale> <eh>, <ah>,<mh>, <aha>, <mhmh> <oh> <oh!>, <ah!>, <aha!> <mbè> <mbè?> <f048> o altro codice altri non rientranti nelle etichette precedenti dove sta <f.vocale> ? segnalazioni di assenso da parte del locutore G: poi devi andare a destra F: <mhmh> segnalazioni di fine di un sub-task e ... e infine girare a sinistra. inizio di un nuovo sub-task <oh> ora la prossima tappa e’ un banano Esclamazioni (sorpresa, stupore, <ah!> un banano! ma io non soddisfazione…) ce l’ho un banano Assenso e domanda da parte del locutore attraverso l’uso di questa polirematica sovrapposizione di turno cfr. più sotto evento non vocale, non comunicativo generico <RUMORE> dov’è <RUMORE> ? parole o sequenze inintellegibili ma <inintellegibile> dov’è? <inintellegibile> prima e dopo il testo (senza spazi bianchi) cui si sovrappone - evento vocale - altro turno - evento non vocale il testo è preceduto dall’annotazione dell’evento # (cancelletto) Commenti del trascrittore Simbolo (e descrizione) [gridando] o altro [dialettale] [regionale] [altro] #<f.vocale> il banano ?# il #<F048> banano ?# il #<RUMORE> banano ?# [] Applicazione commenti generici del trascrittore, sovrapposti o no al testo parola o sequenza dialettale, regionale, marcata in diafasia o diastratia, etc... Esempio d’uso lei dice [gridando] ? lei #[gridando] dice ?# #[dialettale] ka ditto ?# ho detto guagliò [dialettale] APPENDICE [B] Codici SAMPA per la trascrizione fonologica Simbolo SAMPA descrizione corrispettivo IPA parola trascrizione pane bara tana dado cane gatto zitto negozio "pane "bara "tana "dado "kane "gatto "tsitto neg"Otsjo neg"Ottsjo "dzOna m"Edzo m"Eddzo "tSena "dZita "fame "vano "sano "zbaLo "Sena "eSe "eSSe "mano "nano "Jomo b"aJo b"aJJo "rana "lana Li m"aLa m"aLLa "jEri "wOmo "mite "sera "mEta "rata p b t d k g ts occlusiva bilabiale sorda affricata dentale sorda p b t d k g ts dz affricata dentale sonora dz zona mezzo tS dZ f v s z S affricata palatale sorda tS dZ f v s z S cena gita fame vano sano zbaglio scena esce m n J nasale bilabiale m n ¯ mano nano gnomo bagno r l L liquida vibrante r l ¥ rana lana gli maglia j w i e E a semivocale palatale j w i e E a ieri uomo mite sera meta rata occlusiva bilabiale sonora occlusiva dentale sorda occlusiva dentale sonora occlusiva velare sorda occlusiva velare sonora affricata palatale sonora fricativa labiodentale sorda fricativa labiodentale sonora fricativa alveolare sorda fricativa alveolare sonora fricativa palatale sorda nasale dentale nasale palatale liquida laterale liquida palatale semivocale labiovelare vocale anteriore alta vocale anteriore medio-alta vocale anteriore medio-bassa vocale centrale bassa O o u " C+C vocale posteriore medio-bassa vocale posteriore medio-alta vocale posteriore alta accento lessicale primario consonante geminata (e/o rafforzata in PHB) ç o u ' mora voto muto "mOra "voto "muto vacca bagno "vakka "baJJo APPENDICE [C] Codici X-SAMPA per la trascrizione fonetica (descrizione e commenti sono limitati ai simboli diversi da quelli già presenti in SAMPA, cfr. APPENDICE [B], ed evidenziati in grassetto). I simboli con (*) rappresentano una versione parzialmente diversa da X-SAMPA: si tratta dei tre allofoni approssimanti delle occlusive bilabiale, dentale e velare [B, D, G] utilizzati nell’adattamento del SAMPA allo spagnolo (gli stessi simboli indicano fricative nell’alfabeto X-SAMPA standard). E’ stata introdotta, inoltre, l’etichetta ‘_f’ per indicare la ‘fricativizzazione’ (totale o parziale) di una consonante, da apporre dopo l’elemento modificato in analogia con gli altri diacritici. Simbolo XSAMPA p b B (*) t d D (*) k g G (*) ts dz tS dZ f v s z S Z m descrizione allofono approssimante dell’occlusiva bilabiale allofono approssimante dell’occlusiva dentale allofono approssimante dell’occlusiva velare allofono fricativo dell’affricata palatale sonora /dZ/ corrispettivo IPA p b B t d D k g F ts dz tS dZ f v s z S Z m commento e/o esempio n N allofono velare della nasale n N M allofono labiodentale della nasale M J r 4 l L j w i e E a O o u @ 6 C+C V+V allofono monovibrante di /r/ schwa, vocale centrale media vocale centrale medio-bassa ¯ r R l ¥ j w i e E a ç o u ´ a rovesciata consonante geminata ~ per la trascrizione del dittongo ‘discendente’ per la trascrizione del dittongo ‘ascendente’ nasalizzato a) _v sonorizzato pª _0 desonorizzato d8 _h aspirato kH _j palatalizzato kJ _f fricativizzato = sillabico s` v\ h\ H\ ? approssimante labiodentale V ? h / semiV+V fricativa glottidale sonora fricativa glottidale sorda colpo di glottide allofono condizionato contestualmente (es: banco [baNko]) allofono condizionato contestualmente (es: anfora [aMfora]) risultato dei fenomeni di centralizzazione vocalica, per esempio in fine di parola (es: casa [kas@]) o per coloritura di /r/ (es: per [pe@], o altro... risultato dei fenomeni di centralizzazione vocalica, soprattutto di /a/ e /O/ (es: capitolo [k6pit6lo] es: vacca [vakka] es: corteo [kortEo] es: fiore [fjore] da apporre dopo l’elemento (es: [informattsjo~] da apporre dopo l’elemento es: [komp_vlEto] da apporre dopo l’elemento es: [kwand_0o] da apporre dopo l’elemento es: [k_hasa]] da apporre dopo l’elemento es: [k_jina] da apporre dopo l’elemento es: [vEr_fso] da apporre dopo l’elemento es: [differEns=] es: [div\Ersa] APPENDICE [D] RIFERIMENTI BIBLIOGRAFICI ed ALTRE FONTI utilizzate per la stesura del presente documento. Bibliografia citata: Barry, W., Fourcin, A.J., 1992, ‘Levels of Labelling’, Computer Speech and Language, 6: 1-14. Canepari, L., 1992, Manuale di pronuncia italiana, Zanichelli, Bologna. Cole, R., Oshika, B.T., Noel, M., Lander, T., Fanty, M., 1994, ‘Labeler Agreement in Phonetic Labeling of Continuous Speech’, in Proceedings of the 1994 international Conference on Spoken Language Processing, Yokohama, Japan, 18-22 September 1994, URL: http://www.cse.ogi.edu/CSLU/corpora/papers.html. Cosi, P., Falavigna, D., Omologo, M., 19??, ‘A preliminary Statistical Evaluation of Manual and Automatic Segmentation Discrepancy’, in..... Cosi, P., Omologo, M., 1991, ‘Caratterizzazione statistica della segmentazione manuale del segnale vocale’, in Atti del XIX Convegno AIA, Napoli, 10-12 Aprile, 1991, pp: 375-381. Edwards, J.A., 1993, ‘Principles and Contrasting Systems of Discource Transcription’, in Edwards, J.A., Lampert, M.D., (eds), Talking Data: Transcription and Coding in Discource Research, Lawrence Erlbaum Associated Publishers, Hillsdale, New Jersey, pp: 3-31. Endo, R., Bertinetto, P.M., 1999, ‘Caratteristiche prosodiche delle cosiddette ‘rafforzate’ italiane’, in Atti delle IX Giornate di studio del Gruppo di Fonetica Sperimentale, Venezia, 17-19 Dicembre 1998, pp. 243-255. Eisen, B., 1993, ‘Reliability of speech segmentation and labelling at different levels of transcription’, in Eurospeech’93. 3rd European Conference on Speech Communication and Technology, Berlin, Germany, 21-23 September 1993, vol.1: 673-676. Gibbon, D., Moore, R., Winski, R., (eds) 1997, Handbook of Standard and Resource for Spoken Language Systems, Mouton de Gruyter, Berlin-NewYork. Kohler, K., Pätzold, M., Simpson, A., 1995, From scenario to segment. The controlled elicitation, transcription, segmentation and labelling of spontaneous speech. Arbeitsberichte (AIPUK) nr.29, Institut für Phonetik und digitale Sprachverarbeitung, Univesität Kiel. Llisterri, J., 1997, ‘Trascripción, etiquetado y codificación de corpus orales’, URL: http://liceu.uab.es/~joaquim/publicacions/FDS97.html. Mariño, J.B., Llisterri, J., 1993, ‘Spanish Adaptation of SAMPA and Automatic Phonetic Transcription’, SAM-A/UPC/001/v1 20th April 1993. ESPRIT PROJECT 6819 (SAM-A Speech Tecnology Assesment in Multilingual Applications). Nespor, M., 1993, Fonologia, Il Mulino, Bologna. Salza, P.L. 1991. ‘La problematica della segmentazione del segnale vocale’, in Magno Caldognetto E. e F. Ferrero (acd), Trattamento del segnale vocale ed elaborazione statistica dei dati. Atti delle Ie Giornate di Studio del Gruppo di Fonetica Sperimentale (AIA), Padova 3-6.XI.1990, Collana degli Atti dell’Associazione Italiana di Acustica, XVIII: 23-48. Tillmann, H.G., Pompino-Marschall, B., 1993, ‘Theoretical Principles concerning Segmentation, Labelling Strategies and Levels of Categorical Annotation for Spoken Language Database Systems’, in Eurospeech’93. 3rd European Conference on Speech Communication and Technology, Berlin, Germany, 21-23 September 1993, vol.3:16911694. Tomlinson, M., 1987, ‘Labelling Methods Session’, in ESPRIT PROJECT 1541 Multilingual Speech Input-Output Assesment, Methodology and Standardization (SAM), Meeting Report: Labelling, Transcription and Management Methods for Speech Databases. Wells, J.C., 1994, ‘Computer-coding the IPA: a proposed extension of SAMPA, URL: http://www.phon.ucl.ac.uk/home/sampa/x-sampa.htm. Wells, J.C., Barry, W., Fourcin, A.J., 1989, ‘Transcription, Labelling and Reference’, in Fourcin, A., Harland, G., Barry, W., Hazan, V., (eds), Speech Input and Output Assessment. Multilingual methods and standards., Ellis Horwood Limited and the EEC, Chichester, England. Altre fonti di riferimento: Generali: BORTOLINI, U., PIZZUTO, E., (a cura di) 1997, Il progetto CHILDES-Italia. Contributi di ricerca sulla lingua italiana., Edizioni del Cerro, Pisa. CHAN, D., FOURCIN, A., GIBBON, D., GRANDSTROM, B., HUCKVALE, M., KOKKINAKIS, G., KVALE, K., LAMEL, L., LINDBERG, B., MORENO, A., MOUROPOULOS, J., SENIA, F., TRANCOSO, I., IN ‘T VELD, C., ZEILINGER, J., 1995, ‘EUROM - A Spoken Language Resouces for the EU’, in Eurospeech’95. 4th European Conference on Speech Communication and Speech Technology, Madrid, Spain, 18-21 September, 1995, Vol.1: 867-870. FOURCIN, A.J., DOLMAZON, J.M., (on behalf of the SAM project), 1991, ‘Speech Knowledge, Standards and Assessment’, in Actes du XIIème Congrès International des Sciences Phonétiques. 19-24 août 1991, Aix-en-Provence, France. Aix-en-Provence: Université de Provence, Service des Publications. Vol.5: 430-433. HESS, W., KOHLER, K., TILLMANN, H.G., 1995, ‘The Phondat-Verbmobil Speech Corpus’, in Eurospeech’95. 4th European Conference on Speech Communication and Speech Technology, Madrid, Spain, 18-21 September, 1995, Vol.1: 863-866. LLISTERRI, J., (coord), 1996, Report on Linguistic Resources for Spanish II. Written and Spoken Corpora available or in progress in Spain., Observatorio Español de Industrias de la Lengua, Instituto Cervantes, Alcalá de Henares. MAC WHINNEY, B., 1997, Il progetto CHILDES. Strumenti per l’analisi del linguaggio parlato, (edizione italiana a cura di E. Pizzuto e U. Bortolini), Edizioni del Cerro, Pisa. REVUE FRANÇAISE DE LINGUISTIQUE APPLIQUÉE - Dossier: CORPUS. De leur constitution à leur exploitation, Vol I-2, Décembre 1996. SPEECHDAT, URL: http://www.icp.grenet.fr/SpeechDat/home.html WINSKI, R., MOORE, R., GIBBON, D., 1995, ‘EAGLES Spoken Language Working Group: Overview and Results’, in Eurospeech’95. 4th European Conference on Speech Communication and Speech Technology, Madrid, Spain, 18-21 September, 1995, Vol.1: 841-844. Per la trascrizione fonetica: HIERONYMUS, J.L., 1994, ASCII phonetics symbols for the world’s languages: Worldbet. AT&T Bell laboratories, Technical Memo. URL: http://www.cse.ogi.edu/CSLU/corpora/papers.html. SAMPA - Computer readable phonetic alphabet, URL: http://www.phon.ucl.ac.uk/home/ sampa/home.htm; http://www.phon.ucl.ac.uk/home/ sampa/italian.htm; http://www.phon. ucl.ac.uk/home/ sampa/x-sampa.htm TEUBERT, W., 1993, ‘Phonetic-Phonemic and Prosodic Annotation’, NERC Final Report, Workpackage 8: Linguistic Annotation, section 8.1, CNR- Istituto di Linguistica Computazionale, Pisa. UNIBET, PHONASCII, in Mac Whinney, B., 1997, Il progetto CHILDES. Strumenti per l’analisi del linguaggio parlato, (edizione italiana a cura di E. Pizzuto e U. Bortolini), Edizioni del Cerro, Pisa. WORLDBET, URL: http://www.cse.ogi.edu/CSLU/corpora/papers.html Per la trascrizione-annotazione di dialoghi: BURNARD, L., 1995, ‘The Text Encoding Initiative: an overview’, in Leech, G., Myers, G., Thomas, J., (eds), Spoken English on Computer. Transcription, Mark-up and Applications, Longman Publishing, New York, pp: 69-81. CES - Corpus Encoding Standards, URL: http://www.cs.vassar.edu/CES. DRI - Discourse Resources initiative, URL: http://www.geogetown.edu/luperfoy/DiscourseTreebank/dri-home.html. DU BOIS, J.W., SCHUETZE-COBURN, S., CUMMING, S., PAOLINO, D., 1993, ‘Outline of Discourse Transcription’, in Edwards, J.A., Lampert, M.D., (eds), Talking Data: Transcription and Coding in Discource Research, Lawrence Erlbaum Associated Publishers, Hillsdale, New Jersey, pp: 45-90. EDWARDS, J.A., 1992, ‘Design principles in the transcription of spoken discourse’, in Svartvik, J., (ed.), Directions in Corpus Linguistics, Proceedings of the Nobel Symposium 82, Stokholm, 4-8 August 1991, Mouton de Gruyter, Berlin - New York, pp: 129-148. EDWARDS, J.A., 1995, ‘Principles and alternative systems in the transcription, coding and mark-up of spoken discourse, in Leech, G., Myers, G., Thomas, J., (eds), Spoken English on Computer. Transcription, Mark-up and Applications, Longman Publishing, New York, pp: 19-34. EHLICH, K., 1994, ‘HIAT: A Transcription Systems for Discourse Data’, in Edwards, J.A., Lampert, M.D., (eds), Talking Data: Transcription and Coding in Discource Research, Lawrence Erlbaum Associated Publishers, Hillsdale, New Jersey, pp: 123-148. GREENBAUM, S., 1992, ‘A new corpus of English: ICE’, in Svartvik, J., (ed.), Directions in Corpus Linguistics, Proceedings of the Nobel Symposium 82, Stokholm, 4-8 August 1991, Mouton de Gruyter, Berlin - New York, pp: 171-184. GUMPERZ, J.J., BERENZ, N., 1994, ‘Transcribing Conversational Exchanges’, in Edwards, J.A., Lampert, M.D., (eds), Talking Data: Transcription and Coding in Discource Research, Lawrence Erlbaum Associated Publishers, Hillsdale, New Jersey, pp: 91-122. JEKAT, S., KLEIN, A., MAIER, E., MALECK, I., MAST, M., QUANTZ, J., 1995, ‘Dialogue Acts in VERBMOBIL’, URL: http://www.dfki.uni-sb.de:80/verbmobil/overview-us.htm. JOHANSSON, S., 1995, ‘The approach of the Text Encoding Initiative to the encoding of spoken discourse’, in Leech, G., Myers, G., Thomas, J., (eds), Spoken English on Computer. Transcription, Mark-up and Applications, Longman Publishing, New York, pp: 82-98. MULTEXT - Multilingual Text Tools and Corpora, URL: http://www.lpl.univ- aix.fr/projects/multext. PAYNE, J., 1995, ‘The COBUILD spoken corpus: transcription conventions’, in Leech, G., Myers, G., Thomas, J., (eds), Spoken English on Computer. Transcription, Mark-up and Applications, Longman Publishing, New York, pp: 203-207. PEPPÉ, S., 1995, ‘The survey of English Usage and the London-Lund Corpus: computerizing manual prosodic transcription’, in Leech, G., Myers, G., Thomas, J., (eds), Spoken English on Computer. Transcription, Mark-up and Applications, Longman Publishing, New York, pp: 187-202. SVARTVIK, J., (ed), 1990, The London-Lund Corpus of Spoken English. Description and Research. Lund University Press, Lund. TAYLOR, L.J., KNOWLES, G., 1988, Manual of Information to accompany the SEC Corpus. The Maschine-readable Corpus of Spoken English. Unit for Computer Research on the English Language, Bowland College, University of Lancaster, Bailrigg, Lancaster. TEI - Text Encoding Initiative, URL: http://www.tei.uic.edu/orgs/tei. The CHRISTINE Project, SUSANNE Meets Spoken English, URL: http://cogs.susx.ac.uk/ users/geoffs/RChristine.htm. The HCRC Map Task Corpus, URL: http://www.cogsci.ed.ac.uk/hcrc/wgs/dialogue/dialog/ maptask.htm. The MULTIPARTY Discourse Group, URL: http://www.cs.rochester.edu:80/ research/trains/annotation. THOMPSON, H.S., ANDERSON, A.H., BADER, M., 1995, ‘Publishing a spoken corpus on CDROM: the HCRC Map Task experience’, in Leech, G., Myers, G., Thomas, J., (eds), Spoken English on Computer. Transcription, Mark-up and Applications, Longman Publishing, New York, pp: 168-181. TRIPS: The Rochester Interactiva Planning Systems, URL: http://www.cs.rochester.edu:80/ research/trips VILLENA-PONSODA, J.A., 1994, ‘Pautas y procedimientosde representación del corpus oral de la Universidad de Málaga. Informe preliminar’, in Alvar Ezquerra, M., Villena-Ponsoda, J.A., (coord), Estudios para un corpus de español. Málaga: Universidad de Málaga, pp: 73-102. Per la trascrizione prosodica: BARRY, W., GIBBON, D., GRICE, M., HIRST, D.J., HOUSE, J., JOHNSON, M., LINDSEY, G., 1990, ‘Achievement of SAM Prosody Group meeting, Nov.1, 1990: Prosodic transcription and labelling’. MG - UCL - 20/12/1990. GRICE, M., BENZMÜLLER, R., 1995, ‘Transcription of German Intonation using ToBI-Tones. The Saarbrücken System’, Phonus 1: Institute of Phonetics, University of the Saarland. GUIDELINES for ToBI LABELLING, URL: http://ling.ohio-state.edu/Phonetics/ ToBI/ToBI0.html. INTSINT - International Transcription System for Intonation, URL: http://www.lpl.univaix.fr/~hirst/intsint.html. INTSINT - Prosody Research Team, URL: http://www.lpl.univ-aix.fr/~hirst/prosodie.E.html. LABLITA - Laboratorio Linguistico del Dipartimento di Italianistica dell’Università di Firenze, URL: http://www.unifi.it/unifi/dipita/ling-lab/homepage.htm; .../ricerche.htm; .../pubblica.htm. LLISTERRI, J., 1994, ‘Prosody Encoding Survey’, MULTEXT - LRE Project 62-050, WP1 Specifications and Standards. T1.5 Markup Specifications. Deliverable 1.5.3, Final version 15 Sept. 1994. NICOLAS, P., HIRST, D.J., 1995, ‘Symbolic coding of higher-level characteristics of fundamental frequency curves’, in Eurospeech’95. 4th European Conference on Speech Communication and Speech Technology, Madrid, Spain, 18-21 September, 1995, Vol.1: 989-992. PROSODY LABELLING GROUP - Germany, URL: http://sbvsrv.ifn.ing.tu-bs.de/prosody/ workshop.html. SAMPROSA - (SAM Prosodic Transcription), URL: http://www.phon.ucl.ac.uk/home/sampa/ samprosa.htm. STRANGERT, E., HELDNER, M., 1995, ‘Labelling of boundaries and prominences by phonetically experienced and non-experienced transcribers’, Phonum 3: Reports from the Department of Phonetics, Umeå University.