Ethan Frome - Parlaritaliano

Transcript

Ethan Frome - Parlaritaliano
AVIP
Documento di specifiche
per la rappresentazione, analisi e codifica dei dati.
Trascrizione ed etichettatura dei livelli segmentali.
R. Savy
1. INTRODUZIONE.
1.1. Rappresentazione dei dati: trascrizione, etichettatura, codifica.
1.2. Livelli di trascrizione ed etichettatura.
1.3. Segmentazione
2. TRASCRIZIONE ED ETICHETTATURA ORTOGRAFICA.
2.1. Criteri per la trascrizione/annotazione ortografica del corpus AVIP
A - . Preliminari generali.
B - Strumentazione; nome e formato dei files di trascrizione.
C - Trascrizione della sequenza lessicale ed elementi linguistici semi-lessicali
D - Trascrizione dei fenomeni verbali non lessicali
E - Trascrizione dei fenomeni vocali non verbali
F - Trascrizione dei fenomeni non vocali non comunicativi
G - Commenti del trascrittore.
2.2. Etichettatura per parole (livello WRD)
A - Generazione della lista di parole (files HSW)
B - Etichettatura sul segnale (livello WRD).
3. TRASCRIZIONE ED ETICHETTATURA FONEMICA.
3.1. Criteri per la trascrizione fonemica del corpus AVIP (livelli PHM e PHB).
3.2. Etichettatura fonologica standard (livello PHM).
3.3. Etichettatura fonologica regionale o ‘fonetica larga’ (livello PHB).
4. TRASCRIZIONE ED ETICHETTATURA FONETICA.
4.1. Criteri per la trascrizione/etichettatura fonetica del corpus AVIP (livello PHN).
A - Tratti e fenomeni fonetici da descrivere.
B - Etichettatura fonetica
5. DETTAGLIO DI ALCUNE SOLUZIONI ADOTTATE PER LA CODIFICA DELLE DIVERSE VARIETÀ
DEL CORPUS AVIP.
5.1. Definizione del tratto [dialettale] in area toscana (unità di Pisa)
5.2. Differenze nell’etichettatura a livello WRD-PHM per la varietà pisana.
5.3. Differenze nell’etichettatura delle sequenze dialettali e delle disfluenze a livello
PHB.
5.4. Sottoinsieme di etichettatura fonetica (PHN) implementato per la varietà pisana.
5.5. Etichettatura di vocali e dittonghi a livello PHN: varietà pisana/varietà
napoletana.
A - Annotazione dei timbri adottata dall’unità di Napoli.
B - Annotazione dei timbri adottata dall’unità di Pisa.
C - Etichettatura dei dittonghi effettuata dall’unità di Pisa
5.6. Alcune soluzioni specifiche adottate per l’etichettatura del parlato di bambini
ipoacusici.
APPENDICE [A] Codici per l’annotazione del testo in trascrizione ortografica
APPENDICE [B] Codici Sampa per la trascrizione fonologica
APPENDICE [C] Codici X-Sampa per la trascrizione fonetica
APPENDICE [D] RIFERIMENTI BIBLIOGRAFICI ed altre fonti utilizzate
1. INTRODUZIONE.
Il
presente
documento
costituisce
l’insieme
delle
specifiche
adottate
per
la
rappresentazione, l’analisi e la codifica dei dati raccolti per la costituzione del corpus AVIP.
Le norme adottate si basano sul tentativo di soddisfare due requisiti fondamentali, quello
dell’omogeneità o compatibilità con altri corpora costituiti per lo studio della lingua orale
(principalmente in ambito europeo) e quello dell’adeguatezza agli obiettivi proposti nella
formulazione del progetto di costituzione del corpus AVIP.
La soddisfazione del primo requisito ha richiesto un lavoro di ricognizione degli standard
di rappresentazione e codifica messi a punto nei molteplici progetti sviluppati in ambito
europeo; alcune di queste proposte verranno riassunte nelle loro linee generali all’interno di
questo documento, per aree di interesse, tentando di metterne in luce principalmente gli
aspetti che le accomunano tra loro e che costituiscono il terreno su cui si inserisce anche la
presente proposta. (Per la rassegna completa delle fonti di riferimento consultate, cfr.
APPENDICE [D])
Il tipo di rappresentazione e codifica necessario alla costituzione di un corpus dipende,
tuttavia, strettamente dagli obiettivi che ci si prefigge di raggiungere sotto vari aspetti: in
primo luogo il tipo di informazioni che si vogliono raccogliere e catalogare e i settori di studio
e di ricerca cui si intende servire, ma anche il tipo di utenza cui è rivolto essenzialmente il
corpus, l’accessibilità da parte di un’utenza più ampia, gli ambiti di applicazione per i quali la
raccolta è rilevante, ecc.
La valutazione di tali obiettivi che devono essere primariamente definiti e circoscritti
determina i criteri di costruzione, di organizzazione e di rappresentazione del corpus.
Il progetto AVIP è nato con lo scopo di costituire un corpus di dialoghi spontanei per lo
studio linguistico in generale e soprattutto fonetico della lingua italiana parlata e delle sue
varietà; è rivolto dunque primariamente ad un pubblico di ricercatori del settore linguisticofonetico, ma vuole essere aperto ed accessibile a tutti coloro che siano interessati più in
generale allo studio delle interazioni verbali e delle strutture linguistiche del parlato, nonché a
coloro che lavorano nell’ambito della ricerca tecnologica applicata al parlato (metodi e
sistemi di sintesi e riconoscimento automatico).
1.1. Rappresentazione dei dati: trascrizione, etichettatura, codifica.
La costituzione di un corpus linguistico (tanto di lingua scritta che di lingua orale) non consiste nella
semplice accumulazione sistematica di materiale, ma richiede una riflessione su molti aspetti che incidono in
modo diretto sul risultato finale ottenuto (Llisterri, 1997:1)
Perché un insieme di dati fonici (in forma di segnale acustico registrato e immagazzinato) costituisca un
corpus accessibile da parte di un’utenza varia è necessario che esso sia in primo luogo rappresentato e poi
organizzato e dotato di una struttura.
Il procedimento di rappresentazione dei dati di un corpus di lingua parlata prevede diverse operazioni
effettuabili in stadi separati, successivi o simultanei.
Il primo stadio è quello della trascrizione, la conversione del materiale fonico da onda sonora transitoria in
forma scritta, fissa e permanente; a questo stadio è prevista anche un’operazione di annotazione, che consiste
nella introduzione di informazioni aggiuntive, da parte di chi effettua l’operazione, relative a fenomeni
linguistici, situazionali, comunicativi in senso lato, della registrazione, etc.... Il procedimento di trascrizione non
richiede necessariamente (almeno per certi livelli, cfr. oltre §1.2) l’accesso alla rappresentazione del segnale
acustico digitalizzato, è cioè indipendente dal software di analisi del segnale (Cfr. Wells et al, 1989:160-161).
La seconda operazione è quella dell’etichettatura, cioè l’associazione di simboli definiti (etichette) a ciascun
determinato elemento del corpus, secondo la definizione delle sue proprietà; in questa fase rientrano altre
operazioni come la segmentazione del materiale fonico, l’analisi e l’allineamento temporale; è richiesto pertanto
l’accesso ad una rappresentazione del segnale acustico digitalizzato (forma d’onda, sonagramma, etc..).
Le decisioni relative a questi aspetti non sono puramente meccaniche, ma richiedono un’attenta analisi
linguistica del materiale, accompagnata da una pianificazione globale delle future possibilità di utilizzo del
corpus: tutti i tipi di rappresentazione del parlato sono il risultato di un’attività di analisi e classificazione
(Gibbon et al., 1997:146).
Attraverso l’insieme di operazioni sopra definite si giunge alla creazione di uno schema di codifica tanto dei
fenomeni rappresentati ai diversi livelli del corpus, quanto delle loro corrispondenti etichette. La codifica è lo
strumento che dota il corpus di una struttura, che permette di mantenere una distinzione tra i dati e la loro forma
di rappresentazione e che consente lo scambio e l’utilizzazione del corpus per scopi diversi da quelli per cui è
stato costituito (Llisterri, 1997:1-2).
1.2. Livelli di trascrizione ed etichettatura.
Si distinguono diversi livelli di trascrizione ed etichettatura del materiale linguistico che costituisce un corpus
di parlato. Il tipo e il numero dei livelli che si scelgono dipendono ancora una volta direttamente dall’obiettivo
che ci si propone nella costituzione del corpus e sua utilizzazione successiva: se, ad esempio, lo scopo della
raccolta dei dati è quello dello studio delle dinamiche conversazionali, sarà pertinente approssimativamente un
livello di trascrizione ortografica relativo ai turni della conversazione, arricchito da più livelli di annotazione
relativi ad atteggiamenti attitudinali, informazioni contestuali, sovrapposizioni e alternanze di turni, fenomeni
gestuali, etc...ed eventualmente un livello di trascrizione prosodica; se lo scopo è quello della codifica lessicale e
morfosintattica di testi orali, sarà pertinente un livello di trascrizione ortografica, con annotazioni di tipo
sintattico-semantico e un livello di etichettatura lessicale e morfologica.
Per quanto riguarda la costituzione di database orientati allo studio fonetico-linguistico del parlato, sono state
avanzate diverse proposte sui possibili livelli di trascrizione ed etichettatura all’interno dei vari progetti
sviluppati in Europa.
All’interno del progetto ESPRIT-SAM (Speech Assesment Methods), da cui sono nati i corpora EUROM-0 e
EUROM-1, è stata sviluppata la proposta di Barry & Fourcin (1992) che prevede 5 livelli possibili di
trascrizione/etichettatura fonetica:
1) Livello fisico, in cui si etichettano le proprietà acustiche presenti nel segnale sonoro.
2) Livello acustico-fonetico, in cui si marcano le proprietà dei segmenti in termini di categorie fonetiche
come occlusione, frizione, sonorità, nasalizzazione...
3) Livello di trascrizione stretta, in cui si caratterizzano i segmenti fonetici utilizzando i simboli di un
alfabeto fonetico.
4) Livello di trascrizione fonologica, in cui si segnalano solo gli elementi funzionalmente distintivi che si
incontrano in parole pronunciate in isolamento (citation form).
5) Livello di trascrizione larga, in cui attraverso i simboli corrispondenti agli elementi fonologici si
trascrivono realizzazioni allofoniche condizionate dal contesto.
A questi si aggiunge la annotazione prosodica, considerata indipendente.
Una proposta simile è quella sviluppata all’interno del progetto PHONDAT (cfr. Tillmann & PompinoMarschall, 1993) che prevede ancora 5 livelli di etichettatura: acustico-subfonemico, segmentale, realizzazioni
fonetiche, forma canonica lessicale, ortografico.
All’interno dell’iniziativa EAGLES (cfr. Gibbon et al, 1997) la questione della trascrizione/etichettatura di
corpora orali è stata affrontata da due diverse prospettive: quella della fonetica acustica e tecnologia del parlato e
quella della linguistica del corpus.
Alla prima risale il lavoro del SLWG (Spoken Language Working Group) che raccomanda (sulla base delle
proposte sviluppate in progetti come SAM, PhonDat, SpeechDat, Verbmobil, etc...) una procedura di trascrizione
in 9 livelli, corrispondenti ai 5 di Barry & Fourcin (1992), cui si aggiungono:
6) un livello primario ed ineliminabile di trascrizione/etichettatura ortografica;
7) un livello di annotazione morfosintattica, semantica e pragmatica;
8) un livello di trascrizione/etichettatura prosodica;
9) un livello di annotazione dei fenomeni non linguistici, prodotti dal parlante o esterni, e paralinguistici.
Tra le molte raccomandazioni del Gruppo SLWG è bene sottolineare le seguenti due:
- scegliere i livelli di trascrizione/etichettatura più adeguati agli obiettivi del corpus ed evitare di imbarcarsi,
se non necessario, nelle procedure di trascrizione stretta di livello più basso (livelli 1-3)
- documentare accuratamente tutte le fasi della procedura di trascrizione/etichettatura.
Per la codifica del corpus AVIP, in considerazione dei suoi obiettivi primari, sono stati
proposti come pertinenti i seguenti livelli di trascrizione/etichettatura:
1) ortografica, con annotazione aggiuntiva di fenomeni non linguistici (§2) ;
2) fonologica standard, per ‘citation forms’ (§3 [3.2]);
3) fonologica delle varietà o fonetica larga, per segmenti fonemici (§3 [3.3])
4) fonetica stretta (con alcune limitazioni, cfr. §4);
5) prosodica (per questo livello è presente un documento di specifiche separato).
Ognuno dei paragrafi di questo documento dedicato ai criteri adottati per la
trascrizione/etichettatura di AVIP, fa esplicito riferimento ai dialoghi del corpus prodotti con
il metodo del Map task, per i quali si considerano le produzioni di entrambi i parlanti (Giver e
Follower); tuttavia i medesimi criteri sono stati applicati anche al materiale raccolto con
metodo differente per la porzione di corpus dedicata al parlato infantile, per il quale sono state
prese in esame le sole produzioni del bambino (Follower).
1.3. Segmentazione
Una questione fondamentale nella etichettatura di database di parlato riguarda la scelta del tipo di procedura
di segmentazione da adottare, automatica o manuale.
Una procedura di segmentazione automatica consente di etichettare grandi masse di dati, riducendo i costi in
termini di tempo e sforzo; lo svantaggio di questa soluzione consiste in un basso grado di accuratezza nella
definizione dei confini (Gibbon et al. 1997:153-154). In genere l’affidabilità della segmentazione automatica
decresce con l’aumentare del livello di ‘finezza’ dell’etichettatura: l’etichettatura lessicale-ortografica di una
lista di parole isolate è un procedimento più semplice dell’etichettatura di segmenti fonemici e/o fonetici di
sequenze di parlato continuo e/o spontaneo, essendo il rapporto tra segnale acustico ed etichetta linguistica più
chiaro e definito (Wells et al., 1989:161:162).
La segmentazione manuale assicura una maggiore accuratezza (sebbene con diversi gradi di accordo fra i
trascrittori, cfr. Eisen, 1993; Cole et al. 1994; Cosi & Omologo, 1991), ma implica tempi molto lunghi e pertanto
mal si adatta alla etichettatura di database molto ampi; essa richiede inoltre la definizione esplicita di criteri
procedurali per assicurare l’omogeneità (intra- e inter- trascrittori) delle operazioni.
Dati questi presupposti, la soluzione più spesso adottata è quella di un procedimento semi-automatico di
segmentazione in cui, alla fase di definizione automatica dei confini segue una fase di controllo e modifica
manuale (Gibbon et al.,1997:153).
Per l’etichettatura del corpus AVIP, la procedura di segmentazione adottata è in parte
direttamente dipendente dal software di ausilio (la cui architettura è definita e descritta in altro
documento specifico), in parte regolata da criteri comuni basati sull’esperienza nel campo
della fonetica strumentale.
La segmentazione avviene in maniera semiautomatica: il sistema provvede a fornire
inizialmente un’ipotesi di segmentazione ai livelli gerarchicamente più bassi (cioè quelli
legati al segnale, PHB e PHN, cfr. §3 e §4); l’operatore può accettare l’ipotesi fornita dal
sistema oppure modificarla a suo piacimento spostando i marcatori, annullandoli o
inserendone altri.
Per garantire una uniformità negli interventi dei vari operatori addetti alla procedura è
necessario, tuttavia, che siano fissati dei criteri ed adottata una strategia di segmentazione
comune. A questo scopo si è fatto riferimento ad una serie di ‘regole operative’ suggerite e
sviluppate all’interno del progetto ESPRIT-SAM 2589 (cfr. Cosi & Omologo, 1991:376). Le
due regole di procedura fondamentali sono le seguenti:
REGOLA N. 1 - Individuati visivamente sulla forma d’onda temporale o sullo
spettrogramma del segnale evidenti "eventi acustici"... questi dovrebbero essere
immediatamente indicati [...]
REGOLA N. 2 - Nei casi di incertezza .... individuate uditivamente e visivamente sulla
forma d’onda o sullo spettrogramma del segnale due possibili unità ... adiacenti tra loro, si
procede all’ascolto iterativo di una porzione estesa di segnale,...compresa in una finestra
posizionata in modo tale che il suo bordo destro inizialmente consenta l’ascolto solo della
prima delle due unità e successivamente, in modo progressivo, si sposti verso destra fino a che
anche la seconda unità possa essere percepita. Memorizzata questa posizione, si ripete la
procedura appena utilizzata, considerando in questa seconda fase una finestra di segnale di
dimensioni equivalenti alla precedente, ma posizionata questa volta alla sinistra del confine di
possibile separazione delle due unità. [...] Memorizzata anche la seconda posizione, si
utilizzerà, come effettivo confine di separazione fra le due unità, la posizione corrispondente
all’ ‘evento significativo’ più vicino al punto medio relativo ai due cursori precedentemente
ottenuti.
A queste regole principali si aggiungono una serie di suggerimenti pratici, relativi a
situazioni particolari (cfr. anche Salza, 1991). Si tratta, in linee generali, di una procedura che
si basa prevalentemente sulla valutazione uditiva di porzioni di segnale e fa ricorso, solo
secondariamente, all’osservazione dei parametri acustici. Il risultato di questo processo è la
definizione dei confini tra i segmenti e delle relative caselle di etichettatura.
Anche il procedimento di analisi, attraverso il quale si è giunti alla trascrizione, è stato in
prima istanza uditivo, accompagnato da verifiche strumentali; queste ultime sono state basate
essenzialmente su due tipi di rappresentazione:
• la forma d’onda del segnale;
• lo spettrogramma basato su analisi FFT.
2. TRASCRIZIONE ED ETICHETTATURA ORTOGRAFICA.
Il primo livello di trascrizione da prendere in considerazione è dunque quello della rappresentazione del testo
completo prodotto dal parlante, utilizzando la forma ortografica convenzionale. Questo livello di
rappresentazione è comune a tutti i tipi di corpora orali, qualunque sia la loro applicazione (dall’analisi delle
interazioni verbali conversazionali, allo sviluppo di sistemi di sintesi e riconoscimento di parlato). Proprio per
questo motivo, è stata sviluppata una gran quantità di proposte di codifica ortografica del testo.
Di particolare importanza è il progetto internazionale della TEI (Text Encoding Initiative) che si propone la
messa a punto di uno standard per la codifica di testi letterari e linguistici (SGML- Standard Generalized Markup Language): una parte dell’iniziativa è dedicata alla trascrizione di corpora orali e alla rappresentazione degli
elementi strutturali di base - informazioni contestuali, informazioni temporali, enunciati, pause, elementi vocali
non lessicali -, degli elementi paralinguistici - tempo, tono di voce, ritmo, rango tonale, qualità di voce -, delle
sovrapposizioni di turno, degli elementi prosodici, etc... La TEI ha dato origine a varie applicazioni come CES
(Corpus Encoding standard) e MULTEXT (Multilingual Text Tools and Corpora) che si occupano di fornire
specifiche di codifica e annotazione di testi di parlato, ma a livello prevalentemente morfo-sintattico, lessicale e
prosodico1.
Un’altra iniziativa, la DRI (Discourse Resource Initiative) e il Multiparty Discourse Group (sottoparte della
DRI) fornisce un diverso schema di annotazione (DAMSL - Dialogue Acts Mark-up in Several Layers) per la
trascrizione e la codifica di dialoghi in termini di speech acts (atti illocutivi), informazioni sullo status
comunicativo dei dialoghi, classificazione del contenuto degli enunciati e relazioni tra dialoghi e prosodia2.
Altri schemi di trascrizione/annotazione/etichettatura ortografica, meno complessi e più orientati alla
trascrizione di corpora per lo studio prevalentemente fonetico del parlato, sono stati sviluppati dal Gruppo di
Lavoro sui Testi Orali e il Gruppo di Lavoro sulla Lingua Orale di EAGLES, all’interno dei progetti SPEECHDAT e
all’interno del progetto Verbmobil-KIEL CORPUS.
Le differenze maggiori tra i vari schemi di trascrizione/annotazione/etichettatura riguardano il ‘come’ della
procedura, cioè l’uso di strumenti, di etichette e di metodologie diverse; c’è invece sostanziale accordo e
omogeneità sia sui principi generali che regolano la procedura, sia sul ‘cosa’ trascrivere e annotare.
Tra i criteri generali per una buona trascrizione (riassunti in Edwards, 1993) i principali sono quelli della
sistematicità e predicibilità, e quello della leggibilità del testo trascritto, che si ottiene attraverso alcuni
accorgimenti: iconicità delle dimensioni tempo-spazio, prossimità di trascrizione di eventi correlati, separabilità
visiva di eventi diversi, priorità logica nella codifica di informazioni utili all’interpretazione di eventi successivi,
uso di marche facilmente memorizzabili e compattezza di annotazione.
Per quel che riguarda gli elementi minimi che è necessario rientrino nella procedura di
trascrizione/annotazione, si considerano generalmente i seguenti:
- documentazione sociobiografica del parlante;
- informazioni generali circa la situazione comunicativa;
- informazioni generali circa le caratteristiche e la qualità di voce;
- alternanze e sovrapposizioni di turni dialogici;
- sequenza lessicale di ciascun turno;
- uso di una punteggiatura minima che renda il testo leggibile e interpretabile;
- altri fenomeni linguistici (semi-lessicali), come abbreviazioni, spellings, sequenze di lettere, sequenze di
numeri, forme ridotte di parole (abbreviazioni) e forme troncate, errori di pronuncia, interiezioni;
- fenomeni linguistici-verbali non lessicali, come articolazioni di esitazione, pause piene e vuote, false
partenze, allungamenti di programmazione;
- fenomeni vocali non verbali prodotti dal parlante, come colpi di tosse, risate, starnuti, sospiri, inspirazioni,
rumori vari prodotti con le labbra o la lingua, raschiamenti di voce...;
- fenomeni non vocali e non comunicativi, come rumori di fondo, rumori di strada, rumori di carta....
- commenti vari del trascrittore sul contenuto linguistico (es: forme o sequenze inintellegibili, varianti
dialettali, etc...) e sulla registrazione (accidenti vari come interruzioni, abbassamenti di volume, etc...).
Altra caratteristica comune ai sistemi di annotazione di dialoghi è l’incorporazione dell’informazione
prosodica nel livello di trascrizione ortografica, ma ciò accade perché pochi dialoghi sono trascritti ed etichettati
1
Lo schema di annotazione SGML della TEI è utilizzato nei progetti COBUILD e, nelle linee essenziali con
qualche modifica, nel HCRC-Maptask Corpus.
2
Alcuni dialoghi annotati con DAMSL sono all’interno dei progetti TRIPS, VERBMOBIL e MAPTASK.
foneticamente. Nella procedura proposta in EAGLES e nei progetti di corpora per la fonetica (Speechdat,
Verbmobil, PhonDat, Polyphone...), la trascrizione prosodica viene data a parte con relativa etichettatura e
allineamento al segnale (curva di f0).
Su questi stessi principi generali e sulle linee principali condivise da tutte le proposte si
basa lo schema di trascrizione, annotazione ed etichettatura ortografica adottato per il corpus
AVIP.
2.1. Criteri per la trascrizione/annotazione ortografica del corpus AVIP
Per una lista completa dei codici utilizzati nella trascrizione ortografica, si rimanda alla
tabella in APPENDICE [A].
A - . Preliminari generali.
1) Per la parte del progetto cui si riferisce questo documento non è stato previsto alcun
livello di annotazione di tipo morfo-sintattico, lessicale, semantico-testuale3.
2) La fase di pura trascrizione, preliminare e indipendente dalla visualizzazione di
qualunque forma di rappresentazione del segnale acustico (forma d’onda, spettrogramma,
etc...), è stata effettuata a partire dal semplice ascolto del materiale registrato.
3) La trascrizione è stata effettuata in stadi successivi di ‘complicazione’ o arricchimento,
vale a dire concentrando dapprima l’attenzione sul contenuto linguistico-lessicale del testo e
incorporando, in una o più fasi successive, la punteggiatura interpretativa, l’annotazione dei
fenomeni non lessicali, vocali non verbali, non vocali e i commenti del trascrittore.
4) L’annotazione del testo fa uso di codici specificati in lingua italiana.
5) Uno degli scopi della trascrizione è stata la generazione di un testo disponibile
successivamente per la fase di analisi ed etichettatura.
6) La trascrizione e annotazione riguarda tutti e solo gli eventi acustici (linguistici e non
linguistici) udibili; ciò considerando che tali eventi sono presenti nella forma d’onda del
segnale e richiedono una valutazione ad ogni fase di etichettatura. Per lo stesso motivo, tutto
quanto si verifichi a basso livello sonoro e non sia intrusivo per il segnale è stato omesso
dall’annotazione.
3
L’annotazione testuale è stata effettuata in altra fase del progetto, prendendo come punto di riferimento le
trascrizioni semplici così prodotte ed implementandole con sistemi di codifica specifici. Per questo si rimanda al
documento apposito.
7) Ogni evento udibile è stato annotato nella trascrizione nella sua corretta posizione
temporale; se un evento si verifica contemporaneamente a una parte di testo (sequenza
lessicale) o altro evento è stato collocato prima dell’inizio del testo cui si riferisce e è stata
indicata la sequenza cui si sovrappone.
B - Strumentazione; nome e formato dei files di trascrizione.
1) Per la trascrizione è stato utilizzato un editor di testo.
2) I file di trascrizione sono stati immagazzinati in formato testo (TXT). Ogni file contiene
la trascrizione relativa ad un intero dialogo realizzato con una coppia di mappe e dunque la
trascrizione dei turni di una coppia di parlanti.
3) Per i nomi dei file di testo è stato utilizzato un formato compatibile e paragonabile
facilmente a quello proposto per i file di analisi ed etichettatura generati dal software di
ausilio, che contiene:
• un codice della lunghezza di una lettera identificativo della mappa con la quale è
stato realizzato il dialogo;
• due cifre identificative del numero del dialogo;
• una lettera identificativa della varietà d’italiano parlata.
Sono ovviamente assenti il codice identificativo del ruolo dell’informatore e quello
identificativo del numero di turno del parlante (sostituiti da una serie di ‘_’).
Esempio:
A01____N. TXT
si riferirà alla trascrizione del dialogo 01, realizzato con la coppia di mappe A nella varietà
di italiano N.
4) All’interno di ciascun file è presente un’intestazione in cui sono contenute alcune
informazioni generali circa la produzione del dialogo e i parlanti (le stesse sono contenute nel
file di intestazione .HDR per il software di costruzione dell’archivio). Le righe di testo hanno
le seguenti denominazioni e formati:
ING: (informazioni sull’Instruction Giver: nome, età, sesso, eventualmente segni
particolari e generali sulla qualità di voce)
INF: (informazioni sull’Instruction Follower: nome, età, sesso, eventualmente segni
particolari e generali sulla qualità di voce)
LOC: (luogo e data della registrazione)
DUR: (durata totale del dialogo)
CON: (condizioni generali della registrazione: ad esempio se esistono parti non registrate
o particolarmente rumorose, interventi di altre voci, etc...)
CMT: (eventuali commenti generali del trascrittore)
5) L’unità di trascrizione all’interno del file è il turno dialogico di ciascun parlante. Per
‘turno’ è stata considerata la ‘presa di parola’ da parte di uno dei due interlocutori, sia che
essa interrompa effettivamente il turno dell’altro locutore, sia che si sovrapponga a
quest’ultimo senza costituire necessariamente interruzione (per esempi di sovrapposizione
senza interruzione, si veda al punto E.3).
Di norma non è stata considerata interruzione di turno la presa di parola con funzione
fatica (per esempio, manifestazioni di assenso, espressioni di esitazione, sorpresa, disappunto
da parte dell’interlocutore, false partenze e simili): in questi casi si è ritenuta fondamentale
indicazione di unità la coerenza semantico-pragmatica interna alla produzione di uno stesso
locutore. Tuttavia, l’interpretazione di alcuni casi è inevitabilmente condizionata da un
qualche grado di soggettività.
6) Ogni turno è preceduto da un indice di una lettera (identificativa del parlante e suo
ruolo: G = Instruction Giver; F = Instruction Follower) e di un numero a tre cifre (indicante
l’ordine di turno del dialogo). La numerazione dei turni all’interno del dialogo è rigidamente
sequenziale, per evitare sfasature tra i due locutori.
Esempio:
G047
è il turno numero 47 del parlante con ruolo di Instruction Giver.
F048
è il turno numero 48 del parlante con ruolo di Instruction
Follower (immediatamente seguente il precedente G047).
7) L’indice è seguito da un ‘due punti’ (:) e 2 spazi bianchi prima dell’inizio del testo.
Ogni riga successiva di testo inizia con 7 spazi bianchi (perché risulti allineata alla
precedente, nel formato ASCII).
8) Alla fine di ciascun turno possono essere inserite, dopo una riga bianca, una o più righe
di commenti del trascrittore.
9) Tra un turno e il successivo sono inserite due righe bianche.
10) La presenza di una pausa percepita tra un turno e il successivo è segnalata su una riga a
parte, separata da due righe dal turno precedente e dal successivo (cfr. oltre, punto D.1).
11) I segni di punteggiatura sono separati dal testo con uno spazio bianco.
C - Trascrizione della sequenza lessicale ed elementi linguistici semi-lessicali
1) La sequenza lessicale è stata trascritta in linea di massima senza utilizzare lettere
maiuscole. Queste sono limitate alla trascrizione di nomi propri e sigle (es: Sara, AVIP).
2) Nel caso di parole che prevedono più forme possibili di scrittura (es: finora o fin’ora o
fin ora) ne è stata scelta una (ricorrendo all’uso di un dizionario) ed è stata mantenuta la stessa
forma di trascrizione per tutto il testo.
3) Le parole in forma ridotta sono trascritte secondo la pronuncia (es: prof per professore);
nel caso di forme con aferesi o elisione è stato utilizzato l’apostrofo convenzionale (es: ‘ste
per queste, m’ha per mi ha...)
4) Frammenti di parole non finite (disfluenze) sono marcati con ‘+’ alla fine del frammento
(es: non lo ve+, non lo vedo)
5) Eventuali interruzioni interne all’elemento lessicale sono marcate con ‘_’ (es: mon_tato)
6) Errori di pronuncia e lapsus che danno luogo a non-parole sono marcati con ‘*’
all’inizio della parola (es: *altanelante per altalenante); ciò serve a distinguerli in maniera
non ambigua da eventuali errori di battitura.
7) Le forme dialettali sono state trascritte cercando di seguire il più possibile la pronuncia e
adottando un criterio di normalizzazione per la scrittura, mantenuto invariato per ogni
occorrenza del termine (es: guaglione)
8) Le sequenze di lettere che formano sigle o acronimi sono trascritte così come
pronunciate e quindi: se la sigla e/o acronimo è stata sciolta in sequenza di parole, è trascritta
come parola (es: AVIP); se la sigla e/o acronimo è stata pronunciata scandendo ciascuna
lettera componente in forma fonetica, le lettere sono state trascritte in maiuscolo, tra ‘//’ e
separate da uno spazio. (es: /A/ /V/ /I/ /P/); se la sigla e/o acronimo è stata pronunciata
scandendo ciascuna lettera in forma di citazione alfabetica, è trascritta secondo la forma usata
e le lettere sono separate da un ‘-’ (es: A-Vu-I-Pi oppure A-Vi-I-P).
9) Le sequenze di numeri non sono state trascritte in forma di cifre, ma secondo il modo in
cui sono state pronunciate (es: ventinovemila, centouno oppure cento e uno...).
10) Punteggiatura: è stato utilizzato un inventario minimo di punteggiatura che comprende
i simboli ‘?’ per la frase interrogativa, ‘!’ per le esclamazioni, e ‘,’ per confini sintatticosemantici chiaramente percepiti, come, ad esempio, le frasi parentetiche (es: lei mi ha dato
qualcosa da leggere ? no, mi sembra). Questo livello di punteggiatura non deve essere inteso
come una trascrizione di tipo prosodico.
D - Trascrizione dei fenomeni verbali non lessicali
Questa categoria di fenomeni prevede l’annotazione tra < > .
1) Le pause vuote sono state annotate distinguendo diverse categorie:
nel caso in cui il flusso logico del discorso non risulti interrotto e l’enunciato continui dopo la
pausa: ‘<pb>’ per una pausa breve, ‘<pl>’ per una pausa lunga (la vedi ? <pb> sulla sinistra
<pl> c'è scritto fiume);
Le pause a fine turno sono indicate come <pb> o <pl>, secondo la lunghezza e collocate su
una riga a parte;
Qualora una pausa, di lunghezza notevole, interrompa l’enunciato e il discorso riprenda con
un altro enunciato, verrà marcata con <P> (es: ma tu <P> no, vabbè allora fai una cosa…);
2) Le pause piene possono essere di due tipi:
se riempite da fenomeni interiettivi in senso lato, sono trascritte con due tipi di marche,
<eeh> per la semplice vocalizzazione, <ehm> per la nasalizzazione con o senza
vocalizzazione (es: <ehm> vabbè allora <eeh> fai un mezzo cerchio…);
se riempite da allungamenti dell’ultima vocale o (più raramente) consonante di parola,
saranno marcate con la duplice ripetizione della vocale <vv> o consonante <cc> alla fine
dell’elemento lessicale interessato (es: allora<aa>…; con<nn>…; il simbolo tra <> è da
intendersi come puramente convenzionale, indipendentemente dal timbro e durata effettivi
con cui è realizzato).
3) Le articolazioni di esitazione sono state trattate come le pause piene di primo e secondo
tipo; è stato segnalato inoltre l’allungamento consonantico iniziale (quando significativo) con
il simbolo <cc> all’inizio dell’elemento lessicale interessato (es: <ss>sì)
4) Le segnalazioni di assenso sono annotate simbolicamente in 5 categorie: <eh>, <ah>,
<mh>, <ahah>, <mhmh>; a queste si aggiunge il simbolo <’mbè> con valore di assenso o
domanda <’mbè?>.
5) Il simbolo <oh> segnala la fine di un sub-task e l’inizio di un nuovo sub-task.
6) Le esclamazioni (espressioni di sorpresa, soddisfazione,etc..) sono seguite da ‘!’ (<ah!>,
<oh!>, <eh!>)
7) Le false partenze senza pausa di interruzione sono marcate con ‘/’ (es: ma tu / dove sta
questa figura?).
E - Trascrizione dei fenomeni vocali non verbali
Tutti i fenomeni di questo tipo sono trascritti tra < > e inseriti nella esatta collocazione dentro il testo,
prima di eventuali segni di punteggiatura (es: ma che stai dicendo <risata> ?).
1) Sono previsti i seguenti 7 tipi di annotazione: <risata>, <tosse>, <starnuto>, <sospiro>,
<inspirazione>, <schiocco di lingua>, <raschiamento>; altri fenomeni non classificabili sotto
queste etichette saranno annotati genericamente come <f.vocale>.
2) Sovrapposizioni. Nel caso in cui il fenomeno vocale si verifichi in contemporanea ad una
sequenza lessicale, è stato inserito prima dell’inizio della sequenza in questione; i due eventi
contemporanei sono delimitati da ‘#’ prima e dopo, senza inserimento di spazi bianchi:
esempio:
# <risata> ma che stai dicendo ?#
indica che la <risata> si sovrappone all’intera sequenza ‘ma che stai dicendo?’.
3) Sovrapposizioni di turno: la sequenza cui si sovrappone la produzione dell’altro locutore è
delimitata da ‘#’ prima e dopo e preceduta dalla notazione tra < > del codice di turno cui è
sovrapposta; naturalmente lo stesso avviene nel turno corrispondente dell’altro informatore:
esempio:
G007: #<F008> <pl> sulla# sinistra <pb> c'è scritto fiume
F008: #<G007> no# <pl> non c'è
4) Sovrapposizioni multiple: nel caso di sovrapposizioni di più fenomeni vocali (di vario tipo)
e/o di un turno (o parte di esso) a sequenze lessicali di estensione diversa si è ritenuto
opportuno l’utilizzo aggiuntivo di { } (parentesi graffe) direzionali per delimitare
propriamente i margini destro e sinistro della sequenza interessata da uno dei due elementi.
In questi casi il simbolo # è dedicato all’indicazione di sovrapposizione di turno, la parentesi
al fenomeno di altro tipo4. Se i fenomeni (e/o annotazioni) sono più d’uno, alla fine della
sequenza interessata racchiusa tra { } è stato anche ripetuto l’elemento notazionale:
Esempi:
1)
G001: io #<F002> non ce l’ho {<risata> il banano}#
2)
G001: io #<F002> non ce l’ho {<risata> questo# banano}
3)
G001: #<F002> io non {<risata> ce l’ho# {[sottovoce] questo <risata>} banano
[sottovoce]}
L’esempio (1) indica che all’intera sequenza ‘non ce l’ho il banano’ si sovrappone il (o parte
del) turno F002 ed alla sola porzione ‘il banano’ si sovrappone anche un fenomeno vocale
(risata) prodotto dallo stesso parlante G.
L’esempio (2) indica che alla sequenza ‘non ce l’ho questo’ si sovrappone il turno F002,
mentre alla sequenza ‘questo banano’ si sovrappone la risata.
Nell’esempio (3), il turno F002 si sovrappone a ‘io non ce l’ho’, la risata si sovrappone a ‘ce
l’ho questo’ e l’annotazione di tono di voce (cfr. oltre, G.2) si riferisce alla sequenza ‘questo
banano’.
5) Parole o sequenze inintellegibili sono state sostituite dall’annotazione <inintellegibile>.
F - Trascrizione dei fenomeni non vocali non comunicativi
1) Tutti gli eventi acustici non prodotti dal parlante (come rumori di strada, di fondo, di
carta, etc...) sono stati annotati indistintamente come <RUMORE>.
2) Per la collocazione e la sovrapposizione con sequenze di parlato valgono le stesse norme
di cui ai punti E.2-4 (es: ma che stai <RUMORE> dicendo ?, oppure #<RUMORE> che mi
stai dicendo ?#, etc...)
4
In alcuni casi di sovrapposizione non ambigua possono essere stati mantenuti i cancelletti multipli (questa
G - Commenti del trascrittore.
1) I commenti generali del trascrittore sono per lo più nell’intestazione del file (cfr. B4,
CMT), se si riferiscono all’intero dialogo o in una riga a sé alla fine del turno, se si riferiscono
ad un singolo turno (cfr. B8).
2) Tuttavia, commenti a proposito di parti delimitate di testo sono stati annotati tra
parentesi quadre [ ]: ad esempio significativi cambi di voce come [bisbigliando], oppure
[gridando]. Per la collocazione e la sovrapposizione col testo, si veda sopra ai punti E.2-4, F.2
(es: # [gridando] ma che stai dicendo ?#)
3) Le forme dialettali sono state annotate con [dialettale] dopo l’elemento lessicale se si
riferiscono ad una sola parola (es: guagliò [dialettale]), o prima di una sequenza, sempre
inclusa tra #, se si riferiscono a più d’una parola (es: #[dialettale] c’a ditto ?#).
NOTA: La definizione del tratto [dialettale] può differire in misura notevole tra le diverse
varietà di italiano di cui è costituito il corpus AVIP: per maggiori dettagli si veda il §5.1.
2.2. Etichettatura per parole (livello WRD)5
A - Generazione della lista di parole (files HSW)
1) A partire dal testo in trascrizione ortografica sono stati generati altri files contenenti
ciascuno la trascrizione di un singolo turno dialogico.
2) I files hanno nome identico al file di trascrizione del dialogo da cui provengono, con
indicazione aggiuntiva del numero di turno, ed estensione ‘.HSW’.
Esempio:
A01G003B.HSW
si riferisce alla trascrizione del turno G003 del dialogo 01, realizzato con la coppia di
mappe A nella varietà di italiano B.
3) I files di trascrizione dei turni costituiscono l’input (sotto forma di elenco) per
l’implementazione del livello di etichettatura WRD (cfr. punto B) e per il sistema di
conversione automatica che genera la trascrizione fonologica del testo (livello PHM, cfr. oltre
soluzione è stata adottata, ad esempio, nelle trascrizioni del corpus pisano).
5
La descrizione dei livelli di etichettatura contenuta in questi paragrafi riflette un criterio sequenziale ‘dall’alto
verso il basso’ (secondo il modo in cui i files vengono visualizzati dal programma) e non la sequenza delle fasi
di etichettatura e di costruzione del database (per la quale cfr. il documento specifico di architettura del
software).
§3.2).
4) Al fine di consentire la corretta lettura e conversione da parte del software di ausilio,
relativamente all’indicazione degli accenti di parola, si è reso necessario adottare i seguenti
accorgimenti:
a) i caratteri accentati delle parole ossitone sono stati sostituiti da V+ " (doppie
virgolette; es: è → e"; città → citta", etc...);
b) le parole troncate che danno come risultato forme ossitone (es: anda’ per andare)
sono trascritte come le precedenti (→ anda" );
c) le parole troncate che danno come risultato forme non-ossitone (es: prende’ per
prendere) mantengono la grafia con apostrofo (prende’).
B - Etichettatura sul segnale (livello WRD).
1) Per la fase di etichettatura ortografica allineata al segnale (effettuata utilizzando il software
di ausilio), l’unità di acquisizione è il turno trascritto nel file .HSW che viene ‘letto’
automaticamente dal programma.
2) L’etichettatura sul segnale rende automaticamente disponibile, per ciascun turno, un file
ascii .WRD ‘linkato’ a quello contenente il segnale, in cui ogni parola etichettata è
accompagnata dalla segnalazione del valore temporale degli istanti di inizio e fine.
3) Nella finestra di etichette predisposta (WRD = parole) la segmentazione del segnale in
parole è allineata alla segmentazione dei livelli inferiori: ogni parola ha come confine un
estremo che corrisponde ad un confine di qualche segmento inferiore.
4) La segmentazione ed etichettatura in parole presuppone una definizione precisa di ciò che
si intende con ‘parola’ nella trascrizione: si è ritenuto opportuno utilizzare la convenzione
della lingua scritta per cui parola è ‘ciascuna sequenza di lettere compresa tra due spazi
bianchi e non interrotta al suo interno’.
5) Tuttavia, anche le forme ortografiche legate da apostrofo, che costituiscano o meno ‘parole
fonologiche’, sono state considerate come parole unitarie ed etichettate in un’unica casella
(dunque |l’anima|, ma anche |quest’anima|)6
6
Lo stesso criterio si applica anche a forme che possono essere considerate dialettali, annotate in trascrizione
ortografica con apostrofo: per esempio le varianti dialettali dell’articolo determinativo, come l’abeti per gli abeti
è stata trattata al pari di l’abete.
Le
sequenze
di
numeri
sono
state
considerate
come
un’unica
parola
(es:
|millenovecentonovantotto|)
Le sequenze di lettere in spelling fonetico o in forma di citazione (cfr. §2.1 C8) di sigle sono
state considerate come parole separate.
6) Sono stati etichettati a livello WRD tutti gli elementi descritti in §2.1 C; D; E; F; la cui
annotazione è mantenuta tra <>.
Esempio:
WRD: |<f.vocale>| #<F002> questo# |.......
7) Non sono stati invece etichettati i commenti annotati tra [] (che vengono automaticamente
filtrati dal programma).
8) Le parole non realizzate (prevalentemente monosillabiche) sono state etichettate nella
casella della parola successiva tra ( )
Esempio:
WRD: |quando| (e") uscito |......
9) Il marker di inizio della prima parola del turno (quando non corrisponde all’inizio assoluto
del file) è stato etichettato col simbolo ‘__’ (doppio underscore)
3. TRASCRIZIONE ED ETICHETTATURA FONEMICA.
Il secondo livello di trascrizione/etichettatura previsto per un corpus di parlato è quello della trascrizione
fonemica (o fonologica), in cui vengono resi simbolicamente solo gli elementi distintivi della lingua (fonemi),
categorie astratte cui le realizzazioni concrete si riferiscono.
Questo livello (preso in considerazione nei progetti di corpora per lo studio fonetico-linguistico) è variamente
interpretato e descritto nell’ambito delle diverse proposte di standardizzazione e adottato con modalità differenti
nei vari progetti.
In linea di principio vengono considerati due livelli distinti di trascrizione fonemica:
1) la trascrizione in ‘forma di citazione’ o ‘forma canonica’, in cui vengono rappresentate le forme di
pronuncia isolata delle parole;
2) la trascrizione ‘fonotipica’ (detta anche fonetica larga), in cui, oltre agli elementi propriamente distintivi,
vengono normalmente rappresentati anche i fenomeni di fonosintassi e le varianti allofoniche condizionate dal
contesto e perciò predicibili.
L’inclusione, nella procedura di etichettatura di un corpus, della ‘forma canonica’ risponde ad una doppia
logica, legata soprattutto a necessità tecnologiche: in primo luogo, questa forma permette di derivare
automaticamente, attraverso un set di regole, il secondo livello di trascrizione (fonotipica); in secondo luogo, a
partire dalle forme canoniche si può generare automaticamente un dizionario fonetico, partendo da un corpus
trascritto (Llisterri, 1997:14). Questo livello è, infatti, direttamente relazionato con quello di rappresentazione
ortografica: anche tecnicamente è sviluppato attraverso programmi di conversione automatica grafema-fonema.
La trascrizione ‘fonotipica’, sviluppata nei progetti SAM, costituisce, invece, un livello intermedio tra la
rappresentazione fonetica e quella puramente fonologica. A questo stadio, di norma, non è richiesto ancora il
ricorso al segnale e alla forma effettivamente prodotta, realizzata dal parlante: la trascrizione è realizzata
automaticamente attraverso un sistema di regole e un set chiuso di allofoni che permettono di raggiungere il
compromesso tra la pronuncia isolata e la pronuncia in parlato connesso (cfr. per esempio, Mariño & Llisterri,
1993).
Tuttavia, Barry & Fourcin (1992:10), che si riferiscono a questo livello come ‘trascrizione fonetica larga’, lo
intendono riferito direttamente al segnale. Kohler et al. (1995:25 e sgg), invece, nel Kiel Corpus of Spontaneous
Speech, utilizzano nella trascrizione ‘canonica’ (che è generata automaticamente per regole) un set di simboli più
ampio di quello fonologico della lingua, e nella fase di etichettatura (che prevede il ricorso al segnale) simboli
addizionali per dar conto delle ‘modificazioni’ rispetto alla forma canonica.
A ben vedere, dunque, questo livello di trascrizione riassume in sè caratteristiche di un livello puramente
fonologico e caratteristiche di un livello più fonetico; in sostanza, appaiono diversamente interpretati, a seconda
delle esigenze, i confini tra ‘trascrizione canonica’, ‘trascrizione fonotipica’ e ‘trascrizione fonetica’. In
particolare, un processo di etichettatura vera e propria richiede necessariamente tanto il ricorso al segnale,
quanto una valutazione più sottile delle forme prodotte (dunque una trascrizione più stretta).
Questa situazione si rispecchia anche nella scelta del tipo di alfabeto da utilizzare per questo livello di
trascrizione: la proposta di EAGLES (Gibbon et al., 1997:158-159) è quella di utilizzare l’alfabeto SAMPA (un
alfabeto fonemico, cfr. oltre §4 e APPENDICE [B]) tanto per la trascrizione ‘canonica’ che per quella ‘fonotipica’;
la proposta di Mariño & Llisterri (per lo spagnolo, 1993) è di utilizzare X-SAMPA (un estensione del SAMPA
nata per scopi più propriamente fonetici, cfr. oltre §4 e APPENDICE [C]; Wells, 1994) per entrambi; Kohler et al.
(1995) utilizzano X-SAMPA per la forma ‘canonica’ e una versione ulteriormente modificata per quella di
etichettatura/modificazione.
3.1. Criteri per la trascrizione fonemica del corpus AVIP (livelli PHM e PHB).
Nell’affrontare la definizione di specifiche per la trascrizione fonemica del corpus AVIP, si
è dovuto tener conto di alcune problematiche di tipo teorico-linguistico che sorgono quando si
consideri, da un lato, la peculiare situazione della lingua italiana e, dall’altro, la
caratterizzazione del corpus stesso sotto il profilo della stratificazione diatopica.
Il corpus è infatti costituito da più varietà regionali di italiano, più o meno distanti tra loro
sul versante fonetico-fonologico, ognuna delle quali presenta regole di tipo fonologico e
fonotattico diverse e diverse distribuzioni di alcuni allofoni determinate sul solo piano
lessicale.
Sorgono dunque alcune difficoltà già al momento della generazione di una trascrizione in
‘forma canonica’. Di solito si raccomanda, per questa operazione, il ricorso a dizionari di
pronuncia accreditati da cui derivare la forma di pronuncia ‘standard’. Ora, com’è noto, la
definizione di un ‘italiano standard’ pone non pochi problemi di ordine teorico; si può dire
che l’italiano standard (almeno sul versante fonetico), piuttosto che una realtà, rappresenta
un’astrazione costruita sulle diverse varietà regionali di italiano.
Il Manuale di pronuncia italiana di L. Canepari (1992), per esempio, riconosce una situazione complessa
circa le regole dell’ortoepìa:
"Si può - o si deve - partire, quindi, dall’oggettiva constatazione che oggi c’è una pronuncia dei
‘professionisti della dizione’ che non corrisponde (più) esattamente a quella indicata dai vari dizionari
o vocabolari della lingua italiana, e nemmeno a quella fornita dagli specifici repertòri d’ortoepìa, più o
meno ufficiali [...] Questi strumenti, infatti ... quasi sempre danno una sola pronuncia per ogni parola,
mentre a volte ne esistono due (o anche di più) ugualmente ‘corrette’; inoltre, spesso la sola pronuncia
indicata è semplicemente quella che ‘dovrebbe essere’, non quella che è usata davvero, o che
perlomeno prevale" (Canepari, 1992:20-21).
Canepari classifica le varianti di pronuncia delle ‘regioni standardizzanti’ (Toscana, Umbria, Marche, Lazio e
Roma, cfr. Canepari, 1992:22 e sgg.) in sette categorie secondo una scala di accettabilità che vede al primo posto
la pronuncia moderna, attuale, largamente accettata7.
Le varianti ortoèpiche hanno rilevanza in particolar modo per un numero ristretto di
variazioni fonematiche più frequenti e/o tipiche: si tratta della distribuzione lessicale dei
duplici timbri di ‘e’ ed ‘o’ (aperti /E/, /O/ e chiusi /e/, /o/) anche nei dittonghi ‘je’ e ‘wo’; della
distribuzione delle varianti sorda e sonora di s-intervocalica (/s/, /z/); della distribuzione delle
varianti sorda e sonora di ‘z’ (/ts/ e /dz/) in alcune posizioni o in alcuni suffissi;
dell’applicazione della geminazione sintagmatica (o rafforzamento sintattico).
Un altro problema riguarda lo statuto delle consonanti geminate (per esempio /ss/ in
‘messa’) e lunghe o rafforzate ‘per posizione’ (/ts/, /dz/, /S/, /L/, /J/ intervocaliche): mentre le
prime sono considerate unanimemente fonemi della lingua (o nessi bi-fonematici), per le
seconde sono stati avanzati recentemente dubbi circa il loro statuto fonematico (cfr
Endo&Bertinetto, 1999). Sebbene nelle trascrizioni fonematiche correnti venga indicato, di
norma, il rafforzamento di tali segmenti in determinati contesti, sembra non si tratti di una
scelta tra realizzazioni pertinenti, bensì dell’applicazione di regole allofoniche, implementate
7
Ugualmente consigliabili sono le pronunce tradizionale (di base toscana/fiorentina che un tempo era l’unica
accolta), temperata (che può evere una certa diffusione in Toscana, ma soprattutto nel resto del centro
linguistico) e ammessa (con diffusione più limitata nel centro o in sue zone).
diversamente da varietà a varietà (talvolta addirittura variabili per uno stesso locutore).
Considerata, dunque, la situazione appena descritta, si è scelto, per il livello di trascrizione
ed etichettatura fonologica del corpus AVIP, il seguente tipo di codifica:
1) un livello di trascrizione fonologica ‘standard’, per forma di citazione (parole isolate),
considerata modello astratto di riferimento per le variazioni regionali (livello PHM, per i
dettagli cfr. §3.2);
2) un livello di trascrizione fonologica regionale, per segmenti fonemici, che approssima
maggiormente la realtà delle produzioni foniche e può quindi essere considerato come una
trascrizione ‘fonetica larga’ (livello PHB, per i dettagli cfr. §3.3).
Nessuno dei due livelli prevede l’annotazione dei fenomeni di fonosintassi, che sono
invece presenti nella trascrizione/etichettatura fonetica stretta (livello PHN, cfr. oltre §4); per
l’utente del database, sarà possibile, pertanto, un confronto visivo immediato tra la forma
fonologica prevista idealmente per ogni unità lessicale e la forma fonetica realizzata quando la
parola sia a) ‘calata’ nel contesto della stringa (informazioni di tipo fonosintattico) e b)
effettivamente prodotta e articolata in parlato connesso e spontaneo.
3.2. Etichettatura fonologica standard (livello PHM).
1) L’etichettatura sul segnale per questo livello è stata effettuata ancora per unità lessicali, in
forma di citazione direttamente allineata al livello superiore WRD: le due forme etichettate
hanno dunque markers di inizio e fine corrispondenti e files ‘linkati’ (.WRD e .PHM) della
stessa struttura.
2) La trascrizione è stata generata attraverso un programma di conversione automatica
grafema-fonema (per i dettagli circa l’architettura, le regole dell’algoritmo e la lista delle
eccezioni si rimanda al documento specifico).
3) E’ stato utilizzato l’alfabeto fonemico SAMPA (versione per l’italiano sviluppata nel
progetto ESPRIT 1541-SAM, 1989, per il dettaglio e la descrizione cfr. APPENDICE [B]).
4) A questo livello di trascrizione ovviamente non tutti gli elementi descritti in §2.1 ricevono
conversione fonologica. In particolare sono convertiti:
a) gli elementi linguistici lessicali (anche in questo livello le forme legate da
apostrofo sono etichettate in un’unica casella, es: WRD: |l’albergo| → PHM:
|lalb"Ergo|)
Non sono convertiti, invece, (o vengono mantenuti nella loro forma ortografica):
b) le disfluenze come parole troncate (es: WRD: |cin+| per cinque→ PHM: |cin+|) e
interrotte (es: WRD: |cin_que|→ PHM: |cin_que| ), lapsus (es: WRD: |*satto|→
PHM: |*satto|);
c) I segni di punteggiatura (limitatamente a ‘?’ e ‘!’);
d) tutti i fenomeni annotati tra <> (es: WRD: |<eeh>| → PHM: |<eeh>|; WRD:
|<f.vocale>| → PHM: |<f.vocale>|, etc...);
e) i simboli #
{} [] che indicano le sovrapposizioni e i commenti (es: WRD:
|#<F002> casa#| → PHM: |<F002> k"aza|; WRD: |casa| → PHM: |k"aza|, etc...);
f) le forme dialettali che ovviamente non hanno posto in una trascrizione fonologica
standard;
g) le parole non realizzate in WRD e racchiuse tra () (es: WRD: |(e") uscito| →
PHM: |(e") uS"ito|)
5) A questo livello di trascrizione è segnalata la posizione dell’accento lessicale primario
mediante il simbolo " premesso alla vocale tonica (es: PHM: |segr"eto|).
La segnalazione dell’accento è mantenuta anche sulle parole funzionali polisillabiche.
Le parole derivate da troncamento mantengono l’accento nella posizione originaria della
forma completa (es: WRD: |anda"+| → PHM: |and"a|);
Le parole monosillabiche di norma non sono accentate (es: WRD: |lo| → PHM: |lo|), a
meno che non abbiano l’accento anche nella grafia (es: WRD: |si"| → PHM: |s"i|; WRD: |e"|
→ PHM: |"E|)
6) Sulla versione generata in maniera automatica sono stati effettuati alcuni interventi di
modifica manuali, in relazione ai problemi di cui si è discusso in apertura (§3.1). In
particolare:
a) per quanto riguarda le variazioni fonematiche, non sempre predicibili per regole,
nella distribuzione dei timbri aperti e chiusi delle vocali medie (/E-e/, /O-o/), delle
forme sorda e sonora di ‘s-intervocalico’ (/s-z/) e di ‘z’ (/ts-dz/); la trascrizione
proposta dal programma di conversione è stata verificata e confrontata con la ‘forma
moderna’ (prima forma) riportata nel Pronunciario del Manuale di pronuncia italiana di
Canepari (1992) e, ove discordante, sostituita (es: /v"erso/ → |v"Erso|; /rizal"ire/ →
|risal"ire|; /ts"ukkero/ → |dz"ukkero|, etc...)
b) per le consonanti cosiddette ‘lunghe per posizione’ o rafforzate (/S/, /L/, /N/, /ts/,
/dz/ intervocaliche) è stata adottata sempre la trascrizione con unico simbolo (es: WRD:
|bagno| → PHM: |b"aJo|) sia nel caso in cui questo sia previsto nella grafia (es: WRD:
|negozio| → PHM: |neg"Otsjo|), sia nel caso in cui la grafia preveda il simbolo doppio
(es: WRD: |magazzino| → PHM: |magadz"ino|)8.
Il doppio simbolo consonantico è stato, invece, mantenuto per la geminazione
consonantica vera e propria (vale a dire relativa a foni in distribuzione non
complementare, es: WRD: |palla| → PHM: |p"alla|).
3.3. Etichettatura fonologica regionale o ‘fonetica larga’ (livello PHB).
1) Il secondo livello di etichettatura fonemica è stato effettuato attraverso la segmentazione
del segnale fonema-x-fonema: pertanto ad ogni segmento individuabile sul segnale è stata
assegnata un’etichetta fonologica in una casella.
2) Questo costituisce il livello primario di etichettatura, vale a dire il primo livello
segmentato e trascritto (anche in assenza di segmentazione-etichettatura strettamente
fonetica); può essere considerato anche con valore di trascrizione fonetica larga, effettuata
utilizzando ancora l’alfabeto fonetico SAMPA (cfr. APPENDICE [B]).
3) Al livello PHB non sono stati etichettati e sono stati sostituiti dal simbolo ‘__’ (che
indica una casella vuota):
a) le disfluenze (parole troncate e interrotte, con o senza cambi di progetto;
articolazioni di esitazione; cfr. §2.1 C, D);
b) tutti i fenomeni annotati tra <> (cfr. §2.1 D, E, F: pause piene e vuote;
segnalazioni di assenso, domanda, fine sub-task, etc...fenomeni vocali non verbali;
rumori);
c) brevi porzioni di segnale corrispondenti a pause molto brevi (non percepibili
uditivamente) che nelle trascrizioni ortografiche sono state talvolta indicate con
una virgola.
4) Non è stata segnalata la collocazione dell’accento lessicale: trattandosi di un livello di
trascrizione fonetica larga, l’accento non può essere assegnato a priori di un’analisi di tipo
prosodico (rimandata ad altro livello, cfr. documento specifico).
5) La Cancellazione di fonema è stata segnalata attraverso il simbolo ‘-’ anteposto
all’etichetta del fonema cancellato, collocata nella casella corrispondente al fonema
precedente (a sinistra) se interna alla parola o a fine parola; in quella corrispondente al fonema
successivo (a destra) se ad inizio di parola
es:
PHB:
|f|i|n-o|;
es:
PHB:
|p|i|p|a|-in|b|o|kk|a|
6) L’ Inserzione di fonema è stata segnalata attraverso l’introduzione del simbolo ‘+’in
una casella a sé stante, senza specificare l’etichetta
es:
PHB:
|p|i|p|+|a|
7) Un’ Incertezza nella segmentazione è stata segnalata attraverso l’uso del simbolo ‘%’
prima e dopo il marker incerto; a destra e sinistra dell’etichetta se entrambi i markers sono
incerti
es:
PHB:
|n%|%o|n|
(incertezza tra prima /n/ ed /o/)
es:
PHB:
|l|a%|%n%|%a|
(incertezza tra prima /a/ ed /n/ e tra
/n/ e seconda /a/)
Il simbolo è stato utilizzato anche per indicare l’inizio del silenzio di un’occlusiva o
affricata sorda ad inizio assoluto di enunciato o dopo pausa (cui è stato assegnato valore
convenzionale rispettivamente di 70ms e 35ms)
es:
PHB:
__|%p|i|p|a|
Inoltre può essere marcata con % la fine assoluta del turno (nell’ultimo fono etichettato)
qualora non sia stato possibile determinarne con sicurezza il termine (es: nel caso di
sovrapposizioni, desonorizzazioni, etc…).
8
Come previsto nel SAMPA per l’italiano.
8) La Traccia lasciata da un elemento fonemico cui si può assegnare una porzione di
segnale (sebbene spesso di dimensioni ridotte) ma non classificabile con un’etichetta precisa è
stata segnalata attraverso il simbolo ‘*’ premesso all’etichetta originaria (tale simbolo può
essere inserito anche a livello fonetico, cfr. oltre §4, B4)
es:
PHB:
|a|*l|t|a|l|E|n|a|
9) Le consonanti geminate in distribuzione non complementare sono state etichettate in
un’unica casella;
es:
PHB:
|a|ll|o|r|a|
es:
PHB:
|f|a|tt|o
La trascrizione delle geminazioni dovute ad assimilazione è stata rimandata al livello
fonetico (PHN, cfr §4.1, B3), a meno che non si tratti di forme ‘lessicalizzate’ o sistematiche
nella varietà considerata (vedi oltre, punto 15; la geminazione non è stata considerata come
fenomeno di inserzione fonemica).
Nel caso di geminazione da assimilazione interna alla parola è stato assegnato nella casella
del fonema adiacente un simbolo di cancellazione all’etichetta della consonante assimilata; la
consonante che assimila è stata interpretata come geminata (a livello PHN; cfr. oltre §4.1, B3)
es:
PHB:
|r|i|t|o-r|n|i|
(realizzato [ritonni])
es:
PHB:
|k|we|s-t|o|
(realizzato [kwesso])
Allo stesso modo l’annotazione degli scempiamenti è stata rimandata a livello fonetico (lo
scempiamento non è stato considerato come fenomeno di cancellazione fonemica).
L’indicazione del Raddoppiamento Sintattico è rimandata a livello fonetico
10) I dittonghi sono stati etichettati in un’unica casella: per i dittonghi cosiddetti
‘ascendenti’ si è utilizzata la trascrizione convenzionale ‘semiV+V’; per i dittonghi propri o
‘discendenti’, l’annotazione ‘V+V’:
es:
PHB:
|f|jo|r|e|
es:
PHB:
|f|ai|
La trascrizione di monottongazione e dittongazione è stata rimandata al livello fonetico
(cfr. §4.1, B2; non sono stati trattati rispettivamente come casi di cancellazione e inserzione
fonemica9)
11) Le vocali in iato sono etichettate in caselle diverse
es:
PHB:
|p|a|u|r|a|
12) Gli incontri vocalici a confine di parola non sono stati considerati dittonghi e sono
dunque etichettati in caselle diverse
es:
PHB:
|p|i|p|a|i|n|b|o|kk|a|
I casi di apocope e/o aferesi sono trattati come fenomeni di cancellazione vocalica:
es:
PHB:
|p|i|p-a|i|n|b|o|kk|a|
(apocope)
es:
PHB:
|p|i|p|a|-in|b|o|kk|a|
(aferesi)
I casi di sinalefe sono segnalati con indicazione del timbro solo a livello fonetico (PHN); i
markers di etichetta a livello PHB sono stati collocati in un punto variabile tra i due segmenti,
laddove fosse possibile individuare il confine sulla base dell’analisi parametrica del segnale,
sempre accompagnati dal simbolo % (marker incerto); in caso di indecidibilità del confine, il
marker è stato posto esattamente a metà della porzione di segnale corrispondente ai due
fonemi, con l’indicazione di %:
es:
PHB:
|p|i|p|a%|%i|n|b|o|kk|a|
Gli incontri tra vocali di timbro uguale , dove risulti chiaramente percepibile la presenza di
più di un elemento (esclusi quindi i casi di apocope e aferesi) sono stati trattati allo stesso
modo: marker di confine in un punto variabile o a metà della porzione vocalica, sempre
accompagnato dall’indicazione di incertezza (%):
es:
PHB:
|k|a|s|a%|%a|m|a|r|e|
13) Le assimilazioni consonantiche a confine di parola (tra parole adiacenti) non sono state
etichettate; la porzione di segnale corrispondente è stata convenzionalmente segmentata a
metà (accompagnata dal %):
9
Fatta eccezione per alcuni casi particolari, per i quali cfr. §5.5, C.
es:
PHB:
|n|o|n%|%m|o|l|t|o|
14) Poiché a questo livello di etichettatura si fa esplicito riferimento alla fonologia delle
varietà di italiano etichettate, le varianti regionali per e/E, o/O, s/z, ts/dz (cfr. sopra, §3.1)
sono state trascritte secondo la loro distribuzione nella varietà considerata (indipendentemente
dalla loro effettiva realizzazione fonetica)
es:
PHM:
|k|O|z|a|
standard
PHB:
|k|O|s|a|
varietà campana
|k|o|s|a|
varietà pugliese
15) In base allo stesso criterio, è stato segnalato o meno il rafforzamento delle consonanti
/L/ /J/ /S/ /ts/ /dz/ in posizione intervocalica:
es:
PHB:
|n|e|g|O|tts|jo|
oppure
|n|e|g|O|ts|jo|
PHB:
|b|a|JJ|o|
oppure
|b|a|J|o|
16) Ugualmente sono state trascritte ed etichettate le geminazioni (o rafforzamenti)
sistematiche di altre consonanti per ciascuna varietà (ad esempio /b/ e /dZ/ intervocaliche
nella varietà campana) o lessicalizzate (e quindi presenti già nella trascrizione ortografica)
es:
PHB:
|au|t|o|m|O|bb|i|l|e|
varietà campana
es:
PHB:
|a|rr|i|v|a|ttS|i|
varietà toscana (=arrivarci)
17) Il procedimento di etichettatura, come per gli altri livelli, ha generato un file ‘linkato’
.PHB in cui per ogni simbolo trascritto è segnalato il valore temporale degli istanti di inizio e
fine.
4. TRASCRIZIONE ED ETICHETTATURA FONETICA.
Il terzo livello di trascrizione/etichettatura previsto nella codifica di database di lingua parlata è quello della
trascrizione fonetica, in cui si marcano e ‘si trascrivono i segmenti che compongono la stringa fonica con
particolare riferimento ai loro attributi articolatori, acustici e percettivi’ (Tomlinson, 1987:3), utilizzando i
simboli di un alfabeto fonetico.
Una trascrizione fonetica di un corpus di parlato risulta necessaria dal momento che
‘the spoken versions of orthographically identical word forms show a great phonetic variations in their
segmental ... realization. In most European languages the phonetic form of a given word is in fact extremely
variable depending on the context and other well defined intervening variables such as speaking styles and
context of situation [...] A given word can totally disappear phonetically or can be reduced to some reflection
of segmental features in the prosody of utterance. Most of these incospicuous variations appear only in a
narrow phonetic transcription of a given pronunciation.’ (Gibbon et al., 1997:83)
La trascrizione fonetica ‘stretta’, tiene conto quindi dei fenomeni di modificazione condizionati dal contesto
e predicibili, ma anche di altri tipi di modificazioni legate a variabili individuali, regionali (-dialettali), stilistiche,
etc... A questo livello di trascrizione, l’inventario dei simboli deve comprendere, a differenza del livello di
trascrizione precedente, anche molti suoni che non hanno statuto fonemico nella lingua. A questo scopo si rende
necessario l’uso di un alfabeto fonetico ricco e dettagliato, che comprenda tutte le varianti allofoniche
(posizionali e libere) previste per una data lingua e metta a disposizione un buon numero di diacritici per la
codifica di ‘articolazioni secondarie’ (nasalizzazioni, labializzazioni, palatalizzazioni, etc...) e altre modificazioni
articolatorie (-acustiche) dei suoni (es: sonorizzazioni, desonorizzazioni, lenizioni, etc...).
Nell’ambito dei vari progetti europei, nazionali e internazionali, sono state adottate e applicate diverse
convenzioni di codifica, dalle quali sono nati altrettanti alfabeti fonetici utilizzabili nella trascrizione di molte
lingue del mondo: il primo (in ordine di tempo), ma anche più famoso e usato di tutti è l’alfabeto IPA
(International Phonetic Alphabet), il quale tuttavia presenta l’inconveniente di non poter essere rappresentato
interamente attraverso il codice ASCII (essendo composto di più di 256 caratteri) e di pregiudicare la
‘portabilità’, l’interscambio di un corpus tra diverse piattaforme software. I vari alfabeti fonetici sviluppati
successivamente (SAMPA e X-SAMPA, WORLDBET, UNIBET e PHONASCII, KLATTBET, ARPABET,
TIMBET, MRPA, etc...) sono nati col preciso intento di ovviare a questo inconveniente. Tra questi, SAMPA
(versione fonemica) e X-SAMPA (versione estesa fonetica), nati all’interno dei progetti europei ESPRIT-SAM,
si sono affermati negli ultimi anni come standard di codifica di corpora per lo studio fonetico e le applicazioni
tecnologiche. Per la loro descrizione (in versione italiana) si rimanda alle APPENDICI [B] e [C].
4.1. Criteri per la trascrizione/etichettatura fonetica del corpus AVIP (livello PHN).
Il procedimento per la codifica fonetica del corpus AVIP (facendo diretto ricorso alla
rappresentazione digitalizzata del segnale acustico in forma d’onda e/o sonagramma ed alla
segmentazione della stringa) parte dall’analisi dettagliata dei foni presenti e delle loro
caratteristiche fisiche.
Attraverso l’osservazione e la descrizione di un insieme definito (ma piuttosto ampio) di
tratti e di fenomeni acustici (cfr. punto A) si è giunti ad una etichettatura e trascrizione che si
può definire ‘intermedia’ tra una trascrizione larga ed una stretta, utilizzando un set di simboli
dell’alfabeto fonetico SAMPA in versione estesa (X-SAMPA, cfr. Wells 1994; cfr.
APPENDICE [C]).
A - Tratti e fenomeni fonetici da descrivere.
E’ stato definito a priori un set massimo di fenomeni da analizzare e da descrivere
simbolicamente attraverso l’etichettatura fonetica.
Tale set chiuso comprende:
1) per i foni VOCALICI
a - fenomeni di riduzione e sostituzione timbrica
b - fenomeni di dittongazione e monottongazione
c - fenomeni di nasalizzazione;
2) per i foni CONSONANTICI
a - fenomeni di assimilazione (anticipatoria e posticipatoria);
b - fenomeni di lenizione (scempiamenti, sonorizzazioni, fricativizzazioni di
occlusive ed affricate, realizzazioni approssimanti);
c - fenomeni di fortizione (raddoppiamenti, desonorizzazioni, aspirazioni di
occlusive);
d
-
altre
articolazioni
secondarie
(palatalizzazioni,
‘sillabicizzazione’,
aspirazioni).
3) Ovviamente sono stati osservati ed annotati i fenomeni di ‘caduta’ o mancanza (rispetto
alla forma attesa) di alcuni segmenti (o sillabe o porzioni più ampie di segnale).
NOTA: Rispetto al set massimo definito a priori, per ciascuna varietà del corpus AVIP è
stato analizzato e descritto un sottoinsieme dei fenomeni; in alcuni casi sono state adottate
soluzioni specifiche parzialmente divergenti da quanto descritto in questo paragrafo. Per il
dettaglio si rimanda al §5.4.
B - Etichettatura fonetica
1) Per la trascrizione è stata selezionata una lista chiusa di simboli all’interno del lungo
elenco di X-SAMPA. Questa lista comprende tutti i simboli necessari a rappresentare i
fenomeni di cui sopra:
a - i simboli relativi ai 7 fonemi vocalici dell’italiano;
b - i simboli relativi ai 23 fonemi consonantici dell’italiano (comprese le semivocali);
c - i simboli per gli allofoni condizionati velari e labiodentali della nasale dentale ([N] e
[M]) e l’allofono fricativo della affricata palatale sonora ([Z] presente nella varietà
toscana di italiano);
d - una serie di simboli diacritici e accoppiamenti di simboli per rappresentare alcune delle
modificazioni di cui al punto B-2b,c,d di questo paragrafo (sonorizzazioni e
desonorizzazioni, approssimanti, fricativizzazioni, etc...) e B-1c (nasalizzazione);
Per la lista completa dei simboli si rimanda all’APPENDICE [C].
2)- i dittonghi e le dittongazioni sono stati segmentati ed etichettati in caselle separate; il
marker di confine tra i due elementi è stato spesso accompagnato dall’indicazione di
incertezza (%);
es:
PHB: |f|ju|m|e|
PHN:
|f|j%|%u|m|e|
es:
PHB: |p|i|p|a|
PHN:
|p|i|p|j%|%a|
E’ stata specularmente indicata anche la monottongazione:
es:
PHB: |f|ai|
PHN:
|f|E|
3) le consonanti geminate e le geminazioni spontanee, da assimilazione, da
Raddoppiamento Sintattico sono etichettate in un’unica casella
es:
PHB: |b|o|kk|a|
PHN:
|b|o|kk|a|
es:
PHB: |k|we|s-t|o|
PHN:
|k|w|e|ss|o|
es:
PHB: |O|f|a|tt|o|
PHN:
|O|ff|a|tt|o|
(da: ho fatto)
Solo nel caso di assimilazione al confine di parola è stata mantenuta la divisione a metà in
due foni (con simbolo di %)
es:
PHB: |u|n%|%m|E|ddz|o|
PHN:
|u|m%|%m|E|ddz|o|
E’ stato specularmente indicato anche lo scempiamento:
es:
PHB: |d|e|ll|o|
PHN:
|d|e|l|o|
4) La traccia lasciata da un fonema può essere etichettata col simbolo corrispondente alla
sua realizzazione fonetica effettiva o, dove ciò non fosse possibile, semplicemente marcata
dal simbolo * (come a livello PHB, cfr. supra §3.3, 8).
5) A questo livello sono annotati i fenomeni di fonosintassi che si verificano al confine tra
parole (Raddoppiamento Sintattico (cfr. sopra), apocope, aferesi, sinalefe...).
6) Sono stati analizzati e trascritti anche i fenomeni semilessicali (disfluenze, esitazioni,
etc.. descritti in §2.1 C) e le forme dialettali.
7) I fenomeni verbali non lessicali (come le pause, cfr §2.1, D), vocali non verbali (§2.1 E)
e non vocali (§2.1, F) tutti ortograficamente trascritti tra <>, non sono stati etichettati; nelle
caselle è stato posto il simbolo ‘__’.
8) Il procedimento di etichettatura, come per gli altri livelli, ha generato un file ‘linkato’
.PHN in cui per ogni simbolo trascritto è segnalato il valore temporale degli istanti di inizio e
fine.
5. DETTAGLIO DI ALCUNE SOLUZIONI ADOTTATE PER LA CODIFICA DELLE DIVERSE VARIETÀ
DEL CORPUS AVIP.
I paragrafi che seguono descrivono alcune specifiche particolari definite internamente a
ciascuna unità del gruppo AVIP.
5.1. Definizione del tratto [dialettale] in area toscana (unità di Pisa)
La decisione su ciò che è propriamente [dialettale] e ciò che è [regionale] (o marcato in
diafasia, diastratia, diamesia) dipende notevolmente dal sostrato linguistico di partenza. A
differenza di quanto avviene, per esempio per la varietà campana (in cui la distanza tra
dialetto e varietà regionale è piuttosto nettamente percepita e definita), nel parlato di Toscana
manca, di fatto, un salto di codice che renda immediatamente riconoscibile un item come
dialettale: esistono, si può dire, molti registri, ma un codice solo.
Considerando la situazione peculiare dei dialetti toscani rispetto agli altri dialetti dell'Italia
linguistica, si è ritenuto necessario adottare una definizione precisa per il tratto [dialettale]:
E’ stata pertanto costituita una lista di casi ai quali assegnare l’etichetta [dialettale]: si tratta
di una lista parziale, 'partigiana', attraverso la quale tuttavia e' possibile render conto, anche ad
una prima lettura, di quale sia il "tasso di dialettalità" dei dialoghi trascritti.
Sono stati considerati [dialettali] alcuni eventi di tipo fonetico/fonologico, morfologico e
lessicale. Ad esempio:
- le assimilazioni consonantiche del tipo "arrivacci" per "arrivarci"
- il passaggio /kw/ > /v/ ("vesto", "vi"...)
- i casi di dileguo di /k/ intervocalica (al posto del fonema e' stato inserito un apostrofo: es.
"mi'a [dialettale]" per "mica")
- i fenomeni di soggiacenza del tipo "ho visto gatti" per 'ho visto i gatti'; l'articolo soggiacente
viene indicato con l'apostrofo solo qualora sia recuperabile con certezza: "ho visto '
[dialettale] gatti"10;
- le preposizioni articolate d'area occidentale: "dela", "dala"...;
10
I nomi delle icone segnate sulle mappe possono essere menzionati appunto come icone, e quindi non sono introdotti dall’articolo
determinativo, oppure possono essere menzionati come luoghi (il giardino delle visite, il magazzino...): in alcuni casi l’interpretazione è
difficile (se non impossibile) dal momento che l’articolo determinativo maschile plurale, se c’è, è soggiacente (es. trovi mobili Elena, che
può essere interpretato sia ‘trovi i mobili Elena’ sia ‘trovi [l’icona] mobili Elena’). Anche con l’art. il ci sono casi fortemente ambigui: es. ma
ristorante..., che può essere ‘ma [l’icona] ristorante...’ o ‘ma il ristorante’ con la cancellazione di i precons. e l’assimilazione della laterale
alla vibrante seguente [la lunghezza della vibrante non può essere comunque un indizio affidabile dal momento che ma produce RS]. In
alcuni casi, es. ma magazzino, le interpretazioni possono essere tre, dal momento che [m] intensa può essere dovuta al RS, all’articolo
determinativo ‘l (o ‘r) assimilato (ma il magazzino), oppure all’articolo indeterminativo un assimilato (ma un magazzino). È stato deciso - nei
(numerosi) casi di incertezza - di scegliere la soluzione più neutra: trattare i nomi delle icone appunto come tali, indicando ogni volta, nella
riga di commento a livello ortografico, la possibile presenza dell’articolo.
- la negazione " ’un";
-gli infiniti tronchi, che andranno trascritti: "anda" " [dialettale], "teme" " [dialettale], "legge’
" [dialettale], "mori" " [dialettale];
- il pronome dialettale -e'-;
5.2. Differenze nell’etichettatura a livello WRD-PHM per la varietà pisana.
Sul livello di etichettatura ortografica e di ‘citation form’ non è stato segnalato il marker
d’inizio della prima parola assoluta del turno. L’informazione relativa al confine sinistro di
parola è recuperabile, nel database, ai livelli inferiori PHB e PHN.
5.3. Differenze nell’etichettatura delle sequenze dialettali e delle disfluenze a livello PHB.
Mentre per il livello PHM, che contiene la trascrizione fonologica delle forme di citazione
in italiano standard, non è stata effettuata alcuna etichettatura delle forme dialettali, a livello
PHB (fonologia delle varietà) ciascuna unità ha operato scelte differenti.
Per i motivi sopra esposti (§5.1), le forme annotate come [dialettali] nella varietà pisana
hanno ricevuto una codifica anche a livello di trascrizione fonologica regionale.
Per la varietà napoletana, invece, ritenendo che non esista una ‘fonologia codificata’ e
standardizzata del dialetto, le forme propriamente dialettali sono state etichettate
esclusivamente a livello delle realizzazioni fonetiche (PHN).
Per la varietà pisana, inoltre, sono state etichettate a livello PHB anche le disfluenze
(parole troncate e/o interrotte, lapsus, articolazioni di esitazione etc…, cfr. §2.1, C, D e §3.3,
punto 3a).
Infine, sul livello PHB per la varietà pisana non è stata segnalata attraverso il simbolo ‘*’
la traccia di un elemento fonemico; il simbolo è associato unicamente all’etichetta sul livello
PHN.
5.4. Sottoinsieme di etichettatura fonetica (PHN) implementato per la varietà pisana.
Dal set massimo definito in §4.1, A, l’unità di Pisa ha selezionato i seguenti fenomeni
fonetici per la fase di analisi ed etichettatura:
1) Raddoppiamento Fonosintattico.
2) per il consonantismo:
a) l’affricazione di /s/ (per lo più in posizione postconsonantica);
b) il passaggio a fricativa palatale sorda/sonora dell’affricata palatale sorda/sonora;
c) i fenomeni di indebolimento delle occlusive.
3) per il vocalismo:
a) i casi di desonorizzazione;
b) la monottongazione dei dittonghi e la dittongazione dei monottonghi;
c) i casi di nasalizzazione.
Per quanto riguarda i fenomeni di indebolimento, il diacritico '_h' è stato adottato per il
continuum difficilmente categorizzabile rappresentato dalle realizzazioni indebolite delle
occlusive; l’indicazione '_h' copre quindi una grande varietà di fenomeni (dai diversi gradi di
aspirazione alle fricative glottidali). Il simbolo '_f' è stato, invece, limitato all'annotazione
delle laterali e vibranti fricativizzate.
5.5. Etichettatura di vocali e dittonghi a livello PHN: varietà pisana/varietà napoletana.
A) Annotazione dei timbri adottata dall’unità di Napoli.
Per le modificazioni dei timbri vocalici (riduzioni, sostituzioni), rinunciando
all’annotazione esatta del risultato della modifica, è stato introdotto l’uso del diacritico ‘!’
davanti a vocale (es: [!a]), a significare un timbro diverso da quello atteso.
Parimenti il diacritico è stato utilizzato dinanzi a vocale nasalizzata (es: [!a~]),
considerando la nasalizzazione come una modifica timbrica.
L’etichetta ‘@’, invece, indica una vocale centrale indistinta qualunque (vale a dire, senza
distinzioni di altezza) ed è stata utilizzata solo come allofono di una consonante sonora
(spesso /r/) o come articolazione aggiunta (corrispondente ad un ‘+’ sul livello fonologico),
più raramente come simbolo nella dittongazione vocalica spontanea (spesso dinanzi ad /r/, es:
/E/ ⇒ [E@]).
B) Annotazione dei timbri adottata dall’unità di Pisa.
Per l’annotazione dei timbri è stato adottato un criterio percettivo riferito ad una finestra
temporale ampia: sono stati riportati come lapsus i casi di mutamento timbrico chiaramente
percipibili in contesto.
Considerazioni e analisi più dettagliate riguardano i casi di monottongazione dei dittonghi
e dittongazione dei monottonghi. In questi casi, è stato riportato il timbro risultante dal
mutamento (es: /fai/ realizzato come [fE])
La nasalizzazione è stata segnalata solo nei casi in cui non sia predicibile per regola oppure
nel caso in cui si sia verificata cancellazione della nasale, e rimanga solo la vocale nasalizzata.
Inoltre l’epitesi di foni nasali (es: [faim] per fai) non è stata specificata a livello PHB e
PHN, dove è stata solo segnalata dalla presenza del simbolo ‘+’ che indica genericamente
l’inserzione.
Per contro, le epitesi vocaliche (del tipo [sie] per si), assai diffuse nelle parlate toscane,
sono state etichettate a livello PHN e segnalate dal simbolo ‘+’ a livello PHB.
C) Etichettatura dei dittonghi effettuata dall’unità di Pisa.
A livello fonetico i dittonghi (e le dittongazioni) non sono stati segmentati nelle due parti
costituenti.
Inoltre non sono stati considerati casi di monottongazione forme come [va] per vai, [and"a]
per andai, [fa] per fai; per queste forme la mancanza dell’elemento post-nucleare è
considerata un caso di elisione (tipico del parlato di Toscana) e pertanto segnalata a livello
fonologico (PHB) come cancellazione.
5.6. Alcune soluzioni specifiche adottate per l’etichettatura fonologica/fonetica
(PHB/PHN) del parlato di bambini ipoacusici.
L’etichettatura del parlato dei bambini ipoacusici, mancando studi dettagliati sulle
realizzazioni fonetiche, è stata limitata al solo livello fonologico della varietà (PHB) e
secondo le norme definite in questo documento. Il livello fonetico (PHN) consiste, pertanto,
nella copia del livello PHB.
Sono stati tuttavia annotate le Inserzioni e Cancellazioni di fonema
APPENDICE [A]
Codici per l’annotazione del testo in trascrizione ortografica.
Elementi linguistici lessicali e semi-lessicali:
Simbolo
Applicazione
Esempio d’uso
(e descrizione)
A,B,C...
(lettere maiuscole)
//
(doppio slash)
(trattino)
Nomi propri,
Sigle e Acronimi
sequenze di lettere pronunciate
in forma fonetica
sequenze di lettere pronunciate
in forma di citazione alfabetica
Maria
AVIP
/A/ /V/ /I/ /P/
A-Vu-I-Pi
A-Vi-I-Pi
forme con aferesi ed elisione
‘ste (queste)
m’ha (mi ha)
’
(apostrofo)
+
(simbolo di addizione)
*
(asterisco)
?
(punto interrogativo)
!
(punto esclamativo)
,
(virgola)
-frammenti di parole troncate
(apposto a fine parola)
da+ (dato)
-non-parole da lapsus ed errori
(apposto ad inizio parola)
*altanelante
frase interpretata come
interrogativa (separato dal
testo con uno spazio)
vieni ?
frase interpretata come
esclamativa (separato dal testo
con uno spazio)
vieni !
confine sintattico-semantico
percepito (separato dal testo
con uno spazio)
no , mi sembra
Fenomeni verbali non lessicali; fenomeni vocali non verbali; fenomeni non vocali non
comunicativi < >
Simbolo
(e descrizione)
<pl>
<pb>
<P>
<eeh>
<ehm>
<vv>
(v= vocale)
<cc>
(c= consonante)
/
(slash)
_
(underscore)
Applicazione
pausa vuota
<pb>: breve, <pl>: lunga
(senza interruzione del discorso)
pausa vuota media/lunga con
interruzione di discorso
pausa piena con vocalizzazione
o nasalizzazione
pausa piena con allungamento
dell’ultima vocale o consonante di
parola
allungamento della consonante
iniziale di parole
falsa partenza senza pausa di
interruzione (separata dal testo con
uno spazio)
interruzioni interne all’elemento
lessicale
fenomeni vocali non verbali
<risata>, <tosse>, <starnuto>, prodotti dal parlante
Inseriti nella esatta collocazione
<sospiro>, <inspirazione>, dentro il testo, prima di eventuale
<schiocco di lingua>,
punteggiatura
Esempio d’uso
il banano <pb> ce l’hai?
ma io <P> vabbè riprendiamo
allora <eeh> ce l’hai ?
o <ehm>
allora<aa>
non<nn>
<ss>senti
un tra+ / ce l’hai questo?
mon_tato
ma dove ce l’hai <risata> ?
<raschiamento>
<f.vocale>
<eh>, <ah>,<mh>, <aha>,
<mhmh>
<oh>
<oh!>, <ah!>, <aha!>
<mbè> <mbè?>
<f048>
o altro codice
altri non rientranti nelle etichette
precedenti
dove sta <f.vocale> ?
segnalazioni di assenso da parte del
locutore
G: poi devi andare a destra
F: <mhmh>
segnalazioni di fine di un sub-task e ... e infine girare a sinistra.
inizio di un nuovo sub-task
<oh> ora la prossima tappa e’
un banano
Esclamazioni (sorpresa, stupore,
<ah!> un banano! ma io non
soddisfazione…)
ce l’ho un banano
Assenso e domanda da parte del
locutore attraverso l’uso di questa
polirematica
sovrapposizione di turno
cfr. più sotto
evento non vocale, non
comunicativo generico
<RUMORE>
dov’è <RUMORE> ?
parole o sequenze inintellegibili
ma <inintellegibile> dov’è?
<inintellegibile>
prima e dopo il testo (senza spazi
bianchi) cui si sovrappone
- evento vocale
- altro turno
- evento non vocale
il testo è preceduto dall’annotazione
dell’evento
#
(cancelletto)
Commenti del trascrittore
Simbolo
(e descrizione)
[gridando]
o altro
[dialettale]
[regionale]
[altro]
#<f.vocale> il banano ?#
il #<F048> banano ?#
il #<RUMORE> banano ?#
[]
Applicazione
commenti generici del trascrittore,
sovrapposti o no al testo
parola o sequenza dialettale,
regionale, marcata in diafasia o
diastratia, etc...
Esempio d’uso
lei dice [gridando] ?
lei #[gridando] dice ?#
#[dialettale] ka ditto ?#
ho detto guagliò [dialettale]
APPENDICE [B]
Codici SAMPA per la trascrizione fonologica
Simbolo
SAMPA
descrizione
corrispettivo
IPA
parola
trascrizione
pane
bara
tana
dado
cane
gatto
zitto
negozio
"pane
"bara
"tana
"dado
"kane
"gatto
"tsitto
neg"Otsjo
neg"Ottsjo
"dzOna
m"Edzo
m"Eddzo
"tSena
"dZita
"fame
"vano
"sano
"zbaLo
"Sena
"eSe
"eSSe
"mano
"nano
"Jomo
b"aJo
b"aJJo
"rana
"lana
Li
m"aLa
m"aLLa
"jEri
"wOmo
"mite
"sera
"mEta
"rata
p
b
t
d
k
g
ts
occlusiva bilabiale sorda
affricata dentale sorda
p
b
t
d
k
g
ts
dz
affricata dentale sonora
dz
zona
mezzo
tS
dZ
f
v
s
z
S
affricata palatale sorda
tS
dZ
f
v
s
z
S
cena
gita
fame
vano
sano
zbaglio
scena
esce
m
n
J
nasale bilabiale
m
n
¯
mano
nano
gnomo
bagno
r
l
L
liquida vibrante
r
l
¥
rana
lana
gli
maglia
j
w
i
e
E
a
semivocale palatale
j
w
i
e
E
a
ieri
uomo
mite
sera
meta
rata
occlusiva bilabiale sonora
occlusiva dentale sorda
occlusiva dentale sonora
occlusiva velare sorda
occlusiva velare sonora
affricata palatale sonora
fricativa labiodentale sorda
fricativa labiodentale sonora
fricativa alveolare sorda
fricativa alveolare sonora
fricativa palatale sorda
nasale dentale
nasale palatale
liquida laterale
liquida palatale
semivocale labiovelare
vocale anteriore alta
vocale anteriore medio-alta
vocale anteriore medio-bassa
vocale centrale bassa
O
o
u
"
C+C
vocale posteriore medio-bassa
vocale posteriore medio-alta
vocale posteriore alta
accento lessicale primario
consonante geminata
(e/o rafforzata in PHB)
ç
o
u
'
mora
voto
muto
"mOra
"voto
"muto
vacca
bagno
"vakka
"baJJo
APPENDICE [C]
Codici X-SAMPA per la trascrizione fonetica
(descrizione e commenti sono limitati ai simboli diversi da quelli già presenti in SAMPA, cfr.
APPENDICE [B], ed evidenziati in grassetto).
I simboli con (*) rappresentano una versione parzialmente diversa da X-SAMPA: si tratta dei
tre allofoni approssimanti delle occlusive bilabiale, dentale e velare [B, D, G] utilizzati
nell’adattamento del SAMPA allo spagnolo (gli stessi simboli indicano fricative nell’alfabeto
X-SAMPA standard).
E’ stata introdotta, inoltre, l’etichetta ‘_f’ per indicare la ‘fricativizzazione’ (totale o parziale)
di una consonante, da apporre dopo l’elemento modificato in analogia con gli altri diacritici.
Simbolo
XSAMPA
p
b
B
(*)
t
d
D
(*)
k
g
G
(*)
ts
dz
tS
dZ
f
v
s
z
S
Z
m
descrizione
allofono approssimante
dell’occlusiva bilabiale
allofono approssimante
dell’occlusiva dentale
allofono approssimante
dell’occlusiva velare
allofono fricativo dell’affricata
palatale sonora /dZ/
corrispettivo
IPA
p
b
B
t
d
D
k
g
F
ts
dz
tS
dZ
f
v
s
z
S
Z
m
commento
e/o esempio
n
N
allofono velare della nasale
n
N
M
allofono labiodentale della nasale
M
J
r
4
l
L
j
w
i
e
E
a
O
o
u
@
6
C+C
V+V
allofono monovibrante di /r/
schwa, vocale centrale media
vocale centrale medio-bassa
¯
r
R
l
¥
j
w
i
e
E
a
ç
o
u
´
a
rovesciata
consonante geminata
~
per la trascrizione del dittongo
‘discendente’
per la trascrizione del dittongo
‘ascendente’
nasalizzato
a)
_v
sonorizzato
pª
_0
desonorizzato
d8
_h
aspirato
kH
_j
palatalizzato
kJ
_f
fricativizzato
=
sillabico
s`
v\
h\
H\
?
approssimante labiodentale
V
?
h
/
semiV+V
fricativa glottidale sonora
fricativa glottidale sorda
colpo di glottide
allofono condizionato contestualmente
(es: banco [baNko])
allofono condizionato contestualmente
(es: anfora [aMfora])
risultato dei fenomeni di
centralizzazione vocalica, per esempio
in fine di parola (es: casa [kas@]) o
per coloritura di /r/ (es: per [pe@], o
altro...
risultato dei fenomeni di
centralizzazione vocalica, soprattutto
di /a/ e /O/ (es: capitolo [k6pit6lo]
es: vacca [vakka]
es: corteo [kortEo]
es: fiore [fjore]
da apporre dopo l’elemento
(es: [informattsjo~]
da apporre dopo l’elemento
es: [komp_vlEto]
da apporre dopo l’elemento
es: [kwand_0o]
da apporre dopo l’elemento
es: [k_hasa]]
da apporre dopo l’elemento
es: [k_jina]
da apporre dopo l’elemento
es: [vEr_fso]
da apporre dopo l’elemento
es: [differEns=]
es: [div\Ersa]
APPENDICE [D]
RIFERIMENTI BIBLIOGRAFICI
ed ALTRE FONTI utilizzate per la stesura del presente documento.
Bibliografia citata:
Barry, W., Fourcin, A.J., 1992, ‘Levels of Labelling’, Computer Speech and Language, 6:
1-14.
Canepari, L., 1992, Manuale di pronuncia italiana, Zanichelli, Bologna.
Cole, R., Oshika, B.T., Noel, M., Lander, T., Fanty, M., 1994, ‘Labeler Agreement in
Phonetic Labeling of Continuous Speech’, in Proceedings of the 1994 international
Conference on Spoken Language Processing, Yokohama, Japan, 18-22 September 1994,
URL: http://www.cse.ogi.edu/CSLU/corpora/papers.html.
Cosi, P., Falavigna, D., Omologo, M., 19??, ‘A preliminary Statistical Evaluation of Manual
and Automatic Segmentation Discrepancy’, in.....
Cosi, P., Omologo, M., 1991, ‘Caratterizzazione statistica della segmentazione manuale del
segnale vocale’, in Atti del XIX Convegno AIA, Napoli, 10-12 Aprile, 1991, pp: 375-381.
Edwards, J.A., 1993, ‘Principles and Contrasting Systems of Discource Transcription’, in
Edwards, J.A., Lampert, M.D., (eds), Talking Data: Transcription and Coding in
Discource Research, Lawrence Erlbaum Associated Publishers, Hillsdale, New Jersey, pp:
3-31.
Endo, R., Bertinetto, P.M., 1999, ‘Caratteristiche prosodiche delle cosiddette ‘rafforzate’
italiane’, in Atti delle IX Giornate di studio del Gruppo di Fonetica Sperimentale, Venezia,
17-19 Dicembre 1998, pp. 243-255.
Eisen, B., 1993, ‘Reliability of speech segmentation and labelling at different levels of
transcription’, in Eurospeech’93. 3rd European Conference on Speech Communication
and Technology, Berlin, Germany, 21-23 September 1993, vol.1: 673-676.
Gibbon, D., Moore, R., Winski, R., (eds) 1997, Handbook of Standard and Resource for
Spoken Language Systems, Mouton de Gruyter, Berlin-NewYork.
Kohler, K., Pätzold, M., Simpson, A., 1995, From scenario to segment. The controlled
elicitation,
transcription,
segmentation
and
labelling
of
spontaneous
speech.
Arbeitsberichte (AIPUK) nr.29, Institut für Phonetik und digitale Sprachverarbeitung,
Univesität Kiel.
Llisterri, J., 1997, ‘Trascripción, etiquetado y codificación de corpus orales’, URL:
http://liceu.uab.es/~joaquim/publicacions/FDS97.html.
Mariño, J.B., Llisterri, J., 1993, ‘Spanish Adaptation of SAMPA and Automatic Phonetic
Transcription’, SAM-A/UPC/001/v1 20th April 1993. ESPRIT PROJECT 6819 (SAM-A
Speech Tecnology Assesment in Multilingual Applications).
Nespor, M., 1993, Fonologia, Il Mulino, Bologna.
Salza, P.L. 1991. ‘La problematica della segmentazione del segnale vocale’, in Magno
Caldognetto E. e F. Ferrero (acd), Trattamento del segnale vocale ed elaborazione
statistica dei dati. Atti delle Ie Giornate di Studio del Gruppo di Fonetica Sperimentale
(AIA), Padova 3-6.XI.1990, Collana degli Atti dell’Associazione Italiana di Acustica,
XVIII: 23-48.
Tillmann, H.G., Pompino-Marschall, B., 1993, ‘Theoretical Principles concerning
Segmentation, Labelling Strategies and Levels of Categorical Annotation for Spoken
Language Database Systems’, in Eurospeech’93. 3rd European Conference on Speech
Communication and Technology, Berlin, Germany, 21-23 September 1993, vol.3:16911694.
Tomlinson, M., 1987, ‘Labelling Methods Session’, in ESPRIT PROJECT 1541 Multilingual
Speech Input-Output Assesment, Methodology and Standardization (SAM), Meeting
Report: Labelling, Transcription and Management Methods for Speech Databases.
Wells, J.C., 1994, ‘Computer-coding the IPA: a proposed extension of SAMPA, URL:
http://www.phon.ucl.ac.uk/home/sampa/x-sampa.htm.
Wells, J.C., Barry, W., Fourcin, A.J., 1989, ‘Transcription, Labelling and Reference’, in
Fourcin, A., Harland, G., Barry, W., Hazan, V., (eds), Speech Input and Output
Assessment. Multilingual methods and standards., Ellis Horwood Limited and the EEC,
Chichester, England.
Altre fonti di riferimento:
Generali:
BORTOLINI, U., PIZZUTO, E., (a cura di) 1997, Il progetto CHILDES-Italia. Contributi di
ricerca sulla lingua italiana., Edizioni del Cerro, Pisa.
CHAN, D., FOURCIN, A., GIBBON, D., GRANDSTROM, B., HUCKVALE, M., KOKKINAKIS, G.,
KVALE, K., LAMEL, L., LINDBERG, B., MORENO, A., MOUROPOULOS, J., SENIA, F.,
TRANCOSO, I.,
IN ‘T
VELD, C., ZEILINGER, J., 1995, ‘EUROM - A Spoken Language
Resouces for the EU’, in Eurospeech’95. 4th European Conference on Speech
Communication and Speech Technology, Madrid, Spain, 18-21 September, 1995, Vol.1:
867-870.
FOURCIN, A.J., DOLMAZON, J.M., (on behalf of the SAM project), 1991, ‘Speech Knowledge,
Standards and Assessment’, in Actes du XIIème Congrès International des Sciences
Phonétiques. 19-24 août 1991, Aix-en-Provence, France. Aix-en-Provence: Université de
Provence, Service des Publications. Vol.5: 430-433.
HESS, W., KOHLER, K., TILLMANN, H.G., 1995, ‘The Phondat-Verbmobil Speech Corpus’, in
Eurospeech’95. 4th European Conference on Speech Communication and Speech
Technology, Madrid, Spain, 18-21 September, 1995, Vol.1: 863-866.
LLISTERRI, J., (coord), 1996, Report on Linguistic Resources for Spanish II. Written and
Spoken Corpora available or in progress in Spain., Observatorio Español de Industrias de
la Lengua, Instituto Cervantes, Alcalá de Henares.
MAC WHINNEY, B., 1997, Il progetto CHILDES. Strumenti per l’analisi del linguaggio
parlato, (edizione italiana a cura di E. Pizzuto e U. Bortolini), Edizioni del Cerro, Pisa.
REVUE FRANÇAISE
DE
LINGUISTIQUE APPLIQUÉE - Dossier: CORPUS. De leur constitution à
leur exploitation, Vol I-2, Décembre 1996.
SPEECHDAT, URL: http://www.icp.grenet.fr/SpeechDat/home.html
WINSKI, R., MOORE, R., GIBBON, D., 1995, ‘EAGLES Spoken Language Working Group:
Overview and Results’, in Eurospeech’95. 4th European Conference on Speech
Communication and Speech Technology, Madrid, Spain, 18-21 September, 1995, Vol.1:
841-844.
Per la trascrizione fonetica:
HIERONYMUS, J.L., 1994, ASCII phonetics symbols for the world’s languages: Worldbet.
AT&T
Bell
laboratories,
Technical
Memo.
URL:
http://www.cse.ogi.edu/CSLU/corpora/papers.html.
SAMPA - Computer readable phonetic alphabet, URL: http://www.phon.ucl.ac.uk/home/
sampa/home.htm; http://www.phon.ucl.ac.uk/home/ sampa/italian.htm; http://www.phon.
ucl.ac.uk/home/ sampa/x-sampa.htm
TEUBERT, W., 1993, ‘Phonetic-Phonemic and Prosodic Annotation’, NERC Final Report,
Workpackage 8: Linguistic Annotation, section 8.1, CNR- Istituto di Linguistica
Computazionale, Pisa.
UNIBET, PHONASCII, in Mac Whinney, B., 1997, Il progetto CHILDES. Strumenti per
l’analisi del linguaggio parlato, (edizione italiana a cura di E. Pizzuto e U. Bortolini),
Edizioni del Cerro, Pisa.
WORLDBET, URL: http://www.cse.ogi.edu/CSLU/corpora/papers.html
Per la trascrizione-annotazione di dialoghi:
BURNARD, L., 1995, ‘The Text Encoding Initiative: an overview’, in Leech, G., Myers, G.,
Thomas, J., (eds), Spoken English on Computer. Transcription, Mark-up and Applications,
Longman Publishing, New York, pp: 69-81.
CES - Corpus Encoding Standards, URL: http://www.cs.vassar.edu/CES.
DRI - Discourse Resources initiative, URL: http://www.geogetown.edu/luperfoy/DiscourseTreebank/dri-home.html.
DU BOIS, J.W., SCHUETZE-COBURN, S., CUMMING, S., PAOLINO, D., 1993, ‘Outline of
Discourse Transcription’, in Edwards, J.A., Lampert, M.D., (eds), Talking Data:
Transcription and Coding in Discource Research, Lawrence Erlbaum Associated
Publishers, Hillsdale, New Jersey, pp: 45-90.
EDWARDS, J.A., 1992, ‘Design principles in the transcription of spoken discourse’, in
Svartvik, J., (ed.), Directions in Corpus Linguistics, Proceedings of the Nobel Symposium
82, Stokholm, 4-8 August 1991, Mouton de Gruyter, Berlin - New York, pp: 129-148.
EDWARDS, J.A., 1995, ‘Principles and alternative systems in the transcription, coding and
mark-up of spoken discourse, in Leech, G., Myers, G., Thomas, J., (eds), Spoken English
on Computer. Transcription, Mark-up and Applications, Longman Publishing, New York,
pp: 19-34.
EHLICH, K., 1994, ‘HIAT: A Transcription Systems for Discourse Data’, in Edwards, J.A.,
Lampert, M.D., (eds), Talking Data: Transcription and Coding in Discource Research,
Lawrence Erlbaum Associated Publishers, Hillsdale, New Jersey, pp: 123-148.
GREENBAUM, S., 1992, ‘A new corpus of English: ICE’, in Svartvik, J., (ed.), Directions in
Corpus Linguistics, Proceedings of the Nobel Symposium 82, Stokholm, 4-8 August 1991,
Mouton de Gruyter, Berlin - New York, pp: 171-184.
GUMPERZ, J.J., BERENZ, N., 1994, ‘Transcribing Conversational Exchanges’, in Edwards,
J.A., Lampert, M.D., (eds), Talking Data: Transcription and Coding in Discource
Research, Lawrence Erlbaum Associated Publishers, Hillsdale, New Jersey, pp: 91-122.
JEKAT, S., KLEIN, A., MAIER, E., MALECK, I., MAST, M., QUANTZ, J., 1995, ‘Dialogue Acts in
VERBMOBIL’, URL: http://www.dfki.uni-sb.de:80/verbmobil/overview-us.htm.
JOHANSSON, S., 1995, ‘The approach of the Text Encoding Initiative to the encoding of
spoken discourse’, in Leech, G., Myers, G., Thomas, J., (eds), Spoken English on
Computer. Transcription, Mark-up and Applications, Longman Publishing, New York, pp:
82-98.
MULTEXT
-
Multilingual
Text
Tools
and
Corpora,
URL:
http://www.lpl.univ-
aix.fr/projects/multext.
PAYNE, J., 1995, ‘The COBUILD spoken corpus: transcription conventions’, in Leech, G.,
Myers, G., Thomas, J., (eds), Spoken English on Computer. Transcription, Mark-up and
Applications, Longman Publishing, New York, pp: 203-207.
PEPPÉ, S., 1995, ‘The survey of English Usage and the London-Lund Corpus: computerizing
manual prosodic transcription’, in Leech, G., Myers, G., Thomas, J., (eds), Spoken English
on Computer. Transcription, Mark-up and Applications, Longman Publishing, New York,
pp: 187-202.
SVARTVIK, J., (ed), 1990, The London-Lund Corpus of Spoken English. Description and
Research. Lund University Press, Lund.
TAYLOR, L.J., KNOWLES, G., 1988, Manual of Information to accompany the SEC Corpus.
The Maschine-readable Corpus of Spoken English. Unit for Computer Research on the
English Language, Bowland College, University of Lancaster, Bailrigg, Lancaster.
TEI - Text Encoding Initiative, URL: http://www.tei.uic.edu/orgs/tei.
The CHRISTINE Project, SUSANNE Meets Spoken English, URL: http://cogs.susx.ac.uk/
users/geoffs/RChristine.htm.
The HCRC Map Task Corpus, URL: http://www.cogsci.ed.ac.uk/hcrc/wgs/dialogue/dialog/
maptask.htm.
The
MULTIPARTY
Discourse
Group,
URL:
http://www.cs.rochester.edu:80/
research/trains/annotation.
THOMPSON, H.S., ANDERSON, A.H., BADER, M., 1995, ‘Publishing a spoken corpus on CDROM: the HCRC Map Task experience’, in Leech, G., Myers, G., Thomas, J., (eds),
Spoken English on Computer. Transcription, Mark-up and Applications, Longman
Publishing, New York, pp: 168-181.
TRIPS: The Rochester Interactiva Planning Systems, URL: http://www.cs.rochester.edu:80/
research/trips
VILLENA-PONSODA, J.A., 1994, ‘Pautas y procedimientosde representación del corpus oral de
la Universidad de Málaga. Informe preliminar’, in Alvar Ezquerra, M., Villena-Ponsoda,
J.A., (coord), Estudios para un corpus de español. Málaga: Universidad de Málaga, pp:
73-102.
Per la trascrizione prosodica:
BARRY, W., GIBBON, D., GRICE, M., HIRST, D.J., HOUSE, J., JOHNSON, M., LINDSEY, G.,
1990, ‘Achievement of SAM Prosody Group meeting, Nov.1, 1990: Prosodic transcription
and labelling’. MG - UCL - 20/12/1990.
GRICE,
M.,
BENZMÜLLER, R., 1995, ‘Transcription of German Intonation using ToBI-Tones.
The Saarbrücken System’, Phonus 1: Institute of Phonetics, University of the Saarland.
GUIDELINES for ToBI LABELLING, URL: http://ling.ohio-state.edu/Phonetics/
ToBI/ToBI0.html.
INTSINT - International Transcription System for Intonation, URL: http://www.lpl.univaix.fr/~hirst/intsint.html.
INTSINT - Prosody Research Team, URL: http://www.lpl.univ-aix.fr/~hirst/prosodie.E.html.
LABLITA - Laboratorio Linguistico del Dipartimento di Italianistica dell’Università di
Firenze, URL: http://www.unifi.it/unifi/dipita/ling-lab/homepage.htm; .../ricerche.htm;
.../pubblica.htm.
LLISTERRI, J., 1994, ‘Prosody Encoding Survey’, MULTEXT - LRE Project 62-050, WP1
Specifications and Standards. T1.5 Markup Specifications. Deliverable 1.5.3, Final version
15 Sept. 1994.
NICOLAS, P., HIRST, D.J., 1995, ‘Symbolic coding of higher-level characteristics of
fundamental frequency curves’, in Eurospeech’95. 4th European Conference on Speech
Communication and Speech Technology, Madrid, Spain, 18-21 September, 1995, Vol.1:
989-992.
PROSODY LABELLING GROUP - Germany, URL: http://sbvsrv.ifn.ing.tu-bs.de/prosody/
workshop.html.
SAMPROSA - (SAM Prosodic Transcription), URL: http://www.phon.ucl.ac.uk/home/sampa/
samprosa.htm.
STRANGERT, E., HELDNER, M., 1995, ‘Labelling of boundaries and prominences by
phonetically experienced and non-experienced transcribers’, Phonum 3: Reports from the
Department of Phonetics, Umeå University.