Corpus_tg60s-05_audio

Transcript

Corpus_tg60s-05_audio
CORPUS DI PARLATO TELEGIORNALISTICO. ANNI SESSANTA VS. 2005
SCHEDA 1
Indicazioni sulla risorsa: Il corpus contiene registrazioni audio di 4 interi telegiornali RAI degli anni ’60 e di
un telegiornale fittizio registrato nel 2005.
Curatori: Antonella Giannini, Massimo Pettorino
Il corpus è costituito da una serie di registrazioni di telegiornali degli anni sessanta (tutte edizioni serali della
Prima Rete Rai) conservati nelle Teche RAI (ricevute in audio-video VHS, riversate successivamente su CD
audio, in formato .wav, e DVD, in formato .vob, convertito poi in formato .mpg), e dalla registrazione di un
telegiornale fittizio del 2005 (effettuata in formato BETACAM, e successivamente riversata sia su CD audio
in formato .wav, sia su DVD in formato .vob, convertito poi in formato .mpg). Il materiale è stato ottenuto
grazie alla collaborazione delle Teche Rai, in particolare della direttrice dott.ssa Barbara Scaramucci, che
ringraziamo per averci autorizzato a pubblicare sul sito Parlaritaliano i file dei telegiornali degli anni
sessanta, e alla collaborazione del direttore del TG2 Mauro Mazza, che ha messo a disposizione del gruppo
lo studio di registrazione e due speaker professionisti per la registrazione del telegiornale fittizio.
In particolare le trasmissioni a disposizione sono:
-
Telegiornale del 10 maggio 1966 (edizione serale), durata 18’ 25’’
Telegiornale del 15 maggio 1967 (edizione serale), durata 23’ 10’’
Telegiornale del 4 luglio 1968 (edizione serale), durata 25’
Telegiornale del 14 maggio 1969 (edizione serale), durata 26’ 55’’
Telegiornale fittizio del 24 febbraio 2005, durata totale 22’ 37’’.
I nomi delle cartelle contenenti i files in formato .wav corrispondenti ai telegiornali sono:
- tg66_audio.zip
- tg67_audio.zip
- tg68_audio.zip
- tg69_audio.zip
- tg05_audio.zip
I parlanti sono un totale di 36, di cui una parte non identificati. Tra i parlanti delle registrazioni degli anni
Sessanta, quelli identificati sono Marco Raviart, Villy De Luca, Piergiorgio Branzi, Carlo Bonetti, Massimo
Valentini, Vittorio Citterich, Franco Colombo, Ettore Masina, Sandro Paternostro, Tito Stagno, Vittorio
Orefice, Andrea Barbato, Luigi Carrai, Dominique Aiquessi, Aldo Moro. I due parlanti dell’edizione del 2005
sono Fabio Cappelli e l’unico parlante femminile del corpus Silvia Vaccarezza.
Tutti i file audio completi in formato .wav delle edizioni dei telegiornali acquisite sono stati segmentati in
episodi/notizie. Per ciascun telegiornale sono stati indicati inizio e fine di ciascun episodio/notizia.
L’etichettatura è stata eseguita manualmente utilizzando il software wavesurfer 1.8.3. I codici usati
nell’etichettatura dei file audio sono i seguenti:
- Numeri progressivi seguiti dalle prime due lettere dell’alfabeto per indicare inizio e fine di ciascuna notizia
es. 1a: inizio della notizia numero 1
1b: fine della notizia numero 1
- Nei casi di notizia data da più speaker sono state usate le lettere dell’alfabeto in ordine progressivo
es. 1a: inizio della notizia numero 1 primo speaker
1b: fine della notizia numero 1 primo speaker
1c: inizio della notizia numero 1 secondo speaker
1d: fine della notizia numero 1 secondo speaker
- ”PP” seguito dalle prime due lettere dell’alfabeto per indicare fenomeni di disfluenza e porzioni di
registrazione non facente parte del telegiornale (in ”tg05.wav”)
es. PPa: inizio della pausa
PPb: fine della pausa
- ”M” seguito dalle prime due lettere dell’alfabeto per indicare inizio e fine della sigla
es. Ma: inizio della sigla
Mb: fine della sigla
- ”tg” seguito dalle prime due lettere dell’alfabeto per indicare inizio e fine della trasmissione
es. tga: inizio della trasmissione
Origine: www.parlaritaliano.it/Dati
Corpus tg60s-05_audio.pdf - 1
tgb: fine della trasmissione
Per aprire i file di etichettatura è sufficiente aprire il file .wav con il programma Wavesurfer. Dopo aver
cliccato con il pulsante destro sullo spettrogramma, selezionare ”Create Pane”, quindi cliccare su
”Transcription”. A questo punto il file .lab avente lo stesso nome del file audio verrà allineato allo spettro.
Ciascun file .wav e .lab presenta nel nome la sigla tgANNO DI EDIZIONE (es.: ”tg66.wav” e ”tg66.lab”).
Tutte le edizioni complete dei telegiornali sono state trascritte ortograficamente su base percettiva (si veda la
cartella trascrizioni ortografiche tg60s-05.zip), mentre una selezione di notizie è stata analizzata
spettroacusticamente e quindi trascritta ortograficamente. I file dati ottenuti, le trascrizioni effettuate, i file
audio e di etichettatura delle notizie selezionate sono contenuti nella risorsa “Selezione dal CORPUS DI
PARLATO TELEGIORNALISTICO. ANNI SESSANTA VS. 2005”, disponibile nell’area DATI di questo sito.
Origine: www.parlaritaliano.it/Dati
Corpus tg60s-05_audio.pdf - 2