SCHEDA INFORMAZIONI SUL CORPUS E SULLE ANALISI
Transcript
SCHEDA INFORMAZIONI SUL CORPUS E SULLE ANALISI
SCHEDA INFORMAZIONI SUL CORPUS E SULLE ANALISI EFFETTUATE (di Ilaria Vitagliano) CORPUS Il corpus è costituito da materiale cinematografico in formato audio tratto dai seguenti film: • La canzone dell’amore (1930), primo film sonoro parlato del cinema italiano, tratto dalla novella “In silenzio” di Luigi Pirandello, per la regia di Gennaro Righelli. Il film, registrato in formato VHS da trasmissione televisiva, è stato successivamente riversato su CD audio, in formato .wav. • Quattro passi fra le nuvole (1942), regia di Alessandro Blasetti; soggetto e sceneggiatura di Piero Tellini, Cesare Zavattini, Vittorio De Benedetti. Il materiale è stato tratto dal DVD Formato .vob, copyright 1942 Cines SA, distribuito su autorizzazione della Ripley’s Home Video Srl. (copyright 2003) per la collana “Il grande cinema italiano in DVD”, Hobby and Work. Il film è stato successivamente riversato su CD audio, in formato .wav. • Era di venerdì 17 (1957), regia di Mario Soldati e sceneggiatura italiana di De Benedetti. Il film, ambientato in Provenza, fu girato in doppia versione: italiana, in bianco e nero, e francese, a colori. Il materiale è tratto dal DVD Formato .vob, copyright 1957, Produzione Film Giuseppe Amato – Cité Film, Paris, distribuito dalla Ripley’s Home Video Srl. (copyright 2006), prima edizione giugno 2006. In questa edizione è stata utilizzata la versione francese a colori con i dialoghi della versione italiana. Le scene francesi che non avevano corrispondente nella versione italiana sono state lasciate in lingua originale e sottotitolate. Viceversa, le scene italiane non comprese nella versione francese sono state tagliate e allegate al DVD. Il film è stato successivamente riversato su CD audio, in formato .wav. • Il profumo del mosto selvatico (A walk in the clouds, 1995), per la regia di Alfonso Arau; dialoghi italiani di Tonino Accolla. Il materiale è stato tratto dal DVD Formato .vob, copyright 1995, Twentieth Century Fox Film Corporation, distribuito dalla Twentieth Century Fox Home Entertainment, Inc., 2002. Il film è stato successivamente riversato su CD audio, in formato .wav. Per il film La Canzone dell’amore (1930) è stata eseguita la trascrizione ortografica su base percettiva di tutte le scene, sequenze o singole battute comprensibili. Dal corpus sono state selezionate e analizzate acusticamente 4 sequenze diverse per situazione comunicativa e stili di parlato. I dati ricavati, relativi alle durate e agli indici di fluenza, si riferiscono al parlato di 2 personaggi maschili, (interpretati da Elio Steiner e Camillo Pilotto) e 2 femminili (interpretati da Dria Paola e Olga Capri). Per i film Quattro passi fra le nuvole (1942), Era di venerdì 17 (1956) e Il profumo del mosto selvatico (1995) sono state selezionate 4 scene o sequenze in cui sono presenti 6 diversi parlanti in ciascun film. Di questi, tre parlanti sono presenti per non più di qualche breve turno. I dati relativi a tali parlanti sono inseriti pertanto nel computo generale, ma non utilizzati per il confronto tra i parlanti. I parlanti oggetto di analisi e confronto in ciascun film sono quindi 3, due maschili e uno femminile (Gino Cervi, Aldo Silvani e Adriana Benetti per il 1942; Stefano Sibaldi, Fosco Giachetti e Giulia Rubini per il 1956; Francesco Prando, Giancarlo Giannini e Laura Boccanera per il 1995). Le sequenze selezionate sono state prima trascritte ortograficamente su base percettiva, quindi analizzate spettroacusticamente e ne sono stati rilevati dati relativi alle durate e agli indici di fluenza. Tali sequenze presentavano, nei tre film, la stessa situazione comunicativa, gli stessi personaggi, gli stessi ruoli dei parlanti, gli stessi contenuti del discorso, la stessa ambientazione e, quando possibile, lo stesso contenuto proposizionale. Le sequenze, inoltre, erano esemplificative del parlato dei personaggi in esame, varie quanto a situazione comunicativa e comprendevano, dove possibile, i diversi stili di parlato utilizzati dal personaggio. Mediante analisi acustica sono stati calcolati gli indici di fluenza. leggimi_unior_.doc_1 SCHEDA FILE DATI .xls dati generali cinema_unior.xls DATI I dati raccolti su base acustica e elaborati fanno riferimento alla selezione di 4 sequenze tratte dai quattro film in esame: La canzone dell’amore (1930): sono stati analizzati 9 minuti di parlato, per un totale di 74 turni in cui sono state pronunciate 1671 sillabe. Le sequenze sono indicate dai codici CA24, CA33, CA49, CA58. I codici rimandano alle corrispondenti trascrizioni ortografiche sia su base acustica che percettiva e ai rispettivi file audio in formato .wav, sui quali sono stati indicati inizio e fine delle catene foniche individuate (formato .lab). Quattro passi fra le nuvole (1942): sono stati analizzati 12 minuti di parlato, per un totale di 125 turni in cui sono state pronunciate 2377 sillabe. Le sequenze sono indicate dai titoli ‘confessione e piano’, ‘presentazioni’, ‘mattino partenza’, ‘inganno scoperto’. I titoli utilizzati rimandano alle corrispondenti trascrizioni ortografiche sia su base acustica che percettiva e ai rispettivi file audio in formato .wav, sui quali sono stati indicati inizio e fine delle catene foniche individuate (formato .lab). Titoli, trascrizioni e file sono preceduti dal codice del film ‘4PN’. Era di venerdì 17 (1956): sono stati analizzati 13 minuti di parlato, per un totale di 116 turni in cui sono state pronunciate 2494 sillabe. Le sequenze sono indicate dai titoli ‘confessione e piano’, ‘presentazioni’, ‘mattino partenza’, ‘inganno scoperto’. I titoli utilizzati rimandano alle corrispondenti trascrizioni ortografiche sia su base acustica che percettiva e ai rispettivi file audio in formato .wav, sui quali sono stati indicati inizio e fine delle catene foniche individuate (formato .lab). Titoli, trascrizioni e file sono preceduti dal codice del film ‘V17’. Il profumo del mosto selvatico (1995): sono stati analizzati 7 minuti di parlato, per un totale di 79 turni in cui sono state pronunciate 1287 sillabe. Le sequenze sono indicate dai titoli ‘confessione e piano’, ‘presentazioni’, ‘mattino partenza’, ‘inganno scoperto’. I titoli utilizzati rimandano alle corrispondenti trascrizioni ortografiche sia su base acustica che percettiva e ai rispettivi file audio in formato .wav, sui quali sono stati indicati inizio e fine delle catene foniche individuate (formato .lab). Titoli, trascrizioni e file sono preceduti dal codice del film ‘PMS’. I dati raccolti riguardano il numero e la durata delle catene foniche (porzione di parlato compresa tra due pause silenti), delle pause vuote, delle pause piene e il numero delle sillabe realmente pronunciate. Dai dati sono stati elaborati indici quali la velocità di articolazione (rapporto tra numero di sillabe pronunciate e durata delle catene foniche, escluse le pause piene, espresso in sillabe al secondo), la velocità di eloquio (rapporto tra il numero di sillabe e la durata totale degli enunciati, espressa in sillabe al secondo), la fluenza (rapporto tra il numero di sillabe e il numero di catene foniche, espressa in sillabe per catena fonica). Il file excel è corredato da un foglio introduttivo contenente i dati generali del corpus analizzato, i grafici riassuntivi per ciascun film e per ciascun parlante analizzato, messi a confronto tra i quattro film. Il file è ulteriormente corredato da un foglio ‘legenda’ per la lettura dei codici e delle abbreviazioni utilizzati. leggimi_unior_.doc_2 SCHEDA TRASCRIZIONE ORTOGRAFICA SU BASE PERCETTIVA TRASCRIZIONE Il corpus selezionato è stato inizialmente trascritto ortograficamente su base percettiva. Non è stata inserita punteggiatura ad eccezione del punto interrogativo “?” e della virgola “,” laddove si percepiva una pausa logica non ascrivibile ad un’interruzione del parlato. Sono stati indicati fenomeni verbali non lessicali chiaramente udibili. La trascrizione è stata effettuata in base alle convenzioni utilizzate in altri progetti nazionali (API, AVIP)., e già utilizzate nel progetto Parlare Italiano. Nell’indice, presente in ciascun documento, sono indicate tutte le caratteristiche relative alla sequenza in esame. I simboli utilizzati sono i seguenti: <pb> Pausa di breve durata <pl> Pausa di lunga o media durata <RUMORE> Rumori di sottofondo <MUSICA> Musica di sottofondo [...] Commenti del trascrittore (es: [voci di sottofondo]) <eeh>; <ehm> Pause piene: vocalizzazione e nasalizzazione <vv>, <cc> Pause piene: prolungamenti vocalici e consonantici <f.vocale> Altri fenomeni vocali LEGENDA CODICI I FILM: CA La canzone dell’amore (1930) 4PN Quattro passi fra le nuvole (1942) V17 Era di venerdì 17 (1942) PMS Il profumo del mosto selvatico (1995) I PARLANTI: CApn CA La canzone dell'amore, "pn" numero del parlante es. CAp2 è il parlante numero 2 del film La canzone dell'amore ("CA"), corrispondente al protagonista maschile DETTAGLI TRASCRIZIONE All’inizio di ciascuna trascrizione sono inserite alcune informazioni. • FILE – è indicato il codice del documento, utilizzato in tutti i documenti .doc, i file audio .wav, i file di etichettatura .lab e file dati .xls che si riferiscono alla stessa sequenza • TESTO – è indicato il tipo di sequenza e il film da cui è tratta • PARLANTI – sono indicati i parlanti che intervengono nella sequenza, corredati da informazioni sul ruolo interpretato, l’attore che interpreta il ruolo e l’eventuale voce o doppiatore. • AMBIENTAZIONE – sono date informazioni sull’ambientazione della scena • REGISTRAZIONE – sono date informazioni sul tipo di supporto da cui sono state tratte le selezioni trascritte • TRASCRIZIONE – sono indicati il tipo di trascrizione e il nome del trascrittore • COMMENTI – inseriti dal trascrittore leggimi_unior_.doc_3 leggimi_unior_.doc_4 SCHEDA TRASCRIZIONE ORTOGRAFICA SU BASE ACUSTICA TRASCRIZIONE Per la trascrizione ortografica su base acustica è stato seguito lo stesso schema della trascrizione su base percettiva, a cui si rimanda dove non diversamente specificato. Anche in questo caso, non è stata inserita punteggiatura ad eccezione del punto interrogativo (“?”) e della virgola (“,”). Sono stati indicati quei fenomeni chiaramente visibili sullo spettro, nella posizione in cui occorrono. La trascrizione è stata effettuata in base alle convenzioni utilizzate in altri progetti nazionali (API, AVIP), e già utilizzati nel progetto Parlare Italiano. I simboli utilizzati sono stati i seguenti <pb> pausa di breve durata <pl> pausa di lunga durata <P> pausa di media o lunga durata a fine di turno <cc> prolungamento consonantico (es: <dd>di) <vv> prolungamento vocalico (es: da<aa>) <f.vocale> altri fenomeni vocalici (es: schiocco della lingua) <RUMORE> fenomeno non vocalico <eeh> <ehm> pause vocalizzate o nasalizzate [...] commenti del trascrittore (es: [voci di sottofondo]) / falsa partenza , confine sintattico-semantico percepito * parole pronunciate in forma non corretta (es: *areoporto) + frammenti di parole (es: ca+) Per i codici utilizzati e le notizie introduttive, si rimanda a quanto già indicato per le trascrizioni ortografiche su base percettiva leggimi_unior_.doc_5 SCHEDA SEGMENTAZIONE AUDIO TESTO Tutto il corpus selezionato è stato segmentato in catene foniche. La segmentazione è stata effettuata manualmente e il software utilizzato è stato wavesurfer 1.8.exe. I file di segmentazione sono in formato .lab. Inizio e fine delle catene foniche sono stati così indicati: inizio: fine: numero della battuta (escluso il codice film), numero 'n' della catena fonica il tutto seguito da un trattino: es. p1_15_30-, vale a dire: inizio della catena fonica numero 30 della battuta numero 15 pronunciata dal parlante p1 numero della battuta (escluso il codice film), numero 'n' della catena fonica, il tutto preceduto da un trattino: es. -p1_15_30, vale a dire: fine della catena fonica numero 30 della battuta numero 15 pronunciata dal parlante p1 leggimi_unior_.doc_6 SCHEDA MATERIALE NON ANALIZZATO TESTO Per il film La canzone dell’amore, sono state eseguite le trascrizioni ortografiche su base percettiva di tutte le scene, sequenze o singoli turni che fossero intelligibili nel film (formato .doc) corredate di file audio (formato .wav) corrispondente. Per i codici e i simboli utilizzati in trascrizione si rimanda a quanto già scritto per le trascrizioni ortografiche su base percettiva. I file sono corredati di una lista (elenco_ca_unior.doc) in cui sono indicate le selezioni effettuate, il ruolo dei parlanti coinvolti, il tipo di testo, la durata della selezione audio. leggimi_unior_.doc_7