1 L`ADIL2 come strumento per la ricerca Massimo Palermo 1. Il
Transcript
1 L`ADIL2 come strumento per la ricerca Massimo Palermo 1. Il
L’ADIL2 come strumento per la ricerca Massimo Palermo 1. Il corpus L’ADIL2 è stato progettato e realizzato nell’ambito della ricerca da me diretta Le interlingue di apprendimento a base non italiana dell’Osservatorio Linguistico Permanente dell'Italiano diffuso fra stranieri e delle lingue immigrate in Italia istituito dal MIUR presso l’Università per stranieri di Siena1. Con la pubblicazione del DVD contenente la banca dati e il motore di ricerca si intende ora mettere a disposizione della comunità degli studiosi uno strumento per ricerche linguistiche e glottodidattiche sull’apprendimento guidato dell’italiano L2: i saggi contenuti nel volume, realizzati da colleghi dell’Università per Stranieri di Siena, indicano alcune possibili applicazioni in tal senso relative alla morfosintassi, al lessico, alle modalità di gestione della comunicazione orale e scritta da parte di non nativi2. Negli ultimi venti anni lo sviluppo dell’informatica ha reso possibile la creazione di corpora di italiano scritto e parlato sempre più estesi quantitativamente e, in alcuni casi, più sofisticati nelle potenzialità di interrogazione dei testi3. Più recentemente, ad essi si sono affiancati corpora di apprendimento (learner corpora) aventi l’italiano come lingua target; senza pretesa di esaustività ricordiamo la Banca dati di italiano L2 del Progetto di Pavia, contenente trascrizioni di interviste ad immigrati raccolte fra il 1985 e il 2000 (disponibile su CD-ROM dal 2001), il LIPS (Lessico dell’italiano parlato da stranieri), basato sull’archivio delle prove di produzione orale della certificazione CILS dell’Università per stranieri di Siena dal 1993 ad oggi4, il Co.Cer.IT (Corpus della Certificazione IT) iniziato nel 2005 e basato sulle prove di certificazione IT dell’Università di Roma Tre5; il VALICO (Varietà di Apprendimento della Lingua Italiana Corpus Online), realizzato presso l’Università di Torino6; il Corpus Parlato di Italiano L2, che raccoglie trascrizioni di interviste a parlanti di italiano L2, realizzato dall’Osservatorio sull’italiano di stranieri e sull’italiano all’estero dell’Università per straneri di Perugia7. A questa lista si può ora aggiungere 1 Il Centro, fondato nel 2001 e diretto fino al 2005 da Massimo Vedovelli, è attualmente sotto la direzione di Riccardo Campa. Per maggiori dettagli sulle finalità del progetto si rimanda a Palermo 2005, da cui sono tratti alcuni dei dati riproposti nelle pagine che seguono. 2 Per altri esempi di studi basati sul corpus ADIL2 mi permetto di rinviare a Palermo 2006 e Palermo - Troncarelli – Petrocelli (in stampa). 3 Per maggiori dettagli sullo sviluppo della linguistica dei corpora in Italia e all’estero cfr. Rossini Favretti 2000. Per quanto riguarda la sitografia, basti rimandare a “Parlaritaliano” <www.parlaritaliano.it>, un osservatorio dedicato allo studio del parlato italiano costituito nel 2004 da gruppi di ricerca di varie università italiane e al sito dell’Università di Graz, all’indirizzo <http://languageserver.uni-graz.at/badip/badip/home.php>. 4 Cfr. Vedovelli 2006; Barni - Gallina 2008 e 2009 5 Il corpus contiene attualmente 11 ore e 35 minuti di registrazione di parlanti di italiano L2. fr. Cfr. Ambroso Bonvino 2009. 6 Cfr. Barbera – Marello, 2004. 7 Consultabile in rete all’indirizzo <http://elearning.unistrapg.it/osservatorio/Home.html>. 1 ADIL2, i cui rilevamenti sono stati realizzati tra il 1997 e il 20048. A questa prima fase di grande fervore nella produzione e pubblicazione di nuovi corpora sarebbe auspicabile che seguisse ora una comune riflessione mirata alla progressiva omogeneizzazione dei corpora esistenti. Sarà essenziale a mio avviso soprattutto favorire l’importabilità / esportabilità deii dati, per poterli utilizzare su diverse piattaforme e sfruttare quindi al meglio le potenzialità dei singoli motori di ricerca9. Veniamo ora a una descrizione di ADIL2. Il corpus è formato da 1168 unità testuali, prodotte da 1126 informanti. In termini di estensione l’intero corpus contiene 432.606 forme (tokens). Al suo interno distinguiamo tre sezioni: testi scritti trasversali, risultato di prove somministrate una sola volta a gruppi di informanti (sez. A, 1051 unità testuali, 185.455 forme); testi orali trasversali (sez. B, 65 unità testuali, 84.846 forme); testi orali longitudinali (sez. C, 53 unità testuali, 185.455 forme), risultato di interviste allo stesso informante realizzate in un arco di tempo variabile. I testi orali sono in tutto 117 e corrispondono a oltre 37 ore di registrazione10. Se si considera il numero di forme di ciascuna sezione si ha la proporzione rappresentata nel grafico seguente: Grafico 1. Composizione di ADIL2 (percentuale relativa al n. di forme) 8 L’elaborazione del progetto e la gran parte dei rilevamenti risalgono al periodo 2002-2004. Gli informanti sono gli studenti che in quel periodo frequentavano i corsi ordinari di italiano L2 presso il Centro Linguistico d’Ateneo. La somministrazione delle prove, le interviste e le altre videoregistrazioni, le trascrizioni e la marcatura dei testi sono state effettuate da Marco Cassandro. Alcune trascrizioni e marcature si devono a Vincenzo Faraoni. L’allestimento informatico del sistema è a cura di Luca Belgiovane. Sono confluiti nel corpus, trascritti e marcati secondo le norme ADIL2, alcuni testi scritti e orali raccolti precedentemente. La prova scritta su Cappuccetto Rosso è stata somministrata nel 1997 da un gruppo di ricerca del Centro linguistico d’Ateneo, coordinato da M. G. Lo Duca (per maggiori dettagli cfr. Lo Duca 1998). Le interviste longitudinali a CAM, HOL e JOD sono state effettuate da Marco Cassandro in occasione della propria tesi di dottorato nel 1998 (Cassandro, tesi di dottorato). Colgo l’occasione per ringraziare, oltre alle persone sopra citate, i docenti e i collaboratori esperti linguistici del Centro Linguistico dell’Università per stranieri che in questo lungo lasso di tempo hanno collaborato a vario titolo ai rilevamenti. Per maggiori notizie sulla genesi di ADIL2 cfr. Palermo 2005. 9 Sui learner corpora cfr. Granger 2004 e, per lo specifico dell’italiano L2 Andorno – Rastelli 2009. 10 Di questi 74 sono stati videoregistrati (19 ore e 6 minuti), 43 registrati in solo formato audio (18 ore e 11 minuti). Nella versione di ADIL2 che si pubblica con questo volume, per ragioni di privacy, i file video sono stati convertiti in file audio. Su richiesta di singoli ricercatori, da inviare al curatore del volume, sarà possibile visionare le videoregistrazioni. 2 B: ORALE TRASVERSALE 20% A: SCRITTO 42% C: ORALE LONGITUDINALE 38% Per le sezioni A e B il criterio primario per la costituzione del corpus è stato testuale: con riferimento alla classificazione funzionale dei testi, si è cercato di coprire in modo bilanciato i cinque tipi fondamentali. I testi orali della sezione B si differenziano, oltre che sulla base del tipo testuale, in funzione delle modalità di interazione (monologo, dialogo, conversazione di gruppo). La sezione orale longitudinale (C) comprende soltanto interviste semi-strutturate. Vediamo qualche dato ulteriore sugli informanti. Per quel che riguarda la lingua madre il quadro emergente è quello rappresentato dalla Tabella 1: Tabella 1. Composizione dell’ADIL2 (per lingua madre degli apprendenti) MADRELINGUA Inglese Giapponese Cinese Coreano Tedesco Spagnolo Arabo Francese Russo Svedese Albanese Greco Portoghese Tailandese Polacco Serbo-croato Ucraino Indonesiano Slovacco Olandese Vietnamita Estone Persiano NUMERO 286 151 102 82 73 54 41 33 32 29 28 24 19 19 14 14 10 8 8 7 7 6 6 MADRELINGUA Gallese Lettone Norvegese Bulgaro Kazako Lituano Malese Ungherese Azero Bantu11 Finlandese Islandese Birmano Ceco Ebraico Rumeno Uzbeko Armeno Georgiano Igbo (Nigeria) Malgascio Moldavo Kiniarwanda NUMERO 1 5 5 4 4 4 4 4 3 3 3 3 2 2 2 2 2 2 1 1 1 1 1 11 Si tratta di due informanti di nazionalità camerunense e mozambicana. Ho usato per semplicità il nome della famiglia linguistica d’appartenenza. 3 Turco Danese (Ruanda) Catalano Minangkabau (Sumatra) 6 5 1 1 I casi più significativi di lingue madri “ombrello”, cioè corrispondenti a parlanti di nazionalità diverse riguardano l’ arabo (21 magrebini, 2 arabi, 2 siriani, 6 palestinesi, 6 giordani), l’inglese (213 statunitensi, 19 australiani, 8 britannici, 7 canadesi, 4 sudafricani, 2 irlandesi, 1 neozelandese, i rimanenti con doppia cittadinanza), lo spagnolo (12 spagnoli, 12 argentini, 7 cileni, 4 colombiani, 3 messicani, i rimanenti centro o sudamericani), il francese (21 francesi, 5 belgi, 2 franco-canadesi, 1 gabonese, senegalese, mauriziano, ivoriano), il tedesco (61 tedeschi, 4 svizzeri, 4 austriaci), il portoghese (7 portoghesi e 12 brasiliani), il serbo-croato (11 bosniaci, 2 serbi, 1 croato). Per evitare l’eccessiva frammentazione dei dati abbiamo compiuto alcune forzature non tenendo conto delle differenze linguistiche interne agli informanti di nazionalità cinese e taiwanese e dei pochi appartenenti a lingue del gruppo bantu (2 mozambicani, 1 camerunense). Interessanti infine i casi degli informanti provenienti da paesi ex coloniali, in particolare africani, che non dichiarano come lingua madre la lingua ufficiale europea in uso nella loro nazione. Per quanto riguarda gli europei, da segnalare l’autodichiarazione di due apprendenti (rispettivamente spagnolo e britannico) che hanno fatto riferimento al catalano e al gallese. Una delle possibile direttrici di studio del corpus riguarda i rapporti tra tipo linguistico e caratteristiche dell’interlingua. A tale scopo può essere utile un’analisi della suddivisione degli apprendenti per famiglia linguistica. Il primo dato rilevante è l’appartenenza del 58% degli informanti a lingue indoeuropee. Nel grafico 2 riportiamo nel dettaglio le cifre relative alle famiglie linguistiche che presentino più di 5 informanti12: Grafico 2. Distribuzione degli informanti per famiglia linguistica distribuzione degli informanti per famiglia linguistica 408 15 19 23 28 43 82 84 104 151 28 al tro 14 98 ro m an si zo no -ti be ta no gi ap po ne se ge rm an ic o 13 sl av o 9 ta i gr ec o al ba ne se se m iti co co re an o 6 ba lti ug co ro -fi n au ni co st ro ne si an o al ta ic o in do -ir an ic o 450 400 350 300 250 200 150 100 50 0 12 Rientrano nella colonna “altro”, oltre ad alcune autodichiarazioni incerte, le famiglie linguistiche con meno di 6 informanti: alcune lingue africane (igbo, bantu, ruandese), il vietnamita, il georgiano, il gallese. 4 Particolare cura è stata posta nell’ottenere una distribuzione equilibrata degli informanti per livello di competenza, come si evince dal grafico seguente13: Grafico 3. Distribuzione degli informanti per livelli di competenza altre tipologie 46 principiante avanzato 290 217 intermedio 227 elementare 352 I due terzi degli informanti sono compresi nella fascia d’età tra i 18 e i 25 anni. Per quel che riguarda il livello d’istruzione (hanno compilato questa sezione 830 informanti) notiamo un 5,55% di laureati, un 43,01% di studenti universitari, un 51,44% di persone in possesso del diploma di scuola superiore. I 912 informanti che hanno compilato la sezione “altre lingue conosciute” sono così distribuiti: Grafico 4. Altre lingue conosciute tre 179 quattro 18 una 234 due 481 13 Ricordiamo che al momento dei rilevamenti i corsi ordinari di lingua del Centro linguistico dell’Università per stranieri erano articolati su quattro livelli, mentre dal 1° gennaio 2005 si è passati ad un’articolazione su sei livelli, secondo l’impostazione del Quadro comune europeo. 5 La prima lingua straniera conosciuta è l’inglese (574 casi), seguita dal francese (110 casi), dallo spagnolo (90), dal tedesco (26), dal russo (18), dal cinese (15 casi, per lo più taiwanesi, giapponesi, coreani), dal giapponese (7 casi, per lo più coreani). 2. Le rilevazioni Vediamo ora come sono state predisposte le prove. Per la sezione A esse sono suddivise secondo i cinque tipi testuali fondamentali. Eccone il quadro riassuntivo: Tabella 2. Tipologia delle prove scritte Tipo Genere Titolo Descrizione Livelli di competenza Regolativo Ricetta Come si Dare istruzioni per preparare I-IV prepara un un caffé all’italiana. buon caffé! Narrativo 1 Racconto di esperienze I-IV Parlaci di te Racconto personale personali. Narrativo 2 Favola I-IV Cappuccetto Narrazione della favola. Rosso Espositivo Saggio Lo sviluppo Esposizione della situazione I-IV breve demografica italiana. della popolazione Esposizione e interpretazione di tabelle con dati reali. italiana Descrittivo Gioco Confronta le Descrivere due immagini che I-IV si differenziano per alcuni enigmistico due immagini e dettagli scrivi le differenze che trovi. Argomentativo Lettera Lettera a un Scrivere una lettera a un I-IV informale amico per convincerlo a amico. visitare il proprio paese Nella somministrazione di alcune prove ci siamo avvalsi dell’ausilio di immagini o di altri materiali di supporto (v. infra, par. 4): per la prova regolativa si è dapprima mostrato un breve video di una persona che prepara il caffé, poi si è fornito agli studenti un foglio con alcune immagini delle fasi principali della preparazione e un lessico tecnico fondamentale; per la narrazione della favola l’input era costituito da un’illustrazione che riproduceva i protagonisti della storia, per la prova descrittiva si sono utilizzate due immagini quasi identiche di cui gli studenti dovevano individuare e descrivere le differenze; per la prova espositiva si sono forniti due grafici che illustrano l'andamento della popolazione italiana dal 1999 al 2001 e un grafico con ipotesi sul futuro sviluppo demografico del nostro Paese14. Lo spazio maggiore dedicato alla tipologia narrativa si spiega tenendo conto del 14 Nella cartella “materiali di supporto” presente nel DVD allegato al volume sono contenuti i file con le consegne delle prove. 6 fatto che la prova su Cappuccetto Rosso, certamente di notevole interesse per molti altri aspetti15 poteva comportare un certo condizionamento degli scriventi per quel che riguarda le regole retoriche e stilistiche con cui la narrazione favolistica si è storicamente sedimentata nelle varie culture, con conseguenze sulla selezione di strutture linguistiche caratteristiche del narrare (mi riferisco in particolare alla selezione dei tempi del passato e a particolari vincoli nella costruzione delle catene anaforiche), mentre la narrazione pragmatica richiesta con il racconto personale dovrebbe risentire in misura minore di condizionamenti di tal genere. Un’analoga suddivisione è stata compiuta per i testi delle sezioni B e C. Tuttavia nei testi orali occorre considerare come variabili pertinenti anche le modalità della conversazione. Dal punto di vista delle modalità di interazione tra gli interlocutori sono presenti sia monologhi sia conversazioni faccia a faccia con variazione nella libertà di presa del turno, sia conversazioni di gruppo più o meno guidate. In linea di massima, tuttavia, le rilevazioni orali, benché sempre guidate dal ricercatore, hanno avuto carattere libero e, quando se ne è presentata l’opportunità, si è cercato di incoraggiare le produzioni autonome degli apprendenti. Il sottocorpus raccoglie varie tipologie di prove - in genere svoltesi nell’ambito dell’interazione di classe - che includono unità testuali narrative (ordinare una storia a disegni e narrarla, riassumere il contenuto di un breve video), descrittive (descrivere un’immagine proposta), espositive (presentare una breve ricerca), regolative (spiegare come si fa il caffé all’italiana), argomentative (convincere a trascorrere un fine settimana in una località turistica). La sezione C è costituita da 52 interviste semilstrutturate realizzate nel tempo a un gruppo di dieci informanti. La tabella seguente descrive la lingua madre dei parlanti, il loro livello di competenza iniziale e finale, il numero di interviste. Tabella 3. Informanti del corpus longitudinale Sigla Lingua Informante madre Livelli di n. Sigla Lingua competenza interviste Informante madre Livelli di n. competenza interviste ANA Spagnolo 1–3 (non 2) 3 MON Arabo 1–2 (libico) Arabo 1 (palestinese) Arabo 1 (palestinese) Cinese 1-3 GHA AMI WEN WAN Cinese 3-4 2 6 CAM 1-2 9 2 HLY Inglese (USA) Inglese (USA) 1-3 11 2 JOD 5 HUI Inglese 1-3 (USA) Cinese 2-3 (Taiwan) 8 3 15 Sulle ragioni che hanno determinato l’uso di tale favola per uno studio comparato sull’apprendimento della scrittura nei bambini si veda Ferreiro / Pontecorvo (1996). 7 3. Modalità di accesso ai dati e funzioni di ricerca L’ADIL2 è un sistema composto da una banca dati di testi multimediali (trascrizioni e registrazioni audio/video) e un programma che consente di accedere alla lettura e alle ricerche testuali. Sia la lettura che la ricerca sfruttano le potenzialità del supporto digitale, in quanto è possibile selezionare dinamicamente la porzione di corpus su cui lavorare. L’utente può predisporre sottoinsiemi di testi definiti sulla base delle proprie esigenze di ricerca, leggerli in maniera sequenziale e non, operare su di essi ricerche testuali. 3.1 Installare e lanciare il programma, selezionare i testi ADIL2 funziona con i sistemi operativi di Windows. Per installarlo, avviare “setup.exe” e seguire la procedura. Per ascoltare i testi orali è necessario che sul proprio PC sia presente il programma Windows Media Player, versione 10 o superiore. In caso contrario, aprire la cartella “Player” contenuta nel DVD e lanciare Winxp.exe per sistemi operativi XP, NON_WinXP.exe per sistemi operativi diversi da XP. Una volta eseguita l’installazione non sarà più necessario inserire il DVD nel lettore per usare il programma. Lanciato il programma con doppio clic sull’icona ADIL2, la prima operazione consiste nel selezionare il sottoinsieme di testi su cui lavorare: corpus scritto o orale. Effettuata questa scelta, è possibile lavorare sull’intero insieme di testi (opzione di default) o selezionarlo ulteriormente in base a: ! tipo di testo; ! caratteristiche dell’apprendente: età, lingua madre, livello di competenza; ! modalità di rilevamento (longitudinale o trasversale); ! modalità di scambio (monodirezionale o bidirezionale). Nelle figg. 1 e 2 sono riprodotte le maschere di selezione relative al corpus scritto e orale: 8 Figura 1. Maschera di selezione del corpus scritto Figura 2. Maschera di selezione del corpus orale Ciascun testo corrisponde a un n. di file. La numerazione parte da 1 sia per il corpus scritto sia per quello orale. Nelle citazioni di brani tratti da ADIL2 in questo volume, salvo diversa indicazione dell’autore, sarà specificato il corpus e il n. file, per es. [SC 234]; [OR 56]. 3.2 Lettura, ricerca semplice, ricerca avanzata Una volta selezionati i testi è possibile scegliere tre modalità di accesso ai dati: lettura, ricerca semplice e ricerca avanzata. La modalità lettura consente, nel caso delle produzioni scritte, di visualizzare il testo e varie informazioni sulla mise en page (cancellature, sostituzioni, aggiunte interlineari, parole di dubbia lettura o non comprensibili) e sulle incertezze ortografiche 9 (concrezioni, discrezioni). Nel caso dei testi orali le trascrizioni sono associate ai corrispondenti file audio/video: nella cornice di sinistra compare la trascrizione, in quella di destra è possibile attivare l’ascolto o la visione del file. La possibilità di accesso diretto ai file multimediali ha consentito di semplificare le convenzioni di trascrizione e di ricorrere all’ortografia standard affiancata da pochi simboli, che si riportano nelle tabelle 4, 5 e 6: Tabella 4. Convenzioni di trascrizione e visualizzazione comuni ai testi orali e scritti Fenomeno Inserti in L1 dell’informante Inserti in L2 dell’informante Cambio di tema16 Falsa partenza17 Riferimento metalinguistico18 parola illeggibile o incomprensibile / cancellatura irrecuperabile Trascrizione alternativa in caso di dubbi Ricostruzione congetturale Simbolo / Visualizzazione colore blu colore rosso ÷ @ corsivo {xxx} numero di x corrispondente grosso modo al numero di grafemi / fonemi non recuperabili testo tra parentesi graffe testo tra parentesi graffe Esempio Un po' più tardi ein Jaeger passa ehm quindi , ehm quando sono vicini , character [#] altre , va bene sì , perché ehm [#] ho abito nella famiglia belgi . ho: ÷ no , sono andato a un scuola belgi . ehm io drit¦ @ io ha dritto . sì , ehm primo ci sono quattre ragazze . e loro fanno una gherra con neve . ehm loro lansano lanciano ? lo portò a casa sua, e gli dare (pass. remoto) tante cose da mangiare per guarire Per me,{xxxxx} penso che è un'iptesi alta ma:: [#] qua {va} a Siena ? Le personi {f}anno a palavolo Tabella 5. Convenzioni di trascrizione e visualizzazione usate solo nei testi orali Fenomeno Tonia esclamativa Tonia interrogativa Tonia conclusiva Tonia sospensiva Simbolo / Visualizzazione ! ? . … Giuntura sintattica Domande a coda , ¿ xxx ? Esempio A:- ieri sono andato a Roma… B:- mhm mhm A:- [+] e ho fatto shopping Senti , che pensi di questa cosa? vedi che lui ha un libro in mano ¿ no ? 16 Il parlante cambia spontaneamente il topic e passa a un nuovo tema che può essere anche vagamente correlato all’argomento precedente. 17 Riformulazione dello stesso concetto con altre parole nello stesso enunciato, diverso dal cambio di progetto che è anche un cambio di topic e dall’autointerruzione che è una vera e propria interruzione 18 Casi in cui il parlante o lo scrivente, con un’intonazione particolare o altri segnali grafici o paralinguistici cerca di attirare l’attenzione dell’interlocutore sulla forma linguistica. Il primo esempio è tratto da un testo orale, il secondo da un testo scritto. 10 Pausa (breve, media lunga) Tenuta vocalica Sovrapposizione [#][##][###] in base alla durata : :: ::: in base alla durata [//] Autointerruzione [///] Eterointerruzione [/] Autocompletamento [+] Eterocompletamento [++] Annotazioni, glosse e altre informazioni para/extralinguistiche, minutaggio19 Interruzione di parola Caratteri fonetici20 colore viola | |\ tu hai fatto qualcosa di: ehm piacevole RIC: che [//] che [//] che cosa hai fatto a Venezia ? MON: [//] sì [//] . Venezia [#] va bene . molto bella . A:- Ieri sono andato a Roma [///] A:- ma che è ‘sto rumore? A:- Ieri sono andato a Roma [/] B:- ieri? A:- sì MER: in strada . ma in aula che è più tranquillo . più facile di di ... KRY: ah , va bene . MER: [+] registrare . MON: Italia parlano qui in Italia [/] RIC: [++] e basta ! MON: lo so , lo so. e poi [simula reazione di spavento] . ha paura . MON: [//] no [//] saluti . spettià | spettano ? corpo maggiore grassetto Click avulsivo sì , ma: [##] non sono in contatto . se c'è anche ehm altra film @ cassetta per città . si chiama derEZ ah {e i:} [##] |\ , regale @ regali @ i regali . Tabella 6. Convenzioni di trascrizione e visualizzazione usate solo nei TESTI SCRITTI Fenomeno concrezioni Simbolo / Visualizzazione colore verde discrezioni cancellature aggiunte interlineari colore verde testo barrato testo in apice tra barre trasversali sovrascrittura punto o serie di punti con testo originario in pedice, testo sovrascritto in apice tra parentesi ··· Esempio Hao arrivato in corea adesso. ti sentireo il la mancanza, perché ti bene di tutto cioché ha fatto per me Perche durante le state il mio paese è bellissimo per la prima volta lo avevo garud visto in Italia il primo \ipotesa/ mostra che la popolazione dell'Italia aumenterà molto Questa estate. sono andata azzurra. azzura (ho viaggiato) alla costa Questo, è un motivo per la gente di venire a lavorare alla Italia; le persone delle paese poberi 19 I tag relativi al minutaggio sono inseriti nella trascrizione ad intervalli di tre minuti e indicano i secondi trascorsi dall’inizio del file audio video: servono a facilitare l’abbinamento trascrizione / ascolto. Naturalmente glosse, spiegazioni di fenomeni paralinguistici, minutaggi e tutto quanto visualizzato in viola è escluso dalle ricerche. 20 Essendo possibile ascoltare l’audio i caratteri fonetici sono stati usati solo in caso di effettiva necessità. I simboli usati sono quelli dell’alfabeto SAMPA (Speech Assessment Methods Phonetic Alphabet). Maggiori informazioni al riguardo si possono trovare in rete agli indirizzi <www.phon.ucl.ac.uk/home/sampa/home.htm> e <www.phon.ucl .ac.uk/home/sampa/italian.htm> 11 funzione non demarcativa di periodo fine pagina [||] · ·· ma per altro posto, la Italia non è molto economica per vivere ··· ma comunque anche posto di lavoro è attrativo "Perciò voglio ti sentire meglio" risponde il lupo.[||] Finalmente la ragazza chiede Ecco un esempio di trascrizione del corpus scritto [testo espositivo di un informante inglese diciannovenne, principiante]: A) Penso che le popolazioni nel in tutto il mondo diventa più ma il cambio grande fra 2000 e 2001 è perché la gente ha voluto avere bambini ÷ si sono nati nel anno 2000. Era un anno molto speciale. L'inizio della nuovea millenia. C'è anche il problema con le gravidanze nei giovani è i Catolici non gli piaciono \loro/ gli aborti. La popolzione cresce perché gli stranieri vengono dei paesi più poveri e fanno tanti bambini. Non è la colpa degli italiani perché in graffico 2 si puo vedere che se non ci sono gli stranieri, la popolazione sarà meno di solito. È molto interessante che gli italiani L'italia ha il percento di c gli italiani fanno più bambini del mondo. B) Scelgo l'ipotesi media. La popolazione crescerà, è sono sicuro. Gli stranieri \ci/ continueranno {x} venire {x} con le loro famiglie e continueranno fare bambini ma fra pochi anni qualche anno, sarà detrimortale per L'Italia perché il paese non avrà il forte per vivere in salute. Eventualmente il governo dovrà fermare gli immigrati che \lo/ abusano e lavorano nero. Dovrà anche fermare dare i soldi troppo liberalmente agli stranieri. [23] e uno di trascrizione dell’orale [intervista a GON, portoghese, 23 anni, principiante]: RIC: a te ti piace il cinema ? GON: sì ! muito . RIC: molto . GON: muito . RIC: ehm lo sai che oggi vedremo un film ? GON: ehm: [//] sì [//] , sì . RIC: [//] in classe [//] . ah . GON: ma: non lo so che: che film ... RIC: ehm forse un film di Benigni . GON: La Vita è Bella ? RIC: no . GON: Un Mostro ? RIC: Il Mostro . GON: Il Mostro . RIC: 12 l'hai visto ? GON: sì , è muy bello . RIC: ehm o forse un altro film se riesco a trovarlo . però ancora non l'ho trovato . quindi per adesso ho preso Il Mostro . poi: [//] [#] [//] vediamo . GON: [//] okay [//] . RIC: senti , ehm sei stato al cinema qui te: ? GON: no , [//] no [//] . RIC: [//] mai [//] ? GON: ehm: nunca @ mai . ehm perché: non mi piace: ehm:: guardare la:: lo:: cine [//] [#] [//] ehm:: ehm italiano . [105] Ricerca semplice La modalità ricerca semplice, le cui maschere sono riprodotte nelle fig. 3 (corpus scritto) e 4 (corpus orale), consente di eseguire le seguenti operazioni: ! ! ! ! ! ! ! cercare parole, gruppi di parole adiacenti, frasi. Digitando “casa” si ottengono tutti i contesti in cui la parola compare; digitando “la casa di Cappuccetto Rosso” si ottengono tutte i contesti in cui compare l’espressione; cercare parti di parole. Come caratteri jolly sono disponibili “$” (qualsiasi carattere) e “*” (qualsiasi sequenza di caratteri); quindi cercando “cas$” si ottengono tutti i contesti di casa /case / caso ecc. cercando “cas*” si ottengono tutti i contesti di casa /case / casetta / castello / castoro ecc. È possibile escludere dai risultati della ricerca alcune parole. In questo caso occorre separare con un punto e virgola (senza spazio) le parole da escludere. Per es., per ricercare le forme verbali al gerundio posso impostare come ricerca la stringa “*ndo” ed escludere dai risultati parole di disturbo come quando;mando;fondo;mondo ecc. generare concordanze e liste di frequenza. Digitando come stringa di ricerca il solo carattere “*” si ottengono le concordanze o le liste di frequenza dell’intero corpus selezionato (v. infra per maggiore dettagli). cercare combinazioni di due parole non adiacenti (cerca parola1 e parola2 separate da N parole). L’indicatore di prossimità (n. di parole che separano “parola1” e “parola2”) è modificabile dall’utente. cercare varianti di parole (cerca parola1 oppure parola2). Questa funzione è particolarmente utile in un corpus acquisizionale per cercare varianti grafiche di una parola, per es. casa, caza, chasa; escludere alcuni contesti. In una ricerca su casa posso escludere tutti i contesti in cui la parola è preceduta dall’articolo la (cerca parola2 non preceduta da parola1), oppure tutti i contesti in cui la parola è seguita dalla preposizione di (cerca parola1 non seguita da parola2); generare il contesto sinistro (cerca parola2 preceduta da qualunque parola) o destro (cerca parola1 seguita da qualunque parola). Per es. posso ottenere la lista in ordine alfabetico tutte le parole che seguono il verbo voglio (per es. per vedere con quali verbi è usato il modale) oppure tute le parole che precedono il participio andato (per es. per una ricerca sull’ausiliare); Nel corpus orale è possibile, selezionando la casella di controllo, escludere dalle ricerche i turni di parola dell’intervistatore. 13 Figura 3. Maschera per la ricerca semplice (corpus scritto) Figura 4. Maschera per la ricerca semplice (corpus orale) Risultati delle ricerche Le figg. 5 e 6 mostrano i risultati della ricerca della parola casa in un testo scritto e in uno orale. Come si vede, nella cornice in basso compaiono tutti i risultati. Il contesto, cioè la forma o le forme corrispondenti alla stringa di ricerca digitata, è presente nell’ultima colonna a destra, preceduto da informazioni sul testo e sull’informante (n. file, sottocorpus, tipo testuale, modalità di scambio, lingua madre, età, livello di competenza). Di default i risultati appaiono ordinati secondo il n. di file, ma possono essere ordinati per uno qualsiasi degli altri campi cliccando sul capo colonna corrispondente. Selezionando uno dei risultati, nella cornice in alto appare il contesto ampio, con la forma ricercata evidenziata in giallo (scorrendo in alto e in basso si può leggere l’intero testo). Nel 14 caso dei testi orali (fig. 6) la cornice di sinistra contiene la trascrizione, quella di destra consente di aprire il file multimediale con la registrazione audio/video21. In basso a sinistra sono visualizzate le occorrenze totali risultanti dalla ricerca (nei nostri ess. casa compare 971 volte nel corpus scritto, 324 nel corpus orale). Figura 5. Risultati della ricerca di “casa” nel corpus scritto Figura 6. Risultati della ricerca di “casa”nel corpus orale Salvataggio dei risultati delle ricerche Agendo sull’icona del floppy disk in basso a destra (fig. 7) i risultati di una ricerca possono essere salvati in un file di formato .txt. Nella finestra di salvataggio, selezionando le varie possibilità elencate in “salva come” è possibile specificare quali informazioni trasferire su file: tutte le colonne, il n. file e il contesto, il solo contesto o la lista di frequenza. 21 Nelle trascrizioni sono stati inseriti ogni 180 secondi dei tag che indicano i secondi trascorsi dall’inizio del file, per facilitare il ritrovamento della stringa di testo evidenziata sul file audio-video. 15 Per salvare su file le concordanze, dopo aver digitato come stringa di ricerca il carattere *, cliccare sull’icona del floppy disk e selezionare nel menù a scorrimento “salva come” l’opzione “numero file e contesto”, oppure “tutte le colonne” (esempi dei file risultanti nelle figg. 8 e 9). Per salvare su file una lista di frequenza procedere come per le concordanze, ma selezionare nel menù a scorrimento “salva come” l’opzione “lista di frequenza” (esempi dei file risultanti nella fig. 10). Fig. 7. Modalità di salvataggio su file Figura 8. Salvataggio di concordanze con l’opzione “tutte le colonne” file tipo testuale madrelingua età livello forma 0889 0163 0248 0979 0742 0793 0793 0909 1010 1015 0170 0222 0947 narrativo2 argomentativo argomentativo narrativo2 prescrittivo narrativo2 narrativo2 narrativo2 narrativo2 narrativo2 argomentativo argomentativo narrativo2 inglese cinese inglese albanese albanese coreano coreano bulgaro francese inglese polacco russo greco 20 26 26 19 32 29 29 18 25 22 21 32 20 2-elementare 2-elementare 2-elementare 4-avanzato altro 1-principiante 1-principiante 2-elementare 4-avanzato 4-avanzato 3-intermedio 4-avanzato 3-intermedio abbraccio abbraccione abbraccione abbracciono Abbraci abbracia abbracia abbraciare abbraciare abbraciatti abbracio abbracio abbraciò Figura 9. Salvataggio di concordanze con l’opzione “numero file e contesto” 0889 abbraccio 0163 abbraccione 0248 abbraccione 16 0979 0742 0793 0793 0909 1010 1015 0170 0222 0947 abbracciono Abbraci abbracia abbracia abbraciare abbraciare abbraciatti abbracio abbracio abbraciò Figura 10. Salvataggio di una lista di frequenza prime 20 forme per frequenza nel corpus scritto prime 20 forme per frequenza nel corpus orale 5938 5888 4502 4054 3192 3184 2785 2726 2421 2229 1966 1951 1941 1919 1871 1463 1425 1359 1357 1302 8303 4437 4398 3889 3662 2492 2278 2265 2166 1968 1942 1773 1749 1697 1625 1608 1451 1445 1235 1222 e la il di che è a un per in sono nonna ha non una si era lupo ma Con sì ehm è non e no ma la un che per a di perché il in mhm io ho sono In modalità ricerca semplice è possibile individuare alcuni fenomeni segnalati da caratteri o sequenze di caratteri speciali, già illustrati nelle convenzioni di trascrizione (v. tabelle 4, 5 e 6). Poiché alcuni di questi caratteri non sono presenti sulla tastiera del PC, si sono riprodotti nella maschera di ricerca. Per inserirli nella finestra di ricerca è sufficiente fare su di essi doppio clic. A parte il carattere ÷, che segnala il cambio di tema ed è comune ai testi scritti e orali, per il resto si tratta di convenzioni di trascrizione utilizzate solo per i testi orali. Riportiamo di seguito i fenomeni ricercabili grazie ai caratteri speciali22: Tabella 4. Caratteri speciali per la ricerca Fenomeno Falsa partenza Tonia esclamativa Tonia interrogativa Tonia conclusiva Tonia sospensiva Giuntura sintattica Domande a coda Pausa Tenuta vocalica 22 carattere (o stringa di caratteri) di ricerca @ ! ? . … , ¿*? [#] breve, [##] media, [###] lunga : breve, :: media, ::: lunga Nei testi scritti alcuni di questi caratteri sono usati come segni di interpunzione o come simboli paragrafematici. 17 Sovrapposizione Autointerruzione Eterointerruzione Autocompletamento Eterocompletamento Interruzione di parola [//] [///] [/] [+] [++] | Ricerca avanzata Altri fenomeni di interesse linguistico sono stati marcati in modo non visibile per l’utente, e sono recuperabili in modalità ricerca avanzata. Qui di seguito sono riprodotte le maschere di ricerca avanzata relative al corpus scritto (fig. 11) e orale (fig. 12) dalle quali si può ricavare il set di fenomeni ricercabili: Figura 11. Maschera per la ricerca avanzata nel corpus scritto 18 Figura 12. Maschera per la ricerca avanzata nel corpus orale Selezionando un elemento della lista si ottengono tutti i contesti in cui compare il fenomeno, per es. tutte le cancellature; in alternativa è possibile restringere la ricerca digitando anche una stringa di caratteri: per es. nella fig. 13 vediamo i risultati della ricerca dei soli contesti di cancellature contenenti il testo “ho”. Figura 13. Risultati della ricerca di “cancellature” contenenti il testo “ho” Statistiche Selezionando la voce “statistiche”, è possibile ottenere le seguenti misurazioni sul corpus selezionato: Corpus scritto Numero di testi Numero di periodi Corpus orale Numero di testi Numero di enunciati 19 Numero di parole (tokens) Media periodi per testo Media parole per periodo Lunghezza media delle parole Numero di turni di parola Numero di parole (tokens) Media enunciati per testo Media enunciati per turno di parola Media parole per enunciato Lunghezza media delle parole Nel corpus scritto i confini di periodo sono individuati automaticamente dal programma come sequenze di parole comprese tra un punto, un punto esclamativo o interrogativo e un altro punto, punto esclamativo o interrogativo. Poiché per ragioni di attendibilità filologica delle trascrizioni non si è intervenuti sull’uso di maiuscole, segni di interpunzione ecc. i risultati di questa misurazione possono in alcuni casi dipendere dall’usus scribendi dell’apprendente. L’unico intervento effettuato per rendere più attendibile la misura è stato quello di utilizzare un carattere leggermente diverso (un punto sovrascritto) per gli usi non demarcativi del punto, per es. per serie di punti sospensivi non corrispondenti a un confine di frase, serie di punti introdotti dallo scrivente per altri scopi, come ad es. segnalare abbreviazioni, unire dati o creare un elenco puntato. Nel corpus orale i confini di enunciato sono stati individuati e marcati manualmente sulla base di criteri fondamentalmente prosodici (profilo intonativo, pause), integrati dove necessario da considerazioni semantiche (completezza della struttura predicativa, compiutezza semantica)23. 4. Materiali di supporto Nel DVD è presente una cartella con questo nome contenente i seguenti file: ! guida all’uso di ADIL2 (tratta dalla presente introduzione); ! consegne delle prove scritte; ! immagini delle vignette, foto o altre illustrazioni utilizzate per elicitare la narrazione di una storia; ! descrizione delle scene di film utilizzate per elicitare la narrazione di una storia; ! database degli informanti, da cui si possono ricavare ulteriori notizie sull’informante oltre a quelle utili per selezionare il corpus (età, sesso, lingua madre, livello di competenza). Per es. si possono ricavare notizie sulla professione, il titolo di studio, il numero di altre lingue straniere conosciute, eventuali origini italiane, le motivazioni che lo hanno indotto a studiare la nostra lingua, il tipo di contatto prevalente con lingua italiana in patria ecc. ! elenco delle convenzioni di trascrizione e visualizzazione; ! elenco dei fonosimboli; 23 Sulla complessità connessa alla definizione di enunciato e, conseguentemente, all’individuazione dei confini di enunciato nel parlato cfr. Cresti 2000: vol. I, 39-63. 20 ! elenco delle lingue madri degli informanti e relativi codici ISO. Riferimenti bibliografici Ambroso S. - Bonvino E. 2009, Configurazioni di discorso. Un’unità di analisi del parlato L2, in Andorno - Rastelli 2009: 153-177. Andorno C. - Rastelli S. (a c. di) 2009, Atti del convegno Corpora di italiano L2: tecnologie, metodi, spunti tecnici. Pavia 22-23 novembre 2007, Perugia, Guerra. Barbera M. – Marello C., 2004, VALICO (Varietà di Apprendimento della Lingua Italiana Corpus Online): una presentazione, «ITALS» 4, Guerra, Perugia. Barni M. - Gallina F. 2008, Le parole degli stranieri: il LIPS, il primo lessico di frequenza dell’italiano parlato dagli stranieri, in: M. Barni - D. Troncarelli - C. Bagna (a c. di), Lessico e apprendimenti. Il ruolo del lessico nella linguistica educativa, Milano, Franco Angeli: 143-156. Barni M., Gallina F. 2009, Il corpus LIPS (Lessico dell’italiano parlato da stranieri): problemi di trattamento delle forme e di lemmatizzazione, in C. Andorno e S. Rastelli (a c. di) 2009: 139151. Cassandro M, Apprendimento in contesto guidato: l’imperfetto in italiano L2, Tesi di dottorato in Linguistica e didattica della lingua italiana a stranieri (XII ciclo), Tutor M. Benedetti, discussa nell’a.a. 200-2001. Cresti E. 2000, Corpus di italiano parlato. Volume I. Introduzione. Volume II. Campionamenti, Firenze, Accademia della Crusca. Ferreiro E. / Pontecorvo C. et alii, 1996, Cappuccetto Rosso impara a scrivere, Firenze, La Nuova Italia. Granger S. 2004, Computer learner corpus research: current status and future prospectives, in: U. Connor - T. Utpon (a c. di) Applied Corpus Linguistics: A Multidimensional Perspective, Amsterdam – Atlanta, Rodopi: 123-145. Lo Duca M. G., 1998, Testi narrativi in apprendenti l’italiano come L2: resoconto di una ricerca in corso, «Études romanes» 42: 281-94. Palermo M. - Troncarelli D. – Petrocelli E. (in stampa), Le ricadute dell’input sull’output: aspetti della coesione nei libri di testo e nelle produzioni di apprendenti di Italiano L2 e L1, in: Atti del convegno-seminario Interazione didattica e apprendimento linguistico, Università degli studi di Bergamo 17-18 giugno 2008 (in stampa). Palermo M., 2005, L’ADIL2 (Archivio Digitale di Italiano L2), «Studi Italiani di Linguistica Teorica e applicata» XXXIV 2005: 357-73. Palermo M., 2006, Sulla costruzione del periodo ipotetico in italiano L2, «Studi Italiani di Linguistica Teorica e applicata» XXXV 2006: 389-404. Rossini Favretti R. (a c. di) 2000 = Linguistica e informatica. Corpora, multimedialità e percorsi di apprendimento, Roma, Bulzoni. Vedovelli M. 2006, Il LIPS - Lessico di frequenza dell’Italiano Parlato dagli Stranieri, in C. Bardel, J. Nystedt (a c. di), Progetto Dizionario Italiano-Svedese. Atti del primo colloquio, Stoccolma, 10-12 febbraio 2005, Acta Universitatis Stockholmiensis 22, Stockolm, Romanica Stockholmiensia: 55-78. 21